计算, 显存, 通信

进度: 0/347
0%
-- FLOPs
题目列表
0/24
1

对于 Transformer 模型,前向传播的计算量(FLOPs)与参数量 NN 和 token ...

2

反向传播的计算量通常是前向传播的多少倍?

3

训练一个 Transformer 模型处理 DD 个 token 的总 FLOPs 估算公式是什么...

4

在 Transformer 层的计算中,哪部分计算量与序列长度 LL 的平方成正比?

5

假设一个 Transformer 模型有 10 亿参数(N=109N=10^9),处理 10 亿 toke...

6

对于固定隐藏维度 dmodeld_{model} 和序列长度 LL,增加 Transformer 层数会如...

7

下列哪种显存优化技术主要通过“以计算时间换取显存空间”来工作?

8

在多项显存优化技术中,ZeRO(Zero Redundancy Optimizer)技术主要优化了以...

9

使用 AdamW 优化器对参数量为 PP 的模型进行全参数训练时,其优化器状态通常占用多少显存?(...

10

DeepSpeed 的 ZeRO-Offload 技术为了在单 GPU 上训练更大模型,其核心策略是...

11

在自回归模型(如 GPT)的推理过程中,为什么需要维护一个键值缓存(KV Cache)?

12

在混合精度训练(如使用 FP16)中,为什么需要引入梯度缩放(Gradient Scaling)?

13

数据并行(Data Parallelism)最核心的思想是什么?

14

微软 DeepSpeed 中的 ZeRO(Zero Redundancy Optimizer)优化技...

15

“3D 并行”是训练超大规模模型(如万亿参数)时采用的混合并行策略,它通常不包含以下哪一项?

16

在张量并行(Tensor Parallelism)中,若要将一个线性层 $Y = X \times ...

17

在流水线并行(Pipeline Parallelism)中,引入“微批次(Micro-batchin...

18

以下关于各种并行策略的描述中,正确的有哪些?

19

在数据并行训练中,使用 All-Reduce 操作同步梯度时,其通信量主要取决于什么?

20

以下哪种并行策略通常被认为在设备间产生的通信开销最大?

21

下列哪项技术是降低数据并行中梯度同步通信开销的有效方法?

22

对于基于 Transformer 架构的大模型,哪种通信操作是其分布式训练中最常见的?

23

假设你在一个跨多个服务器的 GPU 集群上训练大模型,为降低通信延迟,应优先选择哪种高速互联技术?

24

以下哪些因素会显著影响大模型训练中的通信开销?

请选择一道题目开始答题
计算, 显存, 通信 - LLM 题库