计算, 显存, 通信

题目列表

只看错题

0/24

对于 Transformer 模型，前向传播的计算量（FLOPs）与参数量 $N$ 和 token ...

反向传播的计算量通常是前向传播的多少倍？

训练一个 Transformer 模型处理 $D$ 个 token 的总 FLOPs 估算公式是什么...

在 Transformer 层的计算中，哪部分计算量与序列长度 $L$ 的平方成正比？

假设一个 Transformer 模型有 10 亿参数（ $N=10^9$ ），处理 10 亿 toke...

对于固定隐藏维度 $d_{model}$ 和序列长度 $L$ ，增加 Transformer 层数会如...

下列哪种显存优化技术主要通过“以计算时间换取显存空间”来工作？

在多项显存优化技术中，ZeRO（Zero Redundancy Optimizer）技术主要优化了以...

使用 AdamW 优化器对参数量为 $P$ 的模型进行全参数训练时，其优化器状态通常占用多少显存？（...

DeepSpeed 的 ZeRO-Offload 技术为了在单 GPU 上训练更大模型，其核心策略是...

在自回归模型（如 GPT）的推理过程中，为什么需要维护一个键值缓存（KV Cache）？

在混合精度训练（如使用 FP16）中，为什么需要引入梯度缩放（Gradient Scaling）？

数据并行（Data Parallelism）最核心的思想是什么？

微软 DeepSpeed 中的 ZeRO（Zero Redundancy Optimizer）优化技...

“3D 并行”是训练超大规模模型（如万亿参数）时采用的混合并行策略，它通常不包含以下哪一项？

在张量并行（Tensor Parallelism）中，若要将一个线性层 $Y = X \times ...

在流水线并行（Pipeline Parallelism）中，引入“微批次（Micro-batchin...

以下关于各种并行策略的描述中，正确的有哪些？

在数据并行训练中，使用 All-Reduce 操作同步梯度时，其通信量主要取决于什么？

以下哪种并行策略通常被认为在设备间产生的通信开销最大？

下列哪项技术是降低数据并行中梯度同步通信开销的有效方法？

对于基于 Transformer 架构的大模型，哪种通信操作是其分布式训练中最常见的？

假设你在一个跨多个服务器的 GPU 集群上训练大模型，为降低通信延迟，应优先选择哪种高速互联技术？

以下哪些因素会显著影响大模型训练中的通信开销？

请选择一道题目开始答题