对于 Transformer 模型,前向传播的计算量(FLOPs)与参数量 和 token ...
反向传播的计算量通常是前向传播的多少倍?
训练一个 Transformer 模型处理 个 token 的总 FLOPs 估算公式是什么...
在 Transformer 层的计算中,哪部分计算量与序列长度 的平方成正比?
假设一个 Transformer 模型有 10 亿参数(),处理 10 亿 toke...
对于固定隐藏维度 和序列长度 ,增加 Transformer 层数会如...
下列哪种显存优化技术主要通过“以计算时间换取显存空间”来工作?
在多项显存优化技术中,ZeRO(Zero Redundancy Optimizer)技术主要优化了以...
使用 AdamW 优化器对参数量为 的模型进行全参数训练时,其优化器状态通常占用多少显存?(...
DeepSpeed 的 ZeRO-Offload 技术为了在单 GPU 上训练更大模型,其核心策略是...
在自回归模型(如 GPT)的推理过程中,为什么需要维护一个键值缓存(KV Cache)?
在混合精度训练(如使用 FP16)中,为什么需要引入梯度缩放(Gradient Scaling)?
数据并行(Data Parallelism)最核心的思想是什么?
微软 DeepSpeed 中的 ZeRO(Zero Redundancy Optimizer)优化技...
“3D 并行”是训练超大规模模型(如万亿参数)时采用的混合并行策略,它通常不包含以下哪一项?
在张量并行(Tensor Parallelism)中,若要将一个线性层 $Y = X \times ...
在流水线并行(Pipeline Parallelism)中,引入“微批次(Micro-batchin...
以下关于各种并行策略的描述中,正确的有哪些?
在数据并行训练中,使用 All-Reduce 操作同步梯度时,其通信量主要取决于什么?
以下哪种并行策略通常被认为在设备间产生的通信开销最大?
下列哪项技术是降低数据并行中梯度同步通信开销的有效方法?
对于基于 Transformer 架构的大模型,哪种通信操作是其分布式训练中最常见的?
假设你在一个跨多个服务器的 GPU 集群上训练大模型,为降低通信延迟,应优先选择哪种高速互联技术?
以下哪些因素会显著影响大模型训练中的通信开销?