关于“贪心搜索”(Greedy Search),以下哪项描述是正确的?
“Top-P 采样”(核采样)与 “Top-K 采样”的一个关键区别在于?
如果你想生成一段创意文案,希望文本既有新意又不至于太离谱,以下哪种策略组合通常更合适?
关于“对比搜索”(Contrastive Search),以下哪项描述是正确的?
以下哪些方法属于“随机采样”策略,而非“确定性”策略?
关于“温度”(Temperature)参数,以下哪项描述是正确的?
如果你想生成一段技术文档,希望内容准确且稳定,以下哪种参数组合通常更合适?
repetition_penalty 参数的主要作用是什么?
以下哪些策略可以帮助控制生成文本的长度并保证其完整性?
FlashAttention 最核心的优化目标是什么?
为了实现分块计算并保证数学等价性,FlashAttention 在 Softmax 步骤采用了哪种...
与传统注意力机制相比,FlashAttention 带来的最显著变化是什么?
以下关于 FlashAttention 的描述中,正确的有哪些?
FlashAttention-3的性能提升很大程度上依赖于对现代GPU硬件特性的深度优化,以下哪项不...
以下关于FlashAttention性能提升的说法中,正确的有哪些?
FlashAttention 能将注意力机制的显存占用从 降至 ,这在...
专家并行(Expert Parallelism)最核心的思想是什么?
在专家并行中,前向传播时通常涉及哪种关键的通信模式?
以下哪一项是专家并行面临的主要挑战?
与数据并行(Data Parallelism)相比,专家并行的主要优势是什么?
为了优化专家并行中的通信性能,可以采取哪些策略?
vLLM 框架最核心的创新是什么?
PagedAttention 技术主要是为了解决传统 LLM 推理中的什么问题?
PagedAttention 中的“块”(Block)类似于操作系统中的什么概念?
PagedAttention 技术带来的最直接好处是什么?
vLLM 框架非常适合以下哪些应用场景?
PagedAttention 中的“块表”(Block Table)其主要作用是什么?
PagedAttention 如何实现不同序列间共享相同的提示词(Prompt)前缀,从而节省显存?
与传统方法相比,PagedAttention 将 KV Cache 的显存占用复杂度从什么级别降到了...
在部分设备上,PyTorch 运行 INT8 量化模型速度变慢甚至不如 FP32,最可能的原因是什么...
模型中某些特殊操作(如 GELU 激活函数、LayerNorm 层)可能影响量化后的整体速度,这是因...
量化过程中插入的“量化(Quantize)”和“反量化(Dequantize)”操作本身会带来开销,...
以下哪些是导致 PyTorch 量化模型速度未达预期的可能原因?
监督微调(SFT)最核心的目标是什么?
以下哪一项不是 SFT 微调的优势?
在选择用于 SFT 的预训练模型时,首要考虑因素是什么?
为了获得更好的 SFT 效果和稳定性,在微调过程中通常可以采用哪些策略?
关于参数高效微调方法(PEFT)如 LoRA 与全参数微调(Full-tuning)的对比,以下说法...