训练与推理 - LLM 题库

题目列表

只看错题

0/38

关于“贪心搜索”（Greedy Search），以下哪项描述是正确的？

“Top-P 采样”（核采样）与 “Top-K 采样”的一个关键区别在于？

如果你想生成一段创意文案，希望文本既有新意又不至于太离谱，以下哪种策略组合通常更合适？

关于“对比搜索”（Contrastive Search），以下哪项描述是正确的？

以下哪些方法属于“随机采样”策略，而非“确定性”策略？

关于“温度”（Temperature）参数，以下哪项描述是正确的？

如果你想生成一段技术文档，希望内容准确且稳定，以下哪种参数组合通常更合适？

repetition_penalty 参数的主要作用是什么？

以下哪些策略可以帮助控制生成文本的长度并保证其完整性？

FlashAttention 最核心的优化目标是什么？

为了实现分块计算并保证数学等价性，FlashAttention 在 Softmax 步骤采用了哪种...

与传统注意力机制相比，FlashAttention 带来的最显著变化是什么？

以下关于 FlashAttention 的描述中，正确的有哪些？

FlashAttention-3的性能提升很大程度上依赖于对现代GPU硬件特性的深度优化，以下哪项不...

以下关于FlashAttention性能提升的说法中，正确的有哪些？

FlashAttention 能将注意力机制的显存占用从 $O(N^2)$ 降至 $O(N)$ ，这在...

专家并行（Expert Parallelism）最核心的思想是什么？

在专家并行中，前向传播时通常涉及哪种关键的通信模式？

以下哪一项是专家并行面临的主要挑战？

与数据并行（Data Parallelism）相比，专家并行的主要优势是什么？

为了优化专家并行中的通信性能，可以采取哪些策略？

vLLM 框架最核心的创新是什么？

PagedAttention 技术主要是为了解决传统 LLM 推理中的什么问题？

PagedAttention 中的“块”（Block）类似于操作系统中的什么概念？

PagedAttention 技术带来的最直接好处是什么？

vLLM 框架非常适合以下哪些应用场景？

PagedAttention 中的“块表”（Block Table）其主要作用是什么？

PagedAttention 如何实现不同序列间共享相同的提示词（Prompt）前缀，从而节省显存？

与传统方法相比，PagedAttention 将 KV Cache 的显存占用复杂度从什么级别降到了...

在部分设备上，PyTorch 运行 INT8 量化模型速度变慢甚至不如 FP32，最可能的原因是什么...

模型中某些特殊操作（如 GELU 激活函数、LayerNorm 层）可能影响量化后的整体速度，这是因...

量化过程中插入的“量化（Quantize）”和“反量化（Dequantize）”操作本身会带来开销，...

以下哪些是导致 PyTorch 量化模型速度未达预期的可能原因？

监督微调（SFT）最核心的目标是什么？

以下哪一项不是 SFT 微调的优势？

在选择用于 SFT 的预训练模型时，首要考虑因素是什么？

为了获得更好的 SFT 效果和稳定性，在微调过程中通常可以采用哪些策略？

关于参数高效微调方法（PEFT）如 LoRA 与全参数微调（Full-tuning）的对比，以下说法...

请选择一道题目开始答题