训练与推理

进度: 0/347
0%
-- FLOPs
题目列表
0/38
1

关于“贪心搜索”(Greedy Search),以下哪项描述是正确的?

2

“Top-P 采样”(核采样)与 “Top-K 采样”的一个关键区别在于?

3

如果你想生成一段创意文案,希望文本既有新意又不至于太离谱,以下哪种策略组合通常更合适?

4

关于“对比搜索”(Contrastive Search),以下哪项描述是正确的?

5

以下哪些方法属于“随机采样”策略,而非“确定性”策略?

6

关于“温度”(Temperature)参数,以下哪项描述是正确的?

7

如果你想生成一段技术文档,希望内容准确且稳定,以下哪种参数组合通常更合适?

8

repetition_penalty 参数的主要作用是什么?

9

以下哪些策略可以帮助控制生成文本的长度并保证其完整性?​​

10

FlashAttention 最核心的优化目标是什么?​​

11

为了实现分块计算并保证数学等价性,FlashAttention 在 Softmax 步骤采用了哪种...

12

与传统注意力机制相比,FlashAttention 带来的最显著变化是什么?​​

13

以下关于 FlashAttention 的描述中,正确的有哪些?​​

14

FlashAttention-3的性能提升很大程度上依赖于对现代GPU硬件特性的深度优化,以下哪项不...

15

以下关于FlashAttention性能提升的说法中,正确的有哪些?​​

16

FlashAttention 能将注意力机制的显存占用从 O(N2)O(N^2) 降至 O(N)O(N),这在...

17

专家并行(Expert Parallelism)最核心的思想是什么?

18

在专家并行中,前向传播时通常涉及哪种关键的通信模式?

19

以下哪一项是专家并行面临的主要挑战?​​

20

与数据并行(Data Parallelism)相比,专家并行的主要优势是什么?​​

21

为了优化专家并行中的通信性能,可以采取哪些策略?​​

22

vLLM 框架最核心的创新是什么?

23

PagedAttention 技术主要是为了解决传统 LLM 推理中的什么问题?

24

PagedAttention 中的“块”(Block)类似于操作系统中的什么概念?

25

PagedAttention 技术带来的最直接好处是什么?

26

vLLM 框架非常适合以下哪些应用场景?

27

PagedAttention 中的“块表”(Block Table)其主要作用是什么?

28

PagedAttention 如何实现不同序列间共享相同的提示词(Prompt)前缀,从而节省显存?

29

与传统方法相比,PagedAttention 将 KV Cache 的显存占用复杂度从什么级别降到了...

30

在部分设备上,PyTorch 运行 INT8 量化模型速度变慢甚至不如 FP32,最可能的原因是什么...

31

模型中某些特殊操作(如 GELU 激活函数、LayerNorm 层)可能影响量化后的整体速度,这是因...

32

量化过程中插入的“量化(Quantize)”和“反量化(Dequantize)”操作本身会带来开销,...

33

以下哪些是导致 PyTorch 量化模型速度未达预期的可能原因?

34

监督微调(SFT)最核心的目标是什么?

35

以下哪一项不是 SFT 微调的优势?​​

36

在选择用于 SFT 的预训练模型时,首要考虑因素是什么?​​

37

为了获得更好的 SFT 效果和稳定性,在微调过程中通常可以采用哪些策略?​​

38

关于参数高效微调方法(PEFT)如 LoRA 与全参数微调(Full-tuning)的对比,以下说法...

请选择一道题目开始答题
训练与推理 - LLM 题库