Transformer架构 - LLM 题库

题目列表

只看错题

0/61

Transformer 中的自注意力机制（Self-Attention）的计算复杂度是多少？

Transformer 模型需要使用位置编码（Positional Encoding）的主要原因是什...

关于 Transformer 的编码器和解码器，以下哪项描述是正确的？

在 Transformer 的缩放点积注意力机制中，将点积结果 $QK^T$ 除以 $\sqrt{d...

假设查询（Q）和键（K）向量的每个元素是独立同分布的随机变量，且均值为 $0$ ，方差为 $1$ 。那么...

如果我们将缩放因子从 $\sqrt{d_k}$ 改为 $d_k$ 本身，即计算 $\frac{QK^...

在缩放点积注意力中，正确地除以 $\sqrt{d_k}$ 可以带来哪些好处？

以下关于缩放操作和其他技术关系的描述，哪一项是正确的？

旋转位置编码（RoPE）最核心的思想是什么？

在 RoPE 中，用于计算旋转角度的频率参数 $\theta_i$ 通常是如何定义的？（其中 $d$ ...

以下哪一项是 RoPE 相较于传统绝对位置编码（如正弦编码）和可学习位置编码的主要优势？

RoPE 是如何应用于 Transformer 模型的自注意力机制的？

动态 RoPE（如 Qwen3 中采用）是针对基础 RoPE 的改进，其主要改进点是什么？

与 ALiBi（Attention with Linear Biases）这种相对位置编码相比，Ro...

ALiBi（Attention with Linear Biases）位置编码方法的核心思想是什么？

ALiBi 修改后的注意力分数计算公式最可能是以下哪一项？

ALiBi 之所以具备强大的长度外推能力（即在训练时使用较短序列，推理时能有效处理更长序列），其主要...

与旋转位置编码（RoPE）相比，ALiBi 具有哪些显著的不同点或优势？

稀疏注意力（Sparse Attention）最核心的目标是什么？

稀疏注意力通常如何实现？

以下哪些属于稀疏注意力中常见的模式或策略？

关于稀疏注意力的优缺点，以下哪项描述是正确的？

稀疏注意力技术最适用于以下哪种场景？

稀疏注意力（Sparse Attention）与FlashAttention的主要区别在于？

线性注意力（Linear Attention）最核心的目标是什么？

线性注意力（例如 Linear Transformer 模型）实现复杂度降低的关键数学技巧通常是什么...

以下哪些是线性注意力机制的主要优势或特点？

Linformer 模型实现线性注意力的核心策略是什么？它与 Linear Transformer ...

线性注意力机制目前面临的主要挑战或局限性是什么？

为了克服线性注意力的局限性，当前的研究趋势包括哪些？

关于多头注意力（MHA）、多查询注意力（MQA）、分组查询注意力（GQA）和多头潜在注意力（MLA）...

在自回归推理（如文本生成）时，关于 KV Cache 的内存占用，从高到低排序通常正确的是？

关于这些注意力机制的优缺点，以下哪项描述是错误的？

以下关于不同注意力机制适用场景的描述，哪些是正确的？

归一化技术（如 BatchNorm, LayerNorm, RMSNorm）最核心的目标是什么？

关于 BatchNorm（批量归一化），以下哪项描述是正确的？

LayerNorm（层归一化）最适用于以下哪种场景？

RMSNorm（均方根归一化）与 LayerNorm 的主要区别在于？

以下关于三种归一化技术适用场景的描述，哪一项是正确的？

在为以下场景选择归一化技术时，哪些决策是合理的？

关于Pre-Norm和Post-Norm的核心结构差异，以下哪项描述最准确？

为什么当今绝大多数大型语言模型（如LLaMA、GPT）都采用Pre-Norm结构？

尽管Post-Norm在深模型中难以训练，但在某些情况下它仍可能被考虑。以下哪项通常是Post-No...

以下关于Pre-Norm和Post-Norm在梯度传播上的描述，正确的有哪些？

Dropout 技术在神经网络训练中最主要的目标是什么？

在训练阶段，Dropout 是如何具体实现的？

在模型推理（测试）阶段，通常如何处理 Dropout？

设某个神经元的原始输出为 $x$ ，丢弃率为 $p=0.2$ 。在使用了 Inverted Dropou...

你正在训练一个深度学习模型，并在其中的全连接层后添加了 Dropout 层（丢弃率 $p=0.5$ ）...

关于“全零初始化”，以下描述正确的是？

He初始化（Kaiming初始化）与Xavier初始化的一个关键区别在于？

正交初始化（Orthogonal Initialization）通常推荐用于哪种类型的网络？

关于参数初始化，以下说法正确的有？

因果解码器架构能够成为当前大模型主流选择，主要归功于以下哪些优势？

因果解码器架构的预训练目标通常是什么？

因果解码器架构在推理（生成文本）时的一个关键效率优化是什么？

因果解码器（Causal Decoder）最核心的特征是什么？

MoE模型在训练过程中最需要关注下列哪个问题？

一个MoE模型总参数量为671B，但每次推理仅激活370B参数。这主要得益于：

预估MoE模型的推理速度时，除了激活参数量，还需重点考虑

相较于密集模型，MoE模型在推理速度上的主要优势通常体现在：

请选择一道题目开始答题