在决定是否为某个领域大模型扩充词表时,以下哪一项通常是最关键的考量因素?
词表扩充对模型训练与推理过程的直接影响是什么?
以下哪些指标或方法可用于评估词表扩充后的效率与有效性?
关于词表大小与模型能力之间的关系,以下哪种说法更准确?
以下哪种方法主要通过“修改注意力计算方式,降低长序列处理的计算复杂度”来提升模型的外推能力?
研究人员发现,调整 RoPE 位置编码中的“旋转角底数 (base)”超参数可以显著提升外推能力。当...
基于“位置插值”的方法(如 PI)来扩展上下文窗口,其基本思想是什么?有哪些潜在缺点?
一种名为 ALiBi 的方法在无需微调的情况下也能展现出良好的外推能力。它的核心做法是什么?
全面的长度外推方案常常会结合多种策略。以下哪种组合最有可能在“尽量不牺牲模型原有性能”的前提下,“显...
在大模型的监督微调 (SFT) 阶段,最常使用的损失函数是什么?
关于交叉熵损失相比均方误差 (MSE) 在分类任务中的优势,以下说法正确的是?
在人类反馈强化学习 (RLHF) 中,常使用 KL 散度作为损失函数的一部分,其主要作用是什么?
训练奖励模型 (Reward Model) 时,可能使用的损失函数包括?
在面对极高时效性要求(如分钟级更新)的知识问答场景时,哪种方案通常是最优选择?
关于“灾难性遗忘”(Catastrophic Forgetting)问题,以下描述正确的是?
检索增强生成 (RAG) 方案的优势包括哪些?
如果一家公司希望其大模型既能深入理解其稳定的产品知识(内化),又能快速响应瞬息万变的市场新闻,最合理...
LoRA (Low-Rank Adaptation) 微调技术的核心思想是什么?
在 LoRA 的数学表达中,前向传播的计算公式通常如何表示?
关于 LoRA 中引入的低秩矩阵(A 和 B),以下哪种说法是正确的?
LoRA 微调相比全参数微调的一个主要优势是什么?
在哪些场景下特别适合使用 LoRA 进行微调?