对齐 - LLM 题库

题目列表

只看错题

0/37

基于人类反馈的强化学习（RLHF）中，用于训练奖励模型的关键数据是什么？

为了解决高质量对齐数据获取成本高、效率低的问题，研究者们探索了哪些创新方法？

PPO（近端策略优化）的核心思想是什么？

PPO 算法中常用的 “Clipping” 机制的主要目的是什么？

PPO 算法为何适用于大语言模型（LLM）的强化学习人类反馈（RLHF）阶段？

奖励模型（Reward Model）的训练质量最根本依赖于什么？

在设计奖励函数时，如果希望模型同时兼顾“回答的帮助性”和“安全性”，但两者在某些场景下可能存在冲突，...

训练奖励模型时，可能会遇到“偏好噪声”问题，以下哪种方法能有效提升模型在噪声数据下的稳健性？

如何更全面地评估一个奖励模型的优劣？

以下哪些是确保奖励模型训练稳定性的有效技术？

PPO 算法中最重要的稳定训练机制是什么？

监控训练过程中的 KL 散度（Kullback-Leibler Divergence）有助于发现什么...

如何有效应对奖励曲线剧烈震荡但整体有上升趋势的情况？

以下哪些方法可以帮助 PPO 训练更加稳定？

除了裁剪机制，PPO 还常采用哪种约束策略更新幅度的方法？

DPO（Direct Preference Optimization）算法最核心的创新点是什么？

在 DPO 的损失函数中，参考模型 $\pi_{ref}$ 的主要作用是什么？

DPO 算法相比传统的 RLHF（基于 PPO）方法，其主要优势不包括以下哪项？

DPO 算法的成功实施，在很大程度上依赖于以下哪些条件？

DPO（直接偏好优化）相比 PPO（近端策略优化）的一个最显著优势是什么？

关于 PPO 算法的训练流程，以下哪项描述是正确的？

如果想要让大模型在遵循偏好的同时保持通用能力不产生退化，DPO 和 PPO 分别通过什么机制实现？

以下哪些场景下选择 PPO 可能比 DPO 更合适？

以下哪种偏好对齐算法仅需要二元反馈（如“点赞”），而无需成对对比数据？

ORPO (Odds Ratio Preference Optimization) 算法的一个显著特...

基于表征工程（Representation Engineering）的偏好对齐方法（如 RAHF）主...

以下关于偏好对齐算法的描述，哪些是正确的？

监控大模型对齐训练过程的终极目的是什么？

在训练过程中，哪项指标是评估模型输出是否“有用”和“无害”的最直接方法？

一种名为 “Diff-eRank” 的新颖监控指标主要关注什么？

为了防止性能发生“灾难性遗忘”或“对齐税”，通常需要监控以下哪些项？

在训练过程中，如果发现“梯度范数”突然急剧增大，最可能表明什么？

监督微调（SFT）和强化学习（RLHF）最根本的区别是什么？

关于训练数据，以下哪项描述是正确的？

为什么在实践中，RLHF 通常需要在 SFT 之后进行？

以下哪些是 RLHF 相比 SFT 的优势？

关于“对齐税”（Alignment Tax）的说法，以下哪项是正确的？

请选择一道题目开始答题