基于人类反馈的强化学习(RLHF)中,用于训练奖励模型的关键数据是什么?
为了解决高质量对齐数据获取成本高、效率低的问题,研究者们探索了哪些创新方法?
PPO(近端策略优化)的核心思想是什么?
PPO 算法中常用的 “Clipping” 机制的主要目的是什么?
PPO 算法为何适用于大语言模型(LLM)的强化学习人类反馈(RLHF)阶段?
奖励模型(Reward Model)的训练质量最根本依赖于什么?
在设计奖励函数时,如果希望模型同时兼顾“回答的帮助性”和“安全性”,但两者在某些场景下可能存在冲突,...
训练奖励模型时,可能会遇到“偏好噪声”问题,以下哪种方法能有效提升模型在噪声数据下的稳健性?
如何更全面地评估一个奖励模型的优劣?
以下哪些是确保奖励模型训练稳定性的有效技术?
PPO 算法中最重要的稳定训练机制是什么?
监控训练过程中的 KL 散度(Kullback-Leibler Divergence)有助于发现什么...
如何有效应对奖励曲线剧烈震荡但整体有上升趋势的情况?
以下哪些方法可以帮助 PPO 训练更加稳定?
除了裁剪机制,PPO 还常采用哪种约束策略更新幅度的方法?
DPO(Direct Preference Optimization)算法最核心的创新点是什么?
在 DPO 的损失函数中,参考模型 的主要作用是什么?
DPO 算法相比传统的 RLHF(基于 PPO)方法,其主要优势不包括以下哪项?
DPO 算法的成功实施,在很大程度上依赖于以下哪些条件?
DPO(直接偏好优化)相比 PPO(近端策略优化)的一个最显著优势是什么?
关于 PPO 算法的训练流程,以下哪项描述是正确的?
如果想要让大模型在遵循偏好的同时保持通用能力不产生退化,DPO 和 PPO 分别通过什么机制实现?
以下哪些场景下选择 PPO 可能比 DPO 更合适?
以下哪种偏好对齐算法仅需要二元反馈(如“点赞”),而无需成对对比数据?
ORPO (Odds Ratio Preference Optimization) 算法的一个显著特...
基于表征工程(Representation Engineering)的偏好对齐方法(如 RAHF)主...
以下关于偏好对齐算法的描述,哪些是正确的?
监控大模型对齐训练过程的终极目的是什么?
在训练过程中,哪项指标是评估模型输出是否“有用”和“无害”的最直接方法?
一种名为 “Diff-eRank” 的新颖监控指标主要关注什么?
为了防止性能发生“灾难性遗忘”或“对齐税”,通常需要监控以下哪些项?
在训练过程中,如果发现“梯度范数”突然急剧增大,最可能表明什么?
监督微调(SFT)和强化学习(RLHF)最根本的区别是什么?
关于训练数据,以下哪项描述是正确的?
为什么在实践中,RLHF 通常需要在 SFT 之后进行?
以下哪些是 RLHF 相比 SFT 的优势?
关于“对齐税”(Alignment Tax)的说法,以下哪项是正确的?