对齐

进度: 0/347
0%
-- FLOPs
题目列表
0/37
1

基于人类反馈的强化学习(RLHF)中,用于训练奖励模型的关键数据是什么?

2

为了解决高质量对齐数据获取成本高、效率低的问题,研究者们探索了哪些创新方法?

3

PPO(近端策略优化)的核心思想是什么?

4

PPO 算法中常用的 “Clipping” 机制的主要目的是什么?

5

PPO 算法为何适用于大语言模型(LLM)的强化学习人类反馈(RLHF)阶段?

6

奖励模型(Reward Model)的训练质量最根本依赖于什么?

7

在设计奖励函数时,如果希望模型同时兼顾“回答的帮助性”和“安全性”,但两者在某些场景下可能存在冲突,...

8

训练奖励模型时,可能会遇到“偏好噪声”问题,以下哪种方法能有效提升模型在噪声数据下的稳健性?

9

如何更全面地评估一个奖励模型的优劣?

10

以下哪些是确保奖励模型训练稳定性的有效技术?

11

PPO 算法中最重要的稳定训练机制是什么?

12

监控训练过程中的 KL 散度(Kullback-Leibler Divergence)有助于发现什么...

13

如何有效应对奖励曲线剧烈震荡但整体有上升趋势的情况?

14

以下哪些方法可以帮助 PPO 训练更加稳定?

15

除了裁剪机制,PPO 还常采用哪种约束策略更新幅度的方法?

16

DPO(Direct Preference Optimization)算法最核心的创新点是什么?

17

在 DPO 的损失函数中,参考模型 πref\pi_{ref} 的主要作用是什么?

18

DPO 算法相比传统的 RLHF(基于 PPO)方法,其主要优势不包括以下哪项?

19

DPO 算法的成功实施,在很大程度上依赖于以下哪些条件?

20

DPO(直接偏好优化)相比 PPO(近端策略优化)的一个最显著优势是什么?

21

关于 PPO 算法的训练流程,以下哪项描述是正确的?

22

如果想要让大模型在遵循偏好的同时保持通用能力不产生退化,DPO 和 PPO 分别通过什么机制实现?

23

以下哪些场景下选择 PPO 可能比 DPO 更合适?

24

以下哪种偏好对齐算法仅需要二元反馈(如“点赞”),而无需成对对比数据?

25

ORPO (Odds Ratio Preference Optimization) 算法的一个显著特...

26

基于表征工程(Representation Engineering)的偏好对齐方法(如 RAHF)主...

27

以下关于偏好对齐算法的描述,哪些是正确的?

28

监控大模型对齐训练过程的终极目的是什么?

29

在训练过程中,哪项指标是评估模型输出是否“有用”和“无害”的最直接方法?

30

一种名为 “Diff-eRank” 的新颖监控指标主要关注什么?

31

为了防止性能发生“灾难性遗忘”或“对齐税”,通常需要监控以下哪些项?

32

在训练过程中,如果发现“梯度范数”突然急剧增大,最可能表明什么?

33

监督微调(SFT)和强化学习(RLHF)最根本的区别是什么?

34

关于训练数据,以下哪项描述是正确的?

35

为什么在实践中,RLHF 通常需要在 SFT 之后进行?

36

以下哪些是 RLHF 相比 SFT 的优势?

37

关于“对齐税”(Alignment Tax)的说法,以下哪项是正确的?

请选择一道题目开始答题
对齐 - LLM 题库