当前位置: 首页 > news >正文

16 RLHF 详解:奖励模型如何学习人类偏好?

在上一篇文章中,我们精读了 InstructGPT。

InstructGPT 的核心思想是:GPT-3 这类大语言模型虽然已经具备很强的文本生成能力,但它们的训练目标仍然是预测下一个 token,而不是直接优化用户真正关心的“回答是否有帮助、是否真实、是否安全、是否符合指令”。因此,InstructGPT 引入了一个非常重要的训练框架:

SFT + Reward Model + PPO / RLHF

也就是:

监督微调 ↓ 奖励模型 ↓ 基于人类反馈的强化学习

上一篇文章中,我们已经整体讲过 InstructGPT 的三步流程。这一章我们进一步深入其中最关键的一环:RLHF。RLHF 的全称是:

Reinforcement Learning from Human Feedback

中文可以翻译为:

基于人类反馈的强化学习

它要解决的问题是:

如何把人类对回答好坏的偏好,转化成模型可以优化的训练信号?

这听起来很简单,但实际上非常关键。因为语言模型本身只能优化:

下一个 token 是否符合训练数据分布

而用户真正关心的是:

回答是否有用 是否准确 是否遵循指令 是否安全 是否简洁 是否符合语境

这些目标很难直接写成一个简单的数学函数。所以 RLHF 的核心思路是:

让人类先比较不同回答的好坏,再训练一个奖励模型去模拟人类偏好,最后用这个奖励模型指导语言模型优化。


一、为什么需要 RLHF?

大语言模型的预训练目标是自回归语言建模。给定一个 token 序列:

模型学习的是:

也就是:

给定前文,预测下一个 token。

这个目标非常适合学习语言模式,但它并不等价于“生成一个好回答”。例如,用户问:

请用三句话解释什么是 Transformer。

一个基础语言模型可能会生成:

Transformer 是一种神经网络结构。它最早用于机器翻译。下面我将从十个方面详细解释……

这个回答虽然语言流畅,但没有遵循“三句话”的要求。再比如,用户问:

这篇论文的核心贡献是什么?

模型可能生成一段看起来很学术的文字,但其中包含编造的实验结果或不存在的方法名称。这是因为预训练目标只关心:

什么文本最可能出现?

而人类偏好关心的是:

什么回答更好?

这两个目标并不完全一致。RLHF 的作用就是让模型从:

预测高概率文本

进一步转向:

生成更符合人类偏好的回答

二、什么是人类偏好?

在 RLHF 中,人类偏好通常不是让标注者给回答打一个绝对分数,而是让他们比较多个回答。

例如给定同一个 prompt:

请解释什么是 Self-Attention。

模型生成了三个回答。回答 A:

Self-Attention 是一种注意力机制,用于计算序列中不同 token 之间的关系。

回答 B:

Self-Attention 是一种让每个 token 根据其他 token 更新自身表示的机制。它通过 Query、Key、Value 计算注意力权重,再对 Value 加权求和,从而融合上下文信息。

回答 C:

Self-Attention 是一种数据库索引技术,主要用于提高查询速度。

人类标注者可能会排序为:

B > A > C

因为:

B 更完整、更准确 A 正确但较简略 C 明显错误

这种排序信息就是人类偏好。相比直接打分,排序通常更容易标注。因为人类判断:

哪个回答更好?

通常比判断:

这个回答到底是 7.3 分还是 8.1 分?

更稳定。所以 RLHF 通常使用的是 preference data,也就是偏好数据。


三、RLHF 的整体流程

RLHF 通常包含三个核心步骤。

第一步:收集偏好数据 第二步:训练奖励模型 第三步:使用奖励模型优化语言模型

如果放到 InstructGPT 的完整流程中,则是:

预训练语言模型 ↓ SFT:监督微调 ↓ 生成多个候选回答 ↓ 人工对候选回答排序 ↓ 训练 Reward Model ↓ 使用 PPO 根据 Reward Model 优化模型 ↓ 得到更符合人类偏好的模型

这里有两个模型需要区分:

Policy Model:正在被优化的语言模型 Reward Model:负责给回答打分的奖励模型

Policy Model 负责生成回答。Reward Model 负责判断回答好不好。RLHF 的核心就是:

用 Reward Model 提供的奖励信号,引导 Policy Model 生成更符合人类偏好的回答。


四、偏好数据是怎么构造的?

偏好数据的构造通常包括以下过程。首先,准备一批用户 prompt。例如:

请总结下面这段文字。 请解释什么是 Transformer。 请帮我写一个 Python 函数。 请把下面英文翻译成中文。 请判断下面评论的情感。

然后,让当前模型对每个 prompt 生成多个候选回答。例如同一个 prompt 生成 4 个回答:

回答 A 回答 B 回答 C 回答 D

接着,人工标注者对这些回答进行排序。例如:

B > D > A > C

这说明:

B 最好 D 次之 A 再次 C 最差

最后,把这种排序转成训练奖励模型的数据。通常可以把排序拆成多个 pairwise comparison。

例如:

B > D B > A B > C D > A D > C A > C

每一对都表示:

对于同一个 prompt,人类更偏好前一个回答。

这样就得到了奖励模型训练所需的数据。所以偏好数据的基本形式是:

其中:

  • x 是用户 prompt;

  • 是 winner,也就是更受偏好的回答;

  • 是 loser,也就是较差的回答。


五、奖励模型是什么?

奖励模型的作用是:

给定一个 prompt 和一个回答,输出一个标量分数,表示这个回答有多符合人类偏好。

可以写成:

其中:

  • x是 prompt;

  • y是回答;

  • 是奖励模型输出的分数;

  • 表示奖励模型参数。

如果一个回答更好,奖励模型应该给它更高分。例如:

Prompt: 请解释什么是 Transformer。

回答 A:

Transformer 是一种基于注意力机制的神经网络结构。

回答 B:

Transformer 是一种数据库系统。

奖励模型应该满足:

注意,奖励模型输出的不是类别标签,也不是下一个 token 概率,而是一个连续分数。这个分数表示:

这个回答在人类偏好意义上有多好。

六、奖励模型如何学习人类偏好?

奖励模型不是直接学习“标准答案”,而是学习“哪个回答更好”。

假设对于同一个 prompt x,人类认为回答比回答更好。

那么奖励模型应该满足:

为了训练这个目标,常用 pairwise ranking loss。可以写成:

其中:

  • 是人类更喜欢的回答;

  • 是人类不太喜欢的回答;

  • 是 winner 的奖励分数;

  • 是 loser 的奖励分数;

  • 是 sigmoid 函数。

这个公式的含义很直观。

如果奖励模型给 winner 的分数明显高于 loser:

就是一个比较大的正数。

经过 sigmoid 后,结果接近 1。

就会比较小,说明模型判断正确。

如果奖励模型给 loser 的分数更高,那么:

就是负数。sigmoid 后接近 0,loss 就会很大。所以这个损失函数会推动奖励模型学习:

人类更偏好的回答应该获得更高分。

七、为什么不直接让人工给分?

理论上,我们可以让标注者直接给回答打分。例如:

回答 A:8 分 回答 B:5 分 回答 C:2 分

但实际中,直接打绝对分数有几个问题。

第一,不同标注者的打分尺度不同。有的人很严格,觉得好回答也只给 7 分;有的人宽松,普通回答也给 9 分。

第二,同一个标注者在不同时间打分也可能不稳定。

第三,很多时候人类更容易比较两个回答,而不是给出绝对分数。

例如,让人判断:

A 和 B 哪个更好?

比判断:

A 到底应该是 7.4 分还是 8.1 分?

更容易。所以 RLHF 中常用偏好排序,而不是绝对评分。这也是奖励模型采用 pairwise ranking loss 的原因。


八、奖励模型学到的到底是什么?

奖励模型学习的是一种人类偏好的近似函数。它不是真正的人类,也不保证完全正确。它可能学到以下偏好:

回答是否有帮助 回答是否符合指令 回答是否准确 回答是否安全 回答是否简洁 回答是否结构清晰 回答语气是否合适 回答是否避免明显错误

但是,奖励模型也可能学到一些不理想的偏好。例如,如果标注数据中更长的回答更常被认为好,奖励模型可能偏好冗长回答。如果标注者更喜欢语气自信的回答,奖励模型可能偏好自信但未必正确的回答。如果标注规范不够清晰,奖励模型可能学习到混乱的偏好。所以奖励模型不是“真理函数”,而是:

在某一批标注者、某一套标注规范、某一批数据分布上学习到的人类偏好近似。

这一点非常重要。因为后续 PPO 会优化这个奖励模型。如果奖励模型存在偏差,语言模型也可能被带偏。


九、为什么奖励模型训练好后,还需要 PPO?

奖励模型只是一个打分器。它可以告诉我们:

这个回答分数高 那个回答分数低

但它不会自动改变语言模型。要让语言模型更倾向生成高分回答,就需要进一步优化生成模型。这就是 PPO / RLHF 的作用。在 RLHF 中,语言模型可以看作一个策略:

其中:

  • x是 prompt;

  • y 是模型生成的回答;

  • 是当前语言模型;

  • 是模型参数。

模型生成一个回答后,奖励模型给出分数:

PPO 的目标是更新,让模型更倾向生成高奖励回答。

流程是:

模型读取 prompt ↓ 生成回答 ↓ 奖励模型打分 ↓ PPO 根据奖励更新语言模型 ↓ 模型更倾向生成高分回答

这就是为什么 RLHF 不只是训练奖励模型,还要用强化学习优化语言模型。


十、为什么 PPO 中需要 KL 约束?

如果只优化奖励模型分数,会有一个严重问题:

模型可能学会钻奖励模型的空子。

这就是 reward hacking。例如奖励模型可能错误地偏好:

更长的回答 更自信的语气 更多专业术语 更多列表结构

如果没有约束,语言模型可能会生成越来越长、越来越自信、越来越模板化的回答,只为了获得更高奖励。但这些回答未必真的更好。所以 RLHF 通常会加入 KL 惩罚,限制当前模型不要偏离原始 SFT 模型太远。可以写成:

其中:

  • R(x,y) 是最终用于 PPO 的奖励;

  • 是奖励模型分数;

  • 是当前策略模型;

  • 是参考模型,通常是 SFT 模型;

  • 表示当前模型和参考模型之间的分布差异;

  • 控制 KL 惩罚强度。

这个公式的意思是:

模型可以追求更高奖励, 但不能偏离原来的语言模型太远。

KL 约束的作用主要有两个。

第一,保持语言质量。如果模型偏离太远,可能生成奇怪文本。

第二,减少 reward hacking。限制模型不要为了追求奖励模型分数而过度优化到异常区域。所以 PPO 中真正优化的不是单纯的奖励模型分数,而是:

奖励模型分数 - 偏离参考模型的惩罚

十一、RLHF 和 SFT 的关系

SFT 和 RLHF 都能让模型更符合用户指令,但它们作用不同。

方法数据形式训练目标作用
SFTprompt + 人工示范回答模仿人工回答让模型初步学会按指令回答
Reward Modelprompt + 回答排序学习人类偏好判断哪个回答更好
RLHF / PPO奖励模型打分最大化偏好奖励让模型更倾向生成高偏好回答

SFT 更像是:

告诉模型好答案长什么样。

RLHF 更像是:

告诉模型多个答案中哪个更好,然后让模型朝更优答案方向调整。

一个形象的类比是:

SFT:老师给学生示范标准答案 RM:老师学会给答案打分 RLHF:学生根据打分不断调整答题方式

所以,SFT 和 RLHF 不是互相替代,而是前后衔接。

通常先用 SFT 让模型进入指令跟随状态,再用 RLHF 根据偏好进一步优化。


十二、RLHF 为什么能让模型更“听话”?

RLHF 能提升指令跟随能力,核心原因是它优化了更接近用户偏好的目标。

预训练模型优化的是:

文本似然

SFT 优化的是:

模仿人工示范回答

RLHF 优化的是:

生成更受人类偏好的回答

例如用户要求:

请只输出 JSON,不要解释。

模型生成两个回答。

回答 A:

{"label": "positive"}

回答 B:

这个句子的情感是 positive,因为它表达了满意和喜欢。

如果标注者更偏好 A,那么奖励模型会学习:

在这个 prompt 下,严格遵循格式要求比额外解释更好。

经过 RLHF 后,模型就更可能输出符合要求的 JSON。

再比如用户要求:

请用三句话解释。

如果模型输出十句话,标注者会降低偏好。

奖励模型会学习:

回答过长且不符合指令,分数应该降低。

这就是 RLHF 能提升“听指令”能力的原因。它不是让模型单纯更流畅,而是让模型更符合人类反馈中的偏好模式。


十三、RLHF 的风险:Reward Hacking

RLHF 最大的问题之一是 reward hacking。Reward hacking 指的是:

模型找到奖励模型的漏洞,生成高奖励但不一定真正高质量的回答。

例如奖励模型可能错误地认为:

回答越长越好

那么语言模型可能生成大量冗长内容。或者奖励模型偏好:

看起来很专业的术语

模型可能堆砌术语,但内容并不准确。再或者奖励模型偏好:

语气自信

模型可能更自信地说错话。这说明:

优化奖励模型分数 ≠ 真正优化人类价值。

奖励模型只是人类偏好的近似。一旦语言模型过度优化这个近似目标,就可能出现偏差。所以 RLHF 中需要:

KL 约束 人工评估 安全测试 奖励模型更新 多轮数据收集

来减少 reward hacking。


十四、RLHF 的风险:过度对齐和模式化回答

RLHF 还可能带来另一个问题:模型回答变得模式化。例如模型可能经常输出:

这是一个很好的问题。 当然可以。 下面是详细解释。 需要注意的是……

这些表达本身没有错,但如果过度出现,回答会显得模板化。原因是奖励模型可能学到:

礼貌、结构化、完整的回答更容易被偏好。

于是模型倾向于生成类似风格。这也是为什么一些经过 RLHF 的模型会显得:

更稳 更礼貌 更安全 但有时也更啰嗦、更保守、更模板化

这不是偶然现象,而是偏好优化带来的风格变化。


十五、RLHF 的风险:标注偏差

RLHF 依赖人类标注。但人类标注并不是绝对客观的。标注偏差可能来自:

标注者背景不同 文化差异 语言习惯不同 标注规范理解不同 任务难度不同 安全标准不同

例如同一个回答,有的标注者喜欢简洁,有的喜欢详细。有的标注者偏好保守回答,有的偏好直接回答。如果标注规范不清晰,奖励模型学到的偏好也会不稳定。因此,RLHF 的质量高度依赖:

标注规范 标注者培训 数据审核 偏好一致性 任务覆盖范围

这也是为什么 RLHF 不只是算法问题,也是数据和标注工程问题。


十六、RLHF 和 RLAIF、DPO 的关系

RLHF 很重要,但它也很复杂。后续出现了很多替代或改进方法。

1. RLAIF

RLAIF 是:

Reinforcement Learning from AI Feedback

也就是基于 AI 反馈的强化学习。它不是完全依赖人类标注者,而是让 AI 模型参与偏好判断。例如 Constitutional AI 就使用一组原则,让模型根据这些原则生成反馈或修改回答。RLAIF 的目标是降低人工反馈成本。

2. DPO

DPO 是:

Direct Preference Optimization

也就是直接偏好优化。DPO 的目标是简化 RLHF 流程。它不再显式训练奖励模型并使用 PPO,而是直接用偏好数据优化语言模型。也就是说,DPO 试图把:

奖励模型 + 强化学习

简化为:

直接用 chosen / rejected 数据训练模型

后面我们会单独精读 DPO,因为它是 RLHF 之后非常重要的偏好优化方法。

3. ORPO、KTO 等方法

后续还有 ORPO、KTO、IPO、RRHF 等方法。这些方法都在尝试解决 RLHF 的一些问题:

训练复杂 PPO 不稳定 奖励模型容易被攻击 人工标注成本高 偏好数据利用效率不高

因此,RLHF 是对齐训练的重要起点,但不是终点。

http://www.zskr.cn/news/1427863.html

相关文章:

  • 大学生AI创业方向有哪些?越来越多人开始尝试AI智能体项目
  • 广东省雷州市寄件省钱秘籍:4个全国低价寄快递平台搞定上门取件,小件快递大件物流全拿捏 - 时讯资讯
  • CC-Switch 下载、安装与使用配置指南【2026.5.29】
  • Windows截图终极指南:从PrintScreen到Snipaste,手把手教你搞定所有疑难截图(含右键菜单、长网页)
  • 基层医生不会用AI?错!真正卡住的是这4层人机协同断点(附某省县域医共体标准化SOP手册)
  • 广东省四会市寄件怎么选?全国低价上门取件+大件物流小件快递全搞定,这4个平台最省 - 时讯资讯
  • 2026 展台搭建哪家好?上海石拓深度测评:口碑靠谱的全球会展服务商推荐 - 资讯焦点
  • 中国消防救援学院考研辅导班强烈推荐【独峰考研】全解析 - michalwang
  • OpenAI API请求超时?别急着换魔法,先试试这个Python代理配置(附127.0.0.1:2802示例)
  • 减速机哪家好?杭州德麦尔:17 年专注传动,以品质与服务铸就行业标杆 - 资讯焦点
  • 上海外国语大学考研辅导班强烈推荐【独峰考研】全解析 - michalwang
  • 基于Arduino的智能植物养护系统:从传感器到执行器的物联网实践
  • 2026免费音频转文字工具推荐与对比:保姆级教程一看就会
  • 2026年新疆旅行社深度横评:合规包车、定制游与政企接待怎么选才不踩坑? - 优质企业观察收录
  • 从零到一:电路设计核心原理、PCB工艺与调试实战全解析
  • 杭州高价黄金回收怎么选?这份本地人都在看的避坑指南(附靠谱机构) - 品牌日记
  • 零成本DIY数字光照计:基于Arduino与BH1750的智能环境监测方案
  • 中国人民公安大学考研辅导班强烈推荐【独峰考研】全解析 - michalwang
  • Fastbot实战:手把手教你用‘专家系统’定制专属Android App遍历测试方案
  • 基于Arduino Nano ESP32与步进电机的物联网机械翻牌时钟制作全解析
  • 杭州九环路有家近20年寄卖行,名牌包包回收里的门道一次说清 - 品牌日记
  • 2026气体涡轮流量计权威选购指南:国产品牌综合实力排名与技术横评 - 液体流量液位品牌推荐
  • 从代码堆砌到视觉流水线:如何用 流向式卡片任务流转工具 搭建精益研发生态?
  • Sora 2世界模型的“隐形边界”被攻破:斯坦福+MIT联合团队用反事实扰动测试发现其3大泛化脆弱点(附可复现检测代码包)
  • 中国石油大学(北京)考研辅导班强烈推荐【独峰考研】全解析 - michalwang
  • 合肥包河至州电动自行车贸易:蜀山靠谱的两轮电动车租赁公司选哪家 - LYL仔仔
  • 2026年上海嘉定卧室家装定制公司推荐,品质服务优选 - 高定
  • 基于TMC2208微步进驱动与DS3231 RTC的静音时钟驱动方案
  • 博客园适配器测试文章 1780117886
  • 深度掌握Windows 11 LTSC微软商店部署:实战构建完整应用生态