当前位置：首页 > news >正文

16 RLHF 详解：奖励模型如何学习人类偏好？

news 2026/5/30 13:42:32

在上一篇文章中，我们精读了 InstructGPT。

InstructGPT 的核心思想是：GPT-3 这类大语言模型虽然已经具备很强的文本生成能力，但它们的训练目标仍然是预测下一个 token，而不是直接优化用户真正关心的“回答是否有帮助、是否真实、是否安全、是否符合指令”。因此，InstructGPT 引入了一个非常重要的训练框架：

SFT + Reward Model + PPO / RLHF

也就是：

监督微调 ↓ 奖励模型 ↓ 基于人类反馈的强化学习

上一篇文章中，我们已经整体讲过 InstructGPT 的三步流程。这一章我们进一步深入其中最关键的一环：RLHF。RLHF 的全称是：

Reinforcement Learning from Human Feedback

中文可以翻译为：

基于人类反馈的强化学习

它要解决的问题是：

如何把人类对回答好坏的偏好，转化成模型可以优化的训练信号？

这听起来很简单，但实际上非常关键。因为语言模型本身只能优化：

下一个 token 是否符合训练数据分布

而用户真正关心的是：

回答是否有用 是否准确 是否遵循指令 是否安全 是否简洁 是否符合语境

这些目标很难直接写成一个简单的数学函数。所以 RLHF 的核心思路是：

让人类先比较不同回答的好坏，再训练一个奖励模型去模拟人类偏好，最后用这个奖励模型指导语言模型优化。

一、为什么需要 RLHF？

大语言模型的预训练目标是自回归语言建模。给定一个 token 序列：

模型学习的是：

也就是：

给定前文，预测下一个 token。

这个目标非常适合学习语言模式，但它并不等价于“生成一个好回答”。例如，用户问：

请用三句话解释什么是 Transformer。

一个基础语言模型可能会生成：

Transformer 是一种神经网络结构。它最早用于机器翻译。下面我将从十个方面详细解释……

这个回答虽然语言流畅，但没有遵循“三句话”的要求。再比如，用户问：

这篇论文的核心贡献是什么？

模型可能生成一段看起来很学术的文字，但其中包含编造的实验结果或不存在的方法名称。这是因为预训练目标只关心：

什么文本最可能出现？

而人类偏好关心的是：

什么回答更好？

这两个目标并不完全一致。RLHF 的作用就是让模型从：

预测高概率文本

进一步转向：

生成更符合人类偏好的回答

二、什么是人类偏好？

在 RLHF 中，人类偏好通常不是让标注者给回答打一个绝对分数，而是让他们比较多个回答。

例如给定同一个 prompt：

请解释什么是 Self-Attention。

模型生成了三个回答。回答 A：

Self-Attention 是一种注意力机制，用于计算序列中不同 token 之间的关系。

回答 B：

Self-Attention 是一种让每个 token 根据其他 token 更新自身表示的机制。它通过 Query、Key、Value 计算注意力权重，再对 Value 加权求和，从而融合上下文信息。

回答 C：

Self-Attention 是一种数据库索引技术，主要用于提高查询速度。

人类标注者可能会排序为：

B > A > C

因为：

B 更完整、更准确 A 正确但较简略 C 明显错误

这种排序信息就是人类偏好。相比直接打分，排序通常更容易标注。因为人类判断：

哪个回答更好？

通常比判断：

这个回答到底是 7.3 分还是 8.1 分？

更稳定。所以 RLHF 通常使用的是 preference data，也就是偏好数据。

三、RLHF 的整体流程

RLHF 通常包含三个核心步骤。

第一步：收集偏好数据 第二步：训练奖励模型 第三步：使用奖励模型优化语言模型

如果放到 InstructGPT 的完整流程中，则是：

预训练语言模型 ↓ SFT：监督微调 ↓ 生成多个候选回答 ↓ 人工对候选回答排序 ↓ 训练 Reward Model ↓ 使用 PPO 根据 Reward Model 优化模型 ↓ 得到更符合人类偏好的模型

这里有两个模型需要区分：

Policy Model：正在被优化的语言模型 Reward Model：负责给回答打分的奖励模型

Policy Model 负责生成回答。Reward Model 负责判断回答好不好。RLHF 的核心就是：

用 Reward Model 提供的奖励信号，引导 Policy Model 生成更符合人类偏好的回答。

四、偏好数据是怎么构造的？

偏好数据的构造通常包括以下过程。首先，准备一批用户 prompt。例如：

请总结下面这段文字。 请解释什么是 Transformer。 请帮我写一个 Python 函数。 请把下面英文翻译成中文。 请判断下面评论的情感。

然后，让当前模型对每个 prompt 生成多个候选回答。例如同一个 prompt 生成 4 个回答：

回答 A 回答 B 回答 C 回答 D

接着，人工标注者对这些回答进行排序。例如：

B > D > A > C

这说明：

B 最好 D 次之 A 再次 C 最差

最后，把这种排序转成训练奖励模型的数据。通常可以把排序拆成多个 pairwise comparison。

例如：

B > D B > A B > C D > A D > C A > C

每一对都表示：

对于同一个 prompt，人类更偏好前一个回答。

这样就得到了奖励模型训练所需的数据。所以偏好数据的基本形式是：

其中：

x 是用户 prompt；
是 winner，也就是更受偏好的回答；
是 loser，也就是较差的回答。

五、奖励模型是什么？

奖励模型的作用是：

给定一个 prompt 和一个回答，输出一个标量分数，表示这个回答有多符合人类偏好。

可以写成：

其中：

x是 prompt；
y是回答；
是奖励模型输出的分数；
表示奖励模型参数。

如果一个回答更好，奖励模型应该给它更高分。例如：

Prompt： 请解释什么是 Transformer。

回答 A：

Transformer 是一种基于注意力机制的神经网络结构。

回答 B：

Transformer 是一种数据库系统。

奖励模型应该满足：

注意，奖励模型输出的不是类别标签，也不是下一个 token 概率，而是一个连续分数。这个分数表示：

这个回答在人类偏好意义上有多好。

六、奖励模型如何学习人类偏好？

奖励模型不是直接学习“标准答案”，而是学习“哪个回答更好”。

假设对于同一个 prompt x，人类认为回答比回答更好。

那么奖励模型应该满足：

为了训练这个目标，常用 pairwise ranking loss。可以写成：

其中：

是人类更喜欢的回答；
是人类不太喜欢的回答；
是 winner 的奖励分数；
是 loser 的奖励分数；
是 sigmoid 函数。

这个公式的含义很直观。

如果奖励模型给 winner 的分数明显高于 loser：

就是一个比较大的正数。

经过 sigmoid 后，结果接近 1。

就会比较小，说明模型判断正确。

如果奖励模型给 loser 的分数更高，那么：

就是负数。sigmoid 后接近 0，loss 就会很大。所以这个损失函数会推动奖励模型学习：

人类更偏好的回答应该获得更高分。

七、为什么不直接让人工给分？

理论上，我们可以让标注者直接给回答打分。例如：

回答 A：8 分 回答 B：5 分 回答 C：2 分

但实际中，直接打绝对分数有几个问题。

第一，不同标注者的打分尺度不同。有的人很严格，觉得好回答也只给 7 分；有的人宽松，普通回答也给 9 分。

第二，同一个标注者在不同时间打分也可能不稳定。

第三，很多时候人类更容易比较两个回答，而不是给出绝对分数。

例如，让人判断：

A 和 B 哪个更好？

比判断：

A 到底应该是 7.4 分还是 8.1 分？

更容易。所以 RLHF 中常用偏好排序，而不是绝对评分。这也是奖励模型采用 pairwise ranking loss 的原因。

八、奖励模型学到的到底是什么？

奖励模型学习的是一种人类偏好的近似函数。它不是真正的人类，也不保证完全正确。它可能学到以下偏好：

回答是否有帮助 回答是否符合指令 回答是否准确 回答是否安全 回答是否简洁 回答是否结构清晰 回答语气是否合适 回答是否避免明显错误

但是，奖励模型也可能学到一些不理想的偏好。例如，如果标注数据中更长的回答更常被认为好，奖励模型可能偏好冗长回答。如果标注者更喜欢语气自信的回答，奖励模型可能偏好自信但未必正确的回答。如果标注规范不够清晰，奖励模型可能学习到混乱的偏好。所以奖励模型不是“真理函数”，而是：

在某一批标注者、某一套标注规范、某一批数据分布上学习到的人类偏好近似。

这一点非常重要。因为后续 PPO 会优化这个奖励模型。如果奖励模型存在偏差，语言模型也可能被带偏。

九、为什么奖励模型训练好后，还需要 PPO？

奖励模型只是一个打分器。它可以告诉我们：

这个回答分数高 那个回答分数低

但它不会自动改变语言模型。要让语言模型更倾向生成高分回答，就需要进一步优化生成模型。这就是 PPO / RLHF 的作用。在 RLHF 中，语言模型可以看作一个策略：

其中：

x是 prompt；
y 是模型生成的回答；
是当前语言模型；
是模型参数。

模型生成一个回答后，奖励模型给出分数：

PPO 的目标是更新，让模型更倾向生成高奖励回答。

流程是：

模型读取 prompt ↓ 生成回答 ↓ 奖励模型打分 ↓ PPO 根据奖励更新语言模型 ↓ 模型更倾向生成高分回答

这就是为什么 RLHF 不只是训练奖励模型，还要用强化学习优化语言模型。

十、为什么 PPO 中需要 KL 约束？

如果只优化奖励模型分数，会有一个严重问题：

模型可能学会钻奖励模型的空子。

这就是 reward hacking。例如奖励模型可能错误地偏好：

更长的回答 更自信的语气 更多专业术语 更多列表结构

如果没有约束，语言模型可能会生成越来越长、越来越自信、越来越模板化的回答，只为了获得更高奖励。但这些回答未必真的更好。所以 RLHF 通常会加入 KL 惩罚，限制当前模型不要偏离原始 SFT 模型太远。可以写成：

其中：

R(x,y) 是最终用于 PPO 的奖励；
是奖励模型分数；
是当前策略模型；
是参考模型，通常是 SFT 模型；
表示当前模型和参考模型之间的分布差异；
控制 KL 惩罚强度。

这个公式的意思是：

模型可以追求更高奖励， 但不能偏离原来的语言模型太远。

KL 约束的作用主要有两个。

第一，保持语言质量。如果模型偏离太远，可能生成奇怪文本。

第二，减少 reward hacking。限制模型不要为了追求奖励模型分数而过度优化到异常区域。所以 PPO 中真正优化的不是单纯的奖励模型分数，而是：

奖励模型分数 - 偏离参考模型的惩罚

十一、RLHF 和 SFT 的关系

SFT 和 RLHF 都能让模型更符合用户指令，但它们作用不同。

方法	数据形式	训练目标	作用
SFT	prompt + 人工示范回答	模仿人工回答	让模型初步学会按指令回答
Reward Model	prompt + 回答排序	学习人类偏好	判断哪个回答更好
RLHF / PPO	奖励模型打分	最大化偏好奖励	让模型更倾向生成高偏好回答

SFT 更像是：

告诉模型好答案长什么样。

RLHF 更像是：

告诉模型多个答案中哪个更好，然后让模型朝更优答案方向调整。

一个形象的类比是：

SFT：老师给学生示范标准答案 RM：老师学会给答案打分 RLHF：学生根据打分不断调整答题方式

所以，SFT 和 RLHF 不是互相替代，而是前后衔接。

通常先用 SFT 让模型进入指令跟随状态，再用 RLHF 根据偏好进一步优化。

十二、RLHF 为什么能让模型更“听话”？

RLHF 能提升指令跟随能力，核心原因是它优化了更接近用户偏好的目标。

预训练模型优化的是：

文本似然

SFT 优化的是：

模仿人工示范回答

RLHF 优化的是：

生成更受人类偏好的回答

例如用户要求：

请只输出 JSON，不要解释。

模型生成两个回答。

回答 A：

{"label": "positive"}

回答 B：

这个句子的情感是 positive，因为它表达了满意和喜欢。

如果标注者更偏好 A，那么奖励模型会学习：

在这个 prompt 下，严格遵循格式要求比额外解释更好。

经过 RLHF 后，模型就更可能输出符合要求的 JSON。

再比如用户要求：

请用三句话解释。

如果模型输出十句话，标注者会降低偏好。

奖励模型会学习：

回答过长且不符合指令，分数应该降低。

这就是 RLHF 能提升“听指令”能力的原因。它不是让模型单纯更流畅，而是让模型更符合人类反馈中的偏好模式。

十三、RLHF 的风险：Reward Hacking

RLHF 最大的问题之一是 reward hacking。Reward hacking 指的是：

模型找到奖励模型的漏洞，生成高奖励但不一定真正高质量的回答。

例如奖励模型可能错误地认为：

回答越长越好

那么语言模型可能生成大量冗长内容。或者奖励模型偏好：

看起来很专业的术语

模型可能堆砌术语，但内容并不准确。再或者奖励模型偏好：

语气自信

模型可能更自信地说错话。这说明：

优化奖励模型分数 ≠ 真正优化人类价值。

奖励模型只是人类偏好的近似。一旦语言模型过度优化这个近似目标，就可能出现偏差。所以 RLHF 中需要：

KL 约束 人工评估 安全测试 奖励模型更新 多轮数据收集

来减少 reward hacking。

十四、RLHF 的风险：过度对齐和模式化回答

RLHF 还可能带来另一个问题：模型回答变得模式化。例如模型可能经常输出：

这是一个很好的问题。 当然可以。 下面是详细解释。 需要注意的是……

这些表达本身没有错，但如果过度出现，回答会显得模板化。原因是奖励模型可能学到：

礼貌、结构化、完整的回答更容易被偏好。

于是模型倾向于生成类似风格。这也是为什么一些经过 RLHF 的模型会显得：

更稳 更礼貌 更安全 但有时也更啰嗦、更保守、更模板化

这不是偶然现象，而是偏好优化带来的风格变化。

十五、RLHF 的风险：标注偏差

RLHF 依赖人类标注。但人类标注并不是绝对客观的。标注偏差可能来自：

标注者背景不同 文化差异 语言习惯不同 标注规范理解不同 任务难度不同 安全标准不同

例如同一个回答，有的标注者喜欢简洁，有的喜欢详细。有的标注者偏好保守回答，有的偏好直接回答。如果标注规范不清晰，奖励模型学到的偏好也会不稳定。因此，RLHF 的质量高度依赖：

标注规范 标注者培训 数据审核 偏好一致性 任务覆盖范围

这也是为什么 RLHF 不只是算法问题，也是数据和标注工程问题。

十六、RLHF 和 RLAIF、DPO 的关系

RLHF 很重要，但它也很复杂。后续出现了很多替代或改进方法。

1. RLAIF

RLAIF 是：

Reinforcement Learning from AI Feedback

也就是基于 AI 反馈的强化学习。它不是完全依赖人类标注者，而是让 AI 模型参与偏好判断。例如 Constitutional AI 就使用一组原则，让模型根据这些原则生成反馈或修改回答。RLAIF 的目标是降低人工反馈成本。

2. DPO

DPO 是：

Direct Preference Optimization

也就是直接偏好优化。DPO 的目标是简化 RLHF 流程。它不再显式训练奖励模型并使用 PPO，而是直接用偏好数据优化语言模型。也就是说，DPO 试图把：

奖励模型 + 强化学习

简化为：

直接用 chosen / rejected 数据训练模型

后面我们会单独精读 DPO，因为它是 RLHF 之后非常重要的偏好优化方法。

3. ORPO、KTO 等方法

后续还有 ORPO、KTO、IPO、RRHF 等方法。这些方法都在尝试解决 RLHF 的一些问题：

训练复杂 PPO 不稳定 奖励模型容易被攻击 人工标注成本高 偏好数据利用效率不高

因此，RLHF 是对齐训练的重要起点，但不是终点。

查看全文

http://www.zskr.cn/news/1427863.html

大学生AI创业方向有哪些？越来越多人开始尝试AI智能体项目

广东省雷州市寄件省钱秘籍：4个全国低价寄快递平台搞定上门取件，小件快递大件物流全拿捏 - 时讯资讯

CC-Switch 下载、安装与使用配置指南【2026.5.29】

Windows截图终极指南：从PrintScreen到Snipaste，手把手教你搞定所有疑难截图（含右键菜单、长网页）

基层医生不会用AI？错！真正卡住的是这4层人机协同断点（附某省县域医共体标准化SOP手册）

广东省四会市寄件怎么选？全国低价上门取件+大件物流小件快递全搞定，这4个平台最省 - 时讯资讯

2026 展台搭建哪家好？上海石拓深度测评：口碑靠谱的全球会展服务商推荐 - 资讯焦点

中国消防救援学院考研辅导班强烈推荐【独峰考研】全解析 - michalwang

OpenAI API请求超时？别急着换魔法，先试试这个Python代理配置（附127.0.0.1:2802示例）

减速机哪家好？杭州德麦尔：17 年专注传动，以品质与服务铸就行业标杆 - 资讯焦点

上海外国语大学考研辅导班强烈推荐【独峰考研】全解析 - michalwang

基于Arduino的智能植物养护系统：从传感器到执行器的物联网实践

2026免费音频转文字工具推荐与对比：保姆级教程一看就会

2026年新疆旅行社深度横评：合规包车、定制游与政企接待怎么选才不踩坑？ - 优质企业观察收录

从零到一：电路设计核心原理、PCB工艺与调试实战全解析

杭州高价黄金回收怎么选？这份本地人都在看的避坑指南（附靠谱机构） - 品牌日记

零成本DIY数字光照计：基于Arduino与BH1750的智能环境监测方案

中国人民公安大学考研辅导班强烈推荐【独峰考研】全解析 - michalwang

Fastbot实战：手把手教你用‘专家系统’定制专属Android App遍历测试方案

基于Arduino Nano ESP32与步进电机的物联网机械翻牌时钟制作全解析

杭州九环路有家近20年寄卖行，名牌包包回收里的门道一次说清 - 品牌日记

2026气体涡轮流量计权威选购指南：国产品牌综合实力排名与技术横评 - 液体流量液位品牌推荐

从代码堆砌到视觉流水线：如何用流向式卡片任务流转工具搭建精益研发生态？

Sora 2世界模型的“隐形边界”被攻破：斯坦福+MIT联合团队用反事实扰动测试发现其3大泛化脆弱点（附可复现检测代码包）

合肥包河至州电动自行车贸易：蜀山靠谱的两轮电动车租赁公司选哪家 - LYL仔仔

2026年上海嘉定卧室家装定制公司推荐，品质服务优选 - 高定

基于TMC2208微步进驱动与DS3231 RTC的静音时钟驱动方案

博客园适配器测试文章 1780117886

深度掌握Windows 11 LTSC微软商店部署：实战构建完整应用生态

一、为什么需要 RLHF？

二、什么是人类偏好？

三、RLHF 的整体流程

四、偏好数据是怎么构造的？

五、奖励模型是什么？

六、奖励模型如何学习人类偏好？

七、为什么不直接让人工给分？

八、奖励模型学到的到底是什么？

九、为什么奖励模型训练好后，还需要 PPO？

十、为什么 PPO 中需要 KL 约束？

十一、RLHF 和 SFT 的关系

十二、RLHF 为什么能让模型更“听话”？

十三、RLHF 的风险：Reward Hacking

十四、RLHF 的风险：过度对齐和模式化回答

十五、RLHF 的风险：标注偏差

十六、RLHF 和 RLAIF、DPO 的关系

1. RLAIF

2. DPO

3. ORPO、KTO 等方法

相关文章：