LLM对齐算法 - PPO / DPO / GRPO / Online DPO / KTO / IPO / ORPO / SimPO

LLM对齐算法 - PPO / DPO / GRPO / Online DPO / KTO / IPO / ORPO / SimPO

什么是“对齐 Alignment”

预训练大模型只是学了海量文本的文字规律,只会续写文字,不懂人类的喜好、安全、需求:

  • 会胡说八道(幻觉)、答非所问
  • 遇到危险提问会给出有害回答
  • 回答干巴巴、不贴心,分不清哪种答案人类更喜欢

对齐(Alignment):通过微调算法,把模型行为对齐人类价值观、偏好、安全规范,让模型做到 HHH:

  • Helpful(有用、贴心、完整回答)
  • Honest(诚实、不编造信息)
  • Harmless(安全、拒绝违规提问)

对齐算法 = 实现这个目标的各类损失 / 优化算法(PPO/DPO/GRPO/KTO/ORPO/SimPO 全部属于对齐算法)

对齐两大阶段

SFT 监督微调(基础对齐)

用人工写好的「指令 - 标准答案」训练,让模型学会听懂指令、标准对话格式,是所有对齐的前置步骤

偏好对齐(核心对齐算法)

解决「同一个问题多条回答,区分好坏」,分两大流派:在线强化学习对齐、离线偏好优化对齐

两大流派

在线强化学习派(RLHF):PPO、GRPO、Online DPO(训练时实时采样新回答,在线探索)
离线直接偏好优化派(无奖励模型、单轮监督式训练):DPO、IPO、KTO、ORPO、SimPO(只用标注好的好坏回答对,不在线采样)

PPO(Proximal Policy Optimization,近端策略优化)

proximalˈprɒksɪməladj. 近端的;近源的;(牙齿)近侧的

核心

传统 RLHF 标准核心算法

OpenAI GPT3.5/4 初代对齐方案,完整流程(三步 RLHF)

  • SFT 监督微调
  • 训练 Reward Model(RM 奖励打分器)
  • PPO 强化学习:Actor 生成回答→RM 打分→Critic 价值网络估计优势→裁剪更新策略,KL 约束防止模型跑偏

OpenAI Instruct GPT 原始论文标准:RLHF 是 3 阶段,《Training language models to follow instructions with human feedback》

官方定义 3 大核心阶段,预训练不算 RLHF 流程本身:

  • 阶段 1:SFT 监督微调。拿“人工指令 - 回答对”,微调预训练基座,让模型听懂指令、会正常对话
  • 阶段 2:训练 Reward Model(RM 奖励模型)。同一个 prompt 生成多条回答,人工好坏排序,训练打分模型,量化人类偏好
  • 阶段 3:PPO 强化学习迭代。Actor 生成回答 → RM 打分 → Critic 算优势 → PPO 裁剪更新策略,搭配 KL 约束防止模型遗忘原有能力

市面 “4 步 RLHF” 口径 1:把「基座预训练」算进完整工程链路,完整模型全生命周期 4 步:

  • 预训练(基座大模型,海量文本学习语言)
  • SFT 监督微调
  • 训练 RM 奖励模型
  • PPO 强化学习优化
    缺陷:预训练不属于 RLHF 对齐流程,只是对齐前的前置步骤,严格来说不能算 RLHF 内部步骤

市面 “4 步 RLHF” 口径 2:把 PPO 内部循环拆成独立第 4 阶段,即把 PPO 内部的「样本采样 Rollout」单独拆出来,变成 4 段流水线:

  • SFT
  • 训练 RM
  • Rollout 采样:用 Actor 批量生成回答、RM 打分
  • PPO 参数更新训练
    本质只是把原来第 3 阶段的 PPO 内部流程一拆二,算法逻辑没变,只是流水线拆分粒度不同

RLHF 第三大阶段就叫「PPO 强化学习迭代」,它不是单一操作,是循环往复执行多轮的完整训练流程,目的是持续优化 Actor 模型。整个阶段会重复跑成千上万次内层循环,直到模型收敛、奖励稳定
内层:单轮迭代的完整执行流水线:Actor 生成→RM 打分→Critic 算优势→裁剪更新 + KL 约束,是这个迭代内部每一轮循环的完整执行步骤

核心特点
在线交互:训练时实时生成新样本,泛化能力强
显存开销极大:同时持有 Actor、Critic、RM、参考模型 4 套权重

缺点:调参敏感、训练易震荡、资源成本高
适用:高安全要求、超大基座模型、复杂多维度行为控制

Actor 策略模型
直译:演员,生成回答的主大模型,就是最终要优化、对外提供服务的对话模型

作用

  • 接收用户 Prompt,输出完整回答
  • PPO 训练的核心优化对象,所有参数更新都针对它
  • 训练目标:多生成高分、人类喜欢的回答,少生成劣质 / 违规内容
  • 关联初始化权重来自 SFT 微调后的模型

Critic 价值网络
直译:评论家,价值评估小网络,和 Actor 配套训练
核心作用:计算优势函数 Advantage,判断「这条回答比平均水平好多少」
A = R - V
R:RM 给出的真实奖励分数
V:Critic 预测的这条回答预期奖励

如果 A>0:这条回答更好,加大 Actor 更新幅度,鼓励
如果 A<0:这条回答很差,反向修正 Actor,抑制

特点:不生成文本,只做数值打分;训练时和 Actor 同步更新,PPO 经典「Actor-Critic 双网络架构」

KL 散度(Kullback-Leibler Divergence)全称KL Divergence,KL 散度,行业直接简称 KL
核心作用:防模型 “学跑偏、忘本”

Actor 只看奖励会疯狂迎合打分,出现两个严重问题:

  • 灾难性遗忘:丢失预训练学到的通用知识、逻辑
  • 奖励黑客(Reward Hacking):钻奖励模型漏洞,输出看似高分但毫无意义的文本

原理
拿一份冻结不动的参考模型(Ref Model,SFT 后的原始模型) 做基准:计算 Actor 当前输出分布 和 参考模型输出分布 的 KL 距离,作为惩罚项加到损失里
KL 越大:Actor 输出和原始模型差距越大,惩罚越强
强制 Actor 更新时不能脱离原本的语言、知识体系

通俗举例
参考模型:正常回答数学题
如果 Actor 为了高分疯狂重复同一句话刷奖励,两者分布差异极大,KL 惩罚会大幅拉低 loss,阻止模型这么更新

DPO(Direct Preference Optimization,直接偏好优化)

2023 年提出,离线替代 PPO 的里程碑算法,把强化学习转化为普通分类损失

不用单独训练奖励模型,将奖励函数隐式融入损失;输入一组(prompt, 优选回答y_w, 劣选回答y_l),最大化「好回答相对坏回答的概率比值」,搭配冻结 SFT 参考模型做 KL 约束

特点
离线训练:无需在线采样,不用 Critic/RM,仅保留策略 + 参考 2 个模型。训练稳定、工程简单、显存占用远低于 PPO

短板:
依赖高质量离线偏好数据,分布外泛化弱于在线 PPO

Online DPO(在线 DPO)

DPO 的在线改良版,融合 PPO 在线探索能力 + DPO 简单损失

区别于原生 DPO
原生 DPO 只用固定离线标注数据;Online DPO 训练循环中实时生成新回答、人工 / 自动打分,持续扩充偏好数据集,兼顾 DPO 的稳定与 PPO 的泛化能力

适用场景
数据量不足、需要持续迭代扩充样本的推理模型

GRPO(Group Relative Policy Optimization,组相对策略优化)

DeepSeek 2024 提出,PPO 轻量化替代,数学 / 代码推理模型标配(DeepSeek-R1 核心算法)

核心创新

  • 移除 Critic 价值网络,显存直接降低 50%
  • 同一条 prompt 批量生成 N 个回答(组 Group),用组内奖励相对差值替代优势函数
  • 内置 KL 正则,不用额外奖励模型

特点

  • 纯在线强化学习,完美适配 TTCS 多路径采样场景
  • 对数学、代码、逻辑推理提升极强
  • 开销远低于 PPO,7B 模型单卡即可微调

KTO(Kahneman-Tversky Optimization,前景理论偏好优化)

基于行为经济学前景理论,适配单条二元标注(单回答点赞 / 点踩,无需好坏配对)

Daniel Kahneman 丹尼尔・卡尼曼ˈkɑːnəmən
以色列裔美国心理学家,《思考,快与慢》作者,2002 诺贝尔经济学奖得主
Amos Tversky 阿莫斯・特沃斯基ˈtɜːvski
卡尼曼长期搭档,行为心理学先驱,1996 年早逝,诺奖不授予逝者,因此只有卡尼曼领奖

两人核心理论:前景理论 Prospect Theory
传统经济学假设人是理性的;二人证明人做决策存在系统性非理性:

  • 损失带来的痛苦 > 同等收益的快乐
  • 判断依赖直觉启发、锚定效应、框架偏差

KTO = Kahneman-Tversky Optimization
算法借用二人「前景理论」思想:不要求成对(好 / 坏)样本,只用单条回答 + 正负标签,模拟人类对收益、损失的不对称偏好打分

核心区别
其他算法都需要成对(好,坏)样本;KTO 可以只用独立单样本:输入单个回答 + 标签(正向 / 负向),分别加权损失

优势
标注成本更低,适合海量零散用户反馈(对话点赞数据);无需参考模型,显存友好

IPO(Identity Preference Optimization,恒等偏好优化)

DPO 的正则化改进,解决 DPO 训练梯度爆炸、偏好过拟合问题

损失逻辑
DPO 是 sigmoid 二分类损失;IPO 改用平方损失,强制好坏回答对数概率差逼近固定阈值1/(2β),平滑梯度、防止极端更新

适用:
偏好标注极度干净、数据噪声少的场景

ORPO(Odds Ratio Preference Optimization,比值比偏好优化)

单阶段对齐算法,唯一不需要独立 SFT 阶段、不需要冻结参考模型的主流方法

核心创新
将偏好损失直接叠加在 SFT 监督损失上,一步完成指令微调 + 人类对齐;去掉 DPO 必需的参考模型,大幅节省显存。
短板:长文本、复杂推理场景效果略弱于 DPO/GRPO

SimPO(Simple Preference Optimization,极简偏好优化)

无参考模型、极简离线偏好算法,2024 年提出,极致省显存

彻底移除 DPO 依赖的冻结参考模型
加入长度归一化,解决模型偏好生成长回答的 bias
损失仅依赖当前模型自身概率比值

优势:
仅加载 1 套模型权重,显存占用最低;小模型轻量化对齐首选

RLHF

RLHF = Reinforcement Learning from Human Feedback 基于人类反馈的强化学习

完整三段式标准流程(GPT-3.5/GPT4 原始训练链路)

阶段 1:SFT 监督微调(Supervised Fine-Tuning)
拿人工标注好的高质量「指令 - 回答」对话数据,直接微调基座大模型
目标:让模型学会听懂人类指令、输出通顺合规的文本,打下基础对话能力

阶段 2:RM 奖励模型训练(Reward Model)
同一个 prompt,让 SFT 模型生成多条不同回答;
人工对比排序:给回答分出好坏、优劣层级;
训练一个独立奖励模型,输入一段对话,输出 0~1 之间的分数,代表人类对这段回答的满意程度。
作用:把人的主观偏好转化为可计算的数字奖励,给后续强化学习打分。

阶段 3:PPO 强化学习优化(核心 RL 环节)
Actor 模型(待优化主模型)接收 prompt,生成回答;
把回答丢进Reward Model,拿到奖励分数;
用 Critic 价值网络估算每条样本的收益优势;
PPO 裁剪策略更新,同时加 KL 散度约束,防止模型彻底跑偏、丢失原有知识;
迭代更新 Actor,让模型越来越倾向生成高分、人类更喜欢的回答。

RLAIF

RLAIF:Reinforcement Learning from AI Feedback
AI 反馈强化学习,不用人工标注,用更强的大模型替代人类打分,降低标注成本(现在 R1、o1 推理模型主流方案)

RL vs 直接偏好优化(DPO/ORPO 等)

传统 RLHF 必须单独训 Reward Model+PPO 双阶段强化
DPO、KTO、ORPO 这类算法抛弃了完整 RLHF 流程,直接用偏好对做损失,不用独立奖励模型,工程更简单

o1、R1 一般指什么

OpenAI o1(闭源推理模型)

o:两层官方 + 行业通用解读
官方:代表 OpenAI,区分传统 GPT 产品线
内部代号代称:Orion(猎户座),内部项目代号 “Strawberry(草莓)”

官方明确解释:重置计数,推理新赛道的第 1 代里程碑
原文:we are resetting the counter back to 1
寓意:不再沿用 GPT-4/5 通用对话模型命名,单独开辟深度推理模型全新产品线,o1 是这条推理系列的起点,后续迭代 o2/o3

全球首个大规模落地 Test-Time Compute Scaling(推理时算力缩放) 的商用模型,靠超长思维链、多路径自校验、在线强化学习,专门解决数学、代码、竞赛级复杂逻辑难题
分支版本:o1(完整版)、o1-preview、o1-mini(轻量编码专用)

DeepSeek R1(开源推理模型)

R = Reasoning(推理),专门突出该模型主打深度推理能力
1 = 第一代推理专用大模型,DeepSeek 推理系列开山之作,全称 DeepSeek-R1

R1 是对标 o1 的开源平替,核心创新算法就是 GRPO(Group Relative Policy Optimization)
完美适配 TTCS 多路径采样、MCTS 树搜索推理,是目前开源圈最主流的推理模型
完全开源权重(MIT 协议),可本地端侧 / 私有服务端部署

训练逻辑:SFT + GRPO 在线强化学习,批量生成多条回答做组内对比,天然适配推理时扩容