当前位置：首页 > news >正文

PPO 算法在 RLHF 中的应用：让模型学会理解人类偏好

news 2026/6/13 1:28:40

PPO 算法在 RLHF 中的应用：让模型学会理解人类偏好

前言

RLHF（Reinforcement Learning from Human Feedback）是让大模型对齐人类偏好的关键技术。PPO（Proximal Policy Optimization）是 RLHF 中最常用的强化学习算法。

我在项目中实现过完整的 RLHF 训练流程，对 PPO 算法有深入理解。今天分享 PPO 的原理和在 RLHF 中的应用。

PPO 算法原理

核心思想

PPO 的核心是在策略优化过程中保持策略的更新不要太大：

import torch import torch.nn as nn import torch.optim as optim class PPO: """PPO 算法实现""" def __init__(self, policy_net, value_net, lr=3e-4, gamma=0.99, eps=0.2): self.policy_net = policy_net self.value_net = value_net self.gamma = gamma self.eps = eps # PPO 裁剪参数 self.policy_optimizer = optim.Adam(policy_net.parameters(), lr=lr) self.value_optimizer = optim.Adam(value_net.parameters(), lr=lr) def compute_advantages(self, rewards, dones, values): """计算优势函数""" advantages = [] running_advantage = 0 for t in reversed(range(len(rewards))): if dones[t]: running_advantage = 0 running_advantage = rewards[t] + self.gamma * running_advantage - values[t] advantages.insert(0, running_advantage) # 标准化优势 advantages = torch.tensor(advantages) advantages = (advantages - advantages.mean()) / (advantages.std() + 1e-8) return advantages def update(self, states, actions, old_log_probs, advantages, returns): """PPO 更新""" # 获取新的 log_probs 和 values log_probs, values = self.policy_net.get_log_probs(states, actions) values = values.squeeze() # 计算概率比率 ratio = torch.exp(log_probs - old_log_probs) # PPO 裁剪 surr1 = ratio * advantages surr2 = torch.clamp(ratio, 1 - self.eps, 1 + self.eps) * advantages # 策略损失 policy_loss = -torch.min(surr1, surr2).mean() # 值函数损失 value_loss = nn.MSELoss()(values, returns) # 总损失 total_loss = policy_loss + 0.5 * value_loss # 优化 self.policy_optimizer.zero_grad() self.value_optimizer.zero_grad() total_loss.backward() self.policy_optimizer.step() self.value_optimizer.step() return total_loss.item()

RLHF 流程

步骤 1：收集人类反馈

class HumanFeedbackCollector: """人类反馈收集器""" def __init__(self): self.preferences = [] def collect(self, prompt: str, responses: list) -> int: """收集人类偏好""" # 在实际应用中，这里应该显示给人类评判者 # 简化实现：随机选择一个偏好 import random return random.randint(0, len(responses) - 1) def save_preferences(self, filepath: str): """保存偏好数据""" import json with open(filepath, "w") as f: json.dump(self.preferences, f)

步骤 2：训练奖励模型

class RewardModel(nn.Module): """奖励模型""" def __init__(self, llm_backbone): super().__init__() self.backbone = llm_backbone self.reward_head = nn.Linear(llm_backbone.config.hidden_size, 1) def forward(self, input_ids, attention_mask): """前向传播""" outputs = self.backbone(input_ids=input_ids, attention_mask=attention_mask) last_hidden = outputs.last_hidden_state[:, -1, :] reward = self.reward_head(last_hidden) return reward

步骤 3：PPO 微调

class RLHFTrainer: """RLHF 训练器""" def __init__(self, policy_model, reward_model, ppo_config): self.policy_model = policy_model self.reward_model = reward_model self.ppo = PPO(policy_model, reward_model, **ppo_config) def train(self, prompts, num_epochs=10): """训练主循环""" for epoch in range(num_epochs): total_loss = 0 for prompt in prompts: # 1. 生成响应 response = self.policy_model.generate(prompt) # 2. 获取奖励 reward = self.reward_model.score(prompt, response) # 3. PPO 更新 loss = self.ppo.update(reward) total_loss += loss avg_loss = total_loss / len(prompts) print(f"Epoch {epoch+1}/{num_epochs}, Loss: {avg_loss:.4f}")

实战示例

# 初始化模型 policy_model = load_policy_model() reward_model = load_reward_model() # 创建训练器 trainer = RLHFTrainer( policy_model, reward_model, ppo_config={ "lr": 3e-5, "gamma": 0.99, "eps": 0.2 } ) # 训练数据 prompts = [ "解释什么是机器学习", "写一首诗", "分析当前经济形势" ] # 开始训练 trainer.train(prompts, num_epochs=5)

关键技巧

KL 惩罚

def compute_kl_penalty(new_log_probs, old_log_probs): """计算 KL 散度惩罚""" kl = new_log_probs - old_log_probs return kl.mean()

奖励塑造

def shape_reward(raw_reward, kl_penalty, kl_coef=0.1): """奖励塑造""" return raw_reward - kl_coef * kl_penalty

总结

PPO 在 RLHF 中的应用：

收集反馈：获取人类对模型输出的偏好
训练奖励模型：学习预测人类偏好
PPO 微调：优化策略以最大化奖励

关键要点：

PPO 通过裁剪保证策略更新的稳定性
KL 惩罚防止策略偏离太远
奖励模型质量直接影响最终效果
需要大量高质量的人类反馈数据

查看全文

http://www.zskr.cn/news/1314225.html

CodeTree：可视化分析代码仓库目录结构，提升项目可维护性

NC费用报销与银企直联支付避坑指南：从单据流转到支付成功的完整配置

【NI-DAQmx实战解析】连续采集中采样点设定的深层逻辑与性能优化

AIGC面试火爆！2个月上岸产品经理的秘籍，普通人也能抄！高薪机会等你来！

MATLAB仿真GPS调制和捕获

终极Gerber文件查看器Gerbv：免费开源PCB设计验证的5大优势

3.3V供电，实测5mA！KT6368A蓝牙5.1透传模块开箱上电全记录

低频浅海条件下用于被动声纳宽带目标检测的匹配场处理方法【附代码】

RAG优化秘籍：为何“检索系统”才是关键？掌握这三大核心，效果飙升！

锂离子动力电池机理建模与系统状态评估【附代码】

Adafruit Metro ESP32-S3开发板深度评测：从硬件解析到低功耗物联网实践

3分钟掌握DeepMosaics：AI智能马赛克处理与图像修复工具

基于AMG8833与ESP32的DIY热成像相机：从硬件选型到软件插值算法全解析

基于WiFi与OPC协议的可穿戴LED灯光同步系统设计与实现

别再为STM32的printf发愁了！HAL库下三种串口打印方案实测对比（含MicroLIB配置）

校企联动传薪火码道赋能育新人 | AI编码实战训练营·陕西师范大学站

别再瞎排产！读懂生产计划看板，避开3大排产误区

跨境业务落地频繁遇阻，Claude登AWS平台如何补齐出海短板

短视频矩阵的流量互导机制：多账号之间如何用系统设计实现流量自增长

别只当虚拟机用！手把手教你用AidLux在安卓旧手机上搭建一个轻量级Linux开发环境（ARM64架构验证）

基于BLE与云端平台的DIY可穿戴体温监测系统全链路实现

2025届必备的降重复率助手推荐榜单

3种智能解析技术：VideoDownloadHelper如何突破网页视频下载限制

运维开发必备：5分钟搞定CentOS 7下ncurses库的安装与基础使用

从电源拓扑到代码：STM32F103移相全桥DCDC数字控制入门实践（附完整工程）

从零打造会发光的航天飞机模型：焊接入门与PCB组装实战

NotebookLM如何让AI替你精准定位审稿人潜台词？——基于572份Accepted回复文本的NLP语义聚类分析

树莓派编译安装Synergy实现跨设备键鼠共享完整指南

iOS传感器数据采集与云端传输实战：CoreMotion与Adafruit IO集成指南

大模型“开挂”的秘密：揭秘预训练如何让AI无所不能！

PPO 算法在 RLHF 中的应用：让模型学会理解人类偏好

前言

PPO 算法原理

核心思想

RLHF 流程

步骤 1：收集人类反馈

步骤 2：训练奖励模型

步骤 3：PPO 微调

实战示例

关键技巧

KL 惩罚

奖励塑造

总结

相关文章：