当前位置: 首页 > news >正文

大模型后训练

预训练(基础知识广泛学)------微调(具体实操岗前学)------后训练(RLHF专业领域深入学)

策略模型、参考模型、价值模型、奖励模型

 

策略模型:待后训练的大模型

参考模型:初始的策略模型。

奖励模型(RM):目标是刻画模型的输出是否在人类看来表现不错。即,输入 [提示(prompt),模型生成的文本] ,输出一个刻画文本质量的标量数字。

奖励模型可以看做一个判别式的语言模型,因此我们可以用一个预训练语言模型热启,而后在 [x=[prompt,模型回答], y=人类满意度] 构成的标注语料上去微调,也可以直接随机初始化,在语料上直接训练。

奖励模型的大小最好是跟生成模型的大小相近,这样效果会比较好。理解能力所需要的模型参数规模就得恰好是跟生成模型相近。

 

基于 RL 进行语言模型优化:

将初始语言模型的微调任务建模为强化学习(RL)问题,因此需要定义策略(policy)、动作空间(action space)和奖励函数(reward function)等基本要素。

  • 策略就是基于该语言模型,接收prompt作为输入,然后输出一系列文本(或文本的概率分布);
  • 动作空间就是词表所有token在所有输出位置的排列组合(单个位置通常有50k左右的token候选);
  • 观察空间则是可能的输入token序列(即prompt),显然也相当大,为词表所有token在所有输入位置的排列组合;
  • 奖励函数(reward)则是基于训好的RM模型计算得到初始reward,再叠加上一个约束项来。

基于前面提到的预先富集的数据,从里面采样prompt输入,同时丢给初始的语言模型和我们当前训练中的语言模型(policy),得到俩模型的输出文本y1,y2

然后用奖励模型RM对y1、y2打分,判断谁更优秀。 显然,打分的差值便可以作为训练策略模型参数的信号,这个信号一般通过KL散度来计算“奖励/惩罚”的大小。y2文本的打分比y1高的越多,奖励就越大,反之惩罚则越大。这个信号就反映了当前模型有没有在围着初始模型“绕圈”,避免模型通过一些“取巧”的方式骗过RM模型获取高额reward。

最后,便是根据 Proximal Policy Optimization (PPO) 算法来更新模型参数了。

 

PPO 算法确定的奖励函数具体计算如下:

将提示 x 输入初始 LM 和当前微调的 LM,分别得到了输出文本 ,将来自当前策略的文本传递给 RM 得到一个标量的奖励 。

将两个模型的生成文本进行比较计算差异的惩罚项,在来自 OpenAI、Anthropic 和 DeepMind 的多篇论文中设计为输出词分布序列之间的 Kullback–Leibler (KL) divergence 散度的缩放,即,这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型,以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值。

 

GRPO 的本质思路:通过在同一个问题上生成多条回答,把它们彼此之间做“相对比较”,来代替传统 PPO 中的“价值模型”。

群体相对策略优化 (GRPO,Group Relative Policy Optimization)是一种强化学习 (RL) 算法,专门用于增强大型语言模型 (LLM) 中的推理能力。与严重依赖外部评估模型(价值函数)指导学习的传统 RL 方法不同,GRPO 通过评估彼此相关的响应组来优化模型。这种方法可以提高训练效率,使 GRPO 成为需要复杂问题解决和长链思维的推理任务的理想选择。

image

GRPO 训练流程(简化版):

  • 生成一组响应:对于每个提示,从 LLM 中生成多个响应的一组。
  • 对组进行打分(奖励模型):获取组内所有响应的奖励分数。
  • 计算组内相对优势(GRAE —— 组内比较):通过比较每个响应的奖励与组内平均奖励来计算优势。在组内对奖励进行归一化以得到优势。
  • 优化策略(使用 GRAE 的 PPO 风格目标函数):使用一个 PPO 风格的目标函数更新 LLM 的策略,但使用这些组内相对优势。
http://www.zskr.cn/news/27080.html

相关文章:

  • jq工具解析JSON数据操作示例
  • 技术面:Spring(循环依赖,spring与springboot的区别)
  • 2025年10月长白山度假酒店推荐:性价比与景观体验排行
  • 2025 年最新推荐!景观石厂家推荐排行榜,涵盖千层石 / 泰山石 / 鹅卵石等多品类,全方位解析优质品牌助您精准选择
  • 基于分类器AUC的无模型变点检测技术
  • 2025 年高强钢板厂家最新推荐排行榜:涵盖宝武 / 合金 / Q550D 等热门型号,优质企业综合实力甄选
  • 2025年10月中国AI关键词排名优化公司排行:五强实测评价
  • 2025 年铝板厂家最新推荐榜:聚焦优质铝板企业,为工业与建筑采购提供专业参考1100/3003/3004/5052/5083/ 6061铝板厂家推荐
  • 2025 年不锈钢板厂家最新推荐榜:精选优质 304/316L/310S 等材质厂家,助力企业高效采购规避劣质产品
  • 2025 年轻质抹灰石膏厂家最新推荐排行榜:实力企业全方位评测,含砂浆 / 耐水 / 高强耐水 / 底层 / 找平 / 抗裂 / 隔音类型产品优质厂家
  • 2025年北京市盈科律所:全球规模蝉联第一深度解析
  • 2025 年丝杆升降机厂家最新推荐榜单:聚焦行业优质企业,深度解析各品牌核心优势与选择要点滚珠/螺旋/伞齿轮/蜗轮丝杆升降机厂家推荐
  • 2025年烘干机厂家权威推荐榜:印染烘干机专业制造商,高效节能与稳定性能深度解析
  • 数据处理:取两位有效数字,运算,焦点事件,只允许填写数字(2025.10.12)
  • 2025年市面上碳晶板品牌口碑排行榜前十名推荐
  • 2025 年最新推荐!国内冷库厂家实力排行榜揭晓,含冷冻 / 保鲜 / 超低温等多类型冷库优质企业
  • 想做测开,是学Java还是Python?
  • 2025 年电缆桥架源头厂家最新推荐排行榜,聚焦规模、技术与市场影响力精选优质企业涵盖多类型桥架
  • 2025年市面上高杆灯品牌前十强终极选购指南
  • 2025年市面上高杆灯品牌排行榜前十名及选购指南
  • 2025年移动泵车厂家推荐排行榜,防汛泵车,水泵机组,应急排水泵车,柴油机水泵机组公司精选
  • 2025 年桥梁护栏厂家最新推荐排行榜:聚焦安全防护与耐用性能的优质企业实力甄选指南立柱式 / 网式 / 板式 / 景观 / 不锈钢桥梁护栏厂家推荐
  • 2025年废气治理/处理设备厂家权威推荐榜:专业技术与高效解决方案深度解析
  • 2025 年通风气楼厂家最新推荐排行榜:权威筛选通风气楼厂家,聚焦自然 / 屋顶 / 工业 / 电动 / 采光 / 钢结构 / 厂房 / 车间 / 开敞式 / 薄型通风气楼公司
  • 2025 年国内铅门生产厂家最新推荐排行榜:聚焦防辐射 / 手术室 / CT 室等场景精选优质品牌
  • 2025年市面上高杆灯品牌Top10权威推荐榜
  • 2025 年加工厂家最新推荐排行榜:含车铣复合数控车床 / 尼龙塑胶賽钢精密零件等多品类加工服务权威榜单
  • string特性(p5587)
  • 2025年连接器厂家权威推荐榜:USB接口/电池座/TYPE-C母座/防水TYPE-C/防水USB连接器源头厂商精选
  • 2025 年最新桥梁护栏厂家推荐排行榜:聚焦防撞、景观等多类型护栏优质企业