当前位置: 首页 > news >正文

CPT、SFT、DPO分别是什么

在大语言模型(LLM, Large Language Model)的训练和对齐流程中,CPT、SFT、DPO是三个关键阶段的缩写,分别代表:


1.CPT:Continued Pre-Training(继续预训练)

有时也称为Domain-specific Pre-TrainingPost-Pretraining

✅ 目的:

在通用预训练(如 LLaMA、Qwen 的原始训练)之后,用特定领域或高质量语料继续训练模型,使其掌握更专业、更新或更符合目标场景的知识。

🔧 做什么?
  • 输入:大量无标注文本(如医学论文、代码、金融报告、中文百科等)
  • 方法:依然使用自回归语言建模目标(即预测下一个词,损失函数为交叉熵)
  • 模型结构不变,继续训练 Transformer 的所有参数
🌰 举例:
  • 用 GitHub 代码继续训练 → 得到更强的代码生成能力(如 CodeLLaMA)
  • 用中文书籍/网页继续训练 → 提升中文理解(如 Chinese-LLaMA)
  • 用最新新闻数据训练 → 更新模型知识截止日期
⚠️ 注意:
  • CPT 不涉及指令(instruction)或人类偏好
  • 输出仍是“通用语言模型”,不会自动遵循指令

2.SFT:Supervised Fine-Tuning(监督微调)

也叫Instruction Tuning(指令微调)

✅ 目的:

教会模型理解和遵循人类指令,将“通用语言模型”转变为“有用助手”。

🔧 做什么?
  • 输入:人工编写的 (指令, 回答) 对,例如:
    {"instruction":"解释牛顿第一定律","output":"牛顿第一定律指出:任何物体都要保持匀速直线运动或静止状态,直到外力迫使它改变运动状态为止。"}
  • 方法:以监督学习方式微调模型,最小化生成回答与标准答案的交叉熵损失
  • 通常只微调部分参数(如全参数微调、LoRA)
🌰 效果:
  • 模型学会格式化输出、多轮对话、任务分解等
  • 但可能仍会生成不真实、有害或冗长的回答(因为 SFT 数据有限,且未建模人类偏好)

3.DPO:Direct Preference Optimization(直接偏好优化)

一种替代 RLHF(基于强化学习的人类反馈)的对齐方法

✅ 目的:

让模型输出更符合人类偏好的回答(如有帮助、诚实、无害),而不仅仅是模仿 SFT 数据。

🔧 做什么?
  • 输入:偏好数据集,每条包含:
    • 一个 prompt
    • 两个模型生成的回答:chosen(优选)vsrejected(次选)
    • 由人类标注哪个更好
  • 方法:不使用强化学习,而是通过一个巧妙的损失函数直接优化策略模型,使其更倾向于生成 “chosen” 回答
📐 DPO 核心思想(简化):

如果人类认为回答 A 比 B 好,那么模型对 A 的 log-probability 应该显著高于 B。

✅ DPO 优势(vs RLHF):
项目RLHFDPO
是否需要奖励模型(RM)✅ 需要先训练 RM❌ 不需要
是否使用强化学习(PPO)✅ 是,复杂不稳定❌ 否,纯监督式训练
实现难度
训练稳定性较差更好


✅ 总结对比表

阶段全称输入数据目标是否需要标注
CPTContinued Pre-Training大量无标签文本扩展知识/领域适应❌ 无监督
SFTSupervised Fine-Tuning(指令, 回答) 对学会遵循指令✅ 人工编写
DPODirect Preference Optimization(prompt, chosen, rejected)对齐人类偏好✅ 人工偏好标注

💡 补充说明

  • RLHF(Reinforcement Learning from Human Feedback)是 DPO 之前的主流对齐方法,包含两步:
    1. 用偏好数据训练奖励模型(Reward Model, RM)
    2. 用 PPO 算法优化语言模型以最大化 RM 奖励
  • DPO 是 RLHF 的“简化替代方案”,效果相当甚至更好,已成为当前主流(如 Llama-3、Qwen2 等都采用 DPO)

大模型训练,典型的流程就是:
CPT → SFT → DPO,逐步从“知识丰富”到“听话”再到“靠谱”。

http://www.zskr.cn/news/117349.html

相关文章:

  • Flink Join 核心解析:类型、原理、实操
  • 【计算机毕设】基于深度学习的人体摔倒识别方法与实现
  • Linux 内存管理:TLB ASID
  • 30-40 万新能源汽车 兼顾续航与智能的热门之选 - 速递信息
  • Skipping xxx as repository xxxx doesn‘t support architecture ‘i386‘
  • 网站建设公司怎么选?2025年网站设计制作公司推荐指南
  • 软硬协同:揭秘机器狗复杂地形适应背后的边缘智能中枢
  • 基于SpringBoot + Vue的高校科研项目申报审批管理系统
  • 基于SpringBoot + Vue的个性化学习系统
  • FlutterOpenHarmony底部导航栏组件开发
  • 深度分析:AI智能体记忆是如何管理的?
  • 2026年河北省职业院校技能大赛“信息技术应用创新”赛项(高职组)竞赛样题
  • 2025全球十大机床品牌排行榜:未来制造的中坚力量 - 速递信息
  • FlutterOpenHarmony动画效果实现指南
  • 零样本克隆音色有多强?实测EmotiVoice语音复刻能力
  • kanass全面介绍(15) - Kanass如何有效集成sward文档
  • 2025年沈阳优秀的无溶剂环氧涂料厂家需要多少钱,无溶剂环氧涂料/石墨烯涂料/环氧玻璃钢/环氧酚醛/光固化保护套无溶剂环氧涂料品牌选哪家 - 品牌推荐师
  • sward全面介绍(14) - 集成企业微信,使用企业微信扫码登录sward
  • 基于SSM + Vue的高校机房管理系统
  • LNMP架构学习
  • 关于 iphone抓包软件,我是在什么时候真正意识到选好工具很重要
  • EDA 缩写全解析系列|第 2 周:J–R
  • Spring Boot 自动配置的底层实现原理
  • Spring Cloud Stream RocketMQ整合步骤
  • 基于微信小程序公司企业小程序设计与实现作品
  • Threads登录不上怎么办?这样选独享IP更稳!
  • AIoT:从万物互联到万物智联的进化之路
  • Java-IO流
  • Spring Boot ——入门与实战
  • UniApp APP 端跳转三方页面后返回 APP 的实现原理与实操解析