当前位置：首页 > news >正文

CPT、SFT、DPO分别是什么

news 2026/6/11 14:19:34

在大语言模型（LLM, Large Language Model）的训练和对齐流程中，CPT、SFT、DPO是三个关键阶段的缩写，分别代表：

1.CPT：Continued Pre-Training（继续预训练）

有时也称为Domain-specific Pre-Training或Post-Pretraining

✅ 目的：

在通用预训练（如 LLaMA、Qwen 的原始训练）之后，用特定领域或高质量语料继续训练模型，使其掌握更专业、更新或更符合目标场景的知识。

🔧 做什么？

输入：大量无标注文本（如医学论文、代码、金融报告、中文百科等）
方法：依然使用自回归语言建模目标（即预测下一个词，损失函数为交叉熵）
模型结构不变，继续训练 Transformer 的所有参数

🌰 举例：

用 GitHub 代码继续训练 → 得到更强的代码生成能力（如 CodeLLaMA）
用中文书籍/网页继续训练 → 提升中文理解（如 Chinese-LLaMA）
用最新新闻数据训练 → 更新模型知识截止日期

⚠️ 注意：

CPT 不涉及指令（instruction）或人类偏好
输出仍是“通用语言模型”，不会自动遵循指令

2.SFT：Supervised Fine-Tuning（监督微调）

也叫Instruction Tuning（指令微调）

✅ 目的：

教会模型理解和遵循人类指令，将“通用语言模型”转变为“有用助手”。

🔧 做什么？

输入：人工编写的 (指令, 回答) 对，例如：

{"instruction":"解释牛顿第一定律","output":"牛顿第一定律指出：任何物体都要保持匀速直线运动或静止状态，直到外力迫使它改变运动状态为止。"}

方法：以监督学习方式微调模型，最小化生成回答与标准答案的交叉熵损失
通常只微调部分参数（如全参数微调、LoRA）

🌰 效果：

模型学会格式化输出、多轮对话、任务分解等
但可能仍会生成不真实、有害或冗长的回答（因为 SFT 数据有限，且未建模人类偏好）

3.DPO：Direct Preference Optimization（直接偏好优化）

一种替代 RLHF（基于强化学习的人类反馈）的对齐方法

✅ 目的：

让模型输出更符合人类偏好的回答（如有帮助、诚实、无害），而不仅仅是模仿 SFT 数据。

🔧 做什么？

输入：偏好数据集，每条包含：
- 一个 prompt
- 两个模型生成的回答：chosen（优选）vsrejected（次选）
- 由人类标注哪个更好
方法：不使用强化学习，而是通过一个巧妙的损失函数直接优化策略模型，使其更倾向于生成 “chosen” 回答

📐 DPO 核心思想（简化）：

如果人类认为回答 A 比 B 好，那么模型对 A 的 log-probability 应该显著高于 B。

✅ DPO 优势（vs RLHF）：

项目	RLHF	DPO
是否需要奖励模型（RM）	✅ 需要先训练 RM	❌ 不需要
是否使用强化学习（PPO）	✅ 是，复杂不稳定	❌ 否，纯监督式训练
实现难度	高	低
训练稳定性	较差	更好

✅ 总结对比表

阶段	全称	输入数据	目标	是否需要标注
CPT	Continued Pre-Training	大量无标签文本	扩展知识/领域适应	❌ 无监督
SFT	Supervised Fine-Tuning	(指令, 回答) 对	学会遵循指令	✅ 人工编写
DPO	Direct Preference Optimization	(prompt, chosen, rejected)	对齐人类偏好	✅ 人工偏好标注

💡 补充说明

RLHF（Reinforcement Learning from Human Feedback）是 DPO 之前的主流对齐方法，包含两步：
1. 用偏好数据训练奖励模型（Reward Model, RM）
2. 用 PPO 算法优化语言模型以最大化 RM 奖励
DPO 是 RLHF 的“简化替代方案”，效果相当甚至更好，已成为当前主流（如 Llama-3、Qwen2 等都采用 DPO）

大模型训练，典型的流程就是：
CPT → SFT → DPO，逐步从“知识丰富”到“听话”再到“靠谱”。

http://www.zskr.cn/news/117349.html

相关文章：

Flink Join 核心解析：类型、原理、实操

【计算机毕设】基于深度学习的人体摔倒识别方法与实现

Linux 内存管理：TLB ASID

30-40 万新能源汽车兼顾续航与智能的热门之选 - 速递信息

Skipping xxx as repository xxxx doesn‘t support architecture ‘i386‘

网站建设公司怎么选？2025年网站设计制作公司推荐指南

软硬协同：揭秘机器狗复杂地形适应背后的边缘智能中枢

基于SpringBoot + Vue的高校科研项目申报审批管理系统

基于SpringBoot + Vue的个性化学习系统

FlutterOpenHarmony底部导航栏组件开发

深度分析：AI智能体记忆是如何管理的？

2026年河北省职业院校技能大赛“信息技术应用创新”赛项（高职组）竞赛样题

2025全球十大机床品牌排行榜：未来制造的中坚力量 - 速递信息

FlutterOpenHarmony动画效果实现指南

零样本克隆音色有多强？实测EmotiVoice语音复刻能力

kanass全面介绍(15) - Kanass如何有效集成sward文档

2025年沈阳优秀的无溶剂环氧涂料厂家需要多少钱，无溶剂环氧涂料/石墨烯涂料/环氧玻璃钢/环氧酚醛/光固化保护套无溶剂环氧涂料品牌选哪家 - 品牌推荐师

sward全面介绍(14) - 集成企业微信，使用企业微信扫码登录sward

基于SSM + Vue的高校机房管理系统

LNMP架构学习

关于 iphone抓包软件，我是在什么时候真正意识到选好工具很重要

EDA 缩写全解析系列｜第 2 周：J–R

Spring Boot 自动配置的底层实现原理

Spring Cloud Stream RocketMQ整合步骤

基于微信小程序公司企业小程序设计与实现作品

Threads登录不上怎么办？这样选独享IP更稳！

AIoT：从万物互联到万物智联的进化之路

Spring Boot ——入门与实战

UniApp APP 端跳转三方页面后返回 APP 的实现原理与实操解析