文章目录
- 1 引言
- 2 能力跃迁
- 2.1 第一跃迁:能力涌现
- 2.2 第二跃迁:学会听懂人话
- 2.3 第三跃迁:学会揣摩人心
- 2.4 第四跃迁:学会慢慢想
- 2.5 第五跃迁:学会使用工具
- 2.6 第六跃迁:学会按目标自主执行
- 3 落地场景:每类应用背后用到了哪些跃迁
- 4 综合实例:一次旅行规划串起六个跃迁
- 5 总结
- 6 相关文献
1 引言
大模型,我又回来了。
去年4月开了个大模型的专栏,写了第一篇之后,就一直搁置着。今年重新捡起来,还是要朝着体系化去学习,尽量避免东一锤子西一榔头的状态。
这一年多,大模型的迭代速度一如既往地快。第一篇文章里提到,早期的 GPT 只有一个核心能力:预测下一个词。但现在的大模型,能写代码、做分析、帮人规划旅行方案,跟个私人助理已经没什么两样了。
今天这篇,就来梳理一下:大模型经历了哪些能力上的跃迁,才变成了现在这个几乎无所不能的形态?
2 能力跃迁
答案不是一步到位的,而是六次跃迁叠加的结果:
下面逐一拆解每一步跃迁,看看它们各自解决了什么问题。先说起点——大模型在一切跃迁发生之前,是个什么状态。
大模型的训练方式非常单纯:把互联网上几乎所有能找到的文字都读了一遍——新闻、论文、小说、代码、百科……总量以万亿词计。然后反复做一件事:把一段话遮住最后一个词,让模型猜。无数次重复,直到它对"什么词接在什么话后面最自然"形成了极其精准的预测。这就是Next Token Prediction,预测下一个词元,这个用海量数据反复训练的过程,就叫做预训练(Pre-training)。
举个例子,你给它看"君不见",它会接上"黄河之水天上来"——因为读过足够多的古诗,它知道这句话之后最可能跟什么。而要把这件事做好,模型必须真正理解语言背后的逻辑——预测"牛顿提出了万有引力定律,这一发现彻底改变了人类对宇宙的"后面接什么,就必须知道牛顿是谁、万有引力定律的意义。这就是为什么一个"只会猜词"的模型,读完足够多的文字后,往往会积累起大量的世界知识。
但这个阶段的模型能力是有上限的:它只会续写,不会干活。你说"帮我总结一下这份文件",它可能给你续写出一篇毫不相关的故事。而且,这个上限光靠延长训练时间是突破不了的——关键在规模。
2.1 第一跃迁:能力涌现
规模扩大,会带来两个效果,分别由两篇论文揭示。
第一个效果:猜词更准。2020年,OpenAI 提出Scaling Law(规模法则):模型参数量、训练数据量、计算量三者同步增长,“猜词"的误差会稳定下降。这让大模型的研发从"摸石头过河"变成了"按图索骥”。
第二个效果:涌现出全新能力。2022 年,Google Research 给出了另一个发现——涌现(Emergence):在某些具体任务上,模型能力并不随规模平滑增长,而是在参数量超过某个临界点后,从几乎为零突然大幅提升。不是量变,是质变,事先无法预测。
拿算术运算举例:
| 参数量 | 3位数加减法准确率 |
|---|---|
| 10亿(1B) | ≈ 0% |
| 100亿(10B) | ≈ 0% |
| 1000亿(100B) | 突然显著提升 |
没有人专门教过它做加减法,参数量超过临界点,能力就凭空冒出来了。涌现出的能力涵盖好几类:文本理解与总结(读懂一篇文章并提炼要点)、多步数学推理(做算术、解方程)、代码生成(根据描述写出可运行的代码)、常识推理(对复杂常识问题给出合理判断)。
但能力有了,不等于会用——它还不知道怎么响应指令,潜力都"锁"在里面。
2.2 第二跃迁:学会听懂人话
2022年,OpenAI 发表 InstructGPT 论文,提出了SFT(Supervised Fine-Tuning,监督微调)。核心思路很简单:专门收集一批"人类指令 → 高质量回答"的配对样本,用这些数据对模型做针对性微调,让它学会以回答问题的方式响应指令,而不是以续写的方式响应。
换句话说,SFT 的主要作用不是灌输新知识,而是解锁和对齐:告诉它"收到这类指令,就调用对应的能力给出回应"。所需数据量也不大,几万到几十万条高质量样本就够了。
经过 SFT,模型终于能听懂指令了。但新的问题随之而来:能回答,不代表回答得好。
2.3 第三跃迁:学会揣摩人心
同样一个问题,可以有一百种回答方式:有的准确但冷冰冰,有的温暖但言之无物,有的过于啰嗦,有的甚至包含有害内容。光靠 SFT,模型并不知道哪种回答更符合人类期望。
解决方案叫做RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),与 SFT 同在 InstructGPT 论文中一起提出。训练过程分三步:①让人类对模型的多个回答排序;②用排序数据训练"奖励模型",把人类偏好提炼成可计算的信号;③让语言模型不断生成回答,奖励模型实时打分,语言模型朝"更高分"方向迭代。这个方法的精妙在于:不需要给出标准答案,只需要告诉模型"哪个更好"。这就是 ChatGPT 在 2022 年底爆火的真正秘密——同期有很多参数量更大的模型,但 ChatGPT 的回答让人感觉"这个 AI 懂我",靠的正是 RLHF。
经过预训练、SFT、RLHF,一个"人见人爱"的对话模型基本成型了。
2.4 第四跃迁:学会慢慢想
第四个叠加的能力是推理——让模型在给出答案之前,先把推理过程一步步写出来,而不是直接输出结果。
这个技术叫做CoT(Chain-of-Thought,思维链)。它的工作方式是:把原本一步跳到答案的过程,拆成一步一步显式写出来——每一步的输出作为下一步的输入,错误可以在中途被纠正,而不是积累到最后才暴露。如果说之前的模型是"直觉型选手",CoT 让它进化成了"会打草稿的学生"。
CoT 的触发方式出人意料地简单:在 Prompt 里加一句话——“Let’s think step by step”,模型在数学推理、逻辑判断等复杂任务上的准确率就能大幅提升。这一发现来自 2022 年两篇论文:Kojima 等人(东京大学)的《Large Language Models are Zero-Shot Reasoners》证明了一句提示就能激活推理能力;Google Brain 的《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》进一步验证了提供示例时效果更好。
这是从外部用提示词触发推理的方式。更进一步的做法,是用强化学习(RL)把"先想再答"的习惯直接训练进模型——让它自己学会什么时候需要多想几步,而不依赖外部提示。OpenAI 的 o1 和 DeepSeek R1 走的就是这条路,本质上是 CoT 思路的内化版本。效果有多显著?在 2024 年 AIME(美国数学奥林匹克)的15道竞赛难题中,没有强化推理能力的 GPT-4o 答对 2 题,加强了推理能力的 o1 答对 13 题。
2.5 第五跃迁:学会使用工具
第五个叠加的能力,叫做Tool Use(工具调用),也称为 Function Calling。核心思路是:教模型在合适的时机调用合适的外部工具,把执行结果拿回来再继续推理。流程大致是:模型判断出"靠自身知识无法完成这个任务"→ 输出结构化工具调用请求 → 外部系统执行并返回结果 → 模型基于结果继续完成回答。可调用的工具种类很多,代码解释器、日历、邮件系统、数据库接口、联网检索……任何可以封装成函数的能力都可以成为模型的工具。
模型从只能依赖自身知识,变成了能调用外部系统、操作真实世界。其中有一种实践格外普遍,叫做RAG(Retrieval-Augmented Generation,检索增强生成):回答问题之前,先从外部知识库检索相关内容,再交给模型基于这些内容来回答。它解决的问题很典型——模型训练数据有截止日期、企业内部私有知识没法预训练进模型,这两种情况用 RAG 都可以补齐。大多数企业落地大模型应用,第一步往往就是搭一套 RAG 系统。
2.6 第六跃迁:学会按目标自主执行
第六步叠加的,是Agent(智能体)架构。它在模型已经能听懂指令、会推理、能调工具的基础上,再加一层自主执行的循环——让模型从"等待指令 → 给出回答"的单轮模式,切换到"接收目标 → 自主规划 → 分步执行 → 观察结果 → 调整策略"的多轮循环模式,不再需要人逐步下指令,给出目标它自己搞定。
一个完整的 Agent 通常包含四个模块:
规划(Planning):把目标拆解成可执行的子任务。"帮我调研竞品定价策略"→ 搜索主要竞品、抓取定价页面、整理对比表格、生成报告……
记忆(Memory):在多轮执行中,记住已经做了什么、得到了什么结果。不能每一步都从零开始。
工具(Tools):根据需要调用合适的工具——搜索、代码执行、文件读写、API 调用等,是上一步 Tool Use 能力的直接应用。
反思(Reflection):每步执行完后检查结果,出了问题就诊断原因、调整策略、重试,而不是崩溃退出。
把这四个模块组合起来,模型就从"问答机器"变成了"能干活的员工"。不过单个 Agent 能处理的任务复杂度终究有上限,于是业界开始探索更进一步的方向——Multi-Agent(多智能体协作):把复杂任务拆给多个专职 Agent,由调研、分析、写作等角色分工协作,再由协调者汇总。这本质上是工程架构层面的延伸,而非模型能力的新突破,目前还处于早期探索阶段,AutoGen(微软)、LangGraph(LangChain)是代表性框架。
回顾这六次跃迁,换个视角来看会更直观——用"实习生成长"来类比:
| 跃迁 | 技术 | 实习生的成长 |
|---|---|---|
| 起点 | 预训练 | 聪明、记性好,读了海量资料,但只会续写 |
| 第一跃迁 | Scaling Law + 涌现 | 读书读到临界点,没人教的能力突然冒出来,开始举一反三 |
| 第二跃迁 | SFT | 完成岗前培训,建立"收到需求→给出回应"的工作习惯 |
| 第三跃迁 | RLHF | 在无数次反馈中磨出分寸感,知道什么话该说、怎么说才合适 |
| 第四跃迁 | CoT | 遇到复杂问题学会打草稿,想清楚再开口,答案可靠得多 |
| 第五跃迁 | Tool Use | 不再凡事靠脑子,查资料、跑代码、调外部系统都可以 |
| 第六跃迁 | Agent | 给个方向就能自己搞定:拆任务、调资源、处理意外、交完整结果 |
3 落地场景:每类应用背后用到了哪些跃迁
六个跃迁不是孤立的技术概念,它们直接对应了今天我们用到的各类 AI 产品。下面这张表,列出了常见场景分别依赖了哪几步跃迁:
| 应用场景 | 典型例子 | 依赖的跃迁 |
|---|---|---|
| 智能问答 / 知识解答 | ChatGPT 回答"相对论是什么" | 第一~三跃迁(知识涌现 + 听懂指令 + 回答得好) |
| 文案写作 / 内容生成 | 写邮件、写周报、写公众号文章 | 同上,主要是第一~三跃迁 |
| 数学 / 逻辑推理 | 解数学题、分析逻辑漏洞 | 第一~三跃迁 + 第四跃迁(CoT 推理) |
| 实时信息查询 | “今天北京天气”“最新 A 股行情” | 前三跃迁 + 第五跃迁(Tool Use) |
| 企业知识库问答 | 基于内部文档回答报销政策 | 第一~三跃迁 + 第五跃迁中的 RAG |
| 代码生成与执行 | Cursor / GitHub Copilot 写代码并运行 | 第一~四跃迁 + 第五跃迁(代码解释器) |
| AI 搜索(如 Perplexity) | 联网搜索 + 整合信息 + 带引用回答 | 第一~三跃迁 + 第五跃迁 + 部分第四跃迁 |
| 自动化工作流 | 自动查邮件 → 整理信息 → 生成报告 → 发通知 | 第一~五跃迁提供基础,第六跃迁(Agent)是关键 |
几个值得关注的结论:
第一,大多数日常对话场景,前三个跃迁就够了。问知识、写文章、聊天——预训练知识 + SFT + RLHF 已经覆盖得很好。
第二,涉及实时信息或私有知识,第五跃迁是硬门槛。不接工具,模型就是本知识停在训练截止日的百科全书。
第三,真正的"自动化"需要第六跃迁。很多产品声称是"AI 助理",实际只到了第三跃迁;真正的 Agent 是你给出目标、它自己搞定。
4 综合实例:一次旅行规划串起六个跃迁
用一个大家都有共鸣的例子,把六个跃迁完整地串一遍。
场景:你对 AI 说:“帮我规划一次5天4晚的日本关西深度游,预算1.5万/人,喜欢历史文化和美食,尽量避开人潮,行程不要太赶。”
只有起点(预训练):AI 脑子里有关于京都、奈良、大阪的大量知识,但只是接话,不会干活。你说完,它可能续写出一篇关于京都红叶的散文——没有行程、没有规划。
加上跃迁1(涌现):模型规模足够大之后,规划旅行所需的潜在能力——理解需求、整合信息、组织行程——已经涌现出来了。但它依然不知道怎么响应"帮我规划"这个指令,还是只会续写,潜力锁在里面。
加上跃迁2(SFT):AI 终于听懂了"帮我规划"是一个指令,输出一个结构化行程:Day1 大阪城→心斋桥,Day2 清水寺→二年坂……但这是模板化的打卡路线,没有针对你的偏好,不够贴心。
加上跃迁3(RLHF):AI 开始揣摩你的心思:
- “不要太赶” = 每天3个景点封顶
- “避开人潮” = 推荐龙安寺而非金阁寺
- “历史文化” = 多安排寺庙、古街,少安排购物
回答语气也变得自然贴心:“考虑到你喜欢安静,Day2早上建议先去龙安寺枯山水庭院,人少的时候坐在那里发呆体验最好……”
加上跃迁4(CoT):AI 不再直接丢给你行程表,而是先显式推理:
“清水寺早上7点人少,但光线最适合拍照是8:30-9:30,所以安排在Day2早上8:00到达。从清水寺到二年坂步行10分钟,顺路。下午去伏见稻荷,千本鸟居走到半山腰就够了,再往上太耗体力……”
加上跃迁5(Tool Use):AI 发现光靠脑子里的知识不够,主动调用外部工具:
- 调用航班查询:北京↔大阪,6月中旬往返含税3800元,符合预算
- 调用天气 API:Day3预报有雨,自动把室内活动(博物馆、茶道体验)调到那天
- 调用地图 API:发现Day2三个景点之间步行总计超过两小时,远超预期,自动拆分调整
它不再是一本"知识停在训练截止日"的百科全书,而是连接了真实世界。
加上跃迁6(Agent):AI 不等你一步一步问,你给它目标,它自己搞定全部:拆解子任务、逐个调工具、追踪预算消耗、遇到下雨自动换室内活动、发现某天步行超2万步自动减一个景点……最后交给你的是一份完整行程表(含时间、地点、交通、预算明细、备选方案),外加打包清单。
六个跃迁叠加,一个只会猜词的模型,变成了能帮你搞定整趟旅行的私人助理。而且没有哪一步可以跳过——缺了前3步,它听不懂你要什么;缺了第4步,它安排不合理;缺了第5步,它只能靠自己的知识,无法调用任何外部工具;缺了第6步,你需要手动触发每一步。
5 总结
一个只会猜下一个词的模型,是怎么变得无所不能的?
答案就是这六步叠加的结果——预训练积累了知识,涌现解锁了潜力,SFT 教会了响应指令,RLHF 磨出了分寸感,CoT 带来了推理能力,Tool Use 连接了真实世界,Agent 把这一切整合成了闭环。缺了任何一步,今天我们用到的那些 AI 产品都不会是现在这个样子。
6 相关文献
Scaling Laws for Neural Language Models(Scaling Law 原始论文):https://arxiv.org/abs/2001.08361
Emergent Abilities of Large Language Models(涌现原始论文):https://arxiv.org/abs/2206.07682
Training language models to follow instructions with human feedback(InstructGPT,SFT + RLHF 原始论文):https://arxiv.org/abs/2203.02155
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(CoT 原始论文,Few-Shot):https://arxiv.org/abs/2201.11903
Large Language Models are Zero-Shot Reasoners(Zero-Shot CoT,“Let’s think step by step” 出处):https://arxiv.org/abs/2205.11916
OpenAI Function Calling 官方文档:https://platform.openai.com/docs/guides/function-calling
OpenAI o1 System Card:https://openai.com/index/openai-o1-system-card/
DeepSeek-R1 技术报告:https://arxiv.org/abs/2501.12948