大模型是怎么从“猜词机器“变成“私人助理“的-尧图网络科技

文章目录

1 引言
2 能力跃迁
- 2.1 第一跃迁：能力涌现
- 2.2 第二跃迁：学会听懂人话
- 2.3 第三跃迁：学会揣摩人心
- 2.4 第四跃迁：学会慢慢想
- 2.5 第五跃迁：学会使用工具
- 2.6 第六跃迁：学会按目标自主执行
3 落地场景：每类应用背后用到了哪些跃迁
4 综合实例：一次旅行规划串起六个跃迁
5 总结
6 相关文献

1 引言

大模型，我又回来了。

去年4月开了个大模型的专栏，写了第一篇之后，就一直搁置着。今年重新捡起来，还是要朝着体系化去学习，尽量避免东一锤子西一榔头的状态。

这一年多，大模型的迭代速度一如既往地快。第一篇文章里提到，早期的 GPT 只有一个核心能力：预测下一个词。但现在的大模型，能写代码、做分析、帮人规划旅行方案，跟个私人助理已经没什么两样了。

今天这篇，就来梳理一下：大模型经历了哪些能力上的跃迁，才变成了现在这个几乎无所不能的形态？

2 能力跃迁

答案不是一步到位的，而是六次跃迁叠加的结果：

下面逐一拆解每一步跃迁，看看它们各自解决了什么问题。先说起点——大模型在一切跃迁发生之前，是个什么状态。

大模型的训练方式非常单纯：把互联网上几乎所有能找到的文字都读了一遍——新闻、论文、小说、代码、百科……总量以万亿词计。然后反复做一件事：把一段话遮住最后一个词，让模型猜。无数次重复，直到它对"什么词接在什么话后面最自然"形成了极其精准的预测。这就是Next Token Prediction，预测下一个词元，这个用海量数据反复训练的过程，就叫做预训练（Pre-training）。

举个例子，你给它看"君不见"，它会接上"黄河之水天上来"——因为读过足够多的古诗，它知道这句话之后最可能跟什么。而要把这件事做好，模型必须真正理解语言背后的逻辑——预测"牛顿提出了万有引力定律，这一发现彻底改变了人类对宇宙的"后面接什么，就必须知道牛顿是谁、万有引力定律的意义。这就是为什么一个"只会猜词"的模型，读完足够多的文字后，往往会积累起大量的世界知识。

但这个阶段的模型能力是有上限的：它只会续写，不会干活。你说"帮我总结一下这份文件"，它可能给你续写出一篇毫不相关的故事。而且，这个上限光靠延长训练时间是突破不了的——关键在规模。

2.1 第一跃迁：能力涌现

规模扩大，会带来两个效果，分别由两篇论文揭示。

第一个效果：猜词更准。2020年，OpenAI 提出Scaling Law（规模法则）：模型参数量、训练数据量、计算量三者同步增长，“猜词"的误差会稳定下降。这让大模型的研发从"摸石头过河"变成了"按图索骥”。

第二个效果：涌现出全新能力。2022 年，Google Research 给出了另一个发现——涌现（Emergence）：在某些具体任务上，模型能力并不随规模平滑增长，而是在参数量超过某个临界点后，从几乎为零突然大幅提升。不是量变，是质变，事先无法预测。

拿算术运算举例：

参数量	3位数加减法准确率
10亿（1B）	≈ 0%
100亿（10B）	≈ 0%
1000亿（100B）	突然显著提升

没有人专门教过它做加减法，参数量超过临界点，能力就凭空冒出来了。涌现出的能力涵盖好几类：文本理解与总结（读懂一篇文章并提炼要点）、多步数学推理（做算术、解方程）、代码生成（根据描述写出可运行的代码）、常识推理（对复杂常识问题给出合理判断）。

但能力有了，不等于会用——它还不知道怎么响应指令，潜力都"锁"在里面。

2.2 第二跃迁：学会听懂人话

2022年，OpenAI 发表 InstructGPT 论文，提出了SFT（Supervised Fine-Tuning，监督微调）。核心思路很简单：专门收集一批"人类指令 → 高质量回答"的配对样本，用这些数据对模型做针对性微调，让它学会以回答问题的方式响应指令，而不是以续写的方式响应。

换句话说，SFT 的主要作用不是灌输新知识，而是解锁和对齐：告诉它"收到这类指令，就调用对应的能力给出回应"。所需数据量也不大，几万到几十万条高质量样本就够了。

经过 SFT，模型终于能听懂指令了。但新的问题随之而来：能回答，不代表回答得好。

2.3 第三跃迁：学会揣摩人心

同样一个问题，可以有一百种回答方式：有的准确但冷冰冰，有的温暖但言之无物，有的过于啰嗦，有的甚至包含有害内容。光靠 SFT，模型并不知道哪种回答更符合人类期望。

解决方案叫做RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习），与 SFT 同在 InstructGPT 论文中一起提出。训练过程分三步：①让人类对模型的多个回答排序；②用排序数据训练"奖励模型"，把人类偏好提炼成可计算的信号；③让语言模型不断生成回答，奖励模型实时打分，语言模型朝"更高分"方向迭代。这个方法的精妙在于：不需要给出标准答案，只需要告诉模型"哪个更好"。这就是 ChatGPT 在 2022 年底爆火的真正秘密——同期有很多参数量更大的模型，但 ChatGPT 的回答让人感觉"这个 AI 懂我"，靠的正是 RLHF。

经过预训练、SFT、RLHF，一个"人见人爱"的对话模型基本成型了。

2.4 第四跃迁：学会慢慢想

第四个叠加的能力是推理——让模型在给出答案之前，先把推理过程一步步写出来，而不是直接输出结果。

这个技术叫做CoT（Chain-of-Thought，思维链）。它的工作方式是：把原本一步跳到答案的过程，拆成一步一步显式写出来——每一步的输出作为下一步的输入，错误可以在中途被纠正，而不是积累到最后才暴露。如果说之前的模型是"直觉型选手"，CoT 让它进化成了"会打草稿的学生"。

CoT 的触发方式出人意料地简单：在 Prompt 里加一句话——“Let’s think step by step”，模型在数学推理、逻辑判断等复杂任务上的准确率就能大幅提升。这一发现来自 2022 年两篇论文：Kojima 等人（东京大学）的《Large Language Models are Zero-Shot Reasoners》证明了一句提示就能激活推理能力；Google Brain 的《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》进一步验证了提供示例时效果更好。

这是从外部用提示词触发推理的方式。更进一步的做法，是用强化学习（RL）把"先想再答"的习惯直接训练进模型——让它自己学会什么时候需要多想几步，而不依赖外部提示。OpenAI 的 o1 和 DeepSeek R1 走的就是这条路，本质上是 CoT 思路的内化版本。效果有多显著？在 2024 年 AIME（美国数学奥林匹克）的15道竞赛难题中，没有强化推理能力的 GPT-4o 答对 2 题，加强了推理能力的 o1 答对 13 题。

2.5 第五跃迁：学会使用工具

第五个叠加的能力，叫做Tool Use（工具调用），也称为 Function Calling。核心思路是：教模型在合适的时机调用合适的外部工具，把执行结果拿回来再继续推理。流程大致是：模型判断出"靠自身知识无法完成这个任务"→ 输出结构化工具调用请求 → 外部系统执行并返回结果 → 模型基于结果继续完成回答。可调用的工具种类很多，代码解释器、日历、邮件系统、数据库接口、联网检索……任何可以封装成函数的能力都可以成为模型的工具。

模型从只能依赖自身知识，变成了能调用外部系统、操作真实世界。其中有一种实践格外普遍，叫做RAG（Retrieval-Augmented Generation，检索增强生成）：回答问题之前，先从外部知识库检索相关内容，再交给模型基于这些内容来回答。它解决的问题很典型——模型训练数据有截止日期、企业内部私有知识没法预训练进模型，这两种情况用 RAG 都可以补齐。大多数企业落地大模型应用，第一步往往就是搭一套 RAG 系统。

2.6 第六跃迁：学会按目标自主执行

第六步叠加的，是Agent（智能体）架构。它在模型已经能听懂指令、会推理、能调工具的基础上，再加一层自主执行的循环——让模型从"等待指令 → 给出回答"的单轮模式，切换到"接收目标 → 自主规划 → 分步执行 → 观察结果 → 调整策略"的多轮循环模式，不再需要人逐步下指令，给出目标它自己搞定。

一个完整的 Agent 通常包含四个模块：

规划（Planning）：把目标拆解成可执行的子任务。"帮我调研竞品定价策略"→ 搜索主要竞品、抓取定价页面、整理对比表格、生成报告……

记忆（Memory）：在多轮执行中，记住已经做了什么、得到了什么结果。不能每一步都从零开始。

工具（Tools）：根据需要调用合适的工具——搜索、代码执行、文件读写、API 调用等，是上一步 Tool Use 能力的直接应用。

反思（Reflection）：每步执行完后检查结果，出了问题就诊断原因、调整策略、重试，而不是崩溃退出。

把这四个模块组合起来，模型就从"问答机器"变成了"能干活的员工"。不过单个 Agent 能处理的任务复杂度终究有上限，于是业界开始探索更进一步的方向——Multi-Agent（多智能体协作）：把复杂任务拆给多个专职 Agent，由调研、分析、写作等角色分工协作，再由协调者汇总。这本质上是工程架构层面的延伸，而非模型能力的新突破，目前还处于早期探索阶段，AutoGen（微软）、LangGraph（LangChain）是代表性框架。

回顾这六次跃迁，换个视角来看会更直观——用"实习生成长"来类比：

跃迁	技术	实习生的成长
起点	预训练	聪明、记性好，读了海量资料，但只会续写
第一跃迁	Scaling Law + 涌现	读书读到临界点，没人教的能力突然冒出来，开始举一反三
第二跃迁	SFT	完成岗前培训，建立"收到需求→给出回应"的工作习惯
第三跃迁	RLHF	在无数次反馈中磨出分寸感，知道什么话该说、怎么说才合适
第四跃迁	CoT	遇到复杂问题学会打草稿，想清楚再开口，答案可靠得多
第五跃迁	Tool Use	不再凡事靠脑子，查资料、跑代码、调外部系统都可以
第六跃迁	Agent	给个方向就能自己搞定：拆任务、调资源、处理意外、交完整结果

3 落地场景：每类应用背后用到了哪些跃迁

六个跃迁不是孤立的技术概念，它们直接对应了今天我们用到的各类 AI 产品。下面这张表，列出了常见场景分别依赖了哪几步跃迁：

应用场景	典型例子	依赖的跃迁
智能问答 / 知识解答	ChatGPT 回答"相对论是什么"	第一~三跃迁（知识涌现 + 听懂指令 + 回答得好）
文案写作 / 内容生成	写邮件、写周报、写公众号文章	同上，主要是第一~三跃迁
数学 / 逻辑推理	解数学题、分析逻辑漏洞	第一~三跃迁 + 第四跃迁（CoT 推理）
实时信息查询	“今天北京天气”“最新 A 股行情”	前三跃迁 + 第五跃迁（Tool Use）
企业知识库问答	基于内部文档回答报销政策	第一~三跃迁 + 第五跃迁中的 RAG
代码生成与执行	Cursor / GitHub Copilot 写代码并运行	第一~四跃迁 + 第五跃迁（代码解释器）
AI 搜索（如 Perplexity）	联网搜索 + 整合信息 + 带引用回答	第一~三跃迁 + 第五跃迁 + 部分第四跃迁
自动化工作流	自动查邮件 → 整理信息 → 生成报告 → 发通知	第一~五跃迁提供基础，第六跃迁（Agent）是关键

几个值得关注的结论：

第一，大多数日常对话场景，前三个跃迁就够了。问知识、写文章、聊天——预训练知识 + SFT + RLHF 已经覆盖得很好。

第二，涉及实时信息或私有知识，第五跃迁是硬门槛。不接工具，模型就是本知识停在训练截止日的百科全书。

第三，真正的"自动化"需要第六跃迁。很多产品声称是"AI 助理"，实际只到了第三跃迁；真正的 Agent 是你给出目标、它自己搞定。

4 综合实例：一次旅行规划串起六个跃迁

用一个大家都有共鸣的例子，把六个跃迁完整地串一遍。

场景：你对 AI 说：“帮我规划一次5天4晚的日本关西深度游，预算1.5万/人，喜欢历史文化和美食，尽量避开人潮，行程不要太赶。”

只有起点（预训练）：AI 脑子里有关于京都、奈良、大阪的大量知识，但只是接话，不会干活。你说完，它可能续写出一篇关于京都红叶的散文——没有行程、没有规划。

加上跃迁1（涌现）：模型规模足够大之后，规划旅行所需的潜在能力——理解需求、整合信息、组织行程——已经涌现出来了。但它依然不知道怎么响应"帮我规划"这个指令，还是只会续写，潜力锁在里面。

加上跃迁2（SFT）：AI 终于听懂了"帮我规划"是一个指令，输出一个结构化行程：Day1 大阪城→心斋桥，Day2 清水寺→二年坂……但这是模板化的打卡路线，没有针对你的偏好，不够贴心。

加上跃迁3（RLHF）：AI 开始揣摩你的心思：

“不要太赶” = 每天3个景点封顶
“避开人潮” = 推荐龙安寺而非金阁寺
“历史文化” = 多安排寺庙、古街，少安排购物

回答语气也变得自然贴心：“考虑到你喜欢安静，Day2早上建议先去龙安寺枯山水庭院，人少的时候坐在那里发呆体验最好……”

加上跃迁4（CoT）：AI 不再直接丢给你行程表，而是先显式推理：

“清水寺早上7点人少，但光线最适合拍照是8:30-9:30，所以安排在Day2早上8:00到达。从清水寺到二年坂步行10分钟，顺路。下午去伏见稻荷，千本鸟居走到半山腰就够了，再往上太耗体力……”

加上跃迁5（Tool Use）：AI 发现光靠脑子里的知识不够，主动调用外部工具：

调用航班查询：北京↔大阪，6月中旬往返含税3800元，符合预算
调用天气 API：Day3预报有雨，自动把室内活动（博物馆、茶道体验）调到那天
调用地图 API：发现Day2三个景点之间步行总计超过两小时，远超预期，自动拆分调整

它不再是一本"知识停在训练截止日"的百科全书，而是连接了真实世界。

加上跃迁6（Agent）：AI 不等你一步一步问，你给它目标，它自己搞定全部：拆解子任务、逐个调工具、追踪预算消耗、遇到下雨自动换室内活动、发现某天步行超2万步自动减一个景点……最后交给你的是一份完整行程表（含时间、地点、交通、预算明细、备选方案），外加打包清单。

六个跃迁叠加，一个只会猜词的模型，变成了能帮你搞定整趟旅行的私人助理。而且没有哪一步可以跳过——缺了前3步，它听不懂你要什么；缺了第4步，它安排不合理；缺了第5步，它只能靠自己的知识，无法调用任何外部工具；缺了第6步，你需要手动触发每一步。

5 总结

一个只会猜下一个词的模型，是怎么变得无所不能的？

答案就是这六步叠加的结果——预训练积累了知识，涌现解锁了潜力，SFT 教会了响应指令，RLHF 磨出了分寸感，CoT 带来了推理能力，Tool Use 连接了真实世界，Agent 把这一切整合成了闭环。缺了任何一步，今天我们用到的那些 AI 产品都不会是现在这个样子。

6 相关文献

Scaling Laws for Neural Language Models（Scaling Law 原始论文）：https://arxiv.org/abs/2001.08361

Emergent Abilities of Large Language Models（涌现原始论文）：https://arxiv.org/abs/2206.07682

Training language models to follow instructions with human feedback（InstructGPT，SFT + RLHF 原始论文）：https://arxiv.org/abs/2203.02155

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models（CoT 原始论文，Few-Shot）：https://arxiv.org/abs/2201.11903

Large Language Models are Zero-Shot Reasoners（Zero-Shot CoT，“Let’s think step by step” 出处）：https://arxiv.org/abs/2205.11916

OpenAI Function Calling 官方文档：https://platform.openai.com/docs/guides/function-calling

OpenAI o1 System Card：https://openai.com/index/openai-o1-system-card/

DeepSeek-R1 技术报告：https://arxiv.org/abs/2501.12948

资讯详情