AI进化史:工具调用、Skill、MCP、Agent到底有什么关系?
ChatGPT只是开胃菜:AI进化史中最疯狂的三年
先跟你讲个真事,就上个月发生的。
我有个程序员朋友小王。那天他电脑坏了,用公司备用机凑合。打开一看——啥也没装,Python环境都没配。懒得折腾,直接打开Claude Code,说了句:“帮我把Python装上。”
AI二话没说,自己curl下了安装包,解压,配环境变量,全程不到两分钟。这兄弟吨了一口咖啡,活儿已经干完了。
“那顺便帮我把上周那个数据处理脚本跑一下。”
AI启动终端,装依赖、读CSV、排序、写新文件——每一步屏幕上都显示着,但没有一步是他做的。
“看看有没有bug。”
AI又自己跑测试,改了两个他根本没注意到的问题。最后发来一条消息:“已完成,新文件保存在sorted_data.csv,请查收。”
他跟我说那天下午的感觉很奇怪——明明在上班,但真的没事干。
而2022年底ChatGPT刚出来那会儿,你让它帮忙订机票,它能给你列七步教程:“第一步打开携程,第二步选择日期……”活全是你干,它负责鼓掌。
三年。
AI走完了从“光说不练”到“真刀真枪”的路。
这篇就来扒一扒这段暴力进化史。不讲技术黑话,把RAG、工具调用、MCP、Skill、Agent这些词一个一个讲透,顺便说说每段路上长了什么代表作,国内国外都有。
一、那个“啥都懂但啥都干不了”的家伙
回到2022年11月。ChatGPT横空出世——严格来说不是“横空”,是“平地一声雷”。发布后5天破了100万用户,2个月月活破亿。Facebook用了4.5年,Netflix用了3.5年,ChatGPT两个多月干完了。
那段时间全网上头:朋友圈到处是ChatGPT写的辞职信、表白文案、小红书爆款笔记。朋友聚会必聊“你今天让它干了点啥”——直到你说出下面这句话:
“帮我订个明天去北京的机票。”
“很抱歉,我无法直接帮你订票。建议你登录携程进行预订。”
“帮我把上周的数据导出来分析一下。”
“我可以为你提供以下Python代码,请使用pandas……”
“我电脑上没装pandas。”
“你可以通过pip安装,运行以下命令:……”
它就差把你当傻子了。方案写得滴水不漏,但就是不动手。后来我管它叫“嘴强王者”——理论满分,实操零分。
但你要说它没用,也不对。它写的代码确实能跑,方案确实管用。只是中间隔着一道坎:AI发号施令,人类自己动手。第一次用你觉得是未来,第十次用你觉得这活儿怎么还是我在干。
二、RAG:那个“临时抱佛脚”的本事
先聊一个根本问题。如果你问ChatGPT“2025年NBA总冠军是谁”,它可能会告诉你“我的知识截止于2024年”——不是它不想回答,而是它脑子里的知识永远冻结在训练完那天。
更麻烦的是私人数据。公司内部文档、部门周报、客户聊天记录——压根不在训练素材里,它一概两眼一抹黑。查个内部数据,要么胡说八道,要么“抱歉我无法获取此类信息”。
RAG(Retrieval-Augmented Generation,检索增强生成)就是来解决这个问题的。
名字听着像实验室里走出来的,但想法特别朴素——你在公司开会,老板突然问“去年Q3华东区的销售额是多少”,你不知道,翻报表看。RAG做的就是这件“翻报表”的事。
技术上说,RAG在你提问时先去外部资料库里搜一圈,把相关片段拎出来,和你的问题一块儿打包喂给大模型,然后让它看着材料回答。这不是闭卷考试蒙答案,而是开卷考试——允许翻书。
根据一篇深度科普,RAG的本质是把AI大模型的“短期记忆”变成一个带长期记忆的工作空间,让它能记住你的需求、跑过什么步骤,把关键信息“拽”回对话中。
2026年的RAG已经进化到第五代。今天的RAG不仅是“搜一篇文章塞进去”那么简单——它已经成了AI Agent的记忆中枢,采用三层架构:
- 工作记忆(Working Memory):当前对话或任务窗口内的上下文信息,存大模型的Token上下文里,容量有限,任务结束即消失。
- 情景记忆(Episodic Memory):过去交互、决策和事件的记录。比如“上次为这个客户做的分析结论是什么”“上周处理类似告警时用了哪套策略”。
- 语义记忆(Semantic Memory):领域知识、规则体系、实体关系的结构化表示。比如企业知识图谱、产品关系网络——不只是文本堆叠,而是可推理的知识网络。
在这个体系里,RAG不再是“小抄”,而是叠加在向量数据库之上的智能检索层。当前主流Agent框架已能较好地解决工作记忆问题,但在情景记忆与语义记忆层面仍需更坚实的底层支撑——这正是图数据库和GraphRAG等技术正在填补的领域。
三、工具调用:写张纸条,让系统干活
RAG让AI能翻书了,但还不会动手。
2023年6月,OpenAI推出了一个叫Function Calling的东西——各家叫法不一样:Anthropic叫“Tool Use”,谷歌Gemini也叫“Function Calling”。但本质都是同一件事:让AI输出一个指令,程序执行它,再把结果还回来。
别被术语绕晕。我打个比方:你是老板,不会操作收银系统,你的助理很懂。你不会让他亲自去算账,他写张纸条:“财务,请查昨天营业额。”财务干了,把结果写在纸条上还给他,他告诉你:“昨天营业额两万三。”
AI写这张“纸条”——就是用特定格式告诉你“我想调用什么工具、传什么参数”——然后你的程序去执行。你只看到结果。
看看2026年的工具箱有多丰富了。OpenAI方面,2024年5月推出了GPT-4o,支持文本、音频和图像的全模态交互——音频延迟低至232毫秒,跟真人对话几乎没差别。到了2026年4月,GPT-5.5正式发布,128K上下文涨到1M Token。而且Codex的核心能力被并入了主模型,不再是一个独立产品线。在需要遍历数百个文件、持续几十小时的长周期工程任务上,GPT-5.5在Terminal-Bench 2.0的胜任率接近四分之三。
国产这边更热闹。2025年底到2026年初,DeepSeek-V4预览版正式上线并开源。三款DeepSeek模型同时挤进OpenRouter模型月榜前十,月调用合计超过17万亿tokens。上下文长度从128K扩展到1M(百万Token,阅读整本《三体》三部曲完全没问题),输出长度最大384K tokens。而且昇腾、寒武纪、摩尔线程等国产AI芯片在发布当天就完成了V4的适配,真正做到了“发布即支持”。
但工具调用有个大问题:每种AI写“纸条”的格式不太一样。今天给OpenAI写一套,明天给Claude再写一套,后天换成DeepSeek又得重新学。每个AI说的“语言”都不一样,你每换一个就得重新教。就像一个房间里同时说中文、英语、日语、法语,所有人都要配翻译。
需要统一标准了。这就是MCP的故事。
四、MCP:AI世界的“USB-C”
2024年11月,Anthropic搞了一件大事——推出了Model Context Protocol(模型上下文协议)。名字还是那么长,但你记住它的核心就行:让不同的AI模型用同一套标准调用工具和数据源。
好比你家电器换成了统一的USB-C充电口——一根线,手机、平板、笔记本、耳机,全都能用。不用再纠结到底是Lightning线还是Micro-USB线。
MCP干的事情一模一样。以前工具要为每个AI专门适配——OpenAI一套、Claude一套、谷歌一套,乘以N个工具,组合爆炸。MCP把“N×M”变成了“N+M”——每个工具开发一次MCP接口,所有支持MCP的AI都能用。一个CIO用大白话说它是AI的“乐高接口”——方向对的,但当时还摇摇晃晃。
到了2026年第一季度,摇摇晃晃的“娃”突然“参加高考还考了全市前十”。数字亮出来会吓一跳:
- SDK月下载量从2024年11月的约10万次飙到2026年3月的9700万次,整整970倍增长;
- 公开MCP服务器从十几个涨到17,468个;
- 四大主流——OpenAI、谷歌DeepMind、微软、AWS——全部正式支持;
- VS Code、Cursor、Windsurf、JetBrains等主流开发工具原生集成;
- 2025年12月,Anthropic将MCP正式移交给Linux基金会旗下的Agentic AI Foundation(AAIF),意味着它不再是某家公司的私有品,而是公开行业标准,就像HTTP和Kubernetes一样。
腾讯云开发者社区把这叫作“AI界的USB-C彻底成年”。描述得精准。
这还不是故事的全部。进入2026年,Uber在生产环境部署了MCP网关和注册中心,每周处理数以万计的Agent执行请求;Cloudflare在2026年4月推出了首个远程MCP服务器GA版本,解决了MCP早期只能本地跑的痛点。
国内也不甘示弱。支付宝推出了国内首个支付领域的MCP Server,银行支付流程首次对AI开放MCP通道——你对着AI说“帮我给小王转个账”,它自己调用支付宝MCP,执行从验证到扣款的全部操作。高德地图、百度地图、腾讯位置服务的MCP Server也相继上线,提供天气查询、路线规划等接口服务。
五、Skill:AI也开始攒“肌肉记忆”
MCP解决了“统一插头”的问题。但2026年还冒出一个新问题——AI要干的活儿越来越复杂,如果每次都从零开始想“第一步干嘛、第二步干嘛”,那效率也太低了。
Skill应运而生。在2026年主流Agent框架中,Skill的本质是将多个连续的“感知-决策-执行-反馈”循环封装成一个可复用的能力包。比如把“从录音转文字 → 提取会议要点 → 按模板生成纪要 → 发邮件”这全套流程打包成一个叫“整理会议纪要”的技能,以后AI再听到这个需求,直接调用现成技能包,不用每次临时规划。
可以把它想象成大脑的“肌肉记忆”。你学骑车时,要想“握把、看路、踩脚蹬、保持平衡”;学会后,直接说“骑上就走”。Skill做同样的事——把多步操作压缩成一次调用,AI不用再“边走边想”。
字节跳动旗下扣子(Coze)平台是Skill生态的一个缩影。2026年1月发布的Coze 2.0最核心的变化是引入了Agent Skills和Agent Plan两个概念。Skills不再是简单文本生成,而是包含了工作流、工具调用、策略检查等完整流程的“能力包”,配合“技能商店”用户可上传或下载打包好的能力——实现了隐性职业经验的代码化流转。Agent Plan允许设定“运营账号涨粉”这样的长期目标,AI自主拆解阶段性任务并周期执行。
到2026年5月,据不完全统计Coze平台上的公开Skill数量已突破5万大关。Anthropic的Skill体系做得最成熟,采用“渐进式披露”架构——先只看到Skill名字和一句话简介,信息占用量极小;确定要用时再把完整指令加载进来。就像你的大脑知道500种技能,但只需带上当前需要的那几种出门,而不是把所有细节塞满内存。
六、Agent:野心勃勃的“数字员工”
RAG能查资料,工具调用能写纸条,MCP能统一插头,Skill能打包操作。把这些全串起来,让AI不仅能“用工具”,还能自己决定什么时候用、用什么、怎么规划——这就是Agent。
我见过最贴切的比喻是:实习生只会听指令执行步骤,项目经理只需听目标自己安排全流程。Agent就是那个项目经理。你只需要说“我要组织一次部门团建”,Agent不会问你怎么做,而是自动拆任务(查空闲→选餐厅→比价→预订→发通知),调用日历API、点评API、支付接口、邮箱工具,中间发现某餐厅爆满就自动换另一家,最后通知到你。你的全部投入只是一个需求和一声“行”。
2026年是Agent大爆发之年。AI圈甚至诞生了一个新词——“养龙虾”。
“龙虾”指的是OpenClaw,一个让AI直接操控真实电脑、浏览器和操作系统(打开文件夹、编辑文件、发即时消息、填表订票,全自动)的开源项目,GitHub星标数月内冲到28万以上。打工人开始集体在工位上“养龙虾”——也就是配置和部署自己的AI Agent。你给老板开个聊天框,AI替你干活,但别忘了定时“投喂”(给它授权和监控),不然一不小心,你的“龙虾”可能真会闯祸。
2026年开年在B站刷到一个热梗:“别人养龙虾自动干活,我养龙虾自动闯祸——这哪是AI助手,分明是赛博活祖宗。”评论区全是一批“龙虾受害人实录”。毕竟让AI在你电脑上满世界乱跑,鬼知道它会不会一个失误删了你的工作目录。
但开源的魅力正在于此——一个人能写出来的Bug,一万个人来修。OpenClaw凭借这套“先跑再说,修了再跑”的极客文化,用户量和提交量疯狂上涨。
国产Agent全面爆发。2026年3月,腾讯推出WorkBuddy,完全兼容OpenClaw技能生态,内置超过20种Skills技能包,一键对接企业微信、QQ、飞书、钉钉。你甚至可以在通勤路上用手机语音远程遥控它完成复杂任务。同一天,阿里巴巴发布企业级Agent平台**“悟空”** ——不是简单套个AI外壳,而是钉钉重写底层代码进行CLI化改造,Agent能原生调用钉钉上千项能力,实现“沟通即执行”,背后是8亿级用户的数字化底座。苏州某能源公司将百万条充电桩订单导入悟空,用自然语言直接提问分析数据;义乌某公司把每月两天的算薪流程大幅缩短。
百度Create 2026大会上,创始人李彦宏提出AI时代的“度量衡”——日活智能体数(DAA),现场发布了通用智能体DuMate、代码智能体秒哒等四个产品。百度智能云全面升级为“智能体基础设施(Agent Infra)”,战场从“模型规模”转向“智能体调度系统的效能”。
华为云宣布AgentArts智能体开发平台将于4月正式公测,计划基于该平台发布一系列行业化“龙虾”,覆盖办公、代码、营销等领域。智谱AI推出GLM-5.1,号称“唯一达到8小时长程任务能力的开源模型”——从零构建一个完整的Linux桌面系统,8小时内自动执行超1200个步骤,结果相当于一个四人开发团队一周的工作量。SWE-bench Pro全球第三,国产第一。
字节跳动Coze上线2.5版本“Agent World”,为Agent提供独立云设备和身份系统,构建开放互动的学习社区。
2026年5月20日出现了一个“超级发布日”:谷歌连发Gemini 3.5 Flash和Gemini Omni两大新模型,阿里同步推出Qwen3.7-Max/Plus系列,在长程Agent化方向上对标海外。同日公布的横向评测中,Claude 4系列在SWE-bench代码Agent评测上均超72%,相比2024年Claude 3.5 Sonnet的49%一年内提升超过23个百分点。Gemini 3.1 Pro在OSWorld真实桌面任务评测中达76.2%——153项日常任务约四分之三能独立完成。
Agent评测基准也进入多元化时代:
| 评测基准 | 任务范畴 | 最新水平(2026年5月) |
|---|---|---|
| SWE-bench Verified | 代码工程能力 | Claude 4系列突破72% |
| MCP Atlas / OSWorld | 多步骤工作流与UI操控 | Gemini 3.1 Pro达76.2% |
| Terminal-Bench 2.0 | 终端自主执行能力 | GPT-5.5约82.7% |
| BFCL V4 | 工具调用权威标准 | 伯克利最新季 |
七、MCP的另一面:安全警报响起
故事还没完。当MCP从实验室走向大规模部署,争议也跟着来了。“MCP按设计存在系统级安全漏洞”,RSAC 2026安全大会把它列为最高优先级议题之一。
漏洞怎么来的?MCP用STDIO作为主要传输通道,且不做命令字符串清理。协议的子进程架构让命令执行成为默认接口,所有实现都继承了这个设定。黑客可以通过STDIO调用注入未授权的shell命令,绕过开发者准备的加固措施。
研究者发现超过43%的MCP相关漏洞属于Shell/exec注入,第二名是工具基础设施配置缺陷(20%),第三名是认证绕过(13%)。截至2026年4月,针对Python、TypeScript、Java和Rust SDK累计披露了超过40个CVE(公开安全漏洞编号)。受影响的服务器估算超过20万个,横跨各种企业内部API和数据库。
讽刺的是,这恰恰是MCP崛起后的反面——它太好用了,开发者恨不得把所有东西都接上MCP,却忘记了每多接一个工具就多一个被攻击的入口。行业调研显示仅43%的组织有集中式AI数据网关,其余57%的公司在MCP治理方面处于“碎片化、部分或完全盲飞”的状态。
安全研究机构OX Security已证实国家级APT组织(高级持续性威胁黑客团队)开始利用这一设计弱点。Anthropic披露了一个由某国发起的攻击活动,利用Claude Code结合MCP工具对大约30个组织进行AI编排式的渗透攻击。
八、技术混战|一张图看懂它们到底什么关系
一口气说了RAG、工具调用、MCP、Skill、Agent五个概念,我把它们的关系摆在这张速查表里:
| 概念 | 一句通俗定义 |
|---|---|
| 对话式AI | 聪明的实习生,只会动嘴(2022年底的ChatGPT) |
| RAG | 给实习生配了书架和图书管理员,说话前先翻书 |
| 工具调用 | 实习生会写精准指令条子,让程序照着执行 |
| MCP | 统一所有AI和工具的插座标准——USB-C |
| Skill | 把多个操作打包成“肌肉记忆”,一次调用全自动 |
| Agent | 把这些全部串起来——项目经理,只管目标,不管步骤 |
演进脉络不是“取代”,而是“叠加”:对话式AI → RAG → 工具调用 → Skill → MCP → Agent,每一层都在前一层基础上加新本事。
结语:三年暴力进化
2022年12月:你问AI“帮我写个爬虫”,它给你一份万字保姆级教程,你得自己安装依赖、自己运行、自己调试。
2026年6月:你说“帮我写个爬虫,然后跑一下”。你喝着咖啡,它写完代码、装好依赖、跑通、告诉你看数据。
三年。不是模型变聪明了几个百分点的事——它从“光说不练的嘴强王者”变成了“能征善战的数字员工”。
RAG给了它即时的信息能力——它知道你问的不是2021年的事,也知道你的内部文档长什么样。工具调用给了它肢体的骨骼——它不再只会列教程,而是能把“写纸条”变成“程序执行”,干完活再还给你结果。MCP把这些“肢体”练到统一标准——支持一个协议的AI,调用任何工具都行,不再“鸡同鸭讲”。Skill把琐碎多步操作压缩成肌肉记忆——以前要教大半天才能会的流程,现在AI一句话就能复用整个技能包。Agent把上面全部串起来,成为一个敢自己定计划、敢自己改Bug的自主系统。
2026年5月底,权威IDC分析报告给出的判断是:大模型正从单纯对话工具升级为自主生产力载体,评判标准从精准度转为任务完成效率和运行稳定性等实战指标。澎湃新闻今年5月的深度文章更是点出:Chatbot已现增长天花板,头部9大对话产品Web访问量下滑,Agent迎来元年,AI开始替你干活。
“未来已来,只是分布不均”——威廉·吉布森的这句话搁在AI上再合适不过。我不觉得AI会“取代”人类工作,但有一点敢肯定:那些把AI当“能干活”的人,会开始用Agent自动干脏活累活;那些还把它当高级聊天框的人,很快会发现自己熬夜加的班,隔壁同事的Agent十五分钟跑完了。
毕竟——能用Agent偷的懒,谁会拒绝呢?
