当前位置：首页 > news >正文

AI进化史：工具调用、Skill、MCP、Agent到底有什么关系？

news 2026/6/1 20:57:01

ChatGPT只是开胃菜：AI进化史中最疯狂的三年

先跟你讲个真事，就上个月发生的。

我有个程序员朋友小王。那天他电脑坏了，用公司备用机凑合。打开一看——啥也没装，Python环境都没配。懒得折腾，直接打开Claude Code，说了句：“帮我把Python装上。”

AI二话没说，自己curl下了安装包，解压，配环境变量，全程不到两分钟。这兄弟吨了一口咖啡，活儿已经干完了。

“那顺便帮我把上周那个数据处理脚本跑一下。”

AI启动终端，装依赖、读CSV、排序、写新文件——每一步屏幕上都显示着，但没有一步是他做的。

“看看有没有bug。”

AI又自己跑测试，改了两个他根本没注意到的问题。最后发来一条消息：“已完成，新文件保存在sorted_data.csv，请查收。”

他跟我说那天下午的感觉很奇怪——明明在上班，但真的没事干。

而2022年底ChatGPT刚出来那会儿，你让它帮忙订机票，它能给你列七步教程：“第一步打开携程，第二步选择日期……”活全是你干，它负责鼓掌。

三年。

AI走完了从“光说不练”到“真刀真枪”的路。

这篇就来扒一扒这段暴力进化史。不讲技术黑话，把RAG、工具调用、MCP、Skill、Agent这些词一个一个讲透，顺便说说每段路上长了什么代表作，国内国外都有。

一、那个“啥都懂但啥都干不了”的家伙

回到2022年11月。ChatGPT横空出世——严格来说不是“横空”，是“平地一声雷”。发布后5天破了100万用户，2个月月活破亿。Facebook用了4.5年，Netflix用了3.5年，ChatGPT两个多月干完了。

那段时间全网上头：朋友圈到处是ChatGPT写的辞职信、表白文案、小红书爆款笔记。朋友聚会必聊“你今天让它干了点啥”——直到你说出下面这句话：

“帮我订个明天去北京的机票。”
“很抱歉，我无法直接帮你订票。建议你登录携程进行预订。”
“帮我把上周的数据导出来分析一下。”
“我可以为你提供以下Python代码，请使用pandas……”
“我电脑上没装pandas。”
“你可以通过pip安装，运行以下命令：……”

它就差把你当傻子了。方案写得滴水不漏，但就是不动手。后来我管它叫“嘴强王者”——理论满分，实操零分。

但你要说它没用，也不对。它写的代码确实能跑，方案确实管用。只是中间隔着一道坎：AI发号施令，人类自己动手。第一次用你觉得是未来，第十次用你觉得这活儿怎么还是我在干。

二、RAG：那个“临时抱佛脚”的本事

先聊一个根本问题。如果你问ChatGPT“2025年NBA总冠军是谁”，它可能会告诉你“我的知识截止于2024年”——不是它不想回答，而是它脑子里的知识永远冻结在训练完那天。

更麻烦的是私人数据。公司内部文档、部门周报、客户聊天记录——压根不在训练素材里，它一概两眼一抹黑。查个内部数据，要么胡说八道，要么“抱歉我无法获取此类信息”。

RAG（Retrieval-Augmented Generation，检索增强生成）就是来解决这个问题的。

名字听着像实验室里走出来的，但想法特别朴素——你在公司开会，老板突然问“去年Q3华东区的销售额是多少”，你不知道，翻报表看。RAG做的就是这件“翻报表”的事。

技术上说，RAG在你提问时先去外部资料库里搜一圈，把相关片段拎出来，和你的问题一块儿打包喂给大模型，然后让它看着材料回答。这不是闭卷考试蒙答案，而是开卷考试——允许翻书。

根据一篇深度科普，RAG的本质是把AI大模型的“短期记忆”变成一个带长期记忆的工作空间，让它能记住你的需求、跑过什么步骤，把关键信息“拽”回对话中。

2026年的RAG已经进化到第五代。今天的RAG不仅是“搜一篇文章塞进去”那么简单——它已经成了AI Agent的记忆中枢，采用三层架构：

工作记忆（Working Memory）：当前对话或任务窗口内的上下文信息，存大模型的Token上下文里，容量有限，任务结束即消失。
情景记忆（Episodic Memory）：过去交互、决策和事件的记录。比如“上次为这个客户做的分析结论是什么”“上周处理类似告警时用了哪套策略”。
语义记忆（Semantic Memory）：领域知识、规则体系、实体关系的结构化表示。比如企业知识图谱、产品关系网络——不只是文本堆叠，而是可推理的知识网络。

在这个体系里，RAG不再是“小抄”，而是叠加在向量数据库之上的智能检索层。当前主流Agent框架已能较好地解决工作记忆问题，但在情景记忆与语义记忆层面仍需更坚实的底层支撑——这正是图数据库和GraphRAG等技术正在填补的领域。

三、工具调用：写张纸条，让系统干活

RAG让AI能翻书了，但还不会动手。

2023年6月，OpenAI推出了一个叫Function Calling的东西——各家叫法不一样：Anthropic叫“Tool Use”，谷歌Gemini也叫“Function Calling”。但本质都是同一件事：让AI输出一个指令，程序执行它，再把结果还回来。

别被术语绕晕。我打个比方：你是老板，不会操作收银系统，你的助理很懂。你不会让他亲自去算账，他写张纸条：“财务，请查昨天营业额。”财务干了，把结果写在纸条上还给他，他告诉你：“昨天营业额两万三。”

AI写这张“纸条”——就是用特定格式告诉你“我想调用什么工具、传什么参数”——然后你的程序去执行。你只看到结果。

看看2026年的工具箱有多丰富了。OpenAI方面，2024年5月推出了GPT-4o，支持文本、音频和图像的全模态交互——音频延迟低至232毫秒，跟真人对话几乎没差别。到了2026年4月，GPT-5.5正式发布，128K上下文涨到1M Token。而且Codex的核心能力被并入了主模型，不再是一个独立产品线。在需要遍历数百个文件、持续几十小时的长周期工程任务上，GPT-5.5在Terminal-Bench 2.0的胜任率接近四分之三。

国产这边更热闹。2025年底到2026年初，DeepSeek-V4预览版正式上线并开源。三款DeepSeek模型同时挤进OpenRouter模型月榜前十，月调用合计超过17万亿tokens。上下文长度从128K扩展到1M（百万Token，阅读整本《三体》三部曲完全没问题），输出长度最大384K tokens。而且昇腾、寒武纪、摩尔线程等国产AI芯片在发布当天就完成了V4的适配，真正做到了“发布即支持”。

但工具调用有个大问题：每种AI写“纸条”的格式不太一样。今天给OpenAI写一套，明天给Claude再写一套，后天换成DeepSeek又得重新学。每个AI说的“语言”都不一样，你每换一个就得重新教。就像一个房间里同时说中文、英语、日语、法语，所有人都要配翻译。

需要统一标准了。这就是MCP的故事。

四、MCP：AI世界的“USB-C”

2024年11月，Anthropic搞了一件大事——推出了Model Context Protocol（模型上下文协议）。名字还是那么长，但你记住它的核心就行：让不同的AI模型用同一套标准调用工具和数据源。

好比你家电器换成了统一的USB-C充电口——一根线，手机、平板、笔记本、耳机，全都能用。不用再纠结到底是Lightning线还是Micro-USB线。

MCP干的事情一模一样。以前工具要为每个AI专门适配——OpenAI一套、Claude一套、谷歌一套，乘以N个工具，组合爆炸。MCP把“N×M”变成了“N+M”——每个工具开发一次MCP接口，所有支持MCP的AI都能用。一个CIO用大白话说它是AI的“乐高接口”——方向对的，但当时还摇摇晃晃。

到了2026年第一季度，摇摇晃晃的“娃”突然“参加高考还考了全市前十”。数字亮出来会吓一跳：

SDK月下载量从2024年11月的约10万次飙到2026年3月的9700万次，整整970倍增长；
公开MCP服务器从十几个涨到17,468个；
四大主流——OpenAI、谷歌DeepMind、微软、AWS——全部正式支持；
VS Code、Cursor、Windsurf、JetBrains等主流开发工具原生集成；
2025年12月，Anthropic将MCP正式移交给Linux基金会旗下的Agentic AI Foundation（AAIF），意味着它不再是某家公司的私有品，而是公开行业标准，就像HTTP和Kubernetes一样。

腾讯云开发者社区把这叫作“AI界的USB-C彻底成年”。描述得精准。

这还不是故事的全部。进入2026年，Uber在生产环境部署了MCP网关和注册中心，每周处理数以万计的Agent执行请求；Cloudflare在2026年4月推出了首个远程MCP服务器GA版本，解决了MCP早期只能本地跑的痛点。

国内也不甘示弱。支付宝推出了国内首个支付领域的MCP Server，银行支付流程首次对AI开放MCP通道——你对着AI说“帮我给小王转个账”，它自己调用支付宝MCP，执行从验证到扣款的全部操作。高德地图、百度地图、腾讯位置服务的MCP Server也相继上线，提供天气查询、路线规划等接口服务。

五、Skill：AI也开始攒“肌肉记忆”

MCP解决了“统一插头”的问题。但2026年还冒出一个新问题——AI要干的活儿越来越复杂，如果每次都从零开始想“第一步干嘛、第二步干嘛”，那效率也太低了。

Skill应运而生。在2026年主流Agent框架中，Skill的本质是将多个连续的“感知-决策-执行-反馈”循环封装成一个可复用的能力包。比如把“从录音转文字 → 提取会议要点 → 按模板生成纪要 → 发邮件”这全套流程打包成一个叫“整理会议纪要”的技能，以后AI再听到这个需求，直接调用现成技能包，不用每次临时规划。

可以把它想象成大脑的“肌肉记忆”。你学骑车时，要想“握把、看路、踩脚蹬、保持平衡”；学会后，直接说“骑上就走”。Skill做同样的事——把多步操作压缩成一次调用，AI不用再“边走边想”。

字节跳动旗下扣子（Coze）平台是Skill生态的一个缩影。2026年1月发布的Coze 2.0最核心的变化是引入了Agent Skills和Agent Plan两个概念。Skills不再是简单文本生成，而是包含了工作流、工具调用、策略检查等完整流程的“能力包”，配合“技能商店”用户可上传或下载打包好的能力——实现了隐性职业经验的代码化流转。Agent Plan允许设定“运营账号涨粉”这样的长期目标，AI自主拆解阶段性任务并周期执行。

到2026年5月，据不完全统计Coze平台上的公开Skill数量已突破5万大关。Anthropic的Skill体系做得最成熟，采用“渐进式披露”架构——先只看到Skill名字和一句话简介，信息占用量极小；确定要用时再把完整指令加载进来。就像你的大脑知道500种技能，但只需带上当前需要的那几种出门，而不是把所有细节塞满内存。

六、Agent：野心勃勃的“数字员工”

RAG能查资料，工具调用能写纸条，MCP能统一插头，Skill能打包操作。把这些全串起来，让AI不仅能“用工具”，还能自己决定什么时候用、用什么、怎么规划——这就是Agent。

我见过最贴切的比喻是：实习生只会听指令执行步骤，项目经理只需听目标自己安排全流程。Agent就是那个项目经理。你只需要说“我要组织一次部门团建”，Agent不会问你怎么做，而是自动拆任务（查空闲→选餐厅→比价→预订→发通知），调用日历API、点评API、支付接口、邮箱工具，中间发现某餐厅爆满就自动换另一家，最后通知到你。你的全部投入只是一个需求和一声“行”。

2026年是Agent大爆发之年。AI圈甚至诞生了一个新词——“养龙虾”。

“龙虾”指的是OpenClaw，一个让AI直接操控真实电脑、浏览器和操作系统（打开文件夹、编辑文件、发即时消息、填表订票，全自动）的开源项目，GitHub星标数月内冲到28万以上。打工人开始集体在工位上“养龙虾”——也就是配置和部署自己的AI Agent。你给老板开个聊天框，AI替你干活，但别忘了定时“投喂”（给它授权和监控），不然一不小心，你的“龙虾”可能真会闯祸。

2026年开年在B站刷到一个热梗：“别人养龙虾自动干活，我养龙虾自动闯祸——这哪是AI助手，分明是赛博活祖宗。”评论区全是一批“龙虾受害人实录”。毕竟让AI在你电脑上满世界乱跑，鬼知道它会不会一个失误删了你的工作目录。

但开源的魅力正在于此——一个人能写出来的Bug，一万个人来修。OpenClaw凭借这套“先跑再说，修了再跑”的极客文化，用户量和提交量疯狂上涨。

国产Agent全面爆发。2026年3月，腾讯推出WorkBuddy，完全兼容OpenClaw技能生态，内置超过20种Skills技能包，一键对接企业微信、QQ、飞书、钉钉。你甚至可以在通勤路上用手机语音远程遥控它完成复杂任务。同一天，阿里巴巴发布企业级Agent平台**“悟空”** ——不是简单套个AI外壳，而是钉钉重写底层代码进行CLI化改造，Agent能原生调用钉钉上千项能力，实现“沟通即执行”，背后是8亿级用户的数字化底座。苏州某能源公司将百万条充电桩订单导入悟空，用自然语言直接提问分析数据；义乌某公司把每月两天的算薪流程大幅缩短。

百度Create 2026大会上，创始人李彦宏提出AI时代的“度量衡”——日活智能体数（DAA），现场发布了通用智能体DuMate、代码智能体秒哒等四个产品。百度智能云全面升级为“智能体基础设施（Agent Infra）”，战场从“模型规模”转向“智能体调度系统的效能”。

华为云宣布AgentArts智能体开发平台将于4月正式公测，计划基于该平台发布一系列行业化“龙虾”，覆盖办公、代码、营销等领域。智谱AI推出GLM-5.1，号称“唯一达到8小时长程任务能力的开源模型”——从零构建一个完整的Linux桌面系统，8小时内自动执行超1200个步骤，结果相当于一个四人开发团队一周的工作量。SWE-bench Pro全球第三，国产第一。

字节跳动Coze上线2.5版本“Agent World”，为Agent提供独立云设备和身份系统，构建开放互动的学习社区。

2026年5月20日出现了一个“超级发布日”：谷歌连发Gemini 3.5 Flash和Gemini Omni两大新模型，阿里同步推出Qwen3.7-Max/Plus系列，在长程Agent化方向上对标海外。同日公布的横向评测中，Claude 4系列在SWE-bench代码Agent评测上均超72%，相比2024年Claude 3.5 Sonnet的49%一年内提升超过23个百分点。Gemini 3.1 Pro在OSWorld真实桌面任务评测中达76.2%——153项日常任务约四分之三能独立完成。

Agent评测基准也进入多元化时代：

评测基准	任务范畴	最新水平（2026年5月）
SWE-bench Verified	代码工程能力	Claude 4系列突破72%
MCP Atlas / OSWorld	多步骤工作流与UI操控	Gemini 3.1 Pro达76.2%
Terminal-Bench 2.0	终端自主执行能力	GPT-5.5约82.7%
BFCL V4	工具调用权威标准	伯克利最新季

七、MCP的另一面：安全警报响起

故事还没完。当MCP从实验室走向大规模部署，争议也跟着来了。“MCP按设计存在系统级安全漏洞”，RSAC 2026安全大会把它列为最高优先级议题之一。

漏洞怎么来的？MCP用STDIO作为主要传输通道，且不做命令字符串清理。协议的子进程架构让命令执行成为默认接口，所有实现都继承了这个设定。黑客可以通过STDIO调用注入未授权的shell命令，绕过开发者准备的加固措施。

研究者发现超过43%的MCP相关漏洞属于Shell/exec注入，第二名是工具基础设施配置缺陷（20%），第三名是认证绕过（13%）。截至2026年4月，针对Python、TypeScript、Java和Rust SDK累计披露了超过40个CVE（公开安全漏洞编号）。受影响的服务器估算超过20万个，横跨各种企业内部API和数据库。

讽刺的是，这恰恰是MCP崛起后的反面——它太好用了，开发者恨不得把所有东西都接上MCP，却忘记了每多接一个工具就多一个被攻击的入口。行业调研显示仅43%的组织有集中式AI数据网关，其余57%的公司在MCP治理方面处于“碎片化、部分或完全盲飞”的状态。

安全研究机构OX Security已证实国家级APT组织（高级持续性威胁黑客团队）开始利用这一设计弱点。Anthropic披露了一个由某国发起的攻击活动，利用Claude Code结合MCP工具对大约30个组织进行AI编排式的渗透攻击。

八、技术混战｜一张图看懂它们到底什么关系

一口气说了RAG、工具调用、MCP、Skill、Agent五个概念，我把它们的关系摆在这张速查表里：

概念	一句通俗定义
对话式AI	聪明的实习生，只会动嘴（2022年底的ChatGPT）
RAG	给实习生配了书架和图书管理员，说话前先翻书
工具调用	实习生会写精准指令条子，让程序照着执行
MCP	统一所有AI和工具的插座标准——USB-C
Skill	把多个操作打包成“肌肉记忆”，一次调用全自动
Agent	把这些全部串起来——项目经理，只管目标，不管步骤

演进脉络不是“取代”，而是“叠加”：对话式AI → RAG → 工具调用 → Skill → MCP → Agent，每一层都在前一层基础上加新本事。

结语：三年暴力进化

2022年12月：你问AI“帮我写个爬虫”，它给你一份万字保姆级教程，你得自己安装依赖、自己运行、自己调试。

2026年6月：你说“帮我写个爬虫，然后跑一下”。你喝着咖啡，它写完代码、装好依赖、跑通、告诉你看数据。

三年。不是模型变聪明了几个百分点的事——它从“光说不练的嘴强王者”变成了“能征善战的数字员工”。

RAG给了它即时的信息能力——它知道你问的不是2021年的事，也知道你的内部文档长什么样。工具调用给了它肢体的骨骼——它不再只会列教程，而是能把“写纸条”变成“程序执行”，干完活再还给你结果。MCP把这些“肢体”练到统一标准——支持一个协议的AI，调用任何工具都行，不再“鸡同鸭讲”。Skill把琐碎多步操作压缩成肌肉记忆——以前要教大半天才能会的流程，现在AI一句话就能复用整个技能包。Agent把上面全部串起来，成为一个敢自己定计划、敢自己改Bug的自主系统。

2026年5月底，权威IDC分析报告给出的判断是：大模型正从单纯对话工具升级为自主生产力载体，评判标准从精准度转为任务完成效率和运行稳定性等实战指标。澎湃新闻今年5月的深度文章更是点出：Chatbot已现增长天花板，头部9大对话产品Web访问量下滑，Agent迎来元年，AI开始替你干活。

“未来已来，只是分布不均”——威廉·吉布森的这句话搁在AI上再合适不过。我不觉得AI会“取代”人类工作，但有一点敢肯定：那些把AI当“能干活”的人，会开始用Agent自动干脏活累活；那些还把它当高级聊天框的人，很快会发现自己熬夜加的班，隔壁同事的Agent十五分钟跑完了。

毕竟——能用Agent偷的懒，谁会拒绝呢？

查看全文

http://www.zskr.cn/news/1442813.html