当前位置：首页 > news >正文

具身智能，终于要从“会聊天”走向“会干活”了

news 2026/6/12 1:27:19

这两年 AI 圈有个词特别火：具身智能。听起来很玄，像是机器人突然开窍了，其实翻译成人话很简单：以前的大模型主要在屏幕里说话，现在要进入真实世界，用眼睛看、用身体动、用反馈修正。

一句话概括：具身智能就是“能感知环境、理解任务、规划动作、控制身体，并且根据结果持续调整”的 AI 系统。它不是单纯聊天，也不是单纯机械臂，它更像一个能把大脑、眼睛、手脚、记忆和安全规则接起来的完整工程。

锐评一下：很多人一听具身智能，就以为是“人形机器人 + ChatGPT”。这说法太粗糙了。真正难的地方不是让机器人说一句“好的主人”，而是让它别把杯子捏碎，别把手机扫进垃圾桶，别在陌生厨房里原地迷路。

一、具身智能到底是什么？别把它想成会说话的机器人

传统 AI 更像“答题选手”：给它文字、图片、表格，它输出答案。具身智能更像“实习工人”：你给它一个目标，它要先看现场，再判断环境，再拆步骤，最后动手完成。

这就是差距。聊天模型说错了，最多让你皱眉；机器人动作错了，可能撞墙、摔货、夹手。所以具身智能不是单纯堆参数，而是感知、规划、控制、安全、数据闭环一起上。

• 感知：通过摄像头、深度相机、力传感器、触觉传感器、关节编码器获取真实世界信息。

• 理解：识别物体、空间关系、任务目标、限制条件，比如“杯子在桌子左侧，手机不能碰”。

• 规划：把一句人话拆成多个可执行步骤，比如找杯子、靠近、抓取、避障、放下、验证。

• 执行：把高层计划变成机械臂轨迹、底盘移动、夹爪开合、力控策略。

• 反馈：执行后重新观察，判断做没做成，失败就重试或换方案。

Google DeepMind 在 Gemini Robotics 的公开介绍里，把机器人能力拆成 VLA 模型和 embodied reasoning 模型协作：前者把视觉与指令变成动作，后者负责物理空间理解、任务规划和决策。这已经能说明趋势：未来的机器人不是单脑袋，而是“会看、会想、会动”的组合系统。

二、第一层：感知层，机器人必须先看懂世界

具身智能的第一步不是模型有多大，而是数据有没有采对。人类抓杯子不是只靠眼睛，还要靠手指触觉、手腕力度、身体位置。机器人也一样，摄像头只是开胃菜，真正上桌的是多模态感知。

常见输入包括 RGB 图像、深度图、点云、IMU、触觉阵列、力矩传感、关节角度、末端执行器状态、语音或文本指令。这些信息会被编码成模型能处理的 token 或 embedding，然后进入后面的 VLM/VLA/世界模型。

这里有个非常现实的问题：视觉识别“这是杯子”不难，难的是判断“从哪里抓不会滑”“杯子旁边有没有障碍”“抓起来以后水会不会洒”。这就从普通视觉识别，升级到了可操作性理解，也就是 affordance。

三、第二层：世界模型，让机器人先在脑子里预演一遍

世界模型可以理解成机器人的“脑内小剧场”。它不是直接动手，而是先预测：如果我从这个角度抓，会不会碰到手机？如果我把手伸过去，会不会撞到桌沿？如果我推这个盒子，它会往哪里滑？

这件事很关键。因为真实世界不能无限试错。聊天模型可以生成十遍答案，机器人不能把你家厨房砸十遍来学习。世界模型的价值，就是在执行前模拟后果，在执行中发现偏差，在执行后更新经验。

目前具身智能路线里，世界模型和 VLA 正在越来越靠近。VLA 更偏“看到什么就做什么”，世界模型更偏“我知道做了之后世界会怎么变”。下一阶段很可能是两者融合：既能生成动作，也能预测动作带来的环境变化。

四、第三层：VLA 模型，真正把“看懂”变成“会动”

VLA 是 Vision-Language-Action 的缩写，翻译过来就是视觉-语言-动作模型。它的输入不是单纯文本，而是图像、视频、语言指令、机器人自身状态；输出也不是一段话，而是机械臂动作、夹爪开合、底盘速度、末端位姿。

OpenVLA 的公开项目介绍中提到，它是一个 7B 参数的开源 VLA，基于 Open X-Embodiment 数据集中的 97 万条机器人轨迹训练，可以开箱控制多种机器人，并通过参数高效微调适配新机器人。它的架构大体是视觉编码器 + 投影层 + LLM 骨干 + 动作输出。

Physical Intelligence 的 π0 走的是另一个很有代表性的方向：它强调从多机器人、多任务数据里学习通用物理智能，模型跨越图像、文本和动作，直接输出低层运动命令。简单说，别只让模型“描述怎么做”，而是让它“直接动手做”。

NVIDIA 的 GR00T N1 则把思路讲得更工程化：一个慢思考系统负责理解环境和规划动作，一个快反应系统把计划变成连续动作。这很像人类：脑子想清楚大方向，身体反射负责具体动作。

五、第四层：需求理解和任务拆解，机器人不能只听关键词

用户说“把桌上的杯子放进水槽”，这句话对人类很简单，对机器人却是一串复杂任务。它要知道哪个是杯子，水槽在哪里，桌上有没有障碍，杯子能不能抓，移动路线怎么走，放下以后怎么确认成功。

所以具身智能系统一般需要一个规划层。这个规划层可以由 LLM/VLM 做高层推理，也可以结合技能库、状态机、行为树、运动规划器一起完成。高层模型负责“想”，底层控制负责“稳”。

千万别迷信端到端。端到端很性感，但生产环境更关心可控、可解释、可回滚。复杂任务最好拆成可观测的子任务：每一步有输入、有动作、有成功判定、有失败兜底。

六、第五层：训练数据，才是具身智能的硬通货

大语言模型为什么发展快？因为互联网上有海量文本。具身智能为什么难？因为机器人数据贵得离谱。你要采集一条高质量动作轨迹，可能需要真人遥操作、真机运行、摄像头记录、状态同步、失败标注。

Open X-Embodiment 是这个方向的重要数据工程，它公开介绍中提到该数据集包含 100 万级真实机器人轨迹，覆盖 22 种机器人形态，并由全球多个机器人实验室的数据集合而成。这个思路非常关键：让不同机器人之间共享经验，而不是每台机器都从零学起。

训练数据一般来自几类：人类遥操作演示、真实机器人 rollout、仿真环境生成、互联网视频学习先验、失败案例挖掘、合成数据增强。真正有用的数据不是“看起来很多”，而是动作、状态、任务、结果都能对齐。

七、第六层：模型怎么训练？从模仿学习到扩散策略

具身智能训练不是简单问答监督微调。它学的是策略，也就是在某个状态下应该怎么动作。常见路线包括行为克隆、扩散策略、Flow Matching、强化学习、离线强化学习、偏好学习等。

行为克隆最好理解：人怎么演示，机器人就怎么学。优点是简单直接，缺点是人没演示过的情况容易崩。扩散策略把动作生成看成去噪过程，适合处理“同一个任务有多种合理动作”的情况。Diffusion Policy 项目就强调用条件去噪扩散过程生成机器人行为，并用于视觉运动策略学习。

π0 论文路线则把 Flow Matching 引入 VLA，让模型在继承视觉语言模型语义知识的同时，学习更连续、更细腻的动作分布。说白了，机器人不是只要知道“抓杯子”，还要知道手该以什么速度、什么轨迹、什么力度过去。

八、第七层：仿真到现实，便宜训练和真实可靠之间的拉扯

仿真是具身智能绕不开的基础设施。没有仿真，所有训练都靠真机，成本会高到离谱；只有仿真，没有现实回灌，模型又容易在真实世界翻车。

这就是 Sim2Real 难题：仿真里摩擦系数、光照、材质、相机畸变、机械间隙都可以很理想，现实里一切都不讲武德。桌面有灰、杯子有水、地面不平、传感器丢帧、网络有抖动，任何小问题都可能导致动作偏差。

工程上常用 domain randomization，也就是训练时故意随机材质、光照、质量、摩擦、相机角度，让模型别记死某个环境。再配合真实机器人日志回放，把失败数据重新喂给模型。

九、生产级落地：不是模型一接机器人就完事

真正上线的具身智能系统，绝不是一个 VLA 模型直接连机械臂。中间至少要有任务编排、模型服务、机器人中间件、传感器驱动、控制器、安全监控、日志系统、人工接管机制。

ROS2 在机器人系统里常被用来做消息通信和模块编排，模型推理可以部署在云端、边缘设备或机器人本体。对延迟敏感的动作控制必须尽量本地化，对复杂推理可以云端辅助。

理想架构是：高层推理慢一点没关系，底层控制必须快；大模型可以聪明，但安全层必须保守。比如速度限制、碰撞检测、急停按钮、权限边界、人类接近检测，这些不能交给模型自由发挥。

十、评估和安全：机器人能动，不代表能用

具身智能最怕的不是不会做，而是看起来会做，关键时刻乱做。一个家用机器人如果 90% 时间能收拾桌子，10% 时间把玻璃杯扫到地上，这就不能放心用。

评估指标至少包括：任务成功率、平均完成时间、泛化到新物体新场景的能力、碰撞次数、急停次数、动作越界次数、推理延迟、连续运行稳定性、失败恢复能力。

安全上要坚持一个原则：模型可以建议，安全系统必须有否决权。也就是说，大模型输出动作以后，不能直接执行，必须经过规则、约束、碰撞检测、速度限制和人机协作安全策略。

十一、如果你要做一个具身智能项目，应该怎么拆？

别一上来就喊“我要做人形机器人”。那东西太烧钱，也太容易变成 PPT。更靠谱的路线是从一个明确场景切进去，比如仓储分拣、桌面整理、巡检拍照、实验室自动化、餐饮后厨、养老辅助。

• 第一步：确定封闭场景。场景越开放，模型越容易翻车。

• 第二步：选机器人形态。机械臂、移动底盘、双臂、人形机器人，对数据和控制要求完全不同。

• 第三步：搭感知系统。先保证看得清、定位准、状态同步。

• 第四步：搭任务编排。用状态机和技能库兜住大模型，不要把所有决策都裸奔给模型。

• 第五步：采集数据。遥操作数据、失败数据、边界情况数据，比漂亮 demo 更重要。

• 第六步：训练策略。先行为克隆和微调，再考虑扩散策略、强化学习、世界模型。

• 第七步：上线安全。急停、权限、碰撞检测、人类接管、日志回放必须从第一天就做。

说句实在话：具身智能真正的壁垒，不是你会不会调 API，而是你有没有能力把模型、数据、机器人、控制、安全和场景运营全链路跑通。单点炫技很容易，系统稳定很难。

十二、核心技术表：一句话看懂每个模块

模块	解决什么问题	常见技术
多模态感知	让机器人看见、听见、摸到真实世界	RGB-D、点云、触觉、力控、本体感知
场景理解	知道物体是什么、在哪里、能不能操作	VLM、3D 表示、Affordance、语义分割
任务规划	把人话目标拆成步骤	LLM/VLM、行为树、状态机、技能库
运动规划	让机械臂和底盘安全移动	轨迹规划、碰撞检测、MPC、IK
VLA 模型	把视觉和语言转成动作	Transformer、Action Token、Action Head
策略学习	让机器人学会具体动作	行为克隆、Diffusion Policy、Flow Matching、RL
仿真训练	低成本生成训练和测试场景	Isaac Sim、MuJoCo、Domain Randomization
安全治理	防止模型乱动造成风险	急停、速度限制、地理围栏、人机协作规则