当前位置: 首页 > news >正文

【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

快速了解部分

基础信息(英文):

1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery
2.时间: 2026.04
3.机构: Generalist AI
4.3个英文关键词: GEN-1, Embodied Intelligence, VLA

1句话通俗总结本文干了什么事情

本文发布了新一代通用机器人模型GEN-1,通过大规模物理数据预训练和算法优化,首次让机器人在简单任务上达到了接近人类的“精通”水平(高成功率、高速度、能即兴应变)。

研究痛点:现有研究不足 / 要解决的具体问题

现有机器人模型(如GEN-0)虽然具备通用性,但成功率(约64%)和速度不足以商用;传统方法依赖昂贵的遥操作数据且泛化能力差;机器人缺乏在未知突发状况下即兴解决问题的能力(Improvisational Intelligence)。

核心方法:关键技术、模型或研究设计(简要)

基于GEN-0架构,利用超过50万小时的人类穿戴设备物理交互数据进行预训练,结合RL(强化学习)、多模态人类指导及推理时算法优化,定义了“精通”(Mastery)作为评估标准。

深入了解部分

作者想要表达什么

作者旨在证明:通过Scaling Laws(缩放定律)持续扩大物理交互数据和算力,可以像训练大语言模型(LLM)一样,让机器人逐步掌握物理世界的通用智能。GEN-1证明了“精通”是可以通过数据和算法量变引起质变达到的商业门槛。

相比前人创新在哪里

  1. 数据来源革新:预训练数据完全不使用昂贵的机器人遥操作数据,而是利用低成本的人类穿戴设备捕捉的50万+小时物理活动数据。
  2. 定义新标准:提出了“精通”(Mastery)的概念,包含可靠性(99%成功率)、速度(比SOTA快3倍)和即兴智能(Improvisation)三个维度。
  3. 系统级优化:不仅是一个模型权重,而是包含推理时协调、控制硬化等系统组件的完整系统。

解决方法/算法的通俗解释

想象给机器人喂了海量人类如何干活的视频和动作数据(预训练),让它先学会“物理常识”。然后针对具体任务(如叠衣服),只用极少量(约1小时)的该任务数据进行“微调”。模型内部通过Harmonic Reasoning等技术,在运行时实时计算最优动作。

解决方法的具体做法

  1. 预训练:在无机器人数据的情况下,使用大规模人类物理交互数据训练基础模型。
  2. 适应特定任务:针对特定任务(如装手机),仅使用约1小时的特定机器人数据进行微调。
  3. 系统优化:引入强化学习(RL)、多模态人类指导以及推理时的Harmonic Reasoning技术,提升动作的流畅度和速度。

基于前人的哪些方法

基于该团队之前的GEN-0模型(证明了机器人领域存在Scaling Laws),并借鉴了VLM(视觉语言模型)、VLA(视觉语言动作模型)以及World Models(世界模型)的研究思路。

实验设置、数据、评估方式、结论

  • 数据:预训练数据超50万小时(人类穿戴设备数据,无机器人数据);特定任务微调数据仅需约1小时。
  • 评估方式:对比GEN-0和从零开始训练的模型,评估任务成功率(Reliability)、任务完成时间(Speed)以及面对干扰时的恢复能力(Improvisation)。
  • 结论:GEN-1在多个任务(如折叠盒子、装手机)上达到99%的成功率(GEN-0为64%),速度提升约3倍,且能处理未在训练中见过的突发状况。

提到的同类工作

PaLM-E, RT-2, π0, π*0.6, GPT-3

和本文相关性最高的3个文献

  1. Scaling Laws in Robotics with GEN-0 (Generalist, 2025)<2025.11>
  2. π0: A Vision-Language-Action Flow Model for General Robot Control (Black et al., 2024)<2024>
  3. RT-2: Vision-Language-Action Models (Brohan et al., 2023)<2023>

我的

依然大数据,依然Scaling law。重点是50万小时的人类穿戴设备数据。怀疑是ego类型的。加上1小时的机器人数据后训练,就能完成相应任务了。

http://www.zskr.cn/news/1341846.html

相关文章:

  • 工业网络升级案例:串口转以太网模块助力PLC数据实时上传集中监控
  • 2026泰州AI优化可靠服务商TOP5排行:靖江网站建设/靖江网络公司/兴化AI优化/兴化geo优化/兴化做网站/选择指南 - 优质品牌商家
  • 【项目实训】法律文书智能摘要系统6
  • 奇迹 MU 荣耀出征 新区开区 最新地址官方正版下载
  • 认证系统执行流程
  • 初识java(八):数组的定义与使用
  • 艾灵坞Ailevo新手使用教程:注册即送6000积分[特殊字符]轻松上手AI Agent!
  • 基于 Binning 亮度 0~255 全域 双系数自适应调节方案
  • 网络协议01-Http-工作原理补充
  • 彻底搞懂UART串口:为什么一次只接收8位?校验位到底怎么占?
  • GPU服务器全景解读(七):整机品牌与主力机型——从国际旗舰到国产标杆
  • 从模糊到微距级细节:Midjourney纹理生成的6层提示结构法(工业级纹理资产生产标准)
  • 大模型实战:AgentScope ReActAgent 多智能体框架实战指南,小白程序员必备收藏!
  • Vue插件报错,不显示component信息的解决方法
  • 《数据主权时代,企业协作需切换“私有模式”》
  • 光化学烟雾箱搭建全攻略:从选型到出数据的完整指南
  • 家居建材营销新趋势:数字化、体验式与可持续方向-佛山鼎策创局破局增长咨询有限公司
  • ⾯向对象和集合编程题
  • 通用人工智能的实现路径:从大模型到AGI
  • 和AI搭档办公,聊聊工业管道在线防垢清洁解决方案
  • ComfyUI v0.22.0 更新:工作流模板升级、音频与多模态增强、OpenAPI 文档完善、节点能力大幅扩展
  • ComfyUI v0.22.0 更新:工作流模板升级、音频与多模态增强、OpenAPI 文档完善、节点能力大幅扩展
  • 卖 MATLAB 工具箱,你的代码可能正被免费白嫖——聊聊商业化前的代码保护
  • WorkBuddy:一个面向内容创作的桌面自动化助手实践
  • EPRO MMS6120振动检测模块
  • 深度解析DDoS攻击:运作机制与防御体系构建
  • c语言中语句分类
  • Chiplet经济学:成本如何影响芯片产业发展?
  • BOSCH SM50/100-T伺服驱动器
  • 网卡服务与配置