当前位置: 首页 > news >正文

深入解析:【具身智能】具身机器人VLA算法入门及实战(三):VLA经典模型架构

具身机器人VLA算法入门及实战(三):VLA经典模型架构

    • 一、技术分类
    • 二、开⼭之作RT-2框架
      • 2.1 创新点-(视觉 - 语⾔ - 动作模型(VLA)的统⼀表⽰)
        • 2.1.1 动作⽂本化编码
        • 2.1.2 联合微调策略
    • 三、OpenVLA框架-⾸个完全开源的VLA模型
    • 四、OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model
    • 五、Helix: A Vision-Language-Action Model for Generalist Humanoid Control
    • 六、A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM
    • 七、CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
    • 八、DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
      • 8.1 研究背景与疑问
      • 8.2 核⼼⽅法:DriveDreamer4D 框架
    • 九、DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

一、技术分类

在这里插入图片描述

二、开⼭之作RT-2框架

2023.7⾕歌DeepMind推出了⼀款新的机器⼈模型Robotics Transformer 2,RT-2模型的核⼼创新点主要体现在模型架构设计和能⼒突破两⽅⾯,通过融合互联⽹级视觉 - 语⾔数据与机器⼈控制,建立了机器⼈泛化能⼒和语义推理能⼒的显著提升。

在这里插入图片描述

论⽂《RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》

2.1 创新点-(视觉 - 语⾔ - 动作模型(VLA)的统⼀表⽰)

2.1.1 动作⽂本化编码
2.1.2 联合微调策略
  • 在训练阶段同时使⽤机器⼈轨迹素材(如操纵物体的动作序列)和互联⽹级视觉-语⾔任务(如视觉问答、图像描述)。
  • ⽬标:凭借⼤规模⾮结构化数据(⽹⻚图⽂)增强模型的语义理解能⼒,同时通过机器⼈数据保留控制精度。

三、OpenVLA框架-⾸个完全开源的VLA模型

丰⽥、⾕歌、斯坦福、UC巴克利合作的OpenVLA,它公布于2024年3⽉,OpenVLA 是⼀个开源视觉 - 语⾔ - 动作模型,于 2024 年 6 ⽉ 13 ⽇发布,含 70 亿参数,在 97 万真实机器⼈演⽰信息上训练⽽成,基于 Llama 2 语⾔模型与融合 DINOv2 和 SigLIP 预训练特征的视觉编码器构建;其在 29 项任务中绝对任务成功率⽐ RT-2-X(550 亿参数)⾼ 16.5%,参数少 7 倍,在多任务环境泛化和语⾔接地能⼒表现强,优于 Diffusion Policy 20.4%;还可通过现代低秩适应⽅法在消费级 GPU 上微调,经量化后实用部署,同时开源了模型检查点、微调笔记本和PyTorch 代码库,⽀持在 Open X-Embodiment 资料集⼤规模训练 VLA 模型。

在这里插入图片描述

创新点

四、OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model

Technical University of Munich 这是⼀种专为端到端⾃动驾驶设计的视觉 - 语⾔ - 动作(VLA)模型,其核⼼思想是通过融合视觉感知、语⾔理解和动作⽣成能⼒,实现基于环境语义的端到端⾃动驾驶决策

在这里插入图片描述

在这里插入图片描述

关键技术创新

  • 层次化视觉 - 语⾔对⻬

提出⼀种层次化对⻬⽅法,将2D 图像视觉特征和3D 结构化视觉标记(如激光雷达点云⽣成的 BEV特征)投影到统⼀语义空间,解决驾驶视觉表征与语⾔嵌⼊之间的模态差异,使模型能将视觉感知与语⾔指令直接关联。

  • ⾃回归代理 - 环境 - ⾃⻋交互建模

凭借⾃回归机制建模⾃⻋、周围智能体(如其他⻋辆、⾏⼈)和静态道路元素之间的动态关系,确保轨迹规划同时考虑空间位置(如避免碰撞)和⾏为逻辑(如遵守交通规则、预测其他⻋辆意图),建立更安全、合理的路径规划。

五、Helix: A Vision-Language-Action Model for Generalist Humanoid Control

2025年2⽉20⽇,智能机器⼈公司 Figure.AI 发布的 VLA 模型 “Helix: A Vision-Language-Action Model for Generalist Humanoid Control”,是典型的快慢双系统,也是最接近量产的机器⼈VLA系统,Figure.AI在机器⼈领域的地位近似于OpenAI在LLM领域内的地位。

在这里插入图片描述

⾸先来看Helix的神奇之处,第⼀是快,(RT-2论⽂⾥提到的决策频率则只有1到5hz),更没法做到200hz的操作速度,Helix的上⼀代Figure 01中得益于基于简单神经⽹络的机器⼈操控⼩模型,做到了以 200hz 的频率⽣成 24-DOF 动作(在⾃由度上,Helix有35⾃由度),RT-2还是6⾃由度。第⼆是方便,就⼀个⼤模型,通过⾃然语⾔就可得到最终的 Action。第三是训练效率⾼,现有的 VLA 系统通常需要专⻔的微调来优化不同⾼级⾏为的性能,Helix则不⽤。第四,泛化能⼒强,Helix 直接输出⾼维动作空间的连续控制,避免了先前 VLA ⽅法中⸺⽐如RT-2、OpenVLA使⽤的相对简单的离散化动作tokenization⽅案,已取得⼀些成功,但在⾼维⼈形控制中⾯临扩展挑战。第五,所需训练信息少,收集了⾼质量的多机器⼈、多操作员数据集,其中包含各种远程操作⾏为,使⽤约 500 ⼩时的⾼质量监督数据来训练 Helix,⽽⼀般的VLA预训练资料集⼀般1万⼩时起步。

六、A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM

这篇⽂章提出了⼀种双过程视觉 - 语⾔ - 动作模型(DP-VLA),旨在克服现有 VLA 模型在实时性能⽅⾯的计算瓶颈问题

在这里插入图片描述

七、CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving

这篇⽂章的核⼼创新点聚焦于构建⼤规模多模态数据集与开发端到端⾃动驾驶模型,旨在消除⾃动驾驶中 “⻓尾” 场景的复杂推理与规划问题。

在这里插入图片描述

技术关键点总结

  1. 提出 CoVLA 信息集:⾸个融合视觉 - 语⾔ - 动作的⼤规模⾃动驾驶数据集
  1. 开发 CoVLA-Agent:基于 VLA 模型的可解释端到端⾃动驾驶系统

八、DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

(理想)这篇⽂章提出了 DriveDreamer4D 框架,通过融合⾃动驾驶世界模型的先验知识,提升了4D 驾驶场景表⽰能⼒,为⾃动驾驶闭环仿真提供了更真实、多样的场景模拟⽅案,推动了端到端⾃动驾驶系统的发展。

在这里插入图片描述

8.1 研究背景与问题

8.2 核⼼⽅法:DriveDreamer4D 框架

  • 新颖轨迹视频⽣成模块(NTGM):利⽤世界模型作为 “数据机器”,通过调整驾驶动作(如转向⻆、速度)⽣成新轨迹,并结合结构化条件(3D 边界框、⾼精地图)控制交通元素的时空⼀致性,解决繁琐场景数据不⾜的困难。
  • 表亲数据训练策略(CDTS):融合时间对⻬的真实与合成数据训练 4D ⾼斯 splatting(4DGS)模型,引⼊正则化损失确保感知⼀致性,缩⼩数据分布差异,提升模型泛化能⼒。

九、DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

(理想)论⽂提出DrivingSphere框架,旨在构建⾼保真闭环⾃动驾驶仿真环境。其核⼼通过动态环境合成模块⽣成包含静态背景与动态物体的 4D 占据⽹格世界,并利⽤视觉场景合成模块将其转化为时空⼀致的多视⻆视频。相⽐传统开环仿真和闭环仿真,DrivingSphere 具备丰富模拟粒度(包括建筑、植被等⾮交通元素)、物理空间真实性(精确建模 4D 空间交互)和⾼视觉⼀致性(ID 感知编码确保跨帧跨视⻆连贯)。实验表明,其在视觉保真度(FVD 指标 103.42)、开闭环评估(PDMS 0.742,RC 11.7%)等⽅⾯显著优于 MagicDrive、DriveArena 等基线⽅法,高效缩⼩模拟与真实环境的域差距。

在这里插入图片描述

http://www.zskr.cn/news/49718.html

相关文章:

  • 助力V2G,米尔SECC GreenPHY实战开发
  • 2025 年最新推荐铝管厂家权威排行榜:无缝铝管/合金铝管/6061/2A12 铝管优质企业综合测评推荐
  • 【计算机、信息技术、电子、人工智能等均可投】第二届图像、信号处理与通信技术国际学术会议(ISPCT 2025)
  • 2025 年 11 月蒸汽调节阀厂家推荐排行榜,上海鲁泽/西门子/霍尼韦尔蒸汽调节阀,西门子蒸汽比例调节阀,蒸汽温控阀公司推荐
  • 2025年自动钢筋弯曲生产厂家权威推荐榜单:钢筋自动弯曲/数控式钢筋弯曲中心/钢筋自动弯曲中心源头厂家精选
  • 2025 年 11 月毛刷辊厂家推荐排行榜,工业毛刷辊,定做毛刷辊,清洁毛刷辊,纺织毛刷辊,钢制毛刷辊公司精选
  • Ancora GaN 基础知识
  • tts sdk 安装使用
  • Docker版本太老了,不支持下载镜像的解决方案
  • 2025年苗木批发基地实力排行:这些批发商值得信赖,青叶复叶槭/金森女贞/白蜡/金叶女贞/红叶李/苗木/紫薇/栾树/金叶复叶槭供应商哪个好
  • 详细介绍:kafka 4.x docker启动kafka4.0.0 docker-compose启动最新版kafka 如何使用docker容器启动最新版kafka
  • AI元人文:岐金兰的回应
  • 2025年行星减速机十大优质品牌排行榜,RV减速机/伺服减速机/传动减速机/传统减速电机/朕轴器/vgm减速机/精密行星减速机企业有哪些
  • 上课
  • 2025年游泳对讲机生产厂家权威推荐榜单:教学主机/蓝牙防水训练耳机/防水游泳耳机源头厂家精选
  • Crosstool-NG构建arm交叉编译工具链
  • AI一周资讯 251108-251114
  • 解决EF Core数据同步问题:从强制刷新到单例模式的演进
  • leetcode36. 有效的数独
  • views.py视图中搜索search_fields 、排序ordering_fields 、过滤filter_backends 、分页pagination_class 的设置和使用方法
  • B5819W-ASEMI可直接替代安世PMEG4010CEGW
  • P3228 [HNOI2013] 数列
  • 深入解析:《从零搭建现代 Android 模块化架构项目(2025 最新实践)》
  • 关于HTML中fontbis等字体标签对-物理字体-逻辑字体的介绍及说明
  • 2025上海专业防水补漏推荐!Top5口碑公司实测,先检测后施工有保障
  • Linux内核xarray数据结构采用
  • IP应用场景全图谱:你的IP属于哪一类?
  • windows下配置cmake+opencv报错
  • 无需人工奖励!Meta FAIR华人团队提出「早期经验学习范式」,AI智能体像人类一样“从错误中成长”
  • 2025 年升降机械厂家最新推荐榜:液压升降机械,解析供货厂家服务质量与产品性能