当前位置: 首页 > news >正文

OpenVLA 技术综述

OpenVLA 技术综述

概述

OpenVLA(Open Vision-Language-Action Model)是斯坦福大学、加州大学伯克利分校等机构联合提出的开源通用机器人操控模型,发表于 2024 年(arXiv:2406.09246)。它将大型视觉语言模型(VLM)与机器人动作预测相结合,使机器人能够理解自然语言指令并直接输出控制动作。


OpenVLA 技术综述

核心架构

OpenVLA 基于Prismatic VLM框架构建,整体是一个 7B 参数的多模态大模型,由三个模块串联组成:

摄像头图像

┌─────────────────────────────┐

│ Vision Backbone (双路) │ SigLIP + DinoV2

│ 图像 → 视觉特征 patches │ 各输出 256 个 patch tokens

└──────────────┬──────────────┘

│ 512 维特征拼接

┌─────────────────────────────┐

│ MLP Projector │ 将视觉特征映射到语言空间

└──────────────┬──────────────┘

+ 自然语言指令 tokens

┌─────────────────────────────┐

│ LLaMA-2 7B Language Model │ 自回归生成动作 tokens

└──────────────┬──────────────┘

机器人控制动作

[Δx, Δy, Δz, Δroll, Δpitch, Δyaw, gripper]


关键技术创新

1. 动作离散化

OpenVLA 将连续的机器人动作(末端执行器位置、姿态、夹爪开合)离散化为 256 个 bin,直接复用 LLM 的词表 token 来表示动作。推理时,模型输出 7 个 token 依次对应 7 个自由度,再反量化为连续控制值。这使得整个框架无需额外的动作解码器,完全统一在语言模型框架内。

2. 大规模数据预训练

Open X-Embodiment数据集上预训练,覆盖 970,000+ 条真实机器人轨迹、29 个机器人平台、来自 22 个研究机构的多样化操控任务。相比之前的模型(如 RT-2 需要私有数据),OpenVLA 完全开源。

3. 参数高效微调

支持LoRA(Low-Rank Adaptation)微调,在特定任务(如 LIBERO 仿真基准)上只需更新少量参数,即可将通用模型适配到具体场景,大幅降低计算成本。

4. 双路视觉编码

同时使用 SigLIP(擅长语义理解)和 DINOv2(擅长空间细节)两个视觉编码器,将两路特征在嵌入维度上拼接,比单一编码器获得更丰富的视觉表征。


推理流程

以 LIBERO 仿真为例,每一步的推理过程为:

  1. 观测:从仿真环境获取 256×256 RGB 图像
  2. 裁剪:对图像做中心 90% 裁剪并缩放到 224×224(消除训练时随机裁剪的分布偏移)
  3. 编码:图像通过双路视觉编码器生成 256 个 patch 特征
  4. 提示构造"In: What action should the robot take to {task}?\nOut:"
  5. 推理:LLaMA-2 自回归生成 7 个动作 token(每个代表一个自由度)
  6. 执行:反量化为连续动作后发送给机器人执行器

整个推理链路在单张 RTX 3060(12GB)上以 4-bit 量化运行,每步推理约 1-2 秒。


实验结果(本次复现)

在 LIBERO-Spatial 任务套件(10 个空间关系推理任务,每任务 1 次试验):

任务类型成功 / 总计成功率
LIBERO-Spatial(1-trial)8 / 1080%

官方论文报告的 LIBERO-Spatial 成功率为78-84%(50 trials/task),本次复现结果与之吻合。


局限性与挑战

方面说明
推理速度7B 模型每步约 1-2 秒,远低于实时控制需求(通常需要 ≥10Hz),目前只适用于非实时任务
泛化能力对训练分布外的场景(新物体、新背景)泛化能力有限,需要微调
3D 感知缺失仅使用单目 RGB 图像,无深度信息,复杂遮挡场景下容易失败
计算资源完整 BF16 推理需要 16GB+ 显存,量化后精度略有下降

意义

OpenVLA 代表了将大语言模型范式引入机器人控制的重要里程碑——同一套模型通过自然语言指令即可控制多种机器人执行多样化任务,无需为每个任务单独设计控制器。随着模型效率的提升和具身智能数据的积累,这一技术路线被广泛认为是通用机器人的重要方向之一。

http://www.zskr.cn/news/1430697.html

相关文章:

  • 掌握Markdown实时预览:打造高效写作工作流的3个关键策略
  • ADI DSP老玩家血泪史:ADZS-ICE-1000仿真器最全避坑指南(附驱动安装与CCES 2.11.1配置)
  • Python视频处理基础
  • 从‘记不住’到‘忘不掉’:Cookie、Session与Token,你的Web登录方案选对了吗?
  • 前后桥独立电驱动装载机状态估计及转矩优化控制方案【附仿真】
  • 终极游戏隐身指南:掌控你的在线状态,专注每一场战斗
  • ESP32C3串口没反应?别慌,可能是Flash Mode和USB CDC这两个开关没设对
  • Weka 3.8.6安装后别闲置!从‘打开文件’到‘生成报告’:一份给新手的保姆级避坑指南
  • Claude Code上手案例 - - 三分钟实现博客系统
  • 企业级Gemini采购决策指南:如何用Gartner级TCO模型压降41%年许可支出
  • 别再傻傻分不清!RS232、RS485、RS422接口实物接线与电平转换保姆级图解
  • AI视频版权归属争议爆发!78%创作者正面临下架风险(2024司法判例白皮书首发)
  • 复古旋转拨号盘改造:基于CD4017/4026计数器与Arduino的脉冲信号处理实践
  • Android系统启动过程分析
  • 如何快速提升游戏效率:D3KeyHelper暗黑3终极自动化工具完整指南
  • 照着用就行:盘点2026年抢手爆款的的AI论文工具
  • ZLT X21 CPE的IP Passthrough模式实测:让你的NAS/软路由直接拿到公网IP,实现完美端口转发
  • 告别“正在编译”:Nessus v10.9.4插件更新效率优化与资源监控实战
  • 深入高通QMI的‘黑匣子’:用QXDM和日志分析一次失败的通信
  • 金融科技四大核心技术解析:区块链、AI、物联网与AR/VR如何重塑银行业
  • 避开这5个Scratch编程思维误区,你的蓝桥杯省赛成绩还能再提50分 | 以2023中级组真题为例
  • 从游戏引擎到无人机:聊聊四元数解欧拉角为啥比直接算更靠谱
  • 从HTTP报文到数据库查询:拆解TinyWebServer中用户登录注册的完整链路(C++/MySQL)
  • 打造四个九的在线CRM:从0到1构建99.99%可用性的核心架构
  • 5分钟免费解锁LOL国服所有皮肤:R3nzSkin换肤工具完整指南
  • 戴尔G15笔记本散热控制终极指南:用开源工具彻底告别AWCC
  • 一文搞懂:Kubernetes核心概念与实战——从Pod到Deployment、Service,云原生基础设施的第一课
  • Universal Pokemon Randomizer ZX:终极宝可梦游戏体验重塑指南
  • 商业智能BI系统哪个更好:2026年自助分析与行业覆盖能力全面横评 - 科技焦点
  • PyG安装别再踩坑了!手把手教你根据PyTorch和CUDA版本精准安装PyTorch Geometric