当前位置: 首页 > news >正文

【论文阅读】StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision

快速了解部分

基础信息(英文):

1.题目: StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
2.时间: 2025.12
3.机构: Galbot, Peking University, The University of Hong Kong, Institute of Automation. Chinese Academy of Sciences, Beijing Academy of Artificial Intelligence, Xiamen University Malaysia
4.3个英文关键词: Stereo Vision, VLA, Geometric-Semantic Feature Extraction

1句话通俗总结本文干了什么事情

本文提出了一种名为StereoVLA的模型,通过引入双目立体视觉,显著增强了机器人视觉语言动作模型(VLA)的空间感知和操作精度。

研究痛点:现有研究不足 / 要解决的具体问题

现有的VLA模型大多依赖单目RGB相机,缺乏精确的几何空间感知能力,导致机器人在抓取、放置等精细操作上表现不佳;而引入额外的深度传感器或腕部相机又会增加硬件复杂度或导致视野受限。

核心方法:关键技术、模型或研究设计(简要)

提出了一种“几何-语义特征提取”模块,融合了双目视觉的几何特征和单目视觉的语义特征,并引入了一个辅助的“交互区域深度估计”任务来训练模型关注关键空间细节。

深入了解部分

作者想要表达什么

作者旨在证明,通过模仿人类的双目视觉机制,可以在不增加过多硬件负担的情况下,为VLA模型提供丰富的几何线索,从而解决机器人操作中“看得见但摸不准”的痛点,实现更鲁棒、更精准的控制。

相比前人创新在哪里

  1. 首次系统性地将立体视觉引入VLA领域:不同于以往VLA主要使用单目或多视角(非立体)相机,本文专门针对立体视觉设计了特征提取方案。
  2. 独特的特征融合策略:没有简单地将左右图像拼接输入,而是利用视觉基础模型分别提取“几何特征”和“语义特征”进行融合,兼顾了空间精度和语言理解能力。
  3. 交互区域深度估计辅助任务:设计了一个新的训练任务,强制模型只关注夹爪和物体交互区域的深度信息,提高了训练效率和对关键空间细节的敏感度。

解决方法/算法的通俗解释

想象一下,模型现在有了“两只眼睛”(立体视觉)。作者设计了一个特殊的“大脑回路”(几何-语义特征提取),让模型既能通过两只眼睛的微小差别算出物体的远近(几何),又能看清单个物体是什么(语义)。同时,为了让模型更专注,还专门训练它去预测夹爪附近物体的深度(交互区域深度估计),就像人眼在抓东西时会特别聚焦于手和物体的距离一样。

解决方法的具体做法

  1. 几何特征提取:使用FoundationStereo模型处理左右图像,提取经过滤波处理的成本体积(filtered cost volume)作为几何特征,捕捉空间结构。
  2. 语义特征提取:使用SigLIP和DINOv2模型处理左图像,提取高层语义和视觉细节。
  3. 特征融合:将几何特征的空间分辨率调整到与语义特征一致,然后在通道维度上进行拼接,输入给大语言模型。
  4. 辅助任务训练:在训练时,除了预测动作,还要求模型预测夹爪与目标物体交互区域内的点的深度值,以此增强模型的空间理解。

基于前人的哪些方法

  1. FoundationStereo:用于提取立体视觉的几何特征。
  2. PrismaticVLM:借鉴了其使用SigLIP和DINOv2提取语义特征的方法。
  3. InternLM-1.8B:作为大语言模型骨干。
  4. GraspVLA:借鉴了其数据生成方式、部分训练策略(如渐进式动作生成)以及辅助的2D边界框预测任务。

实验设置、数据、评估方式、结论

  1. 数据:由于缺乏现成的大规模立体视觉机器人数据集,作者使用MuJoCo和Isaac Sim生成了500万条合成的抓取和放置轨迹,并加入了GRIT数据集。
  2. 评估方式:在真实机器人上测试,包括通用任务、不同角度的条状物体抓取、中小物体抓取。设置了严格的评价标准(单次尝试、无粘手策略、完全完成才算成功)。
  3. 结论:StereoVLA在立体视觉设置下显著优于现有的VLA基线模型(如GraspVLA-S, π0.5-S),在通用任务上成功率高出33%,且对相机姿态变化具有很强的鲁棒性。

提到的同类工作

  1. OpenVLA:早期的VLA模型,依赖单目图像。
  2. π0.5:支持多视角(如前+腕),但未专门针对立体视觉优化。
  3. GraspVLA:大规模合成预训练VLA,主要针对前+侧视角。
  4. SpatialVLA:尝试引入深度信息,但基于单目估计深度。
  5. 3D-VLA / PointVLA:引入3D点云或深度信息的VLA模型。

和本文相关性最高的3个文献

  1. **GraspVLA **:本文主要的基线模型之一,作者借鉴了其数据合成方法和部分架构设计,是本文对比和改进的重要对象。
  2. **FoundationStereo **:本文几何特征提取的核心基础模型,用于从立体图像中提取密集的几何信息。
  3. **PrismaticVLM **:本文语义特征提取方法的来源,提供了SigLIP和DINOv2的使用方案。

我的

  1. 深度相机存在透明物体估计不准的问题,所以将立体视觉引入VLA。输入双目图像。对相机姿态变化更鲁棒。
http://www.zskr.cn/news/1356404.html

相关文章:

  • C# Gemini 辅助网络安全漏洞分析
  • 黑苹果终极简化方案:OpCore Simplify 让你的OpenCore配置变得前所未有的简单
  • 揭开网易游戏资源黑盒:3个步骤让你成为NPK解包专家
  • Source Sans 3:打破字体加载瓶颈的现代无衬线字体解决方案
  • 现代化浏览器原生视频处理引擎:Omniclip技术深度解析
  • QGroundControl 零基础入门:5步掌握开源无人机地面站核心功能
  • nginx升级(win和linux)
  • 构建中文AI的未来:MNBVC超大规模语料库的深度解析与实践指南
  • 军队/军工场景对智能问数有什么特殊要求?
  • 杰理之FM搜台的参数打印【篇】
  • SleeperX:革命性macOS智能电源管理,重新定义笔记本续航体验
  • 【Flutter3.8x】flutter从入门到实战基础教程(一):新建一个flutter项目
  • Desktop Postflop终极指南:免费开源德州扑克GTO求解器完整教程
  • Find Hub 新增“位置到达与离开”通知功能
  • 还在找免费 EDA 模型?这些网站直接下
  • 3个痛点+5大场景:为什么Markdown Here是技术写作者的效率倍增器
  • 2026年成都短视频代运营与GEO优化深度横评:五大服务商对比指南 - 精选优质企业推荐官
  • 如何实现精准胶片色彩?深度解析t3mujinpack开源胶片仿真技术架构
  • 杰理之IIS ALINK模块使用注意【篇】
  • 胶片颗粒≠噪点!20年胶片扫描工程师首曝Midjourney底层噪声映射逻辑(RGB通道衰减比=1.03:0.97:1.12)
  • 金融级语音质检系统上线倒计时72小时:PlayAI最新v3.2.1版本如何用动态声纹隔离+情绪敏感词熔断机制,让监管抽查通过率从61%飙升至99.2%
  • 5分钟快速上手gInk:Windows上最轻量的免费屏幕标注工具完整指南
  • 5分钟颠覆传统设计:SD-PPP如何让AI绘图成为Photoshop原生体验
  • 如何用开源Open5x方案将普通3D打印机升级为专业级5轴系统:终极完整指南
  • 2026天河区专利代理机构TOP5|AI、软件科技、互联网企业科创专利与补贴避坑指南 - 速递信息
  • 文峰购物卡回收:如何实现高效安全变现 - 购物卡回收找京尔回收
  • 第一次通过通讯节点连接实现无人机仿真模拟(ROS1 + C++ + PX4)
  • python运行提速方案全解
  • 观察使用Taotoken聚合调用在不同时段模型响应的延迟表现
  • 面向银发消费品的客服系统如何做方言适配?从普通话到各地方言的语音识别方案