当前位置: 首页 > news >正文

斯坦福李飞飞团队:低成本双目相机,强化机器人模仿学习能力

仅用低成本双目相机隐式几何融合就能让机器人获得媲美3D感知的能力。——为模仿学习打造更好视觉模块目录01 StereoPolicy核心逻辑双目特征融合隐式3D感知双目特征提取复用2D预训练优势立体Transformer隐式捕捉空间关联策略适配无缝对接扩散与VLA模型02 实验验证真实场景透明/反光物体也能稳操作仿真场景数据效率更高复杂任务更强关键参数双目基线物体距离10%最优模型设计大骨干立体融合最优03 价值与局限落地可行仍有挑战1. 核心价值低成本、强泛化、易落地2. 现存局限极端场景仍不足04 双目隐式几何操控新范式在机器人操控领域单目视觉长期是主流方案。但单目视觉天生缺失精准深度信息面对杂乱场景、透明/反光物体如玻璃杯、金属杯或精细操作如插 Toast、挂杯子时空间感知模糊操作成功率大幅下滑。与此同时RGB-D、点云等3D方案虽能提供深度却受传感器噪声、标定复杂、数据稀缺、推理延迟高等问题制约难以规模化落地。斯坦福大学李飞飞团队推出的StereoPolicy提出用同步双目图像直接增强机器人视觉运动策略。该方法无需复杂相机标定、不用重建深度图或点云仅通过双目特征融合就能让机器人获得精准空间感知在仿真与真实场景中全面超越单目、RGB-D、点云等基线为机器人3D感知提供了低成本、高适配的新范式。01 StereoPolicy核心逻辑双目特征融合隐式3D感知StereoPolicy的核心设计思路是不用显式重建3D直接用同步双目图像对通过预训练2D编码器立体Transformer隐式捕捉空间对应与视差线索。整体框架简洁高效可无缝适配扩散策略与预训练VLA模型无需修改骨干网络兼顾兼容性与扩展性。▲StereoPolicy 框架双目特征提取 立体 Transformer 融合双目特征提取复用2D预训练优势StereoPolicy采用“分编后融”策略先独立处理左右目图像再融合特征。具体来说对同步双目图像左目、右目分别用共享权重的预训练 2D 视觉编码器如 ResNet18、DINOv2提取单目特征图。共享权重可保证左右目特征空间一致避免几何错位同时复用2D预训练模型的强大语义与特征提取能力弥补3D模型泛化不足的短板。为增强几何推理外部视角图像会额外拼接冻结的DINOv2特征腕部视角因域差异不添加补充单目先验提升弱纹理区域的特征可靠性。立体Transformer隐式捕捉空间关联提取左右目特征后核心模块立体Transformer通过交替自注意力与交叉注意力融合双目特征。自注意力捕捉单目图像内像素级关联交叉注意力聚焦左右目间空间对应关系同时引入2D旋转位置编码2D RoPE强化跨视角位置推理让模型隐式学习视差与空间几何无需显式计算深度。这一设计的关键价值避开显式3D重建的计算开销与噪声干扰同时保留2D预训练特征的泛化能力让模型既懂语义又懂空间。策略适配无缝对接扩散与VLA模型StereoPolicy可灵活集成两类主流机器人策略StereoPolicy-DP面向从 scratch 训练的扩散策略将融合后的立体特征作为条件输入去噪网络让动作生成融入隐式空间信息提升精细操作精度StereoPolicy-VLA面向预训练视觉-语言-动作VLA模型将单目嵌入替换为立体特征轻量微调即可适配双目输入无需重训骨干高效增强VLA模型空间感知。02 实验验证StereoPolicy在RoboMimic、RoboCasa、OmniGibson三大仿真基准以及桌面单臂、双手机器人真实场景中全面测试对比RGB、RGB-D、点云、多视角四大基线结果显示其在成功率、泛化性、鲁棒性上均显著领先。真实场景透明/反光物体也能稳操作真实桌面任务香蕉抓取、吐司插入、塑料杯/金属杯/玻璃杯悬挂中StereoPolicy-DP平均成功率达59%远超RGB42%、RGB-D41%、点云14%、多视角44%基线。▲真实桌面任务双目策略全面优于单目、RGB-D、点云基线双手机器人移动任务吐司抓取、开收音机中StereoPolicy-VLA同样优于单目VLA能精准完成 gripper 插入、按钮按压等精细动作而单目VLA常因深度误判失败。▲真实桌面与双手机器人任务示例仿真场景数据效率更高复杂任务更强三大仿真基准中StereoPolicy在低数据30-100个演示与高数据200-300个演示设置下均最优。▲仿真任务双目策略在低 / 高数据下均最优尤其在遮挡、精细对齐任务如工具悬挂、倒水中优势更明显——例如RoboMimic工具悬挂任务StereoPolicy成功率达94%远超RGB53%。同时它比多视角方案更优验证立体Transformer特征融合的有效性。▲三大仿真基准任务示例关键参数双目基线物体距离10%最优研究发现双目性能核心取决于基线-距离比双目间距/相机到物体距离最优区间为9%-13%。如桌面场景相机距0.6-0.8m6cm基线效果最佳基线过小2cm视差弱、深度不准▲双目策略在不同相机角度下更稳健基线过大10cm视角重叠少、几何不一致。此外正面视角提升最显著18%侧面视角增益较小为硬件部署提供明确指导。模型设计大骨干立体融合最优消融实验显示预训练大骨干如SIGLIP-SO400M立体Transformer性能最优。DINOv2特征仅提升外部视角腕部视角因域差异无效移除立体Transformer成功率从94%跌至85直接证明融合模块的核心作用。▲骨干选择与双目融合模块的消融结果03 价值与局限落地可行仍有挑战1. 核心价值低成本、强泛化、易落地StereoPolicy的核心突破是重新定义机器人立体感知路径不用昂贵3D传感器、不用复杂标定、不用海量3D数据仅用低成本双目相机隐式几何融合就能让机器人获得媲美3D感知的能力。对行业而言这意味着机器人操控可摆脱“高精度硬件依赖”快速规模化部署对科研而言打通2D预训练模型与3D几何理解的鸿沟为VLA、世界模型等大模型增强空间感知提供通用方案。2. 现存局限极端场景仍不足▲真实场景深度 / 点云对透明物体失效StereoPolicy仍有短板其一极端光照敏感强光、弱光下双目匹配易出错其二透明/反光物体仍难虽优于基线但绝对成功率仍低其三动态场景适配弱当前侧重静态环境动态物体交互需进一步优化其四推理延迟略增比单目高约12%但远低于3D重建方案。04 双目隐式几何操控新范式从单目到显式3D再到StereoPolicy的隐式双目几何机器人视觉操控正走向“低成本、强泛化、高精度”的平衡态。StereoPolicy的核心不是否定2D或3D而是取两者之长复用2D预训练的语义与泛化用双目隐式几何补全空间感知避开显式3D的痛点。Ref论文标题StereoPolicy: Improving Robotic Manipulation Policies via Stereo Perception论文链接https://arxiv.org/pdf/2605.09989项目链接https://stereopolicy.github.io/
http://www.zskr.cn/news/1412555.html

相关文章:

  • h2ogpt-gm-oasst1-en-2048-falcon-7b-v3故障排除手册:常见问题与解决方案大全
  • 重庆顺坤机械科技:巴南专业的印刷机配件定制公司找哪家 - LYL仔仔
  • 如何从人机环境系统智能的角度看嵌入式人工智能专家支持作战决策
  • 企业级应用如何通过Taotoken统一管理多个大模型API密钥与用量
  • 如何看AI取代人类劳动力问题
  • 别再手动调权重了!用Maya/Blender/Houdini为UE角色快速制作表情动画(含FBX导出避坑指南)
  • 在 Windows 系统上快速安装并配置 Taotoken CLI 工具
  • 3步终极指南:用CHD压缩技术为游戏库节省60%存储空间
  • 眼周暗沉救星用什么,CA眼油提亮去黄 养出清透干净眼周 - 全网最美
  • 40岁大龄程序员真实变形记(一)
  • 3步搭建京东自动化脚本系统:释放双手,轻松赚取京豆奖励
  • 京趣拼豆连锁加盟:情绪消费赛道的标准化创业方案 - 奔跑123
  • 远程连接Oracle数据库?手把手教你用tnsnames.ora配置PLSQL Developer连接(含云服务器示例)
  • 5步掌握Parsec VDD:为远程桌面和游戏串流创建高性能虚拟显示器
  • 别再傻傻分不清了!Windows下nvcc -V和nvidia-smi显示的CUDA版本到底哪个说了算?
  • Unity Mod Manager终极指南:三步搞定Unity游戏模组管理难题
  • CloudCompare标注的PLY文件里到底藏了什么?一份给程序员的格式解析与后处理指南
  • 为什么选择PP-LCNet_x1_0_table_cls_onnx?工业级表格分类任务的理想选择
  • “和平精英”游戏评论网站的HTML代码。它模拟了游戏论坛的评论系统,支持发表、点赞、删除评论等功能,并已适配不同屏幕尺寸。
  • Nodejs开发者如何一分钟内接入Taotoken调用大模型
  • 2026潍坊市本地人必选的水质检测专业机构TOP7推荐!生活饮用水检测、直饮水检测、污水废水检测、矿泉水检测,正规CMA资质检测公司排名推荐 (2026年5月水质检测最新深度调研方案) - 一修哥咨询
  • Chatbox如何解决多AI模型配置管理的技术挑战?
  • 2026四平市本地人必选的水质检测专业机构TOP7推荐!生活饮用水检测、直饮水检测、污水废水检测、矿泉水检测,正规CMA资质检测公司排名推荐 (2026年5月水质检测最新深度调研方案) - 一修哥咨询
  • MPC5604B/C 寄存器保护 + SWT 看门狗 + ECSM 错误管理
  • 从UC3854到数字DSP:工程师该如何为你的开关电源选型PFC控制方案?
  • 2026铜陵市本地人必选的水质检测专业机构TOP7推荐!生活饮用水检测、直饮水检测、污水废水检测、矿泉水检测,正规CMA资质检测公司排名推荐 (2026年5月水质检测最新深度调研方案) - 一修哥咨询
  • GetQzonehistory终极指南:3步免费备份你的QQ空间所有说说
  • 2026年涂胶机厂家推荐榜单:ARO/GRACO汽车玻璃、新能源电机、锂电、双组分精密涂胶机专业实力与选购指南 - 品牌企业推荐师(官方)
  • 鸣潮自动化工具终极指南:如何用ok-ww快速解放双手,实现后台自动战斗与资源收集
  • 脉冲神经网络训练加速:PipeSDFA架构与SDFA算法解析