当前位置: 首页 > news >正文

自动驾驶感知---纯视觉SOTA的Occupancy

1 前言

基于纯视觉的OCC,本身并不多,早期的BEVFormer也支持纯视觉,但纯视觉的效果是不如激光雷达的,因此不少车企基于此做了工程上的优化,参与到BEV的量产当中。后来特斯拉引领了OCC的量产,不少智驾公司又开始研发OCC,目前市面上都已经在卷端到端,OCC的量产也就1-2年的窗口期。

基于视觉的 3D 占用预测在自动驾驶、机器人学和增强现实等领域具有重要应用,其目标是根据视觉输入估计 3D 空间中每个体素的占用状态和语义标签。但单目视觉在深度估计上存在固有局限性,从单张图像中估计深度具有歧义性,而立体视觉因需要大量校准和重新校准,在实际应用中受到限制。因此,采用多视图时间融合是一种更有前景的方法。

本篇博客主要介绍清华大学交叉信息院研究组发表于欧洲计算机视觉国际会议(ECCV)的一篇论文。

2 CVT-Occ

该框架对多帧、多视角图像进行处理,首先通过图像骨干网络提取多尺度特征。随后,这些来自图像空间的特征被转换为鸟瞰图(BEV)空间特征,经 BEV 编码器优化后生成三维体素表示。目前已有大量研究聚焦于从图像空间到 BEV 特征的转换问题。其中一类工作遵循 LSS 提出的 “提升(lifting)” 范式,它们显式预测深度图,并将多视角图像特征提升至 BEV 平面。另一类工作继承了 DETR3D 中 “从三维到二维查询” 的思路,通过可学习查询(learnable queries)借助交叉注意力机制从图像特征中提取信息。

论文提出的代价体时序(CVT)模块具有通用性,能够兼容不同的图像到体素空间特征转换策略。在实验验证中,我们以 BEVFormer 为基础生成三维体素特征,随后通过 CVT 模块对这些特征进行优化和增强,以此证明我们的方法在利用时空动态信息提升三维场景理解能力方面的有效性和适应性。最后,通过占用预测解码器生成最终的体素预测结果。

2.1 架构

CVT的主要架构如下所示:

(1)2D 特征与 3D 体素初始化

  • 用 ResNet 提取多帧图像 2D 特征,通过相机内参 / 外参投影构建当前帧 3D 体素特征(BEV 体素化)。

(2)代价体时序融合模块(核心)

  • 视线采样:对每个体素,从相机光心出发,沿视线方向采样 K 个深度候选点(如 K=4)。
  • 时序几何对齐:将候选点通过历史帧相机位姿变换,投影到历史 3D 体素空间,采样对应特征。
  • 代价体构建:拼接所有历史帧采样特征,形成 (H,W,D,K・C)代价体,用 3D 卷积学习时序视差关联。
  • 注意力修正:卷积 + Sigmoid 生成权重图,与当前体素特征逐元素相乘,强化可靠深度特征、抑制歧义区域。

(3)占据解码

  • 修正后的 3D 体素特征经上采样与卷积,输出体素级占据概率(占用 / 空闲 / 未知)。

2.2 实验结果

  • 性能 SOTA:mIoU 达58.3%,较 BEVFormer 基线提升2.8%,显著优于 SOLOFusion 等方法。
  • 类别提升显著:车辆(+4.5%)、自行车(+4.2%)、建筑(+4.1%)、植被(+4.0%)等硬样本提升明显。
  • 计算高效:相比图像级代价体,FLOPs 降低约 70%,参数增量 < 5%,适合实时自动驾驶场景。
  • 可视化对比:能精准还原远处 / 遮挡区域 3D 结构,歧义区域预测更清晰。

3 结论

针对纯视觉3D占据预测存在的单目深度模糊、传统时序融合几何约束不足与图像级代价体算力损耗大的问题,提出CVT-Occ代价体时序融合方法,在3D体素空间构建时序代价体,结合视线深度采样、跨帧几何对齐实现特征优化,该轻量化模块可灵活嵌入现有模型,在Waymo数据集斩获优异精度,同时大幅削减计算开销,适配自动驾驶实际部署需求。

参考论文:《CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction》

http://www.zskr.cn/news/1449424.html

相关文章:

  • 为什么选择4-bit量化?PersonaPlex-7B-MLX模型压缩技术深度解析
  • 开源模块化履带机器人平台UNITRAC:从设计到制作全解析
  • 终极指南:5分钟搭建基于多智能体LLM交易系统的完整教程
  • 高效开源工具深度解析:Czkawka三款跨平台重复文件清理工具实战指南
  • Kronos金融预测模型:揭秘AI如何理解K线语言的技术革命
  • PP-OCRv5_mobile_rec_safetensors全面解析:新一代多语言文本识别模型如何突破四大语言识别难题
  • 如何永久保存微信聊天记录:WeChatMsg的完整本地化数据备份方案
  • Ultimate Vocal Remover GUI:基于深度神经网络的音频分离技术解析与实践指南
  • AgentRAG:企业AI从“查资料”到“会思考”的内核升级
  • Boss Show Time终极指南:如何免费快速提升求职效率的完整教程
  • MD-Judge-v0.1技术内幕:32层隐藏网络如何实现精准安全评估
  • 解锁AMD Ryzen处理器隐藏性能:SMUDebugTool完全指南
  • C++初阶(11)/STL(四):stack和queue
  • 电路设计入门:从欧姆定律到PCB制作,手把手带你点亮创意
  • 鸣潮模组终极指南:5分钟解锁15+隐藏功能,全面升级游戏体验
  • 别再只盯着GPT-4V了!用Qwen-VL-Chat本地部署,5分钟搭建你的多图对话AI助手
  • OBS Studio运动跟踪实战指南:从基础滚动到智能跟随的完整方案
  • 如何实现中文英文双语能力:深入解析Baichuan2-7B-Base的多语言支持原理
  • 昇腾AI处理器深度适配:EfficientNetV2_for_PyTorch架构解析
  • 如何用HsMod插件彻底改变你的炉石传说游戏体验
  • OnmyojiAutoScript:阴阳师自动化终极指南,5步实现全日常托管
  • 3个神奇功能,让你的普通鼠标在Mac上获得专业级体验
  • OptiScaler完全指南:打破显卡壁垒,自由切换AI超分辨率技术
  • PP-OCRv5移动端识别模型性能对比:与其他OCR模型的基准测试
  • Python技术周刊 2026年第18周 | PyPy v7.3.22发布、Pip 26.1新特性、PEP 772打包委员会治理获批、PEP 831启用帧指针、PyPI完成第二次审计
  • Akagi终极指南:免费开源麻将AI助手如何帮你提升雀魂水平
  • 炉石传说终极改造:HsMod让你的游戏体验提升500%的秘密武器
  • OptiScaler:跨GPU超分辨率与帧生成技术的终极桥梁
  • ROS2导航实战:手把手教你用nav_msgs/Path在Rviz中画出一条抛物线轨迹
  • 微信聊天记录终极保存指南:WeChatMsg完整数据留痕解决方案