CVPR 2025自动驾驶研讨会：端到端、大模型与BEV感知的技术风向-尧图网络科技

1. 项目概述：一场自动驾驶领域的年度技术盛宴

如果你关注自动驾驶技术的前沿动态，那么CVPR（计算机视觉与模式识别国际会议）这个名字一定不陌生。作为计算机视觉领域的顶级会议，它每年都会吸引全球顶尖的研究者和工程师。而其中的“自动驾驶研讨会”（Workshop on Autonomous Driving, WAD），更是这个领域技术风向的集中展示地。2025年的这场全天研讨会，选址在纳什维尔的音乐城中心，已经是这个系列活动的第八个年头。它早已不是简单的学术交流，而是一个融合了最新研究论文、工业界实战分享、以及硬核技术挑战赛的综合性平台。对于从业者来说，无论是想了解学界的最新思想，还是想把握工业界落地的脉搏，这个研讨会的内容都极具参考价值。它覆盖了从感知、预测、规划到仿真的全栈技术链条，今年的主题更是鲜明地指向了“规模化”和“大模型”这两个关键趋势。简单来说，这就是一份自动驾驶技术圈的“年度体检报告”和“未来趋势白皮书”，无论你是算法工程师、产品经理，还是对这个领域充满好奇的学生，都能从中挖到宝藏。

2. 核心议题深度解析：从技术演进到商业落地

今年的WAD议程安排得满满当当，从上午九点持续到下午五点，内容编排清晰地反映了当前自动驾驶领域的热点与挑战。我们可以将其核心议题归纳为几个相互关联的维度。

2.1 技术范式演进：端到端驾驶与大模型浪潮

研讨会的开场主题演讲就定下了基调。香港大学的李宏扬教授探讨了“端到端自动驾驶的过去、现在与未来”。这背后反映的是一个根本性的思路转变。传统的自动驾驶系统是高度模块化的，像一条流水线：感知模块识别出车辆、行人、车道线；预测模块猜测这些交通参与者接下来几秒会怎么动；规划模块再基于这些信息计算出一条安全舒适的轨迹。这种架构清晰，但模块间的误差会累积，且难以处理长尾的复杂场景。

端到端驾驶则试图用一个庞大的神经网络，直接从传感器输入（如图像、激光雷达点云）映射到控制输出（如方向盘转角、油门刹车）。这就好比不是让机器人先看、再想、最后动，而是训练它形成一种“条件反射”或“直觉”。今年Waymo Open Dataset挑战赛中专门设立了“基于视觉的端到端驾驶”赛道，并且有像“UniPlan”、“DiffusionLTF”这样的优秀方案脱颖而出，说明这条技术路线已经从纯学术探索进入了大规模数据验证和工程化竞赛的阶段。然而，端到端模型的可解释性差、安全验证难，依然是其走向大规模部署必须跨越的鸿沟。

紧接着端到端，另一个无法忽视的浪潮就是“大模型”。小鹏汽车的刘祥明博士分享了“通过大型基础模型扩展自动驾驶”。这里的“大模型”已不再局限于自然语言处理中的LLM，而是泛指参数量巨大、经过海量多模态数据预训练的模型。它们在自动驾驶中的应用场景非常广泛：利用视觉-语言模型（VLM）理解复杂的交通场景描述（如“那个试图在双黄线掉头的三轮车”）；用大语言模型（LLM）进行常识推理和决策（比如理解“礼让行人”不仅仅是一个交通规则，更是一种社会行为规范）；甚至用扩散模型（Diffusion Model）来生成更合理、更多样的未来交通流预测。NVIDIA的Laura Leal-Taixé博士关于“为3D数据重新设计生成模型”的演讲，也与此紧密相关，如何利用生成式AI创造逼真的仿真数据，是降低自动驾驶系统测试成本的关键。

2.2 规模化部署的现实挑战：数据、仿真与长尾问题

当技术走出实验室，迈向真实世界的规模化部署时，一系列工程和商业挑战便浮出水面。Waymo的陈武博士的演讲“解决大规模自动驾驶车辆部署的现实世界挑战”无疑直击要害。这里面包含几个层面：

首先是数据的规模与质量。自动驾驶是数据驱动的，但获取海量、高质量、覆盖各种极端场景（长尾问题）的标注数据成本极高。这也是为什么Waymo、Argoverse等公司持续开源其数据集并举办挑战赛的原因——借助社区的力量共同推进技术边界。Argoverse挑战赛中的“场景挖掘”赛道，要求用自然语言描述找到安全关键场景，这正是为了解决从海量数据中高效挖掘“危险片段”的难题。

其次是仿真系统的可信度与效率。加州大学伯克利分校/Applied Intuition的Wei Zhan博士探讨了“可扩展的神经仿真”。真实的道路测试里程成本以美元/公里计，而仿真可以以近乎零的成本运行数百万公里。但仿真的核心是“真实性”：模拟的传感器数据是否足够真实？模拟的交通参与者（AI智能体）行为是否足够拟人？今年的“Sim Agents挑战赛”就是专门针对后者，要求参赛者生成符合真实世界统计规律的多智能体运动轨迹。第一名方案“TrajTok”将轨迹离散化为“token”并用Transformer模型生成，展示了如何用AI方法来创造更聪明的AI测试环境。

最后是系统可靠性与边缘案例。卡耐基梅隆大学Deva Ramanan教授提到的“感知与仿真”结合，是解决长尾问题的另一把钥匙。通过仿真源源不断地生成那些罕见但危险的场景（如小孩突然追球跑上马路），来持续“喂养”和测试自动驾驶系统，使其变得更稳健。

2.3 多模态融合与新一代感知架构

尽管端到端是热门话题，但模块化感知技术的进化从未停止，尤其是在多模态融合和高效架构设计方面。感知的目标是为下游提供更精准、更鲁棒的环境理解。今年的论文和挑战赛体现了几个趋势：

鸟瞰图（BEV）感知已成为主流范式。将不同视角、不同传感器的数据（如前视摄像头、环视摄像头、激光雷达）统一转换到自上而下的BEV空间中进行处理，极大地简化了后续的融合和任务（如检测、分割、预测）流程。例如，论文《DuoSpaceNet: Leveraging Both Bird's-Eye-View and Perspective View Representations for 3D Object Detection》就在探索如何更好地结合BEV和透视图的优势。Argoverse的激光雷达场景流挑战，也是在BEV空间下估计行人和弱势道路使用者的运动。

纯视觉感知能力边界不断被拓展。在成本敏感的量产方案中，依赖摄像头的纯视觉方案是主流。相关研究集中在如何从2D图像中更准确地恢复3D信息，以及如何应对恶劣天气和光照条件。论文《Camera-Only 3D Panoptic Scene Completion for Autonomous Driving through Differentiable Object Shapes》尝试仅用摄像头完成3D全景场景补全，这是一个非常 ambitious 的任务。

雷达感知的价值被重新审视。随着特斯拉等公司推动纯视觉路线，毫米波雷达一度被边缘化。但论文《AttentiveGRU: Recurrent Spatio-Temporal Modeling for Advanced Radar-Based BEV Object Detection》展示了通过先进的时空建模，基于雷达的BEV目标检测也能达到很高性能。雷达在恶劣天气下的稳定测距测速能力，依然是安全冗余的重要组成部分。

3. 三大技术挑战赛全解读：从数据集到SOTA方案

WAD研讨会的一大亮点是联合业界领先公司举办的系列挑战赛。这些比赛不仅是学术竞技场，更是行业技术发展的“晴雨表”，提供了最真实的问题定义、最庞大的数据集和最客观的性能排行榜。

3.1 Waymo开放数据集挑战赛：自动驾驶的“全能竞技”

Waymo Open Dataset挑战赛已经办到第六届，堪称自动驾驶领域的“奥林匹克”。它包含四个独立赛道，覆盖了从底层感知到高层决策的完整链条：

交互预测：给定过去1秒的历史轨迹，预测场景中多个关键智能体未来8秒的轨迹。这不仅要求模型理解每个智能体的动力学，更要理解它们之间复杂的交互关系（如跟车、超车、礼让）。今年的冠军方案“Parallel ModeSeq”采用了并行化的序列建模，高效地捕捉了多模态的未来可能性（即一个场景可能有多种合理的未来发展）。一个重要的趋势是，顶级方案都开始显式地建模场景的拓扑结构（如车道线）和交通规则，而不是单纯地从数据中学习相关性。
基于视觉的端到端驾驶：这是最接近“完全体”端到端自动驾驶的赛道。输入多摄像头视频序列，直接输出未来的规划轨迹。冠军“UniPlan”方案的核心思想是“统一”：用一个统一的模型架构处理不同的输入模态（图像、轨迹历史）和输出任务（感知、预测、规划）。这减少了模块间的信息损失和误差累积。值得注意的是，亚军“DiffusionLTF”使用了扩散模型，这类生成式模型在捕捉规划轨迹的不确定性和多模态性方面表现出独特优势。
仿真智能体：这个赛道评估的是生成逼真交通流的能力。参赛者需要控制仿真中的多个“背景车辆”智能体，使其行为与真实世界数据分布一致。冠军“TrajTok”将轨迹生成视为一个“分词-生成”过程，借鉴了大语言模型的思想，展示了序列生成模型在行为仿真中的潜力。高质量的仿真智能体是进行大规模、高保真安全测试的基础。
场景生成：与仿真智能体相关但侧重不同，它要求生成全新的、具有挑战性的驾驶场景（如危险切入、路口冲突）。冠军“SimFormer”等方案表明，利用生成式AI（如Transformer、扩散模型）来创造丰富多样的测试用例，正在成为加速系统验证的重要手段。

实操心得：对于想入行或提升的研究者，我强烈建议从复现这些挑战赛的顶级方案开始。Waymo数据集质量高、标注完善，且社区积累了丰富的baseline代码。不要只盯着最终指标，更重要的是理解每个方案针对问题本质所做的设计：它们是如何表征数据的？模型结构为何有效？损失函数如何引导模型学习正确的行为？这比单纯调参跑分有价值得多。

3.2 Argoverse挑战赛：聚焦预测与场景理解

Argoverse挑战赛由卡耐基梅隆大学发起，今年聚焦三个任务：

多智能体运动预测：与Waymo的交互预测类似，但可能更侧重于城市密集交通场景下的行人、车辆等多类别参与者的联合预测。预测的准确性直接关系到规划模块能否做出安全决策。
场景挖掘：这是一个非常新颖且实用的赛道。给定海量的驾驶日志数据，要求用自然语言查询（如“找到有自行车突然从停靠车辆后穿出的场景”）来定位相应的片段。这本质上是一个跨模态检索任务，将文本语义与驾驶场景的视觉/时空特征进行对齐。它为解决“如何在PB级数据中快速找到某个特定边缘案例”这个工程难题提供了AI思路。
激光雷达场景流：估计连续两帧激光雷达点云中每个点的运动矢量。这对于理解动态物体（尤其是行人、自行车等非刚性物体）的瞬时运动至关重要，是高级别感知和短时预测的基础。这个任务对算法的精度和效率要求都很高。

3.3 Nexar行车记录仪碰撞预测挑战赛：面向安全的前瞻感知

这个挑战赛由行车记录仪网络公司Nexar主办，目标非常直接：根据行车记录仪视频，尽可能早地预测是否会发生碰撞。这属于“前瞻性感知”或“风险预测”的范畴，对于高级辅助驾驶系统（ADAS）和自动驾驶的安全冗余系统有重大意义。

比赛的难点在于，事故前兆往往非常细微且时间短暂，模型需要在有限的、充满噪声（如遮挡、天气变化）的视频信息中，捕捉到危险的信号。这要求模型具备强大的时序建模能力和对场景的深度理解。优秀的方案通常会结合物体检测、轨迹预测、以及基于注意力机制的时空特征融合技术。

注意事项：这类安全关键型任务，除了追求高精度（AUC、AP等指标），还必须格外关注模型的可解释性和误报率。一个总是“狼来了”的系统会让驾驶员麻木，而一个漏报的系统则会造成危险。在模型设计中，需要考虑如何输出风险置信度以及可视化的风险依据（如高亮风险区域）。

4. 从论文到实践：前沿研究的技术落地路径

研讨会上展示的接受论文，是未来一两年内可能影响工业界技术选型的前瞻性研究。我们可以从中梳理出几条清晰的技术落地路径。

4.1 BEV感知的深化与扩展

BEV范式已经确立，但如何做得更好、更高效、更鲁棒，是当前的研究重点。论文《DySS: Dynamic Queries and State-Space Learning for Efficient 3D Object Detection from Multi-Camera Videos》提出用动态查询和状态空间学习来提升多摄像头视频3D检测的效率。这指向了一个现实问题：BEV Transformer中的可学习查询（learnable query）参数是静态的，可能无法自适应不同场景。动态查询机制让模型能根据当前输入动态调整查询焦点，从而提升计算资源的利用效率。

另一篇论文《What is the Added Value of UDA in the VFM Era?》则提出了一个尖锐的问题：在视觉基础模型（VFM）时代，无监督域自适应（UDA）还有多少价值？VFM经过海量数据预训练，本身已具备强大的泛化能力。作者通过实验探讨了在已有强大VFM的情况下，传统的UDA技术带来的性能提升是否依然显著。这对于决定实际产品研发中是否要投入资源进行针对性的域自适应，有很强的指导意义。

4.2 神经渲染与仿真数据生成

仿真离不开高质量的数据生成。论文《NeuRadar: Neural Radiance Fields for Automotive Radar Point Clouds》将神经辐射场（NeRF）的应用扩展到了汽车雷达点云领域。传统NeRF多用于相机图像，而雷达点云更稀疏、噪声更大。这项工作试图用神经场来表征雷达信号的反射特性，从而能够合成新的雷达视角，这对于填补雷达数据空白、增强数据多样性有潜在价值。

《CE-NPBG: Connectivity Enhanced Neural Point-Based Graphics for Autonomous Driving Scenes》则专注于基于神经点云的图形学方法，用于自动驾驶场景的新视角合成。相比于NeRF，点云表示在某些情况下渲染效率更高。这类技术是构建高保真、可交互仿真环境的核心组件。

4.3 面向量产的成本与效率优化

并非所有研究都追求极致性能，许多工作着眼于如何在资源受限的车载平台上部署强大模型。《PatchContrast: Self-Supervised Pre-Training for 3D Object Detection》研究的是3D检测的自监督预训练。标注3D边界框成本极高，自监督学习可以利用大量无标签数据让模型学习到良好的点云特征表示，从而在用少量标注数据微调时获得更好效果，这是一种极具性价比的技术路径。

《Exploring Semi-Supervised Learning for Online Mapping》探索了在线建图中的半监督学习。高精地图的创建与维护是自动驾驶的一大成本。如果车辆能在行驶过程中，利用少量标注数据和大量无标签数据实时地更新局部地图，将大大降低对预先制作的高精地图的依赖，推动“重感知、轻地图”技术路线的落地。

5. 给从业者与学习者的行动指南

参加或跟进这样一场顶会研讨会，最终目的是为了指导我们的实际工作或学习。以下是一些具体的建议。

5.1 对于工业界研发工程师

明确技术选型参考：如果你正在为公司的感知模块做技术选型，那么BEV Transformer及其变体（如带动态查询的）无疑是当前的首选架构。需要深入评估的是，在你们的芯片算力和延迟约束下，哪种具体的BEV实现（如LSS, BEVFormer, PETR）是最优解。可以借鉴《DuoSpaceNet》的思路，考虑是否要融合透视视图特征来提升近距离物体的检测精度。

关注数据与仿真闭环：从研讨会可以看出，数据和仿真是驱动自动驾驶进步的双引擎。评估或引入神经渲染、生成式AI来提升仿真场景的真实度和多样性，应该提上日程。同时，建立类似“场景挖掘”的能力，从海量路测数据中自动、高效地发现corner cases，对于加速迭代至关重要。

端到端与大模型的战略布局：虽然完全端到端的量产部署尚需时日，但其代表的技术方向值得投入资源进行跟踪和预研。可以从小规模、特定场景（如高速巡航）的端到端模型探索开始。同时，积极评估VLM/LLM在理解复杂指令、进行常识推理、以及生成可解释的决策逻辑方面的潜力，它们可能首先在仿真测试、数据标注、人机交互等环节产生价值。

5.2 对于学术界研究者与学生

找准有潜力的研究方向：

泛化与鲁棒性：在VFM时代，如何让一个在某个数据集上表现良好的模型，能够无缝适应新的城市、新的传感器配置、新的天气？域自适应、领域泛化、以及测试时适应等技术仍然是硬骨头。
可解释性与可信AI：特别是对于端到端和基于大模型的系统。如何让“黑箱”模型给出其决策的依据？这对于通过安全法规和取得用户信任必不可少。
具身智能与交互：自动驾驶汽车不是一个孤立的智能体，它需要与其他车辆、行人进行实时交互。如何建模这种多智能体之间的博弈与合作，是一个充满挑战的交叉领域。
高效架构与模型压缩：让SOTA模型能在车规级芯片上实时运行，永远是一个核心工程问题。研究更高效的注意力机制、动态神经网络、以及硬件友好的模型设计，既有学术价值也有应用前景。

从复现与参赛开始：对于学生和新入门者，最有效的学习路径就是动手复现顶级会议论文或挑战赛的获奖方案。GitHub上有很多开源实现。可以先从理解代码、在标准数据集上跑通开始，然后尝试进行消融实验，看看论文中每个模块到底贡献了多少性能提升，最后尝试自己的改进。参加Kaggle、Waymo、Argoverse等挑战赛是检验学习成果、积累经验、甚至获得行业关注的绝佳方式。

5.3 通用技能与资源获取

保持对顶级会议的持续关注：CVPR WAD只是其中之一。ICCV、ECCV、ICLR、NeurIPS、CoRL等会议的自动驾驶相关workshop和论文，以及专门的自动驾驶会议如ITSC、IV，都需要定期浏览。关注这些会议中“最佳论文”、“杰出论文”和口头报告，它们往往代表了最强的创新性或最实用的进展。

善用开源社区与数据集：自动驾驶是开源精神践行得比较好的领域。Waymo、Argoverse、nuScenes、Lyft Level 5等开源数据集是宝贵的资源。PyTorch、TensorFlow等框架的生态中有大量相关的工具库（如MMDetection3D, BEVDet, OpenPCDet）。积极参与社区讨论，向开源项目提交PR，是快速成长的捷径。

建立系统性的知识体系：自动驾驶是一个系统工程，不能只懂感知或只懂规划。需要具备跨学科的知识，包括计算机视觉、深度学习、机器人学、控制理论、甚至一些车辆动力学的基础。可以通过在线课程（如Udacity的自动驾驶纳米学位、Coursera的相关专项）、经典教科书（如《Probabilistic Robotics》）和优秀的博客来系统性地补强。

这场为期一天的研讨会，就像一扇窗口，让我们得以窥见自动驾驶技术洪流的奔涌方向。从扎实的BEV感知到充满想象的端到端与大模型，从残酷的技术挑战赛到深思熟虑的学术论文，每一条信息都在勾勒着未来交通的蓝图。技术的演进从来不是线性的，而是在解决一个又一个具体问题的过程中螺旋上升。对于身处其中的我们而言，最重要的或许不是追逐每一个热点，而是深刻理解这些技术尝试背后所要解决的本质问题：如何让机器更安全、更可靠、更高效地理解并驾驭我们这个复杂而充满不确定性的世界。这份理解，将帮助我们在纷繁的技术路径中，找到属于自己的着力点。