当前位置: 首页 > news >正文

自动驾驶数据驱动规控进化之路

阶段一:纯粹的行为克隆(Behavior Cloning)—— “看图打方向盘” (2016)

最早的数据驱动尝试极其简单粗暴:把人类驾驶时的摄像头画面作为 $X$,把方向盘转角作为 $Y$,用一个简单的卷积神经网络(CNN)做有监督回归训练。

  • 痛点(协变量偏移 Covariate Shift):这种模型只会顺风局。一旦在现实中车子稍微偏离了车道线中心(由于风偏或小误差),模型就会看到一个“训练集中从未见过的画面”,然后彻底宕机,不知如何“救车”。

  • 标志性工作/依据:

    • PilotNet (NVIDIA, 2016):端到端自动驾驶的开山之作。英伟达用一个 9 层的 CNN,成功让一辆车在相对简单的乡村道路上保持在车道内行驶。(参考论文:End to End Learning for Self-Driving Cars, arXiv 2016

阶段二:鲁棒模仿学习与数据增强 —— “故意犯错,教机器救车” (2018-2021)

为了解决“偏离轨迹就不会开”的问题,工程师开始在数据层面做文章。

  • 核心逻辑:在给人类轨迹打标签时,故意在模拟器中生成大量“偏离中心、压线”的劣质合成数据,然后强制神经网络学习“如何打方向盘回到正确路线上”。

  • 标志性工作/依据:

    • ChauffeurNet (Waymo, 2018):Waymo 的经典之作。它证明了单纯模仿好司机是不够的,必须合成大量“坏数据”,强迫网络学习从恶劣状态中恢复。(参考论文:ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst, RSS 2019

    • Urban Driver (Waymo, 2021):不再输入图片,而是基于矢量化的高精地图(PointNet 架构)进行端到端的轨迹闭环学习,大大提升了在复杂城市路口的表现。(参考论文:Urban Driver: Learning to Drive from History and Local Graph, CoRL 2021

阶段三:打破“因果混淆”的离线强化学习 (2020-2023)

模仿学习有一个致命缺陷叫因果混淆(Causal Confusion)。比如:前车刹车灯亮了,老司机踩了刹车。模型在学习时,可能会误以为“因为我的脚踩了刹车板,所以前车的尾灯才亮了”。

  • 核心逻辑:引入离线强化学习(Offline RL)。不再仅仅是盲目模仿(监督学习),而是利用强化学习的奖励机制(Reward),从静态数据集中主动去寻找“即使人类司机没这么做,但理论上得分更高、更安全的轨迹”。

  • 标志性工作/依据:

    • CQL 在自动驾驶中的应用 (UC Berkeley & 行业前沿, 2020+):Conservative Q-Learning (CQL) 等算法被广泛引入。它通过在价值函数计算中惩罚“未见过的危险状态”,让 AI 在纯离线数据中也能学到极为稳健的规控策略,解决了直接用 RL 训练实车不安全的痛点。

阶段四:Transformer 大一统与“无图化”端到端 (2023-2024)

随着 BEV(鸟瞰图)和 Transformer 的成熟,数据驱动规控进入了大一统时代。各种独立的网络被融合成一个巨无霸,并且开始彻底抛弃昂贵的高精地图。

  • 核心逻辑:原始传感器数据输入,网络内部自动生成动态/静态元素的 Token(词元),并通过自注意力机制直接输出自车的规划轨迹。

  • 标志性工作/依据:

    • VAD (Vectorized Autonomous Driving, ICCV 2023):提出了一种完全矢量化的无图端到端框架。它直接从多视角图像中隐式学习车道拓扑,极大地提高了规控在没有高精地图路段的稳定性和运行速度。

    • UniAD (CVPR 2023 Best Paper, 上汽/上海AI实验室):将追踪、建图、轨迹预测和自车规划全部放入一个 Transformer 管道中联合优化,是目前学术界最标杆的端到端范式。

    • Tesla FSD v12 (2024):工业界真正实现了“光子输入,控制输出(Photon-in, Control-out)”。马斯克彻底干掉了超过 30 万行规控 C++ 代码,全靠特斯拉车队海量的视频片段驱动一个巨大的神经网络输出控制指令。

阶段五:生成式“世界模型”与大语言模型 (VLA) 的降维打击 (2024-2026)

纯数据驱动的黑盒模型缺乏“物理常识”和“逻辑推理”。最新的趋势是给规控装上 LLM 的大脑。

  • 核心逻辑:

    1. 世界模型:让 AI 学习物理规律,在脑海的“虚拟世界”里预演自己的规控轨迹是否会撞车。

    2. VLM/LLM:让大模型充当“教练”,面对长尾罕见场景(如路边有猪、交警挥手),用人类文字推理出正确的规控意图。

  • 标志性工作/依据:

    • GAIA-1 & Lingo-2 (Wayve, 2023/2024):前者是 90 亿参数的世界模型,能逼真预测各种罕见规控后果;后者是能一边控制实车、一边用英语解释自己“为什么要这么踩刹车”的闭环 VLA 大模型。

    • DriveVLM-Dual (清华 & 理想, 2024):一种混合架构。当路况正常时,底层的端到端小模型快速输出规控指令;当遇到奇怪的障碍物时,VLM 大模型立刻介入进行“慢思考”逻辑推理,指导底层修改规控轨迹。

    • DriveDPO (NeurIPS 2025):将大语言模型界最火的偏好对齐(DPO)直接用于自动驾驶轨迹规划,直接让模型对比“好人类”和“坏人类”的开车区别,而不需要复杂的强化学习奖励设计。

从纯粹的模仿,到强化学习的寻优,再到大语言模型的推理,数据驱动正在彻底重塑汽车的“运动神经”。

http://www.zskr.cn/news/1434826.html

相关文章:

  • 完全掌控你的数字记忆:微信聊天记录导出的终极解决方案
  • GlosSI终极指南:在Windows上实现全局Steam控制器支持
  • 【Gemini产品退役终极指南】:20年Google生态专家亲授迁移避坑清单与替代方案速查表
  • 5个关键参数配置:从机械语音到自然音色的AI语音合成优化指南
  • 超速离心机哪个牌子好?国内外头部品牌综合实力大揭秘 - 品牌推荐大师
  • ngx_http_core_find_config_phase
  • 微信聊天记录永久保存指南:如何将珍贵对话转化为数字资产
  • 如何快速实现AI智能图像分层:免费工具Layerdivider完整指南
  • 乌鲁木齐企业选择一般纳税人还是小规模纳税人的经验分享 - 新疆全疆企业服务
  • TensorFlow.js 时间序列预测实战:从数据预处理到浏览器端模型部署
  • 基于Johnny-Five与Socket.io构建实时物联网系统:从硬件连接到Web交互
  • 终极OBS背景移除指南:免费实现专业级绿幕效果
  • 到底为什么PHP要用PHP-FPM?
  • 你的微信聊天记录,真的安全吗?让WeChatMsg成为你的数字记忆保险箱
  • 到底为什么PHP要有网络协议?
  • 如何永久保存微信聊天记录?WeChatMsg让数字记忆不再丢失
  • YimMenu完全指南:GTA5最强防护与功能增强工具深度解析
  • 收藏!3个免费AI工具组合,让我每天下班提前2小时,行政小白也能轻松上手大模型!
  • Arm GIC架构演进:从GICv3到GICv4的中断控制器技术解析
  • Windows与Office智能激活完整指南:三步实现永久激活的终极解决方案
  • VLD搭配CMake真香!一份搞定VS和CLion跨平台C++内存泄漏检测配置
  • 2026娄底市防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水百科
  • 到底为什么PHP-FPM 难以维持长连接?
  • 【LeetCode刷题日记】538.把二叉搜索树转换为累加树
  • AnimateDiff动画生成指南:5分钟从静态图像到动态视频的完整教程
  • 工业云脑:11 未来:6G、卫星、量子加密
  • OpCore-Simplify:告别黑苹果配置噩梦,30分钟搞定专业级EFI配置
  • 大模型应用层开发学习路径:从传统后端到AI高薪岗位,收藏这份进阶指南!
  • 零基础从零到一PHP打断点的庖丁解牛
  • 2026肇庆市防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水百科