当前位置: 首页 > news >正文

YOLO编年史:从Redmon到注意力革命,一篇讲透YOLO全系列发展历程

一、前言

YOLO(You Only Look Once)自2015年诞生以来,已经成为计算机视觉领域最具影响力的实时目标检测算法系列。从V1到V14,YOLO家族不断壮大,背后涉及的作者团队也从Joseph Redmon一人扩展到全球多个实验室。

但一个经常被忽视的事实是:不是每一代YOLO都发表了学术论文,更不是每一篇都中了顶会。YOLOv3在arXiv上发布后从未投稿;YOLOv5根本没有发表过学术论文;YOLOv9、YOLOv10至今仍是以arXiv预印本的形式存在。本文系统梳理YOLO全系列的发展脉络,回答三个核心问题:谁提出的?论文投稿了没有?接收了吗?

二、YOLOv1:一切的原点

提出团队:Joseph Redmon(华盛顿大学)、Santosh Divvala、Ross Girshick、Ali Farhadi

论文标题You Only Look Once: Unified, Real-Time Object Detection

发表/接收情况CVPR 2016

标志性创新:将目标检测重新定义为回归问题,从图像直接预测边界框和类别概率,实现了实时端到端的检测。

值得一提的是,这篇论文最初曾投稿到NIPS并被拒稿,评审给出的评价是“这是一篇不错的论文,但还不够好”。随后转投CVPR 2016被接收。

三、YOLOv2 / YOLO9000

提出团队:Joseph Redmon、Ali Farhadi(华盛顿大学)

论文标题YOLO9000: Better, Faster, Stronger

发表/接收情况CVPR 2017,获CVPR 2017最佳论文荣誉提名(Best Paper Honorable Mention)

核心贡献:引入Anchor Box机制改进定位精度;联合训练检测与分类,提出可检测9000类物体的YOLO9000,大幅扩展了检测类别上限。

四、YOLOv3

提出团队:Joseph Redmon、Ali Farhadi(华盛顿大学)

论文标题YOLOv3: An Incremental Improvement

发表/接收情况仅发布于arXiv(2018年4月),从未投稿到任何学术会议

核心贡献:引入特征金字塔网络(FPN)实现多尺度检测;使用Darknet-53主干网络;采用二元交叉熵损失进行分类;在保持实时性的同时大幅提升了对小目标检测的能力。截至2026年,YOLOv3仍是YOLO系列中被引用次数最高的论文,尽管它从未“中过”任何会议。

Joseph Redmon在完成YOLOv3后宣布退出计算机视觉研究界,YOLOv3也因此成为Redmon本人参与的最后一代YOLO。

五、YOLOv4:后Redmon时代的开篇

提出团队:Alexey Bochkovskiy(最初为个人研究者)、Chien-Yao Wang、Hong-Yuan Mark Liao(台湾中央研究院)

论文标题YOLOv4: Optimal Speed and Accuracy of Object Detection

发表/接收情况CVPR 2020

核心贡献:在Darknet架构基础上集成了当时最有效的检测“技巧包”——CSPNet、Mish激活函数、DropBlock正则化、CmBN、Mosaic数据增强、SAT自对抗训练等,构建了系统级的工程优化框架。值得注意的是,YOLOv4并非由YOLO原作者Redmon发表,但这一工作已得到Redmon本人的认可。

六、YOLOv5:从未发表论文的“版本”

提出团队:Glenn Jocher(Ultralytics公司创始人)

论文发表情况从未发表正式学术论文

核心贡献:YOLOv5于2020年6月以GitHub开源仓库的形式发布。其创新主要体现在工程实现层面:使用PyTorch框架(替代Darknet),引入AutoLearning bounding box anchors、Focus模块、CSPNet结构、自适应图像缩放等。

特殊争议:YOLOv5的命名曾引发争议——一些研究者认为它应该被称为“Ultralytics YOLO”而非“YOLOv5”。但无论如何命名,YOLOv5凭借其优秀的工程生态和易用性,在实际工业应用中的普及程度远超任何一代YOLO。然而从学术评价体系来看,YOLOv5没有任何一篇被正式接收的会议或期刊论文

七、YOLOv6

提出团队:美团视觉智能部(Meituan Vision Intelligence Department)

论文标题YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications

发表/接收情况仅发布于arXiv(尚未有明确的顶会接收记录)

核心贡献:专门针对工业场景设计,主打高精度和高推理效率。采用了EfficientRep主干网络、RepVGG风格的推理架构、Anchor-free检测头。团队获得了YOLO原作者的允许使用YOLOv6这一命名。

八、YOLOv7

提出团队:Chien-Yao Wang、Alexey Bochkovskiy、Hong-Yuan Mark Liao(台湾中央研究院与个人合作)

论文标题YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors

发表/接收情况CVPR 2023 Workshop(CVPR 2023中关于实时检测的专题研讨会)——这是一篇Workshop论文,而非CVPR主会论文。根据会议完整论文列表可查证其投稿和接收状态。

核心贡献:提出可训练的“免费礼包”集(Trainable Bag-of-Freebies),包括计划性重参数化卷积、辅助头训练策略等;设计了ELAN高效层聚合网络结构。

九、YOLOv8

提出团队:Glenn Jocher、Ayush Chaurasia、Jing Qiu(Ultralytics)

论文发表情况YOLOv8同样从未发表正式学术论文

核心贡献:2023年1月以Ultralytics开源框架形式发布。引入了统一的YOLO框架,支持目标检测、实例分割、姿态估计、图像分类等多个任务;改进了C2f模块、无Anchor检测头。

YOLOv8目前没有正式的arXiv预印本,也没有被任何会议或期刊接收的论文——它的发布方式与YOLOv5一样,通过GitHub和文档网站进行。尽管如此,YOLOv8是目前Ultralytics生态的核心基础。

十、YOLOv9

提出团队:Chien-Yao Wang、Hong-Yuan Mark Liao(台湾中央研究院)

论文标题YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

发表/接收情况仅发布于arXiv(2024年2月),不是期刊论文,也不是会议论文

核心贡献:提出可编程梯度信息(PGI)和GELAN通用高效层聚合网络,旨在解决深度神经网络中的信息瓶颈问题。截至2026年6月,YOLOv9仍未被任何学术会议接收

十一、YOLOv10

提出团队:来自清华大学的Aodong Li(一作信息)以及其他合作者(已知完整作者名单尚不完整,一作机构为清华大学)(具体团队机构待查)

论文标题YOLOv10: Real-Time End-to-End Object Detection

发表/接收情况NeurIPS 2024(已被接收)

核心贡献:提出了无需NMS后处理的端到端YOLO框架。通过双重分配策略(一对多分配用于训练、一对一分配用于推理)实现NMS-free设计,在保持高速度的同时提升了精度。这是首个被NeurIPS接收的YOLO系列论文

十二、YOLOv11(Ultralytics YOLO11)

提出团队:Glenn Jocher、Ayush Chaurasia、Jing Qiu(Ultralytics)

论文发表情况从未发表正式学术论文

核心贡献:YOLO11(Ultralytics内部不称其为“v11”)于2024年9月发布。进一步优化了C2f结构,改进了任务对齐学习,支持实例分割、姿态估计等更多任务类型。与YOLOv5和YOLOv8一样,它同样没有任何学术论文发表或接收记录

十三、YOLOv12

提出团队:由Yunjie Tian等作者提出(一作机构为华中科技大学 & 清华大学,详细信息待查)

论文标题YOLOv12: Attention-Centric Real-Time Object Detectors

发表/接收情况NeurIPS 2024

核心贡献:重回“注意力中心”设计——在CNN基础上引入区域注意力机制,取代了传统YOLO一直依赖的卷积主干;保持了与CNN YOLO相当的速度,同时获得了Transformer级别的性能提升。这是第二篇被NeurIPS接收的YOLO系列论文

十四、YOLOv13

提出团队:Mengqi Lei、Siqi Li、Yihong Wu、Han Hu、You Zhou、Xinhu Zheng、Guiguang Ding、Shaoyi Du、Zongze Wu、Yue Gao(清华大学、华中科技大学等机构合作,具体归属待查)

论文标题YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

发表/接收情况仅发布于arXiv(2025年6月21日),截至当前尚未被学术会议接收

核心贡献:提出基于超图的自适应相关性增强机制(HyperACE),突破了前代模型局限于局部信息聚合和成对相关性建模的缺陷,实现了全局多对多的高阶相关性建模,提升了复杂场景下的检测性能。实验表明YOLOv13‑N相比YOLO11‑N在mAP上提升3.0%,相比YOLOv12‑N提升1.5%。

十五、YOLOv14

提出团队:南京邮电大学张晨斌团队(GitHub账号:zhangcbb)

论文发表情况代码已开源,论文正在撰写中,尚未上传arXiv

项目地址:https://github.com/zhangcbb/yolov14

核心贡献:YOLOv14是唯一一个面向非理想成像条件的YOLO框架,旨在统一处理鱼眼畸变、游戏渲染、无人机俯视、360°全景等“非标”场景。通过自适应增强、领域自适应层、可变形区域注意力、动态尺度路由等模块,实现了跨域实时目标检测。截至2026年6月,YOLOv14的论文仍在撰写中,未提交至任何会议或期刊。

十六、YOLOvX与YOLO系列论文发表情况全景总结

16.1 各版本论文发表与接收情况汇总表

版本提出团队论文标题发表/接收状态
YOLOv1Joseph Redmon 等(华盛顿大学)You Only Look OnceCVPR 2016
YOLOv2Joseph Redmon, Ali Farhadi(华盛顿大学)YOLO9000CVPR 2017(最佳论文提名)
YOLOv3Joseph Redmon, Ali Farhadi(华盛顿大学)YOLOv3: An Incremental Improvement仅arXiv(2018)——未投稿
YOLOv4Alexey Bochkovskiy 等(台湾中央研究院)YOLOv4: Optimal Speed and AccuracyCVPR 2020
YOLOv5Glenn Jocher(Ultralytics)无正式论文从未发表学术论文
YOLOv6美团视觉智能部YOLOv6: A Single-Stage Object Detection Framework…仅arXiv——尚未被会议接收
YOLOv7Chien-Yao Wang 等(台湾中央研究院)YOLOv7: Trainable Bag-of-FreebiesCVPR 2023 Workshop
YOLOv8Glenn Jocher(Ultralytics)无正式论文从未发表学术论文
YOLOv9Chien-Yao Wang, Hong-Yuan Mark Liao(台湾中央研究院)YOLOv9: Learning What You Want to Learn…仅arXiv(2024)——未被会议接收
YOLOv10Aodong Li 等(清华大学等)YOLOv10: Real-Time End-to-End Object DetectionNeurIPS 2024
YOLOv11Glenn Jocher(Ultralytics)无正式论文从未发表学术论文
YOLOv12Yunjie Tian 等(华中科技大学 & 清华大学)YOLOv12: Attention-Centric…NeurIPS 2024
YOLOv13Lei, Li, Wu 等(清华大学,华中科技大学等)YOLOv13: Real-Time Object Detection with Hypergraph…仅arXiv(2025-06-21)——未被会议接收
YOLOv14张晨斌团队(南京邮电大学)正在撰写中论文尚未提交

16.2 关键洞察

  1. 只有7个版本(V1、V2、V4、V7、V10、V12、Workshop V7)发表了正式学术论文并被会议接收。其中V1、V2、V4、V7为CVPR系列;V10、V12为NeurIPS系列。
  2. Ultralytics路线(V5、V8、V11)从未发表任何学术论文,其影响力来源于开源社区和工程生态,而非学术发表。
  3. YOLOv3是学术引用最高的版本,却从未投稿到任何会议。
  4. NeurIPS 2024是YOLO系列首次进入NeurIPS的一年——V10和V12同时在2024年被NeurIPS接收。
  5. YOLOv6、YOLOv9、YOLOv13至今仍停留在arXiv,尚未被任何会议接收
  6. YOLOv14是首个由国内非Top2高校实验室主导发布的版本,标志着YOLO生态从工业界开源回归学术界。

十七、YOLO系列的历史分水岭

YOLO系列的发展历程可以划分为几个清晰的阶段:

  • Redmon时代(V1-V3,2015-2018):奠定YOLO基础框架,以学术会议论文为主要发布渠道。
  • Ultralytics时代(V5-V8-V11,2020-2024):以工程化和开源生态为核心策略,放弃学术发表路径。
  • 多元时代(V4-V6-V7-V9-V10-V12-V13-V14,2020-2026):全球多个团队和实验室各自沿YOLO路线推进,形成学术顶会、arXiv预印本、开源工程并存的复杂格局。

十八、结语

YOLO系列的发展并非一条单一的学术论文链条,而是由学术顶会论文、arXiv预印本、无论文开源工程三条路径交织而成。V1和V2是CVRP上的学术作品;V3虽无顶会认可但影响力最大;V4继承了CVPR的正统血脉;V5、V8、V11走的是工程路线;V9是纯arXiv产物;V10和V12则开创了YOLO进入NeurIPS的先河;V13目前停留在arXiv;V14则是仍在创作中的开源项目。

每一代YOLO都以自己的方式推动了目标检测领域的发展。了解了这一历史,再看到任何一个新的YOLO版本出现时,你就知道应该如何定位它了。

http://www.zskr.cn/news/1531284.html

相关文章:

  • 抽屉滑轨怎么选?2026年十大导轨品牌横向测评,选对五金十年不返修 - 信息热点
  • 2026乌兰察布卫生间免砸砖防水、楼顶漏水、外墙渗水、地下室阳光房渗漏;专业防水公司为您排忧解难,线上质保,售后无忧。房屋漏水不再愁,24小时一站式快速维修。 - 企业资讯
  • 认真倾听内心话语,走进孩子简单纯粹的世界
  • 2026全国APP开发公司综合实力排名 - IT老炮老刘
  • 2026年国内APP开发公司TOP10综合排名 - IT老炮老刘
  • AI大模型应用入门实战与进阶:从零开始的BERT实战教程
  • 2026 镇江黄金回收避坑指南!本地人实测,教你高价变现零套路不被骗 - 信息热点
  • 香港身份规划|行业头部实力,100%合规获批,全程稳妥无忧 - 信息热点
  • 2026抚顺卫生间免砸砖防水、楼顶漏水、外墙渗水、地下室阳光房渗漏;专业防水公司为您排忧解难,线上质保,售后无忧。房屋漏水不再愁,24小时一站式快速维修。 - 企业资讯
  • DS4Windows终极指南:解决手柄漂移、延迟和兼容性问题的完整方案
  • 2026广州番禺代理记账避坑指南|3家本土合规财税机构实测推荐 - 信息热点
  • 如何用LightBulb彻底解决程序员屏幕疲劳问题?
  • 2026广州债权债务律师事务所权威测评|粤港澳大湾区资金风控回款指南:民间借贷处置、企业货款催收、债务清算确权、财产保全风控、债务逃避追责、担保责任划分、执行异议申诉全套法务服务 - 信息热点
  • 戴尔笔记本风扇控制终极指南:告别噪音与过热,掌握散热主动权
  • Memory OS高级配置:定制化工作流、记忆衰减扫描和语义去重策略
  • 从ONNX到TensorRT:激光雷达AI模型部署的性能突破实战
  • 罪业烙印下载2026最新免费豪华中文
  • 广州天河区CBD办公室写字楼搬迁攻略:2026专业企业搬家公司实测推荐 - 从来都是英雄出少年
  • 别慌!华为GPON设备ONU告警排查,从display alarm history all到switch language-mode的保姆级指南
  • NSK W1003KA精密级不锈钢滚珠丝杠详述
  • 【毕业设计】基于SpringBoot的足球赛事互动交流平台设计与应用 足球赛事动态发布与粉丝互动管理系统设计(源码+文档+远程调试,全bao定制等)
  • 重庆家电清洗平台推荐:本地用户反馈较好的几家服务商深度实测对比——2026年6月最新发布 - 一步到家
  • 华硕笔记本终极控制指南:G-Helper轻量级工具完整解析
  • 东莞超纯水设备厂家推荐,这五家口碑最靠谱 - 信息热点
  • Restic企业级备份解决方案:云存储集成与性能优化深度指南
  • 【2026实测】北京定制游避坑指南:亲测10家旅行社,只有这1家敢闭眼选! - 互联网科技品牌测评
  • 永康铸铝门同城服务来啦!专业师傅上门安装,品质有保障 - 信息热点
  • 【毕业设计】基于SpringBoot的图书馆在线座位预订系统设计与实践 智能化图书馆座位资源调度管理系统设计与实现(源码+文档+远程调试,全bao定制等)
  • 2026 东莞业主防水避坑指南:苏易修缮本地化精工防水,工艺 / 报价 / 竞品全方位对比 - 苏易修缮
  • 2026通辽卫生间免砸砖防水、楼顶漏水、外墙渗水、地下室阳光房渗漏;专业防水公司为您排忧解难,线上质保,售后无忧。房屋漏水不再愁,24小时一站式快速维修。 - 企业资讯