当前位置: 首页 > news >正文

faster r cnn 用到所有技术和流程

按时间顺序拆成 4 大段、12 个小步,并指出每一步用到的关键模块 / 公式 / 损失。

  1. 输入与数据准备
    ① 图像预处理
    • Resize + Pad 到固定短边 600 px(可配置)
    • 减 ImageNet 均值/方差
    • 水平翻转、随机裁剪做数据增强
    • 标注:每张图给出 N 个真值框 (x₁,y₁,x₂,y₂) 与类别标签

  1. Backbone 特征提取
    ② 任选 CNN(ImageNet 预训练)
    • VGG16/ResNet50+FPN 等
    • 输出一组多尺度特征图 {C2,C3,C4,C5}(stride=4,8,16,32)
    • 若无 FPN,只用末尾 conv5(C5, stride=16)

  1. Region Proposal Network(RPN)——“生成候选框”
    ③ 在特征图上铺 Anchor
    • 3 尺度 × 3 长宽比 = 9 anchor/像素
      ④ 3×3 conv 滑窗 → 两条 1×1 兄弟分支
    • objectness 分类(2k 分数):判断 anchor 是否包含物体
    • bbox 回归(4k 偏移):Δx,Δy,Δw,Δh
      ⑤ 采样 256 个 anchor/图(pos:neg ≈ 1:3)
      ⑥ 计算 RPN 损失
    • 分类:二值交叉熵 L_cls^RPN
    • 回归:Smooth-L1,仅对正样本 L_reg^RPN
    • 总损失 L_RPN = L_cls^RPN + λ·L_reg^RPN
      ⑦ 生成约 20k 框 → 按分数排序 → Top-k+NMS → 300 个候选区域 RoI

  1. RoI Head(检测头)——“精细分类+二次回归”
    ⑧ RoI Align / RoI Pool
    • 把 300 个候选框映射到特征图 → 统一 7×7(或 14×14)网格
    • 采样点用双线性插值(Align 版消除量化误差)
      ⑨ 两条并行全连接分支(共享 fc)
    • 分类:Softmax 输出 N+1 类(含背景)
    • 回归:再一次 bbox 精修(Δx,Δy,Δw,Δh)
      ⑩ 采样 512 RoIs/图(pos:neg ≈ 1:3,IoU≥0.5 为正)
      ⑪ 计算 Fast R-CNN 损失
    • 分类:多类交叉熵 L_cls^RCNN
    • 回归:Smooth-L1 L_reg^RCNN
    • 总损失 L_RCNN = L_cls^RCNN + λ·L_reg^RCNN

  1. 训练与推理差异
    ⑫ 训练阶段
    • 端到端联合训练:Backbone + RPN + RoI Head 三段损失反向传播
    • 总损失 L = L_RPN + L_RCNN
      ⑬ 推理阶段
    • 同样流程,但无需采样/损失;RoI Head 输出 300 框后 → 再做一次 NMS → 保留高置信度结果

  1. 可选增强(现代实现常用)
  • FPN:把 {C2,C3,C4,C5} → {P2,P3,P4,P5,P6},RPN 与 RoI Head 都在多尺度上工作,小目标 AP 提升明显
  • ResNet-FPN + GroupNorm / Deformable Conv / Cascade 级联 head 等
  • 数据:多尺度训练/测试、OHEM、在线难例挖掘
http://www.zskr.cn/news/73695.html

相关文章:

  • 代码随想录Day28_贪心2
  • MAF快速入门(1)化繁为简的Agent创建范式
  • 20251205 - USPD 攻击事件:初始化缺失露破绽,黑客潜伏多日终得手
  • CSDN博客终于搬家至博客园了!
  • 深入解析:AUTOACT论文翻译
  • Gemini 2.5 Flash / Nano Banana 系统提示词泄露:全文解读+安全隐患分析
  • 第五十六篇
  • Linux中级のSSH远程连接
  • 06 前后端分离的架构
  • C 语言 Day02
  • 解决国内Github.com打不开的方法
  • 不再错过任何销售:为你的Python Flask应用集成Stripe支付和Slack通知
  • 题解:P11811 [PA 2015] 人赢 / Mistrzostwa
  • 常用adb+hdc指令
  • 实用指南:Configuration of TCP/IP with SSL and TLS for Database Connections
  • 20232420 2025-2026-1 《网络与系统攻防技术》实验八实验报告
  • BZOJ1278 向量 vector
  • 2025年度安全狗狗驱虫药品牌排行榜:专业评测助力科学养宠
  • Ubuntu 22.04 与 24.04 常用操作命令
  • 全国中医师承选哪个机构靠谱?——理性对比后选择了阿虎医考师承
  • 深入解析:探索JavaScript前端开发:开启交互之门的神奇钥匙(二)
  • Node-RED:5分钟快速上手:安装与环境安装
  • 个人电脑本地私有知识库推荐:访答软件全解析
  • 缓存击穿,缓存穿透,缓存雪崩的原因和解决方案(或者说使用缓存的过程中有没有遇到什么问题,怎么应对的)
  • 写给自己看,自己写自己
  • 2025年现浇楼板施工验收标准排行,你家合格吗?混凝土现浇/钢筋混凝土现浇/现浇楼梯/现浇楼板现浇楼板多少钱一平推荐榜单
  • GoldenDB数据库工程师培训(中兴GoldenDB金融级/运营商级分布式数据库) 原创
  • 2025年防雨棚厂家供应排行榜,热门联系电话汇总,控制台定做/龙门架监控杆/指挥中心控制台/防雨套/防雨棚生产厂家推荐榜
  • XXE盲注 感受创造之美
  • Rustup 暂时切换国内源并更新