当前位置: 首页 > news >正文

markdown笔记(没找到合适笔记软件,暂存)

机器学习基础概念

回归算法,就是让机器在多维空间中,找到一个连续的数学函数f(x)f(x)f(x),使得输入xxx经过映射后,输出的yyy能够无限逼近真实的世界数值。
在训练阶段,模型首先通过前向传播计算预测输出,并评估与真实标签之间的损失 (Loss);随后,利用反向传播算法计算网络各层参数的梯度;最后,由优化器 (如 Adam 或 SGD) 根据梯度信息对网络权重进行参数更新,以此实现模型的不断迭代与收敛。

两阶段检测器

第一阶段:找候选区域
第二阶段:判断类别 + 修正框
先生成一批候选框,再对候选框进行分类和回归。

R-CNN

输入图像
Selective Search生成约 2000 个候选区域 RoI
→ 把每个 RoI(Region of Interest,候选区域) 裁剪/拉伸成固定大小
→ 每个 RoI 单独送入 CNN 提特征
→ SVM 分类
→ bbox regression 修正框

Fast R-CNN:先整图卷积,再裁 RoI

输入图像
→ 整张图过 CNN,得到 feature map
→ 把 proposals(selective search来找) 映射到 feature map 上
→ 对每个 RoI 做 RoI Pooling(把不同大小的 RoI 特征变成固定大小)
→ 分类 + bbox regression

Faster R-CNN:让 CNN 自己生成 proposals

输入图像
→ backbone CNN 提取 feature map
→ RPN(Region Proposal Network,区域候选网络) 在 feature map 上生成 proposals
→ RoI Pooling / RoI Align(RoI Align 额外解决 RoI Pooling 的量化错位问题,彻底打通了特征图与原图之间的像素级精确映射,产生了Mask R-CNN)
→ 分类 + bbox regression
→ 最终检测结果

单阶段检测器

在特征图上密集预测 bbox + confidence + class,没有单独的 proposal 阶段。
单阶段检测器不是完全没有候选框,而是没有 Faster R-CNN 那种“先 RPN 生成 proposal,再 RoI Head 二次处理”的独立阶段。它直接在 feature map 上密集预测框、类别和置信度。
直接预测最终候选框、类别、置信度

YOLO:快

整张图一次前向传播,就直接输出检测结果。

SSD:适配不同尺度目标

SSD(Single Shot MultiBox Detector,单阶段检测器)
在多个尺度的 feature map 上直接预测目标
为什么要多个尺度?
因为:
浅层 feature map 分辨率高,适合小目标
深层 feature map 语义强,适合大目标

SSD 会在不同 feature map 上放 default boxes,也就是类似 anchor 的预设框,然后直接分类和回归。

SSD = 多尺度特征图 + default boxes + 单次预测。

RetinaNet:解决正负样本极度不平衡

RetinaNet 的关键是:Focal Loss
Focal Loss 的作用:降低简单负样本的权重,提高困难样本的学习权重

后处理与评价

NMS(Non-Maximum Suppression,非极大值抑制)

保留最可信的框,删除重复框。
框可能都围着同一只狗,只是位置略有不同。
问题是:
同一个目标被重复检测了很多次。
所以需要后处理,把重复框删掉。
这就是 NMS。

  1. 按 score 从高到低排序
  2. 取分数最高的框作为保留框
  3. 删除和它 IoU 过高的其他框
  4. 对剩余框重复以上过程

评价指标

假设真实图像里有 3 只狗,模型预测了 4 个框。
其中:
2 个框正确检测到狗
1 个框框到了背景,却说是狗
1 只真实狗没有被检测出来

那么:
TP = True Positive = 检测正确的目标
FP = False Positive = 误检,把背景或错误目标当成目标
FN = False Negative = 漏检,真实目标没检测出来

http://www.zskr.cn/news/1315724.html

相关文章:

  • 7-DOF机械臂自适应NT-STSM控制算法解析与应用
  • XZ2614宽电压输入范围:4.5V至16V是一款高频、同步、整流、降压、开关模式的转换器,内置功率MOSFET。
  • 终极Elsevier审稿追踪指南:5分钟实现智能投稿监控的完整方案
  • 视频无损切割神器-视频分割大师,简单粗暴快!
  • Vivado安装避坑指南:从环境配置到实战验证的完整流程
  • STM32——软件IIC显示字符
  • 工业算力服务器一体机:智能制造的硬核算力底座
  • VS Code CircuitPython扩展实战:嵌入式开发环境搭建与高效调试指南
  • 【Git】常用命令:commit提交,push推送,merge,branch添加分支
  • 告别命令行!ESP32安全启动V2的图形化实战:Flash下载工具配置Secure Boot全记录
  • 2026.5.18-要闻
  • 当RRT*遇见CNN:一份给路径规划新手的‘开箱即用’指南与避坑心得
  • NotebookLM评论反馈功能全链路拆解(从Prompt响应延迟到语义锚定失效的7个致命断点)
  • OpenEuler桌面化踩坑实录:从黑屏登录界面到完美远程访问,我的xfce+xrdp配置全记录
  • Equalizer APO完整指南:免费系统级音频均衡器从零开始
  • 算法工程师简历封神指南:项目细节 + 论文 / 竞赛成果缺一不可
  • ECC 从安装到精通
  • 外部半流式图算法:大规模图数据处理新突破
  • 给排水设计新人必看:如何用SWMM快速搭建一个‘麻雀虽小五脏俱全’的练习模型?
  • 利用taotoken为开源ai agent项目hermes提供稳定后端
  • 3个让你工作效率翻倍的macOS窗口管理技巧:Topit如何解决多任务处理的烦恼
  • 从密码学RSA到区块链:二次剩余(Cipolla算法)在CTF和加密实战中的妙用
  • 2026年八大上门服务预约小程序:解锁高效生活新体验
  • Godot实战(一)—— 用C#构建2D躲避游戏的核心机制
  • 不止是图像采集:基于RK3588 NPU和FPGA,如何给Cameralink相机注入AI灵魂(附目标跟踪/电子稳像实战)
  • 植物树枝叶片果实检测数据集7220张VOC+YOLO格式
  • AI为编程赋能增效:从“古法编程”到氛围编程的范式革命
  • MD5是哈希,不是加密,防君子不防小人
  • RISC-V vs MIPS:同为RISC,指令集设计哲学与编码格式有何不同?
  • PSI5协议:汽车传感器同步通信的基石