在计算机视觉领域图像分类、目标检测和图像分割是三个核心的基础任务它们层层递进对图像的理解也越来越精细。而标注框则是连接这些任务特别是目标检测和实例分割最关键的数据表达形式。下面我来为你详细介绍这三者的区别以及标注框的相关知识最后同样会为你梳理一张总结框图。️ 三大核心任务从“看图说话”到“像素级理解”这三个任务的核心区别在于它们对图像内容进行“理解”和“描述”的精细程度。1. 图像分类这是最基础的任务回答“这张图里有什么”这个全局性问题。输入一整张图片。输出一个类别标签或者多个类别标签的概率分布。核心将整张图作为一个整体理解其全局语义内容不关心物体在哪里、有几个。形象理解就像给一张图打上标签。你问AI这是什么它回答“一只猫”。代表模型AlexNet、VGG、ResNet、Vision Transformer (ViT)。2. 目标检测在分类的基础上更进一步回答“图里有什么它们分别在哪里”。输入一整张图片。输出一个列表包含了图中每个感兴趣物体的“边界框”和对应的“类别标签”。有时还包括置信度分数。核心不仅要认出物体还要用矩形框准确定位每个物体的空间位置。形象理解用不同颜色的矩形框把图中的猫、狗都框出来并分别标上“猫”和“狗”。你不仅能知道有猫还能知道它在图片的哪个区域。代表模型YOLO系列、Faster R-CNN、DETR (Detection Transformer)。3. 图像分割这是像素级的理解任务追求最精细的描绘回答“每个像素分别属于什么”。它又可细分为语义分割问题“图里的所有像素分别属于哪个类别”输出一张与输入图像同尺寸的“掩码图”每个像素被赋予一个类别标签如0-背景1-猫2-草地。核心区分不同类别的像素但不区分同一类别的不同个体。图中所有“猫”的像素标签都一样。代表模型FCN、U-Net、DeepLab系列。实例分割问题“图里有哪些物体的实例每个实例的精确轮廓是什么”输出结合了检测与分割。会检测出每个物体实例并为其生成一个精确到像素的二值掩码Mask同时区分同类个体猫A vs 猫B。核心这是目标检测定位个体和语义分割描绘轮廓的结合。代表模型Mask R-CNN、YOLACT。全景分割问题对图中所有像素进行全面彻底的理解。输出每个像素都必须被分配一个语义类别和一个实例ID。背景如天空、草地只分配语义类别而可数物体如猫、车则同时分配语义类别和实例ID。核心语义分割 实例分割的统一。代表模型Panoptic FPN、Mask2Former。总的来说从图像分类到全景分割计算机对图像的解析是一个从全局到局部再到全局像素理解的过程。 标注框基础知识目标检测的基石标注框是目标检测任务的“黄金标准”输出也是模型训练时必须提供的数据形式。它用最简洁的几何图形——矩形来近似表示物体的位置和大小。1. 常见表示法一个边界框通常由以下要素组成类别标签框内物体的类别名称或ID如猫。置信度分数预测阶段模型会给出这个框内存在该类物体的概率。坐标定义矩形位置和大小的数字主要有两种格式轴对齐边界框这是最主流的形式矩形边与图像坐标轴平行。(x_min, y_min, x_max, y_max)左上角和右下角的像素坐标。这是Pascal VOC数据集的常用格式。(x_center, y_center, width, height)中心点坐标和宽高。这是COCO和YOLO等数据集的常用格式两者可以互相转换。旋转边界框用于文字、遥感图像等任意朝向的物体。(x_center, y_center, width, height, angle)在中心点坐标和宽高的基础上增加一个旋转角度。常见于场景文字检测。2. 核心概念交并比这是衡量两个边界框重叠程度的最重要指标用于评估预测准确性。定义两个框的交集面积与并集面积的比值即IoU Area of Overlap / Area of Union。取值范围[0, 1]。0表示完全不相交1表示完全重合。应用判定标准在评价模型时通常设定一个IoU阈值如0.5当预测框与真实框的IoU大于该阈值时认为检测成功。去重神器NMS同一个物体可能被多次检测出多个相近的框。非极大值抑制算法会保留得分最高、置信度最高的框并移除那些与其IoU过高的冗余框。3. 锚框与无锚框这是现代检测器生成边界框的两种主流思路。基于锚框的方法在图像的每个位置预设一系列不同尺度和长宽比的基准框锚点模型预测的是相对于这些锚框的偏移量。Faster R-CNN、SSD为代表。无锚框方法直接预测边界框的关键点或中心点避免复杂的锚框设计。代表有CornerNet、CenterNet及YOLO的后期版本。两种方法的核心目标都是为了精准、高效地输出正确的边界框坐标。下面的流程图可以帮你理清这些任务和概念之间的关系从图像分类到实例分割计算机视觉任务对图像的理解经历了从“是什么”到“在哪里”再到“具体是哪些像素”的逐层深化。而标注框作为定位的基石以简洁的几何形式承载了“在哪里”这一关键信息是串联起不同任务的重要桥梁。