当前位置: 首页 > news >正文

机器学习篇---颜色直方图

颜色,是我们认识世界最直观的视觉线索之一。在机器视觉里,要把“颜色”这种感官体验变成计算机能计算的数字特征,最经典的方法就是颜色直方图

如果说像素展平是“逐个像素点名”,HOG是“素描轮廓”,那么颜色直方图就是“统计一张图的色调构成”。它完全不管颜色出现在哪里、形状如何,只关心每种颜色在画面里占多大比例。


一、核心思想:像调配颜料一样概括图像

想象你有一大把彩色玻璃珠,你想快速告诉别人这些珠子总体是什么色调。你不会一颗颗去描述,而是会说:“大概四成是蓝色系,三成是绿色系,两成是白色,还有一点点红色”。

颜色直方图干的正是这件事

  1. 把整个颜色空间(比如RGB所有可能的颜色)划分成若干个“颜色桶”,称为bin

  2. 扫描图片的每一个像素,判断它属于哪个桶,就往哪个桶里“投一票”。

  3. 最终,每个桶里票数的统计,就构成了这张图片的颜色直方图特征向量。

结果非常直观:用一组数字(比如64个或256个),就概括了一张图的色彩构成。这个特征向量,对于图像检索、场景分类、肤色检测这些对颜色敏感的任务,非常有效。


二、颜色空间的选择:决定“用哪种调色盘”

不同的颜色空间,就像不同的调色盘。同一种颜色在不同空间里坐标不同,切出来的桶也不同。

  • RGB空间:最朴素。直接用红、绿、蓝三原色的强度值来划分。

    • 问题:人眼感觉到的颜色变化,在RGB空间里不是均匀的。比如两个绿色,人眼看几乎一样,但在RGB里坐标可能差很远。另外,光照一变(阴影、反光),三个通道值全变,直方图就不稳定了。

  • HSV/HSI空间:更贴近人的感知,将颜色分解为三个维度:

    • H(色调):是什么颜色——红、绿、蓝还是黄。

    • S(饱和度):颜色有多“纯”——鲜艳的还是灰扑扑的。

    • V(亮度/明度):颜色有多亮——亮得发白还是暗得发黑。

    • 优势:可以把色调和光照影响分离开。比如只统计H和S通道,忽略V通道,就能让特征对光照和阴影不那么敏感,这对户外场景的识别很有帮助。

  • Lab空间:设备无关的空间,将颜色和对立维度分开,理论上最符合人类视觉感知,某些精细对比场景下使用。


三、提取流程与维度设计

直方图的维度取决于你划分的“桶”有多细。以一个常见的例子来说明:

  1. 图像预处理:把图像从RGB转换到HSV空间。

  2. 设计分桶方案

    • H通道不设得太细,分16个桶(0-360度的色调分成16份)。

    • S通道分4个桶。

    • V通道也分4个桶。

  3. 计算直方图:每个像素根据它的H、S、V坐标,投进对应的桶。总桶数 = 16 × 4 × 4 =256个

  4. 归一化:把每个桶的票数除以总像素数,把绝对值变成比例。这样,不管原图多大,特征向量都在统一的尺度上可以相互比较。

  5. 最终特征:一个256维的向量,就可以作为这张图片的颜色指纹。

如何判断维度是否够用

  • 维度过低(如只用8个桶),不同颜色会被迫混在一起,区分能力差。

  • 维度过高(如每个通道用256个桶),对颜色细微变化极敏感,而且数据极其稀疏、容易过拟合。

  • 实践中,通常从64维到512维之间开始尝试。


四、突出的优点与致命的盲点

核心优势:

  • 计算极快:几行代码遍历像素即可,非常适合实时系统。

  • 天生的旋转与平移不变性:这它最亮的优点。一个红球,无论把它移到画面左上角还是右下角,红球占比不变,颜色直方图也几乎不变。

  • 对尺度变化不敏感:归一化后,物体拉近拉远,颜色比例保持稳定。

  • 直观可解释:直方图的形状可以直接帮助人理解图像色彩构成。

致命盲点:

  • 完全丢失空间位置信息:这是它和HOG之间最本质的互补差异。

    • 一张“蓝天在上,绿地在下的风景照”,和一张把蓝绿像素完全打乱随机排列的马赛克,颜色直方图可以一模一样,无法区分。

    • 解决这个问题的常见办法是:把图像分块(比如左上、右上、左下、右下),对每个块分别提取颜色直方图,再拼接起来。这样就带回来一些粗略的空间信息。

  • 对光照剧变仍然敏感:虽然HSV可以减轻影响,但同一物体在日光灯和夕阳下,色调通道还是会整体偏移。

  • 维数可能依然很高:为了精细区分颜色,有时需要很高维度的直方图,增加了后续处理的复杂度。

  • 同色异物干扰:红色的苹果和红色的消防车,在颜色直方图上无法区分。它只关心颜色,不关心内容。


五、与其他特征的“组合拳”

正因为有如此鲜明的优缺点,颜色直方图在实际项目中,几乎总是作为特征集合的一部分来使用,形成互补:

  • 颜色直方图 + HOG= 颜色 + 形状轮廓

  • 颜色直方图 + 四阶矩纹理= 颜色 + 纹理质感

  • 分块颜色直方图= 颜色 + 粗略位置

在基于内容的图像检索(“找出和这张照片颜色风格相近的其他照片”)、皮肤检测、火焰检测等应用里,颜色直方图往往是第一个被考虑的基准特征。


六、总结框图

http://www.zskr.cn/news/1324579.html

相关文章:

  • SpringBoot学习日记——DAY02(SpringBoot整合Swagger3)
  • 5G混合MIMO预编码技术与模型驱动学习应用
  • Perplexity旅游规划效率提升87%:实测验证的7个高阶指令模板(附2024最新API适配)
  • SpringBoot项目实战:集成iText7 HTML转PDF,并处理中文、文件流与OSS上传
  • SuperRDP完整指南:一键解锁Windows远程桌面多用户并发连接限制
  • 使用OpenCL重写CUDA内核架构设计、适用场景、性能差异
  • 借助Taotoken审计日志功能追踪与分析团队内部的模型使用情况
  • 探索 SPR 分子互作:解析生命奥秘的微观钥匙
  • 【Web安全】JWT常见安全漏洞总结
  • 2026年当前,如何选择河北顶尖画册印刷合作伙伴 - 2026年企业推荐榜
  • 掌控视频播放节奏:Video Speed Controller如何帮你每天节省2小时?
  • 观察使用Token Plan套餐前后月度AI调用成本的变化趋势
  • 初创团队如何利用 Taotoken 的 Token Plan 有效控制 AI 开发成本
  • 生产环境 RabbitMQ 如何配置日志轮转避免磁盘占满
  • 2026魔术贴技术全解析:切片魔术贴/家居用魔术贴/射出钩魔术贴/纱网魔术贴/背胶魔术贴/背靠背魔术贴/防蚊类魔术贴/选择指南 - 优质品牌商家
  • 基于姿态识别的互动健身系统:用烟花激励锻炼
  • 2026研磨丝杠定制标杆名录:直线模组、KK模组、SBC导轨、TBI丝杠加工、WON模组平台、丝杠改制及再制造选择指南 - 优质品牌商家
  • 影刀RPA工程实战:多店铺环境隔离体系与自动化流程的事务性保障
  • 端口映射不生效排错手册:公网IP检测、静态IP配置、防火墙放行全攻略
  • 独立开发者如何利用Taotoken以更低成本体验全球主流大模型
  • 瑞萨RH850与IAR:助力下一代“软件定义汽车”开发
  • 端口映射故障排查实战:使用telnet、nc、nmap精准定位问题
  • 2026年5月新发布:浦源医药以专业实力与稳定供应赢得PVC粉末抗菌剂市场口碑 - 2026年企业推荐榜
  • CE教程通关后,我整理了这份超详细的代码注入与多级指针实战笔记(附避坑点)
  • 【回眸】轻创业实战:轻创业低成本启动指南
  • 知识库文档预处理方法
  • go 链表 (标准库实现)
  • A-59F所有应用模式说明
  • 全网最全端口映射位置汇总:一张表搞定所有设备设置
  • 为什么你的内存池写得不够快?来看 Linux SLUB 分配器教科书级的 O(1) 路径