当前位置: 首页 > news >正文

量化图像“概念相似性”的新方法

量化图像的“概念相似性”

一种新方法利用视觉语言模型,将以前需要人类判断的比较形式化。

会议:CVPR 2024

相关出版物:通过复杂度约束描述性自编码解释概念相似性度量


是什么让两张图像相似?这个问题对于计算机视觉系统的训练至关重要,但众所周知难以回答。这是因为,对于人类观察者来说,两张图像的相似性不仅是视觉上的,更是概念上的:像素模式非常不同的图像可能表达着相同的概念。

在今年计算机视觉与模式识别会议(CVPR)上提交的一篇论文中,我们提出了一种测量两张图像之间概念距离的方法。我们的方法以两种方式使用一个大型视觉语言模型:首先,用它生成每张图像不同长度的多个描述;然后,用它计算每个描述指代其中任意一张图像的概率。

该方法的核心理念是,根据描述长度来评估可区分性:如果两张图像很容易被简短的描述区分开,那么它们并不十分相似;但如果需要大量文本才能可靠地区分彼此,那么它们必定是相似的。由于我们的方法依赖于颗粒度不断增加的自然语言描述,它也是可解释的:人类观察者可以很容易地确定图像获得特定相似性分数的确切原因。

为了评估我们的方法,我们将其与当前测量图像相似性的最先进技术(该技术使用对比学习嵌入)进行了比较,在两个人类标注者已根据相似性对图像对进行评分的数据集上进行。在两个数据集上,我们的方法更好地预测了人类标注,平均提高了9%。

概念相似性
定义一个概念距离度量面临三个主要挑战:

  1. 随机性主导:任何两张图像都会有大量微小的差异,这些差异压倒了结构上的相似性,因此将概念相似性映射到像素值的相似性很困难。
  2. 无规范属性:图像中哪些属性对概念相似性重要无法先验指定:有时物体的颜色、场景的位置或文本的字体可能无关紧要;有时可能至关重要。
  3. 对抗性可区分性:试图破坏相似性检测器的人可能会对图像进行表面上的修改——例如,改变特定物体或图形的颜色或方向——希望足够的此类差异会降低相似性度量。一个好的度量标准需要能够抵御此类对抗技术。

我们的方法解决了所有这些困难。因为它首先构建图像的准确描述,然后才考虑描述之间的差异,所以它没有提供对手可以利用的基本可区分性概念(如挑战3所述)。而且由于这些描述一开始就很简短,它们必然忽略了挑战1中提到的随机变化。

我们的论文对挑战2给予了更多关注。概念相似性没有规范属性这一点可能很直观,但我们正式证明了这一点。本质上,我们表明,如果一个方法枚举了足够多的图像属性以识别任何概念相似性的实例,那么它将枚举如此多的属性,以至于在它考虑的任何两个样本之间都能找到相似性,从而使相似性和差异的概念变得空洞。然而,通过选择自然语言作为我们的比较媒介,我们绕过了结构规范定义的问题:自然语言足够灵活,可以容纳图像之间的任何相似性。

模型
在我们的模型中,我们从假设空间和图像空间开始;实际上,我们使用自然语言描述作为我们的假设,但该模型可以容纳任何其他选择,只要假设具有相关的长度概念,类似于柯尔莫哥洛夫复杂性中的程序长度概念。

接下来,我们定义一个解码器来计算给定假设指代给定图像的概率。同样,该模型与解码器的选择无关,但在实践中,我们使用大型视觉语言模型。

我们的概念相似性概念取决于我们如何使用不同长度的自然语言假设来描述图像。随着描述变长,改进的速率反映了图像的概念内容。随机图像需要很长的字符串才能将其描述得足以彼此区分。另一方面,“一只穿着粉色芭蕾舞裙骑独轮车的斗牛犬”虽然不常见,但并非非常随机,因为它可以被简洁地描述。当更长的描述不再以某种幅度提高我们的目标图像似然性时,我们就可以说我们已经捕捉到了图像中所有概念性的(非随机的)信息。

对于给定的假设长度,我们希望找到能够最大化目标图像似然性的描述。然而,可能的描述空间是巨大的,因此无法高效搜索,并且它是离散的,因此无法通过梯度下降进行探索。因此,我们略微放宽了最优性要求,转而识别一个长度受限的假设分布,这些假设很可能是对目标的描述。这将发现有效描述的挑战转变为一个可处理的优化问题。

我们现在可以定义我们的距离度量。给定两张图像A和B,以及每张图像在给定长度下的一个接近最优的描述,我们首先计算A假设描述两张图像A和B的概率;然后我们取这两个概率之间的差值。我们对B假设重复这个过程。两个差值的平均值就是图像在该特定假设长度下的概念距离。

我们的度量基于该距离随假设长度变化的速率。变化速率慢表示相似性:图像难以区分;变化速率快表示它们易于区分。因此,当需要使用单一值对两张图像的相似性进行评分时,我们使用距离函数在一系列假设长度上曲线下的面积。

虽然我们的实验验证了该方法的实用性,但目前我们仅使用视觉语言模型的文本来测量距离。直接测量视觉属性可能会提供额外的区分层,同时希望不会陷入对随机性(上述挑战1)或对抗性操纵(挑战3)敏感的风险。我们正在持续的工作中探索这种可能性。

研究领域:计算机视觉

标签:视觉语言模型, 可解释AI
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.zskr.cn/news/74509.html

相关文章:

  • DVWA 靶场全通关
  • Cisco Secure Firewall Threat Defense Virtual 7.7.11 - 思科下一代防火墙虚拟设备 (FTDv)
  • Cisco Firepower 4100 Series FTD Software 7.7.11 - 思科 Firepower 威胁防御系统软件
  • PbootCMS邮件配置修改发件人信息
  • 2025年12月刀模厂家权威推荐榜:雕刻刀模/蚀刻刀模/激光刀模/圆压圆刀模/夹治具/精密模具,匠心工艺与高效定制解决方案深度解析
  • 从资质、工艺到口碑严格筛选,2025年这份上海装修公司精选榜单请收好
  • PbootCMS模版制作:当天发布的文章显示红色的方法
  • 艺术漆品牌真实排名:5大优质品牌,助你轻松打造理想家居空间
  • PbootCMS登入失败:表单提交校验失败,请刷新后重试!
  • 2025权威推荐:十大艺术涂料品牌推广服务商,形象好服务佳
  • 权威揭秘!进口艺术涂料TOP5品牌,哪个才是投资价值NO.1?
  • 地域为根,协作成魂:HEBE 百年制表背后的汝拉社群智慧
  • 如何修改网站文件的发表日期(如何修改网站文章的发表时间)
  • PbootCms模板中怎么写PHP代码(PbootCMS 模板中嵌入 PHP 代码的方法与注意事项)
  • PbootCMS缩略图上传图片被截取变模糊的解决方法
  • 魔珐星云SDK实战测评:从0到1搭建会“思考+互动”的智能数字人客服应用
  • 2025年12月羽毛粉设备厂家推荐:市场主流品牌综合实力排行榜单深度解析
  • 2025年12月羽毛粉设备厂家推荐:全维度实力排行榜单与精准选购策略指南
  • 帝国cms 升级出现Multiple primary key defined错误
  • 2025年度凸轮式转子泵供应五大商推荐,凸轮式转子泵制造厂哪
  • 后台登录提示“登录失败:数据库目录写入权限不足!”
  • 2025转子泵企业TOP5权威推荐:拉法泵业与同行相比优势在
  • pbootcms模板时间格式调用方法详解(PbootCMS时间格式调用指南:列表页与详情页的灵活应用)
  • HTML动态表格
  • 喵喵喵序言
  • PbootCMS后台登录验证码看不清怎么回事?
  • 2025年广州GEO,广州GEO训练营,广州GEO实战培训厂商推荐:行业盘点与品质红榜发布
  • 2025年12月无害化设备厂家推荐:五大企业综合实力对比排行榜单
  • pbootcms升级提示 执行SQL发生错误!错误:duplicate column name: picstitle
  • 2025年12月深圳GEO工具,深圳GEO软件系统,深圳GEO训练营品牌最新推荐:工具更新频率与优质品牌