这项由弗吉尼亚大学与美国国立卫生研究院联合开展的研究以预印本形式于2026年5月发表论文编号为arXiv:2605.20158。感兴趣的读者可通过该编号在arXiv平台检索完整论文。一、当医生说我看这里有问题AI却说不清楚在看哪里假设你去医院拍了一张胸部X光片医生拿着片子指着某个区域说你看这里肺纹理增粗有炎症迹象。你会觉得安心因为医生能明确告诉你他的判断依据在哪里。现在换成AI来读这张片子。AI信心满满地说这张片子有问题。你追问哪里有问题AI沉默了一会儿要么给你一张模糊的热力图要么随手在片子上圈了一个大大的区域——然而这个区域可能包含了大半个肺也可能根本不是真正有问题的地方。这正是当前医学人工智能面临的核心困境。那些被寄予厚望的大型视觉语言模型可以把它理解为能看图说话的AI在医学图像分析上展现出了令人印象深刻的能力但当被问到你凭什么这么说时它们往往无法给出令人信服的答案。弗吉尼亚大学与美国国立卫生研究院的研究团队决定较真地查这件事。他们不只是在抱怨问题的存在而是系统性地测量了这个问题有多严重并提出了一套新的解决方案。他们的核心发现让人警醒目前广泛使用的11种主流解释AI的方法在面对真实医学图像时几乎没有一种能够可靠地告诉我们AI到底在看什么地方。与此同时他们提出了一种名为MedFocus的新方法通过模拟遮住这块区域看AI会怎么反应的思路大幅提升了解释的准确性。二、为什么AI说我看到了问题还不够——可信度危机的根源要理解这个问题先得搞清楚归因是什么意思。在医学AI的语境里归因就是找出AI做出某个判断时它实际上看的是图像的哪个部分。用一个日常比喻来说明你在大街上看到一辆车判断说这辆车是红色的。如果有人问你凭什么这么判断你会指着车身说因为车身是红的。这个指向车身的动作就是归因。对医学AI来说归因不仅仅是个技术好奇心的问题而是关乎生死的安全问题。如果AI说一张胸片有肺炎但它其实是根据图像边缘的标注文字做出的判断而不是根据真正的病灶那这个AI在临床使用中就是危险的。更糟糕的是由于AI内部结构极为复杂就像一个装着几十亿个齿轮的黑盒子我们很难直接观察它的思考过程。为了解决这个问题研究者们已经开发出了各种各样的归因方法试图从外部推断AI在关注什么。这些方法大致分为四类。基于梯度的方法通过计算如果某个像素稍微变化一点AI的结论会变多少来判断重要性就像测试哪根弦最敏感基于注意力的方法则直接读取AI内部的注意力权重看它自己声称在关注哪里基于扰动的方法把图像的各个区域依次遮住观察AI的结论如何变化基于提示的方法则直接问AI你在看哪里让它自己指出来。然而这些方法到底有多可靠以前几乎没有人认真验证过。原因很简单验证需要标准答案而AI到底在看哪里这件事本来就没有标准答案。三、研究团队如何搭建一个测试场——打造因果验证的试验台弗吉尼亚大学的研究团队解决这个问题的思路本质上是一种做实验的逻辑而非猜测的逻辑。他们的核心思想是与其猜AI在看哪里不如直接改变某个区域的内容看AI的判断会不会跟着改变。如果改变了说明AI确实在看那里如果没有改变说明AI根本不在乎那个区域。这个逻辑其实非常朴素就像你怀疑一个学生在考试时作弊是靠偷看邻座那你把邻座的答案改错看他的答案有没有跟着改变就行了。为了实现这个思路研究团队精心构建了一个专门的测试数据集命名为MedGround-Bench。他们从三个公开的胸部X光数据集出发包括ImaGenome、VinDR-CXR和PadChest-GR这三个数据集的共同特点是每张图片不仅有放射科医生的诊断标注还有精确的区域标注——也就是说医生不只告诉你这张片子有病变还会标出病变在图像中的具体位置。研究团队把这些标注转化为一问一答的形式。对每一个病变区域他们都构造出一个是非题例如这张图片中有肺间质性疾病的迹象吗然后分三步筛选数据确保最终留下的每个样本都具有经过验证的因果关系。第一步是正确性筛选。研究团队先让AI来回答这些问题只保留AI回答正确的情况。这一步的逻辑是如果AI本来就答错了讨论它在看哪里就没有意义了。第二步是前景反事实编辑。对每个AI答对的问题研究团队借助一个叫RadEdit的工具把标注区域内的病变修掉——比如把肺部阴影处的密度改成正常肺组织的样子。然后再次问AI同样的问题看它的答案有没有改变。如果AI原来说有病变修掉病变区域后它改口说没有病变说明AI确实是靠那个区域做出判断的该样本被保留。如果AI的答案不变说明AI根本没在看那里或者它靠别的什么信息在作答该样本被淘汰。第三步是背景反事实编辑。仅靠前景编辑还不够——如果AI对任何图像改动都很敏感那前景编辑带来的答案变化也可能只是噪声。所以研究团队还把标注区域之外的背景部分进行类似的编辑再次问AI同样的问题。如果背景被改变后AI的答案不变才最终确认AI的判断变化确实是由那个标注区域引起的而不是什么别的因素。经过这三轮严格筛选最终形成了MedGround-Bench包含直接回答模式下的1880个样本以及逐步推理模式下的2060个样本覆盖六种不同的AI模型。这个数据集的特别之处在于里面的每一个样本都有经过实验验证的因果关系——我们确切地知道这个AI在这张图片上做出这个判断是因为它在看那个特定的标注区域。四、打开黑盒子的11把钥匙几乎没有一把真的好用有了这个测试台研究团队系统评估了11种主流的归因方法。他们的评估指标主要是IoU交并比可以理解为AI认为重要的区域和真正重要的区域之间的重叠程度。重叠越高归因方法越准确重叠越低说明归因方法给出的解释说错了地方。测试结果出乎意料地令人担忧。几乎所有现有方法都表现不佳但不佳的方式各有不同就像不同的学生用不同的方式考砸了同一道题。基于注意力的方法比如Attention Rollout在ImaGenome数据集上的IoU只有可怜的2.70%几乎等同于随机猜测。这类方法的问题是它们产生的热图过于分散像是把整张图片都刷上了一层淡淡的颜色没有任何重点。基于梯度的方法表现得好一些但也充满矛盾。以梯度加权注意力方法为例它在ImaGenome上的召回率高达99.90%接近完美——但精确率却只有39.24%。这意味着什么呢召回率高意味着真正重要的区域它都找到了但精确率低意味着它同时把大量不重要的区域也标记成了重要区域。用一个不太恰当但直观的比喻这个方法就像一个粗心的学生把整篇文章都划成了重点确实没有遗漏真正的重点但也失去了找重点这件事本身的意义。GradCAM系列方法在某些数据集上表现稍好但在其他数据集上则明显下滑。基于扰动的方法如Occlusion和RISE表现中规中矩但也没有惊喜。Occlusion在ImaGenome上达到了22.16%的IoU在VinDR-CXR上达到13.62%但这些数字在直觉上仍然意味着归因方法找到的重要区域和真正重要区域之间有大半是对不上的。基于提示的方法直接问AI自己你在看哪里单纯提示法表现最差而结合MedSAM医学图像分割工具的提示法则有所改善在ImaGenome上达到了37.62%的IoU但在VinDR-CXR上依然只有8.33%。相比之下研究团队提出的MedFocus方法在同样的评测中取得了显著更好的成绩ImaGenome上54.24%的IoUVinDR-CXR上14.81%PadChest-GR上32.77%。虽然绝对数值看起来并不是100%但这个提升在相对比较上是巨大的而且这个数字的意义在于它是在最严格的因果验证条件下测得的。在逐步推理模式下大多数现有方法的表现进一步下滑——因为逐步推理需要AI生成一段详细的分析过程传统归因方法更难应对这种情况。而MedFocus的表现则相对稳健在ImaGenome的推理模式下仍然保持了52.95%的IoU验证了它的方法本质上不依赖于AI的内部结构。五、MedFocus是怎么工作的——一个有方法、有逻辑的遮眼睛实验MedFocus方法的核心思路其实回到了一个非常朴素的逻辑如果某个区域对AI的判断很重要那么当我们遮住它时AI的判断就应该改变而且改变得越明显说明那个区域越重要。但实现这个思路并不像随手遮住一块看看那么简单。MedFocus的设计分为两个主要步骤可以理解为先把图划分成有意义的块再逐块测试重要性。第一步是概念分割。MedFocus使用放射科医生日常使用的11个解剖区域作为分析单元包括心脏轮廓、左肺、右肺、纵隔、上纵隔、左锁骨、右锁骨、左肺门结构、右肺门结构、左肋膈角和右肋膈角。这些区域是放射科医生读片时的标准参考框架用人类专家的视角划定了分析范围。然而这些解剖区域在每一张新的X光片上位置都略有不同无法直接套用。为了解决这个问题MedFocus使用了一种叫做非均衡最优传输UOT的数学工具。简单说这个工具的作用是从一张已知各区域标注的标准正常胸片出发把那张标准片上的区域标注对应到目标图片上。这个过程有点像你有一张人体结构图要把它对齐到一个特定病人的X光片上——两个人的体型不同所以对齐时需要做一些弹性调整而不是简单地硬套。研究团队选择非均衡版本的最优传输是因为正常参考片和可能存在病变的目标片之间解剖结构的分布本来就不是完全一样的。胸腔积液、心脏肥大等病变会改变各区域占据的空间所以需要一种能够容忍这种不对称的对齐方法。在完成区域对应之后MedFocus还会借助MedSAM一个专门用于医学图像分割的工具对每个区域的边界进行精细化处理使区域边界更加清晰准确。研究团队通过消融实验即逐步去掉某个环节看性能如何变化的测试验证了这个两步流程的效果单独使用UOT或者单独使用其他分割方法都不如两者结合效果好。第二步是因果归因。有了清晰的解剖区域分割之后MedFocus对每个区域进行测试把这个区域用黑色遮住然后让AI对原始输出序列重新打分。如果遮住某个区域后AI对原来输出的置信度用技术术语说就是对数概率大幅下降说明那个区域对AI的判断很重要如果下降不明显说明AI基本不依赖那个区域。这里有一个巧妙的设计细节MedFocus不是让AI重新生成答案而是让AI对原本已经生成的答案重新打分。这样做有两个好处——一是可以避免AI重新生成时引入的随机性生成式AI每次生成的内容都可能略有不同二是大大减少了计算量。对每个区域只需要一次前向计算就够了而不需要反复生成答案再比较。测试完所有区域以及几个由多个区域组成的组合区域比如左肺加右肺视为一个整体之后MedFocus选出导致AI置信度下降最多的那个区域认定它是最重要的视觉证据。这套方法输出的不只是一个框框而是三种层次的解释一个精确的空间位置标注哪个解剖区域最重要一个人类可读的概念名称比如右肺以及在逐步推理模式下输出序列中每个词受到遮挡影响的程度可以直观地看出AI在推理链的哪些部分依赖了哪个解剖区域的视觉证据。MedFocus还有一个容错机制如果AI对所有区域的遮挡都不太敏感说明AI可能没有依赖任何特定的解剖区域来作出判断这时MedFocus会直接把整张图标记为归因结果而不是勉强给出一个不可靠的答案。六、不同AI模型的看病习惯——医学专科训练确实有用研究团队不只测试了一种AI而是同时评估了六种不同的开源视觉语言模型包括两种规模的Qwen2.5-VL系列、两种规模的Gemma3系列以及两种MedGemma系列——后者是专门针对医学场景进行训练的医学专科AI。通过分析MedFocus在不同模型上的归因结果研究团队发现了几个规律性的现象颇为有趣。首先医学专科训练确实有显著差异。MedGemma系列模型在所有数据集上的归因质量都明显优于同规模的通用模型Gemma3。在ImaGenome数据集的直接回答模式下MedGemma-4B达到58.16%的IoU而Gemma3-4B只有39.33%。这说明医学专科训练不只让模型在答题正确率上更好还使得模型的视觉关注点更贴近真正的临床证据区域。其次模型规模的作用在逐步推理时更明显。在直接回答模式下Qwen2.5-VL-3B和Qwen2.5-VL-7B的归因质量差异不大但在逐步推理模式下较大的模型倾向于产生更准确的归因。这背后的解读是推理链需要模型组织语言解释过程这对模型能力要求更高所以更大的模型在这方面体现出了优势。第三逐步推理模式下AI更倾向于关注有意义的解剖区域。MedFocus在推理模式下的失败率即找不到任何起作用的解剖区域的比例明显低于直接回答模式。这个发现颇耐人寻味——当AI被要求先想清楚再回答时它似乎更倾向于依靠真正的视觉证据而不是靠直觉或捷径。研究团队还通过一个三层次的对比来验证MedGround-Bench筛选的有效性。他们把样本分成三组G1是AI答错的样本G2是AI答对但没通过因果筛选的样本G3是最终进入MedGround-Bench的样本。结果发现从G1到G3MedFocus归因与专家标注的重叠程度IoU呈现明显的上升趋势。这说明筛选过程确实在将AI真正依赖了标注区域的样本筛出来而不是随机挑选。七、方法背后的权衡——效率、精度与适用范围任何新方法都有代价MedFocus也不例外研究团队在论文中坦诚地讨论了这些权衡。从计算效率来看MedFocus每个样本需要约1.65秒比最快的注意力方法约0.4秒慢了约四倍但比最慢的集成梯度方法约7.6秒快了很多。考虑到MedFocus带来的归因质量提升这个时间代价是相对合理的。从方法局限性来看MedFocus的归因精度本质上受限于所使用的解剖概念词汇表。目前使用的11个解剖区域对于常见的胸部疾病来说已经足够但对于一些需要更精细定位的情况——比如小结节、弥漫性双侧病变或者需要通过计算心脏与胸腔比例来判断的心脏肥大——现有的区域划分可能不够精细。不过研究团队指出这是当前概念词汇表的局限而不是MedFocus框架本身的结构性限制未来可以通过扩展词汇表来改善。消融实验即逐一去掉某个设计选择、测试性能变化的实验进一步验证了MedFocus各个组件的贡献。研究团队发现使用分割掩码加黑色遮挡的方式效果优于使用AI生成正常区域的方式RadEdit使用边界框遮挡比使用精确分割掩码遮挡效果更好原因是边界框遮挡能更彻底地切断AI对该区域的依赖产生更清晰的因果信号。对于概念区域的定位研究团队比较了Grounding DINO一种基于文本描述进行目标检测的方法和UOT两种方法。Grounding DINO的召回率高达99.77%但精确率只有27.74%说明它会画出极大的框来确保不遗漏但框的准确性很差。相比之下UOT在精确率和召回率之间取得了更好的平衡最终导致更高的IoU和F1分数。从概念频率分析来看在所有测试的样本中左肺和右肺是被MedFocus识别为最重要区域的最高频选择这与数据集中大多数问题都涉及肺部病变的特点吻合。心脏轮廓在PadChest-GR数据集上出现频率相对较高反映了该数据集中心脏和纵隔相关发现的比例更高。而较小的区域如锁骨、肋膈角等被选为关键区域的频率很低只有在这些区域确实存在相关病变时才会被识别出来。八、这对医学AI的未来意味着什么——从能用到可信的跨越研究团队的发现对医学AI的未来走向有着明确的启示。最直接的问题是我们不能再假装现有的归因方法是可靠的。当医院在考虑将AI辅助诊断系统纳入工作流程时如果那个系统配套的解释功能其实在乱指一气那这个解释功能不只是没用还可能产生误导。研究团队的数据清楚地表明在他们最严格的测试条件下没有一种现有方法能够在所有情况下可靠地定位AI的视觉决策依据。MedFocus提供了一个更可靠的替代方案但它的价值不只在于数字上的提升更在于它产生的解释类型。一个热力图是模糊的它说这一带可能比较重要而MedFocus产生的解释是AI的判断主要依赖于右肺区域当我们遮住右肺时AI的置信度下降了X%。后者不只是更准确而且是临床医生可以直接检验和讨论的信息——我来看看右肺有没有问题这是一个具体可操作的下一步。从更长远的视角看这项研究也提醒我们在医学AI的评估体系中答题正确率和有据可查是两个不同维度的能力。一个AI可以在测试集上答对90%的问题但这些正确答案里有多少是真的依赖了正确的视觉证据有多少只是歪打正着目前我们其实无法有效区分。MedGround-Bench提供了一种方法论上的思路帮助研究者更系统地回答这个问题。当然这项研究本身也有明确的边界。它聚焦于胸部X光因为这是目前唯一同时具备大规模区域标注数据和区域局部图像编辑工具的医学影像类型。对于CT、MRI等其他模态类似的测试框架还无法直接应用需要等到相应工具和数据成熟之后才能推广。此外研究中的问题都是是非题形式更复杂的诊断任务——比如让AI写一份完整的影像报告——尚未纳入评估范围。说到底这项研究解决的是一个基础性的信任问题在高风险的医学决策场景中我们需要知道AI不只是在猜而是真的在看对了地方再下结论。目前这个问题还远没有被解决但弗吉尼亚大学和国立卫生研究院的团队为此提供了一套更严格的测量工具以及一种更可靠的解释方法这是朝着正确方向迈出的重要一步。对于普通用户而言这意味着在AI辅助诊断技术真正可信之前还需要更多像这样较真的研究——不只问AI你说得对吗还要问你是怎么得出这个结论的以及最关键的那个问题你说的那个地方真的是问题所在吗有兴趣深入了解这项研究的读者可以通过arXiv编号2605.20158查阅完整论文研究团队也在GitHub上公开了相关代码和数据地址可通过论文获取。QAQ1MedGround-Bench是什么数据集它和普通医学图像数据集有什么区别AMedGround-Bench是一个专门用来测试AI在医学图像诊断时到底在看哪里这个问题的数据集。普通医学图像数据集只告诉你图像里有没有病变而MedGround-Bench通过三轮因果筛选——先确认AI答对了再把病变区域改掉看AI会不会改口再把背景改掉确认AI的判断没有因此变化——最终只保留那些确定AI的判断确实依赖了专家标注区域的样本。正因如此它可以被用来客观评估各种归因方法是否真的找到了AI做判断的依据。Q2MedFocus和现有的GradCAM等方法比有什么优势为什么效果更好AGradCAM等方法的问题是它们要么产生过于分散的热图覆盖很大区域但没有重点要么对AI内部结构变化很敏感比如逐步推理模式下性能明显下降。MedFocus的不同之处在于它不依赖AI的内部参数而是用遮住某个解剖区域看AI判断会变多少这种外部干预的方式来衡量重要性。同时它以放射科医生常用的11个解剖区域为分析单元输出的结果是右肺区域最重要这类临床可理解的解释而不是一张模糊的热力图。Q3这个研究说现有归因方法都不好用那目前医院里用的AI诊断系统配套的解释功能是否都不可靠A这项研究的测试结果确实表明在严格因果验证条件下主流归因方法的准确率普遍不高。不过需要注意的是这个研究针对的是胸部X光和特定类型的是非题任务不同场景下各方法的表现可能有所不同。更重要的一点是很多实际部署的医学AI系统并不一定配备了经过严格验证的归因功能所以临床使用时不应把AI给出的解释图当作与诊断结论同等可信的信息仍需结合放射科医生的专业判断。