当前位置：首页 > news >正文

图谱的泛化探索：从不变性到因果性

news 2026/5/31 16:12:26

原文：towardsdatascience.com/towards-generalization-on-graphs-from-invariance-to-causality-c81a174ac37b?source=collection_archive---------6-----------------------#2024-07-18

这篇博客分享了关于图结构数据的分布外泛化的最新论文

https://medium.com/@qitianwu228?source=post_page---byline--c81a174ac37b--------------------------------https://towardsdatascience.com/?source=post_page---byline--c81a174ac37b-------------------------------- Qitian Wu

·发布于数据科学前沿 ·阅读时间：14 分钟·2024 年 7 月 18 日

–

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/eb13a4c4ace10b85ad4a680e17242b0f.png

图像由 GPT-4 生成

处理图上的分布变化：一种不变性视角，ICLR2022。
图谱的分布外泛化通过因果干预，WWW2024。
学习分歧场以获得抗偏移的图表示，ICML2024。

这些工作聚焦于通过不变性原理和因果干预的视角来研究图上的泛化问题。此外，我们将比较这些方法并讨论该领域未来可能的发展方向。

如何构建通用的图数据基础模型是一个最近受到广泛关注的研究问题。尽管现有方法如图神经网络（GNNs）和图变换器在表示能力上表现强大，但图结构数据上机器学习模型的泛化能力仍然是一个尚未深入探索的开放问题[1, 2, 3]。一方面，图数据中涉及的非欧几里得空间和几何结构显著增加了建模的难度，使得现有的旨在增强模型泛化能力的方法难以成功[4, 5, 6]。另一方面，图数据中的分布转移，即训练数据和测试数据之间的分布差异，源于更为复杂的引导因素（如拓扑结构）和外部环境，使得这个问题更加难以研究[7, 8]。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ba1c3e0d24e963ef3fdbe2526ec318ce.png

泛化挑战旨在处理从训练到测试的分布转移。

问题与动机

开放世界中的分布转移

泛化问题至关重要，因为在现实场景中，模型通常需要与一个开放、动态且复杂的环境进行交互。在实际情况下，由于观察和资源的限制，训练数据无法涵盖所有可能的环境，模型也无法在训练过程中预见到所有潜在的未来情形。然而，在测试阶段，模型很可能会遇到与训练分布不一致的样本。分布外泛化（OOD）问题的关键焦点是如何使机器学习模型在测试数据上表现良好，即使这些测试数据超出了训练分布。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/22a358ef7dbb045f049ced6606b78efc.png

涉及图数据分布转移的典型场景要求机器学习模型从有限的训练数据泛化到新的测试分布。来自 Medium 博客的图片：时序图网络和对流扩散变换器

在这种情况下，由于测试数据/分布在训练过程中是严格未见/未知的，因此关于数据生成的结构假设是必要的前提。相反，如果没有任何数据假设，分布外泛化将是不可能的（无免费午餐定理）。因此，必须事先明确指出，OOD 问题的研究目标不是消除所有假设，而是1）在合理的假设下最大化模型的泛化能力，2）适当增加/减少假设，以确保模型能够处理某些分布转移。

图上的分布外泛化

一般的分布外（OOD）问题可以简单地描述为：

当 p(x,y|train)≠p(x,y|test) 时，如何设计有效的机器学习方法？

在这里，我们遵循文献中常用的设定，假设数据分布由潜在的环境控制。因此，在给定环境 e 下，数据生成可以写作 (x,y)∼p(x,y|e)。对于 OOD 问题，训练和测试数据可以假定来自不同的环境。因此，这个问题可以进一步阐述为

如何学习一个预测模型 f，使其在所有环境 e∈E 中表现（同样）良好？

具体来说，对于图结构数据，输入数据还包含结构信息。在这方面，根据图结构存在的形式，问题可以进一步分为两类：节点级任务和图级任务。下图展示了在这两种任务类型下 OOD 问题的公式化。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/41cb47be812bc54b61c448f24c059046.png

图上的 OOD 泛化形式，其中我们进一步区分了图级任务和节点级任务，这些任务在图结构的形式上有所不同。具体来说，对于节点级任务，由于图结构引入了节点实例之间的相互依赖关系，[5] 提出将整个图分割为以节点为中心的自我图（ego-graphs），这些自我图可以被视为独立的输入。

如前所述，OOD 问题需要关于数据生成的某些假设，这些假设为构建具有泛化能力的机器学习方法铺平了道路。接下来，我们将具体介绍两类方法，分别利用不变性原理和因果干预来实现图上的分布外泛化。

通过不变性原理的泛化

基于不变性原理的学习方法，通常被称为不变学习[9, 10, 11]，旨在设计新的学习算法，引导机器学习模型利用数据中的不变关系。不变关系特别指的是从输入 x 和标签 y 中获得的预测关系，这些关系在所有环境中普遍适用。因此，当预测模型 f（例如神经网络）成功学习到这些不变关系时，它能够跨不同环境中的数据进行泛化。相反，如果模型学习到的是虚假的相关性，即仅在某些环境中成立的从 x 和 y 获得的预测关系，那么过度提高训练准确性将误导预测模型过拟合数据。

根据上述说明，我们注意到不变学习依赖于数据生成中的不变假设，即在不同环境中，x 和 y 之间存在一个保持不变的预测关系。数学上，这可以被公式化为：

存在一个映射 c，使得 z=c(x) 满足 p(y|z,e)=p(y|z)，∀e∈E。

在这方面，我们自然有两个后续问题：i) 如何在图上定义不变假设？ii) 对于常见的图数据，这个假设是否合理？

接下来，我们介绍最近的论文[5]，吴等人，"处理图上的分布变化：一种不变性视角”（ICLR2022）。该论文提出将不变性原则应用于图上的分布外泛化，并提出了图数据的不变假设。

图上的不变假设

受图同构测试中的 Weisfeiler-Lehman 算法启发，[5]考虑了以每个节点为中心的自我图，并描述了所有节点特征在自我图中对中心节点标签的贡献。后者被具体分解为不变特征和虚假特征。这一定义兼顾了拓扑结构，同时也允许足够的灵活性。下图展示了[5]中定义的不变假设，并提供了一个引用网络的示例。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d61ef3d9b14b6f635324bc8bca0152a8.png

图上的不变假设（左）和引用网络的示例（右）。在引用网络中，每个节点代表一篇论文，待预测的标签 y 是论文的研究领域。节点特征 x 包括论文的发表场所（x1）和引用指数（x2），环境（e）是发表时间。在这个例子中，x1 是一个不变特征，因为它与 y 的关系与环境无关。相反，x2 是一个虚假特征；尽管它与 y 有很强的相关性，但这种相关性会随时间变化。因此，在这种情况下，一个理想的预测器应该利用 x1 中的信息，以实现跨不同环境的泛化。图像来自论文。

提出的方法：探索-外推风险最小化

在不变假设下，一种自然的方法是对不同环境下的损失差异进行正则化，以促进学习不变关系。然而，现实世界中的数据通常缺乏环境标签，即每个实例与其环境之间的对应关系未知，这使得无法直接计算不同环境间的损失差异。为了解决这个挑战，[5]提出了探索-外推风险最小化（EERM），该方法引入了 K 个上下文生成器来扩展和多样化输入数据，从而模拟来自不同环境的输入数据。通过理论分析，[5]证明了新的学习目标可以保证在所提出的分布外泛化问题上得到最优解。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/af67d937affec052f992998fa894ac9d.png

探索-外推风险最小化（EERM）由[5]提出，其中内在目标是最大化由 K 个上下文生成器生成的数据的“多样性”，外在目标则涉及使用来自 K 个生成的（虚拟）环境的数据来计算损失的均值和方差，用于训练预测模型。

除了生成（虚拟）环境外，最近的另一项研究[12]提出从观察数据推断潜在环境，并引入了一个额外的环境推断模型，在训练过程中与预测器一起迭代优化。同时，[13]通过数据增强处理分布外的泛化，使用不变性原理来指导数据增强过程，从而保留不变的特征。

因果干预下的泛化

不变学习要求假设数据中存在可以学习的不变关系。这在一定程度上限制了此类方法的适用性，因为模型只能在与训练数据共享某些不变性的测试数据上可靠地泛化。对于违反此条件的分布外测试数据，模型的泛化性能仍然未知。

接下来，我们介绍最近的工作[14]提出的另一种方法，Wu 等人，“通过因果干预实现图的分布外泛化” (WWW2024)。本文旨在通过因果干预的视角解决分布外泛化问题。与不变学习不同，该方法不依赖于数据生成中的不变假设。相反，它通过学习算法引导模型从 x 到 y 学习因果关系。

在输入和标签之间仅存在一个混杂因素（环境）。

这个假设在一定程度上简化了实际系统的分析，但也引入了近似误差。对于更复杂的场景，未来仍有大量的探索空间。

使用隐式图结构进行泛化

在之前的讨论中，我们假设输入数据的结构信息是可观察和完整的。对于更一般的图数据，结构信息可能是部分可观察的，甚至完全未知。此类数据称为隐式图结构。此外，图上的分布偏移可能涉及影响数据分布的潜在结构，从而带来了在表征几何对数据分布影响时未解决的挑战。

为了解决这个问题，最近的研究[16]，吴等，“为抗偏移鲁棒图表示学习发散场”（ICML2024），利用了连续扩散方程与消息传递机制之间的固有联系，整合了前述的因果干预方法。该设计旨在开发一种适用于显式和隐式图结构的学习方法，在这些结构中，分布偏移会构成泛化挑战。

从消息传递到扩散方程

消息传递机制作为现代图神经网络和图 Transformer 的基础设计，通过每一层将信息从其他节点传播到中心节点，从而更新其表示。本质上，如果我们将神经网络的层视为连续时间的离散化近似，那么消息传递可以被看作图上的扩散过程的离散形式[17, 18]。下图说明了它们的类比。（有兴趣深入了解此方面的读者可以参考Prof. Michael Bronstein 等人的最新博客）。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/18aaa6a57b7e1d69b6bfa3900007361f.png

消息传递（GNNs 和 Transformers 中的层间更新）可以通过以下类比看作是连续扩散方程的离散迭代：图中的节点被映射到流形上的位置，节点嵌入由热信号表示，嵌入的层次更新对应于热信号随时间的变化，每层中节点之间的交互反映了流形上位置之间的交互。

特别地，扩散方程中的扩散率（记作 d_u）控制了扩散过程中节点之间的交互。当采用局部或全局扩散形式时，扩散方程的离散迭代分别导致了图神经网络[18]和 Transformer[19]的层更新公式。

然而，确定性扩散率无法模拟实例之间交互中的多方面效应和不确定性。因此，[16] 提出了将扩散率定义为概率分布中的随机样本。相应的扩散方程将产生一个随机轨迹（如下图所示）。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5a55342e17812d86519433c30936b880.png

在将扩散率 d_u 定义为随机变量之后，扩散方程在每个时间点的散度场（即当前层中节点嵌入的变化）将变为随机的。这使得能够对节点之间的交互中的不确定性进行建模。

尽管如此，如果直接应用传统的监督学习目标进行训练，上述模型在分布变化的情况下不能很好地泛化。这个问题与之前讨论的图学习的因果视角相呼应。具体而言，在此处考虑的扩散模型中，输入 x（例如图）和输出 y（例如图中的节点标签）通过扩散率关联。扩散率可以看作是特定数据集环境的体现，决定了实例之间的相互依赖关系。因此，训练数据有限的模型往往会学习到特定于训练集的相互依赖模式，从而无法在新的测试数据上泛化。

因果引导的散度场学习

为了解决这一挑战，我们再次采用因果干预，在训练过程中消除扩散性 d 与输入 x 之间的依赖关系。与之前的工作[14]不同，其中输入到输出的映射是由预测器给出的，这里从 x 到 y 的依赖路径涉及一个多步骤的扩散过程（对应于 GNNs/Transformers 中的多层更新）。因此，每一步的扩散过程中都需要因果干预。然而，由于扩散性是一个抽象的建模概念，无法直接观察（类似于前面讨论的环境），[16]扩展了[14]中使用的变分方法，推导出扩散过程学习目标的变分下界。这作为每一步扩散过程中的因果干预的近似目标。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/adc9aad2a68adae832796aeea7619a98.png

[16]中提出的学习方法估计了扩散模型每一步的扩散性，并应用因果干预。该方法引导模型学习从输入到输出的稳定因果关系，从而增强其在分布偏移下的泛化能力。图片来自论文。

作为上述方法的实现，[16]引入了三种特定的模型设计：

GLIND-GCN：将扩散性视为通过标准化图邻接矩阵实例化的常量矩阵；
GLIND-GAT：将扩散性视为通过图注意力网络实现的时间依赖矩阵；
GLIND-Trans：将扩散性视为通过全局所有对注意力网络实现的时间依赖矩阵。

特别地，对于GLIND-Trans，为了解决全局注意力计算中的二次复杂度问题，[16]进一步采用了 DIFFormer [19]中的线性注意力函数设计。（我们还建议对如何实现所有对注意力的线性复杂度感兴趣的读者参阅此博客）。

下表展示了涉及隐式结构场景中的部分实验结果。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/79cdd9decfaf711c8f75a1ee1572cb71.png

在 CIFAR 和 STL 上的测试准确率实验结果，其中原始数据集不包含结构信息，我们使用 k 近邻方法构建图。此外，对于 CIFAR 和 STL，我们通过添加旋转角度（改变 k 近邻的相似度函数）和使用不同的 k，分别引入了分布偏移。

总结与讨论

参考文献

[1] Garg 等人，图神经网络的泛化与表示限制，ICLR 2020。

[2] Koh 等人，WILDS：野外分布变化基准，ICML 2021。

[3] Morris 等人，Position：图机器学习理论的未来方向，ICML 2024。

[4] Zhu 等人，抗变化的 GNN：克服局部图训练数据的局限性，NeurIPS 2021。

[5] Wu 等人，在图上处理分布变化：一种不变性视角，ICLR 2022。

[6] Li 等人，OOD-GNN：分布外广义图神经网络，TKDE 2022。

[7] Yehudai 等人，从局部结构到图神经网络中的规模泛化，ICML 2021。

[8] Li 等人，生物数据上的图神经网络规模泛化：

来自谱学视角的洞察与实践，Arxiv 2024。

[9] Arjovsky 等人，不变风险最小化，Arxiv 2019。

[10] Rojas-Carulla 等人，因果迁移学习的不变模型，JMLR 2018。

[11] Krueger 等人，通过风险外推进行分布外泛化，ICML 2021。

[12] Yang 等人，学习分布外分子表示的子结构不变性，NeurIPS 2022。

[13] Sui 等人，释放图数据增强在协变量分布变化中的力量，NeurIPS 2023。

[14] Wu 等人，通过因果干预进行图的分布外泛化，WWW 2024。

[15] Pearl 等人，统计学中的因果推断：入门，2016。

[16] Wu 等人，学习用于应对变化的图表示的发散场，ICML 2024。

[17] Freidlin 等人，图上的扩散过程与平均化原理，概率年鉴 1993。

[18] Chamberlain 等人，GRAND：图神经扩散，ICML 2021。

[19] Wu 等人，DIFFormer：由能量约束扩散生成的可扩展（图）变换器，ICLR 2023。

能量约束扩散，ICLR 2023。

[20] Wu 等人，基于能量的图神经网络图外分布检测，ICLR 2023。

[21] Liu 等人，GOOD-D：无监督图外分布检测，WSDM 2023。

[22] Bao 等人，图神经网络的图外分布检测通过邻域塑形，ICML 2024。

查看全文

http://www.zskr.cn/news/1435067.html

MegSpot：5分钟掌握跨平台图片视频对比的终极指南

揭秘Gemini广告创意生成瓶颈：3步诊断法+7类高转化提示词模板即刻套用

Honey Select 2游戏体验全面革新指南：从零开始的完整优化方案

3分钟掌握高效文件提取：开源工具QuickBMS的终极使用秘籍

MySQL 数据增删改（DML）操作

Arduino UNO超声波避障机器人：从核心原理到工程实践全解析

基于ESP8266的太阳能智能灌溉监测系统：从硬件到云端的完整实践

WPinternals深度解析：Windows Phone启动加载器解锁技术实现原理

基于Arduino与超声波传感器的自动感应垃圾桶制作全攻略

学习记录week1-VMware安装虚拟机、克隆等

基于Arduino的棒球街机游戏机：从机械设计到嵌入式编程的完整实现

杭州朱大姐家政服务：临安区家具贴膜公司推荐 - LYL仔仔

如何用WeChatMsg让微信聊天记录成为你的数字记忆宝库？

Anno 1800 Mod Loader：重新定义游戏模组开发的技术架构

2026年，高校老师躺平时代正式终结：不会用AI做实证的人，正在被考核淘汰 - AI论文先行者

如何用res-downloader打破平台壁垒，实现跨平台资源自由下载

DIY便携式飞机轮椅：用PVC与实木打造无障碍出行方案

基于Arduino与R307指纹传感器的智能门锁系统设计与实现

蛋白质主链以及甲基认证的核磁共振方法学解析方案【附代码】

基于Arduino的防贪睡闹钟：从传感器到状态机的嵌入式系统实践

2026 年重庆名表回收榜单：添价收团队专业估价靠谱 - 薛定谔的梨花猫

2026 南京奢侈品回收综合测评，添价收门店靠谱值得信赖 - 薛定谔的梨花猫

告别混乱！用Windows iSCSI发起程序+华为存储，5分钟搞定你的个人开发/测试环境虚拟磁盘

Arduino智能小车入门：从硬件搭建到编程控制全流程指南

北京黄金回收实测：正规店铺口碑，价格透明不踩坑2026年 - 奢侈品回收

突破传统嵌入式开发限制：用ESP32-Arduino实现300%效率提升的物联网创新方案

如何快速实现网易云音乐NCM格式转换：终极解密工具指南

论文省心了！2026年最值得信赖的专业降AI率平台

从地图导航到网络优化：Floyd最短路径算法在真实项目中的5个应用场景

如何理解与应用RevokeMsgPatcher：深入解析Windows消息防撤回技术原理

这篇博客分享了关于图结构数据的分布外泛化的最新论文

相关文章：