当前位置：首页 > news >正文

无监督异常检测在粒子物理中的应用：从VRNN到GNN的探索

news 2026/6/10 14:48:43

1. 项目概述为什么粒子物理需要“无监督”的眼睛在粒子物理尤其是大型强子对撞机LHC的实验物理领域我们过去十多年的工作方式可以概括为“大胆假设小心求证”。物理学家们基于理论预言比如超对称、额外维度等构建出特定的“新物理”模型然后在ATLAS或CMS探测器采集的海量碰撞数据中像大海捞针一样寻找符合该模型预言特征的信号。这种方法被称为“模型依赖”的搜索它目标明确但有个根本性的局限我们只能找到我们预先设想好的东西。自2012年希格斯玻色子被发现以来LHC再未取得类似的突破性直接发现这促使整个领域开始反思是否有一些我们从未想象过的、模型之外的新物理信号正隐藏在我们每天处理的数十亿个碰撞事件中却被传统的分析流程无情地过滤掉了这就是“异常检测”登场的背景。简单来说异常检测是一种无监督机器学习技术它的目标不是区分A和B而是回答一个更根本的问题“哪些东西看起来‘不对劲’”它的核心哲学是只利用我们确信由标准模型过程产生的“背景”数据来训练一个模型让这个模型学会“正常”的数据应该长什么样。之后当这个模型遇到任何它无法很好理解或重建的数据时就会产生一个较大的“重建误差”或“异常分数”。那些得分最高的事件就是最有可能包含未知新物理信号的“异常”候选者。这种方法不依赖于任何先验的理论模型因此是“模型无关”的它为发现完全出乎意料的新现象打开了一扇窗。我所在的团队在ATLAS合作组内正是这条技术路径的早期探索者和实践者之一。我们从最初尝试基于序列模型的变分循环神经网络VRNN到近年来转向更能捕捉粒子探测器数据本质关系的图神经网络GNN走过了一段充满挑战但也收获颇丰的旅程。这篇文章我就以一个一线研究者的视角为你深入拆解我们如何将这两类前沿的AI模型应用于LHC上最复杂的强子喷注数据分析中实现真正意义上的无监督新物理搜索。无论你是对高能物理感兴趣还是想了解最前沿的AI如何解决基础科学中的棘手问题相信都能从中获得启发。2. 核心思路解析从“序列”到“图”的认知跃迁要将异常检测应用于LHC数据首先必须理解我们处理的数据对象是什么。在ATLAS探测器中两个质子以接近光速对撞产生数以千计的次级粒子。这些粒子被探测器层层记录最终被“粒子流算法”重构成一个个“喷注”——你可以把它想象成一把由许多粒子组成的“扇子”它源于一个夸克或胶子。每个喷注包含几十到上百个“成分粒子”每个成分粒子都有其能量、动量、方向等信息。传统分析通常只使用喷注的整体特征如总能量、质量但这无疑丢弃了内部结构的宝贵信息。无监督异常检测的核心就是利用机器学习模型从成分粒子的层级去学习标准模型喷注的复杂模式。2.1 VRNN将喷注视为一个“故事序列”我们最早的工作基于一个直观的想法一个喷注中的成分粒子按其能量高低或空间顺序排列可以看作一个时间序列。高能量的领头粒子可能揭示了喷注的核心起源后续粒子则描述了碎裂和强子化的过程。变分循环神经网络VRNN非常适合处理这类序列数据。它本质上是一个变分自编码器VAE与循环神经网络RNN如LSTM或GRU的结合体。VRNN的工作原理是这样的编码器通常是一个RNN按顺序读取喷注中每个成分粒子的四动量信息px, py, pz, E并将其压缩成一个低维的、服从某种分布通常是高斯分布的潜在空间向量z。这个z向量承载了整个喷注的“语义”。然后解码器另一个RNU从这个z向量出发尝试一步步地、按顺序重建出输入的所有成分粒子。在训练阶段我们只用大量的、纯净的量子色动力学QCD双喷注背景数据来训练这个网络。损失函数是标准的重建误差如均方误差MSE。注意这里有一个关键技巧——我们训练所用的“背景数据”并非来自蒙特卡洛模拟而是直接从真实实验数据中选取。这是因为QCD过程的模拟与真实数据之间存在难以完全消除的差异“模拟-数据不一致性”。使用真实数据训练能确保模型学到的“正常”模式是绝对真实的避免了因模拟误差而将模拟缺陷误判为“异常”。当训练完成后这个VRNN就成为了一个“标准模型喷注专家”。当我们输入一个新的喷注可能包含未知信号时模型会尝试重建它。如果这个喷注是一个典型的QCD喷注模型会重建得很好误差很小如果这个喷注来自某种新物理过程例如一个玻色子衰变成两个夸克形成“双叉状”结构其内部粒子分布与QCD喷注截然不同模型就会“懵掉”产生很大的重建误差。这个重建误差值就是我们定义的“异常分数”。分数越高该喷注是异常信号的可能性就越大。2.2 GNN拥抱喷注的“几何本质”然而将喷注视为严格序列存在一个根本问题喷注内部的粒子本质上没有固定的顺序。它们是空间中一个稀疏的点集粒子之间的关系由它们的相对几何位置决定而非一个预设的序列。强行排序会引入人为的、无物理意义的偏好并可能破坏粒子间固有的关联信息。这就引出了我们当前工作的核心——图神经网络。图由“节点”和“边”构成是描述这种稀疏几何关系的天然数学语言。在我们的构建中节点喷注中的每一个成分粒子。每个节点的特征可以包括其横向动量占比pT分数、探测器上的方位角φ和赝快度η。边连接两个节点的关系。我们通常根据粒子间的角距离ΔR √(Δη² Δφ²)来定义边。例如如果两个粒子在探测器上靠得很近ΔR 0.2我们就在它们之间建立一条边。边的特征可以简单地设为1/ΔR表示距离越近连接越强。这样一个喷注就从一个无序的集合或强制的序列变成了一个保留其全部几何信息的图。图神经网络GNN的设计目的就是处理这种数据结构。它的核心操作叫做“消息传递”。想象一下在网络的每一层每个节点都会收集来自其邻居节点通过边连接的信息消息然后结合自身的信息更新自己的表示。通过多层堆叠一个节点最终能“感知”到整个图中较远区域的信息。我们主要测试了两种基于图的架构Edge-Featured Graph Attention Network (EGAT)这是图注意力网络GAT的变体它不仅计算节点之间的注意力权重即“谁更重要”还将边的特征也纳入注意力权重的计算中。这非常适合我们的场景因为边的特征1/ΔR直接反映了粒子空间的接近程度是一个极强的物理信号。Transformer你可能熟悉它在自然语言处理中的应用。从图的角度看一个Transformer可以视为一个处理“全连接图”的特殊GNN。它虽然忽略了具体的几何距离但其强大的自注意力机制能捕捉所有粒子对之间的全局关联。我们将其作为一个性能对比的基准。从VRNN到GNN不仅仅是模型的更换更是我们对数据认知的深化——从“听一个故事”到“观察一幅地图”。后者显然更贴合粒子在探测器中的真实存在形式。3. 实战演练一基于VRNN的YXH共振态搜索理论说得再多不如看一次真实的物理分析。我们首个将无监督异常检测应用于ATLAS真实物理分析的工作目标是寻找一个重共振态Y质量约1 TeV衰变成一个希格斯玻色子H和一个未知粒子X质量约100 GeV的过程即Y → X H。其中希格斯玻色子衰变为b夸克对b¯b而X粒子则衰变为强子末态。3.1 数据准备与模型训练我们筛选出LHC Run 2期间采集的、包含高横动量pT 1.2 TeV大半径喷注的数据。每个喷注被表示为其所有成分粒子的四动量序列。这里的一个关键预处理步骤是序列归一化与排序我们将每个成分粒子的四动量相对于喷注轴进行旋转和boost使其处于喷注的静止系中然后按粒子的相对能量进行降序排列。这在一定程度上为序列注入了物理意义能量最高的粒子最重要。我们构建了一个VRNN模型其编码器和解码器均为多层GRU网络。潜在空间z的维度经过优化选择需要在保留足够信息和防止过拟合之间取得平衡。训练采用纯数据驱动方式使用一个精心挑选的、几乎不可能包含新物理信号的“控制区域”的数据。训练目标是最小化重建的MSE损失。3.2 异常区域的构建与物理分析模型训练完成后我们对所有候选喷注进行推断计算每个喷注的异常分数。然后我们根据异常分数的高低定义一个“异常信号区域”。具体来说我们选取异常分数最高的前百分之几的事件这个阈值通过数据驱动的背景估计方法确定这些事件就构成了我们寻找新物理的“猎场”。接下来的步骤就回到了传统高能物理分析的框架在异常信号区域中我们计算两个领先喷注的不变质量谱mJJ。如果存在Y共振态我们期望在某个质量值附近看到一个超出背景预期的“峰”。我们使用背景模板拟合方法来量化任何观察到的超出现象的统计显著性。我们那次分析的结果是没有发现显著的超出。但这绝不意味着失败。物理分析的一个重要产出是“排除极限”——即在给定的置信水平下通常是95%我们能够排除掉多少截面以上的新物理过程。我们将基于异常分数选择的信号区域与基于传统、针对两叉状衰变优化的“模型依赖”信号区域的排除极限进行了对比。实操心得这是最激动人心的部分。我们发现对于我们设计信号两叉状X粒子异常驱动区域的灵敏度与精心优化的模型依赖区域不相上下。而当我们用更奇特的信号假设例如X衰变成更多粒子来测试时异常驱动区域的性能反而更好。这完美验证了无监督方法的“模型无关”优势它不针对特定信号进行优化因此对未知信号的泛化能力更强。这就像用一张网眼形状不固定的渔网捕鱼虽然针对某一种鱼可能不如特制的钓钩但它有可能捞起你从未见过的品种。4. 实战演练二基于图神经网络的开放式研发基于VRNN的成功经验我们启动了新一轮的研发目标是开发更强大、更自然的基于图的异常检测流程并最终应用于Run 3的新数据。这次我们瞄准了一个更对称的过程一个重共振态Y‘衰变成两个未知粒子X和X’Y‘ → X X’两者都完全衰变为强子。我们使用LHCOlympics 2020的开放数据集进行算法开发和基准测试。4.1 图构建与特征工程我们将每个大半径喷注构建为一个图如前所述。节点特征是每个成分粒子的pT分数、η和φ。边的构建基于ΔR 0.2的阈值。这里引入了一个重要的技巧数据增强。为了阻止模型简单地通过记忆喷注的整体质量一个非常强的区分信号和背景的特征但我们希望模型学习更复杂的结构信息来作弊我们在训练时对节点特征进行了随机扰动。例如对粒子的方位角φ添加一个小的随机旋转。这迫使GNN去关注粒子间的相对几何关系而非绝对的、容易与质量相关的特征。4.2 异常检测策略DeepSVDD与Transformer我们为GNNEGAT和Transformer架构设定了略有不同的训练目标对于EGAT我们采用Deep Support Vector Data Description (DeepSVDD) 目标。简单理解我们训练网络将所有背景喷注的图映射到潜在空间中的一个“小球”内部。在训练中我们最小化所有背景样本在潜在空间表示到球心的平均距离。在推断时一个喷注的潜在表示到这个球心的距离就是它的异常分数。信号喷注由于其不同的结构会被映射到远离球心的位置从而获得高分。对于Transformer我们仍然使用自编码器架构和MSE重建损失与VRNN类似只是模型换成了Transformer。4.3 性能评估与结果我们在包含背景和信号已知的测试信号的验证集上评估模型性能。关键指标是接收者操作特征曲线下的面积AUC。AUC越接近1说明模型区分信号和背景的能力越强。实验结果令人鼓舞在喷注层级Transformer模型达到了约75%的AUC。而EGAT模型在事件层级的性能更优。所谓事件层级是指一个对撞事件中通常有两个候选喷注。我们将两个喷注的异常分数取平均或其他聚合方式得到一个事件级别的异常分数。EGAT模型采用这种策略后AUC提升到了约82%。这个提升意义重大。事件层级分数融合了两个喷注的信息而Y‘ → X X’过程恰恰会产生两个相关的喷注。GNN的消息传递机制虽然是在单个喷注的图上进行的但其学习到的表示可能隐含了与整体事件特征相关的模式使得事件层级聚合效果更佳。这暗示了未来一个更激进的方向构建事件级别的全局图将整个事件中的所有粒子节点纳入一张大图让GNN直接学习事件级别的异常这有望进一步挖掘喷注间的关联信息。5. 挑战、技巧与未来展望将前沿的AI模型应用于LHC这样的极端科学环境绝非简单的“调包”。每一步都充满了工程与物理上的挑战。5.1 核心挑战与应对策略背景的纯粹性与数据驱动最大的挑战是确保训练数据尽可能“纯净”即只包含标准模型背景。我们使用“侧带”方法或基于数据的触发条件来选取训练样本并反复进行交叉检查。任何微小的信号污染都会导致模型将信号也视为“正常”从而失效。可解释性黑洞深度学习模型尤其是GNN常被诟病为“黑箱”。在物理分析中我们必须回答“为什么这个事件被标记为异常”我们正在开发可视化工具例如通过计算节点或边的“重要性分数”来显示是喷注中的哪些粒子或哪些粒子间的关系对高异常分数贡献最大。这能将AI的“直觉”转化为物理学家可以理解的“子结构”图像。系统误差控制与传统分析一样无监督方法也受限于探测器性能、能量刻度、背景建模等系统误差。这些误差会影响异常分数的分布。我们需要仔细评估这些不确定性并将其纳入最终统计分析的框架中。计算成本处理数十亿碰撞事件每个事件包含数百个粒子对图构建和GNN训练都是巨大的计算挑战。我们依赖于高性能计算集群并优化图的数据结构如使用稀疏矩阵以及采用混合精度训练等技术来加速。5.2 给实践者的关键技巧特征选择是灵魂不要一股脑把所有探测器信息都塞给模型。从最物理直观、区分度好的低层特征开始如粒子的pT分数、相对角度。动量、电荷等也可以谨慎加入。特征需要经过标准化处理。图的构建需要物理直觉ΔR阈值如何选太大则图过于稠密计算代价高且引入噪声太小则可能丢失重要关联。需要根据喷注的典型角展度来调整。也可以尝试基于最近邻K-NN的建图方式。警惕“偷懒”的模型模型可能会找到一些简单但无物理意义的捷径来最小化损失比如仅仅记忆了喷注的总标量横动量。数据增强如随机旋转、平移是打破这种简单关联、迫使模型学习真实结构的关键。验证必须使用独立的信号样本绝不能使用参与训练或影响训练的任何信号。应该使用一套完全独立的、模拟的BSM信号样本即使是你也不知道具体是什么模型来评估模型的“异常发现”潜力。5.3 未来之路这项工作远未结束它正从一个小众的研发方向逐渐成为ATLAS和CMS等大型实验组官方物理分析的重要组成部分。未来的演进清晰可见迈向全事件图正如前文提及构建包含整个事件所有粒子的全局图是释放GNN全部潜力的关键一步。这将允许模型直接发现如“两个喷注来自同一母粒子”这类事件层级的异常关联。多模态与混合模型一个对撞事件中不仅有喷注还有轻子、光子、丢失横动量等。未来的模型需要能同时处理这些异构数据例如结合处理图像数据的卷积神经网络CNN和处理序列/图的模型。与模拟器的结合生成式AI如生成对抗网络GAN或扩散模型可以生成极其逼真的模拟数据。我们可以构想一个“对抗性”搜索框架一个生成器不断尝试创造看起来像背景的异常信号而一个判别器我们的异常检测器则努力将其识别出来两者在博弈中共同进化从而发现越来越隐蔽的新物理信号。从我个人的实战经验来看无监督异常检测在高能物理中的应用已经从“一个有趣的想法”变成了“一个不可或缺的工具”。它代表的是一种范式的转变从验证已知到探索未知。这条路充满挑战需要物理学家和机器学习专家更紧密地协作。但每当我看到算法在数据中标记出一个奇特的事件即使它最后被证明只是一个复杂的标准模型过程那种“人类AI”共同向认知边界发起冲击的感觉正是基础科学研究最迷人的地方。我们搭建的不仅仅是一个分析工具更是一台用于“意外发现”的望远镜它的镜头正对准着物理学最深邃的黑暗地带。

查看全文

http://www.zskr.cn/news/1375195.html