当前位置：首页 > news >正文

LightGBM在KM3NeT实验中的实践：从特征工程到μ子束能量重建

news 2026/6/10 15:57:29

1. 项目概述当机器学习遇见深海“宇宙信使”在深海数千米的幽暗环境中KM3NeT中微子望远镜的数千个光学模块正静静守候它们的主要目标是捕捉来自宇宙深处的中微子。然而一个有趣的事实是探测器收集到的大部分信号并非来自这些“幽灵粒子”而是来自另一种穿透力极强的次级粒子——大气μ子。这些μ子由高能宇宙线在大气层顶部撞击产生像一场持续的“粒子雨”洒向地球。精确测量这些μ子的性质例如一个簇射中μ子的总能量、数量以及其母体——原初宇宙线的能量是理解高能宇宙线物理、检验粒子物理标准模型乃至探索超出标准模型新物理的关键窗口。然而传统的基于解析拟合或简单参数化的重建方法在面对探测器复杂的响应、巨大的本底以及μ子束muon bundle内部复杂的关联时往往力不从心精度受限。这正是机器学习大显身手的舞台。我们面对的是一个典型的回归预测问题输入是探测器记录的、经过预处理的一系列特征如触发事例数、光信号幅度、时间分布、几何跨度等输出是我们关心的物理量能量、数目。但这个问题远非简单的曲线拟合。数据维度高46个特征特征间存在复杂的非线性关联物理过程本身具有巨大的动态范围能量横跨数个量级且存在显著的统计涨落。近年来基于树模型的梯度提升框架如XGBoost, LightGBM在各类物理数据分析中取得了巨大成功其处理异构特征、缺失值以及非线性关系的能力令人印象深刻。在本项目中我们系统地评估了多种机器学习回归模型最终选择LightGBM作为核心引擎为KM3NeT实验的ARCA和ORCA两种探测器构型分别构建了μ子束能量、原初宇宙线能量和μ子多重数的重建模型。这项工作不仅仅是将一个现成的机器学习模型“套用”到物理数据上。它涉及从蒙特卡洛模拟数据生成、特征工程、模型选型与验证到最终在真实实验数据上进行物理分析的完整链条。其核心价值在于通过数据驱动的方式我们能够挖掘出探测器响应中那些被传统方法忽略的、与目标物理量深层关联的微妙信息从而实现对关键观测量更稳健、更精确的推断。这对于破解困扰学界多年的“μ子疑难”——即理论预测与实验观测在高能、高多重数区域存在的显著偏差——提供了全新的、强有力的工具。2. 核心思路与方案设计从模拟到智能重建的完整链路将机器学习应用于物理实验的数据重建绝非简单的“调包”操作。它需要构建一个从物理过程模拟开始到最终产生物理结果的完整、可靠且可复现的计算流水线。我们的整体方案设计紧密围绕KM3NeT实验的实际数据流程展开确保每一个环节都建立在坚实的物理和工程基础之上。2.1 数据基石蒙特卡洛模拟与真实数据的双轮驱动可靠的数据是任何机器学习项目的基石。在粒子物理实验中我们拥有两大数据来源蒙特卡洛模拟数据和真实实验数据。前者是我们理解探测器、训练模型的“教科书”后者是我们最终要解读的“考卷”。蒙特卡洛模拟数据生成我们主要依赖两款经过业界长期验证的模拟软件CORSIKA这是一个“从头开始”的模拟器。它从原初宇宙线粒子如质子、铁核进入大气层顶部的第一次相互作用开始完整模拟整个广延大气簇射EAS的发展过程追踪所有次级粒子包括π介子、K介子、光子、电子、μ子、中微子等的生成、衰变和传播。对于KM3NeT我们设定海平面为观测高度然后使用经过我们改进的gSeaGen软件将到达海平面的μ子向下传播至深海探测器周围的灵敏体积“罐子”can内。CORSIKA模拟的优点是物理过程完整可以灵活调整原初粒子种类、能量、入射方向以及强子相互作用模型是研究物理系统不确定性的黄金标准。MUPAGE这是一个基于参数化公式的快速μ子生成器。它不模拟完整的簇射过程而是基于先前实验如MACRO的数据和模拟如HEMAS通过经验参数化公式直接生成在探测器“罐子”表面上的μ子束。它的优点是速度极快适用于需要海量模拟事例来训练机器学习模型或进行快速估计的场景。在本工作中MUPAGE和CORSIKA的模拟结果被同时用于与实验数据对比以交叉验证生成器的可靠性。模拟数据为我们提供了每个事例的“真实值”Ground Truth即模拟时注入的μ子束总能量、原初宇宙线能量和μ子精确数目。这正是训练监督学习模型所必需的标签。真实实验数据来自KM3NeT的ARCA6和ORCA6探测器在2020-2021年采集的数据。这些数据经过了标准的探测器校准、事例触发和初步重建使用JMuon等工具。它们是我们评估模型最终性能、进行物理分析的终极对象。注意模拟与数据的“一致性”是生命线。机器学习模型从模拟数据中学到的“规律”必须能够迁移到真实数据上。因此模拟的逼真度至关重要。任何显著的模拟-数据差异都可能源于模拟中不准确的物理模型如强子相互作用、不完善的探测器响应模拟或未被考虑的环境效应。后续分析中观察到的差异正是我们洞察物理问题的起点。2.2 特征工程从探测器原始信号到模型输入探测器记录的是每个光电倍增管PMT的光子到达时间、电荷等信息。直接使用这些原始数据不仅维度爆炸而且包含了大量噪声。因此我们需要进行特征工程提取出那些与目标物理量相关的、信息量高的高级特征。我们的特征集共包含46个特征主要来源于标准重建算法如JMuon的中间产物可以归纳为以下几类事例尺度特征例如3DMUON_trig_hits被3Dμ子重建算法选中的触发PMT总数、3DSHOWER_trig_hits被3D簇射重建算法选中的触发PMT总数。这类特征最直观通常与沉积的总能量和粒子数强相关是传统能量重建方法如“数击中数”的基础。幅度信息特征包括各重建假设下触发hit的总幅度和(*_amplitude_sum)、平均幅度(*_amplitude_avg)和幅度分布标准差(*_amplitude_std)。幅度总和与沉积能量线性相关而幅度分布的形状可能反映事例的拓扑结构如是一个平行的μ子束还是一个局部的簇射。时间与几何特征例如*_trig_hits_duration触发时间分布的宽度、vertical_span_*_trig_hits和horizontal_span_*_trig_hits触发PMT在垂直和水平方向上的空间跨度。这些特征有助于区分沿探测器垂直方向穿过的长轨迹μ子与在局部产生簇射的电磁成分。边界距离特征如distance_first_*_trig_hit_to_det_edge第一个触发hit到探测器边界的距离。这对于判断事例是否完全包含在探测器灵敏体积内至关重要。部分包含的事例其重建能量会被低估。所有特征在输入模型前都经过了标准化处理减去均值并缩放到单位方差。这一步对于基于距离或梯度计算的机器学习模型如线性模型、树模型至关重要能确保不同量纲和数值范围的特征对模型有同等的重要性加速训练收敛。2.3 模型选型为什么是LightGBM在确定了数据和特征后我们面临模型选择。我们利用Scikit-learn库和常用的梯度提升库在ARCA115配置的部分训练数据5万事例上对超过20种回归模型进行了基准测试。评估指标采用加权决定系数R²-score和加权皮尔逊相关系数c。结果非常明确如图4所示LightGBM模型在预测精度和计算效率上取得了最佳平衡。其优势主要体现在高性能在测试的模型中LightGBM取得了最高的R²分数和相关系数表明其预测值与真实值之间具有最强的线性相关性和最小的均方误差。高效率LightGBM是一种基于直方图的梯度提升决策树算法。它先将连续的特征值离散化到直方图中然后在直方图上寻找最优分裂点。这相比XGBoost等需要在原始数据上排序的算法训练速度更快内存消耗更低。这对于处理KM3NeT这种数千万事例级别的大数据集至关重要。鲁棒性对缺失值不敏感能够自然处理特征间的非线性关系并且通过正则化L1/L2和剪枝有效防止过拟合。基于此我们确定LightGBM作为重建所有三个观测量束能量、原初能量、多重数的基础模型架构。后续的特征选择、超参数调优均在此基础上进行。3. 核心实现细节特征、训练与超参数调优确定了LightGBM作为主力模型后接下来的工作就是精雕细琢通过特征选择和超参数调优来最大化模型的预测能力。这个过程充满了反复试验和基于物理直觉的决策。3.1 特征选择去芜存菁的艺术并非所有46个特征都是有益的。有些特征可能噪声很大有些之间高度相关共线性后者可能导致模型不稳定且难以解释。我们采用了一种基于置换重要性的方法来评估特征价值随机打乱某个特征的值观察模型在验证集上R²分数的下降程度。下降越多说明该特征越重要。图5展示了ARCA115配置下各特征的重要性排序。我们发现特征可以自然聚成几类图中用颜色标出例如所有与“幅度总和”相关的特征高度相关所有与“首个/末个hit位置”相关的特征也高度相关。这提示我们可以在每个相关簇中只保留最具代表性的特征以简化模型。我们对比了四种特征选择策略使用全部46个特征。选择重要性为正的特征并从每个相关簇中挑选最重要的一个。仅使用单个最重要特征3DMUON_3DSHOWER_trig_hits。要求所有入选特征的重要性均为正。结果图6显示策略4所有特征重要性为正取得了最好的性能其R²分数略高于使用全部特征。这说明剔除那些贡献为负或近乎为零的“噪音”特征确实能提升模型泛化能力。一个有趣的发现是即使只使用单个特征策略3模型也能达到R²≈0.41的相关性。这个特征本质上是某种“触发hit数”这验证了传统“数数法”的合理性但也同时凸显了机器学习方法通过整合更多信息能将性能提升超过20%从R²0.41到0.53。实操心得特征选择中的物理直觉。纯数据驱动的特征重要性排序有时会给出反直觉的结果。例如某个几何特征可能排名很高。这时需要回溯这个特征在物理上代表什么。它可能无意中编码了事例的“包含度”信息而包含度与重建能量系统性偏差直接相关。因此特征选择不能完全自动化必须结合物理理解进行审查有时甚至需要构造新的、物理意义更明确的特征。3.2 超参数调优让模型发挥最大潜力LightGBM有数十个超参数如树的数量n_estimators、学习率learning_rate、树的最大深度max_depth、叶子节点最小数据量min_child_samples等。手动调优如同大海捞针。我们采用了Optuna这一自动超参数优化框架。Optuna通过定义目标函数这里是验证集上的加权R²分数采用如TPETree-structured Parzen Estimator的贝叶斯优化算法在给定的参数空间内智能地采样、评估、并朝着更优区域搜索。我们为每个探测器配置ARCA115, ARCA6, ORCA115, ORCA6和每个重建目标束能量、原初能量、多重数分别进行了独立的超参数优化。调优带来的提升是显著的。对比图6d调优前R²0.471和图8a调优后R²0.532可以看到对于ARCA115的束能量重建超参数调优带来了超过10%的相对性能提升。模型预测值与真实值的“云团”更紧密地聚集在对角线周围高能端的低估情况也有所改善。3.3 训练流程与质量控制我们的训练流程遵循标准机器学习范式但加入了粒子物理数据分析特有的权重处理数据划分将每个探测器配置的模拟数据集按64:16:20的比例随机划分为训练集、验证集和测试集。验证集用于超参数调优和早停测试集用于最终的性能报告两者在训练过程中完全不可见。加权训练由于高能宇宙线事例的能谱遵循幂律分布~E^-2.7低能事例数量远远多于高能事例。如果直接训练模型会极度偏向于优化对海量低能事例的预测而忽略对稀有高能事例的重建。因此我们为每个训练样本赋予一个权重该权重与事例率的倒数成正比从而让模型在训练时平等对待每个对数能量区间。评估指标R²和c也采用相同的加权计算方式。早停法在训练过程中持续监控验证集上的损失函数。如果连续一定轮次如50轮验证损失不再下降则停止训练并回滚到验证损失最低的模型状态。这有效防止了过拟合。4. 重建结果与物理分析经过上述精心准备的流程我们得到了针对不同探测器配置和不同物理量的重建模型。现在让我们看看这些模型在“考试”测试集和“实战”实验数据中的表现。4.1 μ子束能量重建μ子束总能量是三个量中最直接、重建效果最好的一个。图8展示了四个探测器配置下模型预测能量与模拟真实能量的二维分布。性能趋势正如预期ARCA115完整的ARCA区块重建效果最好R²0.532, c0.730其次是ORCA115然后是ARCA6和ORCA6。这很好理解探测器体积越大能够捕获的μ子束信息越完整能量沉积的采样也越充分因此特征包含的信息量越大。重建特性低能阈值大约在1 TeV以下模型预测变得不可靠。这是因为低能μ子产生的切伦科夫光信号太弱可能无法触发足够多的PMT或者信号被噪声淹没导致特征无法提供有效信息。高能低估在能量非常高的区域10^7 GeV模型预测值系统性地低于真实值。这主要有两个原因一是如此高能的事例在模拟中本就非常稀有训练数据不足二是这些超高能事例产生的μ子束横向展宽很大更有可能部分处于探测器灵敏体积之外“漏网之鱼”导致探测器记录到的信号低于实际沉积能量。与实验数据对比将训练好的型应用于真实的ARCA6和ORCA6数据并与MUPAGE和CORSIKA模拟的预测分布进行对比图7。在几个TeV的能量尺度上模拟与数据符合得很好。然而在更高能量段10^5 GeV可以观察到数据与模拟之间存在明显的差异模拟预测的事例数高于实际观测。这一差异在MUPAGE和CORSIKA两种模拟中均存在强烈暗示问题根源不在于某款特定的模拟器而可能在于输入给这些模拟器的共同物理模型比如高能强子相互作用截面或次级粒子产生模型。这正是“μ子疑难”在KM3NeT数据中的一个具体体现。4.2 原初宇宙线能量重建从探测器中间接重建原初宇宙线的能量是一项艰巨得多的挑战。原初粒子在海拔约30公里处发生第一次相互作用产生的簇射经过大气发展到达深海探测器时我们只能观测到其中一小部分幸存的高能μ子。绝大部分信息如原初粒子种类、相互作用细节已在途中丢失。因此原初能量重建的性能图9远低于束能量重建ARCA115的R²仅为0.281。尽管如此在高于100 PeV10^8 GeV的极高能区模型仍然显示出一定的预测能力。这一点极具物理意义因为它意味着KM3NeT可能具备探测GZK截断的能力。GZK截断是理论上预言的原初宇宙线能量上限约5×10^10 GeV源于高能质子与宇宙微波背景光子的相互作用。图10展示了在ARCA6和ORCA6数据中重建的原初能量谱在GZK能量附近当前数据由于探测器规模和曝光时间有限尚不足以做出确凿的论断但为未来的完整探测器指明了方向。4.3 μ子多重数重建μ子多重数即一个束中包含的μ子数量是研究“μ子疑难”的核心观测量。其重建的难点在于许多μ子可能能量太低或其轨迹只是擦过探测器边缘产生的光信号太弱无法被有效探测到。为此我们改进了多重数的定义对于ARCA只计数能量高于120 GeV且在探测器内路径长度大于240米的μ子对于ORCA阈值设为1 GeV。这样定义的“可探测多重数”更符合探测器的实际响应。重建结果如图11所示。性能分析ARCA的重建效果再次优于ORCA。这是因为ARCA探测器更稀疏μ子在其中通常表现为清晰的长轨迹易于区分和计数。而ORCA探测器更密集μ子轨迹可能重叠增加了分辨难度。重建偏差模型对于低和中等多重数1-10预测较好但对于高多重数事例存在系统性的低估。原因与束能量重建的高能低估类似高多重数事例往往对应高能原初粒子其产生的μ子束空间分布更广部分μ子可能落在探测器外或产生信号过弱导致被漏计。与实验数据对比图12显示在多重数1到10的区间模拟与实验数据吻合良好。但在更高多重数区间模拟无论是MUPAGE还是CORSIKA预测的事例数再次高于实验数据。这进一步确认了“μ子疑难”的存在即当前最好的宇宙线空气簇射模拟倾向于预测比实际观测到更多的高能μ子或更高多重数的μ子束。5. 经验总结、挑战与未来展望回顾整个项目将机器学习应用于KM3NeT的μ子物理分析是一次成功的实践。我们建立了一套从模拟到重建的标准化流程并证明了LightGBM模型在重建关键物理量上的有效性。然而在这个过程中我们也遇到了诸多挑战并看到了未来清晰的改进路径。5.1 关键实操经验与避坑指南数据准备是重中之重模拟数据的质量直接决定模型的天花板。必须确保模拟的物理过程如强子相互作用模型和探测器响应模拟尽可能真实。在划分训练、验证、测试集时要确保它们来自独立的数据模拟批次以避免“数据泄露”。加权处理不可或缺对于遵循幂律分布的天体物理数据不加权训练会导致模型完全被低能事例主导。加权方式需要谨慎设计通常使每个对数能量区间的总权重相等。同时评估指标也必须加权否则会得到误导性的高分数因为低能区占主导。特征工程需要物理洞察不要完全依赖自动化的特征重要性排序。理解每个特征的物理含义至关重要。例如我们发现与“事例持续时间”和“空间跨度”相关的特征对于区分μ子束和背景噪声非常有效。有时根据物理知识构造新的复合特征如“平均每hit幅度”可能比原始特征更有效。超参数调优需有耐心Optuna等工具大大简化了流程但仍需要设置合理的参数搜索空间。对于树模型max_depth、min_child_samples和reg_alpha/reg_lambdaL1/L2正则化是控制模型复杂度和防止过拟合的关键。调优过程可能很耗时建议先在数据子集上进行快速搜索确定大致范围再在全数据集上微调。系统误差评估机器学习模型的预测误差不仅来自统计波动更来自系统偏差。我们必须评估模型性能对以下因素的依赖性模拟模型的不确定性如切换CORSIKA中的强子相互作用模型、探测器校准误差、特征提取算法的稳定性。一个健壮的重建方法其性能应对这些系统变化相对不敏感。5.2 当前局限与未来方向尽管取得了积极成果但当前方法仍有明显局限对模拟的依赖模型完全在模拟数据上训练其性能上限受限于模拟的逼真度。图7和图12中模拟与数据在高能端的差异就是当前模拟系统的局限性。特征的信息瓶颈我们使用的46个特征已经是高级重建后的产物。在重建过程中不可避免会丢失原始波形中的部分信息。例如单个PMT上光子到达时间分布的细节可能包含μ子数量或空间结构的信息。模型架构的潜力LightGBM是强大的表格数据模型但它无法天然处理探测器数据的图结构。每个事例本质是一个图节点是PMT边是PMT之间的几何或时间关联。图神经网络GNN是处理这类数据的理想架构有望直接从原始或更低层级的数据中学习实现端到端的重建可能突破当前特征工程的瓶颈。5.3 对“μ子疑难”研究的贡献本项目最直接的物理产出是为KM3NeT实验提供了一套全新的、基于机器学习的μ子束重建工具其精度优于传统方法。更重要的是通过将这套工具应用于实验数据并与两种独立的模拟MUPAGE和CORSIKA进行比对我们在多个能量和多重数区间都观察到了一致的、显著的模拟-数据差异。这以高统计显著性将“μ子疑难”呈现在了KM3NeT的数据中。这些差异并非故事的终点而是起点。它们像一张精细的“诊断图”指出了当前宇宙线空气簇射模拟在高能区域可能存在的问题。后续工作可以沿着两个方向展开一是利用KM3NeT更完整的数据对这些差异进行更精确的量化约束其能谱和角度依赖二是将这些差异反馈给理论学家和模拟开发者作为改进强子相互作用模型特别是在LHC能量以上外推的区域的关键实验输入。从工程应用角度看这套机器学习重建管线已经证明了其价值。随着KM3NeT探测器逐步建成并积累更多数据它可以作为实时或近实时数据分析的一部分快速筛选出高能、高多重数的稀有事例用于特定的物理分析。同时其框架也可以迁移到其他类似的中微子望远镜或宇宙线实验中为高能天体物理领域的数据分析提供一种新的、强大的范式。

查看全文

http://www.zskr.cn/news/1384546.html