1. 项目概述当AI遇见星空寻找宇宙中的“双生子”在浩瀚的宇宙中超大质量黑洞的并合是星系演化剧本里的高潮章节。理论告诉我们当两个星系在引力作用下最终合二为一时它们中心的“巨兽”——超大质量黑洞——也会逐渐靠近形成一个双黑洞系统。如果这两个黑洞都在贪婪地吸积周围物质、发出耀眼的光芒我们就称之为“双活动星系核”。它们是验证星系并合理论、研究黑洞物理和反馈机制的绝佳实验室。然而在观测上找到它们尤其是在高红移即宇宙早期的亚角秒尺度上无异于大海捞针。传统的天文图像处理工具如SExtractor或IRAFStarFinder在面对两个点源几乎重叠、且背景存在复杂星系结构时往往力不从心要么漏检要么产生大量误报。这正是卷积神经网络大显身手的地方。作为一名长期混迹于天文数据处理和机器学习交叉领域的研究者我亲历了从手动筛选到自动化识别的转变。欧几里得望远镜的升空带来了前所未有的高分辨率、大视场巡天数据也带来了数据处理的巨大挑战。面对Q1数据释放中覆盖63平方度天区的近6000个类星体我们不可能再用肉眼去一张张图寻找它们的“伴侣”。本文将详细拆解我们如何构建并训练一个卷积神经网络在欧几里得望远镜的可见光波段图像中自动化地搜寻那些角距离小至0.15角秒相当于在10亿光年外分辨出相距仅几千光年的两个点的双活动星系核或引力透镜类星体候选体。整个过程从数据模拟、网络架构设计、阈值优化到真实数据应用充满了工程实践中的权衡与技巧。无论你是对天文机器学习应用感兴趣的研究者还是希望了解如何将深度学习应用于特定领域图像分析如显微成像、工业检测的工程师相信这篇从一线实践中总结的“踩坑”指南都能给你带来直接的启发。2. 核心思路与方案选型为什么是CNN以及如何“制造”数据2.1 问题定义与核心挑战我们的目标很明确给定一张以已知类星体为中心的、大小为5角秒见方的天文图像判断其中是否存在一个距离主类星体0.1到0.8角秒范围内的次级致密光源。这个次级光源可能是双活动星系核另一个正在吸积的超大质量黑洞。引力透镜像同一个类星体被前景星系引力透镜效应产生的另一个像。前景污染恰好投影在同一视线方向上的前景恒星或星系。从图像处理角度看这是一个典型的“二源检测”问题但具有天文领域的特殊复杂性极小的角距离目标分离度0.15-0.8角秒与欧几里得VIS仪器点扩散函数的半高全宽相当两个点源的图像会严重重叠。复杂的背景类星体通常寄宿在星系中宿主星系的延展结构会淹没或混淆微弱的点源信号。极度的类别不平衡双活动星系核在宇宙中非常稀有理论预测其比例可能低于所有类星体的1%。这意味着我们的训练集和测试集中“正样本”双核远少于“负样本”单核。信噪比变化大主、次源以及宿主星系的亮度组合千变万化次源可能比主源暗数个星等。2.2 为什么放弃传统方法选择卷积神经网络在项目初期我们系统评估了传统天文源检测工具。SExtractor其去混叠算法基于多阈值分割对于两个点源峰之间没有明显“马鞍”结构的极端靠近情况基本失效。它更适合分离有明显间隔的源。IRAFStarFinder / Photutils这类工具通过匹配预设的PSF模型来寻找点源。但在信噪比低、双源叠加的情况下它容易将单个延展源误判为多个点源或者将靠得极近的双源识别为一个被拉长的畸形点源。其性能严重依赖于手动设置的阈值如5σ, 10σ调高阈值会漏掉暗弱伴星调低阈值则误报率激增。卷积神经网络的核心优势在于其“端到端”的特征学习能力。我们不需要手动设计特征如形态参数、颜色也不需要精确建模PSF。CNN通过多层卷积和池化能够自动从大量图像中学习到“双源叠加”与“单源复杂背景”之间那些细微的、非线性的像素级差异。更重要的是通过精心设计的模拟数据训练CNN可以学会在宿主星系的光晕中“抠”出那个微弱的次级点源信号这是基于固定模型的传统算法难以做到的。2.3 数据策略用模拟解决“无米之炊”天文机器学习项目最大的痛点往往是缺乏大量、精准标注的真实数据。对于稀有的双活动星系核我们根本没有足够多的、已被光谱证实的样本用于监督学习。因此“制造”数据——即构建高度逼真的模拟图像——成为了项目成败的关键。我们的模拟策略核心是将人工合成的点源模拟AGN嵌入到真实的欧几里得望远镜星系图像中。这样既能保证背景噪声、星系形态、仪器效应的真实性又能精确控制我们关心的科学参数如分离度、亮度比。模拟流程的关键细节与考量基础图像我们从欧几里得Q1数据发布的pdMerBksMosaic产品中随机截取大量空白天区或单一星系图像的小块作为“画布”。点源模型直接使用欧几里得官方管道生成的PSF网格。这里有个重要技巧官方PSF是欠采样的19x19像素我们使用drizzle算法和turbo核进行过采样以确保在添加点源时能保持总流量守恒避免引入人为的亮度误差。参数空间采样主AGN星等从高斯分布中抽取中心值IE21等标准差1.2等以匹配真实Q1数据中类星体的亮度分布见图2。这确保了网络学习的亮度范围是实际观测中常见的。次AGN星等在比主AGN暗到极限星等25等之间均匀抽取。这覆盖了从亮度相近到次源极其暗弱的所有可能情况。角距离在0.1到0.8角秒之间均匀抽取。这是我们的核心科学目标区间。宿主星系贡献这是最棘手也最关键的环节。观测表明宿主星系对总流量的贡献可以从忽略不计到超过90%。我们为每个模拟AGN随机关联一个从真实图像中提取的、CLASS_STAR 0.5的扩展源星系并将其流量设置为点源流量的0到10倍。对于暗于IE27.5等低于欧几里得探测极限的宿主我们直接用随机天区背景噪声替代。这种宽泛的参数设置确保了网络能应对各种复杂的“AGN宿主”混合体。数据集划分我们生成了10万张模拟图5万单源5万双源按60%/8%/32%的比例划分为训练集、验证集和测试集。注意双源样本被进一步分为两类标签分离度小于0.25角秒的标签1和大于0.25角秒的标签2。这样设计是为了让网络也能感知分离度的粗略信息。实操心得模拟的“真实性”与“平衡性”博弈模拟数据分布不可能与真实数据完全一致因为真实双核的分布本身就是未知的。我们面临一个权衡是严格模拟理论预测的分布双核极少还是为了训练效果适当增加双核样本比例我们选择了后者因为极度不平衡的数据会导致网络忽视正类。但这也带来了风险网络可能在模拟分布上表现优异但在实数据上泛化能力不足。为此我们进行了多组不同参数分布的模拟实验见附录A最终选择了一组在验证集和后续真实数据测试中表现最稳健的方案。关键教训是模拟参数空间要尽可能覆盖真实情况即使某些组合的理论概率很低。3. 网络架构设计与训练技巧一个多任务学习的实践3.1 网络架构拆解我们的目标不仅是分类单/双还希望网络能给出一些物理参数这有助于后续筛选和物理分析。因此我们设计了一个多任务学习架构。主干网络特征提取器输入30x30像素3角秒见方的归一化图像块以最亮像素为中心。卷积层14x4卷积核输出8个特征图使用ReLU激活。紧接着是2x2最大池化。这一层学习基本的边缘、点源轮廓等低级特征。卷积层22x2卷积核输出16个特征图ReLU激活再接2x2最大池化。这一层组合低级特征学习更复杂的模式如双峰结构、不对称光晕等。展平与全连接将特征图展平后经过两个全连接层2304 - 80 - 20引入非线性并进一步整合信息。在全连接层之间我们加入了Dropout层丢弃率30%这是防止过拟合的关键随机“关闭”部分神经元迫使网络学习更鲁棒的特征。多任务输出头分类头一个全连接层输出3个节点对应单源、小分离双源、大分离双源。使用交叉熵损失函数。注意PyTorch的CrossEntropyLoss内部已包含Softmax无需额外添加。位置回归头预测次源相对于图像中心的归一化坐标x, y范围在[-1, 1]。使用双曲正切tanh作为激活函数以适应范围损失函数为均方误差MSE。对于单源样本我们将真值坐标设为(0,0)。这个设计有个妙用如果一个被分类为双源的样本其预测坐标非常接近(0,0)那它很可能是假阳性单源被误判我们可以据此将其过滤掉。星等差回归头两个ΔIE,21主次源之间的星等差。ΔIE,H1宿主星系与主源之间的星等差。这两个任务都使用Sigmoid激活函数将输出约束在[0,1]然后反归一化到实际的星等差范围损失函数为MSE。对于单源样本ΔIE,21的真值被设为训练集中所有双源样本ΔIE,21的最大值。这样做是为了避免单源样本的标签将回归头的输出范围压缩影响其对双源的预测能力。损失函数与优化 总损失是四个任务损失的加权和L_total L_class λ1 * L_pos λ2 * L_dmag21 λ3 * L_dmagH1。在实践中我们发现分类任务的损失尺度最大对优化方向起主导作用因此权重λ通常设为1而回归任务的权重λ1, λ2, λ3可以适当调小如0.1以防止回归任务的噪声干扰主分类任务的学习。优化器选用Adam它比传统的随机梯度下降SGD能更快收敛且对超参数不那么敏感。3.2 训练过程中的关键技巧与调参学习率与早停使用余弦退火学习率调度初始学习率设为1e-4。在验证集损失连续5个epoch不下降时触发早停防止过拟合。批归一化BatchNorm的取舍我们尝试在卷积层后加入批归一化发现它在小批次batch size下不稳定且可能抹杀图像中微弱的信号差异。最终我们放弃了BatchNorm依靠Dropout和适度的数据增强如小幅度的旋转、翻转来增强泛化能力。关注“困难样本”在训练中我们特别关注那些被持续错误分类的样本。分析发现它们大多是次源极其暗弱ΔIE,21 4且与主源靠得极近 0.2角秒的情况或者宿主星系亮度与AGN相当、形态复杂的样本。我们将这些“困难样本”额外复制并加入训练集以提升网络对边界的判断力。可视化中间激活定期可视化卷积层的特征图这不仅是调试工具也能增进我们对网络“看到了什么”的理解。例如在第一层我们看到网络学会了检测亮斑和边缘在第二层对于双源样本特征图会显示出两个激活中心即使它们在原始图像中几乎融合。注意事项多任务学习的协同与冲突多任务学习并非总是“免费午餐”。如果任务相关性不强可能会相互干扰导致“负迁移”。在我们的案例中分类判断有无次源、定位次源在哪、测光次源多亮这三个任务是高度相关的因此多任务学习带来了性能提升。但预测宿主星系亮度ΔIE,H1这个任务与主任务相关性较弱其预测精度远低于其他任务见图7c。在最终应用中我们主要依赖分类、定位和ΔIE,21的预测结果。经验是在设计多任务网络时要仔细评估子任务的相关性对于弱相关任务可以考虑降低其损失权重或甚至将其分离成另一个网络。4. 性能评估与阈值优化在精确率与查全率间走钢丝4.1 与传统方法的正面较量我们使用测试集绘制了CNN的受试者工作特征曲线图5。ROC曲线下的面积AUC达到了0.98这是一个非常优秀的指标。作为对比我们用IRAFStarFinder以不同的检测阈值5σ, 10σ, 15σ, 20σ, 30σ处理同样的测试集并计算其TPR和FPR。结果一目了然CNN的ROC曲线完全包裹住了传统方法的曲线。这意味着在任何给定的误报率水平下CNN的查全率检测出真正双源的比例都高于传统方法反之在任何给定的查全率水平下CNN的误报率都更低。传统方法为了达到较高的查全率必须大幅降低阈值但这会导致误报数激增在实际应用中产生大量需要人工复核的垃圾候选体失去自动化意义。4.2 理解混淆矩阵与性能边界图6的混淆矩阵提供了更细致的视角若将所有预测为双源标签1或2的样本都算作正例网络对双源的整体查全率约为78%精确率约98%F1分数0.86。这意味着它能找到约八成的双源并且找出来的东西里98%都是对的。若只考虑预测为“大分离双源”标签2的样本精确率升至惊人的98.6%但查全率降至68%。这说明网络对分离度较大的双源判断非常自信和准确但对那些靠得极近0.25角秒的双源识别起来更困难容易漏掉或将其误判为单源。性能随物理参数的变化是我们更关心的。通过分析测试集我们绘制了性能热图分离度当双源角距离大于0.4角秒时查全率和精确率都接近95%以上。当分离度小于0.25角秒时性能急剧下降查全率可能低于50%。这正是物理上的极限两个点源已经模糊成一个。亮度比ΔIE,21当次源与主源亮度相差在2个星等以内时网络表现良好。当次源比主源暗3个星等以上时检测变得极其困难查全率显著降低。宿主星系亮度当宿主星系比AGN亮时ΔIE,H1为负误报率会上升。因为一个明亮的、结构稍显不规则的星系容易被网络误认为隐藏了一个暗弱的次源。4.3 何设定最终判决阈值一个实用主义策略网络最终的输出是每个样本属于三个类别的概率如[0.05, 0.15, 0.80]。我们需要一个阈值来决定是否将其判为“双源候选体”。直接将概率最大的类别作为输出argmax是一种方法但在本极度不平衡的现实下这不够优化。我们引入了一个考虑先验概率的优化指标优化指标 (TPR * f_dual - FPR * f_single) * N_QSO其中TPR和FPR随阈值变化f_dual是预估的双源真实比例如1%f_single 1 - f_dualN_QSO是输入类星体总数约6000。这个指标的意义是最大化期望的真阳性数 - 期望的假阳性数。我们在0.2到0.6角秒这个理论预测双源数最多的分离度区间内计算不同分类阈值即判断为双源所需的最小概率下的这个指标值。最终我们选择使该指标最大化的阈值约为0.9即网络认为样本是双源的概率需超过90%才被采纳。这个策略是务实的。它承认我们不知道真实的双源比例但基于一个合理的假设比如1%去寻找一个能在“找到更多真货”和“混入更少假货”之间取得最佳平衡的阈值。应用此阈值后我们预期在6000个源中能获得约10-20个净真阳性候选体真阳性减假阳性。4.4 利用回归输出进行后过滤网络的回归输出提供了强大的后过滤工具。图8展示了被误判为双源假阳性的样本其预测的次源位置和亮度差分布。我们发现大量的假阳性集中在一个区域预测的分离度非常小 0.15角秒但预测的ΔIE,21却很大 4星等。这从物理上很难解释一个距离主源如此之近的伴星如果暗弱到4个星等以上几乎不可能被分辨出来。这些假阳性很可能是图像噪声、宇宙射线击中、或宿主星系局部不规则结构被网络过度解读所致。因此我们增加了一条硬性过滤规则剔除预测分离度 0.15角秒 且 预测ΔIE,21 4 的候选体。这一简单的规则在不损失多少查全率的情况下能过滤掉超过30%的假阳性。5. 应用于真实数据从Q1数据中挖掘候选体5.1 数据处理流水线将训练好的模型应用于欧几里得Q1真实数据需要一个自动化的流水线输入目录准备合并Milliquas、Quaia、eROSITA、WISE等多个星表通过交叉匹配去重得到约329万个类星体/AGN候选体坐标。针对Q1天区最终有约1.5万个目标落在观测范围内。图像截取与预处理对每个目标从欧几里得VIS波段 mosaics中截取5角秒见方的图像块。使用SExtractor进行初步源检测将最亮的检测源与输入坐标匹配并以此为中心重新裁剪出30x30像素3角秒的最终输入图像。同时进行背景减除和归一化。CNN推理将预处理后的图像块输入CNN得到分类概率、预测位置和星等差。候选体筛选 a. 应用分类概率阈值如0.9。 b. 应用后过滤规则剔除小分离大星等差的异常预测。 c. 对于通过筛选的候选体根据预测位置在原图中标记出次源的可能位置。5.2 污染源估计与进一步鉴别即使经过CNN筛选候选体中仍会混入两类主要的污染前景恒星恰好投影在类星体附近的前景银河系恒星。引力透镜多重像这本身也是科学目标之一但我们需要将其与双活动星系核区分开。我们的鉴别策略是分距离处理的对于角距离 0.5角秒的候选体污染可能性很高。我们使用PSF拟合减除技术用欧几里得的PSF模型拟合并减除主类星体的光然后检查残留图像中预测位置是否确实存在一个清晰的点源。同时我们利用欧几里得提供的四个波段VIS的IE NISP的YE, JE, HE数据绘制颜色-颜色图。恒星在近红外波段有特定的颜色序列而高红移类星体或活动星系核的颜色则不同。通过颜色筛选可以剔除大部分前景恒星污染。对于角距离 0.5角秒的候选体PSF减除技术因两个点源严重重叠而效果不佳。但幸运的是理论估计和我们的模拟表明在这个尺度上前景恒星投影的几何概率大大降低。我们估计对于分离度小于0.5角秒的候选体污染率可能低于20%。这些是最有希望的双活动星系核或紧密引力透镜系统候选体需要后续更高分辨率观测如自适应光学或空间望远镜或光谱观测来最终确认。5.3 Q1初步结果与发现将上述流程应用于Q1数据的约6000个类星体后我们初步筛选出约15个高置信度的双活动星系核/引力透镜候选体约占样本的0.25%。它们的典型角距离在0.4角秒左右对应于红移z1处约3千秒差距的物理距离。我们手动检查了这些候选体的图像和多波段信息。图10展示了几个典型案例候选体A分离度0.38角秒两个点源在VIS和三个NISP波段都清晰可见且颜色相似强烈暗示其为双活动星系核或引力透镜系统。候选体B分离度0.52角秒PSF减除后次源仍然存在但在颜色-颜色图上落在恒星序列附近被标记为可能的恒星污染。候选体C分离度仅0.18角秒在原始图像中几乎不可分但CNN以高概率将其判为双源且预测位置与后续高分辨率存档数据中的微弱信号位置吻合。这展示了CNN探测极限分离度以下信号的潜力。实操心得人工复核的必要性与“感觉”的培养尽管自动化流程很强大但最终对候选体进行人工复核是必不可少的。这个过程不仅仅是“是或否”的判断更是培养研究者对数据“感觉”的过程。你需要仔细观察次源是真正的点状吗颜色是否合理有没有可能是图像缺陷如宇宙射线、衍射星芒周围有没有其他暗淡的星系结构可能是透镜星系我们建立了一个简单的网页工具将候选体的多波段图像、CNN预测参数、颜色信息并排展示大大提高了复核效率。记住机器学习模型是强大的助手但领域专家的最终判断和物理直觉目前仍是不可替代的。6. 总结与展望不止于寻找双核这项工作证明了卷积神经网络在从大规模巡天数据中自动识别致密双源系统方面的强大能力。相较于传统方法CNN在查全率和精确率上都有显著提升尤其擅长处理源严重重叠、信噪比低的挑战性情况。我个人在实际操作中的几点深刻体会模拟数据质量决定上限网络性能的天花板在数据模拟阶段就已奠定。花费大量时间思考和优化模拟的物理真实性如宿主星系贡献的分布、噪声特性远比后期调参更有价值。多任务学习是一把双刃剑设计得当可以相互促进但需要谨慎评估子任务的相关性和损失权重。可视化中间结果和损失曲线对于调试多任务网络至关重要。阈值优化需要结合科学先验单纯追求最高的准确率或F1分数可能不是最优解。将科学预期如双源稀有性融入阈值选择标准能得到更符合科学目标的结果列表。可解释性与过滤规则神经网络常被诟病为“黑箱”。但通过分析其错误假阳性我们发现了可解释的模式小分离大星等差并据此制定了有效的后过滤规则这提升了整个流程的可靠性和透明度。这项工作只是一个起点。随着欧几里得望远镜完成全部1.4万平方度的巡天数据量将增长两个数量级。我们计划从以下几方面进行拓展多波段融合目前网络仅使用VIS单波段图像。下一步将构建一个多波段VISYEJEHE输入的CNN让网络同时利用形态和颜色信息进一步提升鉴别能力特别是区分双活动星系核和恒星污染。迁移学习与领域适应用模拟数据训练的网络在应用到不同深度、不同仪器如LSST、Roman的数据时性能可能会下降。我们将研究领域自适应技术利用少量真实标注数据快速微调模型以适应新数据。从检测到参数测量当前的回归头只能给出粗略的星等差和位置。未来可以探索更复杂的架构直接输出更精确的物理参数如次源的精确流量、光谱指数等为后续光谱跟进提供优先序依据。最后分享一个小技巧在构建此类项目的代码库时务必从一开始就做好数据版本控制和实验跟踪。我们使用DVC来管理庞大的模拟数据集和预处理流程使用MLflow或Weights Biases来记录每一次训练的超参数、损失曲线和模型性能。当天文数据更新或需要尝试新的网络想法时这套基础设施能节省大量重复劳动的时间让研究更专注于科学本身。寻找宇宙中的“双生子”是一场需要耐心、技巧和强大工具的长跑而机器学习正为我们提供着一双前所未有的“慧眼”。