当前位置：首页 > news >正文

基于随机森林与特征工程的TESS变星自动分类：从百万光变曲线中识别新天体

news 2026/6/10 16:02:37

1. 项目概述当机器学习遇见TESS如何从百万光变曲线中“大海捞针”如果你也处理过TESS凌星系外行星巡天卫星的数据那你一定对那种“幸福的烦恼”深有体会动辄上百万条光变曲线每一条都代表着一颗恒星在数十天内的亮度变化。传统的人工目视分类面对这个量级无异于大海捞针。这正是我们这项工作的起点——如何高效、准确地从TESS Sectors 1-57的约105万条2分钟采样光变曲线中系统性地识别并分类变星。变星简单来说就是亮度会随时间变化的恒星。这种变化可能源于双星相互遮挡食双星、恒星自身的周期性脉动如造父变星、盾牌座δ型变星或是表面星斑导致的旋转调制自转变星。对它们进行分类不仅是编个目录那么简单更是理解恒星内部结构、检验演化理论、甚至测量宇宙距离的基石。过去几年我们团队的核心目标就是为TESS的这片数据海洋绘制一幅精细的“变星地图”。我们选择的核心工具是随机森林。为什么不选更“时髦”的深度学习原因很实际我们需要在分类性能、计算效率和结果的可解释性之间取得平衡。随机森林基于决策树集成训练速度快能直接处理我们人工设计的物理特征如傅里叶参数、偏度等并且能给出特征重要性排序让我们知道到底是“振幅比”还是“相位差”在区分某两类变星时起了关键作用。这种“白盒”或至少是“灰盒”的特性对于天文这种强物理驱动的领域至关重要我们不想得到一个无法理解其判断依据的“黑箱”模型。最终我们构建了一个包含超过3万颗已分类变星的星表其中包含了6046颗EA型食双星、3859颗EW型食双星、2058颗经典造父变星CEP、8434颗盾牌座δ型变星DSCT、482颗RRab型天琴座RR变星、416颗RRc型天琴座RR变星以及9694颗自转变星ROT。更重要的是通过与现有星表交叉比对我们确认了其中14092颗是首次被识别出的新变星。这篇文章我就来详细拆解我们是如何一步步实现这个目标的从数据预处理、特征工程、模型构建到后处理优化分享其中踩过的坑和总结出的实战经验。2. 数据基石TESS光变曲线的处理与特征工程任何机器学习项目的成败一半取决于数据质量。对于变星分类我们面对的不是规整的表格数据而是一条条随时间起伏的“曲线”——光变曲线。这一步处理得好后续分类事半功倍处理不好噪声都会被模型当成信号。2.1 TESS数据获取与初筛我们的数据来源于MASTMikulski Archive for Space Telescopes数据库涵盖了TESS前57个观测扇区。每个扇区持续约27.4天我们使用的是经过系统误差校正的PDCSAP_FLUX数据。直接下载下来的FITS文件包含时间、流量和误差等信息。第一步就是数据清洗。并非所有目标都适合分析我们主要剔除了那些数据点严重缺失gap过多或明显被已知的仪器系统效应如动量轮卸载事件严重污染的曲线。这里有个小心得不要一开始就用过于严苛的筛选条件比如基于某个统计量如标准差粗暴地剔除“平静”的星。因为有些变星尤其是长周期或小振幅的可能看起来就很“安静”过早剔除会导致样本偏差。为了获得有标签的训练数据我们将TESS目标与Gaia DR3变星星表进行了交叉匹配匹配半径为3角秒。这一步为我们提供了9022颗食双星EB、1528颗脉动变星和3744颗自转变星ROT的“已知答案”。一个关键细节是由于TESS不同扇区会对同一片天区进行重复观测我们的数据集中存在大量重复目标。我们没有简单地去重而是将其视为一种天然的数据增强。因为不同扇区的观测条件、噪声水平略有差异同一个目标在不同扇区的光变曲线可以看作是同一样本的不同“视角”这能有效提升模型对于观测噪声的鲁棒性。2.2 周期搜索从时序到相位的转换变星分类周期是灵魂。将一条随时间变化的光变曲线按照其固有周期折叠起来其物理形态才会清晰呈现。我们采用广义Lomb-ScargleGLS方法进行周期搜索这是处理非均匀采样时序数据的标准工具。我们的周期搜索分两步走这是保证精度和效率的关键粗搜索在0.01到33.33天的范围内进行全局搜索。设置最大周期为33天略长于一个扇区是为了避免因观测窗口限制而漏掉长周期信号。这一步使用一阶傅里叶项nterms1快速定位功率谱中峰值最高的频率候选。精搜索在第一步找到的最佳频率f0附近进行精细化搜索。搜索范围定为[f0/1.9, f0*2]并使用五阶傅里叶项nterms5进行拟合。这一步能更精确地确定周期特别是对于光变曲线形状复杂的变星如EA型食双星。注意对于食双星GLS周期图经常返回其真实周期的一半因为食双星的光变曲线在一个周期内通常有两个相似的极小值。因此在后续相位折叠和特征计算时对于被分类为食双星的目标我们将其周期直接乘以2。这是一个基于先验知识的必要校正。我们记录了两次搜索得到的最大功率值power1和power2。理论上power值越接近1数据具有周期性的可能性越大。但我们发现仅凭power值来区分变星与非变星恒定星会误伤很多信号较弱的真实变星。因此我们没有在周期搜索阶段就进行严格的变/非变筛选而是将所有目标的周期和功率值都保留下来交给后续的分类模型去判断。这避免了早期过滤可能带来的信息损失。2.3 特征工程把光变曲线“翻译”成机器能懂的数字随机森林不能直接“吃”一条曲线它需要输入特征向量。特征工程的目标是把光变曲线的形态学信息和物理信息用一组有区分度的数字表达出来。我们主要提取了以下几类特征傅里叶参数这是刻画周期性光变曲线形状的利器。我们将相位折叠后的光变曲线用四阶傅里叶级数进行拟合y a0 Σ [ai*sin(2πif) bi*cos(2πif)](i1 to 4) 拟合后我们将系数转换为振幅Ai sqrt(ai² bi²)和相位φi arctan(bi/ai)。然后我们计算了振幅比Aij Ai/Aj和相位差φij φi - φj * i/j。例如A21二次谐波与基波的振幅比对于区分EW型食双星接近正弦波A21小和RRc型变星也接近正弦波但谐波成分可能不同就有参考价值。形态学统计量偏度Skewness描述光变曲线分布的不对称性。EA型食双星由于有平坦的极大值和陡峭的极小值偏度通常较负。峰度Kurtosis描述分布的尖锐程度。某些具有尖锐峰值的变星如某些脉动变星峰度较高。振幅Amplitude我们不是简单用最大最小流量差而是通过四阶傅里叶拟合后的曲线来计算这能抵抗野值的影响。拟合优度r²衡量傅里叶模型对原始数据的拟合程度。周期性好、形状规则的变星如EWROTr²值高噪声大或无规律的恒星r²值低。自定义特征c_bin这是针对食双星子类分类设计的一个“巧思”。我们将归一化并分箱bin到100个相位的折叠光变曲线统计其亮度值低于0.5中位值的数据点个数。对于EW型接触双星光变曲线近似正弦形或均匀分布的数据这个值会接近50。而对于EA型分离双星食既阶段很短其光变曲线大部分时间处于高亮度只有很短时间低于中位值因此c_bin值会远小于50。通过统计样本分布我们找到了一个明显的分界点c_bin20用于初步区分EA和EW。实操心得特征不是越多越好。我们最初也尝试引入颜色指数BP-RP、有效温度等物理参数但发现TESS数据中这些信息大量缺失强行插值会引入更大噪声。最终我们坚持使用完全从光变曲线自身推导出的特征保证了特征集的完备性和一致性。此外特征标准化减去均值除以标准差对随机森林虽然不是必须但能加速训练并使得基于距离的后续分析如有更方便。3. 随机森林模型构建与分层分类策略有了高质量的特征接下来就是搭建分类器。我们选择随机森林看中的就是它的稳定性和效率。但面对7个变星子类的不平衡数据直接扔进去训练效果会很差。我们采取的是“分而治之”的分层分类策略。3.1 第一层四大主类粗分类我们首先训练一个随机森林模型将目标分为四大类食双星EBs、脉动变星Pulsations、自转变星ROT和非变星Non-variables。训练集构建正样本来自与Gaia交叉匹配的EB、Pulsation和ROT数据。负样本非变星的构建需要技巧。我们不能简单随机挑选那样会混入未被识别的变星。我们设定了一个保守的阈值power2 0.01且r² 0.01。同时满足这两个条件的我们才认为是高置信度的非变星。由于脉动变星通常拟合优度r²很高我们对其训练样本额外要求r² 0.64以确保样本纯净。处理样本不平衡四类样本数量差异巨大。我们采用分层采样每类抽取1000个样本构成一个4000条光变曲线的平衡训练集。测试集占20%。模型训练与评估使用scikit-learn的RandomForestClassifier设置n_estimators700决策树数量max_features5每棵树考虑的最大特征数。我们特别关注袋外误差OOB Score这是一种在训练过程中利用自助采样未被选中的数据来进行的内部验证非常方便且无偏。最终模型OOB Score达到了0.9178。测试集表现在800个测试样本上模型表现良好。特别是对脉动变星的查准率Precision和查全率Recall都达到了98%。自转变星由于光变形状多样且易与噪声混淆性能稍低查准率85%查全率89%这在预期之内。用这个模型对整个105万数据集进行预测初步得到了约50万颗EB候选体、2.7万颗脉动变星候选体和45万颗ROT候选体。这个数字显然包含了大量假阳性尤其是ROT类别中混入了很多非变星。但这没关系第一层模型的目的就是“宁可错杀不可放过”把可能的目标筛选出来交给后续更精细的子类分类器去净化。3.2 第二层食双星EBs的子类划分EA vs. EW从EB候选体中区分EA分离双星和EW接触/半接双星是经典难题。我们主要依靠之前设计的c_bin特征。c_bin阈值分割计算每个EB候选体的c_bin值。如图3原论文图3的统计分布所示在c_bin20处存在一个明显的极小值自然地将样本分为两组。我们将c_bin 20的划分为EA候选体c_bin 20的划分为EW候选体。净化非变星经过第一层分类EB类中仍混有少量非变星。我们利用r²进行过滤剔除r² 0.1的目标非变星的拟合程度差。处理短周期EW我们发现分类结果中包含大量周期小于0.12天的“EW”。根据Zhang et al. (2023)的研究EW型食双星的周期不应短于0.12天。这些短周期目标很可能是被误分类的盾牌座δ型变星DSCT因为两者的光变曲线形状非常相似。因此我们将周期0.12天且被分类为EW的目标重新划归到后续的DSCT类别中进行处理。经过以上步骤我们得到了6770颗EA和2971颗EW的初步结果。3.3 第三层脉动变星Pulsations的精细分类脉动变星包含CEP、DSCT、RRab、RRc等多个子类它们的周期和光变形状各有特点。我们采用了“周期初筛 - 模型区分 - 形态学修正”的流程。周期初筛与长周期CEP识别首先将所有周期大于1天的脉动变星候选体直接归类为经典造父变星CEP。因为DSCT、RR Lyrae都是短周期变星而TESS一个扇区的观测长度限制了我们对更长周期信号的可靠探测。净化非变星针对脉动变星我们利用归一化后的振幅Amplitude特征。对振幅分布进行统计拟合后如图4发现振幅低于0.75的目标数量有一个陡增这很可能对应着噪声主导的非变星。因此我们将振幅阈值设为0.75剔除了大量低振幅的假信号。RR Lyrae与DSCT的分离难题我们最初尝试用一个小型随机森林仅用傅里叶参数不用周期来区分DSCT、RRab和RRc。但模型在测试集上的OOB Score只有0.76875效果不理想。这说明对于周期重叠区约0.2-0.3天的目标仅靠光变形状特征难以区分。引入强周期先验我们决定引入天体物理先验知识。根据Gaia和ASAS-SN等星表的研究DSCT的周期通常小于0.3天而RRab的周期通常大于0.42天RRc在0.2-0.42天之间。因此我们实施规则将周期0.3天且被模型预测为DSCT的目标重新标记为“其他”通常是RR Lyrae。将周期0.2天且被模型预测为RRab或RRc的目标重新划入DSCT候选池。区分RRab和RRc这两者周期有重叠主要靠光变曲线形状区分。RRab的光变曲线上升支陡于下降支不对称RRc则更接近对称的正弦波。我们用一个单正弦波去拟合分箱后的光变曲线计算拟合优度r²_sine。RRc的r²_sine会更高。通过分析统计分布我们设定阈值0.868来区分两者。最终裁定短周期目标参考ASAS-SN和ZTF星表周期小于0.12天的目标中DSCT占绝对主导95%。因此我们最终决定将所有周期小于0.12天且未被归类为EA的目标统一划为DSCT。这是一个基于大样本统计的实用策略虽然可能产生极少误分类但保证了DSCT样本的纯净度和完整性。最终我们得到了980颗CEP、8347颗DSCT、457颗RRab和404颗RRc。3.4 第四层自转变星ROT的净化ROT的光变曲线形状千变万化且易与许多其他类型混淆。我们的目标不是对ROT再进行子类划分这非常困难而是从第一层分类得到的海量ROT候选体中尽可能剔除混入的非变星。ROT通常具有清晰的正弦状周期信号因此其傅里叶拟合优度r²和GLS功率power2都会很高。我们设置了相对严格的双重阈值power2 0.7且r² 0.7。同时同样应用“周期0.12天归为DSCT”的规则。经过过滤我们从海量候选体中最终认了12348颗高置信度的自转变星。4. 结果验证、目视检查与新发现机器学习分类不是终点尤其是对于科学数据人工复核至关重要。我们花费了大量时间对分类结果进行目视检查Visual Inspection, VI。4.1 目视检查的流程与价值我们开发了一个简单的交互式工具将每个候选体的原始光变曲线、相位折叠曲线和GLS周期图并排显示。检查者需要判断分类是否正确根据光变曲线形状、周期和已知的各类变星特征进行判断。周期是否准确检查相位折叠曲线是否对齐良好。对于EA型食双星有时GLS会找到半周期需要手动校正。是否存在多周期或类型变化有些目标在一个扇区显示为一种类型在另一个扇区显示为另一种如图6中的TIC 238853963在Sector 1是CEP在Sector 27是ROT。还有些目标本身就是多周期变星如图7我们选择其中最显著的周期进行分类。目视检查不仅修正了模型的错误还让我们发现了模型系统的误分类模式。例如大量CEP被错误地分类为EW。这是因为某些CEP的光变曲线形状特别是基于较短时间基线的观测与EW非常相似如图8。这是地面望远镜巡天数据中也常见的误分类问题在TESS的27天观测窗口下依然存在。4.2 编目与交叉验证经过目视检查净化后我们得到了最终的纯净星表6046颗EA3859颗EW2058颗CEP8434颗DSCT482颗RRab416颗RRc9694颗ROT。我们将它们分为两个表一个包含在单一扇区表现出单一类型变光的目标另一个包含在不同扇区表现出不同类型变光的目标。我们将我们的星表与多个权威星表进行交叉匹配与Prša et al. (2022)的TESS食双星星表比对有3610颗目标分类一致这验证了我们方法的可靠性。同时我们发现了6245颗新的食双星。与Gaia DR3、VSX、ZTF、ASAS-SN等综合比对共有16298颗目标能在其他星表中找到对应。这意味着有14092颗目标是我们首次发现并分类的变星这是本项目最重要的成果之一。4.3 科学图表分析我们将与Gaia交叉匹配后的目标绘制在赫罗图H-R Diagram和颜色-周期图上如图9。这些图表显示我们的变星样本在赫罗图上分布在预期的演化序列上例如RR Lyrae集中在水平分支DSCT位于主序带上方的不稳定带。在颜色-周期图上不同类型的变星形成了清晰的序列例如CEP著名的周光关系、RRab和RRc的分离。这从侧面印证了我们分类结果的物理合理性。5. 经验总结、挑战与未来展望回顾整个项目从数据下载到最终星表发布是一个典型的“数据密集型天文发现”流水线。以下是几点核心经验与思考成功的关键点分层分类策略直接进行7分类效果很差。先进行“变星/非变星”以及“三大类”的粗分再针对每类的特点设计专门的特征和规则进行细分这种策略极大地提升了整体分类精度和可操作性。特征工程与领域知识结合c_bin、基于周期的先验过滤、利用r²_sine区分RRab/RRc等都是将天体物理先验知识转化为有效特征或规则的典范。纯粹的“端到端”机器学习在天文领域往往不如这种“物理引导数据驱动”的混合方法。目视检查的必要性无论模型指标多好对于科学数据尤其是要公开发布的星表人工复核是不可或缺的最后一道防线。它能发现系统性的模型偏差并捕捉到机器难以识别的特殊案例如多周期变星、类型变化星。遇到的挑战与解决方案类别不平衡通过分层采样构建平衡训练集以及在后续规则中引入阈值如振幅0.75来净化样本。相似形态的混淆CEP vs. EW DSCT vs. 短周期EW/ROT。解决方案是结合强周期先验DSCT0.3d, EW0.12d和大样本统计规律短周期目标绝大多数是DSCT。长周期探测限制TESS 27天的观测窗口限制了对长周期变星如部分EA Mira型变星的探测。我们的星表在长周期端是不完备的这在结论中需要明确说明。未来可以改进的方向特征融合尝试引入更多特征如小波变换系数、符号化聚合近似SAX表示、或者从相位折叠曲线图像中提取的卷积特征CNN与现有特征融合可能进一步提升对复杂形状的区分能力。半监督/自监督学习我们目前严重依赖Gaia的标签。未来可以探索利用大量无标签的TESS数据通过自监督学习预训练一个特征提取器或许能发现更鲁棒的特征表示。处理多周期与变类型目标当前方法只提取一个主周期。对于多周期变星如脉动食双星需要开发能同时拟合多个频率的模型。对于类型变化的目标可以考虑将其标记为特殊类别或开发时序分类模型。模型可解释性深化虽然随机森林提供了特征重要性但我们可以进一步使用SHAP等工具量化每个特征对单个样本分类决策的具体贡献从而更深入地理解分类边界。这个项目让我深刻体会到在现代天文学中机器学习不是一个可以独立存在的“黑魔法”它必须深度嵌入到科学问题、物理理解和数据处理流程中。最有效的方案往往是那个最懂得结合领域知识、最朴实但也最扎实的方案。我们提供的这份包含数万颗变星、其中超过1.4万颗为新发现的星表只是TESS数据宝藏挖掘的开始。希望我们构建的这套流程和开源代码能为其他同行提供一个可复现的基准共同推动海量时域天文数据的自动化分析。

查看全文

http://www.zskr.cn/news/1377511.html