当前位置：首页 > news >正文

基于主动学习与XGBoost的系外行星智能分类系统

news 2026/6/15 7:48:01

在系外行星研究中，识别潜在宜居行星是一项极具挑战性的任务。传统方法需要天文学家对大量行星候选体进行人工标注，这既耗时又昂贵。我们团队开发了一种基于主动学习（Active Learning）的智能分类系统，能够显著减少标注工作量，同时保持高分类准确率。

这个系统的核心创新点在于将边缘采样（Margin Sampling）策略与XGBoost算法相结合，通过迭代选择最具信息量的样本进行标注。在实际测试中，我们的方法仅需约60-65个标注样本就能达到接近全监督学习的性能，相比随机采样方法减少了约80%的标注需求。

关键突破：系统在保持高召回率（0.929）的同时，将标注成本降低到传统方法的五分之一，这对天文观测资源分配具有重大意义。

我们的主动学习系统采用经典的池式学习（Pool-based）架构，包含三个核心组件：

初始种子集：从3,000多颗已知行星中筛选出20颗最具代表性的样本作为初始训练集，涵盖不同温度区间、大小和轨道特征。
查询策略引擎：实现边缘采样算法，计算每个未标注样本的预测概率差值：
```
margin = P(habitable) - P(non-habitable)
```
优先选择margin值接近零的样本（即模型最不确定的案例）。
模型更新模块：采用增量学习方式，每标注5个新样本就重新训练一次XGBoost模型，避免频繁更新带来的计算开销。

我们特别设计了异步标注流程，允许天文学家在模型训练的同时进行新样本标注，显著缩短了迭代周期。系统平均每次迭代耗时仅15分钟（使用NVIDIA T4 GPU），使得当日标注当日反馈成为可能。

针对天文数据特性，我们对标准XGBoost进行了三项关键改进：

类别平衡处理：
- 采用加权交叉熵损失函数，为正类（宜居）分配10倍于负类的权重
- 设置scale_pos_weight=9.3（基于数据集中正负样本比例）
- 使用分层抽样确保每棵决策树都能看到正样本

特征工程优化：

# 关键特征变换示例 df['scaled_flux'] = np.log10(df['incident_flux'] + 1e-6) df['density_ratio'] = df['planet_density'] / df['stellar_density']

超参数配置：

{ "max_depth": 3, "learning_rate": 0.1, "subsample": 0.8, "colsample_bytree": 0.8, "objective": "binary:logistic", "eval_metric": "logloss" }

这种浅树宽采样配置有效防止了在稀疏正样本上的过拟合。

边缘采样是系统性能提升的关键。我们实现了动态margin阈值调整算法：

这种自适应策略在初期快速定位决策边界，后期精细调整模型。实际测试显示，相比固定阈值策略，动态调整使召回率提升12%。

我们从NASA系外行星档案中提取了15类核心特征，分为三大维度：

行星物理特性：

轨道动力学参数：

恒星系统环境：

原始天文数据存在大量缺失值和测量误差，我们建立了严格的数据清洗管道：

异常值修正：

# 基于物理定律的合理性检查 def validate_planet(row): if row['planet_radius'] > 20 and row['planet_mass'] < 0.1: return False # 不物理的气态极小行星 return True

经过严格对比测试，我们确定了以下技术组合：