当前位置：首页 > news >正文

LOTUS：基于最优传输与元学习的无监督AutoML模型选择框架

news 2026/6/10 19:58:22

1. 项目概述当无监督学习遇上自动化我们如何“盲选”最佳模型在机器学习的世界里自动化机器学习AutoML已经成为了一个炙手可热的话题。它承诺将我们从繁琐的算法选择、特征工程和超参数调优中解放出来让构建高性能模型变得像“开箱即用”一样简单。然而这个美好的愿景在无监督学习领域遇到了一个根本性的障碍没有标签。想象一下你面前摆着一堆未分类的客户数据或者需要从传感器读数中找出异常模式但你不知道什么是“正确”的答案。传统的AutoML方法无论是基于贝叶斯优化还是进化算法都严重依赖验证集上的性能反馈来指导搜索。在无监督场景下这个“性能反馈”恰恰是缺失的。我们陷入了“盲人摸象”的困境——没有标准如何评判哪个模型更好这正是LOTUSLearning to Learn with Optimal Transport for Unsupervised Scenarios试图解决的痛点。它提出了一种新颖的思路既然我们无法直接评估新数据集上的模型好坏那就去寻找一个“相似”的旧数据集然后把在那个旧数据集上表现最好的模型“借”过来用。这个思路的核心在于两个问题第一如何定义两个无标签数据集之间的“相似性”第二如何高效、准确地找到那个最相似的“老朋友”LOTUS的答案是最优传输和元学习的巧妙结合。它不仅仅是一个工具更是一种方法论为无监督AutoML打开了一扇新的大门尤其适用于聚类和异常检测这两大经典任务。无论你是数据科学家希望快速为未知数据找到一个靠谱的基线模型还是研究者希望探索无监督模型选择的理论边界LOTUS都提供了一个坚实且富有启发性的起点。2. 核心原理拆解最优传输如何成为无监督学习的“量尺”要理解LOTUS我们必须先深入其核心度量工具——最优传输。传统的数据集相似性比较比如欧氏距离或余弦相似度通常要求两个数据集具有完全相同的特征空间和维度。这在现实世界的跨领域数据比较中几乎是不可能的。一个来自生物信息学的基因表达数据集和一个来自工业传感器的振动数据集它们的特征含义、量纲和分布都截然不同直接计算点对点距离毫无意义。2.1 从“搬沙子”到“量结构”最优传输的直观理解最优传输理论最初源于一个古老的“搬沙子”问题如何以最小的成本将一堆沙子源分布搬运成另一堆指定的形状目标分布。在机器学习中这个问题被抽象为度量两个概率分布之间的差异。Wasserstein距离又称推土机距离是其中一种经典形式它计算的是将一个分布“变形”为另一个分布所需的最小“工作量”。然而标准的Wasserstein距离要求两个分布存在于同一个度量空间中。这就像要求两堆沙子必须用同一种沙子、在同一个沙盘里比较局限性很大。LOTUS采用的是一种更强大的变体Gromov-Wasserstein距离。GW距离的精妙之处在于它不比较特征本身的绝对数值而是比较数据内部的结构关系。让我用一个类比来解释假设有两个社交网络一个用英文交流一个用中文交流。我们无法直接比较用户A的英文帖子“Hello”和用户B的中文帖子“你好”的相似度。但是如果我们发现在英文网络中用户A和用户C是紧密好友且经常互动在中文网络中用户B和用户D也存在同样紧密的互动关系。那么即使语言不通我们也能推断出这两个网络在关系结构上可能存在相似性。GW距离做的就是这件事——它通过比较两个数据集内部所有点对之间的距离矩阵例如英文网络内所有用户对的互动频率矩阵 vs. 中文网络的对应矩阵来度量它们整体结构的相似性完全跳过了对特征直接可比性的要求。2.2 从理论到实践GW距离的计算挑战与优化尽管GW距离在理论上非常优雅但其直接计算是一个NP难问题对于现实世界的数据集来说计算成本高得无法承受。LOTUS在工程实现上做了两项关键优化使其变得实用。首先是熵正则化。通过在优化目标中加入一个熵正则项将原本的非凸、离散的优化问题平滑化使其能够通过高效的Sinkhorn算法进行迭代求解。这就像在粗糙的地形上铺了一层光滑的薄膜让“推土机”更容易找到路径。公式上原始的GW距离优化目标min_P Q(P)被改造为min_P [Q(P) - ε * H(P)]其中H(P)是传输计划P的熵ε是控制平滑程度的正则化参数。其次是低秩近似。这是LOTUS实现线性时间复杂度的关键。Scetbon等人提出的低秩Gromov-Wasserstein方法假设最优的传输计划矩阵P可以被分解为三个低秩矩阵的乘积P ≈ Q * diag(1/g) * R^T。其中Q和R是瘦矩阵g是一个概率向量。这个分解将计算复杂度从立方级降低到了线性级。在实践中这意味着即使面对成百上千个样本的数据集LOTUS也能在秒级内完成相似度计算。这一步的取舍在于用一定的精度损失换来了巨大的效率提升而实验证明这种近似对于模型选择任务来说精度已经足够。实操心得参数ε与秩r的选择在实现GW-LR时两个超参数需要关注熵正则化系数ε和低秩近似的秩r。我的经验是ε的选择通常设置在0.01到0.1之间。ε太小优化过程不稳定容易陷入局部最优ε太大则过度平滑会模糊数据集间的真实结构差异。可以从0.05开始在少量验证任务上微调。r的选择秩r决定了近似传输计划的表达能力。一个经验法则是将其设置为min(n, m, 50)其中n和m是两个数据集的样本数。对于大多数中小型表格数据集样本数10000r20到r40通常能取得很好的效果和效率平衡。可以通过观察GW距离值随r增大的变化曲线来选取拐点。2.3 数据预处理用FastICA“洗净”数据凸显本质结构即使有了高效的GW-LR距离直接对原始数据计算仍然可能受到噪声干扰。例如特征尺度不同、存在分类变量、或包含大量无关特征都会污染距离计算。LOTUS在计算距离前对每个数据集统一应用了FastICA预处理。FastICA是一种盲源分离算法旨在找到数据中统计独立的成分。它的作用不是降维虽然输出维度k可以小于原维度d而是特征变换。它将数据投影到一个新的空间这个空间中的各个分量尽可能独立从而剥离了原始特征间的线性相关性并突出了数据内在的、非高斯的分布结构。这对于GW距离来说至关重要因为GW比较的是点与点之间的关系而FastICA预处理能确保这种关系反映的是数据本质的“形状”而非由测量尺度或无关特征带来的虚假关联。在具体操作上对每个数据集D我们学习一个FastICA变换F得到其独立成分表示Z F(D)。然后所有后续的GW-LR距离计算都在这个Z空间中进行。这相当于为所有数据集建立了一个统一的、结构化的“比较平台”。3. LOTUS系统架构两阶段元学习如何运作理解了核心度量后我们来看LOTUS的整体工作流程。它是一个典型的两阶段元学习系统元训练阶段构建知识模型选择阶段应用知识。3.1 元训练阶段构建“算法-数据集”记忆库这个阶段的目标是针对我们拥有标签的历史数据集集合D_meta为每一个数据集D_i找到在某个评估指标L如聚类用AMI异常检测用AUC下最优的机器学习流程A_i*。这里的“流程”包括算法本身及其超参数配置λ_i*。从形式上看这本质上是一个有监督的CASH问题。对于每个历史数据集我们利用其可用的真实标签在定义的搜索空间A中进行优化A_i*, λ_i* argmin_{A in A, λ in Λ_A} L( A_λ(X), y )其中L是评估指标X是特征y是标签。关键点在于这个阶段的“监督”信号标签y仅用于构建知识库A {A_1*, A_2*, ..., A_n*}。一旦知识库构建完成在模型选择阶段面对全新的无标签数据时我们就不再需要任何标签信息。这就像一位经验丰富的医生通过学习和记忆大量已知病例有诊断结果的治疗方案从而获得一种直觉当面对症状相似的新病人时能快速推荐可能有效的疗法。搜索策略的实现LOTUS基于GAMA AutoML框架构建了任务特定的搜索系统LOTUS-Clust和LOTUS-Outlier。用户可以选择随机搜索、进化算法或ASHA等优化策略。以聚类为例其搜索空间涵盖了从经典的K-Means到基于密度的DBSCAN、OPTICS再到层次聚类的AgglomerativeClustering等多种算法每个算法都有其对应的超参数范围如下表所示。系统会在限定时间如1小时内为当前数据集搜索出最优流程。表LOTUS-Clust部分算法搜索空间示例算法关键超参数搜索范围K-Meansn_clusters[2, 21]n_init[‘auto’]max_iter[300, 500]DBSCANeps[0.1, 0.5]min_samples[3, 4, 5, 6, 7, 8]p(Minkowski距离参数)[1, 2]AgglomerativeClusteringn_clusters[2, 21]affinity(距离度量)[‘euclidean’, ‘manhattan’, ‘cosine’, ‘l1’, ‘l2’]linkage(连接方式)[‘ward’, ‘complete’, ‘average’, ‘single’]3.2 模型选择阶段基于相似性的知识迁移当面对一个新的无标签数据集D_new时LOTUS进入模型选择阶段。这个过程清晰而直接预处理对D_new应用与元训练阶段完全相同的FastICA变换F得到其独立成分表示Z_new F(D_new)。计算距离遍历元知识库D_meta中的每一个历史数据集D_i。对每个D_i同样获取其预处理后的表示Z_i。然后计算D_new与D_i之间的GW-LR距离O_i GW-LR(r)(Z_new, Z_i)。寻找最相似者找到使得距离O_i最小的那个历史数据集D_s。即D_s argmin_i O_i。推荐配置将D_s对应的最优流程A_s*直接推荐给D_new使用。A_new* A_s*。整个过程的逻辑闭环在于一个核心假设在数据分布结构上相似的数据集其最优的机器学习模型也相似。LOTUS通过最优传输距离来量化这个“分布相似性”从而实现了从“有监督经验”到“无监督推荐”的跨越。注意事项元数据集的质量与多样性元训练阶段构建的知识库A是LOTUS性能的基石。这里有几个实践要点覆盖度D_meta应尽可能覆盖你目标应用领域可能遇到的各种数据分布类型如球形簇、流形结构、不同密度、不同噪声水平等。如果知识库中完全没有与D_new结构相似的数据集推荐结果可能不佳。规模与计算成本元数据集越大找到相似数据集的可能性越高但模型选择阶段计算所有GW-LR距离的成本也线性增长。需要在覆盖度和计算效率间权衡。对于生产环境可以考虑对元数据集进行聚类只保留各类别的代表性数据集以压缩检索空间。标签质量用于元训练的历史数据集的标签必须可靠。错误的标签会导致知识库中存储的“最优配置”本身就是错误的从而污染整个推荐系统。4. 在异常检测与聚类任务上的实战评测理论再优美也需要实战检验。LOTUS论文在异常检测和聚类两个核心无监督任务上与当前主流方法进行了全面对比。评测方法没有使用简单的平均准确率比较而是采用了更严谨的贝叶斯威尔科克森符号秩检验和临界差异图这能告诉我们方法间差异是否具有实际意义以及统计显著性。4.1 异常检测任务大幅超越传统方法与元学习基线实验使用了ADBench基准中的46个表格数据集。对比基线包括7个经典的异常检测算法IForest, LOF, ABOD等以及当前最先进的元学习方法MetaOD。结果令人印象深刻。临界差异图显示LOTUS取得了所有方法中最好的平均排名。贝叶斯检验ROPE1%给出了更细致的解读LOTUS有约74%的概率性能优于MetaOD约24%的概率两者性能等价仅有约2%的概率MetaOD更优。这意味着在绝大多数情况下LOTUS的推荐都比专门的异常检测元学习系统更可靠。为什么LOTUS能赢我认为关键在于其度量的泛化能力。MetaOD等方法依赖于手工设计的元特征如数据集的统计特性、 landmarking性能等来度量相似性。这些元特征可能无法完全捕捉复杂的数据结构。而GW距离直接度量数据分布的几何形状这是一种更本质、更通用的相似性可能更好地契合了异常检测算法它们通常对数据的局部或全局密度结构敏感的性能关联性。4.2 聚类任务外部指标优化的新标杆在聚类任务中实验使用了57个来自OpenML的数据集。对比基线包括K-Means、DBSCAN等经典算法以及使用内部指标如Calinski-Harabasz指数进行优化的方法。结果同样强劲。LOTUS在优化外部指标如调整互信息AMI方面取得了最佳的平均排名。贝叶斯检验表明LOTUS有超过90%的概率优于强大的基线K-Means和MiniBatchKMeans。一个特别有价值的发现是使用内部指标优化得到的最佳流程其在外部分数AMI上的表现与直接使用LOTUS基于相似性推荐的结果相比并无优势甚至更差。这揭示了从AutoML视角看内部指标和外部指标之间的相关性可能很弱——在一个数据集上优化某个内部指标得到的模型并不能保证其在真实的聚类任务用外部指标衡量上表现好。这凸显了在无标签情况下基于历史经验相似性进行模型选择可能比盲目优化一个可能有误导性的内部指标更为可靠。4.3 性能与效率的平衡除了准确性效率是AutoML系统的另一个生命线。LOTUS的模型选择阶段核心开销是计算GW-LR距离。得益于低秩近似其时间复杂度是线性的O(n)。在我的本地测试中使用Python的POT库数据集样本数约5000特征数50秩r30计算两个数据集间的GW-LR距离通常在1-3秒内完成。对于一个包含上百个历史数据集的知识库为新数据推荐模型的总时间可以控制在几分钟内这对于大多数自动化管道来说是可接受。元训练阶段是离线的、一次性的成本。虽然为每个历史数据集搜索最优流程可能需要数小时取决于搜索空间和时限但这只需要做一次。一旦知识库构建完成线上推荐的速度就非常快。5. 局限、挑战与未来展望尽管LOTUS表现优异但任何方法都有其边界。清醒地认识这些局限能帮助我们在正确的场景下使用它并启发未来的改进方向。5.1 当前方法的局限性对元数据集的依赖LOTUS的性能上限受限于元数据集D_meta的质量和覆盖范围。如果遇到一个与知识库中所有数据集都结构迥异的新数据集分布外样本其推荐可能失效。这被称为“冷启动”问题。计算成本仍存虽然GW-LR已是线性复杂度但对于超大规模数据集样本数10万计算所有点对间的距离矩阵即使是近似的内存和计算开销依然很大。FastICA预处理同样面临可扩展性问题。表格数据的局限当前方法主要针对表格数据。对于图像、文本、图结构等非欧数据需要重新设计适合该模态的分布相似性度量方法GW距离的直接应用可能不理想。“黑箱”推荐LOTUS给出的是一个推荐结果但并没有给出这个推荐的可信度估计或解释例如最相似数据集的距离具体是多少这个相似度是否足够高。在实际应用中用户可能希望有一个置信度分数。5.2 实际部署中的挑战与应对知识库的构建与更新初始知识库从哪里来一个实用的策略是从公共数据仓库如OpenML, UCI收集大量涵盖各领域的带标签数据集进行离线元训练。在线上系统运行后可以设计一个反馈循环当用户对LOTUS的推荐结果进行人工验证或通过少量标注获得性能评估后可以将这个“新经验”(D_new, A_new*)加入到元数据集中实现知识库的持续迭代和增强。超参数敏感性GW-LR中的秩r和熵正则化参数ε以及FastICA的组件数k都是超参数。虽然论文和上文给出了一些经验范围但在特定领域可能需要微调。建议在构建知识库时留出一小部分数据集作为“元验证集”用于调整这些超参数以最大化推荐性能。与领域知识的结合LOTUS是完全数据驱动的。在某些领域专家可能对数据有先验知识例如知道某种异常模式通常对应某种算法。一个改进方向是设计混合系统允许用户输入领域约束或偏好将数据驱动的相似性推荐与规则驱动的过滤结合起来。5.3 未来可能的演进方向从我个人的经验看LOTUS代表了一种非常有力的范式。它的未来可能沿着以下几个方向深化可学习的相似性度量与其固定使用GW距离不如训练一个神经网络以两个数据集的预处理后的样本作为输入直接输出一个“相似性分数”这个网络的目标是使得相似数据集的最优模型也相似。这可以将相似性度量任务本身也变为一个学习问题。跨模态泛化将最优传输与深度表示学习结合。例如先用一个自编码器或对比学习模型将不同模态的数据如图像、序列映射到一个共享的隐空间再在这个隐空间中计算GW距离从而实现跨模态的无监督模型推荐。贝叶斯优化集成将LOTUS作为贝叶斯优化BO的智能初始化器。LOTUS可以推荐一个或多个高潜力的配置作为BO的初始点从而加速整个自动化搜索流程结合了元学习的“经验”和BO的“探索-利用”能力。提供不确定性量化为推荐结果附上一个基于距离的置信区间。例如如果最相似数据集的距离值很大则提示用户“本次推荐置信度较低建议结合其他方法或进行人工检查”。LOTUS为我们展示了一条清晰的道路在缺乏明确优化目标的无人区我们可以转而依靠数据本身的“形状”相似性从历史经验中寻找指南针。它不仅仅是一个工具更是一种应对无监督学习核心挑战的思维方式。随着计算技术的进步和相似性度量方法的创新这种基于分布相似性的元学习框架有望在更广泛的自动化机器学习场景中发挥关键作用。

查看全文

http://www.zskr.cn/news/1375037.html