1. 基于能量路由的在线持续学习:Routing without Forgetting深度解析
持续学习(Continual Learning)是机器学习领域的重要挑战,它要求模型在不断学习新任务的同时,避免遗忘已掌握的知识。随着Vision Transformers(ViTs)成为计算机视觉的主流架构,如何在Transformer框架下实现高效的持续学习成为研究热点。传统方法通常采用参数隔离或重放机制来缓解灾难性遗忘问题,但这些方法在严格的在线学习场景中存在明显局限。
本文将深入解析Routing without Forgetting(RwF)这一创新方法,它通过能量路由机制重新定义了持续学习的实现范式。与主流方法不同,RwF不依赖任务特定的参数模块或重放缓冲区,而是将持续学习重构为特征空间内的动态路由问题。这种方法在现代Hopfield网络的启发下,通过严格凸自由能函数的最小化生成唯一均衡分布,实现了单次前向传播中的路由决策。
1.1 持续学习的核心挑战与现有方案
持续学习面临的核心挑战是灾难性遗忘(Catastrophic Forgetting)——当模型学习新任务时,会覆盖或破坏先前任务中获得的知识表征。这种现象在神经网络中尤为显著,因为网络的参数共享机制使得不同任务的知识会相互干扰。
当前主流的解决方案可分为三大类:
重放机制(Replay-based Methods):保存部分旧任务的样本,在学习新任务时混合使用。典型代表如ER(Experience Replay)和DER++(Dark Experience Replay)。这类方法虽然有效,但需要额外的存储空间,且可能引发隐私问题。
参数隔离(Parameter Isolation):为不同任务分配独立的参数子集。包括:
- 提示调优(Prompt Tuning):如L2P、DualPrompt等方法学习任务特定的提示词
- 适配器(Adapters):在Transformer层中插入小型可训练模块
- LoRA(Low-Rank Adaptation):通过低秩矩阵调整预训练权重
正则化方法(Regularization-based Approaches):如EWC(Elastic Weight Consolidation)通过重要性加权限制关键参数的更新。
这些方法在离线或多次迭代的学习场景中表现良好,但在严格的在线持续学习(Online Continual Learning,OCL)环境下却面临严峻挑战。OCL要求模型:
- 数据以非平稳流的形式到达
- 每个样本通常只观察一次
- 需要立即适应分布变化
在这种约束下,依赖迭代优化的参数隔离策略往往反应迟缓——路由决策需要通过连续的参数更新逐步修正,而单次观察无法提供足够的优化机会。
1.2 RwF的创新思路:从参数隔离到能量路由
RwF提出了根本性的范式转变:将持续学习视为路由问题而非参数隔离问题。其核心思想是:在严格的在线约束下,模型应动态选择适合当前输入的表示子空间,而不需要显式的任务标识符,也不完全依赖累积的参数特化。
具体而言,RwF在Transformer架构中引入了基于能量的联想检索层(受现代Hopfield网络启发),实现了以下突破:
- 输入条件路由:路由提示(routing prompts)通过当前特征序列的单步联想检索生成,而非预先学习的任务条件参数
- 能量最小化:路由决策对应于严格凸自由能函数的最小化,产生闭式解的唯一均衡分布
- 架构平滑性:路由权重连续依赖于输入特征,防止流数据分布变化下的突然表征转换
这种设计带来了关键优势:
- 路由在每次前向传播中重新计算,即使参数尚未收敛,表征选择也能立即适应分布变化
- 检索操作是连续且输入平滑的,有助于缓解流数据漂移下的突然表征转换
- 仅需增加约2.1%的可训练参数,保持参数高效性
1.3 RwF的架构实现
RwF的核心组件是路由增强的Transformer块,其结构如图1所示。给定输入token Zℓ,基于Hopfield的联想检索模块通过对token特征进行能量池化,生成输入条件路由提示Pℓ。这些提示与原始token拼接后送入标准的多头自注意力(MHSA)模块。经过MHSA处理后,只有主干token Zℓ被传播到后续MLP块和下一层,而路由提示Pℓ被丢弃——这种设计确保路由保持输入驱动而非跨任务存储。
数学上,联想路由算子H定义为:
Pℓ = H(Qℓ, Zℓ) = ρ(βQ̃ℓKℓ^⊤)Vℓ其中ρ表示行向softmax算子,β > 0是逆温度参数。路由矩阵Aℓ(Zℓ) = ρ(βQ̃ℓKℓ^⊤) ∈ ℝ^(m×L)为每个查询定义了输入token上的概率分布。
从能量视角看,检索对应于最小化自由能函数:
F(p;q) = -∑pi⟨q̃,ki⟩ + β^(-1)H(p)其中H(p)是香农熵。对齐项鼓励路由分布集中于与当前特征几何最兼容的token(可塑性),而熵项阻止退化的一热分配并促进更平滑的分配(稳定性)。由于负熵在概率单纯形上是严格凸的,能量F存在唯一的全局最小化器p*,由公式3中的softmax分布给出。
2. RwF的性能分析与实验验证
2.1 基准测试与实验设置
研究团队在三个标准的Class-IL基准上评估RwF:
- Split-CIFAR100:10个任务,每个任务10个类
- Split-ImageNet-R:10个任务,每个任务20个类
- Split-ImageNet-S:10个任务,每个任务100个类
实验遵循严格的单次评估协议,使用在ImageNet-21k上预训练的ViT-B/16主干,Adam优化器,批量大小为64。每个任务仅处理一次(每个样本观察恰好一次),完全符合OCL设定。
评估指标包括:
- 最终平均准确率(AFinal):学习完所有任务后,在所有任务上的平均准确率
- 遗忘(Forgetting):训练期间每个任务达到的最佳准确率与最终准确率之间的平均差距
2.2 主要实验结果
表1展示了RwF与最先进方法的比较结果,包括重放基(ER、MIR、DER++)、正则化方法(EWC++)、提示基(L2P、DualPrompt、CODA-Prompt)和适配器方法(Online-LoRA、InfLoRA、APER、EASE)。
在Split-ImageNet-R和Split-ImageNet-S上,RwF分别达到74.09%和61.37%的最终准确率,显著优于DualPrompt(60.88%/42.40%)、CODA-Prompt(66.16%/47.59%)等基线方法。值得注意的是,RwF仅引入约2.1%的可训练参数,远低于CODA-Prompt(5.0%)等组合提示方法。
在Split-CIFAR100上,虽然EASE获得最高准确率(84.81%),但RwF(82.48%)仍保持竞争力。性能差距的缩小可能与CIFAR100的低分辨率和有限空间细节有关——在特征几何提供较少信息路由方向的情况下,动态特征重分配的相对优势会降低。
2.3 少样本与数据稀缺场景下的鲁棒性
表2展示了训练样本逐步减少时(从100%到20%)的性能变化。在所有数据情况下,RwF都保持最高准确率。当数据减少到20%时,RwF仍保持62.29%的准确率,而InfLoRA等方法的性能急剧下降。
这一现象与RwF的架构设计高度相关:提示和适配器方法依赖额外参数的迭代梯度驱动特化,当每个任务的样本减少时,这些参数得不到足够的更新以形成稳定的任务特定表示。而联想路由在每次前向传播中根据当前特征几何重新计算路由决策,不完全依赖对任务数据的重复曝光。
2.4 路由深度与容量的影响
表3研究了HopfieldPooling(HP)层数量和位置对性能的影响。关键发现包括:
- 在早期块中插入HP层(First-k)通常比限制路由到深层(Last-k)获得更好性能
- 在Split-CIFAR100上,k=5时准确率达到峰值(82.89%)
- 在Split-ImageNet-R上,k=7时性能最佳(75.39%)
- 权衡准确率和参数效率后,选择k=3作为默认配置(仅增加~2.1%参数)
这些趋势表明,在共享的、较低级别的表示中,路由最能有效缓解干扰。早期层路由允许在特征传播到更深层、更任务特定的表示之前拦截冲突。
3. RwF的局限性与未来方向
尽管RwF在多个基准上表现出色,但在细粒度分类任务(如CUB-200)上效果欠佳。这是因为:
- HopfieldPooling路由机制通过相似性加权组合聚合token特征,可能平滑高度区分的局部细节
- 细粒度类别共享相似的高级特征分布,可能导致路由吸引子在类别间重叠
未来可能的改进方向包括:
- 结合局部特征保留机制,增强对细粒度差异的捕捉能力
- 探索分层路由策略,在不同语义级别实施差异化路由
- 将能量路由扩展到多模态持续学习场景
4. 实践建议与实现要点
对于希望在项目中应用RwF的研究者和工程师,以下是从论文中提炼的关键实现建议:
路由层配置:
- 在ViT-B/16架构中,前3个Transformer块插入HopfieldPooling层
- 设置路由提示维度m=30,逆温度β=1/√d(d为特征维度)
- 保持关键投影矩阵WK和WV固定不变,防止路由相似空间漂移
训练技巧:
- 使用Adam优化器,初始学习率根据任务复杂度调整
- 批量大小建议设置为64,平衡训练稳定性和计算效率
- 在线学习场景中避免使用学习率调度,保持持续适应能力
架构调整:
- 对于高分辨率输入,可适当增加路由层数(k=5-7)
- 在计算资源受限时,可减少路由提示数量(m=20)以降低开销
- 对于特别长的token序列,考虑分块路由以提高效率
重要提示:虽然保持WK和WV固定能获得稳定路由,但这限制了模型适应新任务相似性空间的能力。在实践中可尝试部分微调这些投影,但需密切监控路由稳定性。
RwF的成功实践标志着持续学习研究的重要转折——从"存储"范式(知识编码在静态参数中)转向"路由"范式(动态重组内部表示流)。这种基于能量的路由机制为在线学习场景提供了一种结构合理、参数高效的解决方案,在不依赖任务标识或重放缓冲区的情况下实现了稳定的知识积累。随着Transformer架构在各领域的普及,这种路由思想有望在更广泛的持续学习场景中产生深远影响。