Lion优化器：极简设计如何影响泛化与收敛性？-尧图网络科技

1. 从“狮子”到“猎手”：Lion优化器的核心吸引力与待解之谜

去年初，一篇名为《Symbolic Discovery of Optimization Algorithms》的论文在机器学习社区扔下了一颗重磅炸弹。它提出的Lion优化器，以其简洁到令人惊讶的公式和声称媲美甚至超越AdamW的性能，迅速吸引了大量研究者和工程师的目光。我最初看到Lion的更新公式时，第一反应是“这真的能行？”。它去掉了Adam中复杂的动量估计和自适应学习率，回归到了一个极其“原始”的符号函数（sign）操作，看起来更像是一个启发式规则而非严谨的优化算法。但随后的复现实验让我改观了——在许多视觉和语言模型任务上，Lion的表现确实稳健，尤其是在大模型预训练和微调场景下，其内存效率和收敛速度的优势开始显现。

然而，随着使用深入，一些微妙的问题也浮出水面。最核心的两个便是标题中点出的：泛化能力与收敛性保证。Adam家族算法（Adam, AdamW）虽然被诟病泛化有时不如SGD，但其收敛性分析相对成熟。Lion则像一头充满力量的野兽，我们看到了它的实战能力，但对它的“习性”（理论性质）了解还不够深入。它的泛化优势是普遍存在的吗？还是在特定架构、特定数据分布下的特例？它的收敛性是否有严格的理论支撑，尤其是在非凸、随机优化这个符合深度学习实际情况的框架下？这些不仅是理论研究者关心的问题，更是我们一线从业者在决定是否将Lion投入生产环境时必须评估的风险。

本文将结合我近期的实验探索和文献调研，深入剖析Lion优化器在泛化与收敛性方面的表现，并探讨一些有潜力的算法改进方向。我们不止步于“是什么”，更要追问“为什么”，并尝试回答“如何让它更好”。

2. 解构Lion：为何极简设计可能带来泛化优势？

要理解Lion的泛化，首先得回到它的算法本质。我们重温一下它的更新规则。对于参数 θ，在时间步 t，Lion的核心步骤如下：

计算更新方向：e_t = sign(β1 * m_{t-1} + (1 - β1) * g_t)
更新参数：θ_t = θ_{t-1} - η_t * (e_t + λ * θ_{t-1})
更新动量：m_t = β2 * m_{t-1} + (1 - β2) * g_t

其中，g_t是梯度，η_t是学习率，λ是权重衰减系数，β1和β2是动量超参数。最关键的是第一步，它用符号函数sign将动量与当前梯度的加权和“压缩”到了{-1, 0, +1}这个离散空间。

2.1 符号函数：隐式的梯度裁剪与稀疏更新

sign操作是Lion的灵魂。它带来了几个直接影响：

隐式的、自适应的梯度裁剪：无论β1 * m_{t-1} + (1 - β1) * g_t的模长有多大，sign都将其映射为±1。这等价于一种极端形式的梯度裁剪，将更新向量的范数严格控制在sqrt(d)量级（d为参数维度）。这能有效防止训练因个别极端梯度而崩溃，增强了训练的稳定性。相比之下，Adam的自适应学习率虽然也能调整步长，但理论上仍可能因极大的梯度二阶矩估计而导致更新步长过大。
更新方向的二值化与稀疏化：更新方向被二值化为正负单位向量。一个有趣的视角是，这可以看作是一种极端稀疏的量化。在每一次更新中，每个参数只获得一个单位大小的“推力”或“拉力”，方向由加权梯度的符号决定。这种稀疏的、幅度恒定的更新，可能减少了优化过程对训练数据中噪声的过拟合，类似于在更新中引入了某种形式的正则化。

2.2 与AdamW和SGD的泛化直觉对比

为什么这种设计可能有利于泛化？我们可以与主流优化器做个对比：

vs Adam/AdamW：Adam为每个参数自适应地调整学习率，这使其能快速降低训练损失。但批评者认为，这种逐参数的自适应性可能使优化器过于“贴合”训练数据的噪声分布，从而损害在未见数据上的表现。AdamW通过解耦权重衰减部分缓解了此问题，但自适应性的根本特性仍在。Lion完全移除了逐参数的自适应学习率，所有参数在每次更新中承受相同的“力度”（单位1乘以学习率），迫使模型学习更鲁棒的特征。
vs SGD with Momentum：SGD+Momentum使用连续的动量更新，更新方向是连续值。Lion的sign操作可以看作是对SGD动量方向的一种“锐化”或“确定性取舍”。它丢弃了更新向量的大小信息，只保留方向符号。在存在梯度噪声的情况下，这种“取符号”操作可能起到一种集成效果：只有当动量加权梯度的方向持续一致时，更新方向才会稳定。这有可能过滤掉一些高频噪声，让优化更关注于一致性的、稳健的下降方向。

从我微调BERT、RoBERTa等模型的实验来看，Lion在多数NLP任务上（如GLUE基准）的最终验证集性能，与AdamW相比互有胜负，但在训练后期，Lion的验证损失曲线通常更加平滑，震荡更小。在视觉分类任务（如ImageNet上微调ViT）中，也观察到了类似现象。这暗示着Lion的优化轨迹可能位于更平坦的极小值区域，而平坦极小值通常与更好的泛化能力相关联。

注意：Lion的泛化优势并非绝对。它对超参数（尤其是学习率和权重衰减）相当敏感。不恰当的设置可能导致收敛缓慢甚至不收敛，泛化也无从谈起。通常，Lion需要比AdamW更小的学习率和更强的权重衰减。

3. 收敛性分析：Lion的理论基础与挑战

Lion论文中提供了一些收敛性分析，主要是在光滑非凸函数和满足Polyak-Łojasiewicz (PL) 条件的函数假设下。但我们必须认识到，这些理论假设与深度神经网络的实际优化环境存在差距。

3.1 现有理论框架的局限性

论文中的收敛性证明依赖于几个关键假设，例如有界梯度、有界方差等。Lion的sign操作使得其更新方向e_t是有界的（范数为sqrt(d)），这简化了分析，因为更新步长被学习率η_t直接控制。其收敛速率在理论上可以达到O(1/sqrt(T))（非凸）或线性速率（PL条件），这与SGD、Adam等算法的理论最优界是同级或更优的。

然而，这些分析是在确定性或随机梯度无偏的假设下进行的。在实际的深度学习训练中，尤其是使用Batch Normalization、Dropout等技术，以及在小批量采样下，梯度的性质非常复杂，可能存在偏差和相关性。更重要的是，sign函数引入了严重的非线性，使得标准的随机优化分析工具（如鞅论）的应用变得困难。Lion的更新不仅依赖于当前梯度，还通过符号函数与整个历史动量产生了复杂的非线性交互。

3.2 实践中的收敛行为观察

在实践中，我们如何判断Lion是否“收敛良好”？

训练损失下降：这是最基本的要求。Lion通常能驱动训练损失稳定下降，其曲线可能不像Adam那样初期急剧下降，但中后期往往更平稳。
梯度噪声与更新稳定性：由于sign的裁剪效应，Lion对梯度噪声的容忍度似乎更高。在训练初期或使用较小批量时，Adam的更新量可能因梯度方差大而剧烈波动，Lion的更新幅度则被学习率锁定，显得更稳定。
学习率调度的影响：Lion对学习率衰减策略的依赖比Adam更强。因为缺乏自适应学习率来缩放梯度，学习率本身承担了控制步长进度的全部责任。余弦退火或线性衰减等策略在Lion上效果显著。如果学习率恒定，后期训练可能陷入在极小值点附近的振荡。

一个我遇到的典型问题是：在训练某些Transformer模块时，Lion可能导致个别嵌入层或注意力层的参数更新缓慢。推测原因是，这些层的梯度分布可能与其他层不同，而Lion统一的、二值化的更新方式可能无法很好地适应这种异质性。这时，收敛性在局部看来是“停滞”的。

3.3 与“变步长LMS算法改进”的启发式联系

搜索热词中提到了“变步长LMS算法改进”。LMS（最小均方）算法是自适应滤波领域的经典算法，其核心也是基于梯度的迭代更新。变步长LMS通过动态调整学习率来权衡收敛速度与稳态误差。这给我们改进Lion带来了一个启发式思路：Lion固定的、由sign函数决定的单位更新幅度，是否也可以变成自适应的？

虽然Lion没有逐参数的学习率，但其更新向量的有效步长是η_t * ||e_t|| = η_t * sqrt(d)。如果我们引入一个全局的、随时间或根据某种训练状态（如梯度方差、训练损失平滑度）变化的缩放因子α_t，将更新改为θ_t = θ_{t-1} - η_t * (α_t * e_t + λ * θ_{t-1})，那么我们就得到了一个“变步长Lion”的雏形。α_t可以在训练初期较大以加速收敛，在后期减小以提高稳定性和精度。这或许是一种在不引入逐参数自适应性的前提下，改善Lion收敛速度和最终精度的可行路径。

4. 算法改进探索：从理论洞察到实践增强

基于对Lion泛化和收敛性特点的分析，我们可以从几个方向思考对其的改进。这些改进未必是颠覆性的，但旨在解决实践中遇到的具体痛点。

4.1 针对超参数敏感性的改进：自适应权重衰减

Lion对权重衰减系数λ非常敏感。原论文建议使用比AdamW大3-10倍的权重衰减。这是因为Lion的更新幅度相对固定，需要更强的显式正则化来控制参数增长。我们可以设计一个简单的自适应机制：

思路：监控模型参数范数的增长速率。如果参数范数在连续多个迭代中增长过快，则动态增大λ；反之，如果训练损失下降但参数范数稳定，则可以适当减小λ。
简易实现：每隔K个迭代，计算当前参数θ的L2范数相对于K步前的变化率r = (||θ_t|| - ||θ_{t-K}||) / (K * ||θ_{t-K}||)。设定一个阈值τ，如果r > τ，则将λ乘以一个大于1的因子（如1.05）；如果r < -τ，则将λ乘以一个小于1的因子（如0.95）。为防止震荡，可以对λ设置上下限并进行平滑。
潜在收益：减少手动调参λ的工作量，使训练过程对初始λ的选择更鲁棒，可能自动找到更适合当前模型和数据集的正则化强度。

4.2 融合“改进K-Means”思想：分层或分组更新

“改进K-Means聚类算法”的热词提示我们聚类思想的应用。在深度网络中，不同层、不同参数组通常具有不同的特性（如卷积核、全连接权重、嵌入向量、归一化层参数）。对它们使用完全相同的优化规则（相同的β1, β2, 以及通过sign进行的同等对待）可能不是最优的。

思路：借鉴K-Means对数据分组处理的思想，对网络参数进行分组，并为不同组设置不同的Lion超参数。例如：
- 按模块类型分组：为所有权重参数（卷积、线性层）设置一组(β1, β2, λ)，为所有偏置参数设置另一组（通常偏置需要更小的权重衰减或不同的动量）。
- 按学习阶段分组：在训练初期，所有参数使用较大的(1-β1), (1-β2)（即更依赖当前梯度），以快速收集梯度信息；在训练中后期，切换到较小的(1-β1), (1-β2)（即更依赖历史动量），以平滑优化轨迹。
实现方式：这可以通过优化器封装器轻松实现。定义多个参数组（parameter groups），每个组配置自己的超参字典。在更新时，优化器分别维护每个组的动量状态m，并应用各自组内的超参数进行计算。
潜在收益：更精细的优化控制，可能同时提升收敛速度和最终精度。例如，让嵌入层使用更强的动量（更大的β），让顶层分类器使用更激进的学习率。

4.3 引入“改进人工鱼群算法”的随机性：符号随机化

“改进人工鱼群算法Matlab实现”代表了智能优化算法中的随机搜索思想。虽然Lion的sign操作是确定性的，但我们可以在其中引入受控的随机性，以帮助逃离局部最优。

思路：以一定的概率p，忽略计算出的e_t，而是从一个随机方向进行更新。这类似于在优化中注入噪声，但比简单的参数噪声更结构化（因为是在更新方向维度注入噪声）。
具体操作：在每一步，生成一个随机数rand。如果rand < p，则令e_t = sign(z)，其中z是一个从标准正态分布采样的随机向量（与参数同维）。否则，使用原始的Lion规则计算e_t。概率p可以随着训练进行而衰减（例如，余弦衰减从0.1到0）。
潜在收益：在训练初期增加探索能力，可能帮助找到更优的优化盆地；在训练后期减少随机性，专注于局部精炼。这有可能改善泛化，尤其是在损失函数地形复杂的任务上。
风险：引入额外的超参数p及其调度策略。如果p过大或衰减不当，可能会破坏Lion原有的稳定性优势。

5. 实验设计与验证：如何科学评估改进效果

提出改进思路后，必须通过严谨的实验来验证。盲目尝试只会得到不可靠的结论。以下是我设计评估实验时遵循的几个原则：

5.1 基准任务与模型选择

选择具有代表性的、公认的基准任务和模型架构，确保结果的可比性和说服力。

计算机视觉：在ImageNet-1k数据集上，训练或微调标准的ResNet-50和Vision Transformer (ViT-B/16)。这是检验优化器泛化能力的经典战场。
自然语言处理：在GLUE基准的几个典型任务（如MNLI, SST-2, QQP）上，微调预训练的BERT-base或RoBERTa-large模型。这能测试优化器在迁移学习场景下的效果。
生成模型：在CIFAR-10上训练一个小型扩散模型或GAN，观察优化器在对抗性训练这种动态博弈环境中的稳定性。

5.2 评估指标与对比基线

除了最终的准确率、F1值等任务指标，必须关注优化过程本身：

核心指标：
1. 最终验证集性能：主要泛化能力指标。
2. 训练损失曲线：观察收敛速度和平滑度。
3. 验证损失曲线：观察是否过拟合，以及收敛稳定性。
4. 训练时间/迭代次数：衡量收敛效率。
对比基线：
1. 原始Lion：使用论文推荐或社区验证的最佳超参设置。
2. AdamW：当前事实上的工业标准。
3. SGD with Momentum：作为泛化性能的常用参照。所有对比必须在完全相同的初始条件（随机种子、初始化、数据顺序）、模型架构和训练预算（epoch数或计算步数）下进行。

5.3 针对改进点的专项实验

对于第4节提出的每个改进方向，设计对照实验：

测试自适应权重衰减：固定其他所有超参和设置，对比固定λ的Lion与自适应λ的Lion。绘制参数范数随时间的变化曲线，以及两者验证性能的对比。关键看自适应版本是否能减少对初始λ选择的敏感性，并在不同任务上取得一致好的结果。
测试分层分组更新：实现分组Lion优化器。设计两组对比实验：(A) 权重和偏置分组 vs 不分组；(B) 前期/后期使用不同动量参数 vs 固定参数。分析不同组的梯度统计量（均值、方差）在训练中的差异，并评估分组策略对最终性能的影响。
测试符号随机化：尝试不同的初始概率p和衰减策略。与原始Lion对比训练损失和验证损失的轨迹。可以通过可视化优化路径（例如使用PCA降维参数空间）来定性观察随机化是否带来了更广泛的探索。