当前位置：首页 > news >正文

序数回归实战：从KNN阈值优化到神经网络模型全解析

news 2026/5/25 5:47:29

1. 项目概述当回归遇上“有序”世界在机器学习的工具箱里回归和分类是两大基石。回归预测连续值比如房价、温度分类预测离散标签比如猫、狗、汽车。但现实世界并非总是非黑即白有一种特殊的数据类型常常被夹在中间——序数数据。想象一下你正在评估一款游戏的怪物强度等级分为“简单”、“普通”、“困难”、“噩梦”。这些标签不仅是类别它们之间还存在明确的顺序关系“噩梦”肯定比“困难”强“困难”又强于“普通”。这种“有序的类别”就是序数数据。传统的回归模型如线性回归、KNN回归输出一个连续值直接用它来预测“噩梦”等级就像用尺子量体重单位都对不上。而直接套用多分类模型如逻辑回归又会粗暴地忽略“简单”和“噩梦”之间的内在顺序关系把“噩梦”误判为“简单”的代价可能远高于误判为“困难”。这就是序数回归Ordinal Regression要解决的核心问题如何让模型既理解类别之间的顺序又能做出合理的预测。我最近在一个游戏平衡性分析的项目中深入实践了这块内容目标是根据怪物的各项属性如生命值、攻击力、防御力来预测其官方设定的挑战等级一个从-1到21的有序整数。这听起来像个回归任务但输出必须是有序的整数等级直接回归再四舍五入效果很差。于是一场从经典KNN回归出发深入到阈值优化迷宫最终探索多种专用神经网络模型的旅程就此展开。本文将为你拆解其中的核心原理、实操细节以及我踩过的那些坑无论你是数据科学新手还是想深化对序数问题理解的从业者都能找到直接的参考价值。2. 基石与挑战KNN回归与序数映射的天然矛盾2.1 KNN回归的核心机制与距离的艺术K近邻回归KNN Regression的思想直观得惊人要预测一个新样本点的值就在训练集里找到它的k个“最近”的邻居然后用这些邻居的标签值的平均值作为预测值。当k1时预测结果就是最近那个点的值模型完全依赖于局部最近的一个样本。这里的关键在于如何定义“近”。距离度量Distance Metric的选择直接决定了模型的“世界观”和性能。欧氏距离就是我们最熟悉的直线距离。在特征空间里它计算两点之间的几何距离。公式是 √(Σ(x_i - y_i)²)。它对于各向同性的数据即各个特征的重要性相似且尺度一致很有效但对特征尺度差异非常敏感。如果“攻击力”范围是0-100而“魔法抗性”范围是0-1那么欧氏距离会几乎完全被“攻击力”主导。曼哈顿距离也叫城市街区距离计算的是各维度绝对差之和公式是 Σ|x_i - y_i|。它比欧氏距离对异常值更不敏感想象在网格状的城市街道上行走你不能斜穿大楼只能沿着街道走走的就是曼哈顿距离。闵可夫斯基距离这是欧氏距离和曼哈顿距离的泛化形式公式是 (Σ|x_i - y_i|^p)^(1/p)。当p2时它就是欧氏距离当p1时它就是曼哈顿距离。通过调整p你可以在不同距离概念间平滑过渡。在我的怪物数据项目中经过标准化处理后欧氏距离和曼哈顿距离的表现差异不大但欧氏距离在计算上更高效且与后续一些核方法的理念更契合因此被选为默认度量。另一个提升点是距离加权。基础的KNN回归对所有k个邻居一视同仁。但直觉告诉我们离查询点更近的邻居应该拥有更大的话语权。因此我采用了反距离加权策略每个邻居的权重与其到查询点距离的倒数成正比。具体实现时为了避免距离为0导致权重无穷大通常会在分母加上一个很小的平滑项ε。这样预测值就是所有邻居标签的加权平均使得预测结果更聚焦于局部最相似的那些样本。2.2 从连续值到有序整数阈值映射的难题当我们训练好一个KNN回归模型它会对一个新的怪物预测出一个如“12.7”这样的连续值。我们的目标等级是整数比如13级。最直接的想法就是四舍五入。在数学上这就是使用一个固定的0.5作为全局阈值任何预测值x如果其小数部分小于0.5则向下取整大于等于0.5则向上取整。注意这个“0.5”的阈值隐含了一个很强的假设——模型在所有等级上的预测误差是均匀且无偏的。也就是说模型不会系统性地高估低级怪或低估高级怪。然而现实数据往往很“骨感”。在我的游戏数据集中低级怪物如1-5级的数量远远多于高级怪物如15-20级这是一个典型的不平衡回归问题。模型在训练时为了最小化整体误差如均方误差会倾向于让预测值向样本密集的区域即低等级靠拢。这导致了一个现象对于真正的高等级怪物模型的连续预测值可能会系统性地偏低。例如一个21级的Boss模型可能只预测出19.3。此时如果还用0.5作为阈值19.3会被舍入到19级产生2级的误差。但如果我们将阈值调低比如设为0.3那么19.3就会因为19.3 - 19 0.3 0.3而被“推上”20级误差缩小到1级。这就引出了阈值优化的核心思想那个“最佳”的舍入点不一定是0.5而应该由数据分布和模型误差模式共同决定。对于有序的K个等级例如1到K我们实际上有K-1个阈值每个阈值t_i位于整数i和i1之间用于决定预测值x是归为i级还是i1级。3. 阈值优化实战从启发式搜索到图论求解面对不平衡数据下固定阈值的乏力我探索并实现了多种阈值优化策略其复杂度和效果层层递进。3.1 策略一全局单一最优阈值这是对数学四舍五入的第一个改进。思路很简单在模型训练完成后我们在一个验证集上遍历一个候选阈值范围例如从0.1到0.9步长0.05用每个阈值去舍入模型的连续预测值并计算在验证集上的性能指标如平均绝对误差MAE。然后选择那个让指标最优的阈值作为最终模型在所有数据上使用的全局统一阈值。实操心得这个方法实现简单能快速带来提升。在我的项目中它将基线MAE降低了约8%。但它依然是一个“一刀切”的方案假设所有等级区间的最佳舍入点相同。当不同等级区间的误差模式差异很大时例如模型对中级怪预测很准对两头怪预测有偏它的效果就会受限。3.2 策略二基于超参数优化的每级独立阈值既然一个阈值不够很自然的想法就是为每一对相邻等级如1和2之间2和3之间……都学习一个独立的阈值。我们可以把这K-1个阈值直接视为模型的超参数。我使用了Optuna框架中的Tree-structured Parzen Estimator算法来优化这组阈值。TPE是一种基于序列模型的贝叶斯优化方法特别适合优化高维、离散且评估成本较高的超参数空间。其核心思想是根据历史评估结果分别对“好”的参数组和“坏”的参数组建立概率密度模型然后基于这个模型来采样更可能带来提升的新参数组。操作流程定义搜索空间每个阈值t_i都在(0, 1)区间内。定义目标函数给定一组阈值在验证集上计算舍入后的MAE。运行TPE优化进行一定轮数如100轮的搜索寻找使MAE最小的那组阈值。踩坑记录维度灾难当类别数K很大时我的项目有23个等级即22个阈值搜索空间呈指数增长优化变得非常困难且耗时。TPE虽然高效但仍需要足够的试验次数才能收敛到一个不错的解。随机性贝叶斯优化的结果依赖于初始采样每次运行可能找到不同的局部最优解缺乏确定性。过拟合风险在验证集上过度优化这几十个阈值很容易导致在测试集上表现下降。需要严格的交叉验证或预留一个不参与阈值搜索的测试集。3.3 策略三基于图最短路径的确定性阈值优化为了克服超参数优化的随机性和计算成本我设计并实现了一种将阈值优化问题转化为图最短路径问题的确定性方法。这个方法的核心优势是高效和结果唯一。问题形式化假设我们有N个样本的真实序数标签y整数和回归模型预测的连续值r_hat。我们的目标是找到一组有序的阈值{a_1, a_2, ..., a_{K-1}}使得将所有r_hat按照这组阈值舍入后得到的整数预测y_hat与真实y之间的绝对误差之和最小。图构建与求解定义候选阈值集合R我们预先定义一个离散的、精细的候选阈值集合例如R [0.05, 0.10, 0.15, ..., 0.95]。这相当于我们允许阈值只能从这些“格点”中选取大大缩小了搜索空间。创建图节点图的每一层代表一个等级间隔例如第0层代表等级0和1之间。每一层上有多个节点每个节点对应一个候选阈值r ∈ R。因此节点可以表示为(r, i)其中i是层索引。创建有向边并计算权重如果存在一条从节点(r, i)到节点(r, i1)的边其含义是所有预测值落在[r, r]区间内的样本都被舍入到等级i。这条边的权重就是所有这些样本被归为等级i所产生的绝对误差之和。具体计算为Σ|y_j - i|其中j满足 r ≤ r_hat_j r。添加源点和汇点添加一个虚拟的源点连接到第一层i0的所有节点添加一个虚拟的汇点让最后一层iK-2的所有节点连接到它。源点到第一层节点的边权重为0最后一层节点到汇点的边权重也为0。求解最短路径使用Dijkstra算法寻找从源点到汇点的最短路径即权重和最小的路径。这条路径上经过的每一层所选择的节点对应的r值就是我们要找的最优阈值{a_i}。为什么这能工作因为路径的权重就是按照这组阈值舍入后的总误差。寻找最小权重路径就是在所有可能的阈值组合限于候选集R中寻找使总误差最小的那一组。这是一个经典的动态规划问题图模型完美地刻画了阈值之间的顺序约束a_i a_{i1}和决策的累加成本。性能对比在我的项目中图最短路径方法在几秒钟内就找到了最优阈值组合其效果与运行了上百次的TPE优化结果相当有时甚至略好。更重要的是它的结果是确定性的运行速度快且非常直观——你可以清晰地看到最优路径是如何穿过不同误差区域的。4. 专用序数回归模型超越简单的阈值映射阈值优化是在回归模型“之后”打补丁。而机器学习领域早已发展出许多原生的序数回归模型它们从建模之初就考虑了标签的顺序性通常能获得更好的效果。我重点实践了以下几类4.1 经典统计模型有序逻辑回归有序逻辑回归是逻辑回归在序数问题上的直接扩展。其核心思想是建模累积概率。它假设存在一个潜在的连续变量并通过一组阈值cutpoints将其分割成有序的类别。模型学习一个线性函数类似于逻辑回归和K-1个阈值。对于给定输入x模型计算其属于“等级≤k”的累积概率与属于“等级k”的累积概率的优势比的对数即logit并假设这个logit值与x呈线性关系且所有类别共享相同的斜率系数比例优势假设。公式示意 logit(P(Y ≤ k | x)) ln( P(Y ≤ k | x) / (1 - P(Y ≤ k | x)) ) θ_k - (w·x) 其中θ_k是第k个阈值w是特征权重向量。优缺点优点模型可解释性强能给出每个类别的概率并且有成熟的统计软件包支持。缺点严格的比例优势假设在现实中可能不成立本质上是线性模型对复杂非线性关系的建模能力有限。4.2 基于树模型的扩展有序随机森林有序随机森林是随机森林的序数版本。它通过构建大量的决策树并聚合它们的预测来工作。其序数特性的实现方式很巧妙将K类有序问题转化为K-1个二分类问题第k个问题是预测“Y ≤ k” vs “Y k”。为这K-1个问题分别训练一个随机森林分类器每个分类器输出样本属于“Y ≤ k”的累积概率。通过差分这些累积概率得到样本属于每个具体类别的概率P(Yk) P(Y≤k) - P(Y≤k-1)。最终预测取概率最大的类别。实操要点这种方法继承了随机森林的所有优点能处理非线性关系、特征交互对异常值不敏感无需特征缩放。计算成本较高因为需要训练K-1个森林。在sklearn中并无直接实现我使用了专门的mord库和orf库。4.3 神经网络序数回归方法神经网络因其强大的表示学习能力在序数回归上也有多种精彩的建模方式。我基于一个统一的多层感知机骨架实现了以下几种代表性方法4.3.1 NNRank与OR-CNN基于序数编码的分类这两种方法思路类似都将序数标签转化为特殊的二进制编码向量。标签编码对于一个等级k其编码是一个长度为K的向量前k个元素为1其余为0。例如在5级系统中等级3编码为[1,1,1,0,0]。网络输出与损失神经网络的输出层有K个节点每个节点使用sigmoid激活独立地预测编码向量中每一位为1的概率。训练时对K个输出节点分别计算二值交叉熵损失并求和。预测解码在预测时对输出向量从左到右检查当遇到第一个值小于0.5的节点时就将其索引减1作为预测等级。例如输出为[0.9, 0.8, 0.3, 0.1, 0.1]则预测等级为2第三个节点小于0.5。问题这种方法存在秩次不一致的风险。网络可能输出如[0.9, 0.7, 0.8, 0.2]这样的非单调序列导致解码歧义。虽然在实际中不常发生但理论上是缺陷。4.3.2 CORAL通过共享权重与独立偏置保证一致性CORAL方法同样构造K-1个二分类任务但通过巧妙的网络结构设计强制输出概率单调不增从而解决秩次不一致问题。网络结构网络的主体共享层是同一个但在最后的输出层为K-1个任务设置独立的偏置项{b_1, b_2, ..., b_{K-1}}而权重是共享的。即第k个任务的logit为g(x) b_k其中g(x)是共享层的输出。理论保证可以证明通过标准的梯度下降法优化二值交叉熵损失学到的偏置项会自动满足 b_1 ≥ b_2 ≥ ... ≥ b_{K-1}。由于sigmoid函数是单调的这就保证了输出概率 p_1 ≥ p_2 ≥ ... ≥ p_{K-1}完美解决了不一致性问题。优势在保持模型表达能力的同时获得了理论上的严谨性。4.3.3 CORN与CONDOR基于条件概率的链式法这类方法从概率图模型的角度出发将序数回归建模为一系列条件二分类问题。核心思想不直接估计P(Yk)而是估计条件概率P(Yk | Yk-1)。也就是说在已知样本等级大于k-1的前提下它再大于k的概率是多少。网络与训练网络有K-1个输出节点每个节点对应一个条件概率。关键点在于训练数据的选择训练第k个节点时只使用那些真实等级大于k-1的样本子集。这符合条件概率的定义。概率计算与一致性最终的无条件累积概率通过链式法则得到P(Yk) Π_{j1}^{k} P(Yj | Yj-1)。由于每个条件概率都在[0,1]之间相乘得到的累积概率必然是单调非增的从而保证了秩次一致性。优势这种方法具有更坚实的概率解释并且CONDOR论文证明其是最大似然估计理论性质优美。它不依赖CORAL的权重共享约束被认为更具一般性。5. 项目实战评估策略与结果分析5.1 至关重要的评估策略时序分割我的数据集游戏怪物虽然本质上是表格数据但怪物是按照规则书发布时间顺序出现的。后来的怪物设计很可能参考了早期的怪物。如果采用随机划分训练集和测试集就会导致“数据泄露”——模型在训练时可能已经“见过”与测试集怪物非常相似的兄弟怪物从而高估其泛化能力。因此我采用了时序分割按怪物发布时间排序将前80%的数据作为训练集后20%的数据作为测试集。这模拟了真实场景我们用历史上已发布的怪物训练模型去预测未来新设计怪物的强度。为了更稳健地评估我还实现了扩展窗口交叉验证多次划分每次都用更早的时间段训练用紧接着的一个时间段测试然后逐步扩大训练窗口。这能更好地评估模型性能随时间的变化。5.2 模型对比与核心发现在相同的时序分割下我对比了所有方法基线模型KNN回归数学四舍五入MAE最高证实了简单映射在不平衡数据上的不足。KNN回归图最短路径阈值优化相比基线MAE显著下降约15%。这证明了阈值优化的重要性且图搜索方法高效可靠。有序逻辑回归表现中等优于优化后的KNN但逊于复杂的非线性模型。其线性假设在复杂游戏数据上成为瓶颈。有序随机森林表现非常强劲MAE比优化KNN进一步降低。它很好地捕捉了特征间的非线性交互且概率输出校准良好。神经网络方法CORAL/CONDOR在精心调参后取得了最好的效果。尤其是CONDOR其MAE在所有模型中最低。神经网络能够学习非常复杂的特征表示结合专门的序数损失函数在处理这类问题上展现出强大潜力。一个关键洞察对于序数回归问题专门设计的模型ORF, CORAL, CONDOR通常优于“回归后处理阈值优化”的管道式方法。因为后者将回归和分类割裂开了而前者通过端到端的训练让模型从一开始就朝着正确的序数预测目标优化。5.3 避坑指南与调参经验数据标准化是必须的尤其是对基于距离的KNN和基于梯度下降的神经网络。我使用了StandardScaler进行Z-score标准化。类别不平衡处理在OR-CNN等方法中可以为不同阈值对应的二分类任务设置不同的损失权重给予样本少的类别区间更多关注。权重可以设为该类样本数的平方根的倒数。神经网络训练技巧学习率与早停使用余弦退火或ReduceLROnPlateau调度器并配合早停防止过拟合。隐藏层与Dropout对于表格数据MLP结构不宜过深。我使用了两到三个隐藏层配合Dropout比率0.2-0.5作为正则化。激活函数隐藏层使用ReLU或其变种如LeakyReLU输出层根据方法选择sigmoid用于概率线性用于回归值。图最短路径的候选集选择候选阈值集合R的粒度需要权衡。太粗如[0.3, 0.5, 0.7]可能错过最优解太细如[0.01, 0.02, ..., 0.99]会增加图的大小和计算量。我从[0.05, 0.10, ..., 0.95]开始如果最优解总是落在边界再考虑扩展或细化。6. 总结与延伸思考从KNN回归出发到深入阈值优化的数学本质再到系统实践各类专用的序数回归模型这个过程清晰地展示了一个机器学习问题如何被层层拆解和深化。对于序数回归任务我的核心建议是不要满足于简单的回归加舍入。如果你的数据量不大特征可解释性要求高有序逻辑回归和有序随机森林是优秀的选择它们稳定且易于理解。如果你追求极致性能且拥有足够的数据和算力基于神经网络的CORAL或CONDOR方法值得投入。它们通过端到端的学习能将特征表示和序数决策联合优化往往能得到最好的结果。图最短路径阈值优化这是一个极具巧思的“中间件”解决方案。当你不得不使用一个现成的回归模型可能是出于业务集成原因或者该回归模型在其他方面表现极佳但又需要序数输出时这个方法是提升性能的利器。它快速、确定性强且效果显著。最后模型的选择永远要服务于业务目标。在这个游戏怪物等级预测的项目中MAE平均绝对误差是核心指标因为它直接反映了预测等级与实际等级的偏差。但在其他场景比如疾病严重程度分级我们可能更关心“严重误判”的比例如将重症预测为轻症这时就需要调整损失函数或评估指标。理解你手中的数据明确你要解决的问题然后让技术为你所用这才是数据科学实践中最迷人的部分。

查看全文

http://www.zskr.cn/news/1375189.html