当前位置：首页 > news >正文

韩国科学技术院研究团队提出的全新推理蒸馏框架CoRD

news 2026/6/10 15:58:15

这项由韩国科学技术院KAIST与蔚山国家科学技术院UNIST联合开展的研究以预印本形式于2026年5月4日发布在arXiv平台论文编号为arXiv:2605.02290。有兴趣深入了解的读者可以通过该编号查询完整论文。**一个绕不开的现实问题**近年来一类被称为大型推理模型Large Reasoning ModelsLRM的人工智能系统开始展示出令人瞩目的能力——它们能像人一样想一想再回答对复杂数学题、逻辑推理题甚至科学问题给出详细的分析过程。DeepSeek-R1就是其中的代表之一它的回答有时会绵延数千个词逐步展开论证、反复核查、自我纠错最终给出答案。然而这类模型的代价极其高昂。运行一次这样的深度思考所需的算力对普通企业和研究机构来说近乎奢侈。于是一个顺理成章的想法出现了能不能把这种深度思考的能力教给更小、更轻便的模型这就是推理蒸馏的核心思路——让小模型通过学习大模型的思考过程而非仅仅学习最终答案来掌握类似的推理能力。问题在于怎样才能把大模型的思考过程提炼成最有价值的学习材料现有的主流做法是让大模型把题目从头解到尾再挑出其中答对了、步骤最合理的那些交给小模型学习。这个方法听起来没什么毛病但研究团队发现了一个深层缺陷每个大模型都各自独立地解题它们之间没有任何交流优秀的局部思路被封锁在各自的解题纸里彼此无法互相借鉴。更糟糕的是大量算力被浪费在最终被丢弃的解题过程上。正是为了解决这个问题KAIST和UNIST的研究团队提出了CoRDCollaborative Reasoning Decoding协作推理解码框架。这个框架的核心理念是让多个大模型不再各自为战而是像一支分工合作的团队一样在推理的每一个步骤上共同商议、择优而行。---**一、为什么各自为战是个大问题**以一道复杂的数学竞赛题为例假设你手边有三位数学老师他们各有所长——老师A擅长分析题目条件和建立方程老师B对几何直觉一流老师C则在整理思路、写出最终推导时特别清晰。现有的蒸馏方法是这样的让三位老师各自独立地从头解到尾然后拿出最好的那份解答让学生去学。这样固然能保证最终有一份不错的解答但有一个根本性的遗憾老师A在题目分析阶段写下的精妙洞察并没有被老师B在几何推导时用上老师C的最终整理也没有建立在另外两位老师最强的那些步骤之上。三位老师的智慧被人为地分隔在三张独立的答卷里从未真正交汇。CoRD要做的正是打破这种隔离。它让三位老师坐在同一张桌子前每解完一步就由一个公正的考官来评判此刻谁写的这一步最有可能引导向正确答案然后下一步就从那里继续写不管那个最优的下一步来自哪位老师。这样最终产出的解答过程可能是老师A写了前几步、老师B接手中间部分、老师C完成收尾——每个阶段都是当前最合适的那个人贡献的。这个直觉背后有深刻的合理性不同模型在推理的不同阶段确实各有优势。研究团队在实验中发现当三个异构模型DeepSeek-R1-Distill-Qwen-32B、QwQ-32B和Phi4-Reasoning-Plus协作时前两者确实主导了解题的早期阶段也就是理解题目、分析约束条件的部分而Phi4-Reasoning-Plus则在后期越来越占主导也就是综合前面所有步骤、得出结论的阶段。这种自然出现的专业分工正是协作推理的力量所在。---**二、CoRD的三个核心机制分步、评分、保留选项**CoRD之所以能实现这种协作依赖三个精心设计的机制它们环环相扣缺一不可。第一个机制叫提示引导的步骤分割。在让大模型解题之前研究团队会在提示语中嵌入一个特殊标记思考 ### 步骤明确要求模型把推理过程组织成清晰分隔的若干步骤每一步都有明确的功能和内容边界。为什么要这么做因为不同的大模型在生成推理过程时结构差异很大。有的模型会每两行换一次行有的会在遇到特定词比如等等或让我检查一下时才算一个新的思维转折。如果直接把这些风格各异的输出拼接在一起就像让三位作家合写一本书一位用中文、一位用英文、一位用日文段落毫无章法根本没法阅读。提示引导的步骤分割相当于事先约定好每位老师都按照统一的格式写每一步用###步骤N来开头内容清晰独立。这样来自不同模型的步骤才能被平等地放在一起比较和拼接。第二个机制叫预测困惑度评分。在每个解题步骤完成后需要有一个方式来判断这一步到底写得好不好它真的在朝着正确答案前进吗研究团队引入了一个被称为元证明器meta-prover的额外模型来承担这个考官角色。元证明器会看着当前已经写好的所有推理步骤然后尝试预测最终正确答案是什么并计算出这个预测的困惑程度——困惑程度越低说明当前的推理路径越自然地指向正确答案这条路走对了。困惑程度越高说明当前的步骤让答案变得更加难以预测很可能走偏了。这个预测困惑度predictive perplexity的妙处在于它并不要求推理已经完成只需要看到目前已有的部分就能给出一个信号这条路走下去多大可能是对的这让实时、逐步的评估成为可能而不需要等到整个解答写完才能知道好坏。第三个机制叫束搜索beam search。即便有了逐步评分如果每次都只保留当前评分最高的那一步还是可能掉入一个陷阱局部最优未必通向全局最优。有些推理路径在某个中间步骤时看起来绕了个弯但恰恰是这个弯路之后成就了更严密的逻辑。束搜索的做法是同时保留最有潜力的若干条推理路径而不是孤注一掷地只走一条。具体来说研究团队设定束的宽度为4意味着在每个步骤完成后同时保留得分最高的4条部分推理路径让它们并行延伸下去。到最后再从这4条完整路径中选出最好的一条作为最终用于训练小模型的学习材料。这三个机制协同工作统一格式的步骤分割让不同模型的输出可以公平比较预测困惑度评分让系统能实时判断哪一步更优秀束搜索则确保系统不会因一时的局部判断而放弃潜在的优秀路径。---**三、与其他方法的正面较量**研究团队设计了严格的对比实验将CoRD与两种基线方法进行了系统比较并在多个标准测试集上验证了结果。第一种对比方法叫筛选法Curation这是目前业界最常用的做法也是S1和LIMO等知名工作所采用的策略让每个模型独立生成完整解答然后挑出最好的一条。第二种叫融合法Integration它的思路是先让各个模型独立解完再用一个外部模型实验中用了GPT-5o-mini把这些解答综合整合成一条。实验在AIME24和AIME25两个数学竞赛测试集上进行这两个测试集都是以难度极高的美国数学邀请赛题目为基础是评估模型数学推理能力的权威标准。被训练的小模型是R1-Qwen系列分别测试了7B、14B和32B三个参数规模的版本。结果非常清楚。在异构教师配置三个不同架构的模型协作下CoRD生成的推理数据答案准确率达到93.1%而筛选法只有84.8%融合法为91.2%。更能说明问题的是预测困惑度这个指标——CoRD达到0.774筛选法为0.652而融合法仅有0.223。融合法的困惑度数值为什么这么低研究团队深入分析后发现问题出在整合过程本身。融合法需要把三个模型各自长达数千词的推理过程交给一个外部模型去消化综合。然而处理如此漫长的上下文大约3万个词的输入对当前的语言模型来说本身就是一个挑战它们很容易丢失中间的关键信息——这个现象在研究界被称为中间迷失lost in the middle效应。融合的结果是那些精彩的长链推理过程被压缩成了短而浅的形式推理深度大幅下降自然也就无法给小模型提供有效的学习信号学出来的小模型在实际测试中表现极差。反观CoRD它不是事后整合而是在推理进行的每一步实时协调不同模型的智慧在推理过程中就已经融入没有任何事后压缩的损耗。在学生模型的实际性能上这种差异体现得更为明显。以32B规模的学生模型为例通过CoRD-异构设置训练后它在AIME24上达到79.6%的正确率在AIME25上达到70.2%。而三个教师模型自身的成绩分别是R1-Qwen-32B在两个测试集上是71.6%和53.8%QwQ-32B是77.9%和66.7%Phi4-Reasoning-Plus是78.9%和67.9%。换句话说这个32B的学生模型经过CoRD训练后竟然超过了所有三个教师模型的成绩。学生超越了老师这在直觉上有些反常却在逻辑上完全说得通学生学习的是三位老师各展所长时的最佳组合而不是任何一位老师独自发挥的结果。---**四、一个更细致的追问三个核心机制各自贡献了多少**研究团队没有满足于整体比较他们还对CoRD的三个核心机制逐一进行了消融实验也就是分别去掉其中一个看看效果会发生什么变化。关于步骤分割方式的实验对比了三种方案以换行符\n\n为边界的换行分割、以特定语义词比如等等、换个方法试试为触发的前缀分割以及CoRD采用的提示引导分割。换行分割的方案在答案准确率和困惑度上都是最差的因为换行往往出现在语义尚未完整的地方把一个完整的思维单元硬生生切断了。前缀分割稍好一些因为等等这类词确实标志着思维的转折但问题是不同模型使用这类词的频率和位置差异很大无法保证跨模型比较的一致性。只有提示引导分割通过统一格式约束让每一步的内容真正完整自洽从而实现最高质量的协作。关于评分标准的实验则对比了五种方案随机选择、选最长的那步、用一个专门训练的过程奖励模型PRM打分、用语言模型直接判断对错二元判断以及CoRD的预测困惑度。随机选择和选最长这两种方式表现最差因为它们根本没有真正评估推理质量。PRM的表现中规中矩但研究团队指出它有一个根本缺陷PRM倾向于过早淘汰那些看起来走了弯路但最终会自我纠正的推理路径而这类自我纠正恰恰是深度推理能力的重要组成部分。二元判断只给出对或错两个离散选项无法捕捉不同步骤之间的细微质量差异。预测困惑度则以连续的数值输出既能区分细微差别又自然地具有前瞻性——它衡量的是这步对未来答案的预测有多大帮助而非仅仅评判当前步骤的局部正确性。关于解码策略的实验对比了贪心解码每次只保留当前最优的一步不走回头路、蒙特卡洛树搜索MCTS和束搜索三种方式。贪心解码的问题已如前述容易陷入局部最优。MCTS理论上应该能找到全局最优因为它会从当前位置模拟多条完整路径再作决策但这样做的代价是巨大的计算量而且研究团队发现MCTS倾向于偏向整体实力最强的模型忽视了其他模型在特定阶段的局部优势反而削弱了协作的效果。束搜索在探索广度和计算效率之间取得了最好的平衡。---**五、计算效率代价值不值**一个自然的担忧是CoRD这么复杂会不会在计算代价上吃亏太多研究团队在四块NVIDIA H200 GPU上进行了墙钟时间即实际耗时测试。每道题的平均耗时方面筛选法Curation需要168.3秒MCTS需要589.2秒CoRD需要288.7秒。换句话说CoRD比筛选法慢了大约71%但比MCTS快了约51%。此外研究团队还做了一个公平对比实验把筛选法的计算预算加倍让它生成8条完整解答而非4条使其总耗时336.6秒接近CoRD288.7秒。结果预算加倍的筛选法在推理质量上确实有所提升但仍然明显低于CoRD在学生模型的实际表现上也没有带来相应提升。这说明CoRD的优势不是来自花了更多时间而是来自把时间花在更有价值的地方——逐步协作和实时筛选而不是生成大量重复的独立解答后再从中挑一个。值得一提的是元证明器QwQ-32B在CoRD整体计算中占比很小仅约11.4秒相对于整体288.7秒的总耗时可以忽略不计。整体来看CoRD的额外计算代价是有限的而换来的推理质量提升和学生模型性能提升是实质性的。---**六、不只是数学CoRD在其他领域的表现**研究团队还检验了CoRD能否迁移到数学竞赛以外的领域。他们测试了三个额外的任务MATH500覆盖更广泛的数学问题与训练数据重叠度较高、TaTQA需要理解表格数据并进行推理的财务问答属于全新的题型领域以及PubMedQA生物医学领域的开放式问答答案是长段落而非具体数值。在MATH500上CoRD异构版本达到94.8%的正确率高于筛选法的93.4%。在TaTQA这个全新领域上差距更为显著CoRD异构版本达到95.2%而筛选法只有88.2%差了整整7个百分点。这说明CoRD的协作推理机制并不是对训练数据的记忆而是提炼出了真正可迁移的推理能力。PubMedQA的实验尤为值得关注因为它代表了与数学题型完全不同的推理模式。生物医学问答需要阅读长段落、整合专业知识、给出有据可查的结论既没有唯一正确答案也无法用简单数值评判。研究团队为此重新筛选了一批456个高难度样本并调整了元证明器使用的提示语以适配这种开放式答案的格式。最终CoRD异构版本在PubMedQA上达到91.8%的准确率高于筛选法的88.4%和融合法的83.0%。在完全没有数值型正确答案的开放域任务上CoRD的优势依然稳健。---**七、研究本身的局限与未来方向**研究团队在论文中坦诚地指出了两个主要的局限性。第一目前的实验主要集中在英语任务上尚不清楚CoRD能否有效地跨语言迁移推理能力。近期已有研究表明可以通过将英语推理轨迹翻译成其他语言来提升多语言能力但CoRD框架是否能自然地支持这一方向还需要进一步探索。第二CoRD目前只使用了监督微调SFT来训练学生模型也就是让学生直接模仿CoRD生成的高质量推理过程。近年来偏好学习如直接偏好优化DPO也被证明能有效提升模型推理能力通过让模型明确区分好的推理和不够好的推理来进行更精细的训练。将CoRD产生的高质量推理数据与偏好学习方法结合起来可能是进一步提升效果的有效方向。---说到底CoRD这项工作解答的是一个既朴素又重要的问题当你有多位各有所长的专家最好的协作方式是让他们同时盯着同一道题随时接棒贡献自己最擅长的那一步还是各自独立解完再挑一份出来答案似乎显而易见但在AI推理领域真正把这个想法落地并验证其有效性还是需要相当多的技术创新。这项工作的意义并不仅仅在于那几个百分点的准确率提升。它更深层次的启示是AI模型的推理能力可能并不只取决于单个模型本身的规模或训练量而更取决于在推理过程中如何组织和利用多个模型之间的互补性。一个精心协作的小团队有时确实能胜过各自为战的大玩家。有兴趣深入了解技术细节的读者可以通过arXiv编号2605.02290查阅完整论文相关代码和数据集也已在论文提及的GitHub仓库中开源。---QAQ1CoRD中的预测困惑度评分具体是怎么计算的A预测困惑度由一个叫元证明器的模型来计算。在推理进行到某一步时元证明器会查看当前所有已完成的推理步骤然后尝试预测正确答案并计算出预测这个答案有多困难。困难程度越低说明当前推理路径越自然地指向正确答案困难程度越高说明推理可能走偏了。这个评分不需要等到推理完成随时可以给出实时判断。实验中使用的元证明器是QwQ-32B选择最强的模型担任这个角色效果最好。Q2CoRD的束搜索和普通贪心解码有什么区别为什么束搜索更好A贪心解码每次只保留当前评分最高的那一个推理步骤一旦选定就不回头很容易陷入局部最优——某步看起来好但后面越走越偏。束搜索则同时保留多条实验中是4条推理路径并行推进每步从所有路径的候选延伸中选出得分最高的4个保留最后再从这4条完整路径中选最好的。这样即使某条路在中间某步稍差只要后续潜力大就不会被提前淘汰。实验数据显示束搜索比贪心解码在答案准确率上高出约11个百分点。Q3为什么融合法Integration训练出的学生模型表现反而比筛选法还差A融合法需要把三个模型各自生成的超长推理过程总计约3万个词交给一个外部模型综合整合。但处理这么长的上下文对当前语言模型来说本身就很难它们容易遗忘中间的关键信息这个现象叫中间迷失效应。结果是那些精彩的长链推理过程被压缩成了短而浅的形式失去了深度推理的特征学生模型从这种浓缩版中学不到真正有价值的推理模式因此实际测试中表现极差有时甚至不如完全不做蒸馏的原始小模型。

查看全文

http://www.zskr.cn/news/1352602.html