ICML 2026 | 美团技术团队学术论文精选

ICML 2026 | 美团技术团队学术论文精选

ICML(International Conference on Machine Learning,国际机器学习大会)是机器学习领域最具影响力的国际顶级学术会议之一。大会旨在探讨机器学习未来发展所面临的关键挑战与核心问题,并通过征集和评估具有重要理论价值和实际影响的前沿研究成果,推动领域发展并引领未来研究方向。2026年,ICML共收到全球篇论文23918投稿,最终6352篇被接收,接收率约为26.6%。本文解读了美团技术团队被收录的13篇论文,覆盖智能体推理、强化学习训练、复杂任务生成、智能体基准测试、监督微调等技术方向。

01 MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

MemOCR:面向高效长程推理的版面感知视觉记忆机制

论文下载:PDF

论文简介:长时间跨度的智能体推理需要将不断增长的交互历史有效压缩到有限的上下文窗口中。现有的大多数记忆系统将历史序列化为文本,其中token级别的开销是均匀的,且与长度线性增长。为此,我们提出了MemOCR,一种多模态记忆智能体,通过视觉布局实现自适应信息密度的记忆空间分配,从而在紧张的上下文预算下提升长时间跨度推理能力。在长上下文多跳和单跳问答基准测试中,MemOCR优于强文本基线方法,并在极端预算条件下实现了更有效的上下文利用。

02 ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

ScaleEnv: 从零开始构建可扩展的环境合成系统用于通用交互式工具使用智能体的训练

论文下载:PDF

论文简介:为智能体配备交互式环境和可验证任务以进行自我探索,对于培养能够适应多样化场景的通用智能体至关重要。我们提出了ScaleEnv,一个完全从零开始构建全交互式环境和可验证任务的框架。ScaleEnv通过程序化测试确保环境的可靠性,通过工具依赖图扩展和可执行动作验证来保证任务的完整性和可解性。在未见过的多轮工具使用基准测试上展示了显著的性能提升,突显了强大的泛化能力。

03 V_0: A Generalist Value Model for Any Policy at State Zero

V_0:一种适用于任意策略在初始状态下的通用价值模型

论文下载:PDF

论文简介:大语言模型的强化学习训练中的价值模型面临耦合困境:它们需要与更新中的策略同步训练。我们提出了V_0,一种通用价值模型,通过将任务重新定义为上下文学习来预测未见策略的性能,从而将价值估计与特定策略参数解耦。实验结果表明,V_0在GRPO训练过程中追踪策略演化方面优于耦合价值模型,能够优化冷启动预算分配,并在推理路由中逼近性能-成本的帕累托前沿。

04 Learning to Self-Verify Makes Language Models Better Reasoners

学习自我验证使语言模型成为更好的推理者

论文下载:PDF

论文简介:近期的大语言模型在为复杂任务生成有前景的推理路径方面表现出色,但在验证自身答案方面仍然薄弱。我们发现学习自我验证能够有效提升生成性能,产生更高效的推理轨迹。我们提出了一个多任务强化学习框架,将生成和自我验证作为两个独立但互补的目标进行联合优化。实验表明,该方法在生成和验证能力上均优于仅进行生成训练的方法。

05 AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition

AgentNoiseBench:噪声条件下工具使用型大语言模型智能体的鲁棒性基准评测

论文下载:PDF

论文简介:随着基于大语言模型的智能体越来越多地部署在实际工作流程中,现有的智能体基准测试不足以刻画智能体在不完美用户指令和不可靠工具反馈下的鲁棒性。我们提出了AgentNoiseBench,一个用于系统评估大语言模型智能体交互式噪声鲁棒性的框架。该基准建模了用户侧指令噪声和工具侧结果噪声两种主要噪声来源,提供模块化噪声注入管道和多维度评估指标。通过对25个工具使用模型的评估,发现工具侧噪声通常比用户侧噪声引起更大幅度的性能下降。

06 AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

AJ-Bench:面向环境感知评估的智能体裁判基准

论文下载:PDF

论文简介:随着强化学习不断推动基于大语言模型的智能体训练规模化,在复杂环境中可靠地验证智能体行为变得日益困难。现有方法依赖基于规则的验证器或 LLM-as-a-Judge 模型,但这些方法难以泛化到狭窄领域之外。Agent-as-a-Judge 通过主动与环境和工具交互以获取可验证的证据来解决这一局限性,但其能力仍未得到充分探索。 我们提出了一个基准测试 AJ-Bench,用于系统性地评估"智能体充当评判者"在三个领域——搜索、数据系统和图形用户界面——中的表现,涵盖155个任务和516条标注轨迹。该基准全面评估了评判智能体在信息获取、状态验证和过程验证方面的能力。实验表明,相比 LLM-as-a-Judge 基线方法,该方法取得了稳定的性能提升,同时也揭示了基于智能体的验证中仍存在的重大开放性挑战。

07 LUVE : Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts

LUVE:基于双频率专家的潜空间级联超高分辨率视频生成

论文下载:PDF

论文简介:为解决超高分辨率视频生成中连贯性与算力难以兼顾的难题,该论文提出了基于双频专家的潜空间级联框架LUVE。该框架创新性地采用三阶段架构:先通过低分辨率生成保障运动一致性;接着利用潜空间上采样直接提升分辨率,大幅降低内存与计算开销;最后融合高低频专家细化高分辨内容,全面增强全局语义与局部细节。实验表明,LUVE展现出了卓越的逼真度与内容保真度,其核心思想现已成功应用于美团LongCat-Video模型中。

08 Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Infinite-World:通过无位姿层次化记忆将交互式世界模型扩展至1000帧

论文下载:PDF

论文简介:Infinite-World 是面向真实场景中的长程交互式世界模型,其目标是在 1000+ 帧生成中保持稳定的视觉记忆和动作响应。针对真实视频中位姿噪声大、视角回访稀少的问题,论文提出三点创新:用无位姿层级记忆压缩器将历史 latent 压缩为固定预算记忆,降低长程建模成本;用不确定性感知动作标注提升噪声轨迹下的动作学习;再通过高回访数据微调增强 loop closure 能力。整体上,它让世界模型更适合从真实视频学习长时空一致性。

09 WildActor: Unconstrained Identity-Preserving Video Generation

WildActor:无约束身份保持视频生成

论文下载:PDF

论文简介:本文提出 WildActor,一种面向无约束身份保留的视频生成新框架,旨在应对现有方法在动态长镜头和视角剧烈切换时面临的全身体态不一致、面部漂移及姿态僵死伪影。在机制层面,WildActor 构建了含1.6M视频和18M多视角图像的大规模数据集 Actor-18M,有效解决原始数据中的正脸偏置;同时引入非对称身份保留注意力(AIPA)解耦身份与运动生成,并结合身份感知3D旋转位置编码(I-ROPE)显式分离时空 Token,配合视角自适应蒙特卡洛采样实现了鲁棒的任意视角条件控制。实验表明,WildActor 在新构建的 Actor-Bench 连贯叙事与泛化测试中,不仅全身一致性与文本对齐度显著超越现有开源及商业大模型,还验证了其在复杂现实场景下保持物理恒常性的优越性。

10 Navigating the Pareto Frontier of Alignment: Spectrum-Adaptive Fine-Tuning for LLMs

SAFT:面向大语言模型的谱自适应微调方法

论文下载:PDF

论文简介:监督微调常用交叉熵作为目标函数,虽然学习高效,但它并非正确率的光滑近似,还会因为特别关注预测概率低的样本从而容易对噪音过度拟合并过度自信。DFT则在梯度层面等同优化正确率的光滑近似函数,在保持训推一致性的同时提升了鲁棒性,但也会削弱对可学习的难样本的学习效率。因此,SFT 与 DFT 构成效率—鲁棒性两个端点,而真实数据应选择哪种折中取决于其未知的内在 SNR。我们提出轻量的 pre-test protocol:用少量训练数据分别训练 SFT/DFT 并在验证集比较表现,SFT 更优则判定为高 SNR 并选择几何插值Geo-SAFT,DFT 更优则判定为低 SNR 并选择调和插值Har-SAFT。相比仍保留低置信梯度发散的线性插值,SAFT 通过数据自适应的几何/调和非线性插值匹配不同噪声 regime,从而获得更优的鲁棒性—效率 Pareto trade-off。

11 TRIP-Bench: A Benchmark for Long-Horizon Interactive Agents in Real-World Scenarios

TRIP-Bench:真实场景中长时域交互式智能体的基准评测

论文下载:PDF

论文简介:本论文提出了 TRIP-Bench,一个面向长程交互式 Agent 的旅行规划评测基准。它基于真实世界数据构建,包含 18 个工具和 40 多类旅行约束,重点考察模型在多轮对话中保持全局约束、调用工具、处理用户需求变化和方案反复修改的能力。其困难任务最长可达 15 轮用户交互、150 次以上工具调用,甚至超过 20 万 tokens 上下文。实验表明,现有先进模型在该基准上仍表现有限。论文进一步提出 GTPO 多轮强化学习方法,通过奖励归一化和轮次级奖励差分提升模型鲁棒性,使 Qwen2.5-32B-Instruct 在评测中超过 Gemini-3-Pro。

12 InfVSR: Toward Consistency-Driven Streaming Generative Video Super-Resolution

InfVSR:面向一致性驱动的流式生成视频超分辨率

论文下载:PDF

论文简介:本文提出了 InfVSR,一种面向一致性驱动的流式生成视频超分辨率新框架,旨在解决扩散式视频超分方法在长视频场景中存在的推理效率低、显存占用大和时序不一致问题。其核心机制包括:将预训练视频 DiT 改为因果流式架构,引入滚动 KV 缓存以维持局部过渡平滑性;设计联合视觉引导通过交叉注意力注入全局语义锚点,抑制累积误差漂移。训练阶段结合分块像素监督与跨块分布匹配,双重约束时序一致性,并将扩散过程蒸馏为高效单步推理。实验表明,InfVSR 在多项基准上取得 SOTA 性能,时序一致性显著领先,推理速度提升 58 倍且长序列显存占用恒定。

13 DRIVE: Distributional and Retrieval-Augmented Bidding with Value Evaluation

DRIVE:基于混合分布与检索增强的价值评估出价策略

论文下载:PDF

论文简介:针对标准Decision Transformer (DT)在复杂竞价环境中的三大痛点(“平均动作”陷阱、长尾幻觉、缺乏推理优化),提出“生成—检索—评估”闭环框架:1)用高斯混合模型替代确定性输出,解决多模态策略坍缩问题;2)引入检索机制增强长尾场景记忆,避免参数化模型幻觉;3)通过IQL Critic实现闭环择优,对生成动作与历史动作进行实时评估。该方案显著提升决策鲁棒性。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。