当前位置：首页 > news >正文

突破传统 AI 训练！USTC 提出 Role-Agent 双角色共演机制

news 2026/6/12 2:02:37

Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

Authors: Xucong Wang, Ziyu Ma, Shidong Yang, Tongwen Huang, Pengkun Wang, Yong Wang, Xiangxiang Chu (USTC & AMAP, Alibaba) |Year: 2026 |arXiv: 2606.10917

二、研究背景

LLM Agent 的学习受限于两个问题：(1)低效的交互反馈——传统强化学习通常只有稀疏的最终奖励；(2)静态训练环境——训练数据固定，无法针对失败模式进行针对性练习。

Role-Agent 的核心洞察：LLM 本身具有足够的世界知识，可以模拟环境动态；同时具备分析自身失败的能力，可以主动选择"练习题"。

四、实验结果

在编程、导航、知识问答等多个 Agent 基准上评测：

相比强基线平均提升>4%
WIA 的过程奖励在长时序任务中效果尤为显著
AIW 的失败模式检索有效将练习集中于已知弱点

报告生成时间：2026-06-11 | 论文来源：arXiv:2606.10917

原文摘要:Although Large Language Model (LLM) agents have demonstrated strong performance on complex tasks, their learning is often limited by inefficient interaction feedback and static training environments, which hinder broader generalization. To address these limitations, this paper introduces Role-Agent, \textcolor{black}{a framework} that harnesses a single LLM to function concurrently as both the agent and the environment, enabling a bootstrapped co-evolution. Role-Agent comprises two synergistic components: World-In-Agent (WIA) and Agent-In-World (AIW). In WIA, the LLM acts as the agent and predicts future states after each action; the alignment between predicted and actual states is then used as a process reward, encouraging environment-aware reasoning. In AIW, the LLM analyzes failure modes from failed trajectories and retrieves tasks with similar failure patterns, thereby reshaping the training data distribution for targeted practice. Experiments on multiple benchmarks show that Role-Agent consistently improves performance, yielding an average gain of over 4% over strong baselines.

PDF链接:https://arxiv.org/pdf/2606.10917v1

部分平台可能图片显示异常，请以我的博客内容为准

http://www.zskr.cn/news/1507606.html

相关文章：

告别PWM配置玄学：深入S32K14x的FTM模块，搞懂重装载(Reload)机制与中断回调

2026年脱硫泵供应商选择指南：行业格局、技术趋势与关键厂商分析 - 优质品牌商家

GnuRadio实战：手把手教你用Python和C++混合编程实现OQPSK解调（附源码解析）

Codex 关闭手动确认 - Higurashi

本地部署 AI 资产管理系统 New API 并实现外部访问

Cortex-M33开发踩坑记：从HardFault反查BusFault与UsageFault的完整调试流程

计算机毕业设计之基于人脸识别的小区门禁管理系统

别再死记快捷键了！用Adobe Animate 2022做文字变形动画，形状提示点这样用才高效

高通座舱芯片的‘深度睡眠’：手把手教你验证STR/S2R模式（以Q+A平台为例）

STM32电源引脚VDD、VDDA、VBAT傻傻分不清？一张图+实测帮你理清（附F407ZGT6电路连接）

2026年成都盘扣式钢管架租赁市场观察：正规企业实力对比与价格参考 - 优质品牌商家

从零搭建部标视频监控平台（三）：JT1078实时视频流接收与RTP解析实战（附Golang代码）

5个专业技巧：在浏览器中创建惊艳3D模型的完整指南

DHCP抓包实战：从DISCOVER到ACK，一张图看懂华为设备下的地址分配全过程

别再只懂Over模式了！用Python+OpenCV实战Alpha融合的5种模式（附代码避坑）

字节大模型应用岗实习两小时拷打:记忆机制 + RAG 全链路,13 道题逐个答透

从Gardner算法到环路滤波：在GnuRadio中调试OQPSK时钟恢复的完整避坑指南

别再死记硬背了！用这个‘水管模型’图解BJT放大原理，5分钟让你豁然开朗

STM32F401定时喂食器教学套件：Keil源码+Proteus可运行仿真+详细设计文档

别再死记硬背了！用Wireshark抓包实战，5分钟搞懂USB的四种端点到底怎么用

QDB6525X至为芯支持最大75W的远距离无线充方案。

5分钟掌握歌词自由：开源歌词下载工具的终极解决方案

OptiScaler完整指南：打破硬件壁垒的跨平台超分辨率解决方案

深度解析Umi-OCR性能瓶颈：从根源分析到优化实战

NSK W2513FA-4-C5T25 高速精密滚珠丝杠技术手册

5个理由告诉你为什么NanaZip是现代Windows压缩工具的最佳选择

自主进化：基于人类反馈的医疗智能体持续学习机制

2026阿勒泰高端定制游实测：3家头部机构实力比拼 - 互联网科技品牌测评

Dapper 1.42和1.50双版本DLL资源包，适配.NET 3.5/4.0/4.5项目直引即用

从烽火台到5G：用Python代码模拟信道模型，理解信息传输的极限