当前位置: 首页 > news >正文

学习协调偏好用于多目标多智能体强化学习

学习协调偏好用于多目标多智能体强化学习

来源:arXiv:2606.14693v1
代码仓库:PengxinWang/PrefMARL


📖 概述

本文提出协调偏好多智能体策略优化(PCMA),一种用于多目标多智能体强化学习(MOMARL)的新型框架。PCMA使智能体能够学习协调的、智能体特定的偏好,从而诱导互补的权衡,提高团队性能并减少行为冲突。该方法在**集中式训练-分布式执行(CTDE)**范式下运行,并在粒子世界、无人机、 locomotion、星际争霸和真实世界交通控制环境中得到验证。


🎯 问题形式化与动机

  • 核心挑战:在MOMARL中,冲突不仅出现在目标之间,还出现在具有不同观测、角色和优先级权重的智能体之间。使用固定共享偏好向量的标准标量化强制同质行为,导致竞争或效率低下。
  • 关键洞察:多样协调偏好进行策略 conditioning 允许智能体占据帕累托前沿的不同区域,实现角色专业化更好的团队协调。
  • 形式化:合作MOMARL被框架化为团队最优均衡问题:找到偏好配置p \mathbf{p}p及其诱导的均衡θ ∗ ( p ) \theta^*(\mathbf{p})θ(p),以最大化团队目标J t e a m J_{\mathrm{team}}Jteam

📐 理论基础

🔹 一阶团队改进与偏好多样性

  • 团队改进矩阵:B i , k : = ( ∇ θ i J t e a m ( θ ) ) ⊤ ∇ θ i J i , k ( θ ) B_{i,k} := (\nabla_{\theta_i} J_{\mathrm{team}}(\theta))^\top \nabla_{\theta_i} J_{i,k}(\theta)Bi,k:=(θiJteam(θ))θiJi,k(θ)衡量智能体i ii的第k kk个目标对团队改进的贡献。
  • 假设 4.1(偏好-改进对齐):中心偏好p ~ i \tilde{p}_ip~i和改进方向b ~ i \tilde{b}_ib~i满足p ~ i ⊤ b ~ i ∥ p ~ i ∥ 2 2 ≥ κ > 0 \frac{\tilde{p}_i^\top \tilde{b}_i}{\|\tilde{p}_i\|_2^2} \geq \kappa > 0p~i22p~ib~iκ>0
  • 定理 4.2(团队改进分解):
J_{\mathrm{team}}(\theta_{\mathrm{new}}) - J_{\mathrm{team}}(\theta) \geq \eta \sum_{i=1}^N \|\nabla_{\theta_i} J_{\mathrm{team}}(\theta)\|_2^2 + \eta N (\bar{p}^\top \bar{b} + \kappa \mathcal{D}_p)

其中D p = 1 2 N 2 ∑ i , j ∥ p i − p j ∥ 2 2 \mathcal{D}_p = \frac{1}{2N^2}\sum_{i,j}\|p_i - p_j\|_2^2Dp=2N21i,jpipj22成对偏好距离。多样性D p \mathcal{D}_pDp直接提升一阶团队改进。

🔹 均衡追踪

  • 引理 4.3:在非奇异雅可比条件下,局部纳什均衡θ ∗ ( p ) \theta^*(\mathbf{p})θ(p)p \mathbf{p}p连续变化。
  • 定理 4.6(均衡追踪):在缓慢偏好更新下,追踪误差e t = ∥ θ t − θ ( p t ) ∥ e_t = \|\theta^t - \theta(\mathbf{p}^t)\|et=θtθ(pt)满足:
e_{t+1} \leq \rho e_t + C \|\mathbf{p}^{t+1} - \mathbf{p}^t\| \implies \limsup_{t\to\infty} e_t \leq \frac{C}{1-\rho}\delta

保证当偏好配置缓慢变化时稳定收敛。


⚙️ 方法:PCMA算法

🧩 架构与训练范式

  • CTDE框架:集中式批评家训练;分布式演员执行。
  • 偏好条件演员:偏好p i p_ipi拼接为局部观测o i o_ioi的输入。
  • 双批评家设计:
    • 集中式团队批评家估计A t e a m A^{\mathrm{team}}Ateam
    • 个体向量批评家估计A i i n d \mathbf{A}_i^{\mathrm{ind}}Aiind

📉 损失函数

批评家损失:

\mathcal{L}_{\mathrm{critic}} = \mathbb{E}_\tau \left[ (V^{\mathrm{team}}(\mathbf{o}) - R^{\mathrm{team}})^2 + \sum_{i=1}^N \|\mathbf{V}^i(o_i) - \mathbf{R}^i\|_2^2 \right]

演员更新(基于PPO):

\mathcal{L}_{\mathrm{actor}}(\theta) = \mathcal{L}_{\mathrm{PPO}}\left(\pi_\theta(\cdot|o_i, p_i), A_{U_i}\right), \quad A_{U_i} = A^{\mathrm{team}} + \lambda p_i^\top \mathbf{A}_i^{\mathrm{ind}}

🎲 协调偏好规划

  • 每个智能体学习随机规划器输出Dirichlet参数:α i = ϕ ψ ( o i ) \alpha_i = \phi_\psi(o_i)αi=ϕψ(oi),采样p i ∼ D i r ( α i ) p_i \sim \mathrm{Dir}(\alpha_i)piDir(αi)
  • 多样性正则化:通过D α = E [ D p ] \mathcal{D}_\alpha = \mathbb{E}[\mathcal{D}_p]Dα=E[Dp]鼓励不同偏好。
  • 规划器损失:
\mathcal{L}_{\mathrm{plan}}(\psi) = \mathcal{L}_{\mathrm{PPO}}\left(\phi_\psi(\cdot|o_i), A^{\mathrm{team}}\right) - \lambda_1 \mathcal{D}_\alpha

🧪 实验验证

🌍 环境与设置

类别环境奖励结构
粒子世界合作扩散、安全捕食者-猎物稀疏团队 + 向量个体奖励
无人机控制捕获、护航稀疏团队 + 向量个体奖励
移动控制MOMAwalker包裹进度 + 稳定性惩罚
星际争霸(SMAC)3m, 2s3z, 8m团队胜利 + [伤害造成, -伤害承受]
真实世界OpenCDA-MARL(CARLA)效率 + 安全/交互目标

📊 性能摘要

PCMA始终优于或持平基线(MADDPG、IPPO、MAPPO)在成功率和奖励指标上。

示例结果:

环境指标MADDPGIPPOMAPPOPCMA(本文)
合作扩散成功率0.380.270.801.00
安全捕食者-猎物成功率0.680.600.910.96
SMAC-2s3z成功率0.630.930.971.00
MOMAwalker前进距离75.046.6970.5293.64

CARLA交通控制(OpenCDA-MARL)

设置骨干效用↑成功率(%)↑碰撞率(%)↓吞吐量↑
合作SAC-4776.968.631.41692
合作MAPPO-16793.355.442.51417
合作PCMA-2072.969.630.41716
竞争PCMA-2877.168.023.31192

消融与行为分析

  • 移除多样性正则化(λ 1 = 0 \lambda_1=0λ1=0)或使用随机/相同偏好会降低性能。
  • 最优λ 1 ∈ [ 0.02 , 0.10 ] \lambda_1 \in [0.02, 0.10]λ1[0.02,0.10]λ 2 ∈ [ 0.5 , 1.0 ] \lambda_2 \in [0.5, 1.0]λ2[0.5,1.0]
  • 在SMAC中,智能体自然分裂为激进攻击者 vs 前线防御者(通过伤害造成 vs 伤害承受衡量)。

🖼️ 论文中的图片

编号图片路径描述
1figures/method/algo_flowchart.png算法流程图
2figures/exp_section1/spread_pref_evolution.png扩散偏好演化
3figures/exp_section1/pf_spread.png扩散帕累托前沿
4figures/exp_section1/predator_pref.png捕食者偏好
5figures/exp_section1/pf_predator_prey.png捕食者-猎物帕累托前沿
6figures/exp_section1/8m_role.png8m角色分配
7figures/exp_section1/2s3z_role.png2s3z角色分配
8figures/mompe/spread/success_rate.png扩散成功率
9figures/mompe/predator_prey/success_rate.png捕食者-猎物成功率
10figures/momaland/catch/success_rate.png捕获成功率
11figures/momaland/escort/mr.png护航移动奖励
12figures/momaland/walker/forward_distance.png移动前进距离
13figures/smac/3m.png3m结果
14figures/smac/2s3z.png2s3z结果
15figures/smac/8m.png8m结果
16figures/ablation/lambda1.pngλ 1 \lambda_1λ1消融
17figures/ablation/lambda2.pngλ 2 \lambda_2λ2消融
18figures/ablation/pref_coord.png偏好协调消融
19figures/envs/illustration/catch.png捕获环境示意图
20figures/envs/illustration/multiwalker.png多行走者环境
21figures/envs/illustration/predatorprey.png捕食者-猎物环境
22figures/envs/illustration/smac.pngSMAC环境

图片URL(基础路径)

所有图片的基础URL为:https://arxiv.org/html/2606.14693v1/

完整URL示例:

  • https://arxiv.org/html/2606.14693v1/figures/method/algo_flowchart.png
  • https://arxiv.org/html/2606.14693v1/figures/exp_section1/spread_pref_evolution.png
  • https://arxiv.org/html/2606.14693v1/figures/smac/2s3z.png

🔗 相关资源与链接

资源URL
论文代码仓库https://github.com/PengxinWang/PrefMARL
arXiv论文页面https://arxiv.org/abs/2606.14693
arXiv HTML版本https://arxiv.org/html/2606.14693v1
arXiv PDF版本https://arxiv.org/pdf/2606.14693v1.pdf
arXiv LaTeX源https://arxiv.org/e-print/2606.14693
arXiv反馈https://github.com/arXiv/html_feedback/issues
LaTeXML项目https://github.com/brucemiller/LaTeXML

💡 专家分析

核心贡献

  1. 团队最优均衡形式化:将合作MOMARL框架化为寻找使诱导均衡最大化团队目标的偏好配置。
  2. 理论保证:证明偏好多样性带来团队性能的一阶改进,并在缓慢偏好更新下建立均衡追踪界限。
  3. PCMA算法:提出基于PPO的实用方法,在CTDE下具有随机偏好规划器和多样性正则化学习。
  4. 经验验证:在粒子世界、无人机、移动、星际争霸和CARLA交通控制基准中优于MADDPG、IPPO和MAPPO。

关键洞察

  • 偏好多样性是团队改进的关键:理论证明表明,偏好距离D p \mathcal{D}_pDp直接提升一阶团队改进。
  • 均衡追踪稳定性:缓慢偏好更新允许策略稳定追踪移动均衡而不振荡。
  • 角色自动专业化:在SMAC实验中,智能体自动分裂为攻击者和防御者角色,无需人工指定。

应用前景

  • 自动驾驶:多车辆协调(如一个优先安全,一个优先效率)
  • 无人机编队:多无人机任务分配与协调
  • 游戏AI:多智能体角色专业化与团队协作
  • 交通控制:真实世界路口车辆协调

📝 实验步骤与参数

训练参数(参考)

  • 优化器:Adam
  • 学习率:3 × 10 − 4 3 \times 10^{-4}3×104
  • 折扣因子γ \gammaγ0.99
  • PPO裁剪参数:0.2
  • 批次大小:2048
  • 训练轮数:5000(根据环境调整)

偏好规划参数

  • Dirichlet初始参数:α 0 = 1.0 \alpha_0 = 1.0α0=1.0
  • 多样性权重λ 1 \lambda_1λ1[ 0.02 , 0.10 ] [0.02, 0.10][0.02,0.10](通过消融实验确定)
  • 偏好平滑权重λ 2 \lambda_2λ2[ 0.5 , 1.0 ] [0.5, 1.0][0.5,1.0]

评估协议

  • 每个实验运行10次随机种子
  • 报告均值 ± 标准差
  • 使用滑动窗口平均评估稳定性
http://www.zskr.cn/news/1529821.html

相关文章:

  • 别再只会ping了!从MAC、PHY到RJ45,一张图看懂网口通信全流程与故障定位树
  • 两轮充电桩帮铺全指南:3步锁定靠谱合作方 - 速递信息
  • 2026深圳包包回收权威排名,回收门店综合评分榜 - 讯息早知道
  • 深入解析PowerPC e500核心寄存器模型与MPC8544E实战编程
  • WzComparerR2终极指南:5步掌握冒险岛WZ文件解析与编辑
  • 2026枣庄装修公司排名,哪家好?本地推荐榜揭晓 - 速递信息
  • AgentSpec:通过受控组理解具身智能体的脚手架系统
  • MSC8113 TDM接口配置详解:从硬件连接到软件调试实战
  • 数字孪生的未来发展方向探析
  • 告别手动同步!用Docker+SVN钩子实现代码提交后自动部署到Web目录
  • 如何高效使用专业音频频谱分析工具Spek:从入门到精通
  • GBase 8s数据库安装包运维监控类脚本解析
  • Windows系统瘦身神器:Win11Debloat让你的电脑焕然一新
  • 别再被MybatisPlus的saveBatch骗了!手把手教你配置MySQL的rewriteBatchedStatements参数实现真批量插入
  • VSCode、Typora里输入Emoji太麻烦?分享我的Markdown效率神器与自定义代码片段
  • ExDark数据集实战指南:如何用7363张低光照图像解决夜间视觉难题
  • 深度时序模型训练效率优化:早停策略的技术实现与性能提升方案
  • MySQL忘记密码怎么办
  • 如何在5分钟内免费解锁Microsoft Office完整功能:Ohook终极指南
  • 别再折腾了!用MiKTeX+WinEdt 11搭建LaTeX环境,这篇保姆级教程一次搞定(含注册码)
  • 三步解锁暗黑破坏神2终极宽屏补丁:告别黑边,畅享60fps高清体验
  • 如何在3分钟内获取全球地理数据?world.geo.json开源项目的终极应用指南
  • 河南珍珠岩板厂家哪家实力强?濮阳、信阳品牌深度对比,工程采购推荐 - 速递信息
  • Windows安卓驱动一键安装终极指南:告别黄色感叹号,轻松连接手机
  • Codex客户端下载:通过 Agents SDK 使用 Codex 构建多智能体自动化工作流实战教程
  • MuleSoft企业级AI编排:让大模型真正听懂ERP、CRM和SAP
  • 从 ChatBot 到 Agent:AI 应用的范式升级
  • NXP PXD10 MCU硬件设计核心:电源、时钟、复位与系统集成实战
  • 2026年长沙美业培训选择指南:零基础创业就业全解决方案 - 企业名录优选推荐
  • 3分钟让你的Windows 11重获新生:Win11Debloat终极优化指南