当前位置：首页 > news >正文

学习协调偏好用于多目标多智能体强化学习

news 2026/6/15 17:03:20

学习协调偏好用于多目标多智能体强化学习

来源：arXiv:2606.14693v1
代码仓库：PengxinWang/PrefMARL

📖 概述

本文提出协调偏好多智能体策略优化（PCMA），一种用于多目标多智能体强化学习（MOMARL）的新型框架。PCMA使智能体能够学习协调的、智能体特定的偏好，从而诱导互补的权衡，提高团队性能并减少行为冲突。该方法在**集中式训练-分布式执行（CTDE）**范式下运行，并在粒子世界、无人机、 locomotion、星际争霸和真实世界交通控制环境中得到验证。

🎯 问题形式化与动机

核心挑战：在MOMARL中，冲突不仅出现在目标之间，还出现在具有不同观测、角色和优先级权重的智能体之间。使用固定共享偏好向量的标准标量化强制同质行为，导致竞争或效率低下。
关键洞察：对多样协调偏好进行策略 conditioning 允许智能体占据帕累托前沿的不同区域，实现角色专业化更好的团队协调。
形式化：合作MOMARL被框架化为团队最优均衡问题：找到偏好配置p \mathbf{p}p及其诱导的均衡θ ∗ ( p ) \theta^*(\mathbf{p})θ∗(p)，以最大化团队目标J t e a m J_{\mathrm{team}}Jteam。

📐 理论基础

🔹 一阶团队改进与偏好多样性

团队改进矩阵：B i , k : = ( ∇ θ i J t e a m ( θ ) ) ⊤ ∇ θ i J i , k ( θ ) B_{i,k} := (\nabla_{\theta_i} J_{\mathrm{team}}(\theta))^\top \nabla_{\theta_i} J_{i,k}(\theta)Bi,k:=(∇θiJteam(θ))⊤∇θiJi,k(θ)衡量智能体i ii的第k kk个目标对团队改进的贡献。
假设 4.1（偏好-改进对齐）：中心偏好p ~ i \tilde{p}_ip~i和改进方向b ~ i \tilde{b}_ib~i满足p ~ i ⊤ b ~ i ∥ p ~ i ∥ 2 2 ≥ κ > 0 \frac{\tilde{p}_i^\top \tilde{b}_i}{\|\tilde{p}_i\|_2^2} \geq \kappa > 0∥p~i∥22p~i⊤b~i≥κ>0。
定理 4.2（团队改进分解）：

J_{\mathrm{team}}(\theta_{\mathrm{new}}) - J_{\mathrm{team}}(\theta) \geq \eta \sum_{i=1}^N \|\nabla_{\theta_i} J_{\mathrm{team}}(\theta)\|_2^2 + \eta N (\bar{p}^\top \bar{b} + \kappa \mathcal{D}_p)

其中D p = 1 2 N 2 ∑ i , j ∥ p i − p j ∥ 2 2 \mathcal{D}_p = \frac{1}{2N^2}\sum_{i,j}\|p_i - p_j\|_2^2Dp=2N21∑i,j∥pi−pj∥22是成对偏好距离。多样性D p \mathcal{D}_pDp直接提升一阶团队改进。

🔹 均衡追踪

引理 4.3：在非奇异雅可比条件下，局部纳什均衡θ ∗ ( p ) \theta^*(\mathbf{p})θ∗(p)随p \mathbf{p}p连续变化。
定理 4.6（均衡追踪）：在缓慢偏好更新下，追踪误差e t = ∥ θ t − θ ( p t ) ∥ e_t = \|\theta^t - \theta(\mathbf{p}^t)\|et=∥θt−θ(pt)∥满足：

e_{t+1} \leq \rho e_t + C \|\mathbf{p}^{t+1} - \mathbf{p}^t\| \implies \limsup_{t\to\infty} e_t \leq \frac{C}{1-\rho}\delta

保证当偏好配置缓慢变化时稳定收敛。

⚙️ 方法：PCMA算法

🧩 架构与训练范式

CTDE框架：集中式批评家训练；分布式演员执行。
偏好条件演员：偏好p i p_ipi拼接为局部观测o i o_ioi的输入。
双批评家设计：
- 集中式团队批评家估计A t e a m A^{\mathrm{team}}Ateam
- 个体向量批评家估计A i i n d \mathbf{A}_i^{\mathrm{ind}}Aiind

📉 损失函数

批评家损失：

\mathcal{L}_{\mathrm{critic}} = \mathbb{E}_\tau \left[ (V^{\mathrm{team}}(\mathbf{o}) - R^{\mathrm{team}})^2 + \sum_{i=1}^N \|\mathbf{V}^i(o_i) - \mathbf{R}^i\|_2^2 \right]

演员更新（基于PPO）：

\mathcal{L}_{\mathrm{actor}}(\theta) = \mathcal{L}_{\mathrm{PPO}}\left(\pi_\theta(\cdot|o_i, p_i), A_{U_i}\right), \quad A_{U_i} = A^{\mathrm{team}} + \lambda p_i^\top \mathbf{A}_i^{\mathrm{ind}}

🎲 协调偏好规划

每个智能体学习随机规划器输出Dirichlet参数：α i = ϕ ψ ( o i ) \alpha_i = \phi_\psi(o_i)αi=ϕψ(oi)，采样p i ∼ D i r ( α i ) p_i \sim \mathrm{Dir}(\alpha_i)pi∼Dir(αi)。
多样性正则化：通过D α = E [ D p ] \mathcal{D}_\alpha = \mathbb{E}[\mathcal{D}_p]Dα=E[Dp]鼓励不同偏好。
规划器损失：

\mathcal{L}_{\mathrm{plan}}(\psi) = \mathcal{L}_{\mathrm{PPO}}\left(\phi_\psi(\cdot|o_i), A^{\mathrm{team}}\right) - \lambda_1 \mathcal{D}_\alpha

🧪 实验验证

🌍 环境与设置

类别	环境	奖励结构
粒子世界	合作扩散、安全捕食者-猎物	稀疏团队 + 向量个体奖励
无人机控制	捕获、护航	稀疏团队 + 向量个体奖励
移动控制	MOMAwalker	包裹进度 + 稳定性惩罚
星际争霸（SMAC）	3m, 2s3z, 8m	团队胜利 + [伤害造成, -伤害承受]
真实世界	OpenCDA-MARL（CARLA）	效率 + 安全/交互目标

📊 性能摘要

PCMA始终优于或持平基线（MADDPG、IPPO、MAPPO）在成功率和奖励指标上。

示例结果：

环境	指标	MADDPG	IPPO	MAPPO	PCMA（本文）
合作扩散	成功率	0.38	0.27	0.80	1.00
安全捕食者-猎物	成功率	0.68	0.60	0.91	0.96
SMAC-2s3z	成功率	0.63	0.93	0.97	1.00
MOMAwalker	前进距离	75.04	6.69	70.52	93.64

CARLA交通控制（OpenCDA-MARL）

设置	骨干	效用↑	成功率(%)↑	碰撞率(%)↓	吞吐量↑
合作	SAC	-4776.9	68.6	31.4	1692
合作	MAPPO	-16793.3	55.4	42.5	1417
合作	PCMA	-2072.9	69.6	30.4	1716
竞争	PCMA	-2877.1	68.0	23.3	1192

消融与行为分析

移除多样性正则化（λ 1 = 0 \lambda_1=0λ1=0）或使用随机/相同偏好会降低性能。
最优λ 1 ∈ [ 0.02 , 0.10 ] \lambda_1 \in [0.02, 0.10]λ1∈[0.02,0.10]和λ 2 ∈ [ 0.5 , 1.0 ] \lambda_2 \in [0.5, 1.0]λ2∈[0.5,1.0]。
在SMAC中，智能体自然分裂为激进攻击者 vs 前线防御者（通过伤害造成 vs 伤害承受衡量）。

🖼️ 论文中的图片

编号	图片路径	描述
1	`figures/method/algo_flowchart.png`	算法流程图
2	`figures/exp_section1/spread_pref_evolution.png`	扩散偏好演化
3	`figures/exp_section1/pf_spread.png`	扩散帕累托前沿
4	`figures/exp_section1/predator_pref.png`	捕食者偏好
5	`figures/exp_section1/pf_predator_prey.png`	捕食者-猎物帕累托前沿
6	`figures/exp_section1/8m_role.png`	8m角色分配
7	`figures/exp_section1/2s3z_role.png`	2s3z角色分配
8	`figures/mompe/spread/success_rate.png`	扩散成功率
9	`figures/mompe/predator_prey/success_rate.png`	捕食者-猎物成功率
10	`figures/momaland/catch/success_rate.png`	捕获成功率
11	`figures/momaland/escort/mr.png`	护航移动奖励
12	`figures/momaland/walker/forward_distance.png`	移动前进距离
13	`figures/smac/3m.png`	3m结果
14	`figures/smac/2s3z.png`	2s3z结果
15	`figures/smac/8m.png`	8m结果
16	`figures/ablation/lambda1.png`	λ 1 \lambda_1λ1消融
17	`figures/ablation/lambda2.png`	λ 2 \lambda_2λ2消融
18	`figures/ablation/pref_coord.png`	偏好协调消融
19	`figures/envs/illustration/catch.png`	捕获环境示意图
20	`figures/envs/illustration/multiwalker.png`	多行走者环境
21	`figures/envs/illustration/predatorprey.png`	捕食者-猎物环境
22	`figures/envs/illustration/smac.png`	SMAC环境

图片URL（基础路径）

所有图片的基础URL为：https://arxiv.org/html/2606.14693v1/

完整URL示例：

https://arxiv.org/html/2606.14693v1/figures/method/algo_flowchart.png
https://arxiv.org/html/2606.14693v1/figures/exp_section1/spread_pref_evolution.png
https://arxiv.org/html/2606.14693v1/figures/smac/2s3z.png

🔗 相关资源与链接

资源	URL
论文代码仓库	https://github.com/PengxinWang/PrefMARL
arXiv论文页面	https://arxiv.org/abs/2606.14693
arXiv HTML版本	https://arxiv.org/html/2606.14693v1
arXiv PDF版本	https://arxiv.org/pdf/2606.14693v1.pdf
arXiv LaTeX源	https://arxiv.org/e-print/2606.14693
arXiv反馈	https://github.com/arXiv/html_feedback/issues
LaTeXML项目	https://github.com/brucemiller/LaTeXML