模型强化学习中的乐观探索原理与实践-尧图网络科技

1. 模型强化学习中的探索困境与乐观原则

在强化学习领域，样本效率一直是制约算法实际应用的关键瓶颈。传统无模型方法（Model-Free RL）需要大量环境交互数据才能学习有效策略，这在实际硬件部署或数据采集成本高昂的场景中几乎不可行。模型强化学习（MBRL）通过构建环境动态模型，允许智能体在"脑海"中进行模拟推演，理论上可以大幅提升样本效率。然而，现有MBRL方法大多采用简单的探索策略（如Boltzmann探索、ε-greedy），在稀疏奖励或复杂动态系统中表现欠佳。

1.1 传统探索策略的局限性

以PETS算法为代表的经典MBRL方法通常采用"贪婪规划"策略：基于当前最优动态模型选择最大化预期回报的动作。这种策略存在两个根本缺陷：

模型误估计陷阱：早期收集的数据往往覆盖状态空间有限，导致学习到的动态模型在未探索区域存在严重偏差。贪婪策略会反复利用这些有缺陷的模型，形成"自欺欺人"的恶性循环。
稀疏奖励失效：当外部奖励信号稀少时（如只在任务完成时给予奖励），贪婪策略缺乏主动探索的动力。典型的例子是OpenAI Gym中的MountainCar环境，智能体需要先"后退蓄力"才能到达目标位置，但贪婪策略永远学不会这个反直觉动作。

# 典型贪婪规划伪代码 def greedy_planning(dynamics_model, initial_state): trajectories = [] for _ in range(num_candidates): state = initial_state trajectory = [] for _ in range(planning_horizon): action = policy(state) # 当前策略采样 next_state = dynamics_model.predict(state, action) trajectory.append((state, action, next_state)) state = next_state trajectories.append(trajectory) return max(trajectories, key=calculate_return)

1.2 乐观探索的理论基础

乐观原则（Optimism in the Face of Uncertainty）为解决上述问题提供了理论框架。其核心思想可概括为：

在不确定性的区域，智能体应假设环境对自己"最有利"，并据此采取行动。随着数据积累，这种乐观假设会逐步修正，最终收敛到真实最优策略。

数学上，这等价于在每个决策步骤构建一个置信区间（Confidence Set）$M_n$，包含所有与当前数据一致的动态模型，然后选择在该集合内能获得最高回报的策略：

$$ \pi_n^{OE} = \arg\max_{\pi\in\Pi,f\in M_n} J(\pi,f) $$

已有理论证明（Jaksch et al., 2010），这种策略在表格型强化学习中可实现$\tilde{O}(\sqrt{DSAT})$的遗憾上界，其中$D$为直径，$S$为状态数，$A$为动作数，$T$为时间步。然而，将这些理论成果扩展到连续状态-动作空间和高维观测（如图像输入）面临巨大挑战。

2. SOMBRL算法架构设计

2.1 整体设计思路

SOMBRL的核心创新在于将复杂的置信集优化问题转化为可扩展的奖励塑形（Reward Shaping）问题。具体而言，算法维护一个不确定性感知的动态模型$(\mu_n,\sigma_n)$，其中$\mu_n$为均值预测，$\sigma_n$为认知不确定性估计。然后通过优化以下目标选择策略：

$$ \pi_n := \arg\max_{\pi\in\Pi} \mathbb{E}\pi\left[\sum{t=0}^{T-1} \big(r(x_t,u_t) + \lambda_n|\sigma_n(x_t,u_t)|\big)\right] $$

其中$\lambda_n$控制探索-利用的权衡。这种设计带来三个关键优势：

计算效率：避免直接在高维置信集$M_n$内优化，转而使用标量化的不确定性奖励
模块化设计：可与任意MBRL框架（如MBPO、Dreamer）结合
理论保证：保持与经典乐观算法相同的次线性遗憾界

2.2 不确定性估计方法

2.2.1 高斯过程实现

对于低维状态空间，可采用高斯过程（GP）直接建模动态函数$f^*$。GP提供解析形式的后验分布：

$$ \begin{aligned} \mu_n(z) &= k_n^\top(z)(K_n + \sigma^2I)^{-1}y_{1:n} \ \sigma_n^2(z) &= k(z,z) - k_n^\top(z)(K_n + \sigma^2I)^{-1}k_n(z) \end{aligned} $$

其中$k(\cdot,\cdot)$为核函数，$K_n$为观测数据Gram矩阵。GP的遗憾界直接与最大信息增益$\Gamma_N$相关，对于常用核函数有：

线性核：$\Gamma_N \in O(d\log N)$
RBF核：$\Gamma_N \in O((\log N)^{d+1})$

2.2.2 深度集成实现

针对高维观测（如图像输入），SOMBRL可采用深度集成（Deep Ensemble）估计不确定性：

训练$M$个独立神经网络${f_\theta^i}_{i=1}^M$，通过随机初始化或Bootstrap采样引入多样性
计算认知不确定性为模型间的预测差异：

$$ \sigma_n(z) = \sqrt{\frac{1}{M}\sum_{i=1}^M (f_\theta^i(z) - \mu_n(z))^2} $$

实践技巧：在视觉控制任务中，我们发现对潜在空间而非原始像素空间进行不确定性估计更有效。具体可结合Dreamer等世界模型，在潜在动态模型上应用深度集成。

2.3 自动调节探索系数

$\lambda_n$的选择对算法性能至关重要。理论分析建议取$\lambda_n \in \Theta(\sqrt{\Gamma_N})$，但实际中可采用自适应策略：

基于信噪比的调节（Sukhija et al., 2024a）：

$$ \lambda_n = \alpha \cdot \frac{\text{std}(R_{\text{ext}})}{\text{std}(R_{\text{int}})} $$

其中$R_{\text{ext}}$为近期外部奖励，$R_{\text{int}}$为不确定性奖励，$\alpha$为缩放因子。

课程学习策略：初期设置较大$\lambda_n$鼓励探索，随着训练逐步衰减：

$$ \lambda_n = \lambda_{\max} \cdot e^{-n/\tau} + \lambda_{\min} $$

硬件实验发现：在RC车控制任务中，我们发现$\lambda_n$的衰减速率应与系统动态复杂度匹配。过于激进的衰减会导致早期探索不足，而缓慢衰减则影响最终性能。

3. 理论保证与收敛性分析

3.1 有限时间域情形

定理3.1（有限时间域遗憾界）：在假设5.1-5.2下，SOMBRL的累积遗憾满足：

$$ R_N \leq \tilde{O}(\Gamma_N^{3/2}\sqrt{N}) $$

证明要点：

通过策略差异引理（Kakade & Langford, 2002）建立$J(\pi)$与$J_n(\pi)$的联系
利用GP置信区间性质证明$J(\pi^*) \leq J_n(\pi_n)$
将遗憾分解为模型误差项与探索奖励项，分别用信息增益$\Gamma_N$控制

3.2 无限时间域与非回合制扩展

SOMBRL的灵活性体现在可适应不同RL设定：

折扣无限时间域：
- 采用逐步增长的规划视野$T(n) \in \Theta(\log n)$
- 遗憾界：$R_N \leq \tilde{O}(\Gamma_N^{3/2}\sqrt{N})$
非回合制平均奖励：
- 基于不确定性触发模型更新：$\sum_{t=0}^{T(n)-1} |\sigma_n(x_t)| > C$
- 保持相同阶的次线性遗憾

与先验工作对比：相比H-UCRL（Curi et al., 2020）需要求解高维优化问题，SOMBRL在保持相同理论保证的同时，计算复杂度降低3倍以上（见第5章实验）。

4. 实现细节与工程优化

4.1 状态空间标准化技巧

在处理高维状态时，我们发现对不确定性估计进行适当标准化至关重要：

def normalized_uncertainty(states, actions): # states: [batch_size, state_dim] # actions: [batch_size, action_dim] inputs = torch.cat([states, actions], dim=-1) ensemble_preds = [model(inputs) for model in dynamics_ensemble] # [M, batch_size, state_dim] means = torch.stack(ensemble_preds).mean(0) # [batch_size, state_dim] variances = torch.stack(ensemble_preds).var(0) # [batch_size, state_dim] # 按特征维度标准化 state_stds = states.std(0, keepdim=True) # [1, state_dim] normalized_vars = variances / (state_stds**2 + 1e-6) return normalized_vars.mean(-1) # [batch_size]

4.2 混合探索策略

在硬件部署中，纯乐观探索可能导致过于激进的控制行为。我们提出混合策略：

在初始阶段使用乐观探索收集数据
当模型不确定性低于阈值后，切换至概率推断探索：

$$ \pi(u|x) \propto \exp(Q(x,u) + \beta \sigma(x,u)) $$

其中$\beta$随训练衰减。这种策略在RC车实验中减少了40%的碰撞次数。

4.3 并行化数据收集

为提升样本效率，我们设计了一种并行化方案：

主学习器维护全局模型和策略
多个工作者同时与环境交互，采用$\epsilon$-扰动策略：

$$ u_t = \pi(x_t) + \epsilon_t, \quad \epsilon_t \sim \mathcal{N}(0,\sigma_n(x_t)^2) $$

优先上传高不确定性轨迹回放缓冲

实现注意：需确保不同工作者间的随机种子独立，避免探索路径相关性。

5. 实验结果与性能分析

5.1 基准测试对比

我们在三类环境中评估SOMBRL：

经典控制任务（MountainCar、Pendulum）：
- 稀疏奖励变体：仅在最优点给予+1奖励
- MBPO-OPTIMISTIC比MBPO-MEAN样本效率提升5倍
视觉控制任务（DMControl、Atari）：
- 在FingerSpin任务上，Dreamer-OPTIMISTIC最终表现提升120%
- 特别在Venture等稀疏奖励Atari游戏中实现零突破
硬件平台（RC车漂移入库）：
- 20次真实试验即达到90%成功率
- 相比SIMFSVGD基线，轨迹平滑度提升35%