深度Q网络——DQN算法流程(1) 初始化网络参数(2) 初始化网络参数(3) 初始化经验回放池R(4) 进入循环迭代训练for 序列do获取初始状态for 时间步do根据以贪婪策略选择动作获得,存入经验回放池R若R中数据充足从R中采样N各数据目标网络计算最小化目标损失,更新当前网络更新目标网络end forend for注网络更新比网络快得多基于策略的算法策略梯度通过线性模型或神经网络模型为策略函数建模。目标是寻找一个最优策略并最大化该策略在环境中的期望回报。定义策略学习的目标函数可采用梯度上升法最大化该目标函数从而得到最优策略。REINFORCE算法策略梯度其中T是和环境交互的最大步数。具体流程(1) 初始化策略参数(2) 进入循环迭代训练for 序列do利用当前策略采样轨迹计算当前轨迹每个时刻t往后的回报end forActor-Critic算法Actor与环境交互并在Critic价值函数指导下用策略梯度学习更优策略——策略梯度更新Critic学习价值函数用以判断当前状态动作优劣——时序差分残差更新定义价值函数的损失函数其梯度为具体流程:(1)初始化Actor网络参数Critic网络参数(2)进入循环迭代训练for 序列do利用当前策略采样轨迹为每一步数据计算更新价值参数更新策略参数end forDDPG算法——深度确定性策略梯度确定性策略梯度定理用策略找到使值最大的动作a。此时Q为Critic为ActorDDPG中共有4个神经网络Actor网络及其目标网络Critic网络及其目标网络其中目标Q网络的更新为软更新即让目标Q网络缓慢更新接近Q网络具体流程:(1) 以表示随机噪声初始化Actor网络参数Critic网络参数(2)初始化目标网络和(3)初始化经验回放池R(4)进入循环迭代训练for 序列do初始化用于动作探索获取初始状态for 时间步do根据当前策略和噪声选择动作执行获得,存入经验回放池R若R中数据充足从R中采样N个元组对每个元组用目标网络计算最小化目标损失,更新当前网络计算采样的策略梯度以此更新Actor网络更新目标网络end forSAC算法熵表示对一个随机变量的随机程度的度量。对随机变量X概率密度函数为p其熵为可用表示策略在状态s下的随机程度最大熵强化学习最大化累积奖励的同时使策略更随机。在强化学习中加入熵正则项注若随机变量为正态分布则方差越大熵值越大Soft策略迭代Soft贝尔曼方程状态价值函数Soft策略提升公式注该方法只适用于表格型设置的情况。在连续空间下需通过参数化函数Q和策略来近似该迭代。Soft Actor Critic:为两个动作价值函数Q(参数为) 和一个策略函数建模。Q损失函数策略的损失函数由KL散度得到利用重参数化技巧改写策略损数得为自动调整熵正则项可将强化学习目标改写为一个带约束的优化问题得到损失函数为:具体流程(1)初始化Actor网络参数Critic网络参数(2)初始化目标网络和(3)初始化经验回放池R(4)进入循环迭代训练for 序列do获取初始状态for 时间步do根据当前策略和噪声选择动作执行获得,存入经验回放池Rfor 训练轮数do从R中采样N个元组对每个元组用目标网络计算对两个Critic网络进行更新最小化损失函数重参数化采样动作并更新Actor网络更新熵正则项系数更新目标网络end forend forend for