当前位置: 首页 > news >正文

深度强化学习与控制2026 课程总结Week2

深度Q网络——DQN算法流程(1) 初始化网络参数(2) 初始化网络参数(3) 初始化经验回放池R(4) 进入循环迭代训练for 序列do获取初始状态for 时间步do根据以贪婪策略选择动作获得,存入经验回放池R若R中数据充足从R中采样N各数据目标网络计算最小化目标损失,更新当前网络更新目标网络end forend for注网络更新比网络快得多基于策略的算法策略梯度通过线性模型或神经网络模型为策略函数建模。目标是寻找一个最优策略并最大化该策略在环境中的期望回报。定义策略学习的目标函数可采用梯度上升法最大化该目标函数从而得到最优策略。REINFORCE算法策略梯度其中T是和环境交互的最大步数。具体流程(1) 初始化策略参数(2) 进入循环迭代训练for 序列do利用当前策略采样轨迹计算当前轨迹每个时刻t往后的回报end forActor-Critic算法Actor与环境交互并在Critic价值函数指导下用策略梯度学习更优策略——策略梯度更新Critic学习价值函数用以判断当前状态动作优劣——时序差分残差更新定义价值函数的损失函数其梯度为具体流程:(1)初始化Actor网络参数Critic网络参数(2)进入循环迭代训练for 序列do利用当前策略采样轨迹为每一步数据计算更新价值参数更新策略参数end forDDPG算法——深度确定性策略梯度确定性策略梯度定理用策略找到使值最大的动作a。此时Q为Critic为ActorDDPG中共有4个神经网络Actor网络及其目标网络Critic网络及其目标网络其中目标Q网络的更新为软更新即让目标Q网络缓慢更新接近Q网络具体流程:(1) 以表示随机噪声初始化Actor网络参数Critic网络参数(2)初始化目标网络和(3)初始化经验回放池R(4)进入循环迭代训练for 序列do初始化用于动作探索获取初始状态for 时间步do根据当前策略和噪声选择动作执行获得,存入经验回放池R若R中数据充足从R中采样N个元组对每个元组用目标网络计算最小化目标损失,更新当前网络计算采样的策略梯度以此更新Actor网络更新目标网络end forSAC算法熵表示对一个随机变量的随机程度的度量。对随机变量X概率密度函数为p其熵为可用表示策略在状态s下的随机程度最大熵强化学习最大化累积奖励的同时使策略更随机。在强化学习中加入熵正则项注若随机变量为正态分布则方差越大熵值越大Soft策略迭代Soft贝尔曼方程状态价值函数Soft策略提升公式注该方法只适用于表格型设置的情况。在连续空间下需通过参数化函数Q和策略来近似该迭代。Soft Actor Critic:为两个动作价值函数Q(参数为) 和一个策略函数建模。Q损失函数策略的损失函数由KL散度得到利用重参数化技巧改写策略损数得为自动调整熵正则项可将强化学习目标改写为一个带约束的优化问题得到损失函数为:具体流程(1)初始化Actor网络参数Critic网络参数(2)初始化目标网络和(3)初始化经验回放池R(4)进入循环迭代训练for 序列do获取初始状态for 时间步do根据当前策略和噪声选择动作执行获得,存入经验回放池Rfor 训练轮数do从R中采样N个元组对每个元组用目标网络计算对两个Critic网络进行更新最小化损失函数重参数化采样动作并更新Actor网络更新熵正则项系数更新目标网络end forend forend for
http://www.zskr.cn/news/1361584.html

相关文章:

  • 2026年腾讯云OpenClaw/Hermes Agent配置Token Plan怎么安装看这
  • TVA驱动智能家居的视觉范式革命(11)
  • 2026.5.20,2026.5.21笔记
  • 从手工报表到实时BI:一个零售数据平台的踩坑与重构实战
  • 项目介绍 基于Python的大学生竞赛组队系统设计与实现(含模型描述及部分示例代码)专栏近期有大量优惠 还请多多点一下关注 加油 谢谢 你的鼓励是我前行的动力 谢谢支持 加油 谢谢
  • CANN-ops-nn-昇腾NPU神经网络算子的积木盒子
  • 软考中级嵌入式——第九章 数据结构与算法
  • 【AI Agent社交应用实战指南】:2024年已验证的7大落地场景与避坑清单
  • 【教育科技圈内部流传】:Claude提示词工程在K12课件创作中的6个致命误区(92%教师正在踩坑)
  • 限时解密:Midjourney未公开的复古风格隐藏指令集(--grain 0.8 --fade 0.65 --halation true),仅剩最后87个测试席位
  • 合肥市内10家防水补漏公司实战推荐 - 资讯纵览
  • qKnow 智能体构建平台 v2.2.0 重磅更新!视觉焕新 + 数据看板 + 功能拓展全方位升级
  • 项目介绍 基于java+vue的跨境电商销售预测与可视化平台设计与实现(含模型描述及部分示例代码)专栏近期有大量优惠 还请多多点一下关注 加油 谢谢 你的鼓励是我前行的动力 谢谢支持 加油 谢谢
  • 紧急预警:2024年底起,欧盟CSRD与国内《电力人工智能应用安全规范》将强制要求Agent可解释性审计——3类高危黑箱行为自查清单
  • 单一职责原则 登录功能重构笔记
  • 消防展厅体验馆设备【119模拟报警系统】
  • 三步免费解锁WeMod完整功能:Wand-Enhancer开源工具终极指南
  • Git 版本控制完全指南:从分支管理到远程协作
  • 在Node.js后端服务中集成Taotoken调用AI模型的最佳实践
  • 从零入门 OpenAI Codex|登录、权限、终端、记忆配置全实操
  • 企业部署文件加密系统后,员工嫌卡顿怎么办?我们这样优化策略
  • 号卡联盟官方邀请码应该填什么?实测填写16888注册一级代理全网佣金最高0抽成 - 流量卡代理招商
  • 解决华硕灵耀X双屏Linux下扬声器不工作的问题
  • 2026清远搬厂公司费用明细 + 避坑指南(含精密设备 红木搬运) - 从来都是英雄出少年
  • 【Linux驱动开发】第12天:Linux设备树核心:树形结构+节点+属性 完整全解
  • 滑膜观测器代码及参数取值说明
  • 2025大厂Java后端面试:RAG高频考点【干货】
  • 暹罗外卖 2.0 主要更新
  • 知识图谱在真实业务场景落地实践
  • 技术债务管理:平衡开发速度与代码质量