当前位置：首页 > news >正文

124、强化学习：Q-learning与DQN

news 2026/6/16 21:35:30

运动控制算法入门到精通：从理论到嵌入式实战第124章强化学习：Q-learning与DQN1. 一个让我失眠的调试现场去年做四足机器人步态规划，传统PID+MPC在平地上跑得挺好，一上碎石路就开始“打醉拳”。我盯着示波器里乱跳的关节电流波形，突然意识到：运动控制的核心不是算准轨迹，而是学会在未知扰动下做决策。那天晚上我翻出Sutton的《强化学习》，把Q-learning和DQN硬塞进STM32H7的FreeRTOS任务里。结果第一个版本跑起来，机器人直接原地转圈——Q表收敛速度比乌龟还慢，内存还爆了。如果你也遇到过“理论完美、实战翻车”的情况，这篇笔记或许能帮你少焊几块板子。2. Q-learning：最朴素的“试错记账本”2.1 核心思想：别规划，先试错传统控制算法（比如LQR）需要精确的模型矩阵A和B。但现实中的电机摩擦力、齿轮间隙、电池电压波动，这些非线性项根本写不进状态方程。Q-learning的思路很粗暴：把每个状态-动作组合的价值记在一张表里，错了就扣分，对了就加分。举个四足机器人单腿控制的例子：状态s：髋关节角度、膝关节角度、足端接触力（3个连续量，离散化成10×10×5=500个格子）动作a：髋关节力矩（-3Nm到+3

http://www.zskr.cn/news/1345421.html

相关文章：

别再手动刷权重了！用Maya的ADV插件，30分钟搞定角色身体绑定（附减模包裹技巧）

AI模型受限发布机制解析：Gated Release原理与实践

2026 论文降重降 AIGC 十大工具横评：从查重到消痕一站式通关

终极KMS激活指南：如何用KMS_VL_ALL_AIO实现Windows与Office智能激活

别再找main函数了！MFC程序真正的入口点 InitInstance() 保姆级解析

ESP32外部中断防抖实战：用MicroPython搞定按键误触，附完整消抖代码

从状态机视角理解程序：形式化方法如何保证复杂系统正确性

FigmaCN：基于DOM操作的中文界面本地化技术方案

网易CodeWave低代码平台初体验：7天专业版权限，手把手教你从零搭建一个销售数据看板

QMCDecode：3步解锁QQ音乐加密音频的终极macOS工具

6个真正可用的开源AI生活工具：免登录、本地跑、老设备友好

手把手教你用USB ISP下载器给Arduino Nano烧写Bootloader（含ProgISP软件详细配置）

探索智能数据查询革命：Wren AI如何让自然语言秒变SQL语句

终极视频下载插件指南：3分钟免费保存微博、秒拍、梨视频

百联OK卡回收的三大误区，如何避免？ - 团团收购物卡回收

精华乳哪家效果好：蜜妙诗焕颜嫩肤 - 13724980961

别再复制粘贴了！Element Plus 表格组件与SpringBoot后端数据联调实战

大麦网自动抢票终极指南：3步搞定热门演出门票

终极LaTeX书籍排版指南：如何用ElegantBook打造专业学术著作

终极原神帧率解锁指南：3步突破60FPS限制，畅享丝滑游戏体验

如何免费下载B站4K大会员视频：终极指南与一键配置教程

信息学奥赛启蒙别踩坑：GoC画图练习题的正确打开方式（附2018年模拟题解析）

79、CAN总线现场抗干扰测试方法：频谱分析与眼图评估

京东e卡回收折扣多少？2026正规平台推荐，92折起实时到账 - 可可收公众号

09_AI审计平台设计：从风险识别出发而非从底稿编号出发

Minimax WebSocket TTS 文档里 bitrate / sample_rate 的真实取值

2026沈阳钻石变现好去处，多家正规门店实力客观对比 - 李宏哲1

告别手动对照！用OrCAD Design Sync功能，5分钟自动化同步你的原理图与Allegro PCB变更

如何用Python自动化脚本高效抢购热门演出门票？智能抢票解决方案揭秘

U8 ERP接口二次封装实战：用Net4.8+WebAPI打造比OpenAPI更香的内网集成方案