当前位置：首页 > news >正文

ARM-FM：用大语言模型自动生成奖励机，破解强化学习稀疏奖励难题

news 2026/5/25 6:13:21

1. 项目概述当强化学习遇上稀疏奖励我们如何破局在强化学习领域干了这么多年我见过太多智能体在“稀疏奖励”这个老大难问题上折戟沉沙。想象一下你训练一个机器人去厨房泡杯咖啡但只告诉它“泡好咖啡了给你一颗糖”中间找咖啡豆、烧水、研磨、冲泡这些步骤一概不给任何反馈。这就像让一个新手司机从北京开车到上海但全程蒙着眼睛只有到达外滩时才能看一眼导航——这学习效率可想而知大概率他会在天津绕圈绕到天荒地老。这就是稀疏奖励问题的核心智能体只在完成一长串复杂动作序列的最终时刻才能获得一个微弱甚至唯一的成功信号而过程中的每一步都是“黑暗中的摸索”。传统的解决思路比如好奇心驱动探索ICM或者随机网络蒸馏RND本质上是给智能体灌“兴奋剂”让它对未知环境感到“好奇”从而多去逛逛。这方法在简单环境里还行但一旦任务复杂起来比如在《我的世界》里合成钻石镐需要“砍树-做工作台-做木镐-挖石头-做石镐-挖铁-做熔炉-炼铁-做铁镐-挖钻石”这一连串精确步骤时光靠漫无目的的好奇心智能体可能玩上几百万步还在快乐地挖土。问题的根源在于“信用分配”困难成功了功劳算哪一步的近年来一种称为“奖励机”的 formalism提供了一种优雅的思路。它本质上是一个有限状态自动机每个状态代表任务的一个子目标阶段比如“已拿到钥匙”、“门已打开”状态之间的转换由环境中发生的关键事件如“捡起钥匙”触发并为这些转换赋予奖励。这样一个稀疏的终极任务就被分解成了一连串密集的、有逻辑的子任务奖励。这就像给去上海的司机一份详细的途攻略“开出五环1分”、“进入京沪高速5分”、“通过济南黄河大桥10分”…… 每一步都有即时反馈学习路径瞬间清晰。然而构建奖励机本身是个技术活传统方法严重依赖专家知识或大量演示数据来手工设计或学习状态和转换规则成本高昂且难以泛化。今天要深入解析的ARM-FM框架正是瞄准了这个痛点。它的核心创新在于请来了当今AI界的“万金油”——基础模型如GPT-4等大语言模型让LLM充当“任务规划师”和“代码生成器”。你只需要用自然语言描述任务比如“特工需要找到一把钥匙打开一扇门然后到达绿色的目标格子”ARM-FM就能驱动LLM自动生成对应的、语言对齐的奖励机及其配套的感知代码。这不仅自动化了奖励工程更重要的是生成的奖励机承载了LLM对任务语义的理解使得智能体获得的奖励信号是“有道理”的而不仅仅是机械的触发。接下来我将带你深入这个框架的每一处设计细节、实操中的关键抉择以及我们趟过的那些坑。2. ARM-FM框架核心设计思路拆解ARM-FM的全称是“Automaton-Generating Reward Machines with Foundation Models”顾名思义它的工作流是一个清晰的“描述-生成-验证-应用”闭环。整个框架的野心在于将强化学习智能体的训练从传统的、针对特定环境反复调参的“手工作坊”模式升级为一种基于自然语言任务描述的、可自动生成训练信号的“标准化生产”模式。2.1 核心组件与工作流程整个框架可以分解为四个核心阶段它们形成了一个完整的自治系统任务描述与奖励机生成这是一切的起点。用户提供一个自然语言的任务描述Mission Description。这个描述被输入给一个作为“生成器”的基础模型。该模型被精心设计提示Prompt要求其输出一个符合严格格式的奖励机文本描述。这个描述包括了状态集合、初始状态、转移函数哪个状态下发生什么事件会跳转到哪个新状态以及奖励函数哪些转移会获得正/负奖励。奖励机批判与精炼生成的东西不一定完美。因此框架引入了第二个基础模型作为“批判家”。批判家的角色是代码审查员它严格检查生成的奖励机逻辑是否完备是否覆盖了所有关键事件比如考虑了“捡起钥匙后又丢掉”这种倒退情况吗奖励设置是否合理会不会出现智能体通过反复触发某个转换刷分的“奖励黑客”行为。批判家会给出具体的修改意见反馈回生成器进行迭代优化。这个过程可以完全自动进行形成“自我改进循环”也可以在关键节点引入人类专家进行“人在回路”的干预提供高层指导例如“需要增加一些中间奖励来引导探索”。感知函数代码生成奖励机定义的是“事件”比如has_key持有钥匙。但智能体从环境中观察到的是原始像素或低层状态向量如坐标、物体ID。我们需要一个桥梁将原始观察映射到这些布尔事件上。框架会再次调用基础模型根据奖励机中的事件列表自动生成对应的Python“标注函数”。例如has_key函数会检查env.carrying属性是否为一个Key类型的对象。这一步至关重要它实现了从高层语义事件到低层环境API的接地。强化学习训练集成最终生成的奖励机和标注函数被集成到一个标准的强化学习算法如DQN、PPO中。智能体的状态被扩展为(环境状态, 奖励机当前状态)。每一步环境返回一个稀疏奖励通常是0最终目标时为1同时标注函数根据新的环境状态判断触发的事件驱动奖励机状态转移并产生一个密集的奖励机奖励。智能体优化的总奖励是二者之和。这样智能体就在一个由奖励机定义的、富含语义的密集奖励信号指导下进行学习。2.2 为什么是“语言对齐”奖励机这是ARM-FM区别于传统奖励机的灵魂所在。“语言对齐”体现在两个层面首先生成源头是语言。奖励机不是由工程师对着代码拍脑袋想出来的而是源于人类最自然的表达方式——自然语言描述。这极大地降低了使用门槛让领域专家哪怕不懂编程也能参与设计智能体的学习目标。其次奖励信号蕴含语义。由于奖励机是由理解语言的基础模型生成的其定义的状态和事件如door_unlocked,goal_reached本身就携带了人类可理解的语义。这意味着奖励机提供的奖励不仅仅是一个数值更是一个“为什么给你这个奖励”的解释。例如在BlockedUnlockPickup任务中奖励机可能会在“移开挡路的球”时给予一个小奖励这直接对应了任务描述中隐含的子目标。这种语义对齐有助于学习到更可解释、更易泛化的策略。2.3 与替代技术路线的对比为了更清楚ARM-FM的定位我们将其与相关领域的工作做个对比方法类别代表工作生成奖励机需要演示数据核心机制与ARM-FM的关键差异FM用于自动机合成L*LM是是用LLM回答L*算法中的成员查询学习奖励机依赖大量专家演示轨迹学习成本高。Alsadat et al.是否LLM为基于SAT的算法提供文本反馈来学习RM仍依赖形式化算法LLM作为辅助非端到端生成。ARM-FM (本文)是否LLM端到端从语言描述生成完整LARM直接、无需演示、纯语言驱动。FM引导的RL框架SayCan否是技能库LLM对预定义技能进行评分和排序需要预先定义好的技能库泛化受技能范围限制。Eureka否否LLM进化奖励函数的程序代码生成的是无结构奖励函数代码而非结构化状态机可解释性和泛化性弱。ELLM否否每一步都用LLM查询建议可能有用的目标每一步都需调用LLM成本极高且奖励信号非结构化。通过对比可以看出ARM-FM在“从零生成结构化奖励表示”和“完全摆脱对专家演示的依赖”这两点上做出了明确的推进。它找到了一条介于“完全手工设计”和“完全黑箱优化”之间的实用路径。3. 核心实现细节与实操要点理解了宏观框架我们深入到实现层面。这里有很多设计抉择直接影响最终效果我结合论文和自身实验经验为你拆解其中要害。3.1 奖励机设计紧凑性与完备性的艺术基础模型生成奖励机时我们通过Prompt施加了极强的约束核心要求是“紧凑”和“完备”。这本身就是一对需要权衡的矛盾。紧凑性要求状态和转移尽可能少。一个状态应该代表任务的一个有意义的“阶段”而不是每一个微小变化都对应一个状态。例如在DoorKey任务中最优设计可能只有三个状态u0初始无钥匙u1已获得钥匙u2门已打开正在前往目标。Prompt中明确要求“将无关事件聚合到(state, else) - state转移中”就是为了避免状态爆炸。为什么强调紧凑因为状态越多智能体需要学习的(状态, 动作)价值函数组合就越多样本复杂度和训练时间都会增加。完备性则要求覆盖所有重要的边缘情况。这是初期实验中容易翻车的地方。比如在UnlockPickup任务中最初的自动生成奖励机可能只定义了pickup_key捡起钥匙事件和对应的正向奖励却忽略了drop_key丢弃钥匙事件。这会导致一个致命漏洞智能体可能学会反复捡起、丢弃钥匙来刷取pickup_key的奖励陷入局部最优。完备性检查要求批判家模型能识别出这类“进度丢失”事件并建议为其添加一个负奖励如-0.1的转移形成零和循环杜绝奖励黑客行为。实操心得Prompt工程是关键。生成器和批判家的Prompt需要精心设计。生成器的Prompt必须包含清晰的环境对象描述Agent, Key, Door, Goal、任务描述、严格的输出格式模板以及关于使用布尔谓词而非原始动作的强制性要求。批判家的Prompt则更像一份详细的检查清单从紧凑性、事件定义、覆盖度、奖励设置、任务逻辑到格式逐条列出审查标准。我们的经验是将人类专家在代码审查中最关注的点转化为结构化、可执行的Prompt语言是让基础模型可靠工作的前提。3.2 标注函数生成从语义到感知的桥梁奖励机运行在“事件”空间而智能体生活在“观察”空间。标注函数就是负责连接这两个世界的翻译官。它的生成质量直接决定了奖励机能否正确感知环境。生成过程框架会将最终确定的奖励机文本连同环境API说明例如env.grid.get(i, j),env.carrying,obj.type等一起输入给基础模型要求其为每一个事件生成一个Python布尔函数。例如对于事件agent_has_key生成的代码可能如下def agent_has_key(env): return env.carrying is not None and env.carrying.type key常见陷阱与处理对象类型判断在MiniGrid这类环境中不能直接import具体的类如Key。必须通过检查对象的属性obj.type key来判断。Prompt中必须明确强调这一点否则模型可能生成无法运行的代码。空间与方向推理对于agent_in_front_of_door智能体在门前面这类事件需要结合agent_pos、agent_dir和网格查询来计算。LLM在空间推理上可能出错需要批判家模型仔细检查生成的几何逻辑是否正确。事件互斥与覆盖要确保不同事件的判断条件是互斥且完备的避免同一时刻多个事件被误判为True。这通常由奖励机本身的结构和批判环节来保证。一个关键技巧在生成标注函数后我们通常会运行一个简单的“环境模拟测试”。即用脚本驱动智能体执行一系列预设的关键动作走到钥匙前、捡起、走到门前、打开、走到目标并打印每个步骤触发的事件。这能快速验证标注函数与奖励机逻辑是否匹配比单纯依赖LLM批判更可靠。3.3 与RL算法的集成扩展状态空间如何将奖励机融入标准的RL算法ARM-FM采用了一种经典而有效的思路构建乘积马尔可夫决策过程。具体来说智能体的状态从原来的环境状态s_t扩展为联合状态(s_t, u_t)其中u_t是奖励机在时刻t所处的状态。这样智能体的策略π(a | s_t, u_t)或价值函数Q(s_t, u_t, a)就同时依赖于环境情况和当前的任务完成阶段。以DQN为例其训练流程的修改如下对应论文附录A.3的算法1输入扩展Q网络现在接收(s_t, φ(u_t))作为输入。φ(u_t)是奖励机状态u_t的语言嵌入例如通过一个小的嵌入层将状态ID映射为向量这有助于网络理解不同状态的语义。奖励合成每一步的总奖励R_total R_env R_rm其中R_env是原始稀疏环境奖励通常为0R_rm是奖励机根据当前转移给出的奖励。经验回放存入回放缓冲区的经验元组变为(s_t, u_t, a_t, R_total, s_t1, u_t1)包含了奖励机状态的转移。目标计算在计算TD目标时需要基于下一个联合状态(s_t1, u_t1)来估计最大未来Q值。为什么这样做是有效的从理论上看论文附录A.5只要生成的奖励机满足“无正奖励环”的条件即智能体无法通过循环触发某些转移获得净正收益并且最终目标奖励足够大那么优化这个乘积MDP的最优策略同样是原稀疏奖励MDP的最优策略。奖励机提供的密集奖励实际上扮演了“基于势能的塑形奖励”角色它改变了奖励的分布以加速学习但没有改变最优解的本质。这为方法的有效性提供了理论背书。4. 多环境实验验证与结果分析框架好不好实验见真章。ARM-FM在四个具有不同挑战性的环境中进行了系统验证覆盖了从网格世界到3D开放世界从单一任务到组合泛化。4.1 MiniGrid / BabyAI经典稀疏奖励测试场MiniGrid系列环境是研究稀疏奖励和分层任务的标杆。ARM-FM测试了其中几个经典变体DoorKey基础探索任务。找钥匙、开门、到目标。验证框架能否解决最简单的稀疏奖励问题。BlockedUnlockPickup增加了规划复杂度。需要先移开挡路的球才能拿到钥匙然后开门最后拾取目标盒子。测试长视野规划能力。UnlockToUnlock (BabyAI)嵌套依赖任务。需要找到一把钥匙开第一道门进入的房间里有第二把钥匙用来开第二道门才能到达目标。信用分配难度极高。KeyCorridor困难探索任务。在有多房间的走廊中寻找隐藏的钥匙。实验结果与洞察显著超越基线在所有任务ARM-FMPPO LARM都大幅超越了仅使用稀疏奖励的PPO基线以及仅使用ICM、RND等内在探索奖励的基线。这说明提供有语义的结构化奖励比单纯鼓励“瞎逛”有效得多。学习曲线揭示机制以UnlockToUnlock为例论文图19分析学习曲线会发现一个有趣模式智能体先快速学会最大化奖励机奖励蓝色曲线上升这对应着掌握各个子目标捡钥匙、开门。当它能够稳定完成这一系列子目标后最终任务的成功率橙色曲线才陡然上升。这直观证明了奖励机如何通过提供“课程”来桥接信用分配鸿沟。人类干预的价值在KeyCorridor任务中初始生成的奖励机过于稀疏可能只对最终到达目标给予奖励。人类专家仅提供了高层建议“定义一些中间奖励比如穿过门或进入新房间可以作为进展信号”。基于此LLM生成器迭代出了更密集、有效的奖励机。这展示了“人在回路”模式如何用极少成本解决LLM的局限性。4.2 Craftium3D开放世界与复杂顺序依赖Craftium是一个高性能、开源、类似《我的世界》的3D体素环境用于测试在视觉复杂、高维环境中的泛化能力。任务目标是“挖到钻石”这隐含了一个长序列收集木头-制作工作台-制作木镐-挖石头-制作石镐-挖铁-制作熔炉-冶炼铁-制作铁镐-最后挖钻石。挑战与结果挑战状态空间巨大3D视觉输入任务序列长且依赖严格奖励极其稀疏只有挖到钻石时给1。结果基线PPO智能体完全无法学习在整个训练过程中几乎没有任何进展。而集成了ARM-FM生成奖励机的PPO智能体成功地学会了完整的钻石获取序列。这证明了框架能够将LLM关于“Minecraft-like”游戏机制的潜在知识即合成配方和资源依赖编码进奖励机从而在极具挑战性的3D稀疏奖励任务中提供关键引导。一个值得注意的点在这个复杂任务上没有需要任何人类干预。LLM成功地从任务描述中推断出了必要的子目标顺序生成了正确的奖励机。这说明对于LLM知识库内熟悉的任务范式其零样本生成能力非常强大。4.3 Meta-World机器人操作任务的稀疏奖励适配Meta-World是一个机器人操作基准原用于多任务和元强化学习。为了测试ARM-FM研究者将其改造为稀疏奖励设定只有任务成功给奖励并选择了组装、分拣、抓放、 shelf放置、棍推等五个任务。实验设计比较两种智能体一种只最大化稀疏任务奖励另一种最大化稀疏奖励与奖励机奖励之和。关键发现性能提升在大多数任务上ARM-FM加持的智能体成功率和学习速度都显著优于稀疏奖励基线。与内在探索的协同研究还发现奖励机奖励可以与RND等内在探索奖励叠加使用且效果通常优于单独使用任一种论文图15。这说明结构化任务奖励告诉我该做什么和内在探索奖励鼓励我去看没看过的地方是互补的。奖励数值调优的重要性在Shelf-Place任务中初期实验发现智能体陷入局部最优比如抓住物体但不移动。分析发现是奖励机中某些事件的奖励值设置不合理。通过人工调整这些奖励的数值大小而不改变事件本身就成功引导智能体走出了局部最优。这提示我们LLM可以生成正确的逻辑结构但奖励值的具体量化可能需要一些细微的调整。4.4 XLand-MiniGrid组合泛化与零样本迁移这是最能体现ARM-FM“语言对齐”和“泛化”潜力的测试。XLand-MiniGrid是一个为元强化学习设计的基准它通过一个形式化语言将目标如“靠近蓝色物体”和规则如“持有红色钥匙能打开红色门”组合起来程序化生成海量不同的任务。实验设置训练智能体解决一组任务例如任务A拿起蓝色钥匙任务B打开红色门。然后在零样本即不进行任何微调的情况下评估其解决一个新组合任务任务C拿起蓝色钥匙并打开红色门的能力。核心思想由于奖励机是基于语言描述的而子任务如“拿起蓝色钥匙”的语义在训练任务和新任务中是共享的。因此训练时学到的针对“拿起蓝色钥匙”这个子目标的策略可以被奖励机在新的组合任务中调用。结果智能体展现出了强大的零样本泛化能力。它能够理解新任务奖励机所描述的组合逻辑并复用已学习的技能来解决问题。这为构建能够快速适应新指令的通用智能体提供了令人兴奋的可能性。5. 实操部署、常见问题与避坑指南理论很美好但把ARM-FM用起来你会遇到一系列工程和概念上的挑战。下面是我从实验和复现中总结出的核心要点和避坑指南。5.1 环境集成与代码实践第一步环境适配。你的环境需要提供两个关键接口状态获取能够提供足够的信息来实现标注函数。对于网格世界可能是grid数组和agent属性对于3D环境可能是RGB图像和物体列表的API。稀疏奖励信号环境本身应提供一个原始的、稀疏的奖励函数通常是0/1奖励。第二步奖励机与标注函数加载。你需要将LLM生成的奖励机文本解析成一个数据结构如字典或类实例包含状态、转移、奖励函数。同时将生成的标注函数代码exec()执行使其成为可调用的函数字典。第三步修改RL智能体。以PPO为例主要修改在collect_rollouts阶段# 伪代码示例 current_rm_state rm_initial_state for step in range(num_steps): # 1. 获取环境观察 obs env.get_observation() # 2. 根据当前obs, rm_state选择动作 action, value, log_prob agent.get_action_and_value(torch.cat([obs, rm_state_embedding])) # 3. 执行动作 next_obs, env_reward, done, info env.step(action) # 4. 计算奖励机事件和奖励 event None for event_name, labeling_func in labeling_funcs.items(): if labeling_func(next_obs, action): # 注意事件可能依赖于新状态和动作 event event_name break if event is None: event else # 5. 更新奖励机状态并获取奖励 next_rm_state rm_transition(current_rm_state, event) rm_reward rm_reward_func(current_rm_state, event, next_rm_state) total_reward env_reward rm_reward # 6. 存储经验包含rm_state buffer.add(obs, current_rm_state, action, total_reward, next_obs, next_rm_state, done) # 7. 更新状态 current_rm_state next_rm_state第四步训练与监控。除了监控总奖励和任务成功率强烈建议单独监控奖励机奖励和环境奖励。这有助于诊断问题如果奖励机奖励上升但环境奖励不变说明智能体在“刷”子目标但没完成最终任务如果两者都不动说明探索或学习出了问题。5.2 常见问题排查表问题现象可能原因排查步骤与解决方案智能体完全无法学习奖励无增长1. 标注函数错误事件从未触发。2. 奖励机逻辑错误陷入死循环或无法到达终态。3. 奖励机奖励值设置不合理如全为0或负值过大。1.可视化调试运行一个简单脚本让智能体随机行动打印每一步的(rm_state, event, rm_reward)检查事件触发和状态转移是否符合预期。2.检查奖励机人工检查奖励机图确保从初态到终态存在可达路径且没有非预期的正奖励循环。3.奖励缩放尝试调整奖励机奖励的幅度使其与稀疏环境奖励如1相匹配通常子目标奖励在0.1~0.3范围。智能体学习到“刷分”行为奖励机奖励高但任务失败奖励机存在正奖励循环或漏洞允许智能体通过重复无效动作获利。1.审查批判环节检查是否遗漏了“进度倒退”事件的负奖励。例如pickup_key给0.1必须有对应的drop_key给-0.1。2.理论检查验证奖励机是否满足“无正奖励环”性质。可以写一个小程序遍历所有可能的状态-事件转移序列计算循环奖励总和。智能体卡在某个子目标前1. 到达该子目标所需的技能太难探索不足。2. 该子目标之前的奖励设置不足以引导智能体。1.结合内在探索引入ICM或RND等内在探索奖励鼓励智能体尝试新动作可能突破瓶颈。2.细化奖励机将该子目标进一步分解增加更细粒度的中间奖励。例如“靠近钥匙”可以作为一个单独的奖励事件。零样本泛化失败1. 训练任务分布太窄未覆盖新任务所需的技能组合。2. 新任务奖励机生成有误逻辑错误。1.丰富训练任务在训练时使用更多样化的任务组合让智能体学习更基础的元技能。2.验证新任务奖励机对新生成的奖励机进行人工或自动化的逻辑正确性检查确保其语义与任务描述一致。LLM生成质量不稳定Prompt不够清晰或具体导致LLM输出格式错误或逻辑混乱。1.迭代Prompt在Prompt中加入更具体的例子Few-shot Learning明确禁止和鼓励的行为。2.增加验证层在LLM生成后加入一个简单的语法和逻辑解析器过滤掉格式明显错误的输出要求重试。5.3 性能优化与高级技巧奖励机状态嵌入直接将奖励机状态ID一个整数拼接进观测向量可能不是最优的。可以尝试用一个小的可学习嵌入层或将状态ID转换为one-hot向量这有助于网络区分不同状态的语义。异步训练对于像Craftium这样的复杂环境仿真速度可能是瓶颈。考虑使用像Ray这样的框架进行分布式采样将环境仿真、奖励机推理和网络更新解耦。奖励塑形与衰减对于非常长的任务序列可以考虑对奖励机奖励进行衰减让靠近最终目标的子目标奖励更高这符合时间差分学习的原理。但需谨慎避免改变最优策略。混合奖励信号正如Meta-World实验所示不要将奖励机奖励视为唯一信号。它可以与好奇心、新颖性等内在探索奖励甚至与一些基于势能的塑形奖励结合使用往往能取得更好效果。6. 局限性与未来展望尽管ARM-FM展示了强大的潜力但我们必须清醒地认识到其当前的局限。对基础模型的依赖框架的性能上限受限于所用LLM的推理能力、对世界的认知以及代码生成能力。如果LLM无法理解任务描述比如过于抽象或依赖专业领域知识或者生成的代码存在隐蔽bug整个流程就会失败。这带来了成本调用大模型API和可靠性两方面的挑战。可扩展性目前测试的环境虽然多样但状态和动作空间仍是离散或低维连续的。对于超高维的视觉输入如真实世界图像和复杂的连续控制任务如何让标注函数稳定、高效地工作仍需探索。或许需要结合视觉基础模型VLM来生成更复杂的感知条件。奖励机的表达能力有限状态自动机能否刻画所有复杂的任务逻辑对于一些需要回溯、条件分支极其复杂或涉及部分可观测性的任务奖励机可能会变得非常庞大和难以生成。未来可能需要探索更强大的结构化表示如时序逻辑或概率程序。安全与对齐让LLM生成奖励函数本质上是在让AI定义“什么是好”。这潜藏着价值对齐和安全风险。如果任务描述存在歧义或恶意LLM可能会生成鼓励危险或非预期行为的奖励机。因此在关键应用中强健的“人在回路”监督和安全性验证机制必不可少。从我个人的实践角度看ARM-FM最大的启发在于它为我们提供了一套将高层任务语义语言结构化奖励机并接地标注函数到低层控制RL的可行工具链。它降低了复杂任务奖励工程的门槛并将LLM的常识和推理能力以一种可解释、可验证的方式注入到强化学习智能体中。未来的工作可能会沿着几个方向一是让框架更鲁棒、更自动化减少对Prompt工程和人工检查的依赖二是探索在更开放、动态的环境中的应用三是研究如何让智能体不仅能利用人类提供的任务描述还能自己提出疑问、与人类交互以澄清意图从而共同完善奖励机的定义。这条路还很长但ARM-FM无疑已经点亮了一盏很有希望的灯。

查看全文

http://www.zskr.cn/news/1375349.html