当前位置: 首页 > news >正文

Search-R1论文浅析与代码实现

GitHub: https://github.com/PeterGriffinJin/Search-R1

论文: link1, link2

Motivation

使用seach engine给reasoning LLM赋能

Method

image-20251021113633265

在PPO的基础上,基于给定的Search Egine \(R\),进行轨迹生成。

\[J_{PPO}(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D}, o\sim{\pi_{old}(\cdot|q;R)}}\frac{1}{\sum_{t=1}^{|o|}I(o_t)} \min[\frac{\pi_{\theta}(o_t|q, o_{<t};R)}{\pi_{old}(o_t|q,o_{<t};R)} A_t, clip(1-\epsilon, 1+\epsilon, \frac{\pi_{\theta}(o_t|q,o_{<t};R)}{\pi_{old}(o_t|q, o_{<t};R)})A_t] \]

其中需要对\(R\)返回的token进行mask

\[I(o_t) = \begin{cases} 0, & o_t\mathrm{\ is\ a\ retrived\ token};\\ 1, & otherwise; \end{cases} \]

Experiments

image-20251021114918946

默认使用PPO,整体效果来看search-r1强化是有效的。training dataset来自NQ和Hotpot QA

  • PPO vs GRPO

    认为PPO比GRPO更加稳定,效果更好;GRPO收敛更快

    image-20251021115656035

    image-20251021115618888

  • Instruct model vs base model

    认为虽然instruct model在最开始的reward要优于base model,但是在step的后期,两者reward是可比的,且base model的效果优于instruct model。

    (我认为,这里instruct好于base,可能是因为instruct后,模型的多样性下降了(因为RL的对齐),导致模型在search task的探索能力下降。但是,WebDancer等文章均使用的是Instruct model,我认为是那些工作 并不是一上来就search RL的,而是先做RFT的SFT,想让instruct model适应RL的格式,并注入search task的领域知识(planing能力、工具调用能力、总结能力等等)。如果是对base model做post-training的RFT(数据量可能不大),base model会出现指令不遵循的问题。因此在SFT+RL的后续WebAgent的工作中,一半以Instruct model为基座。)

    image-20251021115930524

    image-20251021115918404

  • Response length and valid study

    • early stage:response length明显下降,同时reward有小幅度提升(更好的理解search 任务,输出更精简)
    • latter stage:response length回升,reward也提升(可以发现是seach call的次数提升导致)

    image-20251021120743669

  • ablation of retrived token mask

    mask是必要的,因为model的预测目标本就不是 预测出retrieved token,而是学会工具调用与计划总结

    image-20251021122034355

    image-20251021121917794

  • Number of Retrieved Passages Study in SEARCH-R1 Training

    召回的docs不是越多越好(actor model总结时会更容易出现幻觉或是遗漏细节),也不是越少越好(巧妇难为无米之炊)

    image-20251021122054986

  • group size of GRPO

    GRPO的size 大的话,效果好收敛快,但是不太稳定(感觉是论文工作设计有问题,我没有遇到过这种reward sharp decrease)

    image-20251021122255511

Conclusion

提出了agent下的RL方法,但是没有构建sft的轨迹数据,导致无法学到 planing规划、单一工具调用、多工具关系的能力。

代码实现

待更新。。。

http://www.zskr.cn/news/26215.html

相关文章:

  • 2025年10月仓储管理系统推荐榜:鸿链云仓领衔对比评测排行
  • 一款优秀笔记软件的自我修养 - 实践
  • NITEX:构建时尚新供应链的数字平台与技术架构
  • 电子人速囤!正点原子万用表,电烙铁,电桥镊子等商品!
  • 在Java中,如何实现封装
  • 2025年10月超声波清洗机厂家排行:十家主流企业深度评测
  • 详细介绍:rabbitMQ续谈
  • 2025年10月超声波清洗机厂家推荐榜:十强对比评测
  • 2025年10月长白山旅游度假酒店推荐:口碑榜与实景对比排行
  • Reactor 模式结合 epoll
  • 2025年10月不锈钢水箱厂家排行:十家对比评价
  • skynet.dispatch 使用详解
  • 元推理:自指生产力,自洽生产关系
  • skynet.start 的作用详细解析
  • 深入解析:计算机网络物理层
  • 第三次作业-结对项目
  • 【2025-10-20】连岳摘抄
  • 2025无人机在农业生态中的应用实践
  • 2025年10月代理记账公司实力榜:五强对比评测与合规选型指南
  • 2025年10月代理记账公司对比评测榜:秀之宇领衔全生命周期服务排名
  • 2025年国内中厚板供应推荐:全流程服务助力工程高效交付
  • 什么?就是工业视觉检测里的 “柔性”
  • 2025 年豆腐机厂家最新推荐榜权威发布:豆腐豆皮 / 豆干 / 成型机企业深度解析,附选型指南
  • TCP 和 UDP 协议的通信解析
  • 易基因:华农王应祥/杨存义ChIP-seq等揭示大豆开花时间调控及区域适应性的表观分子机制|NC(IF15.7)
  • 2025年10月益生菌品牌对比榜:十强排名全解读
  • 2025年10月益生菌品牌推荐榜:公开信息对比与排行
  • 在运维工作中,如何一键式统计整个k8s集群cpu、内存总大小?总使用率?还剩余多少?
  • Giants Shoulder - Hyrix: LPDDR5 Commands New Features - 实践
  • 国内开发者如何选择代码托管平台?深度解析主流平台优劣势