当前位置: 首页 > news >正文

Anthropic Agent SDK 不同模型前缀缓存的稳定性

以下现象为亲测发现的问题:

claude-opus-4-7 / claude-opus-4-8: 在Agent SDK运行过程中,如果有mcp tool 通过 tool_search方式延迟加载function schema,则在下轮API call时,uage中可以看出前缀缓存完全重写,会决大部分重写(有可能是匹配到其他session写过的缓存)。其他情况缓存命中都还正常。

claude-haiku-4-5: mcp tool没有通过延迟加载,似乎直接进入了system prompt,但前两轮在模型都经过思考的情况下,第二轮却没有命中第一轮创建的全部缓存,而是只命中了一部分。感觉缓存命中不稳定,有漂移,但不知道啥原因。

claude-sonnet-4-6: 目前测下来缓存是稳定命中的,mcp tool 通过 tool_search延迟加载时也没出现缓存失效的情况。

另外,haiku模型的智能水平明显不行,用于做主Agent的话容易做出错误判断,导致撞了很多墙后才能找到正确运行路径。虽然单价便宜,但有可能最终耗费的钱并不少,且因为走错步骤太多导致运行总时长可能反而更长。

claude-opus-4-8 跟 4-7 比起来,感觉成本反而降了些,虽然单价相同,但在同样的轮次都能完成任务的情况下,有可能是思考的tokens更少,所以成本和时间都比opus4.7更省。 甚至这两项也不输sonnet4.6

http://www.zskr.cn/news/1430719.html

相关文章:

  • 德伟DCD780电钻开关接触不良故障维修全攻略
  • VS2013安装后别急着写代码!先完成这5个关键设置(主题、项目模板、安全检查关闭)
  • LuckyLilliaBot:如何快速构建企业级多协议QQ机器人完整实战指南
  • 避开STM32G4比较器的那些坑:LOCK机制、EXTI连接与滞回电压HYST配置详解
  • 数据分析报告生成工具有哪些?2026年主流产品报告自动化与落地能力全解析 - 科技焦点
  • OpenVLA 技术综述
  • 掌握Markdown实时预览:打造高效写作工作流的3个关键策略
  • ADI DSP老玩家血泪史:ADZS-ICE-1000仿真器最全避坑指南(附驱动安装与CCES 2.11.1配置)
  • Python视频处理基础
  • 从‘记不住’到‘忘不掉’:Cookie、Session与Token,你的Web登录方案选对了吗?
  • 前后桥独立电驱动装载机状态估计及转矩优化控制方案【附仿真】
  • 终极游戏隐身指南:掌控你的在线状态,专注每一场战斗
  • ESP32C3串口没反应?别慌,可能是Flash Mode和USB CDC这两个开关没设对
  • Weka 3.8.6安装后别闲置!从‘打开文件’到‘生成报告’:一份给新手的保姆级避坑指南
  • Claude Code上手案例 - - 三分钟实现博客系统
  • 企业级Gemini采购决策指南:如何用Gartner级TCO模型压降41%年许可支出
  • 别再傻傻分不清!RS232、RS485、RS422接口实物接线与电平转换保姆级图解
  • AI视频版权归属争议爆发!78%创作者正面临下架风险(2024司法判例白皮书首发)
  • 复古旋转拨号盘改造:基于CD4017/4026计数器与Arduino的脉冲信号处理实践
  • Android系统启动过程分析
  • 如何快速提升游戏效率:D3KeyHelper暗黑3终极自动化工具完整指南
  • 照着用就行:盘点2026年抢手爆款的的AI论文工具
  • ZLT X21 CPE的IP Passthrough模式实测:让你的NAS/软路由直接拿到公网IP,实现完美端口转发
  • 告别“正在编译”:Nessus v10.9.4插件更新效率优化与资源监控实战
  • 深入高通QMI的‘黑匣子’:用QXDM和日志分析一次失败的通信
  • 金融科技四大核心技术解析:区块链、AI、物联网与AR/VR如何重塑银行业
  • 避开这5个Scratch编程思维误区,你的蓝桥杯省赛成绩还能再提50分 | 以2023中级组真题为例
  • 从游戏引擎到无人机:聊聊四元数解欧拉角为啥比直接算更靠谱
  • 从HTTP报文到数据库查询:拆解TinyWebServer中用户登录注册的完整链路(C++/MySQL)
  • 打造四个九的在线CRM:从0到1构建99.99%可用性的核心架构