当前位置：首页 > news >正文

Anthropic Agent SDK 不同模型前缀缓存的稳定性

news 2026/5/31 0:09:04

以下现象为亲测发现的问题：

claude-opus-4-7 / claude-opus-4-8: 在Agent SDK运行过程中，如果有mcp tool 通过 tool_search方式延迟加载function schema，则在下轮API call时，uage中可以看出前缀缓存完全重写，会决大部分重写（有可能是匹配到其他session写过的缓存）。其他情况缓存命中都还正常。

claude-haiku-4-5: mcp tool没有通过延迟加载，似乎直接进入了system prompt，但前两轮在模型都经过思考的情况下，第二轮却没有命中第一轮创建的全部缓存，而是只命中了一部分。感觉缓存命中不稳定，有漂移，但不知道啥原因。

claude-sonnet-4-6: 目前测下来缓存是稳定命中的，mcp tool 通过 tool_search延迟加载时也没出现缓存失效的情况。

另外，haiku模型的智能水平明显不行，用于做主Agent的话容易做出错误判断，导致撞了很多墙后才能找到正确运行路径。虽然单价便宜，但有可能最终耗费的钱并不少，且因为走错步骤太多导致运行总时长可能反而更长。

claude-opus-4-8 跟 4-7 比起来，感觉成本反而降了些，虽然单价相同，但在同样的轮次都能完成任务的情况下，有可能是思考的tokens更少，所以成本和时间都比opus4.7更省。甚至这两项也不输sonnet4.6

http://www.zskr.cn/news/1430719.html

相关文章：

德伟DCD780电钻开关接触不良故障维修全攻略

VS2013安装后别急着写代码！先完成这5个关键设置（主题、项目模板、安全检查关闭）

LuckyLilliaBot：如何快速构建企业级多协议QQ机器人完整实战指南

避开STM32G4比较器的那些坑：LOCK机制、EXTI连接与滞回电压HYST配置详解

数据分析报告生成工具有哪些？2026年主流产品报告自动化与落地能力全解析 - 科技焦点

OpenVLA 技术综述

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

ADI DSP老玩家血泪史：ADZS-ICE-1000仿真器最全避坑指南（附驱动安装与CCES 2.11.1配置）

Python视频处理基础

从‘记不住’到‘忘不掉’：Cookie、Session与Token，你的Web登录方案选对了吗？

前后桥独立电驱动装载机状态估计及转矩优化控制方案【附仿真】

终极游戏隐身指南：掌控你的在线状态，专注每一场战斗

ESP32C3串口没反应？别慌，可能是Flash Mode和USB CDC这两个开关没设对

Weka 3.8.6安装后别闲置！从‘打开文件’到‘生成报告’：一份给新手的保姆级避坑指南

Claude Code上手案例 - - 三分钟实现博客系统

企业级Gemini采购决策指南：如何用Gartner级TCO模型压降41%年许可支出

别再傻傻分不清！RS232、RS485、RS422接口实物接线与电平转换保姆级图解

AI视频版权归属争议爆发！78%创作者正面临下架风险（2024司法判例白皮书首发）

复古旋转拨号盘改造：基于CD4017/4026计数器与Arduino的脉冲信号处理实践

Android系统启动过程分析

如何快速提升游戏效率：D3KeyHelper暗黑3终极自动化工具完整指南

照着用就行：盘点2026年抢手爆款的的AI论文工具

ZLT X21 CPE的IP Passthrough模式实测：让你的NAS/软路由直接拿到公网IP，实现完美端口转发

告别“正在编译”：Nessus v10.9.4插件更新效率优化与资源监控实战

深入高通QMI的‘黑匣子’：用QXDM和日志分析一次失败的通信

金融科技四大核心技术解析：区块链、AI、物联网与AR/VR如何重塑银行业

避开这5个Scratch编程思维误区，你的蓝桥杯省赛成绩还能再提50分 | 以2023中级组真题为例

从游戏引擎到无人机：聊聊四元数解欧拉角为啥比直接算更靠谱

从HTTP报文到数据库查询：拆解TinyWebServer中用户登录注册的完整链路（C++/MySQL）

打造四个九的在线CRM：从0到1构建99.99%可用性的核心架构