以下现象为亲测发现的问题:
claude-opus-4-7 / claude-opus-4-8: 在Agent SDK运行过程中,如果有mcp tool 通过 tool_search方式延迟加载function schema,则在下轮API call时,uage中可以看出前缀缓存完全重写,会决大部分重写(有可能是匹配到其他session写过的缓存)。其他情况缓存命中都还正常。
claude-haiku-4-5: mcp tool没有通过延迟加载,似乎直接进入了system prompt,但前两轮在模型都经过思考的情况下,第二轮却没有命中第一轮创建的全部缓存,而是只命中了一部分。感觉缓存命中不稳定,有漂移,但不知道啥原因。
claude-sonnet-4-6: 目前测下来缓存是稳定命中的,mcp tool 通过 tool_search延迟加载时也没出现缓存失效的情况。
另外,haiku模型的智能水平明显不行,用于做主Agent的话容易做出错误判断,导致撞了很多墙后才能找到正确运行路径。虽然单价便宜,但有可能最终耗费的钱并不少,且因为走错步骤太多导致运行总时长可能反而更长。
claude-opus-4-8 跟 4-7 比起来,感觉成本反而降了些,虽然单价相同,但在同样的轮次都能完成任务的情况下,有可能是思考的tokens更少,所以成本和时间都比opus4.7更省。 甚至这两项也不输sonnet4.6
