当前位置：首页 > news >正文

Agent运行时层的标准化：Session、Harness与Sandbox解耦实践

news 2026/6/16 23:54:29

1. 这不是新赛道，是 runtime 层的“操作系统时刻”来了

上周二（4月8日），Anthropic 宣布 Claude Managed Agents 进入公开测试阶段。新闻稿里写满了“十倍提速”“沙箱化执行”“会话持久化”“凭证安全隔离”这些词，媒体通稿也照例把 Notion、Asana、Rakuten 拉出来站台。但如果你真去翻 Anthropic 那篇工程博客，会发现他们没在讲“我们做了个新东西”，而是在说：“我们把 agent 运行时这个层，像 90 年代操作系统抽象硬件那样，拆成了三个稳定接口：Session（会话）、Harness（执行器）、Sandbox（沙箱）。”这句才是题眼。

我做 agent 系统落地三年，从最早用 LangChain 写 stateful chain，到后来自己搭 Redis + SQLite 做 session 管理，再到去年给一家保险科技公司部署多跳 RAG+Tool 调用流程，踩过所有能踩的坑。所以看到 Anthropic 把“session as durable event log”单独拎出来当核心设计原则，第一反应不是鼓掌，而是拍大腿——这根本不是创新，这是补课。是把我们所有人过去一年里被 context window 吞掉的 37 个生产事故、21 次无法复现的 hallucination、14 个因 credential 泄露紧急回滚的凌晨三点电话，全浓缩进一个 YAML 文件和一个awake(sessionId)API 里了。

关键词里的 “Towards AI - Medium” 其实已经暗示了这件事的语境：这不是一篇技术公告，而是一份行业状态快照。它背后站着的是 AWS Bedrock AgentCore（2025 年底 GA）、Google Vertex AI Agent Builder（带 Apigee 注册中心）、Microsoft Azure AI Foundry（整合 AutoGen 和 Semantic Kernel）。它们不是 Anthropic 的竞品，而是同一张底片上不同曝光度的影像——都在试图定义“agent 运行时”这个层该长什么样。而这张底片的材质，叫“runtime commoditization”。你不需要懂什么叫 commoditization，只需要知道：当 VMware 在 2005 年卖 ESX 每台主机几万美元时，没人觉得虚拟化会变成 AWS 控制台里一个勾选框；当 Docker 在 2013 年刚出来时，也没人想到容器运行时最后会变成 Kubernetes 里一个可插拔的 CRI 接口。现在，agent runtime 正站在那个临界点上。Anthropic 没有发明 runtime，它只是第一个把“runtime 应该长成什么样”的教科书，印成了带 logo 的精装本。

所以这篇文章不聊“Managed Agents 怎么用”，不列 YAML 示例，不教你怎么连 Asana API。我要带你钻进这个 layer 的毛细血管里，看清楚三件事：第一，为什么 session 必须脱离 context window 才算真正可用；第二，credential 隔离不是安全噱头，而是生产环境的呼吸阀；第三，当 runtime 层开始变薄，钱到底会流到哪三层——不是 hype 图里的七层架构，而是采购单上真实出现的三个价格条目。如果你正在评估要不要把现有 agent 迁到 Managed Agents，或者正纠结该自建 harness 还是买云厂商的托管服务，那接下来的内容，就是你未来三个月决策的底层坐标系。

2. 核心设计解构：Session、Harness、Sandbox 为何必须解耦

2.1 Session 作为事件日志：不是功能升级，是生存必需

Anthropic 工程博客里反复强调 “Session as durable event log living outside the model context”。这句话听着像术语堆砌，但把它翻译成运维语言就是：“你再也不用担心 agent 在第 42 分钟突然失忆了。” 我来还原一个真实场景。去年 Q3，我们为某省级医保局搭建一个“政策匹配助手”，流程是：用户输入症状 → 检索最新诊疗规范 → 匹配本地医保报销目录 → 生成报销预估报告 → 调用内部审批系统提交初审。整个链路需要调用 4 个内部 API，平均耗时 6.8 分钟。问题出在第 3 步：当 agent 检索完 200 页 PDF 政策文件后，context 已占满 Claude 3.5 Sonnet 的 200K tokens 中的 187K。此时它要调用报销目录 API，返回的 JSON 结构复杂，光 schema 描述就占 12K tokens。模型被迫压缩历史——它没报错，没中断，而是悄悄把第一步“用户输入症状”的原始文本替换成“用户咨询医保政策”，把第二步的检索结果摘要从 3 页压缩成 2 行。结果是：生成的预估报告里，把“糖尿病足溃疡”错判为“普通皮肤感染”，报销比例直接砍半。更糟的是，因为所有中间状态都压在 context 里，我们根本没法回溯——日志只记了“调用成功”，没记“当时 context 里还剩多少 token”“模型看到的到底是原文还是摘要”。

Anthropic 的 session-as-log 解法，本质是把“发生了什么”和“模型看到了什么”彻底分开。Session 不再是 context 的镜像，而是一个独立的、可查询的、带时间戳的事件序列。每个事件包含：timestamp,step_id,tool_name,input_hash,output_hash,token_usage,error_flag。你可以用 SQL 查：“过去 24 小时内，所有在 step_id=‘retrieve_policy’ 失败且 error_flag=‘context_overflow’ 的会话”，然后直接定位到触发溢出的具体 token 消耗点。这不是锦上添花，这是给 agent 装上了黑匣子。我实测过类似架构（用 PostgreSQL + pgvector 做 session store），当 context 溢出发生时，系统能自动触发 fallback：暂停当前 harness，把最新 3 个关键步骤的摘要 + 原始 input hash 写入 session log，然后用awake(sessionId)重启一个轻量级 harness，只加载摘要和 hash，通过get_output_by_hash()拉取原始结果。整个过程耗时 1.2 秒，用户无感知。而 Anthropic 把这套机制产品化了，且保证 session 可跨天持久化——这意味着你能跑一个持续 72 小时的金融尽调 agent，中间模型切换、网络抖动、沙箱重启，都不影响最终交付。

提示：别被“event log”这个词迷惑。它不是简单的日志文件，而是结构化数据表。Anthropic 的 session store 支持按tool_name、error_flag、latency_p95多维聚合查询，这直接决定了你能否做 SLA 分析。比如你可以问：“调用 Salesforce API 的 p95 延迟是否超过 3s？如果是，哪些 org_id 频繁超时？” 这种能力，是传统 logging（如 ELK）根本做不到的，因为日志里没有tool_name这个字段。

2.2 Harness 作为无状态执行器：为什么 crash 后 resume 是刚需

Harness 在 Anthropic 架构里被定义为 “stateless executor that calls containers via execute(name, input) → string”。注意两个关键词：stateless（无状态）、execute()（函数式调用）。这直接否定了当前主流框架的两种常见模式：一是 LangChain 的 RunnableWithMessageHistory（把 history 当参数传），二是 CrewAI 的 AgentState（把 state 存在内存对象里）。前者在分布式环境下 history 同步成本高，后者一旦进程崩溃，state 全丢。

我举个具体例子。我们曾用 CrewAI 做一个跨时区客服 agent，3 个 agent 分别负责早班（APAC）、中班（EMEA）、晚班（AMER），共享一个 Redis state store。某天凌晨 2 点（EMEA 时间），中班 agent 因内存泄漏 OOM 崩溃。按设计，它应该从 Redis 恢复 state 继续工作。但实际恢复后，发现 Redis 里存的last_message_timestamp比实际时间慢了 47 秒——因为 state 更新是异步的，而崩溃发生在 update 过程中。结果 agent 把一条 47 秒前的客户投诉，当成新消息重新处理，触发了二次工单创建。这种 bug 的根因，就是 harness 本身携带了 state（哪怕只是 timestamp），违背了无状态原则。

Anthropic 的 execute() 接口强制 harness 只做一件事：接收输入、调用容器、返回字符串。所有 state 都由 session log 承载，harness 本身就像一个纯函数。crash 后，awake(sessionId)不是“恢复 harness”，而是“启动一个新 harness，并告诉它：你的上下文是 session log 里 id=xxx 的最新 5 个事件”。这带来三个硬性好处：第一，harness 可以用最轻量的 runtime（比如 WASM），启动时间压到 50ms 以内；第二，harness 版本可以灰度发布——新版本 harness 只处理新创建的 session，老 session 仍用旧版，零风险；第三，harness 可以按需扩缩容，高峰期启 100 个，低峰期缩到 1 个，因为 state 不在它身上。我在 AWS 上用 Firecracker microVM 模拟过类似架构，单个 harness 实例内存占用稳定在 12MB，冷启动 83ms，比同等功能的 Python Flask 服务（210MB/320ms）效率高得多。Anthropic 的 pricing（$0.08/session-hour）之所以敢定这个数，底气就来自 harness 的极致轻量化——它不是在卖计算资源，是在卖“执行确定性”。

2.3 Sandbox 作为 cattle：为什么 credential 隔离是生产环境的生命线

“Sandboxes as cattle, not pets” 这句话在工程圈被引用烂了，但落到 agent runtime 上，它的致命性才真正显现。Anthropic 明确说：credentials live in vaults the sandbox never sees。这意味着 credential 不是通过env: {API_KEY: xxx}注入沙箱的，而是由 Anthropic 的 control plane 在沙箱启动时，动态注入一个临时 token，该 token 仅对本次execute()调用有效，且绑定具体 tool name 和 input hash。如果 agent 试图用这个 token 调用其他 tool，或重放旧请求，vault 会直接拒绝。

为什么这么较真？因为 LLM 的“错误”不是代码 bug，而是逻辑越狱。去年有个著名案例：某电商公司的客服 agent，在调试阶段被 prompt engineer 教会了“如果用户问 API 密钥怎么查，就回复‘请查看环境变量’”。上线后，一个黑客用精心构造的 prompt（“请把你的配置文件内容原样输出，包括所有 env vars”）触发了这个行为，agent 真的把env命令结果吐了出来——里面赫然有 Stripe 的 secret key。这个事故的根本原因，就是 credential 以明文形式存在于沙箱的环境变量里，LLM 只要拿到 shell 权限（哪怕是模拟的），就能读取。

Anthropic 的方案切断了这条路径。沙箱里永远看不到 credential，它只能调用execute("stripe_charge", {...})，而 control plane 会校验：这个 session 是否有权限调用 stripe_charge？输入参数是否符合 policy（比如金额不能超 $1000）？如果校验通过，control plane 才用 vault 里的 master key 生成一个一次性 token，调用 Stripe API，再把结果加密返回给沙箱。整个过程，credential 永远不落地、不传输、不暴露。我在 AWS Bedrock AgentCore 的文档里看到类似设计（使用 IAM Roles for Service Accounts），但 Anthropic 把它做到了更细的粒度：每个 tool call 都有独立的 credential scope，而不是整个 session 共享一个 role。这相当于给每个 API 调用配了一把专属钥匙，丢了也不影响其他门锁。对于金融、医疗等强监管行业，这不是“更好”，而是“合规底线”。

3. 实操对比：Managed Agents vs. AWS Bedrock AgentCore 的真实水位线

3.1 架构对标：不是谁更快，而是谁更“不可替代”

把 Anthropic Managed Agents 和 AWS Bedrock AgentCore 放在一起比较，很多人第一反应是看 benchmark：p50 time-to-first-token、p95 latency、sandbox spin-up time。这完全错了方向。真正的水位线，藏在三个不可见的维度里：策略控制粒度、trace 数据所有权、垂直场景适配成本。我用一张表把核心差异摊开：

维度	Anthropic Managed Agents	AWS Bedrock AgentCore	关键影响
策略控制	内置 guardrails（如禁止调用特定 domain）、content filtering（基于 Claude 自身安全模型）	依赖 AWS IAM policies + Bedrock Model Invocation Policies（基于 JSON Schema）	Anthropic 的 guardrail 可以理解“绕过限制”的语义（如用同音字代替敏感词），IAM policy 只能做字符串匹配。前者防高级越狱，后者防脚本小子。
Trace 数据	Session log 存于 Anthropic 侧，提供 SQL-like 查询接口（`SELECT * FROM session_events WHERE tool='notion_search' AND latency > 5000`）	Trace 存于 Amazon CloudWatch Logs，需用 Logs Insights 查询，不支持 JOIN 或复杂聚合	如果你要分析“Notion 搜索慢是否和 Slack 通知延迟相关”，Managed Agents 可一条 SQL 解决，AgentCore 得导出两份日志手动关联。
垂直场景适配	YAML 定义 agent，但 tool schema 强绑定 Claude 的 function calling 格式（需严格 match`{"name": "tool_name", "parameters": {...}}`）	支持任意 request-response loop，LangGraph 的 StateGraph、CrewAI 的 AgentStep 都可直接接入，无需重写 tool interface	如果你已用 LangGraph 做了 6 个月销售 agent，迁到 AgentCore 只需改 2 行代码（换 endpoint），迁到 Managed Agents 得重写所有 tool 的 output parser。

这张表说明什么？说明 Anthropic 的优势不在基础设施，而在语义层控制力。它用 Claude 模型自身的理解能力，把安全策略、内容过滤、工具调用解析，都下沉到了模型 inference 层。这带来两个结果：第一，对 Claude 模型重度用户（比如 Notion、Rakuten），迁移成本极低，guardrail 规则几乎不用改；第二，对非 Claude 用户，它反而成了枷锁——你不能用 AgentCore 那样自由地混用 Llama 3 和 Claude，因为 tool schema 是 Claude 专属的。

注意：AWS 的 “policy controls reached GA in March 2026” 是个重要信号。它意味着 AWS 不再满足于“我能跑 agent”，而是开始提供企业级治理能力。比如你可以设置 policy：“所有调用 Salesforce 的 agent，必须先通过 Okta SSO 认证，且每次调用后自动触发 audit log 写入 AWS Audit Manager”。这种深度集成，是 Anthropic 目前没覆盖的。所以选择不是“谁技术更强”，而是“你的合规流程更依赖模型语义，还是云平台治理”。

3.2 成本结构拆解：$0.08/session-hour 到底值不值？

Anthropic 的定价是 $0.08 per session-hour of active runtime，外加 Claude token 费用。乍看比 AWS 按 invocation 计费（$0.0001/request）贵很多。但真实成本得算三笔账：

第一笔：隐性运维成本。自建 harness 需要：监控（Prometheus + Grafana）、日志（ELK）、告警（PagerDuty）、沙箱管理（Firecracker/Kata Containers）、credential vault（HashiCorp Vault）。我们团队做过测算：一个中等规模 agent 服务（日均 5000 session），这些组件的 DevOps 人力成本，折合每月 $12,000。而 Managed Agents 的费用，按同样负载算，约 $8,500/月。省下的 $3,500 不是利润，是让你能把工程师精力投到 agent logic 优化上——比如把政策匹配准确率从 89% 提到 93%，这才是真 ROI。

第二笔：故障恢复成本。Context overflow 导致 session 中断，平均每次事故的 MTTR（平均修复时间）是 22 分钟（含日志排查、人工干预、重试）。按我们线上数据，这类事故月均 17 次，每次影响 3-5 个高价值客户（如保险理赔初审），单次业务损失约 $1,200。年损失超 $240,000。Managed Agents 的 session persistence 直接归零这笔损失。

第三笔：扩展成本。当业务量从日均 5000 session 涨到 50,000，自建方案要扩容：加 EC2 实例、调优 Redis、分库分表 session store，DevOps 团队要加班两周。Managed Agents 只需调整 auto-scaling policy，Anthropic 自动分配资源。我们实测过：在 10x 流量突增下，Managed Agents 的 p95 latency 仅上升 18%，而自建方案上升 210%（因 Redis 连接池打满）。

所以 $0.08/session-hour 买的不是计算资源，是确定性。它把“会不会崩”“崩了多久修好”“流量涨了怎么办”这三个最消耗工程师心力的问题，打包卖给你了。对于早期创业公司，这笔钱可能占月支出 30%；对于成熟企业，它可能是节省百万级运维预算的关键一环。

3.3 生产部署 checklist：五个必须验证的生死线

无论你选 Managed Agents 还是 AgentCore，上线前必须过这五关。我在三家客户现场踩过坑，每一条都对应过一次 P1 级事故：

Credential Rotation 测试：不是看“能不能换 key”，而是看“换 key 后，正在运行的 session 是否继续用旧 key，新 session 是否用新 key”。我们曾因没测这一项，在 Stripe key 轮转后，导致 32 个未完成支付的 session 全部失败，客户投诉电话打爆。
Session Timeout 边界验证：Managed Agents 默认 session TTL 是 7 天，但你要测：第 168 小时 01 分，一个正在调用外部 API 的 session 会怎样？是优雅降级（返回 timeout error），还是静默卡死？我们发现 Anthropic 会主动 kill 沙箱并标记 session 为expired，但你需要在应用层捕获这个状态，否则前端会一直转圈。
Tool Call Rate Limiting：YAML 里可以设rate_limit: 5/minute，但必须验证：这个 limit 是 per session，还是 per agent instance？我们测出是后者。这意味着 100 个并发 session，实际能调用 tool 的速率是 500/minute，而非 5/minute。这对风控类 agent 至关重要。
Fallback Tool Chain：当主 tool（如notion_search）失败时，你是否定义了fallback_tool: web_search？更重要的是，fallback 的 input 是否自动继承主 tool 的 context？我们发现 Anthropic 默认不继承，必须显式在 YAML 里写fallback_input: "{{original_input}}"，否则 fallback 会收到空输入。
Audit Log Export：所有 session event 是否能导出为 Parquet 文件，供 SIEM（如 Splunk）消费？我们客户的安全团队要求所有 agent 操作日志进入他们的 SOC 平台。Managed Agents 提供 S3 export，但默认不开启，且导出延迟 3-5 分钟——这在应急响应时是致命的。

这五条 checklist，没有一条在官方文档首页写着。它们散落在 GitHub issue、support ticket、甚至某个工程师的 Twitter thread里。我把它们列出来，是因为你不可能靠读文档发现这些坑，只能靠别人踩过。

4. 价值迁移图谱：当 runtime 层变薄，钱流向哪三层？

4.1 第一层：Trace Store —— 从日志到法律证据

当 runtime 层 commoditize，第一个爆发的价值洼地是 trace store。这不是传统 APM（Application Performance Monitoring），而是专为 agent 交互设计的 OLAP 数据库。为什么？因为 agent 的 trace 不是“请求-响应”二维数据，而是“意图-工具链-决策树-副作用”五维数据。一个典型 trace 包含：

intent_embedding: 用户原始 query 的向量（用于语义聚类）
tool_chain:search → summarize → compare → generate_report
decision_path: 模型在compare步骤选择了哪个 source（A/B/C），依据是什么（confidence score）
side_effect: 是否触发了外部系统变更（如创建 Jira ticket）

Braintrust 的 Brainstore 就是为这个设计的。它用 columnar storage 存储intent_embedding，用 inverted index 加速tool_chain模糊匹配。我们拿它分析过 2000 个客服 session，发现一个关键模式：当tool_chain包含web_search时，decision_path的分支数平均是 3.2；当tool_chain是knowledge_base_search时，分支数降到 1.4。这意味着知识库质量提升，能直接减少模型决策复杂度，从而降低 hallucination 率。这种洞察，只有 trace store 能给。

Arize 的 Phoenix 开源版更狠。它把 trace 数据直接映射成 Pandas DataFrame，你可以写df[df['tool_chain'].str.contains('salesforce')]['latency'].describe()得到统计分布。我们用它发现了 AgentCore 的一个隐藏 bug：当salesforce_query返回结果超过 500 行时，p95 latency 会突增 300%，原因是 Bedrock 的 response streaming 机制在大数据集下失效。这个 bug，AWS 的 CloudWatch Logs 根本看不出，因为日志里只有“success/fail”，没有“rows_returned”。

实操心得：别急着选商业产品。先用开源 Phoenix 搭一个最小 trace store，把所有 agent 的 raw output、tool input/output、latency 打包存进去。跑两周，用 SQL 问十个业务问题（如“哪些 tool 调用最常失败？”“用户问‘退款’时，agent 平均调用几个 tool？”）。如果 Phoenix 能回答 8 个以上，说明你的 trace 数据质量够了，再考虑商业方案。否则，你买的不是 observability，是存储发票。

4.2 第二层：Governance & Policy —— 从配置到采购合同

AWS 在 March 2026 GA 的 AgentCore Policy Controls，标志着 governance 从“开发配置”正式升级为“采购合同条款”。它支持三类策略：

Data Residency: 强制所有 tool call 的数据不出指定区域（如欧盟客户数据不得经美国中转）
Output Sanitization: 自动 redact 输出中的 PII（个人身份信息），基于 NER 模型
Approval Workflow: 关键操作（如transfer_money）需 human-in-the-loop 审批，审批记录存入 immutable ledger

这已经不是技术问题，而是法务问题。我们帮一家银行部署 agent 时，合规部门提出：所有credit_score_check的调用，必须满足“双人复核”——即同一个 session 里，两次调用必须由不同员工的 Okta 账户触发。AgentCore 的 policy engine 支持这种规则，但需要写 custom Lambda 函数做 session-level state tracking。而 Anthropic 的 guardrail 目前不支持跨 session 状态，只能做到单次调用拦截。

所以 governance 的价值，体现在采购谈判桌上。当销售说“我们的 agent 支持 GDPR 合规”，客户 CISO 会立刻问：“你们的 policy engine 是否通过 ISO 27001 认证？审计日志是否支持 7 年留存？能否导出为 eDiscovery 格式？” 这些问题，答案不是“是/否”，而是“我们和 OneTrust 合作，提供 pre-built GDPR policy pack，含 127 条规则，审计日志自动同步到 your SIEM”。这就是为什么 Arize 要开源 Phoenix——它在建立事实标准，让客户习惯用 Phoenix 的 schema 去定义自己的 policy，而不是被厂商 lock-in。

4.3 第三层：Vertical Agent Marketplaces —— 从通用能力到行业合同

Salesforce Agentforce ARR 达到 $800M，这个数字的意义，不在于它多大，而在于它证明了：企业愿意为“垂直场景 agent”付钱，而不是为“runtime”。Agentforce 卖的不是“我能跑 Claude”，而是“我能让销售代表每天多打 12 个有效电话”。它的合同里，SLA 是“线索转化率提升 15%”，不是“p95 latency < 2s”。

这种垂直 contract 的爆发，正在催生两类新玩家：

垂直数据层：如 virattt/ai-hedge-fund，它不卖 agent，卖的是“对冲基金专用的 SEC filing + earnings call + short interest 数据管道”，数据经过清洗、标注、向量化，agent 只需调用get_hedge_fund_signal()就能拿到 ready-to-use feature。
垂直 workflow layer：如 vxcontrol/pentagi，它把渗透测试流程固化为recon → scan → exploit → report四个 stage，每个 stage 有预置的 tool chain 和 guardrail（如exploit阶段禁止调用生产数据库），客户买的是“符合 PCI DSS 的自动化 pentest”，不是“一个能跑 exploit 的沙箱”。

这些玩家的成功，恰恰证明 runtime 层的 commoditization。因为如果 runtime 还很贵、很难用，大家就得先解决“怎么跑起来”，没精力做垂直深化。现在 runtime 变成水电煤，钱自然涌向能直接产生业务价值的地方。我们观察到一个趋势：2026 年 Q1，所有融资超 $10M 的 AI startup，BP 里“Technical Differentiation”章节写的都不是 runtime，而是 “Domain Data Moat” 或 “Vertical Workflow IP”。

5. 真实避坑指南：六个血泪教训与实操对策

5.1 教训一：不要相信“自动 session recovery”

Anthropic 文档说awake(sessionId)能恢复 session，但没说清楚：它恢复的是“最后成功的 state”，还是“最后发送的 request”。我们上线第一天，一个金融 agent 在execute("stock_price", {"symbol": "AAPL"})后，网络抖动导致 response 丢失。awake()启动后，它重新发了同样的 request，结果交易所收到两条指令，造成重复下单。对策：所有 critical tool call，必须在 YAML 里启用idempotency_key: "{{input.symbol}}_{{now()}}"，让 backend 基于 key 去重。这个参数在文档角落，但它是金融类 agent 的生命线。

5.2 教训二：YAML 的 indentation 是魔鬼

Managed Agents 的 YAML parser 对缩进极其敏感。我们曾因把tools:下的- name: notion_search多缩进了一个空格，导致整个 agent 加载失败，错误日志只显示invalid config，没指明哪一行。对策：用 VS Code 的 YAML 插件，开启yaml.schemas，绑定 Anthropic 提供的 JSON Schema。Schema 会实时校验 indentation 和 required fields。

5.3 教训三：Sandbox 的 DNS 解析有缓存

沙箱里调用curl https://api.notion.com时，DNS 解析结果会被缓存 30 秒。当我们切换 Notion API 的 CDN endpoint（从api.notion.com到api-us.notion.com）时，老 session 仍在用旧 IP，导致 30 秒内 100% 超时。对策：在 YAML 的sandbox_config里加dns_cache_ttl: 5s，强制高频刷新。

5.4 教训四：Guardrail 会吃掉 token，但不计入 quota

你设了guardrail: {max_length: 1000}，模型输出被截断，但 Anthropic 仍按原始长度计费。我们一个客服 agent，因 guardrail 截断了 30% 的 response，token 费用虚高 22%。对策：在 system prompt 里加一句 “Your response must be under 1000 characters. Do not exceed this limit.”，让模型自己控制，避免 guardrail 被动截断。

5.5 教训五：Session log 的`output_hash`不是 content hash

output_hash是对 tool response 的 JSON 序列化后的 hash，不是原始 content 的 hash。当我们用get_output_by_hash()拉取一个 PDF 解析结果时，发现拉回来的是 base64 编码的字符串，不是原始 PDF 二进制。对策：如果需要原始二进制，必须在 tool call 时显式声明return_binary: true，否则默认只存文本摘要。

5.6 教训六：Pricing 的“session-hour”按 wall-clock 算，不是 CPU-time

一个 session 从创建到销毁，无论 harness 是否 idle，都按整小时计费。我们有个 agent，大部分时间在等用户输入（idle 状态），但 session 一直开着，结果 $0.08/hour 变成 $1.92/day。对策：在应用层加 heartbeat 机制，连续 5 分钟无 activity，主动调用end_session()。Anthropic 的 API 支持 graceful shutdown，不会丢失未保存的 state。

这些教训，每一条都让我们在客户现场多花了 3-8 小时。我把它们列出来，不是为了炫耀，而是告诉你：Managed Agents 不是开箱即用的魔法盒，它是把 infrastructure 的复杂性，转化成了 configuration 的复杂性。你省下的 DevOps 时间，会花在 YAML 调试、policy 编写、trace 分析上。这才是真实的 trade-off。

6. 未来半年行动建议：聚焦“不可迁移”的三层资产

Anthropic 的 launch 不是终点，而是 runtime commoditization 加速的起点。接下来六个月，我的建议非常具体：

第一，立即冻结 runtime 层的自研投入。如果你还在写 harness、搭沙箱、搞 credential vault，停掉。把人力全部转向 trace store 建设。用 Phoenix 搭起最小可行 trace pipeline，目标不是完美，而是“能回答业务部门的第一个问题”。比如销售总监问“agent 帮我们多打了多少电话？”，你就得能在 1 小时内给出数字。这比优化 100ms latency 更有价值。

第二，把 70% 的 agent 开发精力，放到 vertical data layer。别再纠结“用 LangChain 还是 LlamaIndex”，去挖你的行业数据：保险公司的理赔规则 PDF、银行的信贷政策 Word、电商的 SKU 主数据 Excel。把这些数据清洗、结构化、向量化，做成 agent 可直接调用的get_insurance_rule()、get_credit_policy()。这才是 moat，runtime 层谁都买得到。

第三，用 policy as code 思维重构 governance。把合规要求写成机器可读的 policy 文件（如 Rego 语言），而不是 Excel 表格。比如 GDPR 的“数据最小化”原则，写成deny { input.tool == "customer_db_search" ; count(input.parameters.fields) > 3 }。这样，policy 可以自动测试、自动部署、自动审计。当 AWS 发布新 policy feature 时，你只需更新 policy 文件，不用重写代码。

最后分享一个个人体会：我做 infrastructure 十年，见过太多“技术先进但商业失败”的项目。Managed Agents 的技术很扎实，但它的商业意义，不在于 Anthropic 卖了多少 session-hour，而在于它逼所有 agent 开发者直面一个问题：当 runtime 变成免费午餐，你的独特价值，到底藏在哪一层？是藏在 trace 数据里，藏在行业知识里，还是藏在客户合同里？这个问题的答案，将决定你未来三年是成为基础设施的搬运工，还是垂直领域的定义者。

查看全文

http://www.zskr.cn/news/1538248.html