企业手搓 Agent 进化飞轮的现状
当谈及 Agent 进化时,通常涉及员工办公和企业业务两类场景。前者中,Coding Agent、通用 Agent 加速进化,用户越用越喜欢;后者仍处于各企业自行观测、评估、优化,积累业务实践经验的阶段。进化飞轮一般分为数据采集、数据集构建、效果评估、进化资产沉淀 4 个步骤,但影响 Agent 行为的因素更多,带来新工程难点,是以往 LLM - as - Judge 范式难以应对的。
数据采集难在于单点变拓扑,schema 不再稳定,存储和埋点成本是 LLM - as - Judge 的几十倍,且目前无事实标准,企业基本自行摸索。数据集构建难是因为定义好的数据样本更难,人工难以判断轨迹是否为好样本,且脱敏需结构化处理。效果评估难需分层,三层结论可能完全不同。沉淀进化资产难,经验难以标准化,导致企业即便完成前三步,资产落地仍不确定。因此,Agent 上线且服务用户增多,但企业拥有的可进化资产可能未增加。
阿里云 AgentLoop 的实践
AgentLoop 是阿里云推出的面向企业级智能体的一站式自进化平台,助力企业构建智能体进化数据飞轮。
第一环全栈观测分析,通过 LoongSuite 的开源自动插桩框架,将采集对象升级为完整的 Trajectory 执行轨迹。LoongSuite 融合三层语义规范,覆盖 55 个 GenAI 语义字段,有效字段覆盖率 84%,竞品最高仅 51%。采集的 Trajectory 提供四类交叉印证的诊断视图,可精确到“某一轮 LLM 多步冗余循环调用”。
第二环 Agent Ontology + Pipeline,基于 UModel 构建 Agent Ontology,让观测数据图谱化,打破数据孤岛。叠加自动化 Pipeline:Trace2Dataset,自动构建 Golden Dataset 和 BadCase Dataset,可节省 90% 以上的 Token 消耗与时间成本。
第三环内置标准化评估器,采用 Agent - as - a - Judge 评估器,将该评估范式产品化。提供 13 个标准评估器,支持多种评估方式。
第四环记忆库与经验库,将问题分解为数据驱动的 Agent 调优和 Trajectory 驱动的自进化闭环两条路径,并提供记忆库与经验库两个独立组件。记忆库沉淀用户偏好和历史上下文,经验库聚焦成功模式提取与复用。
进化飞轮,是企业智能体下半场的发令枪
由于进化飞轮基础设施不完善,多数企业智能体上线即落后,陷入恶性循环。LangChain 和 Databricks 的报告显示了企业在评估方面的不足。阿里云 AgentLoop 期望凭借完善的进化飞轮基础设施,与企业共同开启企业智能体下半场。目前 AgentLoop 正在邀测期,欢迎加入用户服务钉群申请邀测资格。