当前位置：首页 > news >正文

AI Agent 出问题后怎么追责？先把 Event Log 设计好

news 2026/6/10 18:11:56

很多团队做 AI Agent最开始关注的是两个问题它能不能理解任务它能不能调用工具但一旦 Agent 进入真实业务你会发现还有一个更重要的问题它出问题之后怎么查比如它为什么给用户发了那封邮件它为什么调用了这个工具它为什么选择了这个参数它读过哪些上下文它有没有触发过人工确认它失败后有没有重试它最终输出是由哪一步生成的如果这些问题答不上来AI Agent 就不适合进入生产环境。所以Agent 系统除了 Prompt、工具和权限还必须设计 Event Log。Event Log 的目标不是简单记录一行日志而是把 Agent 的关键行为变成可追踪事件。一个最小 Agent 执行链路可能是User Request - Context Load - Planning - Tool Selection - Argument Generation - Tool Call - Tool Result - Final Response每一步都应该有事件。先定义事件类型fromenumimportEnumfromdataclassesimportdataclass,fieldfromtypingimportDict,Any,OptionalfromdatetimeimportdatetimeimportuuidclassAgentEventType(str,Enum):USER_REQUESTuser_requestCONTEXT_LOADEDcontext_loadedPLAN_CREATEDplan_createdTOOL_SELECTEDtool_selectedARGUMENTS_GENERATEDarguments_generatedTOOL_CALLEDtool_calledTOOL_RESULTtool_resultHUMAN_APPROVALhuman_approvalFINAL_RESPONSEfinal_responseERRORerrordataclassclassAgentEvent:event_id:strtrace_id:strsession_id:struser_id:strevent_type:AgentEventType timestamp:strpayload:Dict[str,Any]field(default_factorydict)parent_event_id:Optional[str]None每一次用户请求生成一个 trace_id。defnew_trace_id()-str:returnftrace_{uuid.uuid4().hex}defnow_iso()-str:returndatetime.utcnow().isoformat()写一个事件记录函数EVENT_STORE[]deflog_event(trace_id:str,session_id:str,user_id:str,event_type:AgentEventType,payload:Dict[str,Any],parent_event_id:Optional[str]None)-AgentEvent:eventAgentEvent(event_idfevt_{uuid.uuid4().hex},trace_idtrace_id,session_idsession_id,user_iduser_id,event_typeevent_type,timestampnow_iso(),payloadpayload,parent_event_idparent_event_id)EVENT_STORE.append(event)returnevent一个用户请求进来时trace_idnew_trace_id()session_idsession_001user_iduser_123request_eventlog_event(trace_idtrace_id,session_idsession_id,user_iduser_id,event_typeAgentEventType.USER_REQUEST,payload{message:请帮我整理上周客户反馈并生成三条跟进建议})加载上下文时context_eventlog_event(trace_idtrace_id,session_idsession_id,user_iduser_id,event_typeAgentEventType.CONTEXT_LOADED,payload{sources:[crm_feedback_summary,support_tickets],record_count:42,contains_sensitive_data:False},parent_event_idrequest_event.event_id)Agent 生成计划时plan_eventlog_event(trace_idtrace_id,session_idsession_id,user_iduser_id,event_typeAgentEventType.PLAN_CREATED,payload{steps:[summarize_feedback,cluster_common_issues,generate_follow_up_suggestions],risk_level:medium},parent_event_idcontext_event.event_id)工具调用前后都要记录tool_eventlog_event(trace_idtrace_id,session_idsession_id,user_iduser_id,event_typeAgentEventType.TOOL_CALLED,payload{tool_name:cluster_feedback,arguments:{source:support_tickets,range:last_week}},parent_event_idplan_event.event_id)result_eventlog_event(trace_idtrace_id,session_idsession_id,user_iduser_id,event_typeAgentEventType.TOOL_RESULT,payload{tool_name:cluster_feedback,ok:True,result_summary:{clusters:5,top_issue:response_time}},parent_event_idtool_event.event_id)最终回复也要记录final_eventlog_event(trace_idtrace_id,session_idsession_id,user_iduser_id,event_typeAgentEventType.FINAL_RESPONSE,payload{response_type:suggestions,suggestion_count:3,requires_human_review:True},parent_event_idresult_event.event_id)这样当用户或者团队负责人追问“这条建议怎么来的”系统不是靠猜而是可以根据 trace_id 找到完整链路。defget_trace(trace_id:str):return[eventforeventinEVENT_STOREifevent.trace_idtrace_id]foreventinget_trace(trace_id):print(event.timestamp,event.event_type,event.payload)真实生产环境里Event Log 应该进入数据库、消息队列或日志系统而不是存在内存里。可以设计表结构CREATETABLEagent_events(event_idVARCHAR(64)PRIMARYKEY,trace_idVARCHAR(64)NOTNULL,session_idVARCHAR(64)NOTNULL,user_idVARCHAR(64)NOTNULL,event_typeVARCHAR(64)NOTNULL,parent_event_idVARCHAR(64),payload JSONBNOTNULL,created_atTIMESTAMPNOTNULL);CREATEINDEXidx_agent_events_trace_idONagent_events(trace_id);CREATEINDEXidx_agent_events_user_idONagent_events(user_id);CREATEINDEXidx_agent_events_typeONagent_events(event_type);Event Log 还有三个价值。第一可审计。当 Agent 执行了高风险动作可以查到谁触发、读了什么上下文、模型计划是什么、工具参数是什么、是否经过人工确认。第二可回放。如果某次执行结果有问题可以根据事件链路重建执行过程找出是上下文错误、计划错误、工具参数错误还是最终总结错误。第三可优化。你可以统计哪些工具最常失败。哪些任务最常需要人工介入。哪些模型输出参数最容易缺字段。哪些用户请求最容易触发高风险事件。这比单纯看调用次数有价值。AI Agent 会越来越多地接入真实业务。Google I/O 2026 展示的方向是把 AI Agent 推入搜索、办公和日常应用Codex 也强调多代理工作流和云端并行处理。如果团队前期要比较 ChatGPT、Claude、Gemini、Grok 等模型在任务规划、工具调用、结果解释上的表现可以用 gpt1998.com 作为多模型入口做测试。但无论模型怎么换Event Log 都应该是系统自己的底座。Agent 可以更聪明日志不能更模糊。没有 Event LogAgent 出错之后只能靠猜。有了 Event LogAgent 才有机会进入可追踪、可复盘、可治理的工程系统。

查看全文

http://www.zskr.cn/news/1339216.html