从零构建AI Agent工作流：以OpenMontage为例的工程实践-尧图网络科技

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Qwen 随心用，限时 5 折。 👉 点击领海量免费额度

在 GitHub 的 AI 开源生态中，每周都有新的项目涌现，它们或解决特定痛点，或探索前沿方向。最近一周的趋势榜单显示，一个名为OpenMontage的项目冲上榜首，同时，各类工作流工具和Agent 框架的关注度持续走高。这背后反映出一个清晰的趋势：AI 应用正从单点模型能力的比拼，转向对复杂、自动化、可编排工作流程的工程化构建。对于开发者而言，理解这些工具如何将大模型、数据处理、业务逻辑串联起来，并落地为可复用的系统，已成为一项核心技能。

本文将聚焦于OpenMontage这一开源智能体视频生产系统，并以此为契机，深入探讨如何构建一个基于 Agent 的自动化工作流。我们不会停留在概念介绍，而是会拆解其核心思想，并提供一个从零开始的、可运行的 Agent 工作流构建示例。你将了解到 Agent 如何协同工作、如何管理状态、如何处理异常，以及如何将这类系统集成到你的项目中。无论你是想复现一个视频生成流程，还是希望将 AI Agent 应用于文档处理、数据分析等其他领域，本文提供的工程化思路和代码实践都将为你提供直接的参考。

1. 理解 OpenMontage 与 AI Agent 工作流的核心

在深入代码之前，我们需要厘清几个关键概念：什么是 AI Agent？什么是工作流？以及 OpenMontage 项目为我们揭示了怎样的工程范式。

1.1 AI Agent：从工具调用者到任务执行者

传统的 AI 接口调用是“一问一答”式的。你发送一个请求（Prompt），模型返回一个响应（Completion）。而AI Agent则是一个更高级的抽象，它具备以下特征：

目标导向：Agent 被赋予一个明确的最终目标（例如，“生成一个关于太空旅行的科普视频”）。
自主规划与执行：Agent 能够将大目标拆解为一系列子任务（规划），并自主调用工具或 API 去执行这些任务（执行），例如搜索素材、生成脚本、合成视频。
记忆与状态：Agent 拥有短期记忆（当前对话上下文）和长期记忆（向量数据库等），能记住历史交互和任务状态。
工具使用能力：Agent 可以调用外部工具，如搜索引擎、代码解释器、文件系统、专业软件 API 等。

简单来说，一个强大的 AI Agent 更像一个拥有专业技能的虚拟员工，而不仅仅是一个回答问题的机器。

1.2 工作流：将 Agent 串联为自动化流水线

单个 Agent 的能力有限。复杂的任务（如视频生产）需要多个各司其职的 Agent 协同完成。工作流就是定义这些 Agent 如何协作的“剧本”或“流程图”。它明确了：

节点：每个节点可以是一个 Agent、一个条件判断、一个数据处理步骤。
边：定义了节点之间的执行顺序和数据流向（串行、并行、条件分支）。
数据传递：上一个节点的输出如何作为下一个节点的输入。
错误处理：当某个节点执行失败时，工作流是重试、跳过还是终止。

OpenMontage 项目正是一个将多个 AI Agent（负责脚本生成、素材检索、视频合成等）通过工作流引擎编排起来，最终自动化生产视频的系统。它的上榜，印证了市场对这类“多智能体协作系统”的强烈需求。

1.3 开源工作流工具的兴起

与 OpenMontage 一同受到关注的，还有 n8n、Dify、Coze（扣子）等工作流平台。它们降低了构建 AI 工作流的门槛，提供了可视化的编排界面。然而，对于追求深度定制和系统集成的开发者而言，理解其底层原理并能够用代码构建工作流，是更根本的能力。本文将采用编程的方式，带你构建一个核心的工作流引擎。

2. 环境准备与项目初始化

我们将构建一个简化的文本处理工作流示例，它包含三个 Agent：一个“分析器”、一个“改写器”和一个“总结器”。这个工作流将模拟处理用户输入的一段文本。

2.1 技术栈与依赖选择

我们选择 Python 作为实现语言，因为它拥有最丰富的 AI 和自动化生态。核心依赖如下：

语言模型 SDK：我们使用 OpenAI 的 API 作为 Agent 的“大脑”。你也可以替换为其他兼容 OpenAI 格式的本地模型（如 Ollama）。
工作流引擎：我们将自己实现一个轻量级引擎来理解原理。在生产环境中，可以考虑使用Prefect、Airflow或LangGraph。
状态管理：使用内存字典或 Redis（用于生产环境）来跟踪工作流执行状态。

首先，创建项目并安装基础依赖：

# 创建项目目录 mkdir ai-agent-workflow-demo cd ai-agent-workflow-demo # 创建虚拟环境（推荐） python -m venv venv # Windows 激活: venv\Scripts\activate # Linux/Mac 激活: source venv/bin/activate # 安装核心依赖 pip install openai pip install pydantic # 用于数据模型验证 pip install redis # 如需持久化状态存储

2.2 项目结构设计

一个清晰的项目结构有助于管理复杂的 Agent 和工作流。建议如下：

ai-agent-workflow-demo/ ├── agents/ # 存放各个 Agent 的实现 │ ├── __init__.py │ ├── base_agent.py # Agent 基类 │ ├── analyzer_agent.py │ ├── rewriter_agent.py │ └── summarizer_agent.py ├── workflows/ # 存放工作流定义 │ ├── __init__.py │ └── text_processing_workflow.py ├── engine/ # 工作流引擎核心 │ ├── __init__.py │ ├── workflow_engine.py │ └── models.py # 状态、节点等数据模型 ├── tools/ # Agent 可用的工具函数 │ └── __init__.py ├── config.py # 配置文件（如 API Key） ├── main.py # 程序入口 └── requirements.txt

在requirements.txt中记录依赖：

openai>=1.0.0 pydantic>=2.0.0 redis>=5.0.0

3. 构建核心组件：Agent 与工作流引擎

3.1 定义 Agent 基类

所有具体的 Agent 都应继承自一个基类，基类负责处理与 LLM 的通信、工具调用等通用逻辑。在agents/base_agent.py中：

from abc import ABC, abstractmethod from typing import Any, Dict, List, Optional from pydantic import BaseModel import openai class AgentContext(BaseModel): """Agent 执行的上下文，包含输入、历史、工作流状态等""" input_data: Dict[str, Any] workflow_state: Dict[str, Any] = {} history: List[Dict] = [] class BaseAgent(ABC): """Agent 基类""" def __init__(self, name: str, system_prompt: str, openai_client: openai.Client): self.name = name self.system_prompt = system_prompt self.client = openai_client self.tools = [] # 此 Agent 可用的工具列表 def register_tool(self, tool): """注册一个工具到当前 Agent""" self.tools.append(tool) @abstractmethod async def execute(self, context: AgentContext) -> AgentContext: """ 执行 Agent 的核心逻辑。 必须返回更新后的 context。 """ pass async def _call_llm(self, messages: List[Dict]) -> str: """调用 LLM 的通用方法""" try: response = await self.client.chat.completions.create( model="gpt-4o-mini", # 可根据需要调整模型 messages=messages, tools=self.tools if self.tools else None, tool_choice="auto" if self.tools else None, ) # 简化处理，只返回文本内容 return response.choices[0].message.content except Exception as e: # 实际项目中应有更完善的错误处理和重试机制 raise RuntimeError(f"LLM call failed for agent {self.name}: {e}")

3.2 实现具体 Agent：分析器

在agents/analyzer_agent.py中，我们实现一个分析文本情感和主题的 Agent。

from agents.base_agent import BaseAgent, AgentContext import openai class AnalyzerAgent(BaseAgent): """分析文本情感和主题的 Agent""" def __init__(self, openai_client: openai.Client): system_prompt = """ 你是一个文本分析专家。你的任务是从用户提供的文本中分析出： 1. 整体情感倾向（积极、消极、中性）。 2. 核心主题或关键词（不超过3个）。 请以 JSON 格式返回，包含 `sentiment` 和 `keywords` 两个字段。 """ super().__init__(name="Analyzer", system_prompt=system_prompt, openai_client=openai_client) async def execute(self, context: AgentContext) -> AgentContext: text_to_analyze = context.input_data.get("text", "") if not text_to_analyze: raise ValueError("AnalyzerAgent 需要 `text` 输入。") user_message = f"请分析以下文本：\n{text_to_analyze}" messages = [ {"role": "system", "content": self.system_prompt}, {"role": "user", "content": user_message} ] analysis_result = await self._call_llm(messages) # 注意：这里简化处理，实际应解析 JSON 并做校验 context.workflow_state["analysis_result"] = analysis_result context.history.append({ "agent": self.name, "action": "analyze_text", "result": analysis_result }) print(f"[{self.name}] 分析完成: {analysis_result[:100]}...") return context

3.3 定义工作流节点与引擎

工作流引擎负责调度节点（Agent）的执行。在engine/models.py中定义节点：

from typing import Callable, Any, Dict from pydantic import BaseModel class WorkflowNode(BaseModel): """工作流节点定义""" node_id: str agent_name: str # 关联的 Agent 名称 next_nodes: List[str] = [] # 下游节点 ID 列表 condition: Optional[Callable[[Dict], bool]] = None # 执行条件（可选）

在engine/workflow_engine.py中实现一个简单的顺序执行引擎：

from typing import Dict, List from engine.models import WorkflowNode from agents.base_agent import BaseAgent, AgentContext class SimpleWorkflowEngine: """简单顺序工作流引擎""" def __init__(self): self.nodes: Dict[str, WorkflowNode] = {} self.agents: Dict[str, BaseAgent] = {} self.context: AgentContext = None def register_agent(self, agent: BaseAgent): """注册一个 Agent 到引擎""" self.agents[agent.name] = agent def add_node(self, node: WorkflowNode): """添加一个工作流节点""" self.nodes[node.node_id] = node def build_linear_workflow(self, node_ids: List[str]): """构建一个简单的线性工作流（节点顺序执行）""" for i, node_id in enumerate(node_ids): node = self.nodes.get(node_id) if not node: raise KeyError(f"Node {node_id} not found.") if i < len(node_ids) - 1: node.next_nodes = [node_ids[i + 1]] async def start(self, initial_input: Dict[str, Any]) -> AgentContext: """启动工作流""" self.context = AgentContext(input_data=initial_input) # 找到起始节点（这里简化处理，从第一个节点开始） start_node_id = list(self.nodes.keys())[0] await self._execute_node(start_node_id) return self.context async def _execute_node(self, node_id: str): """执行单个节点""" node = self.nodes[node_id] agent = self.agents.get(node.agent_name) if not agent: raise ValueError(f"Agent {node.agent_name} not registered for node {node_id}.") print(f"[Workflow Engine] 执行节点: {node_id} ({agent.name})") # 检查执行条件 if node.condition and not node.condition(self.context.workflow_state): print(f"[Workflow Engine] 节点 {node_id} 条件不满足，跳过。") return # 执行 Agent self.context = await agent.execute(self.context) # 执行后续节点 for next_node_id in node.next_nodes: await self._execute_node(next_node_id)

4. 组装并运行你的第一个 AI Agent 工作流

现在，我们将各个部分组装起来，创建一个完整的文本处理工作流。

4.1 实现改写器和总结器 Agent

按照分析器 Agent 的模式，我们快速实现另外两个 Agent。

agents/rewriter_agent.py:

from agents.base_agent import BaseAgent, AgentContext import openai class RewriterAgent(BaseAgent): """根据分析结果改写文本的 Agent""" def __init__(self, openai_client: openai.Client): system_prompt = """ 你是一个专业的文本改写员。你会收到一段原文和一份分析报告（包含情感和关键词）。 你的任务是根据分析报告，将原文改写成更正式、更优美的版本，同时保持原意。 只返回改写后的文本。 """ super().__init__(name="Rewriter", system_prompt=system_prompt, openai_client=openai_client) async def execute(self, context: AgentContext) -> AgentContext: original_text = context.input_data.get("text", "") analysis = context.workflow_state.get("analysis_result", "无分析结果") user_message = f""" 原文： {original_text} 分析报告： {analysis} 请根据分析报告改写原文。 """ messages = [ {"role": "system", "content": self.system_prompt}, {"role": "user", "content": user_message} ] rewritten_text = await self._call_llm(messages) context.workflow_state["rewritten_text"] = rewritten_text context.history.append({ "agent": self.name, "action": "rewrite_text", "result": rewritten_text[:200] + "..." }) print(f"[{self.name}] 改写完成。") return context

agents/summarizer_agent.py:

from agents.base_agent import BaseAgent, AgentContext import openai class SummarizerAgent(BaseAgent): """总结最终结果的 Agent""" def __init__(self, openai_client: openai.Client): system_prompt = """ 你是一个总结者。你会收到原始文本、分析报告和改写后的文本。 你的任务是生成一份简要的总结报告，说明处理过程、主要变化和最终效果。 总结报告应清晰、简洁。 """ super().__init__(name="Summarizer", system_prompt=system_prompt, openai_client=openai_client) async def execute(self, context: AgentContext) -> AgentContext: original_text = context.input_data.get("text", "") analysis = context.workflow_state.get("analysis_result", "") rewritten = context.workflow_state.get("rewritten_text", "") user_message = f""" 处理流程总结： 1. 原始文本：{original_text[:500]}... 2. 分析报告：{analysis} 3. 改写文本：{rewritten[:500]}... 请生成总结报告。 """ messages = [ {"role": "system", "content": self.system_prompt}, {"role": "user", "content": user_message} ] summary = await self._call_llm(messages) context.workflow_state["final_summary"] = summary context.history.append({ "agent": self.name, "action": "summarize", "result": summary[:200] + "..." }) print(f"[{self.name}] 总结完成。") return context

4.2 定义并运行工作流

在main.py中，我们配置 OpenAI 客户端，注册 Agent，定义工作流并运行。

import asyncio import openai from config import OPENAI_API_KEY # 假设你的 API Key 在 config.py 中 from agents.analyzer_agent import AnalyzerAgent from agents.rewriter_agent import RewriterAgent from agents.summarizer_agent import SummarizerAgent from engine.workflow_engine import SimpleWorkflowEngine from engine.models import WorkflowNode async def main(): # 1. 初始化 OpenAI 客户端 client = openai.AsyncClient(api_key=OPENAI_API_KEY) # 2. 初始化工作流引擎 engine = SimpleWorkflowEngine() # 3. 创建并注册 Agent analyzer = AnalyzerAgent(client) rewriter = RewriterAgent(client) summarizer = SummarizerAgent(client) engine.register_agent(analyzer) engine.register_agent(rewriter) engine.register_agent(summarizer) # 4. 定义工作流节点 nodes = [ WorkflowNode(node_id="node_analyze", agent_name="Analyzer"), WorkflowNode(node_id="node_rewrite", agent_name="Rewriter"), WorkflowNode(node_id="node_summarize", agent_name="Summarizer"), ] for node in nodes: engine.add_node(node) # 5. 构建线性工作流：分析 -> 改写 -> 总结 engine.build_linear_workflow(["node_analyze", "node_rewrite", "node_summarize"]) # 6. 准备输入并启动工作流 sample_text = """ 人工智能正在改变世界。它让机器能够学习、推理和创造，为医疗、交通、教育等领域带来前所未有的机遇。虽然也存在挑战，比如就业结构变化和伦理问题，但总体而言，其积极影响是深远的。 """ initial_input = {"text": sample_text} print("开始执行 AI Agent 工作流...") final_context = await engine.start(initial_input) # 7. 输出最终结果 print("\n" + "="*50) print("工作流执行完成！") print("="*50) print("\n【最终改写文本】") print(final_context.workflow_state.get("rewritten_text", "N/A")) print("\n【处理总结报告】") print(final_context.workflow_state.get("final_summary", "N/A")) print("\n【执行历史】") for record in final_context.history: print(f"- {record['agent']}: {record['action']}") if __name__ == "__main__": asyncio.run(main())

在config.py中设置你的 API Key：

# config.py OPENAI_API_KEY = "your-openai-api-key-here" # 请替换为你的实际 API Key

4.3 运行与验证

在终端运行程序：

python main.py

预期你会看到类似以下的输出，展示了三个 Agent 依次执行的过程和最终结果：

开始执行 AI Agent 工作流... [Workflow Engine] 执行节点: node_analyze (Analyzer) [Analyzer] 分析完成: {"sentiment": "positive", "keywords": ["artificial intelligence", "opportunity", "future"]}... [Workflow Engine] 执行节点: node_rewrite (Rewriter) [Rewriter] 改写完成。 [Workflow Engine] 执行节点: node_summarize (Summarizer) [Summarizer] 总结完成。 ================================================== 工作流执行完成！ ================================================== 【最终改写文本】 人工智能正在深刻地重塑全球格局。它赋予机器学习、推理与创新的能力，为医疗健康、交通运输、教育科研等诸多领域开辟了崭新的前景。尽管面临诸如就业市场转型与伦理规范等方面的挑战，但其带来的积极影响无疑是深远而持久的。 【处理总结报告】 本次文本处理流程主要分为三步：分析、改写和总结。原始文本讨论了人工智能的积极影响及伴随的挑战。分析步骤识别出其情感倾向为积极，并提取了“人工智能”、“机遇”、“未来”等关键词。改写步骤基于此分析，将原文优化为更正式、优美的版本，提升了语言的流畅度和专业性，同时完全保留了原意。最终，改写后的文本在保持核心信息不变的基础上，表达更为精炼和有力。 【执行历史】 - Analyzer: analyze_text - Rewriter: rewrite_text - Summarizer: summarize

至此，你已经成功运行了一个由多个 AI Agent 通过工作流引擎协同工作的自动化系统。这模拟了 OpenMontage 等复杂系统的核心协作模式。

5. 关键配置、参数与工程化考量

5.1 Agent 系统提示词设计

系统提示词是 Agent 的“角色设定”和“工作说明书”，其质量直接决定 Agent 的表现。设计原则如下：

角色明确：清晰定义 Agent 的职责和边界。
输出格式约束：明确要求 JSON、Markdown 或纯文本等特定格式，便于后续解析。
步骤引导：对于复杂任务，可以提示 Agent 分步思考。
负面示例：可以告知 Agent 避免哪些行为。

例如，分析器 Agent 的提示词明确要求了 JSON 格式，这使下游 Agent 能更容易地解析其结果。

5.2 工作流引擎的扩展

我们实现的SimpleWorkflowEngine是顺序执行的。真实场景需要更复杂的模式：

并行执行：多个无依赖关系的节点可以同时运行。
条件分支：根据上游节点的结果，决定执行哪条分支。
循环：对列表中的每个元素执行相同子流程。
错误处理与重试：节点失败时，根据策略重试或跳转至错误处理节点。

这些功能可以通过扩展WorkflowNode的condition属性和引擎的_execute_node方法来实现。更复杂的项目可以直接采用LangGraph（专为 Agent 设计）或Prefect（通用工作流编排）。

5.3 状态管理与持久化

我们的示例将状态存储在内存的AgentContext中。在生产环境中，这不够可靠：

使用外部存储：将workflow_state存入 Redis、数据库或对象存储，实现状态持久化，支持工作流中断后恢复。
上下文长度管理：history列表可能很长，需要设计摘要或分页机制，避免超出 LLM 的上下文窗口。
版本控制：对工作流定义和 Agent 提示词进行版本管理，便于回滚和审计。

6. 常见问题排查与优化实践

在开发和运行 AI Agent 工作流时，你会遇到一些典型问题。

6.1 Agent 执行失败排查表

问题现象	可能原因	检查方式	处理建议
Agent 返回`None`或空结果	1. API Key 无效或配额不足。 2. 提示词未约束输出格式，模型输出了非预期内容。 3. 网络超时。	1. 检查`OPENAI_API_KEY`环境变量或配置文件。 2. 打印原始的 LLM 响应消息 (`response.choices[0].message`)。 3. 查看网络日志或增加超时时间。	1. 验证 API Key 和账单。 2. 在提示词中明确要求输出格式，并在代码中添加结果解析和验证逻辑。 3. 实现重试机制和更完善的异常捕获。
工作流卡在某个节点	1. 该节点 Agent 的`execute`方法有 bug 或陷入死循环。 2. 节点条件 (`condition`) 永远不满足。 3. 下游节点 ID 配置错误，导致引擎找不到下一个节点。	1. 在该节点的`execute`方法开始和结束处添加日志。 2. 打印`condition`函数的输入和输出。 3. 检查`node.next_nodes`列表中的 ID 是否在`engine.nodes`中注册。	1. 对每个 Agent 进行单元测试。 2. 确保条件逻辑正确，并考虑超时机制。 3. 在工作流构建完成后，验证节点图的连通性。
最终结果不符合预期	1. 上游 Agent 的输出质量差，导致垃圾进、垃圾出。 2. Agent 之间数据传递格式不一致。 3. 工作流逻辑设计有误。	1. 逐步检查每个 Agent 的输出 (`context.workflow_state`)。 2. 检查数据键名是否一致，例如`analysis_result`是否被正确传递。 3. 复核工作流的设计是否符合业务需求。	1. 优化每个 Agent 的提示词，并进行单独测试。 2. 定义清晰的数据契约，使用 Pydantic 模型验证中间数据。 3. 绘制工作流流程图，确保逻辑正确。

6.2 性能与成本优化

异步并发：如上文所述，将独立的 Agent 改为并行执行可以大幅缩短总耗时。
模型选型：并非所有步骤都需要最强大的模型。分析、总结等任务可以使用gpt-4o-mini或gpt-3.5-turbo，关键创意生成步骤再用gpt-4o，以平衡效果与成本。
缓存与记忆：对于相同或相似的输入，可以将 Agent 的结果缓存起来，避免重复调用 LLM。可以使用functools.lru_cache或 Redis。
流式输出：对于生成文本较长的 Agent，可以考虑使用流式响应，提升用户体验。

6.3 生产环境最佳实践

配置外置化：将所有 API Key、模型名称、超时时间等配置项移至环境变量或配置中心，不要硬编码在代码中。
完善的日志与监控：记录每个 Agent 的输入、输出、耗时和 Token 使用量。集成像 Prometheus 和 Grafana 这样的监控系统，以便观察工作流健康度。
实现幂等性：为每个工作流实例生成唯一 ID。通过状态存储，确保同一工作流不会因为重试等原因而被重复执行关键副作用操作。
版本化与回滚：对 Agent 提示词和工作流定义进行版本控制。当新版本出现问题时，能快速回滚到稳定版本。
设置速率限制与熔断：对 LLM API 的调用设置速率限制，并在服务不稳定时启动熔断机制，防止系统雪崩。