个人AI开发中台搭建——Hermes + 多模型 + 知识库全栈架构

个人AI开发中台搭建——Hermes + 多模型 + 知识库全栈架构

2026年6月,我每天的开发工作是这样开始的:

早上8点,虚拟机自动开机。Agent体检脚本跑一遍——CPU、内存、磁盘、网络、模型余额、Gateway状态——30秒出完整报告。9点打开飞书,直接用中文说"帮我把昨天的调试经验收进Wiki",Agent自动读聊天记录、提炼知识点、建页面、加交叉引用、更新索引。

下午写代码时,切换到Pro模型做复杂推理;跑批量任务时切回Flash省钱。晚上写公众号文章,Agent自动生成封面、生成配图、排版、发布草稿——我只用App审核确认。

这不是在讲"AI能做什么",这是我现在真实的日常工作方式。

核心就是一句话:用一套中台,把所有AI能力串起来。


一、什么是"个人AI开发中台"

先说概念。

企业级AI中台通常包含:模型网关、Prompt管理、知识库、Agent编排、审计日志。搭建成本几十万起步,需要一个团队维护。

个人AI开发中台就是这些能力的个人版。你不需要一个团队——一个配置良好的AI Agent + 几个开源工具就够了。

我的中台架构是7层:

作用核心组件
通信层跨平台消息收发飞书Gateway、WebSocket
模型层多模型路由和切换DeepSeek V4 Pro / Flash
知识库层结构化知识存储和检索LLM Wiki (27页) + RAG
工具层外部系统交互Terminal / Git / Browser / API
技能层领域知识按需加载50+ Skills
记忆层跨会话持久记忆Memory Store
调度层定时自动化任务Cron Jobs

每一层都可以独立替换、独立调试、独立升级。这篇文章逐层拆解。


二、通信层:飞书即终端

你的AI中台不应该只在终端里用。否则你每次都得SSH进去敲命令——这违背"中台"的初衷。

我的方案是飞书Gateway:

飞书 Gateway 工作原理:
飞书 App ←→ WebSocket ←→ Hermes Agent ←→ 模型 + 工具

你在飞书里发一条消息:"帮我把昨天的调试经验收进Wiki"
→ WebSocket 推送到 Agent
→ Agent 加载技能、调用工具、执行操作
→ 结果通过 WebSocket 推回飞书

为什么选飞书?三个原因:

手机随便用:躺在床上想查个文档,打开飞书问Agent就行

支持文件和图片:截图直接发过去,Agent能看图分析

不需要额外App:你本来就用飞书,零切换成本

配置很简单——一个systemd用户服务,随系统自启:

systemctl --user enable hermes-gateway systemctl --user start hermes-gateway

启动后,飞书跟你说话 = 跟Agent说话。你可以像聊天一样做开发。


三、模型层:不要只用一个大模型

很多人觉得"最好的模型干所有事"。但2026年的现实是:

场景推荐模型原因
日常对话、简单任务DeepSeek V4 Flash够快、够便宜
公众号文章、深度分析DeepSeek V4 Pro输出质量高,长篇连贯
代码审查、架构设计DeepSeek V4 Pro需要推理深度
批量数据提取、文档处理DeepSeek V4 Flash量大,省钱
图片识别、视觉分析视觉模型专用能力
代码自动补全Claude Sonnet / GPT-5各自优势场景

核心策略:一个问题,先判断复杂度,再选模型。

我的配置是一个默认模型 + 一句话切换:

默认:DeepSeek V4 Flash(日常对话、快速任务)
我说"切换到pro":切到 DeepSeek V4 Pro(写文章、深度分析)
我说"切回flash":切回去

Agent记住当前状态,下次开机会自动加载

成本对比(真实数据):

FlashPro
写一篇15000字公众号文章~0.3元~2元
日常对话100轮~0.1元~0.6元
89份PDF批量Ingest~0.04元~0.3元

Pro贵7倍,但写出来的公众号文章质量差距肉眼可见。日常用Flash、重要任务切Pro——这是在能力和成本之间的最优平衡。


四、知识库层:LLM Wiki + RAG双引擎

这是中台的"长期记忆"。没有知识库,Agent每次都是"第一次见你"。

我的方案是两套并行:

4.1 LLM Wiki(结构化知识网络)

现在27页,6个实体+20个概念+1个对比。用Obsidian管理,Agent通过工具读写。

核心设计:

types/— 三种页面类型:Entity / Concept / Comparison
SCHEMA.md— Wiki的"宪法",定义页面结构和规则
index.md— 总目录,每个页面必须登记
log.md— 不可变操作日志,只追加不修改
raw/— 原始资料归档(PDF、文章、截图)
wikilinks— 交叉引用网络([[页面名]])

为什么不用纯RAG?因为RAG每次检索结果不保证相同。同样是"电源纹波排查",第一次返回文档A的第3段,第二次可能返回文档B的第7段。对于工程知识这种需要确定性的场景,编译好的Wiki比检索的结果靠谱

4.2 RAG(快速语义检索)

5000维TF-IDF向量索引,覆盖Hi3519DV500的全部硬件文档。

用在哪:

• 快速查阅芯片规格:"DDR支持什么频率" → RAG秒回
• 跨文档交叉验证:同一个寄存器在3份文档中的描述不一致 → RAG对比
• 模糊回忆:"记得有个文档说DDR在60°C会降频,但忘了在哪" → RAG定位

双引擎策略:

快速问答 → RAG(语义检索 + LLM生成回答) ↓ 发现高频问题 知识固化 → LLM Wiki(Agent建页面 + 交叉引用) ↓ 以后同类问题 直接查Wiki → 100%准确,0 Token浪费

五、工具层:Agent的"手和脚"

一个没有工具的AI只能说话。一个有工具的Agent能做事情。

我的中台开放了这些核心工具:

工具用途真实应用场景
Terminal执行Shell命令编译Hi3519DV500 BSP、跑YOLOv8推理
File R/W读写文件创建Wiki页面、保存公众号文章
Git代码版本管理PR创建、diff审查
BrowserWeb交互抓微信公众号原文、查CSDN帖子
Web Search网络搜索查最新的SDK版本、芯片价格
Image Gen生成图片公众号封面、架构图、配图
Cron Job定时任务早报、周报、开机体检

一个典型场景——公众号文章生成流程:

1. 我说:"写一篇NPU推理部署的文章"
2. Agent调用:
Memory查排版偏好、项目约定
Knowledge Base查Wiki中的NPU推理页面和原始文档
Terminal验证SVP推理命令参数
Write File创建文章和目录
Image Gen生成架构图和封面
Web Publish上传草稿到微信公众号
3. 我只需要:打开订阅号助手App → 审核 → 发布

关键设计原则:工具不绑定模型。换模型不影响工具能力。Flash和Pro都能调用相同的Terminal、读相同的文件。


六、技能层:领域知识的"即插即用"

这是中台最容易被忽视的一层——但它决定了Agent的"专业水平"。

什么是Skill?一段针对特定任务的"操作手册"。包含:触发条件、步骤、命令、注意事项。

当我说"帮我把这篇文章发到公众号",Agent不是凭经验操作——它加载了wechat-publish技能,里面记录了:

• 公众号排版标准:禁止编号列表、代码块灰底渲染、深色截图加白边
• 发布脚本路径和参数
• 封面生成尺寸和风格
• 常见坑位和修复方案

技能系统的厉害之处在于:它会自动维护自己。如果技能里写的命令过时了,Agent在执行时发现不对,会自动更新技能。一个不被维护的技能会自我修复。

当前技能库概览:

类别技能数例子
软件开发15+TDD、代码审查、调试、Agent协作
嵌入式开发8+Hi3519编译、交叉工具链、海思BSP
公众号创作10+排版、封面、配图、选题、发布
知识管理5+LLM Wiki、RAG、Obsidian
系统运维5+开机体检、Cron、systemd

技能不是静态文档——它们是你和Agent协作经验的"结晶"。每完成一次复杂任务,好的做法被固化到技能里,下次自动复用。


七、记忆层:让Agent"记住你"

没有记忆的Agent,每次都是第一次见你。

我的记忆系统分两层:

第一层:User Profile(你是谁)

• 名字、角色:产品工程师(软/电/结构三合一)
• 项目:鸿鸥派 HongOU PI,Hi3519DV500
• 工作方式偏好:verbose输出、自动汇报Token
• 工具链:交叉编译路径、开发板配置

第二层:Memory(工作笔记)

• 安全规则:API Key必须打码
• 排版标准:公众号格式细节
• 调试经验:RTSP地址纠错、传感器时钟配置
• 项目约定:文件命名规则、CSV格式偏好

记忆的自动修剪机制:不是记越多越好。过期的信息(如"昨天的PR编号"、“临时调试记录”)会被自动清理。只有"一个月后仍然有用"的信息才持久化。


八、调度层:你睡觉时Agent在干活

7×24小时自动运行的定时任务:

任务频率做什么
开机体检每天8:00CPU/内存/磁盘/网络/模型余额
图片简报每周日19:00自动生成开发周报图片
公众号选题提醒每周一9:00盘点已写/待写文章

调度层不需要Agent在线——Cron Job触发独立会话,完成后结果推送到飞书。

一个真实例子:周日简报

每周日晚上7点,脚本自动运行——扫描Wiki更新记录、本周调试日志、编译产物——生成一张800×1200的暗色主题简报图片,直接发到飞书。

你只需要周日晚上打开飞书看一眼。


九、实战回放:一条消息背后的7层协作

假设我在飞书里发了一条消息:

“用终端跑一下开发板的RTSP推流,看看live265有没有图像”

这条消息触发了什么?

1. 通信层(0.1s)— WebSocket 收到消息,路由到Agent
2. 记忆层(0.05s)— 加载"RTSP地址=live0/live265/live264","图像倒立需vflip,hflip"
3. 模型层(0.5s)— 判断任务复杂度低,用Flash
4. 技能层(0.1s)— 不匹配任何技能,直接执行
5. 知识库层(0.2s)— 查Wiki确认RTSP推流命令格式
6. 工具层(2-5s)— 执行终端命令,抓取FFmpeg输出
7. 通信层(0.1s)— 结果(成功/失败+截图)推回飞书

总耗时:3-6秒。如果没有这7层整合,你需要:打开终端 → SSH到开发板 → 记起命令 → 输入 → 看输出 → 回到飞书汇报。大概30秒起步。


十、搭建成本

硬件:一台Ubuntu 24.04虚拟机(4核/10GB内存/100GB磁盘)——任何现代笔记本都能跑。

软件:全部免费

组件成本
Hermes Agent免费开源
飞书Gateway免费(飞书API免费额度够用)
知识库(Obsidian)免费
RAG(TF-IDF)本地运行,零成本

模型API费用:

用量场景月费(Flash)月费(Pro为主)
轻度(每天50轮对话)~5元~20元
中度(每天100轮+公众号)~15元~60元
重度(批量Ingest+多Agent)~40元~150元

我的实际数据:6月份中度使用(日常Flash + 文章Pro),API费用约30元


十一、和"直接用ChatGPT"的区别

维度直接用ChatGPT个人AI中台
知识记忆每次重新描述背景Memory自动注入
工具能力只有对话Terminal/文件/Git/浏览器/发布
定时自动化Cron 7×24运行
跨平台网页/App飞书/微信/终端 多端统一
知识积累每次对话结束后丢失LLM Wiki持续积累
定制化靠Prompt50+ Skills按需加载
成本控制固定价格按任务选模型
数据隐私云端本地+API

关键区别:ChatGPT是一个对话工具。AI中台是一个开发平台。


十二、搭建步骤

如果你想搭一个类似的中台,以下是简明步骤:

第一步:安装基础

1. 一个Linux环境(Ubuntu 24.04推荐)
2. 安装Hermes Agent
3. 配置模型API Key(至少一个)
4. 验证:终端里问Agent一个问题,确认能回复

第二步:配置通信层

1. 创建飞书应用,获取App ID和App Secret
2. 配置 Gateway 连接飞书
3. 设为systemd用户服务,随系统自启
4. 验证:飞书里@机器人,确认能回复

第三步:建立知识库

1. 创建Obsidian Vault
2. 初始化 SCHEMA.md 和 index.md
3. 开始投入第一批资料(PDF/笔记/文章)
4. Agent自动建页面、加链接、写日志

第四步:配置自动化

1. 开机体检脚本(系统资源+模型余额)
2. 周报简报(自动生成+推送飞书)
3. 知识库定期健康检查(孤立页面、断链检测)

写在最后

三年前用ChatGPT,我的方式是在网页上问一句、等回复、复制到编辑器里——每次对话都是独立的一次性操作。

现在用AI中台,Agent知道我是谁、在做什么项目、有哪些历史经验、偏好什么输出格式。我可以一句话触发一个完整流程——从查资料到写代码到生成文档到发布——全程我只负责审核。

这不是"AI变强了"的结果,这是"AI被组织起来了"的结果。

个人AI中台的核心不是选哪个模型,而是把这些能力组装成一个能持续工作的系统。你的知识库每周在增长,Agent的能力就同步在增长。你今天踩的坑,变成明天的Skill,下个月Agent自动避开。

搭建你自己的AI中台,大概需要一个周末。

第一个上午装好环境和通信层,第一个下午投第一批资料进知识库。然后你就会发现——你跟AI的关系,从"对话"变成了"协作"。