模块五结束了。10 篇文章,从多模态模型入门到搭建自己的 Code Review Agent。
但你可能有一个问题:「9 个方向,我该学哪个?」
这篇给你答案。不是「都要学」这种正确的废话——是帮你判断:你的技术栈 × 你的时间 × 你的目标 = 你应该优先哪个方向。
首先,模块五讲了什么
| 篇 | 主题 | 核心能力 | 你获得什么 |
|---|---|---|---|
| 41 | 多模态模型入门 | 图片理解 API | 5 个场景的 Go 调用代码 |
| 42 | AI 生成封面 | 图片生成 + 后期处理 | 完整的封面生产流水线 |
| 43 | 绘图工具对比 | DALL-E / MJ / SD 实测 | 三工具真实输出 + 选型决策树 |
| 44 | 语音笔记助手 | Whisper + LLM + TTS | 50 行 Go 串联音频全链路 |
| 45 | 视频理解 | ffmpeg + Vision API | 自动生成视频摘要工具 |
| 46 | Code Interpreter | Docker 沙箱 + 代码执行 | AI 写代码 → 跑 → 修复的闭环 |
| 47 | AI 爬虫 | chromedp + LLM 提取 | 不写 XPath 的智能爬虫 |
| 48 | AI 自动化测试 | 源码分析 + 测试生成 | 4 分钟 87% 覆盖率的自动测试 |
| 49 | Code Review Agent | GitHub Webhook + AI 审查 | 自动 PR 审查,78% 准确率 |
五个方向的能效模型
我把这些能力按两个维度评估:实用价值(能直接帮到你当前工作的程度)和学习成本(从 0 到能用的时间投入)。
方向一:图片理解与生成(41-43)
实用价值: ⭐⭐⭐⭐ 学习成本: ⭐ (极低) 投入时间: 1-2 天 前置技能: 无(调 API 就行)适合:需要做内容的程序员。公众号、B站、博客的封面/插图。
入门路径:
- 第 41 篇 — 学会调 Vision API,理解它的边界
- 第 42 篇 — 搭好自己的封面生成流程
- 跑起来只需要 DeepSeek API Key + Go
回报:每张封面省 30 分钟,每个月省 2-3 小时。
推荐指数:⭐⭐⭐⭐⭐ —— 性价比最高的方向,没有之一。
方向二:语音处理(44)
实用价值: ⭐⭐⭐ 学习成本: ⭐⭐ 投入时间: 2-3 天 前置技能: 理解音频格式(采样率、声道)适合:需要处理会议录音、做播客、或者喜欢语音笔记的程序员。
入门路径:
- 了解 ffmpeg 基本用法(格式转换)
- 调 Whisper API 做语音转文字
- Edge TTS 做文字转语音
- 第 44 篇的完整示例代码改改就能跑
回报:会议纪要从 1 小时变 5 分钟。
推荐指数:⭐⭐⭐⭐ —— 如果你的工作涉及大量会议/录音,这是刚需。
方向三:视频理解(45)
实用价值: ⭐⭐⭐ 学习成本: ⭐⭐⭐ 投入时间: 3-5 天 前置技能: ffmpeg 基础、Vision API适合:做视频内容、需要批量处理视频的程序员。
入门路径:
- 先搞定 ffmpeg 帧提取
- Vision API 帧描述
- LLM 摘要串联
- 第 45 篇代码直接可用
回报:以后技术视频不用全看,看 300 字摘要 + 时间轴就行。
推荐指数:⭐⭐⭐ —— 场景相对垂直。除非你本身做视频,否则优先级靠后。
方向四:代码执行与自动化(46-49)
实用价值: ⭐⭐⭐⭐⭐ 学习成本: ⭐⭐⭐⭐ 投入时间: 1-2 周 前置技能: Docker、Go、CI/CD适合:后端/全栈程序员。这个方向最「硬核」,但离你的日常工作最近。
入门路径:
- 第 46 篇 — Docker 沙箱执行环境(安全基础)
- 第 47 篇 — AI 爬虫(信息采集能力)
- 第 48 篇 — 自动测试生成(质量保障)
- 第 49 篇 — Code Review Agent(代码审查)
这四个可以串起来形成一个完整流程:
爬虫找技术方案 → Code Interpreter 验证 → 写完代码自动生成测试 → PR 提交自动审查回报:这可能是五个方向里 ROI 最高的——直接提升你的日常开发效率和代码质量。
推荐指数:⭐⭐⭐⭐⭐ —— 如果你只选一个方向深入,选这个。
方向五:整合能力(全模块)
实用价值: ⭐⭐⭐⭐⭐ 学习成本: ⭐⭐⭐⭐⭐ 投入时间: 1 个月+ 前置技能: 以上所有把所有方向串起来,搭一个全能 Agent:
语音输入需求 → Whisper 转录 → LLM 理解意图 → 如果需要写代码 → Code Interpreter 执行 → 如果需要查资料 → AI 爬虫采集 → 如果需要分析数据 → 自动写 Python 脚本 → 如果需要测试 → 自动生成并运行 → 整理成报告 → TTS 念给你听 + 生成封面图 + 推送到微信这是最终的「副业产线」形态。但不是你现在该做的事——先把单个方向吃透。
选型决策矩阵
我画一个简单的决策表,你对号入座:
| 你的角色 | 你的痛点 | 优先方向 |
|---|---|---|
| 后端开发 | CR 没人审,测试写不过来 | → 代码执行与自动化 |
| 全栈/前端 | 做内容缺封面,视频缺缩略图 | → 图片理解与生成 |
| 有管理职责 | 每天开 3+ 个会,纪要写到吐 | → 语音处理 |
| 做教程/B站 | 视频量大,没时间逐一看 | → 视频理解 |
| 独立开发者 | 什么都缺,时间最贵 | → 先 方向一(封面),再 方向四(自动化) |
我自己是怎么选的
我的顺序:
方向一(封面)→ 方向二(语音笔记)→ 方向四(自动化)→ 方向三(视频)理由:
- 封面最先。因为我每周一篇公众号文章,封面是高频刚需。解决完这个,每周立刻省 30 分钟。
- 语音笔记第二。因为我通勤路上有录音的习惯,积压了 80 多条。这个也是刚需。
- 自动化第三。因为 Code Review Agent 和自动测试能直接提升我的开源项目质量。这是长期价值最高的方向。
- 视频最后。因为我的视频产出频率不高,优先级靠后。
原则:先解决你当前最痛的,而不是最炫的。
模块五能力地图
┌──────────────────┐ │ 多模态 Agent │ │ (终极形态) │ └──────┬───────────┘ ┌─────────────┼─────────────┐ ┌─────┴─────┐ ┌─────┴─────┐ ┌─────┴─────┐ │ 输入层 │ │ 处理层 │ │ 输出层 │ └─────┬─────┘ └─────┬─────┘ └─────┬─────┘ ┌──────┼──────┐ │ ┌──────┼──────┐ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ ▼ ▼ ▼ 图片 语音 视频 LLM推理 图片 TTS 报告 (Vision)(Whisper)(ffmpeg) (API) (DALL-E)(Edge) (Markdown) 文章41 文章44 文章45 核心 文章42 文章44 文章47 文章42 引擎 文章43 文章49 文章43