当前位置：首页 > news >正文

AI 不听话？7 步排查清单，从「它又犯病了」到「我懂了」

news 2026/6/3 21:27:59

🦞 一只用 AI Agent 搭副业产线的程序员

每个用 AI 写代码的人都经历过：

明明让它返回 JSON，它非要加一段「好的！以下是结果：」
明明让它用 Go，它给你 Python
明明让它「不要编造」，它还是给你写了一个不存在的 API
同一个 Prompt，昨天好好的今天就不行了

然后你就陷入了无头调试——改一句试试、不行、再改一句、更差了、回退、又改……

这篇文章给你一套系统化的排查方法。当你觉得「AI 不听话」的时候，按这个清单一步步走。

先看一个典型翻车现场

User: "分析这段代码的性能问题，给出优化建议。" AI: "好的！我来帮你分析。首先这段代码整体来说写得不错， 但有几个小地方可以优化。在优化之前，我想先聊聊 Go 语言的 性能哲学……（继续啰嗦 300 字）"

你在屏幕前：「我没让你夸它啊！！！」

按以下 7 步排查：

第 1 步：检查温度（Temperature）

症状：输出很随机、不稳定、时好时坏

排查：

// 你的代码里是不是这样的？Temperature:0.8,// 太高了// 改成这样：Temperature:0.0,// 确定性任务

什么温度该用什么温度：

任务	推荐温度	原因
代码生成	0.0-0.2	你要的是正确，不是创意
数据提取	0.0-0.1	输出必须一致
翻译	0.1-0.3	保留一点语言的自然变化
文本润色	0.3-0.7	需要一些变化
脑暴	0.7-1.0	需要发散

我自己的经验：90% 的「AI 不听话」问题，温度调到 0.1 就解决了。

第 2 步：检查 System Prompt 是不是太长

症状：AI 遵守了前面的规则，但无视了后面的规则

排查：数字数。超过 300 字的 System Prompt，后半段规则的遵从度会明显下降。

// 烂：500 字的 System Prompt，定义 15 条规则system:=`你是 Go 后端开发专家。 规则 1：…… 规则 2：…… …… 规则 15：……`// 好：精简到 3-4 条最重要的规则system:=`你是 Go 后端开发专家。 1. 代码完整可编译，不确定的 API 直接说"不确定" 2. 所有错误使用 fmt.Errorf 包装，不要用 panic 3. 只输出代码，不要解释（除非被问到）`

如果确实有很多规则要定义，拆成多个 System Prompt，不同场景用不同的。

第 3 步：检查你的指令是否模糊

症状：AI 的输出「差不多」但不是你要的

排查：把 Prompt 里的形容词全删了，换成明确的约束。

❌ 模糊： "写一个健壮的错误处理" → AI 理解的「健壮」跟你不一样 ✅ 明确： "每个函数返回 (result, error)，调用方必须检查 error， 错误用 fmt.Errorf 包装原始错误，不要吞掉" ❌ 模糊： "输出要简洁" → AI 不知道「简洁」是多少字 ✅ 明确： "输出不超过 50 个字，用 3 个要点概括" ❌ 模糊： "代码写得优雅一点" → AI：？？？ ✅ 明确： "遵循 Go 官方代码规范，函数不超过 30 行， 公开函数使用 godoc 注释"

一条标准：把你的 Prompt 给一个实习生，他能不能准确执行？如果不能，AI 也不能。

第 4 步：检查输出约束是不是够强

症状：AI 在 JSON 外面套了「以下是结果：」之类的废话

排查：加上「收尾式约束指令」。

Prompt 的最后一句话权重最高。把这个位置留给最重要的约束：

❌ 弱约束（约束放在开头） "只输出 JSON，不要其他内容。 请分析以下代码的安全问题……" → 约束被后面的长文本稀释了 ✅ 强约束（约束收尾） "请分析以下代码的安全问题…… （分析要求） 只返回 JSON 数组，不要 Markdown 代码块包裹，不要任何解释文字。" → 约束在最后，AI 最后读到的是你的格式要求

第 5 步：加反面示例

症状：AI 老是犯同一个类型的错误

排查：在 Few-shot 示例里加一个「错误的示例」或「禁止事项」。

正确示例： 输入："今天天气真好" → 情感：正面 反面示例（禁止这样输出）： 输入："今天天气真好" → "我认为这句话表达了正面情感，因为……" ❌ 以上是错误示范——不要写原因，只输出情感标签。

AI 对「反面教材」特别敏感。一个坏的例子，比三条规则描述更有效。

第 6 步：检查多轮对话的上下文污染

症状：第一轮好好的，聊着聊着 AI 就「跑偏了」

排查：看看你是不是把之前 AI 的错误输出也留在了对话历史里。

// 危险的模式：所有历史都保留messages=append(messages,Message{Role:"assistant",Content:wrongOutput})// AI 看到自己的错误输出，可能会在后续延续错误模式// 安全的模式：裁剪对话历史messages=trimHistory(messages,10)// 只保留最近 10 轮// 或者：把 AI 的错误输出替换为正确输出

Agent 开发里最容易忽视的 Bug：AI 的错误输出污染了后续的上下文，导致每况愈下。

第 7 步：换模型

如果前 6 步都排查过了还是不行——换模型。

有些任务，某些模型就是天然不擅长。不是你 Prompt 的问题，是模型能力的边界：

任务	强项模型	弱项模型
长文档推理	Claude	DeepSeek V4 Flash
中文写作	通义千问	GPT-4o
代码生成	Claude / DeepSeek V4 Pro	小参数开源模型
创意写作	GPT-4o	开源模型
数学	Claude	DeepSeek V4 Flash

不要死磕一个模型。换模型有时候比你调 2 小时 Prompt 都管用。

7 步排查清单（打印版）

[ ] 1. Temperature 调对了吗？ 代码/提取 = 0.0-0.2 | 创意 = 0.7-1.0 [ ] 2. System Prompt 超过 300 字了吗？ 超过 → 精简到 3-4 条核心规则 [ ] 3. Prompt 里有模糊词吗？ 「简洁」「优雅」「健壮」 → 换成具体数字或示例 [ ] 4. 输出约束放在最后了吗？ 最后一句话 = 最重要的格式要求 [ ] 5. 给反面示例了吗？ 1 个坏例子 > 3 条规则 [ ] 6. 对话历史有污染吗？ 裁剪历史，去掉 AI 的错误输出 [ ] 7. 换过模型了吗？ 不要死磕，不同模型擅长不同任务