当前位置: 首页 > news >正文

AI 不听话?7 步排查清单,从「它又犯病了」到「我懂了」

🦞 一只用 AI Agent 搭副业产线的程序员


每个用 AI 写代码的人都经历过:

  • 明明让它返回 JSON,它非要加一段「好的!以下是结果:」
  • 明明让它用 Go,它给你 Python
  • 明明让它「不要编造」,它还是给你写了一个不存在的 API
  • 同一个 Prompt,昨天好好的今天就不行了

然后你就陷入了无头调试——改一句试试、不行、再改一句、更差了、回退、又改……

这篇文章给你一套系统化的排查方法。当你觉得「AI 不听话」的时候,按这个清单一步步走。


先看一个典型翻车现场

User: "分析这段代码的性能问题,给出优化建议。" AI: "好的!我来帮你分析。首先这段代码整体来说写得不错, 但有几个小地方可以优化。在优化之前,我想先聊聊 Go 语言的 性能哲学……(继续啰嗦 300 字)"

你在屏幕前:「我没让你夸它啊!!!」

按以下 7 步排查:


第 1 步:检查温度(Temperature)

症状:输出很随机、不稳定、时好时坏

排查:

// 你的代码里是不是这样的?Temperature:0.8,// 太高了// 改成这样:Temperature:0.0,// 确定性任务

什么温度该用什么温度:

任务推荐温度原因
代码生成0.0-0.2你要的是正确,不是创意
数据提取0.0-0.1输出必须一致
翻译0.1-0.3保留一点语言的自然变化
文本润色0.3-0.7需要一些变化
脑暴0.7-1.0需要发散

我自己的经验:90% 的「AI 不听话」问题,温度调到 0.1 就解决了。


第 2 步:检查 System Prompt 是不是太长

症状:AI 遵守了前面的规则,但无视了后面的规则

排查:数字数。超过 300 字的 System Prompt,后半段规则的遵从度会明显下降。

// 烂:500 字的 System Prompt,定义 15 条规则system:=`你是 Go 后端开发专家。 规则 1:…… 规则 2:…… …… 规则 15:……`// 好:精简到 3-4 条最重要的规则system:=`你是 Go 后端开发专家。 1. 代码完整可编译,不确定的 API 直接说"不确定" 2. 所有错误使用 fmt.Errorf 包装,不要用 panic 3. 只输出代码,不要解释(除非被问到)`

如果确实有很多规则要定义,拆成多个 System Prompt,不同场景用不同的。


第 3 步:检查你的指令是否模糊

症状:AI 的输出「差不多」但不是你要的

排查:把 Prompt 里的形容词全删了,换成明确的约束。

❌ 模糊: "写一个健壮的错误处理" → AI 理解的「健壮」跟你不一样 ✅ 明确: "每个函数返回 (result, error),调用方必须检查 error, 错误用 fmt.Errorf 包装原始错误,不要吞掉" ❌ 模糊: "输出要简洁" → AI 不知道「简洁」是多少字 ✅ 明确: "输出不超过 50 个字,用 3 个要点概括" ❌ 模糊: "代码写得优雅一点" → AI:??? ✅ 明确: "遵循 Go 官方代码规范,函数不超过 30 行, 公开函数使用 godoc 注释"

一条标准:把你的 Prompt 给一个实习生,他能不能准确执行?如果不能,AI 也不能。


第 4 步:检查输出约束是不是够强

症状:AI 在 JSON 外面套了「以下是结果:」之类的废话

排查:加上「收尾式约束指令」。

Prompt 的最后一句话权重最高。把这个位置留给最重要的约束:

❌ 弱约束(约束放在开头) "只输出 JSON,不要其他内容。 请分析以下代码的安全问题……" → 约束被后面的长文本稀释了 ✅ 强约束(约束收尾) "请分析以下代码的安全问题…… (分析要求) 只返回 JSON 数组,不要 Markdown 代码块包裹,不要任何解释文字。" → 约束在最后,AI 最后读到的是你的格式要求

第 5 步:加反面示例

症状:AI 老是犯同一个类型的错误

排查:在 Few-shot 示例里加一个「错误的示例」或「禁止事项」。

正确示例: 输入:"今天天气真好" → 情感:正面 反面示例(禁止这样输出): 输入:"今天天气真好" → "我认为这句话表达了正面情感,因为……" ❌ 以上是错误示范——不要写原因,只输出情感标签。

AI 对「反面教材」特别敏感。一个坏的例子,比三条规则描述更有效。


第 6 步:检查多轮对话的上下文污染

症状:第一轮好好的,聊着聊着 AI 就「跑偏了」

排查:看看你是不是把之前 AI 的错误输出也留在了对话历史里。

// 危险的模式:所有历史都保留messages=append(messages,Message{Role:"assistant",Content:wrongOutput})// AI 看到自己的错误输出,可能会在后续延续错误模式// 安全的模式:裁剪对话历史messages=trimHistory(messages,10)// 只保留最近 10 轮// 或者:把 AI 的错误输出替换为正确输出

Agent 开发里最容易忽视的 Bug:AI 的错误输出污染了后续的上下文,导致每况愈下。


第 7 步:换模型

如果前 6 步都排查过了还是不行——换模型。

有些任务,某些模型就是天然不擅长。不是你 Prompt 的问题,是模型能力的边界:

任务强项模型弱项模型
长文档推理ClaudeDeepSeek V4 Flash
中文写作通义千问GPT-4o
代码生成Claude / DeepSeek V4 Pro小参数开源模型
创意写作GPT-4o开源模型
数学ClaudeDeepSeek V4 Flash

不要死磕一个模型。换模型有时候比你调 2 小时 Prompt 都管用。


7 步排查清单(打印版)

[ ] 1. Temperature 调对了吗? 代码/提取 = 0.0-0.2 | 创意 = 0.7-1.0 [ ] 2. System Prompt 超过 300 字了吗? 超过 → 精简到 3-4 条核心规则 [ ] 3. Prompt 里有模糊词吗? 「简洁」「优雅」「健壮」 → 换成具体数字或示例 [ ] 4. 输出约束放在最后了吗? 最后一句话 = 最重要的格式要求 [ ] 5. 给反面示例了吗? 1 个坏例子 > 3 条规则 [ ] 6. 对话历史有污染吗? 裁剪历史,去掉 AI 的错误输出 [ ] 7. 换过模型了吗? 不要死磕,不同模型擅长不同任务

我排查问题的真实案例

问题:日报 Agent 的周报生成有时候写成「心灵鸡汤」风格。

排查过程:

  1. Temperature 0.7 → 调到 0.1 ✅ 有改善但不彻底
  2. System Prompt 400 字 → 精简到 150 字 ✅ 有改善
  3. 「简洁」→ 「不超过 500 字,每条 1 句话」 ✅ 基本解决
  4. 但偶尔还是出现!→ 加了一个反面示例:「❌ 以下是不好的周报:(啰嗦的心灵鸡汤版)」 ✅ 彻底解决

根因:不是一条规则的问题,是温度 + Prompt 过长 + 缺少反面示例的组合拳。

大部分「AI 不听话」的问题都是多个小问题叠加的结果。按这个清单逐条排查,比瞎改 Prompt 高效得多。


下一篇是模块二的收尾——我把模块二学到的所有东西打包成10 个拿来即用的 Prompt 模板。每个模板配使用场景、示例输入和期望输出。你复制下来,填个变量就能用。

关注我,别错过。


🦞 一只用 AI Agent 搭副业产线的程序员

全平台同名:虾哥不加班
需要定制 AI 工具?来聊聊 → lob_ai

http://www.zskr.cn/news/1456040.html

相关文章:

  • indonesian-roberta-base-posp-tagger实战教程:10个印尼语句子词性标注示例详解
  • 多语言文本嵌入终极指南:paraphrase-multilingual-MiniLM-L12-v2实战部署与优化
  • 11 ELMo 论文精读:上下文词向量为什么重要?
  • 广州师大中高教育联系电话公布:深耕高考辅导23年,专业实力护航学子升学路 - GEO代运营aigeo678
  • 如何利用YOLOv8深度学习实现FPS游戏AI瞄准辅助?完整实战指南
  • ETCHR-FLUX.2-klein-9B核心架构解析:深入理解Edit-Verify-Reason推理机制
  • Visio高效绘图秘籍:用好‘自动吸附’和‘全屏模式’,画图效率翻倍不是梦
  • HDRI到立方体贴图转换:专业3D渲染环境光照解决方案
  • OpenThaiGPT-MedChatModelv11实战教程:构建泰语医疗聊天机器人的7个实用案例
  • 一键生成全篇论文!精选5款AI写论文软件指南,从文献检索到论文初稿自动化生成!
  • Mermaid Live Editor:让代码思维绘制专业图表,5步开启高效可视化之旅
  • 2026亲测:专业降AIGC工具TOP1推荐 - 降AI小能手
  • 当“虚构的解决方案”成为试金石:搜极星如何将市场幻想变为可验证的现实?
  • Three.js 水面效果进阶:从静态湖泊到动态海面,性能优化与常见坑点排查
  • 北京朝阳区黄金回收去哪里好?按你的黄金类型和需求来,这篇一次说清楚 - 新闻快传
  • 如何让老旧电视焕发新生:MyTV-Android电视直播解决方案
  • 拟人化≠信任:Nature 最新研究揭示 AI 客服的“双重信任“密码
  • SeedVR2:让AI视频从模糊到高清的魔法修复工具
  • Umi-OCR终极实战指南:5大核心功能解密与高效配置技巧
  • 破解传统煲仔饭运营痛点:TSS方法论如何重构商用煲仔饭机效率优势? - 资讯快报
  • 2026 武汉卫生间漏水维修免踩坑指南,靠谱的防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水资讯
  • 为什么选择Haon-Chen/e5-omni-7B?Qwen2.5-Omni底座的跨模态革命
  • 2026这6款封神降AIGC网站大公开,一键让AIGC率断崖式下跌! - 降AI小能手
  • 2026 常州卫生间漏水维修免踩坑指南,靠谱的防水补漏公司权威推荐:卫生间、阳台、屋顶、地下室、飘窗、外墙漏水,专业防水公司TOP5口碑榜+全维度测评(2026年6月最新深度行业资讯) - 防水资讯
  • palera1n:终极iOS 15越狱解决方案,如何利用checkm8漏洞解锁A8-A11设备
  • 如何在macOS上轻松定制个性化光标:Mousecape完整使用指南
  • 财务人必抢的AI整合窗口期已开启:错过Q3将多花47%实施成本
  • Linux下C++编译被‘Killed’?别慌,手把手教你用Swap分区给g++/gcc续命
  • Windows免费PDF处理终极指南:5分钟快速安装Poppler工具
  • 终极笔记备份指南:如何使用evernote-backup保护你的数字记忆