1. 本章主线
第 2 章从“为什么要用 AI 科研绘图”转向“怎么用工具真正开始画”。
本章核心可以概括为一句话:
AI 生成模型只负责核心生成,真正可用的科研图需要前处理、生成提示词、后处理和人工校对共同完成。
我需要记住:科研绘图不是单纯让 AI 生成一张好看的图片,而是要让图像的结构、箭头、标签、逻辑关系和论文内容保持一致。
2. Nano-Banana Pro 的接入方式
Nano-Banana Pro 在 Google 官方体系中对应的模型名称是:
gemini-3-pro-image-preview它有多种接入方式,不是只有 Gemini 网页端一种。
| 接入方式 | 优点 | 缺点 | 适合人群 |
|---|---|---|---|
| 官方 API | 更新及时、规则清晰、适合批量生成 | 需要编程和 Google Cloud 计费账户 | 想把绘图接入科研工作流的人 |
| Google AI Studio | 不写代码也能调参数 | 仍然依赖 API 和计费账户 | 想调试提示词和参数的人 |
| Gemini 网页端 | 上手最简单,对话即可生成 | 参数控制弱,受订阅额度限制 | 想快速体验的人 |
| 第三方平台 | 开箱即用,门槛低 | 黑盒调用,参数不可见 | 只想快速生成简单素材的人 |
| 第三方中转 API | 代码形式接近官方,可能更便宜 | 稳定性和隐私风险更高 | 有批量需求但数据不敏感的人 |
如果只是学习和体验,可以从 Gemini 网页端开始;如果要认真做科研工作流,官方 API 更可靠;如果涉及未发表研究内容,要谨慎使用第三方中转 API。
3. Qwen-image-2.0 的作用
Qwen-image-2.0 是一个适合国内科研人员使用的补充选择。
它的优势是:
- 中文语义理解更友好;
- 国内访问更稳定;
- 适合快速验证中文科研绘图想法;
- 可以作为 Nano-Banana Pro 的平替或辅助。
但本章的方法论并不绑定某一个模型。核心方法是通用的:
只要把结构、布局、颜色、可见文字和科学边界描述清楚,不同绘图模型都可以使用类似思路。
4. 文生图:像写伪代码一样写提示词
文生图就是只靠文字生成图像。
科研绘图里不能只写:
画一个神经网络。这种写法太宽泛,容易让 AI 自由发挥,生成一张看起来科技感很强但结构不严谨的图。
更好的写法是像写伪代码一样,把提示词拆成模块:
Visual Style: - CVPR / NeurIPS academic schematic - 2D flat vector - clean and minimal Layout: - left: input layer - middle: processing layer - right: output layer Components: - input tokens - linear projection - attention core - output head Connections: - arrows from input to projection - arrows from projection to attention - arrows from attention to output Color Scheme: - input: #E0E0E0 - attention: #D1C4E9 - output: #FFF59D关键词
- 整体风格:图像看起来像哪类论文或会议的图。
- 空间布局:画面从左到右、从上到下如何分区。
- 拓扑关系:模块之间怎么连接,箭头从哪里指向哪里。
- 参数化控色:用 HEX 色值精确控制颜色。
文生图的关键不是“写得文学化”,而是“写得结构化”。提示词越像规格说明书,AI 越不容易乱画。
5. 参数化控色
科研图不适合使用过于鲜艳、塑料感很强的颜色。
建议在提示词里直接指定 HEX 色值,例如:
Primary Color: Azure Blue #E1F5FE Attention core: Pastel Purple #D1C4E9 Concat layer: Pastel Yellow #FFF59D这样做的好处是:
- 颜色更稳定;
- 风格更接近期刊插图;
- 多张图之间更容易保持一致;
- 减少 AI 自己选择高饱和颜色的概率。
6. 图生图:草图即骨架
图生图就是上传一张参考图,让 AI 在参考图基础上生成新图。
科研绘图中,草图最重要的作用不是美观,而是提供结构骨架。
草图可以来自:
- 手绘草图;
- PPT 里的方框和箭头;
- Excalidraw;
- draw.io;
- 纸笔快速画出的结构图。
只要草图表达清楚:
- 谁在左边,谁在右边;
- 哪些模块相邻;
- 箭头从哪里指向哪里;
- 哪些组件不能丢;
AI 就可以在不改变结构的前提下,美化线条、配色和风格。
7. 科研绘图工具链
完整科研绘图流程可以分成三个阶段。
7.1 生成前:前处理
目标是让 AI 生成前就明确结构和风格。
常用工具:
- 草图工具:PPT、画图、Excalidraw、draw.io、纸笔;
- 配色提取工具:从高质量论文图中提取 HEX 色值。
7.2 生成中:AI 绘图模型
可以使用:
- Nano-Banana Pro;
- Nano Banana 2;
- Qwen-image-2.0;
- GPT Image 2;
- 其他图像生成模型。
7.3 生成后:后处理
AI 生成图一般不能直接作为论文终稿,需要进一步处理:
- 去水印;
- 高清放大;
- 矢量化;
- Figma / Illustrator / Visio 人工调整;
- 必要时用 Matplotlib 代码重绘。
核心目标是:
让 AI 生成结果从“好看的图片”变成“可编辑、可校对、可用于科研表达的图”。
8. Happy Figure Skill
这个 Skill 的作用不是直接生成图片,而是:
根据论文、摘要、方法、图注、研究方案等内容,生成可以复制给 AI 绘图模型的科研绘图 prompt。
它更像是:
科研内容 → Figure Brief → 图类型判断 → 模型适配 → 最终绘图 prompt