lesson2_AI绘图核心技法与工具链

lesson2_AI绘图核心技法与工具链

1. 本章主线

第 2 章从“为什么要用 AI 科研绘图”转向“怎么用工具真正开始画”。

本章核心可以概括为一句话:

AI 生成模型只负责核心生成,真正可用的科研图需要前处理、生成提示词、后处理和人工校对共同完成。

我需要记住:科研绘图不是单纯让 AI 生成一张好看的图片,而是要让图像的结构、箭头、标签、逻辑关系和论文内容保持一致。


2. Nano-Banana Pro 的接入方式

Nano-Banana Pro 在 Google 官方体系中对应的模型名称是:

gemini-3-pro-image-preview

它有多种接入方式,不是只有 Gemini 网页端一种。

接入方式优点缺点适合人群
官方 API更新及时、规则清晰、适合批量生成需要编程和 Google Cloud 计费账户想把绘图接入科研工作流的人
Google AI Studio不写代码也能调参数仍然依赖 API 和计费账户想调试提示词和参数的人
Gemini 网页端上手最简单,对话即可生成参数控制弱,受订阅额度限制想快速体验的人
第三方平台开箱即用,门槛低黑盒调用,参数不可见只想快速生成简单素材的人
第三方中转 API代码形式接近官方,可能更便宜稳定性和隐私风险更高有批量需求但数据不敏感的人

如果只是学习和体验,可以从 Gemini 网页端开始;如果要认真做科研工作流,官方 API 更可靠;如果涉及未发表研究内容,要谨慎使用第三方中转 API。


3. Qwen-image-2.0 的作用

Qwen-image-2.0 是一个适合国内科研人员使用的补充选择。

它的优势是:

  • 中文语义理解更友好;
  • 国内访问更稳定;
  • 适合快速验证中文科研绘图想法;
  • 可以作为 Nano-Banana Pro 的平替或辅助。

但本章的方法论并不绑定某一个模型。核心方法是通用的:

只要把结构、布局、颜色、可见文字和科学边界描述清楚,不同绘图模型都可以使用类似思路。


4. 文生图:像写伪代码一样写提示词

文生图就是只靠文字生成图像。

科研绘图里不能只写:

画一个神经网络。

这种写法太宽泛,容易让 AI 自由发挥,生成一张看起来科技感很强但结构不严谨的图。

更好的写法是像写伪代码一样,把提示词拆成模块:

Visual Style: - CVPR / NeurIPS academic schematic - 2D flat vector - clean and minimal Layout: - left: input layer - middle: processing layer - right: output layer Components: - input tokens - linear projection - attention core - output head Connections: - arrows from input to projection - arrows from projection to attention - arrows from attention to output Color Scheme: - input: #E0E0E0 - attention: #D1C4E9 - output: #FFF59D

关键词

  • 整体风格:图像看起来像哪类论文或会议的图。
  • 空间布局:画面从左到右、从上到下如何分区。
  • 拓扑关系:模块之间怎么连接,箭头从哪里指向哪里。
  • 参数化控色:用 HEX 色值精确控制颜色。

文生图的关键不是“写得文学化”,而是“写得结构化”。提示词越像规格说明书,AI 越不容易乱画。


5. 参数化控色

科研图不适合使用过于鲜艳、塑料感很强的颜色。

建议在提示词里直接指定 HEX 色值,例如:

Primary Color: Azure Blue #E1F5FE Attention core: Pastel Purple #D1C4E9 Concat layer: Pastel Yellow #FFF59D

这样做的好处是:

  • 颜色更稳定;
  • 风格更接近期刊插图;
  • 多张图之间更容易保持一致;
  • 减少 AI 自己选择高饱和颜色的概率。

6. 图生图:草图即骨架

图生图就是上传一张参考图,让 AI 在参考图基础上生成新图。

科研绘图中,草图最重要的作用不是美观,而是提供结构骨架。

草图可以来自:

  • 手绘草图;
  • PPT 里的方框和箭头;
  • Excalidraw;
  • draw.io;
  • 纸笔快速画出的结构图。

只要草图表达清楚:

  • 谁在左边,谁在右边;
  • 哪些模块相邻;
  • 箭头从哪里指向哪里;
  • 哪些组件不能丢;

AI 就可以在不改变结构的前提下,美化线条、配色和风格。


7. 科研绘图工具链

完整科研绘图流程可以分成三个阶段。

7.1 生成前:前处理

目标是让 AI 生成前就明确结构和风格。

常用工具:

  • 草图工具:PPT、画图、Excalidraw、draw.io、纸笔;
  • 配色提取工具:从高质量论文图中提取 HEX 色值。

7.2 生成中:AI 绘图模型

可以使用:

  • Nano-Banana Pro;
  • Nano Banana 2;
  • Qwen-image-2.0;
  • GPT Image 2;
  • 其他图像生成模型。

7.3 生成后:后处理

AI 生成图一般不能直接作为论文终稿,需要进一步处理:

  • 去水印;
  • 高清放大;
  • 矢量化;
  • Figma / Illustrator / Visio 人工调整;
  • 必要时用 Matplotlib 代码重绘。

核心目标是:

让 AI 生成结果从“好看的图片”变成“可编辑、可校对、可用于科研表达的图”。


8. Happy Figure Skill

这个 Skill 的作用不是直接生成图片,而是:

根据论文、摘要、方法、图注、研究方案等内容,生成可以复制给 AI 绘图模型的科研绘图 prompt。

它更像是:

科研内容 → Figure Brief → 图类型判断 → 模型适配 → 最终绘图 prompt

9. 生图

GPT-5.5

glm-5v-turbo