Qwen-Image-Agent: Bridging the Context Gap in Real-World Image Generation
作者:Zekai Zhang, Jiahao Li, Jie Zhang, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Shengming Yin, Tianhe Wu, Xiaoyue Chen, Xiao Xu, Yan Shu, Yanran Zhang, Yixian Xu, Yuxiang Chen, Zhendong Wang, Zihao Liu, Zikai Zhou, Huishuai Zhang, Dongyan Zhao, Chenfei Wu
核心发表机构:论文源码未明确标注或暂未可靠识别
论文链接:arXiv:2606.26907v2
发布于:arXiv 预印本(cs.CV)
|:—😐:—😐:—😐:—😐:—😐
| 完整模型 |45.3|43.7|46.1|49.0|45.4|
| w/o Reason 上下文 | ↓ 24.7 | ↓ 29.7 | 46.1 | 49.0 | ↓ 35.1 |
| w/o Search 上下文 | 46.0 | 44.3 |↓ 7.8| 49.0 | ↓ 34.3 |
| w/o Memory 上下文 | 45.3 | 43.7 | 46.1 |↓ 0.0| ↓ 40.5 |
| w/o Feedback 上下文 | 40.0 | 41.3 | 42.8 | 49.0 | ↓ 42.1 |
| 替换 MLLM 骨干 | ↓ 24.7 | 41.7 |↓ 19.4|↓ 21.0| ↓ 27.8 |
| 替换生成骨干 | ↓ 19.3 | ↓ 30.7 | ↓ 31.1 | ↓ 40.0 | ↓ 28.3 |
核心发现:每个接地上下文模块(推理、搜索、记忆、反馈)对相应能力维度都是不可或缺的。移除推理上下文不仅大幅降低 Reason 分值,也损害了 Plan 能力(因为枚举等隐含需求需要通过推理来解决)。移除搜索上下文使 Search 能力几乎归零(7.8 vs 46.1)。移除记忆上下文使 Memory 能力完全消失(0.0),验证了 IA-Bench 维度设计的有效性。移除反馈上下文的影响相对较小(IA-score 从 45.4 降至 42.1),这是因为基础生成器本身能力较强,但反馈仍能在某些边缘情况下提供改进。替换 MLLM 骨干(如换为 Qwen 系列)导致整体性能大幅下降(IA-score 降至 27.8),说明 MLLM 的通用智能(布局规划、关键词生成、信息集成)是系统瓶颈。替换生成骨干同样严重损害各维度(IA-score 降至 28.3),表明底层渲染能力(计数、视觉推理、风格匹配)至关重要。
五、相关工作 / Related Work
现有图像生成研究主要沿以下几个方向推进,但大多仅覆盖部分智能体能力,缺乏统一视角。
- 基于规划的方法(如 PhotoAgent)能将复杂意图分解为中间步骤,但未系统处理上下文获取。
- 基于推理的方法(如 MindBrushIA)能处理隐含意图,但未集成搜索或记忆。
- 基于搜索的方法(如 GenSearcher、AgentB、ImAgent)整合了网页或图像搜索,但忽略了规划与记忆。
- 基于记忆的方法(如 GEMSAM)支持长程交互,但缺乏推理与反馈。
- 基于反馈的方法(如 GenAgent、ImAgent)通过测试时缩放改进生成,但未纳入规划与记忆。
Qwen-Image-Agent 的独特性在于将plan、reason、memory、search、feedback五种能力统一在一个以上下文为中心的框架中,从识别上下文差距出发,系统性地构建生成上下文。此外,大多数现有基准(如 GenEval、DPGBench、WISE、MindBench)仅评估渲染能力或单一智能体能力,而 IA-Bench 同时覆盖规划、推理、搜索、记忆四个维度,提供了更全面的评估工具。
六、局限性与展望 / Limitations & Future Work
尽管 Qwen-Image-Agent 取得了显著成果,但仍存在以下局限和改进方向:
未识别的上下文差距:规划模块依赖 MLLM 识别缺失上下文。当差距过于隐晦(例如需要从特定日期和地点推断历史事件)时,MLLM 可能无法准确识别。瓶颈在于 MLLM 的领域知识广度与推理深度。未来可结合更强大的 MLLM 或专用知识图谱。
推理与搜索的模糊边界:实践中某些事实既可通过参数知识(推理)解决,也可通过外部检索(搜索)解决。当前策略将常识归为推理、精确事实(数字、日期)和动态事实(随时间变化)归为搜索。该划分虽有助于解耦,但可能不适用于所有场景。未来可引入自适应决策机制,根据置信度在推理和搜索间动态选择。
过度图像搜索引入视觉偏差:过量的图像搜索会引入不相关的视觉参考,反而降低生成质量。这主要是因为编辑模型不如直接生成模型鲁棒。当前策略仅在明确需要 IP 参考时调用图像搜索,并限制结果数量。未来可借助生成式评估器判断参考图像的相关性,并动态调整搜索阈值。
多轮生成中的上下文爆炸:多轮交互中,图像 token(用户提供、历史生成、搜索得到)迅速增长,可能超出 token 限制。当前基于相关性进行上下文选择(而非保留所有历史),但选择策略的鲁棒性有待提升。未来可开发更高效的历史压缩或摘要方法。
弱反馈监督:当前反馈仅作为生成后的后验批评,依赖 VLM 泛化反馈信号,提升有限。未来可扩展反馈以监督上下文识别和接地阶段(即检查规划是否正确、搜索是否充分),或引入明确的任务特定监督(如预定义指标、学习奖励模型)。
高延迟与成本:完整智能体流程引入了更高的计算延迟和 API 成本。尽管可通过 DAG 执行实现部分并行化,但整体成本仍需优化。未来可探索轻量级规划器或蒸馏版模型。
七、总结 / Conclusion
本文识别了真实世界图像生成中的核心挑战——上下文差距,即用户提供的部分上下文与 T2I 模型所需的充分生成上下文之间的不匹配。为弥合这一差距,我们提出了Qwen-Image-Agent,一个统一的智能体框架,通过上下文感知规划和上下文接地,有机整合了规划、推理、搜索、记忆和反馈五种能力,渐进式地构建完整的生成上下文。该框架是训练无关的,兼容现有生成器,并支持多图像与多轮交互。同时,我们构建了IA-Bench基准,从规划、推理、搜索、记忆四个维度全面评估智能体图像生成能力。在 IA-Bench、WISE-Verified 和 MindBench 上,Qwen-Image-Agent 均取得了最先进的性能,消融实验验证了各关键模块的有效性。这项工作标志着从直接图像生成向智能体图像生成的必要转变,为未来更智能、更适应真实世界需求的图像生成系统提供了统一的理论视角和实用的实现框架。
原文摘要:While text-to-image (T2I) models have achieved remarkable progress, they struggle with real-world requests that are often underspecified, implicit, or dependent on up-to-date knowledge. We identify this challenge as the Context Gap: the mismatch between the user context and the sufficient generation context for T2I models. To bridge this gap, we propose Qwen-Image-Agent, a unified agentic framework that integrates plan, reason, search, memory and feedback in a context-centric manner. Qwen-Image-Agent treats user input as partial context and progressively constructs the generation context through Context-Aware Planning and Context Grounding. Specifically, Context-Aware Planning identifies missing context and plans how it should be acquired and used, while Context Grounding gathers this context from reason, search, memory, and feedback. To evaluate agentic image generation, we further introduce Image Agent Bench (IA-Bench), a benchmark covering four core image agent capabilities: Plan, Reason, Search, and Memory. Experiments on IA-Bench, Mindbench and WISE-Verified show that Qwen-Image-Agent outperforms strong baselines and achieves state-of-the-art performance.
PDF链接:https://arxiv.org/pdf/2606.26907v2