当前位置: 首页 > news >正文

ERNIE-Image核心功能详解:文本渲染、指令跟随与结构化图像生成

ERNIE-Image核心功能详解:文本渲染、指令跟随与结构化图像生成

【免费下载链接】ERNIE-ImageERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本到图像生成模型。它基于单流扩散 Transformer(DiT)构建,并配备了轻量级的提示增强器,可将用户的简短输入扩展为更丰富的结构化描述。凭借仅 80 亿的 DiT 参数,它在开源文本到图像模型中达到了最先进的性能。该模型的设计不仅追求强大的视觉质量,还注重实际生成场景中的可控性,在这些场景中,准确的内容呈现与美观同等重要。特别是,ERNIE-Image 在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,使其非常适合商业海报、漫画、多格布局以及其他需要兼具视觉质量和精确控制的内容创作任务。它还支持广泛的视觉风格,包括写实摄影、设计导向图像以及更多风格化的美学输出。项目地址: https://ai.gitcode.com/paddlepaddle/ERNIE-Image

ERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本到图像生成模型,基于单流扩散 Transformer(DiT)构建,配备轻量级提示增强器,能将简短输入扩展为丰富结构化描述。仅 80 亿 DiT 参数的它,在开源文本到图像模型中性能领先,兼顾视觉质量与实际生成场景的可控性,尤其在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适合商业海报、漫画等创作任务,还支持写实摄影、设计导向图像等多种视觉风格。

🚀 ERNIE-Image 三大核心功能亮点

1. 卓越文本渲染:清晰呈现密集与长文本内容

ERNIE-Image 在文本渲染方面表现突出,能出色处理密集、长形式及布局敏感的文本。无论是制作海报、信息图表,还是类似 UI 的图像等文本密集型视觉内容,它都能让文本清晰可读,满足对文本呈现质量有高要求的场景。

2. 精准指令跟随:可靠理解复杂提示

该模型能可靠地遵循涉及多个对象、详细关系和知识密集型描述的复杂提示。面对用户给出的包含丰富信息和特定要求的指令,ERNIE-Image 能准确把握并生成符合预期的图像,展现出强大的指令理解与执行能力。

3. 高效结构化生成:满足布局关键任务需求

ERNIE-Image 特别适用于海报、漫画、故事板和多面板构图等结构化视觉任务。在这些对布局和组织要求极高的场景中,它能高效生成符合结构规范的图像,为相关创作提供有力支持。

💡 为何选择 ERNIE-Image?

紧凑但强大

尽管规模仅为 80 亿参数,ERNIE-Image 在一系列基准测试中仍与规模大得多的开源模型具有很强的竞争力,展现出小参数大能力的优势。

广泛风格覆盖

除了清晰可读的设计导向输出,该模型还支持写实摄影和独特的风格化美学,包括更柔和、更具电影感的视觉色调,满足不同用户对图像风格的多样化需求。

实用部署性

得益于紧凑的尺寸,ERNIE-Image 可在具有 24G VRAM 的消费级 GPU 上运行,降低了研究、下游使用和模型适配的门槛,让更多用户能够便捷地使用该模型。

📊 模型性能基准测试

GENEval 测试表现

在 GENEval 测试中,ERNIE-Image 在多个指标上表现优异。如 ERNIE-Image (w/o PE) 在 Single Object 和 Attribute Binding 指标上分别达到 1.0000 和 0.7925,Overall 指标为 0.8856,显示出其在对象生成和属性绑定等方面的强大能力。

OneIG-EN 与 OneIG-ZH 测试结果

在 OneIG-EN 测试里,ERNIE-Image (w/ PE) 的 Overall 指标为 0.5750;OneIG-ZH 测试中,其 Overall 指标达 0.5543,表明模型在中英文不同场景下都有较好的综合表现,能满足不同语言用户的需求。

LongTextBench 测试情况

LongTextBench 测试中,ERNIE-Image (w/ PE) 在 LongText-Bench-EN 和 LongText-Bench-ZH 指标上分别为 0.9804 和 0.9661,Avg 为 0.9733,充分体现了其处理长文本的出色能力。

🚀 快速开始使用 ERNIE-Image

推荐参数设置

  • 分辨率:1024x1024、848x1264、1264x848、768x1376、896x1200、1376x768、1200x896
  • Guidance scale:4.0
  • Inference steps:50

通过 Diffusers 使用

首先安装 Diffusers:pip install git+https://github.com/huggingface/diffusers

然后运行以下 Python 代码:

import torch from diffusers import ErnieImagePipeline pipe = ErnieImagePipeline.from_pretrained( "Baidu/ERNIE-Image", torch_dtype=torch.bfloat16, ).to("cuda") image = pipe( prompt="This is a photograph depicting an urban street scene...", # 此处省略具体提示词内容 height=1264, width=848, num_inference_steps=50, guidance_scale=4.0, use_pe=True # 使用提示增强器 ).images[0] image.save("output.png")

通过 SGLang 使用

先安装最新版本的 SGLang:

git clone https://github.com/sgl-project/sglang.git

启动服务器:

sglang serve --model-path baidu/ERNIE-Image

发送生成请求:

curl -X POST http://localhost:30000/v1/images/generations \ -H "Content-Type: application/json" \ -d '{ "prompt": "This is a photograph depicting an urban street scene...", # 此处省略具体提示词内容 "height": 1264, "width": 848, "num_inference_steps": 50, "guidance_scale": 4.0, "use_pe": true }' \ --output output.png

🔍 探索更多资源

  • 项目仓库:可通过git clone https://gitcode.com/paddlepaddle/ERNIE-Image获取项目代码
  • 相关版本:ERNIE-Image(SFT 模型,通常在 50 个推理步骤中提供更强的通用能力和指令保真度)、ERNIE-Image-Turbo(Turbo 模型,通过 DMD 和 RL 优化,仅需 8 个推理步骤即可实现更快的速度和更高的美观度)

【免费下载链接】ERNIE-ImageERNIE-Image 是由百度 ERNIE-Image 团队开发的开源文本到图像生成模型。它基于单流扩散 Transformer(DiT)构建,并配备了轻量级的提示增强器,可将用户的简短输入扩展为更丰富的结构化描述。凭借仅 80 亿的 DiT 参数,它在开源文本到图像模型中达到了最先进的性能。该模型的设计不仅追求强大的视觉质量,还注重实际生成场景中的可控性,在这些场景中,准确的内容呈现与美观同等重要。特别是,ERNIE-Image 在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,使其非常适合商业海报、漫画、多格布局以及其他需要兼具视觉质量和精确控制的内容创作任务。它还支持广泛的视觉风格,包括写实摄影、设计导向图像以及更多风格化的美学输出。项目地址: https://ai.gitcode.com/paddlepaddle/ERNIE-Image

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.zskr.cn/news/1441962.html

相关文章:

  • 基于树莓派与OpenCV的嵌入式数独求解机器人全流程实现
  • 如何用CogVideoX-5B生成电影级视频?5个提示词优化技巧大公开
  • 2026 南京名包回收推荐,添价收打造靠谱变现实用指南 - 薛定谔的梨花猫
  • 金融时序的语言化革命:Kronos如何用Transformer重塑市场预测范式
  • 基于Arduino与红外遥控的智能声效板设计与实现
  • 2026年宁波拉链批发现货供应商实测分析:YKK、SBS、SAB、YCC多品牌一站整合,谁能真正扛住急单与定制压力? - 企业名录优选推荐
  • 深圳净水器租赁服务选型需求到落地解析 - 奔跑123
  • 2026年电动窗帘十大品牌排行,专业服务谁最好? - 速递信息
  • BioMedKG药物-蛋白质相互作用预测:从原理到应用
  • 上海商业地产服务市场观察:企业选址服务商综合推荐 - 资讯速览
  • blibili视频怎么下载全端官方途径与第三方合规下载完整实操指南
  • 英雄联盟Akari助手:3分钟上手的终极游戏辅助工具包
  • 如何高效实现Mac Boot Camp驱动自动化部署:Brigadier方案解析
  • 2026年云南出国留学哪家靠谱:五家优选品牌深度解析 - 科技焦点
  • 3个核心价值点:为什么PPTist是在线演示文稿编辑的未来
  • 电动钢卷吊具全国优质企业实地盘点:四大区域核心厂家推荐与选型参考 - 深度智识库
  • 【2026收藏必看】人人标配AI Agent!个人+团队智能协作新模式全解析
  • 2026年南通短视频拍摄与AI全网推GEO服务商深度横评:实体企业同城获客与AI搜索可见度选型完全指南 - 年度推荐企业名录
  • 谷歌秒收录需要什么条件?WP新站0外链24小时出排名的细节
  • 释放创意:Forza Painter的艺术化导入指南
  • 宁波GEO优化公司哪家好?外贸 / 制造 / 本地生活行业专属推荐(2026年6月最新) - 商业新知
  • 艾尔登法环帧率解锁工具深度解析:突破60帧限制的完整技术指南
  • 3个核心技巧:用QuickCut智能剪辑让你的视频制作效率翻倍
  • 2026 从网页制作 + 架构开发 + 体验设计出发,精选国内八大优质网站建设公司 - 博客湾
  • 3分钟快速上手:ChanlunX缠论自动化分析插件终极指南
  • 基于ESP8266与WS2812的实时股票行情物联网终端开发实战
  • m4s-converter:3分钟解决B站缓存视频播放难题
  • Sora 2如何重构建筑方案汇报流程:从建模到4K动态叙事,72小时内交付客户认可的沉浸式提案
  • 如何快速上手PaddleOCR-VL-1.6-GGUF:从零开始的文档解析完整指南
  • 2026年江苏不饱和聚酯树脂厂家TOP榜单|实力厂家精选 - 博客湾