当前位置：首页 > news >正文

百度ERNIE 4.5-VL重磅发布：280亿参数视觉语言大模型来了！

news 2026/6/11 15:08:42

百度ERNIE 4.5-VL重磅发布：280亿参数视觉语言大模型来了！

【免费下载链接】ERNIE-4.5-VL-28B-A3B-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-PT

百度正式推出新一代视觉语言大模型ERNIE-4.5-VL-28B-A3B-PT，这一拥有280亿总参数、30亿激活参数的多模态模型，标志着百度在大语言模型领域的技术实力再上新台阶。

行业现状：多模态大模型进入规模化应用关键期

当前，人工智能领域正经历从单一模态向多模态融合的技术变革。视觉语言大模型作为连接文本与图像理解的关键技术，已成为企业数字化转型和智能应用开发的核心基础设施。据行业研究显示，2024年全球多模态AI市场规模同比增长达75%，其中视觉语言模型在内容创作、智能交互、工业质检等领域的应用渗透率持续提升。随着模型参数规模突破千亿级，如何在保证性能的同时实现高效训练与推理，成为行业面临的共同挑战。

模型亮点：三大技术创新引领多模态能力跃升

ERNIE-4.5-VL-28B-A3B-PT的核心优势源于三大技术突破：

1. 多模态异构MoE预训练技术
该模型创新性地采用异构混合专家（Mixture of Experts）结构，通过模态隔离路由机制和路由器正交损失函数，实现文本与视觉模态的协同学习。这种设计确保两种模态在训练过程中互不干扰又相互增强，显著提升了跨模态推理能力。模型配置64个文本专家和64个视觉专家，每个token可激活6个专家，配合2个共享专家，形成高效的多模态信息处理架构。

2. 高效训练与推理基础设施
百度为该模型开发了异构混合并行训练策略，结合节点内专家并行、内存高效流水线调度和FP8混合精度训练技术，大幅提升了预训练吞吐量。在推理优化方面，创新的多专家并行协作方法和卷积码量化算法，实现了4位/2位无损量化，有效降低了部署成本。基于PaddlePaddle深度学习框架，模型可在多种硬件平台上实现高性能推理。

3. 模态特定后训练优化
针对实际应用需求，模型在预训练基础上进行了系统的模态特定优化。视觉语言模块通过监督微调（SFT）、直接偏好优化（DPO）和统一偏好优化（UPO）等技术，重点强化了图像理解、任务特定微调能力和多模态思维链推理。特别引入的RLVR（带可验证奖励的强化学习）技术，进一步提升了模型与人类偏好的对齐度。

性能参数与应用场景

ERNIE-4.5-VL-28B-A3B-PT采用28层网络结构，配备20个查询头和4个键值头，支持长达131072 tokens的上下文长度。模型同时提供PaddlePaddle权重（-Paddle后缀）和PyTorch权重（-PT后缀）两种版本，开发者可通过Hugging Face Transformers库或vLLM推理框架快速部署。

该模型的典型应用场景包括：复杂图像内容描述与解析、跨模态问答系统、智能文档理解、视觉引导的内容生成等。在企业级应用中，其超长上下文理解能力和高精度图像分析能力，可满足智能制造、医疗影像分析、智能零售等领域的专业需求。

行业影响：推动多模态AI技术普惠化

ERNIE-4.5-VL-28B-A3B-PT的发布将加速多模态AI技术的产业化落地。一方面，其创新的MoE架构和量化技术，为行业提供了高效训练与部署的参考范式；另一方面，Apache 2.0开源许可下的商业友好授权模式，降低了企业级应用的技术门槛。随着该模型的开源释放，预计将催生一批基于多模态理解的创新应用，推动AI技术从文本交互向更自然的人机协作迈进。

结语：迈向认知智能新高度

百度ERNIE系列模型的持续迭代，展现了中国科技企业在大语言模型领域的技术深耕。ERNIE-4.5-VL-28B-A3B-PT通过突破性的多模态融合技术，不仅扩展了AI的感知边界，更强化了复杂场景下的推理能力。随着技术的不断成熟，视觉语言大模型有望成为连接物理世界与数字智能的重要桥梁，为千行百业的智能化转型注入新动能。

【免费下载链接】ERNIE-4.5-VL-28B-A3B-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-VL-28B-A3B-PT

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.zskr.cn/news/161142.html