文章目录原生多模态1. 动态高分辨率图像分块 (Dynamic High-Resolution Image Patching)2. 统一的 Tokenizer 或跨模态投影 (Unified Representation)3. 混合注意力机制与长上下文支持 (Hybrid Attention Long Context)4. 时间维度的处理 (For Video/Audio)5. 统一预训练目标 (Unified Pre-training Objectives)总结原生 vs. 传统为什么 Qwen2.5 是纯文本而 Qwen2-VL/Qwen3.5 是多模态Qwen2-VL 技术1. 动态高分辨率图像预处理 (Dynamic High-Resolution Resolution)2. 统一的视觉编码器与 LLM 连接器 (Unified Visual Encoder Connector)3. 原生视频理解 (Native Video Understanding)4. 基于 Qwen2.5 的语言底座5. 训练数据与微调策略总结Qwen2-VL 的核心优势原生多模态“原生多模态”Native Multimodality与传统的“拼接式多模态”如早期的 BLIP-2, BLIP, 或早期的 LLaVA 架构有着本质的区别。在传统的架构中通常是图像编码器 (Visual Encoder) - 投影层 - 文本 LLM。图像被压缩成特征向量然后作为“特殊的文本 token”插入到 LLM 的输入中。这种方式下LLM 并没有真正“看到”图像它只是在处理一种类似文本的符号序列。而原生多模态如 Qwen2-VL, Qwen3.5 等所采用的架构旨在让模型在架构层面同时理解文本、图像、视频和音频。其核心实现技术包括以下几个关键点1. 动态高分辨率图像分块 (Dynamic High-Resolution Image Patching)这是原生多模态最显著的视觉架构升级。传统做法将图片缩放到固定尺寸如 336x336然后切分成固定数量的 patch例如 4x416个 patch。这导致小细节丢失大图片也被压缩无法区分不同分辨率的图片。原生多模态做法保留原始分辨率模型不再强制将图片缩放。动态分块根据图片的原始宽高比和分辨率动态决定切分成多少个 patch。例如一张 4K 图片可能被切分成数千个 patch而一张小图片可能只有几十个。2D 位置编码由于 patch 的数量不再固定传统的 1D 位置编码失效。原生多模态模型通常使用2D Rotary Positional Embeddings (2D RoPE)或类似机制让模型能够感知每个 patch 在原始图像中的相对空间位置行和列。结果模型可以处理任意分辨率、任意纵横比的图片并且能捕捉到极其细微的细节如文字、微小物体。2. 统一的 Tokenizer 或跨模态投影 (Unified Representation)为了让不同模态的数据能在同一个 Transformer 网络中流动必须将它们映射到统一的向量空间。视觉部分使用 Vision Transformer (ViT) 或类似的编码器将像素转换为视觉 token。音频部分使用类似 Whisper 或 AST 的编码器将音频波形转换为频谱图特征再转化为音频 token。文本部分使用分词器Tokenizer将文本转化为 token。关键创新原生模型通常使用一个可学习的投影层Projection Layer或适配器Adapter将视觉 token 和音频 token 映射到与文本 token 相同的嵌入空间Embedding Space。重要的是这个映射过程不仅仅是简单的线性投影往往结合了交叉注意力机制Cross-Attention或门控机制让模型知道何时应该关注视觉信息何时关注文本信息。3. 混合注意力机制与长上下文支持 (Hybrid Attention Long Context)由于原生多模态可以处理动态数量的视觉/音频 token加上文本 token序列长度可能会变得非常长。MQA/GQA继续使用 Multi-Query Attention 或 Grouped-Query Attention 来加速推理因为视觉 token 的数量可能远大于文本 token。Flash Attention原生多模态模型高度依赖 Flash Attention 技术来高效处理大规模注意力矩阵确保在处理长视频或高分辨率图片时显存不爆炸。Token 压缩/选择有些原生架构会在输入 LLM 之前通过一个专门的模块如 NaViT 或类似结构对视觉 token 进行预处理去除冗余信息只保留关键特征从而减少 LLM 的计算负担。4. 时间维度的处理 (For Video/Audio)对于视频和音频原生多模态还需要处理时间连续性。3D 位置编码对于视频除了 2D 空间位置还需要加入时间位置编码Temporal Positional Embedding。帧采样策略原生模型通常支持动态帧采样根据视频时长和内容重要性决定采样的帧数而不是固定采样 8 帧或 32 帧。音频时序编码类似地音频数据会保留其时间序列信息并通过专门的编码器转换为时序 token。5. 统一预训练目标 (Unified Pre-training Objectives)原生多模态模型通常不是先预训练好 LLM再微调多模态。而是从头开始或在大规模多模态数据上联合预训练。多任务学习模型在预训练阶段同时学习文本自回归生成Next Token Prediction for Text图像描述生成Image Captioning视觉问答VQA音频转录与理解ASR Audio QA视频动作识别共同损失函数所有这些任务的损失函数被加权合并使得模型能够共享底层的 Transformer 权重从而让文本理解能力增强视觉感知视觉感知也反哺文本推理。总结原生 vs. 传统特性传统多模态 (如 LLaVA v1.5)原生多模态 (如 Qwen2-VL, Qwen3.5)图像输入固定分辨率固定 Patch 数动态分辨率动态 Patch 数位置编码1D 线性位置编码2D RoPE(空间) 时间编码 (视频)模态融合视觉特征拼接在文本后统一嵌入空间深度交叉注意力视频处理通常仅采样少数几帧动态帧采样时序信息保留完整通用性主要针对图像文本文本图像音频视频统一架构为什么 Qwen2.5 是纯文本而 Qwen2-VL/Qwen3.5 是多模态Qwen2.5是纯文本模型它只处理 Token 序列。Qwen2-VL(及 Qwen3.5) 在 Qwen2.5 的架构基础上增加了视觉/音频编码器和多模态投影层并进行了专门的预训练从而实现了“原生多模态”。如果想实现一个简单的原生多模态原型可以使用 Hugging Face 的transformers库中的AutoModelForVision2Seq类它会自动处理上述的动态分块和 2D RoPE 等复杂细节。Qwen2-VL 技术Qwen2-VL 实现多模态的核心在于其原生多模态架构特别是它解决了传统多模模型在分辨率适应性和视频理解上的痛点。以下是 Qwen2-VL 实现多模态的具体关键技术点1. 动态高分辨率图像预处理 (Dynamic High-Resolution Resolution)这是 Qwen2-VL 相比前代如 Qwen-VL最大的改进之一。问题早期的多模态模型通常将图像缩放到固定分辨率如 336x336这会导致小文字、微小物体丢失细节或者无法处理任意长宽比的图片。Qwen2-VL 的做法图像块Image Patches它不再强制将图片缩放为固定大小而是根据图片的原始分辨率动态地将其切分成不同数量的图像块Patches。高分辨率保留通过这种方式模型可以保留图像的原始细节无论是超高清图片还是视频帧都能被更精确地编码。2D 位置编码由于图像块的数量和排列不再固定Qwen2-VL 引入了2D Rotary Positional Embeddings (2D RoPE)。这使得模型不仅能理解单个 Patch 的内容还能理解其在原始图像中的相对空间位置行和列从而增强空间推理能力。2. 统一的视觉编码器与 LLM 连接器 (Unified Visual Encoder Connector)Qwen2-VL 采用了一种类似“多模态大模型”的标准架构但进行了优化视觉编码器 (Vision Encoder)使用高效的视觉 Transformer 架构通常是基于 SigLIP 或类似结构的改进版将图像或视频帧转换为视觉 Token。投影层 (Projection Layer)视觉 Token 不能直接输入到语言模型LLM中因为它们的嵌入空间Embedding Space不同。Qwen2-VL 使用了一个可学习的线性投影层或MLP多层感知机将视觉 Token 映射到与文本 Token 相同的维度空间中。Token 融合视觉 Token 和文本 Token 被拼接在一起作为输入序列送入 Qwen 的基座语言模型Base LLM。3. 原生视频理解 (Native Video Understanding)Qwen2-VL 不仅仅是处理单张图片它原生支持视频输入帧采样策略对于视频模型会动态采样帧。时间位置编码类似于 2D 空间编码Qwen2-VL 引入了时间位置编码让模型能够感知视频中事件发生的先后顺序和持续时间。连续时间建模通过处理连续的图像块序列模型可以捕捉动作的连贯性而不仅仅是关键帧。4. 基于 Qwen2.5 的语言底座强大的语言模型Qwen2-VL 的“大脑”是 Qwen2.5 语言模型。这意味着它继承了 Qwen2.5 在指令遵循、数学推理、代码生成和**长上下文支持128K**方面的强大能力。多语言支持由于底座是 Qwen2.5Qwen2-VL 也支持 29 多种语言的多模态交互例如你可以用中文上传一张英文路牌图片并让模型翻译它。5. 训练数据与微调策略多阶段训练预训练使用大规模图文对数据进行预训练学习视觉和语言的联合表示。指令微调 (SFT)使用高质量的图文问答、OCR、视觉定位等数据进行微调提升其在具体任务上的表现。数据多样性训练数据涵盖了自然图像、文档、图表、数学公式、视频等多种模态确保模型在各种场景下都能鲁棒地工作。总结Qwen2-VL 的核心优势特性传统多模态模型Qwen2-VL图像分辨率固定分辨率如 336x336动态高分辨率保留细节位置编码1D 位置编码2D RoPE精确空间感知视频处理通常仅处理关键帧或短片段原生视频理解支持长时间上下文语言底座较弱或专用编码器Qwen2.5 语言模型强大的推理和指令跟随能力应用场景通用图像描述OCR、数学公式识别、图表分析、视频理解、复杂推理简单来说Qwen2-VL 是通过保留高分辨率图像细节2D 空间位置感知强大的 Qwen2.5 语言推理能力实现了对图像和视频的深度理解。