这篇名为《Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation》的论文由 Meta AI、香港大学和滑铁卢大学的研究人员合作发表。该论文提出了一项极具颠覆性的研究成果在构建原生的统一多模态模型UMM时完全抛弃了传统的预训练视觉编码器如 CLIP、SigLIP和变分自编码器VAE证明了直接基于像素嵌入Pixel Embeddings进行端到端训练能够在多模态理解和生成任务上达到甚至超越现有依赖复杂组件的SOTAState-of-the-Art模型。首先看TUNATUNA 所使用的理解和生成的 Unified Representation是用 VAE 接一个 Representation Encoder (文中使用 SigLIP 2) 得到的。作者借助 Representation Encoder 从 VAE latents 里面抽语义特征。然后把这个特征当作 Visual Representation参与统一模型的训练。TUNA 架构。把一个 VAE 串接一个 Representation Encoder抽取视觉特征。TUNA 是一个非常典型的理解生成统一模型自回归方式生成文本Flow Matching 方式生成图像或者视频。TUNA 是一个非常典型的理解生成统一模型自回归方式生成文本Flow Matching 方式生成图像或者视频。Attention Mask 的设计也跟统一模型的惯例保持一致language token 之间一直 causal mode。visual token 之间一直 bidirectional mode。visual token 与 language token生成时text 看不到 visual(noised) visual 可以看到 text理解时text 看得到 visualvisual 看不到 text。TUNA 的 Attention Mask 设计。* 代表 visual token 加噪TUNA架构能训起来需要3个阶段训练 Representation Encoder 和 Flow Matching head 使用的训练目标是 image captioning 和 T2I 生成。训练整个模型 使用的训练目标依然是 image captioning 和 T2I 生成。在最后的 training steps 里面引入 image instruction-following, image editing, 和 video-captioning。SFT 引入 image editing, image/video instruction-following, 以及高质量 image/video 生成。TUNA 使用 VAE 和 Representation Encoder 建模视觉表征。TUNA-R 去掉了 VAE只保留了 Representation Encoder。TUNA-2 把 Representation Encoder 替换为了 Patch Embedding 层。TUNA-2 架构与前代的对比。作者逐步把 TUNA 的 vision encoder 进行简化一步步变成 TUNA-2。中间过程 TUNA-R 只保留了 representation encoder去掉了 VAE1. 研究背景与核心痛点当前的范式目前希望同时实现“看图说话”视觉理解和“文生图”视觉生成的统一多模态模型UMM通常依赖于模块化设计。它们高度依赖预训练的视觉组件表征编码器Representation Encoder, 如 CLIP/SigLIP用于提取图像的语义特征以进行理解。变分自编码器VAE用于将图像压缩到隐空间Latent Space以降低扩散模型/流匹配的生成难度如 Stable Diffusion 的做法。存在的痛点模态不对齐与次优解理解和生成使用不同的视觉表征导致任务之间存在“错位”无法实现从原始像素出发的完全端到端优化。信息丢失VAE 和表征编码器在压缩图像时会丢失大量细粒度的底层视觉细节这对于需要精确感知的任务如OCR、极小物体识别非常不利。论文的疑问与目标我们能否彻底摆脱预训练的视觉编码器直接从原始像素的端到端学习中构建强大的统一多模态模型2. 模型架构演进从 Tuna 到 Tuna-2论文通过“做减法”的方式展示了模型架构的演进Tuna前作依赖 VAE 进行隐空间生成并使用表征编码器进行理解。Tuna-R过渡版本去除了 VAE改在像素空间Pixel-space直接进行流匹配Flow Matching生成图像。但保留了表征编码器SigLIP 2来提取视觉特征喂给大语言模型LLM。Tuna-2最终版本 - 极简架构彻底去除了表征编码器和 VAE。使用极其简单的Patchify Layer线性块嵌入层将原始图像像素直接切块并转化为 Token。这些视觉 Token 和文本 Token 一起输入到一个单一的 Transformer 解码器基于 Qwen2.5-7B中进行联合处理。输出端语言头Language Head负责自回归生成文本流匹配头Flow Matching Head负责直接在像素空间生成干净的图像。3. 核心技术与训练策略为了让这种“没有预训练视觉先验”的极简架构生效论文引入了几个关键技术A. 像素空间流匹配Pixel-space Flow Matching去掉了 VAE意味着不能再做隐空间扩散。Tuna-2 采用了直接在原始像素上预测干净图像x-prediction并回归速度场v-loss的方法。B. 基于掩码的特征学习Masking-based Feature Learning这是训练成功的关键。像素空间维度极高且充满冗余信息模型很容易学到“捷径”而非真正的语义。为此作者引入了掩码机制类似 MAE在生成任务中随机遮挡部分噪声图像要求模型预测完整的干净图像。这迫使模型学习上下文关系而不是单纯的局部去噪。在理解任务中让模型看着被遮挡的图像来回答问题生成文本。这作为一种正则化手段迫使模型进行更深度的多模态推理学出更鲁棒的像素级表征。在理解和生成中对图像做随机 MaskingC. 训练流水线完全端到端阶段一全模型预训练使用图文对Captioning和文生图T2I数据联合训练 LLM 和流匹配头建立视觉和语言的初始对齐。注最佳的数据采样比例是生成7 : 理解3。阶段二监督微调 SFT使用高质量的指令跟随、图像编辑和高保真生成数据进行微调提升各项具体能力。4. 实验结果与核心发现论文在大量基准测试上对比了 Tuna-2、Tuna-R 和其他原生 UMMs得出了几个令人振奋的结论A. 视觉理解像素级嵌入完胜尤其在细粒度任务上Tuna-2 在 7B 参数规模的统一模型中取得了 SOTA 的成绩。重大发现尽管 Tuna-2 没有任何预训练视觉编码器但它的理解能力超越了保留编码器的 Tuna-R。尤其是在需要精细视觉感知的“像素级基准测试”如 V* 寻找微小物体、CountBench 计数、OCRBench 文本识别上Tuna-2 优势明显。这证明抛弃 VAE/编码器避免了底层信息的丢失。B. 视觉生成与隐空间模型平分秋色即使没有 VAETuna-2 依然能生成高质量、高保真度的图像且在指令图像编辑ImgEdit上表现出色。相比于 Tuna使用 VAETuna-2 生成的图像具有更好的多样性。C. 训练动态学Training Dynamics先验 vs. 规模论文进行了一个非常深刻的对比分析训练初期带有预训练编码器的Tuna-R 学得更快因为 SigLIP 赋予了它丰富的先验语义知识。随着数据规模扩大无编码器的Tuna-2 实现了反超。这表明单体、无编码器的原生架构在经过大规模多模态预训练后能够发展出比拼接模块更强的多模态理解能力。上限更高。D. 注意力机制更精准可视化分析显示由于是在像素空间端到端训练Tuna-2 的注意力图Attention Map非常精准。它不容易被文本提示中的误导性词汇或图像中显眼的干扰物欺骗展现出极强的鲁棒性。5. 总结与意义《Tuna-2》的里程碑意义在于它打破了多模态大模型领域的思维定势即“必须用 CLIP 提特征必须用 VAE 降维”。它证明了预训练视觉编码器对于多模态建模并非必需。端到端的像素空间学习Pixel-space learning提供了一条可扩展的道路。只要有足够的训练和巧妙的策略如 Masking大语言模型可以直接从原始像素的 Patch 中自己学到卓越的理解和生成能力。这为未来开发更简洁、更原生的多模态通用大模型Native UMMs指明了新的发展方向极简 Transformer 架构完全具备统治多模态领域的潜力。