当前位置: 首页 > news >正文

VLM (4):connector

文章目录

  • 前言
  • 1 connector 分类
  • 1.1 功能上只对齐维度
    • 1.2 压缩token 数量: token compression(token resampling)
    • 1.3 LLM 内部注入
    • 1.4 多维度融合
  • 2 connector 和 vlm
    • 2.1 linear/MLP
      • 2.1.1 典型文章
      • 2.1.2 典型结构
      • 2.1.3 LLaVA
      • 2.1.4 PaliGemma (pi0 base model 的 主要结构)
      • 2.1.5 Prismatic VLMs (openvla base model 的主要结构)
    • 2.2 Q-former
      • 2.2.1 Q-former 结构
    • 2.3 percevier adapter
    • 2.4 Cross-attention adapter
    • 2.5 multi-view / multi-frame fusion
      • 2.5.1 temporal pixel shuffle + MLP
      • 2.5.2 Spatial-Temporal Positional MLP
  • 3 优缺点

前言

我们在看大模型时 ,会有很多结构很困扰比如: projector, MLP, connector, Q-former等等. 这里对其进行总结.


1 connector 分类

按照一般论文的常见程度,和论文中描述的重要程度,我们给connector 排个排名:
第一优先级:

  1. MLP Projector:最常见, 最简单,且最有效果
  2. Q-Former: BLIP-2 的核心贡献
  3. Perceiver Resampler: Flamingo 的 核心贡献
  4. Cross-Attention Adapter: Flamingo style VLM 的 核心结构
  5. Multi-Encoder Fusion:CLIP SigLIP DINO, Prismatic, OpenVLA
  6. multi-view / multi-frame fusion:

第二优先级:

  1. Token Pruning : 推理加速, 部署优化, 代表论文: FastV
  2. Token Merging: ViT 加速常见, 代表论文: oken Merging: Your ViT But Faster
  3. Pooling Resampler: 工程落地使用多一些

第三优先级(用到再查我觉得都来得及):

  1. TokenLearner
  2. 更复杂的动态 token routing / adaptive compression

我当时看论文的时候看到很多模型很核心的是 connector的修改和改进, 有点乱, 现在做如下归纳

1.1 功能上只对齐维度

名称结构代表模型
linear projectorCLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden states
MLP projectorCLIP / ViT 输出的 image features→projector→ LLM 能接收的 hidden states

1.2 压缩token 数量: token compression(token resampling)

名称结构数据流
Pooling Resampleraverage pooling24 × 24 visual tokens→2 × 2 pooling→12 × 12 visual tokens
Q-Former(会有3种模式,这里简单说下)query tokens→Self-AttentionCross-Attention to image featuresFFN / MLP→updated query tokens
Perceiver Resamplervisual features X+learnable latents Z→Cross-Attention→updated latents→FFN / MLP→updated latents

1.3 LLM 内部注入

名称结构数据流
gatedCross-attention adapter因为 attention 的 Query 和 Key/Value 来自不同来源。他的流程可以这样:Image / Video→Vision Encoder→Perceiver Resampler/ visual tokenizer→visual tokens→Cross-attention adapter→LLM→answer

1.4 多维度融合

名称结构数据流
multi-view / multi-frame fusion

2 connector 和 vlm

2.1 linear/MLP

2.1.1 典型文章

(1)LLaVA(2023) 首创:
把 CLIP visual tokens 通过 projector 接入 Vicuna,开创开源 visual instruction tuning 路线.

(2)LLaVA-1.5(2023/2024) :
证明 MLP connector + 更好视觉 encoder + 数据配方就能非常强

(3)PaliGemma(2024)
SigLIP + Gemma + linear adapter,形成轻量开放 VLM transfer 路线

(4)Prismatic VLMs / OpenVLA(2024)
把这种简洁 connector 思路进一步系统化,并影响 VLA

2.1.2 典型结构

linear 就是 nn.linear, MLP 到处都是, 结构如下,就不赘述

projector=nn.Sequential(nn.Linear(vision_dim,llm_hidden_dim),nn.GELU(),nn.Linear(llm_hidden_dim,llm_hidden_dim),)

2.1.3 LLaVA

LLaVA 有一个重要的贡献:MLP Projector 被证明“简单但非常强”
这篇的业内贡献非常大,因为它改变了很多人的判断。在 BLIP-2 / Flamingo 之后,很多人会觉得 connector 必须复杂,比如:Q-Former, Perceiver Resampler, Cross-Attention Adapter

论文摘要明确说 LLaVA-1.5 通过简单修改 LLaVA(projector 从 linear 改为 MLP):使用 CLIP-ViT-L-336px with an MLP projection,再加入 academic-task-oriented VQA data 和简单 response formatting prompts,就能在 11 个 benchmarks 上建立更强 baseline;最终 13B checkpoint 只用 1.2M publicly available data,在单个 8-A100 node 上约 1 天完成训练。

所以可以见到 MLP 有这样的优点:

比 Linear 更强
比 Q-Former / Perceiver 更简单
训练和复现成本低
工程稳定

2.1.4 PaliGemma (pi0 base model 的 主要结构)

PaliGemma 的贡献点在于:用 SigLIP-So400m vision encoder 和 Gemma-2B language model 的 open VLM , 轻量级(3B) 也可以作为 强 transfer base model。继续验证了 simple projection / adapter 结构在开放 VLM 中的有效性。

2.1.5 Prismatic VLMs (openvla base model 的主要结构)

在完全相同的训练数据和参数规模下,Prism 模型的性能严格超越了当时大火的 LLaVA v1.5 和 InstructBLIP,成为了当时开源 VLM 的新标杆(State-of-the-art)。虽然这篇论文没有直接说名MLP project 怎么设计, 但这篇论文额提出了project 如何参与训练,并且做了详细的实验.
经验一:
LLaVA的做法是2stage:

Stage 1: freeze vision encoder + freeze LLM,只训练 projector
Stage 2: freeze vision encoder,训练 projector + LLM
其实直接训练 projector + LLM 就够了。

经验二:
不要轻易 finetune vision backbone

Vision Encoder: freeze
Projector: train
LLM: train / finetune

经验三:dinov2 + SigLIP 是非常强的组合
在prismatic 论文中作者没有画出如何连接的结构图,但是我读完openvla 后发现 openvla 并没有结构创新,只是打通了vision + language + action 的通路, 且 openvla是完全继承 prismatic 的工作,因此可以借鉴

从 LLaVA 之后, MLP作为connector 已经最常用最方便且性能可以的connector, 下面就属于知晓性的结构, 也许某一天能解决我们遇到的问题

2.2 Q-former

Q-Former 是 BLIP-2 提出的一个轻量 Querying Transformer,用少量 learnable query tokens 从frozen image encoder 的大量视觉特征中抽取与文本最相关的信息,再接给frozen LLM

LLaVA-style projector 的思路是:

直接把所有 image tokens 投影到 LLM hidden space

Q-Former 的思路是:

不要直接把所有 image tokens 都给 LLM。
先用一组 learnable queries 去图像特征里“问问题”,
抽出少量更有用的 visual tokens。

2者差异:

比 MLP projector 多了一个能力:知道要看图像中的什么内容

2.2.1 Q-former 结构

所以Q-Former 有三个 token:
(1)来自图像的 image token, 比如: 来自图像 encoder,例如 CLIP / ViT
(2)来自文本的 texttoken, 比如:来自真实文本,例如 caption / question / instruction
(3)来自自己的 Query token,来自模型内部的可学习参数
当有 text token 不代表 text token 一定会更新 query token。它是否影响 query,取决于 attention mask。

Qformer 非常复杂:

  1. ITC 流程 (Image-Text Contrastive Learning,图文对比学习) 用的 Mask 机制(解耦掩码 Decoupled Mask):

  2. ITM 流程 (Image-Text Matching,图文匹配) 用的 Mask 机制(双向掩码 Bi-directional Mask):

  3. ITG 流程 (Image-Text Generation,图生文/文本生成) Mask 机制(因果掩码 Causal Mask):

2.3 percevier adapter

就是Qformer 不带文本 纯做视觉.

2.4 Cross-attention adapter

前面我们讲的所有方法(MLP、Q-Former、Perceiver),不管怎样变化最后都是把视觉向量拼在文本大模型的输入端(Prompt 头部)业内叫做In-context Layering。而 Cross-Attention Adapter 不改动大模型的输入(大模型输入端只有纯文本),而是直接在大模型(LLM)内部的每一个 Transformer 层(Layer)里面硬插一个交叉注意力模块

2.5 multi-view / multi-frame fusion

在处理多视角(Multi-view,如机器人的主相机 + 腕部相机)和多帧(Multi-frame,如连续的视频帧)时, 负责多维度融合的 Connector(连接器/适配器) 是必要的.

2.5.1 temporal pixel shuffle + MLP

在 SmolVLM (2025/2026)、Qwen2-VL (Alibaba, 2024) 见到过该结构. 视频T TT帧或多视角V VV叠加时,如果不做下采样,视觉 Token 数量会呈线性爆炸。如果直接用 Pooling,又会严重丢失物体的空间网格和运动细节. 所以有了该结构.

2.5.2 Spatial-Temporal Positional MLP

OpenVLA (Stanford, 2024)、Prismatic VLMs (2024/2025) 及其 3D 具身智能扩展变体常见. 解决了MLP 本身是不具备任何时空位置概念的(它是无序的)。如果多个相机或多帧连续压扁成一条线塞进 LLM,LLM 可能会把“左相机第 1 帧的狗”和“右相机第 3 帧的狗”混淆,无法做空间 3D 建模。

3 优缺点

这里 只讨论: linear/MLP, 他的
优点 1:把 VLM 架构极大简化
在 LLaVA 之前,很多强 VLM 倾向于复杂结构:Q-Former/Perceiver Resampler/Cross-attention blocks/encoder-decoder fusion

而 Linear / MLP projector 路线证明:
强 vision encoder + 简单 projector + 强 LLM, 就可以得到非常强的多模态模型。
这直接降低了 VLM 研究门槛。

优点 2:可以低成本复现和扩展
LLaVA-1.5 证明,MLP connector 加合适数据和训练配方,在单个 8-A100 node 上大约一天就能完成 13B checkpoint 的完整训练,并在 11 个 benchmark 上达到强 baseline。

这很关键,这样可以模块化做控制变量实验:

换 vision encoder
换 LLM
换 projector
换数据
做领域微调
做医学/遥感/文档/机器人扩展

缺点:

  1. 不压缩 token
    image tokens 有多少,通常就传多少给 LLM。
  2. 不主动筛选视觉信息
    它不像 Q-Former / Perceiver 那样有 learnable query 去抽取。
  3. 对高分辨率、多图、视频、多相机场景压力大
    visual tokens 很容易爆。
  4. 空间细节可能不足
    CLIP/SigLIP 更偏语义对齐,未必保留足够几何/局部信息。
  5. 幻觉和 grounding 问题仍然明显
    简单 projector 不保证 LLM 真的精确绑定每个视觉区域。

现在业界(尤其是主流的开源和商用大模型)绝大多数都在用 MLP(多层感知机)或者单纯的线性层(Linear Layer)。其余略,用到再看.

http://www.zskr.cn/news/1535197.html

相关文章:

  • 伊犁2026年6月黄金回收行情解读 正规商家辨别方法 - 余生黄金回收
  • 硬盘低级格式化工具深度解析:原理、风险与实战指南
  • 2026年6月昭通卖黄金不踩坑 正规回收行情与门店实测指南 - 余生黄金回收
  • 2026武汉市家用空调-中央空调等维修安装移机加氟-本地精选指南 -欧米到家 - 欧米到家
  • 终极XXMI启动器完整指南:一站式管理6大热门游戏模组
  • Python中%运算符的真相:模运算不是取余
  • 2026年6月邢台卖黄金怎么选正规回收店实操指南 - 余生黄金回收
  • 在 Claude Code 中接入讯飞 MaaS Qwen3.6 模型
  • 360Controller背后的魔法:如何让Xbox控制器在macOS上获得新生
  • 2026年6月廊坊卖黄金防坑攻略正规回收价格明细 - 余生黄金回收
  • 合肥黄金回收:避开陷阱选对门,安心变现不踩坑 - 余生黄金回收
  • 如何在3分钟内解决iPhone USB网络共享驱动问题:终极一键安装指南
  • AI低成本服务落地:数据蒸馏、MoE路由与电价感知部署
  • Hermes Agent 国内实战生存手册:网络兼容、安装排障与Kimi深度优化
  • Codex++解锁APIKey全功能
  • Hermes Agent国内实战指南:30分钟跑通Kimi集成
  • GTA5线上小助手:一站式游戏增强平台完全指南
  • 【2026年6月】电动推拉雨棚优质企业推荐指南 - 多才菠萝
  • VBA数据结构之争:3倍效率差,90%开发者选错了
  • 2026年成都园林绿化服务公司优选榜:绿植租摆/庭院景观/绿化工程/绿植养护全覆盖 - 海棠依旧大
  • 编程思维训练:循环控制与格式化输出实现数字三角形
  • 2026天津黄金回收全攻略:多家实体门店横向评测,附详细地址与避坑指南 - 润富黄金回收
  • 终极TCP路由追踪指南:5分钟掌握tracetcp的完整使用方法
  • 如何快速上手Kimi Free API:面向开发者的完整指南
  • CPPM好不好考——采购谈判BATNA法则帮你掌握考试核心 - 众智商学院课程中心
  • 本地部署DeepSeek的硬核实践:从显存计算到服务连通
  • G5080,MG3660,MG3640S,TS3380,PRO-100,TS6220,TS5180,TS3460,MG6380报错5B00,P07,E08,1700,5b04废墨垫清零,亲测完美。
  • 3步专业级音质调校:Equalizer APO音频处理全攻略
  • 2026年消防器材与焊接管件品牌推荐榜:消防镀锌管/沟槽阀门/不锈钢阀门及焊接无缝钢管/法兰阀门/螺旋钢管源头厂家综合实力深度解析 - 品牌发掘
  • 2026年6月六安黄金回收靠谱商家辨别与变现避坑指南 - 余生黄金回收