当前位置：首页 > news >正文

多模态大语言模型OISA - 详解

news 2026/6/12 20:11:24

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

目前存在的问题：

肤浅的（“谁发出的声音最大?/谁最先发出声音?”）就是现有的多模态内容，Expression和音频线索之间的关联仍然
现有的针对多模态视觉任务资料集（RAVS，Ref-AVS）类型有限，不能够满足全模态模型的训练需求

本文贡献：

提出了OmniAVS数据集来推进基于推理的视听场景分割，其中的表达建立了复杂的认知链，超越了基本的声学特征（“谁最有可能生病？”）。
引入了一个基于多模态大语言模型的多模态指示分割助手基线模型（OISA）。该模型无缝地集成了文本、语音、声音和图像输入，以执行参考对象分割，同时为预测提供解释。

其中Expression含有4种不同的模式（文字、声音、语音、图片），8种不同的组合形式（纯文字、纯语音、文字配声音、语音配声音、文字配图片、语音配图片、文字配声音和图片、语音配声音和图片）

OISA模型架构：

在这里插入图片描述
OISA由两个主要组件构成：

一个用于多模态理解与生成的MLLM，其中包括音频编码器、视觉编码器和LLM
一个用于分割与跟踪的掩码头。其中包含ViT适配器、像素解码器和掩码解码器

灵活的，可以被诸如SAM之类的模型替换。就是其中，掩码头

两种输入形式：

给定一段音频-视觉视频，多模态编码器会处理视频和音频内容，以获得相应的视觉和音频标记。与VideoLLaMA顺序连接这两种模态不同，采用了音频-视觉交错策略，即将音频标记分割成片段，并与视觉标记交错排列。该交错的序列就形成了我们的音频-视觉内容标记。这种方法无需引入额外参数即可高效同步音频和视频帧，这对于需要音画对齐的场景尤其有用。
对于全模态表达输入（如用户指令），使用音频编码器处理语音和声音，使用视觉编码器处理图像。产生的标记随后被整合到相应的文本标记中，以生成最终的全模态表达标记。所有类型的标记随后被输入到MLLM中。MLLM生成文本响应，并产生一个代表目标对象的[SEG]标记，该标记随后被掩码解码器用于分割预测。我们的掩码解码器使用查询传播来分割每一帧，在分割过程中在线优化查询，以缓解动态运动的影响。采用交叉熵损失用于文本生成，并采用DICE损失和二元交叉熵损失用于分割。

音频-视觉交错

对于任意长度的视频，我们从开头到结尾均匀采样N帧。每帧由视觉编码器单独处理，以获得 $L_v$ 个视觉标记，表示为 $V = {v_1, v_2, ..., v_N}$ ，其中 $v_i ∈ R^{L_v × d}$ 代表第i帧的 $L_v$ 个视觉标记，维度为d。对于视频中的音频内容，大家使用音频编码器处理它以获得音频标记 $A ∈ R^{L_A × d}$ ，其中 $L_A$ 表示音频标记的总数。

为了构建音频-视觉对齐，我们将音频分割成与帧率对应的片段，得到 ${a_1, a_2, ..., a_N}$ ，其中 $a_i ∈ R^{L_a × d}$ 且 $L_a = L_A / N$ 。接下来，我们交错音频标记片段和视觉标记，形成音频-视觉交错标记序列 $v_1, a_1, v_2, a_2, ..., v_N, a_N]$ 。

查询传播

尽管MLLM在多模态理解和推理方面表现出色，但它们并不擅长分割任务。以往的工作在MLLM之后附加了一个额外的视觉编码器（用于普通特征提取）和一个用于分割的掩码头，这导致了一种冗余且非最优的设计。为了解决这些问题，在从视频中提取视觉标记的同时，我们通过ViT适配器 [12] 同步提取相应的多尺度特征，然后通过像素解码器对其进行增强。这些增强的特征与MLLM生成的 [SEG]标记一同被输入到掩码解码器中。

在使用掩码解码器进行分割时，VideoLISA 对每一帧使用相同的 [SEG]标记进行独立分割，即“单令牌分割全部”（One-Token-Seg-ALL, OTSA），如图5(a)所示。然而，这种方法存在局限性。先前的研究表明，单个查询往往无法充分表示目标物体，尤其是在视频中存在快速运动时。单个查询带有位置先验，这使得它难以捕捉动态运动过程（例如，一个物体从右向左移动，如图5(a)所示）。这种局限性会导致目标ID切换（ID-Switch）问题，即模型持续跟踪视频右侧的错误目标。

查询传播

工作流程：
- 初始化：MLLM为视频的第一帧生成一个初始的 [SEG]查询 Q1。
- 传播与更新：在处理第二帧时，掩码解码器不仅接收增强后的视觉特征，还会接收来自第一帧的查询 Q1。它利用当前帧的信息更新这个查询，生成一个更适应第二帧中目标状态的新查询 Q2。
- 迭代：该更新后的查询 Q2 被传播到第三帧，并继续更新为 Q3，如此循环往复。如图5(b)中的 “update” 箭头所示。

工作流程：
- 输入处理：模型接收一个视频序列和一条语言指令
- 特征提取与融合：通过视觉编码器提取视频帧的特征，并与文本指令一起输入到多模态大语言模型（MLLM）中。
- 生成 <TRK>标记**：MLLM 基于视觉内容和文本指令进行推理，在输出的文本序列中生成一个特殊的 <TRK>标记。该标记的隐藏层嵌入（hidden embedding）包含了经过MLLM理解并融合后的目标对象的语义和空间信息，作为整个视频中该目标的统一表征。**
- 帧独立分割：将这个唯一的 <TRK>标记嵌入分别输入到每一帧的掩码解码器中（例如SAM的掩码解码器）。掩码解码器根据该标记献出的目标信息，在每一帧中独立地预测出像素级的分割掩码

OTSA 方法的一个关键特点是其“静态性”。在整个视频处理过程中，<TRK>标记是固定不变的。这意味着它缺乏时序适应性，难以实用处理视频中目标的剧烈外观变化、严重遮挡或繁琐运动。

简而言之，音频-视觉交错解决了跨模态理解与对齐的问题，而查询传播则解决了时序分割与跟踪的问题，二者共同构成了OISA模型强大的技术基础。

实验

MLLM：InternVL2-1B

LLM：Qwen2-0.5B-Instruct
vision encoder：InternViT-300M-448px
audio encoder：Whisper-large-v3

评价指标：J值和F值的平均值

J值：IoU
F值：评估分割的“边缘质量”是否清晰、精准

当语言指令描述的内容在视频中根本不存在时，模型预测正确时，J&F为1。预测错误时，J&F为0

使用多个资料集合进行训练

语义分割数据集：ADE20K , COCO-Stuff, PASCAL-Part , PACO-LVIS
指代分割素材集：RefCOCO, RefCOCO+ , RefCOCOg, ReasonSeg
指代视频分割数据集：Refer-YouTube-VOS ,Refer-DAVIS-17 , MeViS , ReVOS
音频-视觉分割数据集：Ref-AVS Bench , OmniAVS。

在这里插入图片描述

消融实验：
在这里插入图片描述

http://www.zskr.cn/news/15309.html

相关文章：

线段树合并 [POI 2011] ROT-Tree Rotations

ModuleNotFoundError: No module named wandb.keras

flink执行图 - 教程

总结问题2 软工10.3

BPL包无法调试的问题

最短路练习

学习笔记：压位高精

并查集 D. Shark [Codeforces Round 484(Div. 2)]

Hackersdaddy ROUGE CTF 2025 完整解题记录

AI元人文系列：透明推理者——下一代大模型架构设计

实用指南：【C语言】char * 、char [ ]、const char * 和 void *的使用以及区别

实用指南：1、docker入门简介

调试parlant的大模型配置，最终自己动手写了g4f的模块挂载 - 教程

unity面向组合开发二：EC的代码实践

airsim多无人机+无人车联合仿真辅导 - 教程

【进入便捷的系统不解决问题】ubuntu开机出现‘系统出错且无法恢复。请联系系统管理员’

QOJ #8147. Math Exam 题解

国庆梦熊集训做题记录

兰博平台: 星云抽卡豪华版. 作者acc177

AT_abc315_f [ABC315F] Shortcuts

问题表 - microsoft

SolarWinds Web Help Desk远程代码执行漏洞分析

正则表达式学习

神经网络之简单的标量何以表达模型的拟合能力 - 指南

一篇文章入门RabbitMQ：基本概念与Java利用

PHP程序员要是基础不扎实，越学越吃力