当前位置: 首页 > news >正文

多模态大语言模型OISA - 详解

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

目前存在的问题

  • 肤浅的(“谁发出的声音最大?/谁最先发出声音?”)就是现有的多模态内容,Expression和音频线索之间的关联仍然
  • 现有的针对多模态视觉任务资料集(RAVS,Ref-AVS)类型有限,不能够满足全模态模型的训练需求

本文贡献

  • 提出了OmniAVS数据集来推进基于推理的视听场景分割,其中的表达建立了复杂的认知链,超越了基本的声学特征(“谁最有可能生病?”)。
  • 引入了一个基于多模态大语言模型的多模态指示分割助手基线模型(OISA)。该模型无缝地集成了文本、语音、声音和图像输入,以执行参考对象分割,同时为预测提供解释。

其中Expression含有4种不同的模式(文字、声音、语音、图片),8种不同的组合形式(纯文字、纯语音、文字配声音、语音配声音、文字配图片、语音配图片、文字配声音和图片、语音配声音和图片)

OISA模型架构:

在这里插入图片描述
OISA由两个主要组件构成:

灵活的,可以被诸如SAM之类的模型替换。就是其中,掩码头

两种输入形式:

在这里插入图片描述

音频-视觉交错

对于任意长度的视频,我们从开头到结尾均匀采样N帧。每帧由视觉编码器单独处理,以获得LvL_vLv个视觉标记,表示为V=v1,v2,...,vNV = {v_1, v_2, ..., v_N}V=v1,v2,...,vN,其中 vi∈RLv×dv_i ∈ R^{L_v × d}viRLv×d代表第i帧的LvL_vLv个视觉标记,维度为d。对于视频中的音频内容,大家使用音频编码器处理它以获得音频标记A∈RLA×dA ∈ R^{L_A × d}ARLA×d,其中 LAL_ALA表示音频标记的总数。

为了构建音频-视觉对齐,我们将音频分割成与帧率对应的片段,得到a1,a2,...,aN{a_1, a_2, ..., a_N}a1,a2,...,aN,其中ai∈RLa×da_i ∈ R^{L_a × d}aiRLa×dLa=LA/NL_a = L_A / NLa=LA/N。接下来,我们交错音频标记片段和视觉标记,形成音频-视觉交错标记序列[v1,a1,v2,a2,...,vN,aN][v_1, a_1, v_2, a_2, ..., v_N, a_N][v1,a1,v2,a2,...,vN,aN]

查询传播

尽管MLLM在多模态理解和推理方面表现出色,但它们并不擅长分割任务。以往的工作在MLLM之后附加了一个额外的视觉编码器(用于普通特征提取)和一个用于分割的掩码头,这导致了一种冗余且非最优的设计。为了解决这些问题,在从视频中提取视觉标记的同时,我们通过ViT适配器 [12] 同步提取相应的多尺度特征,然后通过像素解码器对其进行增强。这些增强的特征与MLLM生成的 [SEG]标记一同被输入到掩码解码器中。

在使用掩码解码器进行分割时,VideoLISA 对每一帧使用相同的 [SEG]标记进行独立分割,即“单令牌分割全部”(One-Token-Seg-ALL, OTSA),如图5(a)所示。然而,这种方法存在局限性。先前的研究 表明,单个查询往往无法充分表示目标物体,尤其是在视频中存在快速运动时。单个查询带有位置先验,这使得它难以捕捉动态运动过程(例如,一个物体从右向左移动,如图5(a)所示)。这种局限性会导致目标ID切换(ID-Switch)问题,即模型持续跟踪视频右侧的错误目标。

在这里插入图片描述

查询传播

OTSA

OTSA 方法的一个关键特点是其“静态性”。在整个视频处理过程中,<TRK>标记是固定不变的。这意味着它缺乏时序适应性,难以实用处理视频中目标的剧烈外观变化、严重遮挡或繁琐运动。

简而言之,音频-视觉交错解决了跨模态理解与对齐的问题,而查询传播则解决了时序分割与跟踪的问题,二者共同构成了OISA模型强大的技术基础。

实验

MLLM:InternVL2-1B

  • LLM:Qwen2-0.5B-Instruct
  • vision encoder:InternViT-300M-448px
  • audio encoder:Whisper-large-v3

评价指标:J值和F值的平均值

  • J值:IoU
  • F值:评估分割的“边缘质量”是否清晰、精准

当语言指令描述的内容在视频中根本不存在时,模型预测正确时,J&F为1。预测错误时,J&F为0

使用多个资料集合进行训练

  • 语义分割数据集:ADE20K , COCO-Stuff, PASCAL-Part , PACO-LVIS
  • 指代分割素材集:RefCOCO, RefCOCO+ , RefCOCOg, ReasonSeg
  • 指代视频分割数据集:Refer-YouTube-VOS ,Refer-DAVIS-17 , MeViS , ReVOS
  • 音频-视觉分割数据集:Ref-AVS Bench , OmniAVS。

在这里插入图片描述

消融实验:
在这里插入图片描述

http://www.zskr.cn/news/15309.html

相关文章:

  • 线段树合并 [POI 2011] ROT-Tree Rotations
  • ModuleNotFoundError: No module named wandb.keras
  • flink执行图 - 教程
  • 总结问题2 软工10.3
  • BPL包无法调试的问题
  • 最短路练习
  • 学习笔记:压位高精
  • 近期杂题
  • 并查集 D. Shark [Codeforces Round 484(Div. 2)]
  • Hackersdaddy ROUGE CTF 2025 完整解题记录
  • AI元人文系列:透明推理者——下一代大模型架构设计
  • 实用指南:【C语言】char * 、char [ ]、const char * 和 void *的使用以及区别
  • 实用指南:1、docker入门简介
  • 调试parlant的大模型配置,最终自己动手写了g4f的模块挂载 - 教程
  • unity面向组合开发二:EC的代码实践
  • airsim多无人机+无人车联合仿真辅导 - 教程
  • CSP-JF36
  • 【进入便捷的系统不解决问题】ubuntu开机出现‘系统出错且无法恢复。请联系系统管理员’
  • QOJ #8147. Math Exam 题解
  • 国庆梦熊集训做题记录
  • 兰博平台: 星云抽卡豪华版. 作者acc177
  • AT_abc315_f [ABC315F] Shortcuts
  • 问题表 - microsoft
  • 随想八
  • SolarWinds Web Help Desk远程代码执行漏洞分析
  • Aria2安装
  • 正则表达式学习
  • 神经网络之简单的标量何以表达模型的拟合能力 - 指南
  • 一篇文章入门RabbitMQ:基本概念与Java利用
  • PHP程序员要是基础不扎实,越学越吃力