当前位置: 首页 > news >正文

首个「音频-视觉智能」综述:大模型时代的AVI,究竟走到哪一步了?

音频-视觉智能(Audio-Visual Intelligence,AVI)已成为人工智能(AI)领域的前沿方向之一。它连接听觉与视觉模态,使机器能够在多模态真实世界中进行感知、生成和交互,服务于理解任务,也支撑跨动态、时间对齐信号的可控生成与推理。

Meta MovieGen、Google Veo-3 等工业系统的相继出现,表明音频-视觉建模应用正走向端到端架构和协同生成。但在学术层面,音频-视觉智能研究仍然较为分散:不同子领域在定义、术语和任务分类上缺乏统一框架,评估协议也尚未形成一致标准,尤其难以衡量开放式生成、音画对齐、时间一致性和人类主观体验。隐私保护、数据授权、水印溯源、深度伪造和训练能耗等安全治理问题,仍有待后续研究进一步解决。

针对这个问题,新加坡国立大学、牛津大学团队及其合作者从大型基础模型的视角,对音频-视觉智能进行了首次全面回顾。

论文链接:https://arxiv.org/abs/2605.04045

他们建立了一套统一的分类体系,覆盖音频-视觉智能任务的广泛范围,从理解类(如语音识别、声音定位)到生成类(如音频驱动的视频合成、视频转音频),再到交互类(如对话、具身或 Agentic 接口)。

图|音频-视觉智能演化树(2016 - 2026 年)

他们也系统地梳理了该领域的方法论基础,包括模态 tokenization、跨模态融合、自回归与基于 diffusion 的生成、大规模预训练、指令对齐和偏好优化。

此外,他们还整理了代表性数据集、benchmark 和评估指标,在不同任务类别间进行了结构化比较,并识别出了同步、空间推理、可控性和安全性等方面仍存在的挑战。

通过将这一快速发展的领域整合为一个连贯的框架,该综述旨在成为未来大规模音频-视觉智能研究的基础参考。

三类任务:理解、生成和交互

研究团队将音频-视觉智能任务分为三类:理解世界、创造世界,以及与世界交互。

图|音频-视觉智能任务总览

理解世界,即音频-视觉感知。研究团队把这一类任务分成像素级感知、内容理解和逻辑推理。像素级感知关注声音与画面的直接对应,比如语音识别、目标检测、声源定位、音频-视觉事件定位和分割;内容理解进一步提取对象、事件,以及它们之间的时间和因果关系;逻辑推理则要求系统根据音频-视觉证据推断潜在原因,或预测接下来可能发生什么。

图|音频-视觉感知、理解

创造世界,即合成时间对齐、语义一致、感知上真实的多模态内容。研究团队将生成任务分为三类:条件生成、跨模态生成和联合音频-视觉生成。条件生成指根据文本、标签或结构化属性,生成相应的音频、图像或视频;跨模态生成指由一种模态生成另一种模态,比如用音频生成说话人视频,或根据视频生成声音、语音和;联合音频-视觉生成生成则要求声音和画面在生成过程中同时建模、相互约束,以保持时间同步和因果一致。

图|音频-视觉生成任务

与世界交互,侧重模型是否能根据现场变化及时回应。和离线理解或离线生成不同,交互系统需要持续接收音频-视觉输入,理解上下文和用户意图,并及时输出多模态回应或动作。交互式音频-视觉对话发生在数字界面中,系统要根据语音、图像或视频输入做回应,在对话中完成图像和视频编辑,或作为全模态助手,同时接收语音、图像、视频和文本输入,给出相应反馈。

图|音频-视觉对话

具身交互则发生在物理环境中,比如机器人根据声音和画面导航、回答现场问题,或完成抓取、移动等操作。音频-视觉智能要根据正在变化的环境持续判断,并把判断转换成下一步动作。

图|音频-视觉具身交互

方法论基础:表示、对齐与可控输出

音频-视觉智能的基本流程,是先把声音和画面转成模型能理解的表示,再找出声音和画面的关系,最后输出回答、生成内容或交互动作。

首先,声音和视频信号需要转化为模型可处理的表示。声音对应波形或声谱图,视频对应连续图像帧。它们的信息密度、变化节奏和冗余方式都不一样。模型不能简单地把两者混在一起处理,需要通过模态 tokenization 压缩成模型可处理的 token 表示,同时尽量保留声音细节、动作节奏和时间关系。

图|音频-视觉数据表示概述

其次是对齐与融合。对齐负责为声音与画面建立稳定对应,包括时间上的同步与先后、空间上的声源位置与传播关系,以及语义上的事件匹配。融合负责让声音和画面在共享表示或交互结构中相互补充。自监督学习、对比对齐、相关性建模和 cross-modal attention,能让模型从大规模音频-视觉数据中识别声音与画面之间的共现、时序和语义关系,完成识别、生成或交互。

最后是输出。音频-视觉智能系统会把前面建立起来的表示、对齐和融合关系,转成回答、声音、画面或动作。在生成方法上,研究团队重点梳理了 GAN、扩散模型、自回归模型和掩码自回归模型。早期研究曾使用 GAN 进行图像、语音和跨模态生成;扩散模型更擅长生成高保真图像、视频和音频;自回归模型在图像、音频和视频经过离散 tokenization 后,通过 next-token prediction 对 token streams 进行建模;掩码自回归方法则通过并行预测被遮蔽的 token,提高长序列生成效率。在视频到音频等任务上,模型能力的提升体现在声音更自然,也体现在对事件、声源和时序关系的把握更准确。

进入大型基础模型阶段,LLM 开始在不少音频-视觉系统中承担理解、调度和生成控制的核心角色。Encoder+LLM 路线主要负责把声音和画面编码成语言模型可以理解的表示,用于问答、识别和推理;LLM+Generator 路线让语言模型先理解用户意图,再调用图像、视频或音频生成器完成输出,统一音频-视觉基础模型,则让同一套系统同时支持音频-视觉理解与生成。面向更复杂的交互任务时,Agentic 系统会把工具调用、任务规划和多步执行纳入流程;VLA 模型负责把视觉、语言和动作连接起来,服务于机器人控制、导航和具身交互等场景。

大规模预训练、指令对齐和偏好优化,则影响了音频-视觉模型在真实使用中的稳定性、可控性和用户体验。预训练提供基础能力,指令对齐让模型理解任务要求,偏好优化则把输出进一步拉近人的判断和使用习惯。对音频-视觉智能来说,好的结果不只是画面清楚、声音自然,还要同步可靠、声源合理、修改可控,交互时也能保持稳定。

视听智能的现实应用与评测

目前,音频-视觉智能最直接的应用仍在内容生产。视频拟音、配乐、口型同步、短片生成,都经有明确的落地场景。Diff-Foley、MMAudio、FoleyCrafter 支持静音视频转换成带时序对齐的声音,JavisDiT、Veo-3、Seedance 已经可以支持从文本生成同步的音频和视频。

图|音频-视觉智能发展阶段路线图。

数字人是另一个典型的应用场景。早期 Wav2Lip 主要在处理唇形同步,后来的 FaceFormer、CodeTalker、AD-NeRF、GaussianTalker 模型开始引入三维表示和神经渲染。很多数字人之所以显得“脸僵”,就是因为模型只追踪了语音或音素,却没有充分建模表情、情绪和非语言动作。

其次,会议、教育和辅助技术同样要求音频-视觉系统同时理解说话人、语音内容和视觉状态;XR 和空间计算要求声音随位置、遮挡和房间结构变化;机器人会把声音当成行动反馈,用来判断碰撞、滑动、倒水进度和材料变化。

图|音频-视觉智能应用版图。

此外,音频-视觉系统可以用于智慧城市、取证和异常事件检测,联合分析可以监控画面与环境声音,判断事故、冲突或紧急情况,也可以用于 deepfake 检测,通过检查口型和语音是否一致来识别伪造内容。在工业和 IoT 场景中,声音可用于发现设备异常,视觉用于检测产品缺陷,两者结合能提高预测性维护、质量控制和安全监测的可靠性。不过,这类监测系统也可能带来边缘计算、隐私保护和数据治理问题。

评测上,研究团队围绕感知、生成和交互三类任务,分别整理了代表性数据集、 benchmark 和评估指标。理解任务关注事件定位、分割、同步、问答、检索和推理;生成任务关注视频到音频生成、音频到视频生成、联合音频-视觉生成和编辑;交互任务则覆盖全模态对话、音频-视觉导航、场景重建和具身操作。以 Daily-Omni 为例,它重点评估全模态模型的 AV Align、Reasoning 和 Avg accuracy。结果显示,当前全模态模型差距仍然明显:Qwen3-Omni-30B-A3B-Thinking 平均准确率为 73.60,Gemini 2.5 Flash 为 73.06,Qwen2.5-Omni-7B-Instruct 为 62.07,VideoLLaMA2 为 35.17。头部模型已经接近,但不同代际之间仍有断层。

图|OmniVideoBench 上的时长鲁棒性。横轴表示短视频准确率,纵轴表示超长视频准确率,气泡面积表示总体准确率;位于对角线下方的距离反映了长上下文带来的性能退化。

不足与未来方向

研究团队认为,音频-视觉智能研究,不应只是继续罗列数据、鲁棒性、效率和安全问题。未来方向是构建因果的、上下文感知的、可控的、可验证的、可交互的音频-视觉系统。

当前不足与未来方向如下:

1.从“时间同步”到“因果事件-源锚定”

研究团队指出,目前,同步通常被简化为局部时间匹配:判断音频和视频是否对齐,或预测二者的时间偏移。音频和视频也常被认为只要嵌入、标签或时间偏移匹配,就算已经对齐。但严格来说,只有当声音具有合理的来源、时间起点、传播路径,以及所见与所听之间的因果关系时,它才与视觉事件对齐。

未来方向,需要在延迟、遮挡、画外声和多源混合条件下,建模源级、事件级和因果级对齐。系统不仅要判断声音和画面是否同步,还要解释哪个来源、哪个事件、通过哪条因果路径产生了这个声音。

2.从“成对片段”到“动作条件化的音频-视觉世界模型”

大多数音频-视觉智能数据仍来自成对的音频-视频片段,这会鼓励模型学习相关性:吉他画面对应吉他声,说话人脸对应语音,汽车碰撞对应撞击声。研究团队指出,音频-视觉之间的共现关系当然重要,但仅靠相关性还不足以构成真正的音频-视觉智能。真正的音频-视觉智能需要一个世界模型,能够预测当智能体移动、物体被遮挡、房间发生变化或某个动作被执行时,视觉和声学观测会如何变化。

未来方向,需要建立动作条件化的音频-视觉世界模型,预测声源、材料、空间声学、可供性、意图和不确定性等潜在状态。

3.从“更长 token”到“分层音频-视觉记忆”

长程音频-视觉智能的问题,不能简单理解为扩大上下文窗口、增加模型可处理的 token 数。扁平化的 token 序列仍可能丢失说话人身份,混淆同时出现的声源,或让那些短暂却关键的音频证据被忽略。

未来方向,在于构建选择性、分层、可追溯的音频-视觉记忆,覆盖流式、情节和语义层级。研究团队表示,音频-视觉智能既要保留必要的原始感知,也要记录事件、轨迹、声源、位置和用户任务状态。

4.从“一次性提示生成”到“因果音频-视觉干预”

生成和编辑常默认由提示词指定期望的音频-视觉内容。但在真实创作中,用户往往需要精确控制某个局部变化。

未来方向,需要支持对物体、声音、身份、情绪、空间和时间的局部、因果、同步干预。论文团队指出,可以通过显式或潜在的音频-视觉场景图进行因果编辑,把物体、声部、身份、运动和因果连接组织起来,让编辑成为图上的干预;生成器则需要保留未被修改的部分,同时沿依赖关系传播必要变化。

5.从“粗粒度指标”到“验证器与奖励生态”

现有评估往往用 FAD、FVD、CLIP、SyncNet 类指标来近似衡量质量和对齐。但这些指标只能回答结果“像不像”“是否大致同步”,却很难判断声音是否真的来自画面中的事件。即使全局分数很高,声源身份、时间或传播路径仍可能是错的。 例如,SyncNet 类分数主要衡量唇部运动和语音是否同步,却无法判断玻璃撞击声、雨声密度或远处警笛是否真正匹配场景。

未来,需要建立验证器与奖励生态,评估声源锚定、物理合理性、音频不可替代性、长程一致性和任务效用。同时,研究团队也指出,验证器引导的细化必须同时观察两种模态;否则,模型可能把画面优化得更清晰,同步关系却被忽略。

6.从“静态全模态扩展”到“负责任的交互式音频-视觉智能”

当前很多系统默认,全模态模型可以从静态感知和生成直接扩展到交互任务。研究团队指出,交互式音频-视觉智能还需要同时处理实时响应、审慎推理、用户意图建模、隐私、同意和来源追踪。

未来,音频-视觉智能需要在真实交互中兼顾实时响应、推理、用户意图、隐私同意和来源追踪,让系统真正能理解、记忆、行动,保持可控与可验证。

作者:夏千斯

如需转载或投稿,请直接在本文章评论区内留言。

http://www.zskr.cn/news/1361913.html

相关文章:

  • 2026年5月新发布:Shiwosi史沃斯以工业级硬实力重塑车间清洁标准 - 2026年企业推荐榜
  • 黄仁勋放话:AI基建要烧掉4万亿美元 谁买单?
  • React 性能优化:从 3 秒卡顿到 60 帧流畅,我做了这 5 件事
  • 【能源AI Agent价值验证白皮书】:实测降低风电场故障预测误报率63%,缩短停机决策时间至8.2分钟
  • 2026年Q2国内矿箱厂家实力排行及联系方式参考:集装箱卫生间/集装箱售卖亭/集装箱售楼部/集装箱房屋厂家联系电话/选择指南 - 优质品牌商家
  • 加速科研、提出新假设:谷歌重磅推出Co-Scientist模型
  • 毕业论文神器!2026年必备AI论文软件榜单,免费版也能写合规初稿
  • 股权纠纷律师哪个好?陈杰律师:最高院再审胜诉经验 - 外贸老黄
  • 微服务安全防护实战:OAuth2与JWT鉴权
  • JWT令牌安全实践详解
  • Go语言错误处理:最佳实践
  • Go语言注释规范:代码即文档
  • 某聘 app sig/sp/响应体 unidbg分析
  • 3分钟解决Mac与Windows文件交换难题:Nigate免费NTFS读写工具完全指南
  • 2026年当前,如何甄选优质自行车厂家?以途锐达为例深度解析 - 2026年企业推荐榜
  • 一体化压铸:概念满天飞,真正能量产大铸件的厂到底有几家
  • 企业级条码处理方案:ZXing.Net在.NET生态中的架构实践与性能优化
  • 2026年国内可靠消泡剂供应商TOP5盘点:反渗透清洗剂/反渗透絮凝剂/反渗透药剂/反渗透还原剂/反渗透阻垢剂/选择指南 - 优质品牌商家
  • 【深度解析】用行为约束提升 AI Coding Agent:从 nine arm skills 看工程化智能体工作流设计
  • 构建可持续的阅读书源生态:从基础导入到高级管理策略
  • 分布式系统测试:验证分布式系统的正确性和性能
  • SenseNova-U1多模态模型深度解析:NEO-unify架构如何颠覆传统
  • 神经网络从入门到精通:10个核心概念+8个实战代码,小白也能懂
  • 2026年5月更新:浙江白油供应商深度,顶鑫润滑油为何脱颖而出? - 2026年企业推荐榜
  • Claude+Query Store双引擎协同优化(仅限AWS RDS与Azure SQL托管实例的私有API调用指南)
  • 【独家首发】Claude代码生成能力黄金分级标准(L1-L5):附赠可落地的团队接入评估清单(限前500名下载)
  • DOM 导航
  • 毕业论文必备AI论文平台排行榜(2026 深度测评)
  • 本周 AI 大事件速览| DeepSeek Code / Anthropic 盈利 / 千问3.7
  • boss 直聘web zp_stoken/app sp/sig unidbg分析