当前位置：首页 > news >正文

首个「音频-视觉智能」综述：大模型时代的AVI，究竟走到哪一步了？

news 2026/5/24 0:50:12

音频-视觉智能（Audio-Visual Intelligence，AVI）已成为人工智能（AI）领域的前沿方向之一。它连接听觉与视觉模态，使机器能够在多模态真实世界中进行感知、生成和交互，服务于理解任务，也支撑跨动态、时间对齐信号的可控生成与推理。

Meta MovieGen、Google Veo-3 等工业系统的相继出现，表明音频-视觉建模应用正走向端到端架构和协同生成。但在学术层面，音频-视觉智能研究仍然较为分散：不同子领域在定义、术语和任务分类上缺乏统一框架，评估协议也尚未形成一致标准，尤其难以衡量开放式生成、音画对齐、时间一致性和人类主观体验。隐私保护、数据授权、水印溯源、深度伪造和训练能耗等安全治理问题，仍有待后续研究进一步解决。

针对这个问题，新加坡国立大学、牛津大学团队及其合作者从大型基础模型的视角，对音频-视觉智能进行了首次全面回顾。

论文链接：https://arxiv.org/abs/2605.04045

他们建立了一套统一的分类体系，覆盖音频-视觉智能任务的广泛范围，从理解类（如语音识别、声音定位）到生成类（如音频驱动的视频合成、视频转音频），再到交互类（如对话、具身或 Agentic 接口）。

图｜音频-视觉智能演化树（2016 - 2026 年）

他们也系统地梳理了该领域的方法论基础，包括模态 tokenization、跨模态融合、自回归与基于 diffusion 的生成、大规模预训练、指令对齐和偏好优化。

此外，他们还整理了代表性数据集、benchmark 和评估指标，在不同任务类别间进行了结构化比较，并识别出了同步、空间推理、可控性和安全性等方面仍存在的挑战。

通过将这一快速发展的领域整合为一个连贯的框架，该综述旨在成为未来大规模音频-视觉智能研究的基础参考。

三类任务：理解、生成和交互

研究团队将音频-视觉智能任务分为三类：理解世界、创造世界，以及与世界交互。

图｜音频-视觉智能任务总览

理解世界，即音频-视觉感知。研究团队把这一类任务分成像素级感知、内容理解和逻辑推理。像素级感知关注声音与画面的直接对应，比如语音识别、目标检测、声源定位、音频-视觉事件定位和分割；内容理解进一步提取对象、事件，以及它们之间的时间和因果关系；逻辑推理则要求系统根据音频-视觉证据推断潜在原因，或预测接下来可能发生什么。

图｜音频-视觉感知、理解

创造世界，即合成时间对齐、语义一致、感知上真实的多模态内容。研究团队将生成任务分为三类：条件生成、跨模态生成和联合音频-视觉生成。条件生成指根据文本、标签或结构化属性，生成相应的音频、图像或视频；跨模态生成指由一种模态生成另一种模态，比如用音频生成说话人视频，或根据视频生成声音、语音和；联合音频-视觉生成生成则要求声音和画面在生成过程中同时建模、相互约束，以保持时间同步和因果一致。

图｜音频-视觉生成任务

与世界交互，侧重模型是否能根据现场变化及时回应。和离线理解或离线生成不同，交互系统需要持续接收音频-视觉输入，理解上下文和用户意图，并及时输出多模态回应或动作。交互式音频-视觉对话发生在数字界面中，系统要根据语音、图像或视频输入做回应，在对话中完成图像和视频编辑，或作为全模态助手，同时接收语音、图像、视频和文本输入，给出相应反馈。

图｜音频-视觉对话

具身交互则发生在物理环境中，比如机器人根据声音和画面导航、回答现场问题，或完成抓取、移动等操作。音频-视觉智能要根据正在变化的环境持续判断，并把判断转换成下一步动作。

图｜音频-视觉具身交互

方法论基础：表示、对齐与可控输出

音频-视觉智能的基本流程，是先把声音和画面转成模型能理解的表示，再找出声音和画面的关系，最后输出回答、生成内容或交互动作。

首先，声音和视频信号需要转化为模型可处理的表示。声音对应波形或声谱图，视频对应连续图像帧。它们的信息密度、变化节奏和冗余方式都不一样。模型不能简单地把两者混在一起处理，需要通过模态 tokenization 压缩成模型可处理的 token 表示，同时尽量保留声音细节、动作节奏和时间关系。

图｜音频-视觉数据表示概述

其次是对齐与融合。对齐负责为声音与画面建立稳定对应，包括时间上的同步与先后、空间上的声源位置与传播关系，以及语义上的事件匹配。融合负责让声音和画面在共享表示或交互结构中相互补充。自监督学习、对比对齐、相关性建模和 cross-modal attention，能让模型从大规模音频-视觉数据中识别声音与画面之间的共现、时序和语义关系，完成识别、生成或交互。

最后是输出。音频-视觉智能系统会把前面建立起来的表示、对齐和融合关系，转成回答、声音、画面或动作。在生成方法上，研究团队重点梳理了 GAN、扩散模型、自回归模型和掩码自回归模型。早期研究曾使用 GAN 进行图像、语音和跨模态生成；扩散模型更擅长生成高保真图像、视频和音频；自回归模型在图像、音频和视频经过离散 tokenization 后，通过 next-token prediction 对 token streams 进行建模；掩码自回归方法则通过并行预测被遮蔽的 token，提高长序列生成效率。在视频到音频等任务上，模型能力的提升体现在声音更自然，也体现在对事件、声源和时序关系的把握更准确。

进入大型基础模型阶段，LLM 开始在不少音频-视觉系统中承担理解、调度和生成控制的核心角色。Encoder+LLM 路线主要负责把声音和画面编码成语言模型可以理解的表示，用于问答、识别和推理；LLM+Generator 路线让语言模型先理解用户意图，再调用图像、视频或音频生成器完成输出，统一音频-视觉基础模型，则让同一套系统同时支持音频-视觉理解与生成。面向更复杂的交互任务时，Agentic 系统会把工具调用、任务规划和多步执行纳入流程；VLA 模型负责把视觉、语言和动作连接起来，服务于机器人控制、导航和具身交互等场景。

大规模预训练、指令对齐和偏好优化，则影响了音频-视觉模型在真实使用中的稳定性、可控性和用户体验。预训练提供基础能力，指令对齐让模型理解任务要求，偏好优化则把输出进一步拉近人的判断和使用习惯。对音频-视觉智能来说，好的结果不只是画面清楚、声音自然，还要同步可靠、声源合理、修改可控，交互时也能保持稳定。

视听智能的现实应用与评测

目前，音频-视觉智能最直接的应用仍在内容生产。视频拟音、配乐、口型同步、短片生成，都经有明确的落地场景。Diff-Foley、MMAudio、FoleyCrafter 支持静音视频转换成带时序对齐的声音，JavisDiT、Veo-3、Seedance 已经可以支持从文本生成同步的音频和视频。

图｜音频-视觉智能发展阶段路线图。

数字人是另一个典型的应用场景。早期 Wav2Lip 主要在处理唇形同步，后来的 FaceFormer、CodeTalker、AD-NeRF、GaussianTalker 模型开始引入三维表示和神经渲染。很多数字人之所以显得“脸僵”，就是因为模型只追踪了语音或音素，却没有充分建模表情、情绪和非语言动作。

其次，会议、教育和辅助技术同样要求音频-视觉系统同时理解说话人、语音内容和视觉状态；XR 和空间计算要求声音随位置、遮挡和房间结构变化；机器人会把声音当成行动反馈，用来判断碰撞、滑动、倒水进度和材料变化。

图｜音频-视觉智能应用版图。

此外，音频-视觉系统可以用于智慧城市、取证和异常事件检测，联合分析可以监控画面与环境声音，判断事故、冲突或紧急情况，也可以用于 deepfake 检测，通过检查口型和语音是否一致来识别伪造内容。在工业和 IoT 场景中，声音可用于发现设备异常，视觉用于检测产品缺陷，两者结合能提高预测性维护、质量控制和安全监测的可靠性。不过，这类监测系统也可能带来边缘计算、隐私保护和数据治理问题。

评测上，研究团队围绕感知、生成和交互三类任务，分别整理了代表性数据集、 benchmark 和评估指标。理解任务关注事件定位、分割、同步、问答、检索和推理；生成任务关注视频到音频生成、音频到视频生成、联合音频-视觉生成和编辑；交互任务则覆盖全模态对话、音频-视觉导航、场景重建和具身操作。以 Daily-Omni 为例，它重点评估全模态模型的 AV Align、Reasoning 和 Avg accuracy。结果显示，当前全模态模型差距仍然明显：Qwen3-Omni-30B-A3B-Thinking 平均准确率为 73.60，Gemini 2.5 Flash 为 73.06，Qwen2.5-Omni-7B-Instruct 为 62.07，VideoLLaMA2 为 35.17。头部模型已经接近，但不同代际之间仍有断层。

图｜OmniVideoBench 上的时长鲁棒性。横轴表示短视频准确率，纵轴表示超长视频准确率，气泡面积表示总体准确率；位于对角线下方的距离反映了长上下文带来的性能退化。

不足与未来方向

研究团队认为，音频-视觉智能研究，不应只是继续罗列数据、鲁棒性、效率和安全问题。未来方向是构建因果的、上下文感知的、可控的、可验证的、可交互的音频-视觉系统。

当前不足与未来方向如下：

1.从“时间同步”到“因果事件-源锚定”

研究团队指出，目前，同步通常被简化为局部时间匹配：判断音频和视频是否对齐，或预测二者的时间偏移。音频和视频也常被认为只要嵌入、标签或时间偏移匹配，就算已经对齐。但严格来说，只有当声音具有合理的来源、时间起点、传播路径，以及所见与所听之间的因果关系时，它才与视觉事件对齐。

未来方向，需要在延迟、遮挡、画外声和多源混合条件下，建模源级、事件级和因果级对齐。系统不仅要判断声音和画面是否同步，还要解释哪个来源、哪个事件、通过哪条因果路径产生了这个声音。

2.从“成对片段”到“动作条件化的音频-视觉世界模型”

大多数音频-视觉智能数据仍来自成对的音频-视频片段，这会鼓励模型学习相关性：吉他画面对应吉他声，说话人脸对应语音，汽车碰撞对应撞击声。研究团队指出，音频-视觉之间的共现关系当然重要，但仅靠相关性还不足以构成真正的音频-视觉智能。真正的音频-视觉智能需要一个世界模型，能够预测当智能体移动、物体被遮挡、房间发生变化或某个动作被执行时，视觉和声学观测会如何变化。

未来方向，需要建立动作条件化的音频-视觉世界模型，预测声源、材料、空间声学、可供性、意图和不确定性等潜在状态。

3.从“更长 token”到“分层音频-视觉记忆”

长程音频-视觉智能的问题，不能简单理解为扩大上下文窗口、增加模型可处理的 token 数。扁平化的 token 序列仍可能丢失说话人身份，混淆同时出现的声源，或让那些短暂却关键的音频证据被忽略。

未来方向，在于构建选择性、分层、可追溯的音频-视觉记忆，覆盖流式、情节和语义层级。研究团队表示，音频-视觉智能既要保留必要的原始感知，也要记录事件、轨迹、声源、位置和用户任务状态。

4.从“一次性提示生成”到“因果音频-视觉干预”

生成和编辑常默认由提示词指定期望的音频-视觉内容。但在真实创作中，用户往往需要精确控制某个局部变化。

未来方向，需要支持对物体、声音、身份、情绪、空间和时间的局部、因果、同步干预。论文团队指出，可以通过显式或潜在的音频-视觉场景图进行因果编辑，把物体、声部、身份、运动和因果连接组织起来，让编辑成为图上的干预；生成器则需要保留未被修改的部分，同时沿依赖关系传播必要变化。

5.从“粗粒度指标”到“验证器与奖励生态”

现有评估往往用 FAD、FVD、CLIP、SyncNet 类指标来近似衡量质量和对齐。但这些指标只能回答结果“像不像”“是否大致同步”，却很难判断声音是否真的来自画面中的事件。即使全局分数很高，声源身份、时间或传播路径仍可能是错的。例如，SyncNet 类分数主要衡量唇部运动和语音是否同步，却无法判断玻璃撞击声、雨声密度或远处警笛是否真正匹配场景。

未来，需要建立验证器与奖励生态，评估声源锚定、物理合理性、音频不可替代性、长程一致性和任务效用。同时，研究团队也指出，验证器引导的细化必须同时观察两种模态；否则，模型可能把画面优化得更清晰，同步关系却被忽略。

6.从“静态全模态扩展”到“负责任的交互式音频-视觉智能”

当前很多系统默认，全模态模型可以从静态感知和生成直接扩展到交互任务。研究团队指出，交互式音频-视觉智能还需要同时处理实时响应、审慎推理、用户意图建模、隐私、同意和来源追踪。

未来，音频-视觉智能需要在真实交互中兼顾实时响应、推理、用户意图、隐私同意和来源追踪，让系统真正能理解、记忆、行动，保持可控与可验证。

作者：夏千斯

如需转载或投稿，请直接在本文章评论区内留言。

查看全文

http://www.zskr.cn/news/1361913.html