电竞牛股份有限公司 - AI电竞训练平台领跑者

NUS、牛津、微软等9机构发布音视频智能综述:系统梳理大模型时代的AVI研究全景

发布时间 - 2026-05-26 23:07:19    点击率:

  

NUS、牛津、微软等9机构发布音视频智能综述:系统梳理大模型时代的AVI研究全景(图1)

  GPT-4o 一边看屏幕一边和你语音对线、MovieGen、Seedance 2.0 直接把原生音轨纳入视频生成链路;HappyHorse 这类近期模型也开始探索音视频联合生成;OpenVLA 让机器人” 听音辨物”—— 音视频大模型,正在从” 加在视觉模型旁边的一个 ASR”,进化成 omni-modal 基础模型的核心能力之一。

  NUS 联合牛津、多伦多、UTD、HKUST、QMUL、微软研究院、罗切斯特大学等共 9 家机构最近推出据作者所知第一份系统的音视频智能(AVI)大模型综述,用一张演化树串起十年发展,给出统一 taxonomy、三条主线与六大未来研究轴,把 AVI 在大模型时代的角色与待解问题摆到了同一张地图上。

  2024 年 GPT-4o 把语音、视觉、文本塞进同一个 backbone,2025 年GoogleVeo-3、MetaMovieGen 把” 原生带音轨的视频生成” 作为统一目标,2026 年字节 Seedance 2.0 和 HappyHorse 等工作进一步把文本、图像、视频、音频条件与同步音视频输出放进同一代视频生成叙事中;Qwen-Omni 把多模态对话推到流式实时层面,OpenVLA、π0、GR00T 这一线 VLA 模型则开始让机器人同时处理语音指令、视觉、动作甚至环境声响。

  但与此同时,整个领域的学术地图却仍然高度分散。ASR、数字人 / 说话头(talking head)、电竞牛Foley(拟音)合成、视频配音(V2A)、音频驱动视频生成(A2V)、音画编辑、音视频问答(AVQA)、空间音频推理、AV 导航、AV 操作…… 每一个子方向都有自己的范式、benchmark 与评测口径。

  正是在这一背景下,新加坡国立大学(NUS)联合牛津大学、多伦多大学、UTD、HKUST、QMUL、微软研究院、罗切斯特大学等机构,推出了据作者所知第一份专门针对” 音视频大模型(AVI in Large Foundation Models)“的系统综述。

  论文本身的立意,是把AVI 当作大模型时代下、与单模态语言模型同等重要的一支基础能力来梳理:从音视频对齐、到联合音视频生成、再到实时闭环交互,应该形成一个连贯的研究框架,而不是被 ASR、Foley(拟音)、数字人 / 说话头、AVQA 各自的范式继续切碎。

  二、十年 AVI” 进化树”:从” 对得上” 到” 听 - 看 - 说 - 动一体”

  打开 paper 第一页,先映入眼帘的就是这张2016–2026 AVI 进化树:

  更重要的是,论文明确指出,从 Era 1 到 Era 4,有6 条瓶颈贯穿始终:音画同步、时序一致性、可控生成、评测体系、实时延迟、安全治理与数据合规。这些问题不会因为模型变大就自动消失,反而会随着场景升级(短视频 → 长视频 → 实时 omni → agentic)反复出现。

  论文给出的统一 taxonomy 是核心交付物之一,它把 AVI 拆成三条主线:

  理解世界(Understanding the World,Perception):包括音视频语音识别(AV-ASR)、唇语识别(lip reading)、活跃说话人检测(ASD)、声源定位与分离、音视频事件理解、跨模态检索、音视频问答(AVQA)这些经典任务,加上越来越多基于 AV-LLM 的长视频理解与因果推理任务。

  创造世界(Creating the World,Generation):被进一步拆成” 条件生成 / 跨模态生成 / 联合音视频生成 / 音画编辑” 四类,覆盖视频配音(V2A)、音频驱动视频生成(A2V)、joint AV 生成等代表方向。论文特别指出,电竞牛真正” 原生联合” 的音视频生成才刚刚开始——MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 这类近期模型已经能从文本或多模态条件生成带原生音轨的视频,但跨身份、跨时长、跨场景物理合理性的音画同步生成,以及局部、可控的音画编辑,仍是开放问题。

  论文强调:交互不是一次性输出,而是带状态的闭环 —— 感知 → 推理 → 响应 / 行动,要在延迟、反馈和用户意图的约束下持续运行。这也是为什么 omni-modal 与 VLA 类模型会在 Era 4 同时出现。

  如果说三条主线组织的是” 做什么”,基础技术这一章组织的就是” 怎么做”。论文把 AVI 的技术栈拆成三块:

  Representation(表示):音频与视觉特征抽取、VAE / 重建式压缩、离散化 tokenization、跨模态对齐与融合。在大模型语境下,关键问题已从” 特征对不对得上” 升级为” 用哪种 token 把音视信号塞进 LLM 才最高效”。

  对正在搭” 音视频版 GPT-4o” 的工程团队来说,这张图大体相当于一份 AV 大模型架构选型的速查表,可以拿来对照自己当前的 backbone /encoder/decoder 划分。

  1.AIGC 与创意内容:视频配音 / Foley(拟音)合成、跨语言唇形同步、配乐与音画编辑,再到一次性出” 带原生音轨短场景” 的 JavisDiT、Veo-3、Seedance 2.0、HappyHorse 等联合音视频生成模型;

  6.泛在感知与安全治理:智慧城市、工业 IoT、深伪检测、声学异常检测、水印与数据合规、隐私与边缘部署。

  AVI 发展路线图:前三阶段建立起” 对应 / 感知 / 生成” 的能力基础,当下处于交互式 omni-modal 与具身模型这一前沿,再往后是因果 - 上下文 AVI 与可验证的 agentic AVI—— 下文六大主轴正对应路线图右侧两段需要补齐的关键能力。

  论文最后给出六条未来研究主轴,覆盖音画同步、因果事件 grounding、空间音频推理、长程上下文记忆、可控生成、安全治理、水印与数据合规等关键问题,并强调这六轴不是更长的待办清单,而是把 AVI 与” 通用多模态学习” 区分开的结构性能力:

  1.因果事件 - 声源 grounding:建模延迟、遮挡、画外音、多源混合下的源级 / 事件级 / 因果对齐,把音画同步推向因果可解释层面;

  2.AV 世界模型:把音视频当作几何、材质、动力学、可供性、用户 / 社交状态的互补证据,并以空间音频推理作为关键能力;

  3.长程 AV 上下文记忆:构建流式 / 情景 / 语义多层、可选择、可溯源的 AV 记忆,而不是简单加长上下文窗口;

  4.因果 AV 干预与可控生成:让生成与编辑支持对物体、声音、身份、情绪、空间、时间的局部、因果、同步干预;

  6.交互式与负责任 AVI:在低延迟、隐私、版权、水印与数据合规等安全治理约束下,把 AV 模型变成可被信任的实时合作者。

  交互式与负责任 AVI ↔ omni 助手 / 实时陪练 / 具身机器人。

  1. 论文给出了” 音视频大模型” 研发的统一坐标系。不论你是在做视频生成、数字人 / 说话头、omni 助手,还是 AV 智能体或具身机器人,都能在这张全景图里找到自己的位置,进而判断邻接技术栈在哪里、可借鉴的方法是什么。

  2. 它明确指出了 omni-modal 模型的下一波竞争点不在” 能不能听 / 能不能看”,而在” 能不能在统一 backbone 或统一生成链路下做长程 AV 上下文推理 + 原生音画同步生成 + 实时闭环交互”。GPT-4o、Veo-3、Seedance 2.0、Qwen-Omni、OpenVLA,以及 HappyHorse 这类近期联合音视频生成尝试,都在从不同侧面推进这一趋势。

  3. 评测体系正在重塑。论文对 FAD / FVD / CLIP / SyncNet 这类代理指标在音画同步与音频不可替代性维度上的局限做了系统讨论,并明确把 verifier & reward 生态列为未来主轴之一。可以预期未来一年,AV 评测会从” 主观打分 + 代理指标”,走向” 任务效用 + 物理合理性 + 安全可溯源” 的多维评测体系。

  4. 安全治理已经从锦上添花走向基础设施层面。深伪、版权、隐私、水印与数据合规、实时滥用,将成为部署侧不可绕过的硬约束。

  对任何在做 AV 大模型、omni-modal 模型、视频生成、数字人 / 说话头、AV 智能体、具身机器人、空间音频或深伪检测的团队,这篇综述长文都值得完整通读一次。

  配套的 Awesome-AVI 仓库会持续更新方法、数据集与 benchmark,研究者可以围绕它跟踪最新进展。

上一篇:科研作底色创业焕光彩

下一篇:暂无

上一篇:科研作底色创业焕光彩

下一篇:暂无