港大开源“AI导演” ViMax火了!一句话生成大片,人人皆是好莱坞导演?

港大开源“AI导演” ViMax火了!一句话生成大片,人人皆是好莱坞导演?

这不仅是生成,更是“制作”!开源框架ViMax如何用“五大AI职员”颠覆影视工业?

项目介绍:从“片段生成”到“系统化制作”的范式革命

当前,以Sora、Runway为代表的文本生成视频技术令人惊艳,但它们往往止步于生成数秒至数十秒的单一、连贯镜头。当我们梦想AI创作一部包含复杂情节、多场景切换、角色统一的短片时,便立刻面临两大“天花板”:叙事规划的复杂爆炸跨镜头的视觉连贯性缺失

香港大学黄超教授团队开源的ViMax,正是为突破这一天花板而生。它不再仅仅是一个视频生成模型,而是一个面向长视频、实现Agentic Video Generation(智能体驱动视频生成)的完整框架。ViMax通过模拟一个专业的影视制作团队,实现了从创意构思、剧本写作、分镜规划到视频生成与质量控制的端到端全自动化流程,将AI视频创作从“片段拼接”提升到了“体系化制作”的新阶段。自开源以来,已在GitHub上获得超过1.4K星标,显示出社区的强烈兴趣。

核心功能与架构:一个由AI组成的“一人剧组”

ViMax的核心设计思想是多智能体协同,它将传统影视工业的工种拆解为五个高度专业化的AI智能体,各司其职:

  1. 编剧智能体:负责将用户输入的一句话想法、小说或剧本片段,转化为结构化的标准影视剧本,包含场景、对白和节奏。

  2. 分镜智能体:基于电影语言理论,将剧本分解为具体的镜头语言,规划摄像机位置、运动轨迹、光影和角色调度,形成“拍摄蓝图”。

  3. 视频生成智能体:采用“先图后视频”策略,先生成关键视觉资产(角色、场景),再基于这些资产生成动态视频片段,确保风格可控。

  4. 质量控制智能体:利用视觉语言模型对生成的多个候选视频进行多维评估,筛选最优结果或触发参数调优与重新生成,形成质量闭环。

  5. 导演智能体:作为总指挥,统筹以上所有智能体,确保流程顺畅与最终成片的风格统一。

三大核心技术解决长视频难题
  • 三层递归规划体系:为驾驭复杂叙事,ViMax将故事递归分解为事件层(故事骨架)、场景层(戏剧单元)、镜头层(执行指令),让语言模型在每个层级处理适度的复杂度,同时保持整体连贯。

  • RAG增强的全局上下文同步:为避免分层导致信息割裂,ViMax通过检索增强生成技术为每个阶段动态检索并融合全局故事背景(如角色关系、前文伏笔),防止出现角色性格突变或情节矛盾。

  • 图网络驱动的视觉一致性方案:这是ViMax的技术亮点。它通过构建镜头间共享视觉元素(角色、场景)的依赖关系图,并据此优化生成顺序。无依赖的镜头并行生成以提效,有依赖的镜头则基于前序生成的画面进行“条件生成”,从根本上保障了角色外貌、场景风格在跨镜头间的稳定。此外,它还能生成过渡视频来校准同一场景多视角的空间几何关系,确保镜头切换流畅自然。

使用方法:开启你的AI导演之路

根据项目文档,开始使用ViMax的步骤如下:

  1. 环境准备:确保系统为Linux或Windows,并安装好Python环境管理工具uv

  2. 克隆与安装

    git clone https://github.com/HKUDS/ViMax.git cd ViMax uv sync
  3. 配置与运行:ViMax支持多种输入模式,核心配置文件位于configs/目录下。

    • 创意转视频:在configs/idea2video.yaml中配置你的大模型(如OpenAI、Claude)和图像/视频生成API密钥。然后在main_idea2video.py中提供你的创意想法。

    • 剧本转视频:在configs/script2video.yaml中完成类似配置,在main_script2video.py中提供你的详细剧本。

完成配置后,运行对应的主程序,ViMax的多智能体系统便会开始全自动工作,最终输出完整的视频文件。

代码与原理演示:多智能体如何协作

尽管ViMax内部流程复杂,但用户交互界面可以非常简洁。其核心协作逻辑可以简化为一个高效的决策与执行循环。例如,当编剧智能体生成一段剧本后,导演智能体会协调分镜智能体进行解析:

# 概念性伪代码,展示ViMax内部智能体间的决策与任务传递 class DirectorAgent: def orchestrate(self, user_input): # 1. 编剧智能体将想法转化为结构化剧本 screenplay = ScreenwriterAgent().write_script(user_input) # 2. 分镜智能体将剧本分解为镜头列表 shot_list = ShotPlanningAgent().plan_shots(screenplay) # 3. 基于依赖图,智能调度视频生成 dependency_graph = build_dependency_graph(shot_list) for shot in topological_sort(dependency_graph): # 并行生成独立镜头,条件生成依赖镜头 video_clip = VideoGenerationAgent().generate(shot, reference=shot.depends_on) # 4. 质量评估与迭代 ifnot QualityControlAgent().evaluate(video_clip): video_clip = self.retry_generation(shot) # 5. 最终剪辑与输出 final_video = self.assemble_all_clips() return final_video

优势对比:在AI视频工具丛林中的定位

与市场上其他流行的AI视频生成工具相比,ViMax的定位和优势非常清晰:

特性/项目

ViMaxMoneyPrinterTurboSora / Runway

等基础模型

核心定位端到端智能体化视频制作框架短视频自动合成工具文本到视频生成模型
核心能力长叙事规划、多镜头一致性、专业分镜

素材匹配、文案生成、配音字幕合成

高质量单镜头/短镜头生成

输入形式

一句话想法、小说、剧本

主题、关键词、自定义文案

详细的文本描述

输出特点具备电影语言的多镜头故事短片

基于现有素材混剪的解说类短视频

艺术性、想象力强的视频片段

技术门槛

较高,需理解架构与配置

较低,提供Web UI

低,直接文本交互

自动化程度极高,全流程自动化

高,但依赖素材库

单一环节生成

简而言之,ViMax的野心不在于生成一个几秒的惊艳片段,而在于自动化地制作一个结构完整、视觉连贯的“电影作品”。它填补了从“基础视频生成能力”到“可用视频作品产出”之间的巨大鸿沟。

总结与展望

ViMax的出现,标志着AI视频生成领域从追求“视觉奇观”迈向解决“制作工程”的关键一步。它通过系统性的多智能体架构,将专业影视制作的知识编码进自动化流程,为独立创作者、内容营销者和影视教育等领域提供了革命性的工具。

当然,作为前沿研究框架,ViMax仍有提升空间,例如计算成本优化、支持更多交互编辑功能、整合音频生成以及理解多元文化叙事等。然而,其最重要的贡献在于指明了一条可行的技术路径:未来的AIGC不仅是更强大的生成模型,更是能够理解复杂任务、进行专业规划与协作的智能体系统。ViMax正为这个未来拉开序幕。

项目地址:https://github.com/HKUDS/ViMax