VerseCrafter – 复旦联合腾讯开源的动态真实视频世界模型

VerseCrafter是什么

VerseCrafter 是复旦大学与腾讯 PCG ARC Lab 等机构推出的动态真实视频世界模型,具备 4D 几何控制能力。模型基于大规模真实世界数据集 VerseControl4D 训练,能处理复杂动态场景,保持强时空一致性。用户能指定相机轨迹和目标轨迹,生成高质量、几何一致的视频。模型能在视频生成、虚拟现实和游戏开发等领域具有广阔的应用前景。

VerseCrafter – 复旦联合腾讯开源的动态真实视频世界模型

VerseCrafter的主要功能

  • 4D几何控制:用户能通过指定相机轨迹和多目标的3D高斯轨迹,实现对视频中视角和物体运动的精确控制。
  • 灵活的控制模式:模型支持相机单独控制、目标单独控制及相机与目标的联合控制,满足不同场景需求。
  • 高质量视频生成:在保持视频真实感的同时,确保生成视频的几何一致性,避免失真。
  • 多视角一致性:模型能从不同视角生成一致的视频内容,适用多人交互场景。
  • 大规模数据支持:基于VerseControl4D数据集训练,涵盖动态和静态场景,提升模型的泛化能力。

VerseCrafter的技术原理

  • 冻结的Wan2.1主干网络:模型采用预训练的Wan2.1作为基础模型,保持强大的视频生成能力和泛化能力,同时在Wan2.1基础上注入几何控制信号。
  • GeoAdapter:一个轻量级的几何适配器,将4D控制信号(相机轨迹和3D高斯轨迹)编码为多通道地图,注入到Wan2.1的扩散块中,实现精确控制。
  • 4D控制信号渲染:将相机轨迹和目标轨迹渲染为背景RGB/深度图和3D高斯轨迹图,作为条件信号输入到生成模型中。
  • VerseControl4D数据集:通过大规模真实世界视频数据,提取相机轨迹和目标轨迹,为模型训练提供丰富的几何监督,支持动态和静态场景的生成。

VerseCrafter的项目地址

  • 项目官网:https://sixiaozheng.github.io/VerseCrafter_page/
  • GitHub仓库:https://github.com/TencentARC/VerseCrafter
  • HuggingFace模型库:https://huggingface.co/TencentARC/VerseCrafter
  • arXiv技术论文:https://arxiv.org/pdf/2601.05138

VerseCrafter的应用场景

  • 虚拟现实(VR)和增强现实(AR):VerseCrafter 可构建沉浸式虚拟世界,支持用户通过相机和物体运动控制实时探索场景,提升交互体验。
  • 游戏开发:为游戏生成动态背景和物体运动,优化视角切换和渲染效果,降低开发成本。
  • 视频内容创作:创作者用 VerseCrafter 快速生成高质量动态视频,满足广告、电影和动画制作中的创意需求。
  • 教育与培训:VerseCrafter 能创建逼真的虚拟教学场景,如历史重现和科学实验模拟,提升学生的学习兴趣和参与度。
  • 娱乐与媒体:用于开发互动式视频内容,如选择式剧情视频,观众可通过控制视角和物体运动改变故事走向。
© 版权声明

相关文章