OmniShow – 字节联合港中文、港大等开源的视频生成模型

AI工具集2分钟前发布 商道网
82 0 0

OmniShow是什么

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可生成10秒高质量视频。模型采用门控局部上下文注意力等技术实现音视频精确同步,在HOIVG-Bench基准上达多项SOTA。

OmniShow – 字节联合港中文、港大等开源的视频生成模型

OmniShow的主要功能

  • 全模态条件输入:作为首个完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端框架,OmniShow 能同时接收参考图像、音频、姿势信号和文本描述四种模态输入,实现对人-物交互视频的全面控制。
  • 多任务统一生成:模型通过灵活组合不同输入条件,可在单一架构内完成多种视频生成任务,包括基于参考图的视频生成(R2V)、音频驱动的数字人视频(RA2V)、姿势驱动的动画(RP2V)以及全模态精确控制(RAP2V)。
  • 高质量长视频合成:OmniShow 原生支持生成长达 10 秒的连续视频,在保持角色外观一致性的同时,实现口型、表情和肢体动作与音频的精确同步,输出达到行业级视觉质量。
  • 物体替换与视频混剪:用户可在保留人物动作和姿势的前提下替换视频中的物体,或从不同来源重组姿势、物体和人物参考,实现灵活的创意视频编辑与合成。

OmniShow的技术原理

  • 统一通道条件注入:通过在通道维度拼接参考图像和姿势信号,将多模态条件高效注入预训练视频生成模型,避免了传统调制方法对基础模型预训练先验的破坏,确保在引入人-物外观和动作控制的同时维持原始生成质量。
  • 门控局部上下文注意力:采用掩码注意力配合可学习门控向量的设计,使模型能动态关注音频特征与局部面部/身体区域的关联,实现口型、表情和肢体动作与音频信号的精确时间同步,解决多模态融合时的特征冲突问题。
  • 解耦-联合训练策略:针对 R2V 和 A2V 任务数据异构且规模不平衡的挑战,分别训练专用子模型学习各模态的独立映射关系,通过权重插值进行融合,在联合数据上微调,有效整合异构数据集并提升全模态输入下的生成一致性。

如何使用OmniShow

  • 获取开源代码:从官方渠道克隆代码库到本地,按照 README 配置包含依赖项的运行环境。
  • 准备多模态输入:根据生成任务需求,整理参考图像(人物或物体外观)、驱动音频、姿势序列文件及文本描述。
  • 执行视频生成:调用模型 API 或运行推理脚本,输入组合后的多模态条件,生成长达 10 秒的高质量人-物交互视频并保存输出结果。

OmniShow的关键信息和使用要求

  • 项目定位:OmniShow 是字节跳动联合香港中文大学、莫纳什大学、香港大学共同开源的行业级多模态人-物交互视频生成模型,专为复杂的人与物体互动场景设计。
  • 技术规模:模型采用 12.3B 参数架构,是同类模型(如 HuMo-17B、Phantom-14B)中最为参数高效的方案,在保持高性能的同时显著降低计算资源需求。
  • 核心能力:作为首个完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端统一框架,能同时接收参考图像、音频信号、姿势序列和文本描述四种模态输入进行联合推理。
  • 生成质量:原生支持生成最长 10 秒的连续视频,通过门控局部上下文注意力技术实现口型、表情、肢体动作与音频的精确同步,达到行业级视觉标准。
  • 性能表现:在自建的 HOIVG-Bench 基准测试中,OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四项任务上均达到 SOTA 水平,是唯一支持全模态输入的领先方案。

OmniShow的核心优势

  • 全模态统一架构:作为业界首个完整支持 RAP2V(参考图+音频+姿势→视频)的端到端框架,OmniShow 实现了文本、图像、音频、姿势四种条件的原生统一处理,无需多个专用模型拼接即可应对复杂的多模态输入组合。
  • 极致参数效率:12.3B 参数在 HOIVG-Bench 基准上达到多项 SOTA,显著优于 HuMo-17B(17B)、Phantom-14B(14B)等更大参数模型,在保持行业级生成质量的同时大幅降低推理成本。
  • 单一模型多任务覆盖:通过灵活的输入组合策略,一个 OmniShow 模型即可胜任 R2V(参考图生成)、RA2V(音频驱动数字人)、RP2V(姿势驱动动画)和完整 RAP2V(全模态控制)四类任务,无需针对不同场景切换模型。
  • 音视频精确同步:采用创新的门控局部上下文注意力机制,通过可学习门控向量和掩码注意力实现口型、面部表情、肢体动作与音频信号的高度同步,在 Sync-C 指标上达到 8.612 的领先水平。
  • 长视频原生生成:不同于依赖滑动窗口的外推方法,OmniShow 原生支持一次生成长达 10 秒的连续视频,在保持角色外观、物体样式和时间连贯性方面具有显著优势。

OmniShow的项目地址

  • 项目官网:https://correr-zhou.github.io/OmniShow/
  • GitHub仓库:https://github.com/Correr-Zhou/OmniShow

OmniShow的应用场景

  • 电商产品展示:通过参考图像替换功能,可在保持模特动作和姿势不变的情况下,快速替换展示服装、配饰或商品,实现高效的商品视频化呈现。
  • 数字人短视频制作:基于 RA2V(参考图+音频)能力,输入人物照片和语音可生成口型同步的说话或唱歌视频,适用虚拟主播、社交媒体内容创作。
  • 创意视频混剪:用多模态重组能力,从不同来源提取姿势、物体和人物参考进行创意合成,实现跨视频的个性化内容编辑与二次创作。
  • 互动娱乐与游戏:借助姿势驱动(RP2V)功能,将用户动作捕捉实时转化为游戏角色或虚拟形象的动画,支持全身姿态控制的实时交互体验。
  • 广告与营销内容生成:结合全模态输入(RAP2V),精确控制品牌代言人外观、台词音频和肢体动作,批量生成风格统一的宣传视频素材。
© 版权声明

相关文章