OmniShow是什么
OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V(参考图+音频+姿势)的端到端框架,模型统一处理文本、图像、音频、姿势四种输入,单一12.3B参数模型即可生成10秒高质量视频。模型采用门控局部上下文注意力等技术实现音视频精确同步,在HOIVG-Bench基准上达多项SOTA。
OmniShow的主要功能
-
全模态条件输入:作为首个完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端框架,OmniShow 能同时接收参考图像、音频、姿势信号和文本描述四种模态输入,实现对人-物交互视频的全面控制。
-
多任务统一生成:模型通过灵活组合不同输入条件,可在单一架构内完成多种视频生成任务,包括基于参考图的视频生成(R2V)、音频驱动的数字人视频(RA2V)、姿势驱动的动画(RP2V)以及全模态精确控制(RAP2V)。
-
高质量长视频合成:OmniShow 原生支持生成长达 10 秒的连续视频,在保持角色外观一致性的同时,实现口型、表情和肢体动作与音频的精确同步,输出达到行业级视觉质量。
-
物体替换与视频混剪:用户可在保留人物动作和姿势的前提下替换视频中的物体,或从不同来源重组姿势、物体和人物参考,实现灵活的创意视频编辑与合成。
OmniShow的技术原理
- 统一通道条件注入:通过在通道维度拼接参考图像和姿势信号,将多模态条件高效注入预训练视频生成模型,避免了传统调制方法对基础模型预训练先验的破坏,确保在引入人-物外观和动作控制的同时维持原始生成质量。
- 门控局部上下文注意力:采用掩码注意力配合可学习门控向量的设计,使模型能动态关注音频特征与局部面部/身体区域的关联,实现口型、表情和肢体动作与音频信号的精确时间同步,解决多模态融合时的特征冲突问题。
- 解耦-联合训练策略:针对 R2V 和 A2V 任务数据异构且规模不平衡的挑战,分别训练专用子模型学习各模态的独立映射关系,通过权重插值进行融合,在联合数据上微调,有效整合异构数据集并提升全模态输入下的生成一致性。
如何使用OmniShow
-
获取开源代码:从官方渠道克隆代码库到本地,按照 README 配置包含依赖项的运行环境。
-
准备多模态输入:根据生成任务需求,整理参考图像(人物或物体外观)、驱动音频、姿势序列文件及文本描述。
-
执行视频生成:调用模型 API 或运行推理脚本,输入组合后的多模态条件,生成长达 10 秒的高质量人-物交互视频并保存输出结果。
OmniShow的关键信息和使用要求
-
项目定位:OmniShow 是字节跳动联合香港中文大学、莫纳什大学、香港大学共同开源的行业级多模态人-物交互视频生成模型,专为复杂的人与物体互动场景设计。
-
技术规模:模型采用 12.3B 参数架构,是同类模型(如 HuMo-17B、Phantom-14B)中最为参数高效的方案,在保持高性能的同时显著降低计算资源需求。
-
核心能力:作为首个完整支持 RAP2V(Reference+Audio+Pose-to-Video)的端到端统一框架,能同时接收参考图像、音频信号、姿势序列和文本描述四种模态输入进行联合推理。
-
生成质量:原生支持生成最长 10 秒的连续视频,通过门控局部上下文注意力技术实现口型、表情、肢体动作与音频的精确同步,达到行业级视觉标准。
-
性能表现:在自建的 HOIVG-Bench 基准测试中,OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四项任务上均达到 SOTA 水平,是唯一支持全模态输入的领先方案。
OmniShow的核心优势
-
全模态统一架构:作为业界首个完整支持 RAP2V(参考图+音频+姿势→视频)的端到端框架,OmniShow 实现了文本、图像、音频、姿势四种条件的原生统一处理,无需多个专用模型拼接即可应对复杂的多模态输入组合。
-
极致参数效率:12.3B 参数在 HOIVG-Bench 基准上达到多项 SOTA,显著优于 HuMo-17B(17B)、Phantom-14B(14B)等更大参数模型,在保持行业级生成质量的同时大幅降低推理成本。
-
单一模型多任务覆盖:通过灵活的输入组合策略,一个 OmniShow 模型即可胜任 R2V(参考图生成)、RA2V(音频驱动数字人)、RP2V(姿势驱动动画)和完整 RAP2V(全模态控制)四类任务,无需针对不同场景切换模型。
-
音视频精确同步:采用创新的门控局部上下文注意力机制,通过可学习门控向量和掩码注意力实现口型、面部表情、肢体动作与音频信号的高度同步,在 Sync-C 指标上达到 8.612 的领先水平。
-
长视频原生生成:不同于依赖滑动窗口的外推方法,OmniShow 原生支持一次生成长达 10 秒的连续视频,在保持角色外观、物体样式和时间连贯性方面具有显著优势。
OmniShow的项目地址
- 项目官网:https://correr-zhou.github.io/OmniShow/
- GitHub仓库:https://github.com/Correr-Zhou/OmniShow
OmniShow的应用场景
- 电商产品展示:通过参考图像替换功能,可在保持模特动作和姿势不变的情况下,快速替换展示服装、配饰或商品,实现高效的商品视频化呈现。
- 数字人短视频制作:基于 RA2V(参考图+音频)能力,输入人物照片和语音可生成口型同步的说话或唱歌视频,适用虚拟主播、社交媒体内容创作。
- 创意视频混剪:用多模态重组能力,从不同来源提取姿势、物体和人物参考进行创意合成,实现跨视频的个性化内容编辑与二次创作。
- 互动娱乐与游戏:借助姿势驱动(RP2V)功能,将用户动作捕捉实时转化为游戏角色或虚拟形象的动画,支持全身姿态控制的实时交互体验。
- 广告与营销内容生成:结合全模态输入(RAP2V),精确控制品牌代言人外观、台词音频和肢体动作,批量生成风格统一的宣传视频素材。
© 版权声明
文章版权归作者所有,未经允许请勿转载。