OmniShow – 字节联合港中文、港大等开源的视频生成模型

OmniShow是什么

OmniShow是字节跳动联合港中文、莫纳什、港大开源的多模态人-物交互视频生成模型。作为首个支持RAP2V（参考图+音频+姿势）的端到端框架，模型统一处理文本、图像、音频、姿势四种输入，单一12.3B参数模型即可生成10秒高质量视频。模型采用门控局部上下文注意力等技术实现音视频精确同步，在HOIVG-Bench基准上达多项SOTA。

OmniShow的主要功能

全模态条件输入：作为首个完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端框架，OmniShow 能同时接收参考图像、音频、姿势信号和文本描述四种模态输入，实现对人-物交互视频的全面控制。
多任务统一生成：模型通过灵活组合不同输入条件，可在单一架构内完成多种视频生成任务，包括基于参考图的视频生成（R2V）、音频驱动的数字人视频（RA2V）、姿势驱动的动画（RP2V）以及全模态精确控制（RAP2V）。
高质量长视频合成：OmniShow 原生支持生成长达 10 秒的连续视频，在保持角色外观一致性的同时，实现口型、表情和肢体动作与音频的精确同步，输出达到行业级视觉质量。
物体替换与视频混剪：用户可在保留人物动作和姿势的前提下替换视频中的物体，或从不同来源重组姿势、物体和人物参考，实现灵活的创意视频编辑与合成。

OmniShow的技术原理

统一通道条件注入：通过在通道维度拼接参考图像和姿势信号，将多模态条件高效注入预训练视频生成模型，避免了传统调制方法对基础模型预训练先验的破坏，确保在引入人-物外观和动作控制的同时维持原始生成质量。
门控局部上下文注意力：采用掩码注意力配合可学习门控向量的设计，使模型能动态关注音频特征与局部面部/身体区域的关联，实现口型、表情和肢体动作与音频信号的精确时间同步，解决多模态融合时的特征冲突问题。
解耦-联合训练策略：针对 R2V 和 A2V 任务数据异构且规模不平衡的挑战，分别训练专用子模型学习各模态的独立映射关系，通过权重插值进行融合，在联合数据上微调，有效整合异构数据集并提升全模态输入下的生成一致性。

如何使用OmniShow

获取开源代码：从官方渠道克隆代码库到本地，按照 README 配置包含依赖项的运行环境。
准备多模态输入：根据生成任务需求，整理参考图像（人物或物体外观）、驱动音频、姿势序列文件及文本描述。
执行视频生成：调用模型 API 或运行推理脚本，输入组合后的多模态条件，生成长达 10 秒的高质量人-物交互视频并保存输出结果。

OmniShow的关键信息和使用要求

项目定位：OmniShow 是字节跳动联合香港中文大学、莫纳什大学、香港大学共同开源的行业级多模态人-物交互视频生成模型，专为复杂的人与物体互动场景设计。
技术规模：模型采用 12.3B 参数架构，是同类模型（如 HuMo-17B、Phantom-14B）中最为参数高效的方案，在保持高性能的同时显著降低计算资源需求。
核心能力：作为首个完整支持 RAP2V（Reference+Audio+Pose-to-Video）的端到端统一框架，能同时接收参考图像、音频信号、姿势序列和文本描述四种模态输入进行联合推理。
生成质量：原生支持生成最长 10 秒的连续视频，通过门控局部上下文注意力技术实现口型、表情、肢体动作与音频的精确同步，达到行业级视觉标准。
性能表现：在自建的 HOIVG-Bench 基准测试中，OmniShow 在 R2V、RA2V、RP2V 和 RAP2V 四项任务上均达到 SOTA 水平，是唯一支持全模态输入的领先方案。

OmniShow的核心优势

全模态统一架构：作为业界首个完整支持 RAP2V（参考图+音频+姿势→视频）的端到端框架，OmniShow 实现了文本、图像、音频、姿势四种条件的原生统一处理，无需多个专用模型拼接即可应对复杂的多模态输入组合。
极致参数效率：12.3B 参数在 HOIVG-Bench 基准上达到多项 SOTA，显著优于 HuMo-17B（17B）、Phantom-14B（14B）等更大参数模型，在保持行业级生成质量的同时大幅降低推理成本。
单一模型多任务覆盖：通过灵活的输入组合策略，一个 OmniShow 模型即可胜任 R2V（参考图生成）、RA2V（音频驱动数字人）、RP2V（姿势驱动动画）和完整 RAP2V（全模态控制）四类任务，无需针对不同场景切换模型。
音视频精确同步：采用创新的门控局部上下文注意力机制，通过可学习门控向量和掩码注意力实现口型、面部表情、肢体动作与音频信号的高度同步，在 Sync-C 指标上达到 8.612 的领先水平。
长视频原生生成：不同于依赖滑动窗口的外推方法，OmniShow 原生支持一次生成长达 10 秒的连续视频，在保持角色外观、物体样式和时间连贯性方面具有显著优势。