OmniWeaving – 腾讯混元联合浙大等开源的视频生成框架

OmniWeaving是什么

OmniWeaving是浙江大学联合腾讯混元、南洋理工大学推出的统一视频生成框架。框架突破传统开源模型单一任务限制，实现多模态自由组合与推理增强生成，能将交错图文视频时序绑定生成连贯内容，像”智能导演”主动推断复杂意图。框架通过MLLM语义理解、MMDiT生成和VAE编码三组件架构，配套推出IntelligentVBench评估基准，在开源统一模型中达到SoTA性能，为缩小开源与商业视频生成鸿沟提供强有力开源参考。

OmniWeaving的主要功能

统一多模态生成：在一个框架内无缝整合文本、多图像和视频输入，支持交错式自由组合，实现多样化视频生成任务，告别传统单一任务模型的碎片化限制。
时序绑定生成：将不同模态的内容进行时序对齐和绑定，生成跨模态连贯的动态视频。
推理增强创作：通过 MLLM 的”思考模式”主动推断复杂、模糊的用户意图，像经验丰富的导演般自主规划镜头语言和叙事逻辑，从被动渲染升级为主动创作。
高级语义理解：用多模态大语言模型将自由形式输入映射到高级语义空间，结合扩散 Transformer 生成精细视频内容。
端到端视频生成：从概念理解到视频输出的一体化流程，支持角色一致性维护、风格迁移等复杂创作需求，在 IntelligentVBench 基准测试中达到开源模型 SoTA 水平。

如何使用OmniWeaving

环境准备：从 GitHub 克隆 OmniWeaving 仓库后，安装项目依赖 requirements.txt 并根据需要选择安装 Flash Attention 或 SageAttention 加速库以优化推理性能。
模型下载：从 HuggingFace 平台下载腾讯混元发布的 HY-OmniWeaving 模型权重文件到本地指定目录。
文生视频：运行生成脚本并指定任务类型为 t2v，输入文本描述、设置画面比例和输出路径，可选添加思考模式让模型先推理意图再生成视频。
图生视频：用 i2v 任务类型，提供首帧图片路径和动作描述文本，模型将根据静态图像和提示词生成连续动态视频。
首尾帧插值：选择 interpolation 任务，传入起始帧和结束帧两张图片以及过渡描述，模型自动生成填补中间过程的连贯视频。
多图组合生成：通过 reference2v 任务上传一至四张参考图片（如人物、道具、背景），配合文本提示实现多元素自由组合的视频创作。
视频编辑：用 editing 任务上传源视频并输入编辑指令（如风格转换或物体替换），模型基于文本指引对视频内容进行智能修改。
图文视频联合编辑：采用 tiv2v 任务同时输入源视频和参考图片，实现将参考图中的视觉元素融合到视频动态场景中的高级编辑。

OmniWeaving的项目地址

项目官网：https://omniweaving.github.io/
GitHub仓库：https://github.com/Tencent-Hunyuan/OmniWeaving
HuggingFace模型库：https://huggingface.co/tencent/HY-OmniWeaving
arXiv技术论文：https://arxiv.org/pdf/2603.24458

OmniWeaving的关键信息和使用要求

项目定位：腾讯混元联合浙江大学、南洋理工大学于 2026 年 4 月 3 日开源的统一视频生成框架。
核心技术：
- MLLM+MMDiT+VAE 架构：多模态大语言模型解析交错图文视频输入，扩散 Transformer 生成视频，变分自编码器压缩视觉信号
- 自由形式组合：支持文本、多图像（1-4 张）、视频输入的时序绑定与灵活组合
- 推理增强生成：激活 MLLM “思考模式”，主动推断复杂用户意图，生成语义精准的视频内容
使用要求：
- 硬件：多 GPU 环境（官方示例使用 8 卡），支持显存优化选项（Flash Attention/SageAttention）。
- 软件：Python 环境，基于 PyTorch，需安装 HunyuanVideo-1.5 依赖。

OmniWeaving的核心优势

统一全能：OmniWeaving 通过单一框架整合文生视频、图生视频、多图组合、视频编辑等六大类任务，替代传统需要多个专用模型的碎片化方案，实现全流程统一生成。
自由组合：突破传统模型固定输入格式的限制，支持 1-4 张图像、视频片段与文本的交错式多模态输入，能进行时序绑定理解元素间的时空关系，实现复杂场景的真正融合生成而非简单拼接。
推理增强：激活 MLLM 思考模式后，模型从被动执行指令的”渲染器”升级为主动推断用户意图的”智能导演”，能自动补全镜头语言和叙事逻辑，显著降低复杂创意描述的提示词工程门槛。
深度语义注入：采用 DeepStacking 机制提取 MLLM 多层隐藏状态的多粒度语义特征，直接注入生成网络底层，实现像素级细节控制与高层语义对齐的双重保障，解决多主体生成中的细节丢失问题。