Fun-CineForge – 阿里通义开源的影视级多模态配音模型

Fun-CineForge是什么

Fun-CineForge是通义实验室开源的首个影视级多模态配音大模型，基于CosyVoice3构建，创新引入”时间模态”实现精准音画同步。模型支持独白、旁白、对话及多人场景，解决口型同步、情绪表达、音色一致、时间对齐四大难题。Fun-CineForge配套开源CineDub数据集构建流程，覆盖350+部影视剧，中文字错率低至1.49%，即使面部遮挡、镜头切换等复杂场景也能保持高质量配音效果。

Fun-CineForge的主要功能

口型同步：模型支持合成语音与画面中人物唇部运动高度同步，实现精准音画对齐。
情绪表达：依据角色面部形象和指令描述，实现情感语气的拟人化呈现与自由控制。
音色克隆：模型能参考输入音频的音色特征，合成高度相似的个性化语音。
时间对齐：根据时间戳控制语音起止，即使说话人被遮挡也能在正确时段生成语音。
多场景适配：支持独白、旁白、双人对话及多人对话等复杂影视配音场景。

Fun-CineForge的技术原理

多模态融合架构：模型能同时处理四类信息，视觉模态学习唇部运动与面部表情，文本模态提供台词内容及角色情感线索，音频模态作为预测目标，时间模态控制语音出现时段并指示说话人身份，四者相互补充实现精准配音。
时间模态创新：首次将时间信息作为独立模态引入配音模型，通过起始时间、持续时长、说话人身份等强监督信号，使模型理解”何时何人说话”，在面部遮挡或镜头切换时能准确定位语音时段。
数据驱动训练：基于自动化构建的CineDub数据集训练，该数据集通过人声分离、文本转录、说话人分离等流程从影视素材提取，包含帧级唇部数据、毫秒级时间戳及情感标注，为模型提供多模态监督信号。