SongGeneration 2 – 腾讯联合清华开源的音乐生成模型

SongGeneration 2是什么

SongGeneration 2是腾讯与清华大学联合开源的4B参数音乐生成大模型，采用混合LLM-扩散架构与分层表征设计，实现商业级音乐生成质量。模型歌词准确率达8.55% PER，超越Suno v5等商业模型。SongGeneration 2支持中英文等多语种、复杂多轨编曲，可通过文本描述与音频提示精准控制风格。模型可在22GB显存消费级硬件本地运行，1分钟内可生成完整歌曲。

SongGeneration 2的主要功能

高质量歌曲生成：基于混合LLM-扩散架构生成长达4分30秒、旋律优美且编曲层次丰富的完整歌曲。
多语种歌词合成：支持中、英、西、日等多语种歌词，以8.55%的极低音素错误率实现清晰准确的发音。
多样化生成模式：可灵活输出完整歌曲、纯音乐、纯人声或分离的人声与伴奏双音轨。
精准风格控制：通过文本描述（性别、曲风、情绪、乐器）或10秒音频提示精确控制生成风格。
灵活部署选项：支持22GB显存本地运行及HuggingFace Space在线快速体验，提供低显存适配方案。

SongGeneration 2的技术原理

混合LLM-扩散架构：语言模型（LeLM）担任”作曲大脑”统筹全局音乐结构与演奏细节，扩散模型作为”高保真渲染器”在语言模型指导下合成复杂声学细节，二者分工协作平衡音乐性与音质。
分层表征建模：采用并行建模设计，混合表征（Mixed Tokens）捕捉高层级旋律与结构语义，多轨表征（Dual-Track Tokens）分别建模人声与伴奏轨道的细粒度声学变化。
自动化美学评估：基于11,717个专家标注样本构建细粒度评估框架，为模型训练注入音乐性先验知识，在推理阶段引入基于音乐性标签的CFG策略。
三阶段渐进式后训练：通过SFT收窄数据分布构建高质量底座，大规模离线DPO利用20万对严格正负样本消除歌词幻觉，半在线DPO周期性更新模型以极致突破音乐性上限。