SongGeneration 2 – 腾讯联合清华开源的音乐生成模型

AI工具集2小时前发布 商道网
68 0 0

SongGeneration 2是什么

SongGeneration 2是腾讯与清华大学联合开源的4B参数音乐生成大模型,采用混合LLM-扩散架构与分层表征设计,实现商业级音乐生成质量。模型歌词准确率达8.55% PER,超越Suno v5等商业模型。SongGeneration 2支持中英文等多语种、复杂多轨编曲,可通过文本描述与音频提示精准控制风格。模型可在22GB显存消费级硬件本地运行,1分钟内可生成完整歌曲。

SongGeneration 2 – 腾讯联合清华开源的音乐生成模型

SongGeneration 2的主要功能

  • 高质量歌曲生成:基于混合LLM-扩散架构生成长达4分30秒、旋律优美且编曲层次丰富的完整歌曲。
  • 多语种歌词合成:支持中、英、西、日等多语种歌词,以8.55%的极低音素错误率实现清晰准确的发音。
  • 多样化生成模式:可灵活输出完整歌曲、纯音乐、纯人声或分离的人声与伴奏双音轨。
  • 精准风格控制:通过文本描述(性别、曲风、情绪、乐器)或10秒音频提示精确控制生成风格。
  • 灵活部署选项:支持22GB显存本地运行及HuggingFace Space在线快速体验,提供低显存适配方案。

SongGeneration 2的技术原理

  • 混合LLM-扩散架构:语言模型(LeLM)担任”作曲大脑”统筹全局音乐结构与演奏细节,扩散模型作为”高保真渲染器”在语言模型指导下合成复杂声学细节,二者分工协作平衡音乐性与音质。
  • 分层表征建模:采用并行建模设计,混合表征(Mixed Tokens)捕捉高层级旋律与结构语义,多轨表征(Dual-Track Tokens)分别建模人声与伴奏轨道的细粒度声学变化。
  • 自动化美学评估:基于11,717个专家标注样本构建细粒度评估框架,为模型训练注入音乐性先验知识,在推理阶段引入基于音乐性标签的CFG策略。
  • 三阶段渐进式后训练:通过SFT收窄数据分布构建高质量底座,大规模离线DPO利用20万对严格正负样本消除歌词幻觉,半在线DPO周期性更新模型以极致突破音乐性上限。

SongGeneration 2的项目地址

  • GitHub仓库:https://github.com/tencent-ailab/songgeneration
  • HuggingFace模型库:https://huggingface.co/tencent/SongGeneration

SongGeneration 2的应用场景

  • 音乐创作辅助:独立音乐人可快速生成demo验证灵感,降低编曲门槛与制作成本。
  • 视频配乐制作:自媒体创作者能依据视频风格与情绪需求,即时生成定制化背景音乐。
  • 游戏音频开发:游戏厂商可为不同场景、角色与剧情批量生成适配的主题音乐与音效。
  • 广告与营销内容:品牌方可按 campaign 调性生成专属 jingle,实现音频资产的快速迭代。
  • 教育与娱乐应用:音乐教学平台提供风格化伴奏生成,K歌与社交应用支持用户个性化歌曲创作。
© 版权声明

相关文章