LongCat-AudioDiT – 美团开源的文本转语音模型

AI工具集2小时前发布 商道网
52 0 0

LongCat-AudioDiT是什么

LongCat-AudioDiT 是美团开源的高保真扩散式文本转语音(TTS)模型,核心创新在于直接在波形潜空间进行扩散生成,非传统梅尔频谱等中间表示,有效避免误差累积并大幅简化流程。模型引入自适应投影引导(APG)替代传统 CFG,修正训练-推理不匹配问题。在 Seed 基准测试中,3.5B 版本以 0.818 中文相似度超越前 SOTA(Seed-TTS 0.809),实现顶尖零样本语音克隆效果。模型采用 MIT 协议开源,提供 1B/3.5B 双版本及完整推理工具。

LongCat-AudioDiT – 美团开源的文本转语音模型

LongCat-AudioDiT的主要功能

  • 文本转语音:将任意文本转换为24kHz高保真自然语音,支持中英文等多语言合成。
  • 零样本语音克隆:仅需3-10秒参考音频可精准复刻任意说话人音色,无需专门训练。
  • 波形潜空间生成:模型直接在波形潜空间进行扩散,避免传统梅尔频谱的信息损失,简化流水线。
  • 自适应投影引导:模型采用APG技术替代传统CFG,修正训练-推理不匹配,提升生成质量。
  • 灵活推理接口:提供CLI命令行与Python API双模式,支持单条合成与批量处理。
  • 双规格模型:开源1B轻量版与3.5B高质量版,满足不同场景的速度与质量需求。

如何使用LongCat-AudioDiT

  • 环境准备:克隆仓库执行 pip install -r requirements.txt 安装依赖。
  • 加载模型:通过 AudioDiTModel.from_pretrained("meituan-longcat/LongCat-AudioDiT-1B") 加载预训练模型至GPU。
  • 准备文本:用 AutoTokenizer 将目标文本编码为模型输入格式。
  • 设置参数:指定生成时长(duration)、扩散步数(steps)、引导方式(CFG或APG)及强度。
  • 执行推理:调用模型生成音频,TTS直接输入文本,克隆需额外提供参考音频和提示文本。
  • 保存结果:使用 soundfile 将生成的波形数据写入WAV文件完成输出。

LongCat-AudioDiT的关键信息和使用要求

  • 开发方:美团(Meituan)
  • 技术路线:扩散模型 + 波形潜空间直接生成
  • 模型规模:1B(轻量版)、3.5B(旗舰版)
  • 音频质量:24kHz 采样率
  • 核心创新:波形潜空间扩散、自适应投影引导(APG)
  • 性能水平:Seed基准SOTA,中文相似度0.818
  • 硬件:NVIDIA GPU(CUDA支持),建议显存≥8GB
  • 软件:Python 3.8+、PyTorch、transformers、librosa
  • 依赖安装:执行 pip install -r requirements.txt

LongCat-AudioDiT的核心优势

  • 端到端简化:直接在波形潜空间生成,无需梅尔频谱等中间表示,避免误差累积,流程更简洁。
  • SOTA语音克隆:Seed基准中文相似度达0.818,超越前SOTA模型Seed-TTS,零样本克隆效果顶尖。
  • 推理质量优化:支持自适应投影引导(APG)替代传统CFG,修正训练-推理不匹配,生成更稳定自然。
  • 灵活双版本:提供1B版快速轻量,3.5B版极致质量,适配不同场景需求。

LongCat-AudioDiT的项目地址

  • GitHub仓库:https://github.com/meituan-longcat/LongCat-AudioDiT
  • HuggingFace模型库
    • https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
    • https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B

LongCat-AudioDiT的应用场景

  • 有声内容制作:模型能快速生成有声书、播客、新闻播报等内容,支持多角色音色克隆以降低制作成本。
  • 智能客服系统:为企业定制品牌专属声音,实现自然流畅的语音交互服务并提升用户体验。
  • 游戏与动画配音:通过零样本复刻角色声音,大幅降低游戏与动画多语言本地化的配音成本。
  • 虚拟人直播:为数字人提供高保真实时语音驱动能力,显著增强虚拟直播的沉浸感与真实度。
  • 辅助无障碍工具:为视障用户朗读屏幕文本,或帮助失语者通过少量录音重建个人专属声音。
© 版权声明

相关文章