LongCat-AudioDiT – 美团开源的文本转语音模型

AI工具集2小时前发布商道网

LongCat-AudioDiT是什么

LongCat-AudioDiT 是美团开源的高保真扩散式文本转语音（TTS）模型，核心创新在于直接在波形潜空间进行扩散生成，非传统梅尔频谱等中间表示，有效避免误差累积并大幅简化流程。模型引入自适应投影引导（APG）替代传统 CFG，修正训练-推理不匹配问题。在 Seed 基准测试中，3.5B 版本以 0.818 中文相似度超越前 SOTA（Seed-TTS 0.809），实现顶尖零样本语音克隆效果。模型采用 MIT 协议开源，提供 1B/3.5B 双版本及完整推理工具。

LongCat-AudioDiT – 美团开源的文本转语音模型

LongCat-AudioDiT的主要功能

文本转语音：将任意文本转换为24kHz高保真自然语音，支持中英文等多语言合成。
零样本语音克隆：仅需3-10秒参考音频可精准复刻任意说话人音色，无需专门训练。
波形潜空间生成：模型直接在波形潜空间进行扩散，避免传统梅尔频谱的信息损失，简化流水线。
自适应投影引导：模型采用APG技术替代传统CFG，修正训练-推理不匹配，提升生成质量。
灵活推理接口：提供CLI命令行与Python API双模式，支持单条合成与批量处理。
双规格模型：开源1B轻量版与3.5B高质量版，满足不同场景的速度与质量需求。

如何使用LongCat-AudioDiT

环境准备：克隆仓库执行 pip install -r requirements.txt 安装依赖。
加载模型：通过 AudioDiTModel.from_pretrained("meituan-longcat/LongCat-AudioDiT-1B") 加载预训练模型至GPU。
准备文本：用 AutoTokenizer 将目标文本编码为模型输入格式。
设置参数：指定生成时长（duration）、扩散步数（steps）、引导方式（CFG或APG）及强度。
执行推理：调用模型生成音频，TTS直接输入文本，克隆需额外提供参考音频和提示文本。
保存结果：使用 soundfile 将生成的波形数据写入WAV文件完成输出。

LongCat-AudioDiT的关键信息和使用要求

开发方：美团（Meituan）
技术路线：扩散模型 + 波形潜空间直接生成
模型规模：1B（轻量版）、3.5B（旗舰版）
音频质量：24kHz 采样率
核心创新：波形潜空间扩散、自适应投影引导（APG）
性能水平：Seed基准SOTA，中文相似度0.818
硬件：NVIDIA GPU（CUDA支持），建议显存≥8GB
软件：Python 3.8+、PyTorch、transformers、librosa
依赖安装：执行 pip install -r requirements.txt

LongCat-AudioDiT的核心优势

端到端简化：直接在波形潜空间生成，无需梅尔频谱等中间表示，避免误差累积，流程更简洁。
SOTA语音克隆：Seed基准中文相似度达0.818，超越前SOTA模型Seed-TTS，零样本克隆效果顶尖。
推理质量优化：支持自适应投影引导（APG）替代传统CFG，修正训练-推理不匹配，生成更稳定自然。
灵活双版本：提供1B版快速轻量，3.5B版极致质量，适配不同场景需求。

LongCat-AudioDiT的项目地址

GitHub仓库：https://github.com/meituan-longcat/LongCat-AudioDiT
HuggingFace模型库：
- https://huggingface.co/meituan-longcat/LongCat-AudioDiT-1B
- https://huggingface.co/meituan-longcat/LongCat-AudioDiT-3.5B

LongCat-AudioDiT的应用场景

有声内容制作：模型能快速生成有声书、播客、新闻播报等内容，支持多角色音色克隆以降低制作成本。
智能客服系统：为企业定制品牌专属声音，实现自然流畅的语音交互服务并提升用户体验。
游戏与动画配音：通过零样本复刻角色声音，大幅降低游戏与动画多语言本地化的配音成本。
虚拟人直播：为数字人提供高保真实时语音驱动能力，显著增强虚拟直播的沉浸感与真实度。
辅助无障碍工具：为视障用户朗读屏幕文本，或帮助失语者通过少量录音重建个人专属声音。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Molili – 当贝推出的 OpenClaw 中文版 AI Agent

Molili – 当贝推出的 OpenClaw 中文版 AI Agent

AI工具集 # Molili

7天前

580

塔塔疗愈所 – Soul推出的AI情绪服务应用

塔塔疗愈所 – Soul推出的AI情绪服务应用

2个月前

690

EzRemover – 免费的在线 AI 图片背景移除工具

EzRemover – 免费的在线 AI 图片背景移除工具

AI工具集 # EzRemover

2个月前

720

Artflo – AI设计创作工作流平台，提供无限画布自由创作

Artflo – AI设计创作工作流平台，提供无限画布自由创作

AI工具集 # Artflo

2个月前

500