VoxCPM2 – OpenBMB开源的语音合成模型

VoxCPM2是什么

VoxCPM2是OpenBMB开源的2B参数语音合成模型。模型采用无分词器扩散自回归架构，支持30种语言及中文方言，输出48kHz录音室级音质。VoxCPM2首创Voice Design功能，可通过文字描述凭空创造声音；支持可控声音克隆，在保留参考音色的同时调节情感语速；更有终极克隆模式还原每一处声音细节。模型训练数据达236万小时，实时率0.13，Apache-2.0协议可商用，是新一代多语言TTS的标杆之作。

VoxCPM2的主要功能

Voice Design（声音设计）：通过自然语言描述（如”温柔的女声，30岁左右，语速缓慢”）从零创建虚拟声音，无需任何参考音频。
可控声音克隆（Controllable Cloning）：上传参考音频克隆音色，同时可通过文本指令（如”更欢快、语速稍快”）实时调节情感、语速和说话风格。
终极克隆（Ultimate Cloning）：提供参考音频及其转录文本，实现音频延续式克隆，完美复刻原声的音色、节奏、气息和情感细节。
多语言合成：支持30种语言及9种中文方言（粤语、四川话等），可直接输入任意支持语言的文本合成，无需指定语言标签。
实时流式生成：支持流式输出音频片段，RTF低至0.13（Nano-VLLM加速），适用实时对话场景。
个性化微调：支持SFT全参数微调和LoRA高效微调，仅需5-10分钟音频即可定制专属声音。

如何使用VoxCPM2

环境准备：通过 pip 安装 voxcpm 库确保 Python 环境满足 3.10 以上版本、PyTorch 2.5 以上和 CUDA 12.0 以上的硬件要求。
模型加载：用 from_pretrained 方法加载 OpenBMB 发布的 VoxCPM2 预训练模型到显存中供后续调用。
基础合成：调用模型的 generate 方法传入目标文本内容生成基础语音，将返回的音频数组保存为 48kHz 采样率的音频文件。
声音设计：在待合成文本前添加括号包裹的自然语言描述来实现 Voice Design 功能，无需任何参考音频可凭空创造出符合描述的虚拟声音。
声音克隆：传入参考音频文件路径和目标文本实现基础声音克隆，模型会提取参考音频的说话人音色特征用于合成新内容。
可控克隆：在参考音频克隆的基础上于文本前添加括号内的风格指令来实现可控克隆，在保留原音色的同时调节情感、语速和说话风格。
终极克隆：同时传入参考音频、其对应的转录文本以及目标合成文本实现终极克隆，模型通过音频延续方式完美复刻原声的音色、节奏和气息细节。
流式生成：调用 generate_streaming 方法启用流式生成模式，模型逐块返回音频数据片段，适用实时对话和低延迟场景。
命令行工具：在终端使用 voxcpm 命令行工具执行 design 或 clone 子命令，快速完成语音合成和声音克隆任务无需编写脚本。
Web 界面：运行项目提供的 app.py 文件启动基于 Gradio 的 Web 可视化界面，在浏览器中通过图形界面交互式地完成语音合成操作。
生产部署：安装 nano-vllm-voxcpm 扩展库并使用其提供的 VoxCPM 类加载模型以实现生产级部署，获得低至 0.13 的实时率和并发请求处理能力。

VoxCPM2的关键信息和使用要求

发布背景：VoxCPM2 由 OpenBMB（面壁智能）团队发布，是 VoxCPM 系列的最新主力版本，采用 Apache-2.0 协议完全开源且可商用。
技术核心：基于 MiniCPM-4 架构的 2B 参数扩散自回归模型，训练数据达 236 万小时，采用无分词器设计直接在连续语音空间生成音频，支持 30 种语言及 9 种中文方言，输出 48kHz 录音室级音质。
核心能力：首创 Voice Design 功能通过文字描述凭空创造声音；支持可控声音克隆保留参考音色并调节情感语速；终极克隆模式配合转录文本实现音频延续式完美复刻；实时流式生成 RTF 低至 0.13。
硬件环境：Python 需 3.10 及以上版本，PyTorch 需 2.5.0 及以上，CUDA 需 12.0 及以上，显存需求约 8GB，首次使用需下载约 4GB 模型权重文件。
安装部署：通过 pip install voxcpm 完成基础安装，支持 Python API 编程调用、voxcpm 命令行工具、本地 Web 可视化界面三种交互方式，生产环境建议安装 nano-vllm-voxcpm 实现高性能并发服务。

VoxCPM2的核心优势

无分词器端到端架构：摒弃传统离散音频 token，采用扩散自回归直接在连续语音表征空间生成音频，避免 tokenization 带来的信息损失，实现更自然的韵律和更丰富的细节表达。
原生声音设计能力：全球首创仅通过自然语言描述（如”温柔的中年女性，略带沙哑”）可凭空创造虚拟声音，无需任何参考音频，突破传统 TTS 必须依赖真人录音的限制。
深度可控的克隆体系：支持三级克隆精度：基础克隆保留音色；可控克隆在保留音色的基础上通过文本指令实时调节情感、语速和风格；终极克隆结合转录文本实现音频延续式完美复刻。
录音室级音质输出：采用 AudioVAE V2 非对称编解码技术（16kHz 编码→48kHz 解码），原生输出 48kHz 采样率音频，内置超分辨率能力，无需外部上采样器即可获得广播级音质。
超大规模多语言覆盖：支持 30 种主流语言及 9 种中文方言（粤语、四川话等），基于 236 万小时多语言数据训练，跨语言音色迁移自然流畅，无需指定语言标签即可自动识别合成。