NovaSR – 开源音频超分模型，能将低音质转换为高音质音频

NovaSR是什么

NovaSR 是开源的音频超分辨率模型，仅有 52KB 能将 16kHz 的低采样率音频（如电话音质）提升到 48kHz 的高采样率音频（如录音室级音质）。模型通过神经网络预测并生成高频信息，实现音质的显著改善。NovaSR 的处理速度极快，单张 A100 GPU 可达 3600 倍实时，模型小巧，可嵌入端侧设备，如 TWS 耳机芯片。NovaSR适用语音修复、TTS 输出增强、实时通信等场景，展现小模型在音频处理领域的巨大潜力。

NovaSR的主要功能

音质提升：将电话音质（16kHz）转换为录音室级音质（48kHz），增强声音的清晰度和临场感。
实时处理：在单张 A100 GPU 上可实现 3600 倍实时处理速度，适合实时音频增强场景。
端侧部署：模型仅 52KB，可轻松嵌入 TWS 耳机、智能手表等设备，实现低功耗、无延迟的音质增强。
数据集增强：模型可用于提升低采样率音频数据集的音质，统一音频标准。
语音修复：适用播客老录音翻新、会议录音提质等场景。

NovaSR的技术原理

频谱学习：模型通过学习大量高品质音频的频谱规律，掌握不同采样率音频之间的差异和关联。
高频重建：当输入低采样率音频（如 16kHz）时，NovaSR 用神经网络预测、生成原本缺失的高频部分（16kHz~24kHz），将音频提升到 48kHz。
轻量架构：NovaSR 采用极简的网络架构，仅包含少于 10 个小型卷积层和 Snake 激活函数，基于 BigVGAN 设计，兼顾模型大小和音质表现。
高效推理：通过优化网络结构和计算流程，NovaSR 实现了极高的推理速度，可在普通设备上快速运行。