FireRedASR2S – 小红书开源的语音识别模型

AI工具集2小时前发布 商道网
58 0 0

FireRedASR2S是什么

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级端到端语音识别模型,集成ASR、VAD、语种识别和标点预测四大SOTA模块。模型支持中文普通话及20+方言、英语、代码切换和歌词识别,中文普通话字错率低至2.89%,方言平均11.55%,全面领先Doubao-ASR、Qwen3-ASR等竞品。系统支持一键本地部署,无需外部API,已在小红书语音评论、语音搜索等高频场景规模化落地。

FireRedASR2S – 小红书开源的语音识别模型

FireRedASR2S的主要功能

  • 语音识别(FireRedASR2):支持中文普通话、20+方言/口音、英语、中英混杂及歌词识别,提供LLM和AED两种架构版本,AED版本支持字级别时间戳和置信度输出。
  • 语音活动检测(FireRedVAD):模型能检测语音/歌声/音乐,支持100+语言,提供流式与非流式两种模式,F1分数达97.57%。
  • 语种识别(FireRedLID):支持识别100+语言及20+中文方言,准确率97.18%,显著优于Whisper等开源方案。
  • 标点预测(FireRedPunc):模型自动添加中英文标点,平均F1分数78.90%,大幅提升转写文本可读性。

FireRedASR2S的技术原理

  • 语音识别(FireRedASR2):模型采用Encoder-Adapter-LLM和Attention-based Encoder-Decoder两种架构。LLM版本用大语言模型能力实现端到端语音理解,AED版本在编码器-解码器框架上优化计算效率,通过适配器层融合语音与文本表征,支持时间戳和置信度输出。
  • 语音活动检测(FireRedVAD):基于DFSMN深度前馈序列记忆网络,建模音频时序特征。通过平滑窗口和阈值判断语音起止点,区分语音、歌声、音乐等音频事件,支持流式处理以满足实时性要求。
  • 语种识别(FireRedLID):复用FireRedASR2编码器提取语音表征,训练分类器预测语种标签。利用大规模多语言数据预训练,建立跨语种共享表征空间,实现100+语言及方言的高精度识别。
  • 标点预测(FireRedPunc):基于BERT架构,将无标点文本作为输入,预测每个位置的标点类型。通过中文和英文多领域数据微调,学习文本语义和句法结构,自动插入合适的标点符号。

FireRedASR2S的项目地址

  • GitHub仓库:https://github.com/FireRedTeam/FireRedASR2S
  • HuggingFace模型库:https://huggingface.co/collections/FireRedTeam/fireredasr2s

FireRedASR2S的应用场景

  • 内容社区互动:支撑小红书语音评论、语音搜索等功能,让用户用方言、歌声等多样化语音参与社区互动,增强平台的活人感与趣味性。
  • 社交与通讯:赋能语音私信、语音拜年等场景,实现自然流畅的语音输入与实时转写,降低沟通门槛,提升情感传递效率。
  • 内容创作与生产:支持语音发布笔记、直播字幕生成、视频自动字幕等创作工具,帮助创作者高效产出多媒体内容。
  • 企业级服务:适用会议转写、智能客服、电话分析等B端场景,私有化部署能力满足金融、医疗等行业的数据安全合规要求。
© 版权声明

相关文章