FireRedASR2S – 小红书开源的语音识别模型

AI工具集2小时前发布商道网

FireRedASR2S是什么

FireRedASR2S是小红书Super Intelligence-AudioLab开源的工业级端到端语音识别模型，集成ASR、VAD、语种识别和标点预测四大SOTA模块。模型支持中文普通话及20+方言、英语、代码切换和歌词识别，中文普通话字错率低至2.89%，方言平均11.55%，全面领先Doubao-ASR、Qwen3-ASR等竞品。系统支持一键本地部署，无需外部API，已在小红书语音评论、语音搜索等高频场景规模化落地。

FireRedASR2S – 小红书开源的语音识别模型

FireRedASR2S的主要功能

语音识别（FireRedASR2）：支持中文普通话、20+方言/口音、英语、中英混杂及歌词识别，提供LLM和AED两种架构版本，AED版本支持字级别时间戳和置信度输出。
语音活动检测（FireRedVAD）：模型能检测语音/歌声/音乐，支持100+语言，提供流式与非流式两种模式，F1分数达97.57%。
语种识别（FireRedLID）：支持识别100+语言及20+中文方言，准确率97.18%，显著优于Whisper等开源方案。
标点预测（FireRedPunc）：模型自动添加中英文标点，平均F1分数78.90%，大幅提升转写文本可读性。

FireRedASR2S的技术原理

语音识别（FireRedASR2）：模型采用Encoder-Adapter-LLM和Attention-based Encoder-Decoder两种架构。LLM版本用大语言模型能力实现端到端语音理解，AED版本在编码器-解码器框架上优化计算效率，通过适配器层融合语音与文本表征，支持时间戳和置信度输出。
语音活动检测（FireRedVAD）：基于DFSMN深度前馈序列记忆网络，建模音频时序特征。通过平滑窗口和阈值判断语音起止点，区分语音、歌声、音乐等音频事件，支持流式处理以满足实时性要求。
语种识别（FireRedLID）：复用FireRedASR2编码器提取语音表征，训练分类器预测语种标签。利用大规模多语言数据预训练，建立跨语种共享表征空间，实现100+语言及方言的高精度识别。
标点预测（FireRedPunc）：基于BERT架构，将无标点文本作为输入，预测每个位置的标点类型。通过中文和英文多领域数据微调，学习文本语义和句法结构，自动插入合适的标点符号。

FireRedASR2S的项目地址

GitHub仓库：https://github.com/FireRedTeam/FireRedASR2S
HuggingFace模型库：https://huggingface.co/collections/FireRedTeam/fireredasr2s

FireRedASR2S的应用场景

内容社区互动：支撑小红书语音评论、语音搜索等功能，让用户用方言、歌声等多样化语音参与社区互动，增强平台的活人感与趣味性。
社交与通讯：赋能语音私信、语音拜年等场景，实现自然流畅的语音输入与实时转写，降低沟通门槛，提升情感传递效率。
内容创作与生产：支持语音发布笔记、直播字幕生成、视频自动字幕等创作工具，帮助创作者高效产出多媒体内容。
企业级服务：适用会议转写、智能客服、电话分析等B端场景，私有化部署能力满足金融、医疗等行业的数据安全合规要求。

AI工具集 # FireRedASR2S

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

MiMo-V2-Flash – 小米开源的高性能语言模型

MiMo-V2-Flash – 小米开源的高性能语言模型

2周前

660

GPT-5.2 – OpenAI最新推出的通用AI模型系列

GPT-5.2 – OpenAI最新推出的通用AI模型系列

2周前

620

Computer Use Preview – 谷歌开源的AI浏览器自动化工具

Computer Use Preview – 谷歌开源的AI浏览器自动化工具

AI工具集 # Computer Use Preview

2周前

610

FlowyAIPC – 本地AI办公助手工具，完全离线运行

FlowyAIPC – 本地AI办公助手工具，完全离线运行

AI工具集 # FlowyAIPC

2周前

550