LongCat-Flash-Lite – 美团LongCat开源的大语言模型

LongCat-Flash-Lite是什么

LongCat-Flash-Lite是美团推出的新一代高效大语言模型。模型采用创新的混合专家(MoE)+ N元语法嵌入架构,总参数量达685亿,每次推理仅激活约29~45亿参数,兼顾强大的能力与极高的效率。模型支持256K超长上下文,在智能体任务、代码生成和数学推理等核心评测中表现卓越,在工具调用和编程领域,性能达到同激活规模模型的顶尖水平。LongCat API 可提供 500-700 token/s 的生成速度。 模型通过专用的系统优化,推理速度得到显著提升。

LongCat-Flash-Lite – 美团LongCat开源的大语言模型

LongCat-Flash-Lite的主要功能

  • 文本生成:模型支持多轮对话交互,可生成流畅、连贯的自然语言回复。
  • 工具调用:模型具备函数调用能力,可自主使用外部工具完成复杂任务。
  • 代码生成:擅长编程任务,能编写、理解和调试多种编程语言的代码。
  • 长上下文处理:模型支持 256K 超长上下文,可处理长文档分析等任务。

LongCat-Flash-Lite的技术原理

  • MoE + N-gram 嵌入架构:LongCat-Flash-Lite 采用混合专家(MoE)架构,总参数量 68.5B,仅激活 2.9B~4.5B 参数。与传统 MoE 使用 FFN 作为专家不同,模型创新性地引入 N-gram 嵌入表(NE)替代部分专家,形成”MoE + NE”的混合架构。
  • N-gram 嵌入表机制:N-gram 嵌入表通过预计算和存储 N-gram 组合的嵌入向量,将部分计算密集型操作转换为查表操作。机制的核心优势在于:嵌入查找的内存访问模式更规则、延迟更低,相比 FFN 前向传播大幅减少数据搬运开销。研究团队通过系统性扩展实验,确定嵌入表的最佳集成时机、参数预算分配、哈希冲突缓解策略、超参数配置以及嵌入初始化方法等关键因素。
  • 推理效率优化系统:为充分发挥 N-gram 嵌入表的性能优势,团队推出专门的推理优化系统。系统包含两个核心组件: N-gram Cache,通过智能缓存策略减少重复嵌入查找的开销;同步内核(Synchronized Kernels),定制化 CUDA 内核实现嵌入查找与其他计算的流水线并行。
  • 长上下文扩展技术:模型采用 YaRN(Yet another RoPE extension method)方法将上下文长度扩展至 256K。YaRN 通过对 Rotary Position Embedding(RoPE)进行改进,动态调整位置编码的旋转角度和温度缩放因子,使模型在训练时使用的较短上下文(通常 4K-8K)基础上,无需额外训练即可有效处理更长的输入序列,同时保持对相对位置关系的敏感性和稳定性。

LongCat-Flash-Lite的项目地址

  • HuggingFace模型库:https://huggingface.co/meituan-longcat/LongCat-Flash-Lite
  • arXiv技术论文:https://arxiv.org/pdf/2601.21204

LongCat-Flash-Lite的应用场景

  • 智能客服与对话系统:模型支持多轮对话和工具调用,适用于航空、零售、电信等行业的智能客服场景,可自主查询信息、处理订单、解决用户问题。
  • 代码开发与辅助编程:在 SWE-Bench 等代码基准表现优异,可用于代码生成、Bug 修复、代码审查、自动化编程任务,提升开发效率。
  • 长文档处理与分析:模型适用法律合同分析、学术论文研读、财报批量处理、长视频脚本理解等需要处理大量文本的场景。
  • 智能体与自动化工作流:模型强大的 Agentic 能力可作为核心引擎,驱动自动化工作流,执行多步骤任务,如数据采集、报表生成、系统运维等。
  • 多语言内容处理:模型在中英文等多语言评测中表现均衡,适用跨语言内容生成、本地化翻译、多语言知识问答等全球化业务场景。
© 版权声明

相关文章