今日,美团发布了一款名为LongCat-Flash-Lite的轻量化MoE模型,该模型拥有685亿参数,每次推理仅激活29亿至45亿参数。LongCat-Flash-Lite通过将超过300亿参数用于嵌入层,宣称在智能体与代码领域表现突出,并依托YARN技术可支持最长256K上下文,能高效处理长文档、大规模代码分析等场景。
LongCat-Flash-Lite模型基于嵌入扩展的应用与系统级优化,大幅提升了模型推理效率。在输入4K,输出1k的典型负载下,LongCatAPI可提供500-700token/s的生成速度。美团宣布向开发者开放LongCat-Flash-Lite版本API接口,开发者可登录LongCatAPI开放平台申请,每日免费额度为5000万tokens。

