2月15日,京东宣布在HuggingFace平台开源了名为JoyAI-LLM-Flash的大模型,该模型拥有3B激活参数和48B总参数,经过20万亿文本Token的预训练,擅长前沿知识理解、推理能力、编程和智能体等方面。JoyAI-LLM-Flash采用了全新优化框架FiberPO,将纤维丛理论引入强化学习,并在训练中使用Muon优化器,通过微调SFT、DPO以及强化学习进一步训练。
JoyAI-LLM-Flash模型结合了Muon优化器和稠密MTP技术,有效解决了传统模型规模扩展时的不稳定问题,与非MTP版本相比,吞吐量提升了1.3x-1.7x。该模型的详细参数包括混合专家模型(MoE)总参数量48B、激活参数量3B、层数40(含Dense)、Dense层数量1、注意力隐藏维度2048、MoE隐藏维度768、多头注意力数量32、专家个数256、每Token专家数8、共享专家数1、词表大小129K、上下文长度128K、注意力机制MLA、激活函数SwiGLU。
