京东开源3B参数大模型JoyAI-LLM-Flash 强化学习新突破
创始人
2026-02-15 17:56:56
0

2月15日,京东宣布在HuggingFace平台开源了名为JoyAI-LLM-Flash的大模型,该模型拥有3B激活参数和48B总参数,经过20万亿文本Token的预训练,擅长前沿知识理解、推理能力、编程和智能体等方面。JoyAI-LLM-Flash采用了全新优化框架FiberPO,将纤维丛理论引入强化学习,并在训练中使用Muon优化器,通过微调SFT、DPO以及强化学习进一步训练。

JoyAI-LLM-Flash模型结合了Muon优化器和稠密MTP技术,有效解决了传统模型规模扩展时的不稳定问题,与非MTP版本相比,吞吐量提升了1.3x-1.7x。该模型的详细参数包括混合专家模型(MoE)总参数量48B、激活参数量3B、层数40(含Dense)、Dense层数量1、注意力隐藏维度2048、MoE隐藏维度768、多头注意力数量32、专家个数256、每Token专家数8、共享专家数1、词表大小129K、上下文长度128K、注意力机制MLA、激活函数SwiGLU。

相关内容

热门资讯

新春走基层·走笔|追“光”少年... 春节快到了,24岁的村医冯莫林放心不下村里的父老乡亲,背上药箱前去随访。莽莽群山,山路九曲十八弯。这...
“文物会说话”有声海报丨万千奔... 【编者按】归途、团圆、乡愁,这几个词串起来,勾勒出春运时节一幅幅动人画面——无数人带着一年的故事,踏...
字节跳动Seedance2.0... 2月15日,央视财经报道,字节跳动的火山引擎作为企业云与AI服务平台,成为今年总台春晚的独家AI云合...
京东开源3B参数大模型JoyA... 2月15日,京东宣布在HuggingFace平台开源了名为JoyAI-LLM-Flash的大模型,该...
马斯克宣布:Grok4.20下... 2月15日,特斯拉CEO埃隆·马斯克宣布,Grok4.20版本将在下周发布,相较于4.1版有重大改进...
新年免费赏花!广州文化公园20... 广州文化公园2026年“迎春花会”以“岭南春韵 荔映花城”为主题,展出时间为2026年2月16日(除...
年货大集、多彩民俗让刻在DNA... 央视网消息:这几天,宁夏多地都举办了丰富多彩的民俗活动。在宁夏吴忠,十二个乡镇的社火队伍齐聚一堂,一...
热气腾腾的中国年 | 火了千年... 春节快到,你家大门换“新皮肤”了吗?没错,说的就是春联。红纸黑字(或金字)往门上一贴,年的味道“噌”...
新春走基层丨2800多只黑颈鹤... 早上七点左右,贵州威宁,草海湖面的薄雾还未散尽,一声声清越的鹤鸣划破宁静,草海的“主人”醒了。草海巡...
消费新观察|从赶集到打卡 烟火... 央广网郑州2月15日消息(记者 郝振青)每逢新春临近,拥有数百年历史的洧川大集便迎来一年中最热闹的时...