京东开源3B参数大模型JoyAI-LLM-Flash 强化学习新突破_知识学习

京东开源3B参数大模型JoyAI-LLM-Flash 强化学习新突破

创始人

2026-02-15 17:56:56

0次

2月15日，京东宣布在HuggingFace平台开源了名为JoyAI-LLM-Flash的大模型，该模型拥有3B激活参数和48B总参数，经过20万亿文本Token的预训练，擅长前沿知识理解、推理能力、编程和智能体等方面。JoyAI-LLM-Flash采用了全新优化框架FiberPO，将纤维丛理论引入强化学习，并在训练中使用Muon优化器，通过微调SFT、DPO以及强化学习进一步训练。

JoyAI-LLM-Flash模型结合了Muon优化器和稠密MTP技术，有效解决了传统模型规模扩展时的不稳定问题，与非MTP版本相比，吞吐量提升了1.3x-1.7x。该模型的详细参数包括混合专家模型(MoE)总参数量48B、激活参数量3B、层数40（含Dense）、Dense层数量1、注意力隐藏维度2048、MoE隐藏维度768、多头注意力数量32、专家个数256、每Token专家数8、共享专家数1、词表大小129K、上下文长度128K、注意力机制MLA、激活函数SwiGLU。

上一篇：马斯克宣布：Grok4.20下周发布，性能飞跃领先业界！

下一篇：字节跳动Seedance2.0助力春晚，AI云技术融合东方美学新突破

热门资讯

新春走基层·走笔｜追“光”少年... 春节快到了，24岁的村医冯莫林放心不下村里的父老乡亲，背上药箱前去随访。莽莽群山，山路九曲十八弯。这...

“文物会说话”有声海报丨万千奔... 【编者按】归途、团圆、乡愁，这几个词串起来，勾勒出春运时节一幅幅动人画面——无数人带着一年的故事，踏...

字节跳动Seedance2.0... 2月15日，央视财经报道，字节跳动的火山引擎作为企业云与AI服务平台，成为今年总台春晚的独家AI云合...

京东开源3B参数大模型JoyA... 2月15日，京东宣布在HuggingFace平台开源了名为JoyAI-LLM-Flash的大模型，该...

马斯克宣布：Grok4.20下... 2月15日，特斯拉CEO埃隆·马斯克宣布，Grok4.20版本将在下周发布，相较于4.1版有重大改进...

新年免费赏花！广州文化公园20... 广州文化公园2026年“迎春花会”以“岭南春韵荔映花城”为主题，展出时间为2026年2月16日（除...

年货大集、多彩民俗让刻在DNA... 央视网消息：这几天，宁夏多地都举办了丰富多彩的民俗活动。在宁夏吴忠，十二个乡镇的社火队伍齐聚一堂，一...

热气腾腾的中国年 | 火了千年... 春节快到，你家大门换“新皮肤”了吗？没错，说的就是春联。红纸黑字（或金字）往门上一贴，年的味道“噌”...

新春走基层丨2800多只黑颈鹤... 早上七点左右，贵州威宁，草海湖面的薄雾还未散尽，一声声清越的鹤鸣划破宁静，草海的“主人”醒了。草海巡...

消费新观察｜从赶集到打卡烟火... 央广网郑州2月15日消息（记者郝振青）每逢新春临近，拥有数百年历史的洧川大集便迎来一年中最热闹的时...

京东开源3B参数大模型JoyAI-LLM-Flash 强化学习新突破

相关内容

热门资讯