法国人工智能初创企业MistralAI于12月2日宣布推出新一代Mistral3系列模型,其中包括首款采用稀疏架构的混合专家模型MistralLarge和三款小型密集模型。MistralLarge拥有675B的总参数量和41B的活跃参数规模,而Ministral3系列的参数规模分别为14B、8B和3B。这些模型及其衍生版本均以Apache2.0许可证开源,意味着它们可以被广泛地用于研究和商业用途。
MistralAI表示,MistralLarge3是全球顶尖的开放权重模型之一,使用3000块英伟达H200GPU从头开始训练。该模型在通用提示方面与市场上最佳的指令微调开放权重模型达到了同等水平,并在多语言对话方面展示了图像理解和行业顶尖性能。在LMArena排行榜的OSS非推理模型类别中,MistralLarge3位列第二,而在OSS总榜中排名第六。
对于参数较小的Ministral3系列,MistralAI声称它们实现了所有OSS模型中最佳的性价比。这些模型的指令变体在性能上与同类模型相当或更优,同时在生成的token数量上通常降低了一个数量级,这表明它们在效率和成本效益方面具有显著优势。


