近日,欧洲版OpenAI CEO Arthur Mensch的言论引发了广泛讨论。他在访谈中表示,中国开源AI的强势发展得益于Mistral公司发布的开源模型,特别是DeepSeek-V3是基于Mistral提出的架构构建的。这一言论遭到了网友的质疑,他们指出DeepSeek-V3和Mistral的架构实际上思路并不相同。
具体来说,Mistral的Mixtral论文与DeepSeek-V3的论文虽然发表时间仅相差3天,但研究方向和出发点存在差异。Mixtral侧重于证明强大的基础模型结合MoE技术可以超越更大的稠密模型,而DeepSeek则更注重算法创新,旨在解决传统MoE中专家“学得太杂”和“重复学习”的问题。在架构设计上,DeepSeek通过细粒度专家分割和共享专家的概念,实现了更精准的知识习得和知识分布的解耦。
此外,有网友指出,Mistral 3 Large实际上直接沿用了DeepSeek-V3的架构,而Mistral的论文并未详细说明训练细节。这引发了关于Mistral对MoE技术贡献的讨论,以及对Arthur Mensch言论的质疑。尽管如此,DeepSeek在稀疏MoE、MLA等技术上的影响力不容忽视,而围绕基础模型的竞争仍在继续。


