1月21日,据The Information月初爆料,DeepSeek计划在2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeekV4,该模型将具备更强的写代码能力。1月20日,DeepSeek-R1发布一周年之际,开发者在GitHub中发现DeepSeek更新了一系列FlashMLA代码,涉及114个文件中的28处提到了未知的“MODEL1”大模型标识符。该标识符与现有的“V32”(即DeepSeek-V3.2)并列或区别提及,暗示“MODEL1”可能代表一个新架构模型。
代码分析显示,“MODEL1”与“V32”在关键技术上存在差异,主要体现在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。此外,DeepSeek研究团队还发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法和一种受生物学启发的“AI记忆模块(Engram)”。用户猜测,DeepSeek正在开发的新模型可能会整合这些最新研究成果。
