今日,DeepSeek团队发布了一篇新论文,介绍了一种名为mHC(流形约束超连接)的新架构。这项研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。mHC通过将残差连接空间投影到特定的流形上,恢复恒等映射属性,并结合基础设施优化以确保效率。论文的第一作者包括解振达、韦毅轩和曹欢淇,DeepSeek创始人兼CEO梁文锋也在作者名单之列。
论文摘要指出,超连接(HC)的研究通过扩展残差流宽度和多样化连接模式,扩展了残差连接范式。然而,这种多样化损害了残差连接的恒等映射属性,导致训练不稳定性和受限的可扩展性,还会产生显著的内存访问开销。mHC作为一个通用框架,旨在解决这些问题,通过实验验证了其在大规模训练中的有效性,提供了切实的性能改进和卓越的可扩展性。预计mHC将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。
