7月2日,英伟达宣布推出Nemotron-Labs-TwoTower,这是一种基于预训练自回归骨干网络的离散扩散语言模型,旨在解决大模型Token生成速度的瓶颈问题。该模型在Huggingface平台以开源权重形式发布,采用NVIDIANemotronOpenModelLicense授权协议,总参数达到60B,采用双塔(TwoTower)架构,包括30B的自回归模型(AR)/contextTower和30B的扩散/降噪Tower,每个Tower激活3B模型,128个可路由专家。
TwoTower架构的核心优势在于将文本生成任务中的上下文表示与去噪过程分离到两个独立的神经网络“塔”中。上下文塔保持冻结,专注于维护文本的自回归上下文,而去噪器塔则经过训练,负责对噪声块进行去噪。两个塔通过逐层交叉注意力连接协作,从而提高性能。英伟达表示,双塔架构在综合基准测试质量上保留了98.7%的质量表现,而实际运行时间吞吐量提高了2.42倍。这一创新架构有望为大模型的语言生成任务带来效率上的显著提升。
