12月12日,蚂蚁技术研究院宣布推出LLaDA2.0系列离散扩散大语言模型(dLLM),并公开了背后的技术报告。LLaDA2.0包含16B(mini)和100B(flash)两个版本,将Diffusion模型的参数规模首次扩展到了100B量级。该模型不仅打破了扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的性能。
LLaDA2.0通过创新的Warmup-Stable-Decay(WSD)持续预训练策略,能够无缝继承现有AR模型的知识,避免了从头训练的高昂成本。结合置信度感知并行训练(CAP)和扩散模型版DPO,LLaDA2.0在保证生成质量的同时,利用扩散模型的并行解码优势,实现了相比AR模型2.1倍的推理加速。蚂蚁技术研究院在多个维度对模型进行了评估,结果显示LLaDA2.0在结构化生成任务(如代码)上具有显著优势,并在其他领域与开源AR模型持平。
LLaDA2.0的模型权重(16B/100B)及相关训练代码已在Huggingface开源。
