12月26日,小红书与复旦大学合作,推出了一项名为InstanceAssemble的突破性技术,该技术在布局控制生成(Layout-to-Image)领域取得显著进展。InstanceAssemble通过“实例组装注意力”机制,能够根据用户指定的空间布局约束生成精准图像,解决了布局对齐不准、语义脱节和计算成本过高的问题。这项技术基于扩散变换器架构,并允许用户通过提供物体的边界框位置和内容描述来生成符合语义的图像内容,无论是简单物体还是复杂场景,都能保持高精度的布局对齐和语义一致性。
InstanceAssemble技术在适配主流模型方面表现出色,通过约7100万个参数(约3.46%额外参数)适配StableDiffusion3-Medium模型,适配Flux.1模型的参数比例更是低至0.84%。在包含90万个实例的密集布局数据集上,InstanceAssemble的性能大幅超越了现有方法。为了更准确地衡量布局与图像的匹配程度,研究团队还创建了“Denselayout”基准测试集和“LayoutGroundingScore”(LGS)评估指标。实验结果表明,即使在训练时仅使用稀疏布局,InstanceAssemble也能在密集布局上保持稳健性能。
这项技术已经开源,代码和预训练模型可在GitHub上获取,为设计、广告和内容创作等领域的应用提供了强大支持。InstanceAssemble的开源将进一步推动AI绘画技术的发展,使其在多实例图像生成精度上实现新的突破。

