近日,苹果研究团队发布了多模态AI模型UniGen1.5,该模型在单一系统中集成了图像理解、生成与编辑三大核心功能。UniGen1.5的突破在于构建了一个统一框架,使得一个模型能够同时完成图像理解、图像生成以及图像编辑任务。这种统一架构能够利用强大的图像理解能力反哺生成效果,实现更精准的视觉输出。苹果团队还首创引入了“编辑指令对齐”的后训练阶段,通过预测目标图像的详细文本描述来提升编辑的准确度。
UniGen1.5在强化学习层面也有所创新,研究团队设计了一套统一的奖励系统,能够同时应用于图像生成和图像编辑的训练过程。这一突破让模型在处理不同类型的视觉任务时,能够遵循一致的质量标准,增强了系统的“抗干扰”性。在多项行业标准基准测试中,UniGen1.5展现了强劲的竞争力,其在GenEval和DPG-Bench测试中分别获得高分,显著优于其他方法。尽管UniGen1.5整体表现优异,但研究人员也指出了其局限性,如在生成图片内的文字时容易出错,以及在部分编辑场景下可能出现主体特征漂移的问题。这些问题将是团队未来的优化重点。


