苹果AI新突破:UniGen1.5一模型三用,图像理解生成编辑全搞定
创始人
2025-12-19 07:55:58
0

近日,苹果研究团队发布了多模态AI模型UniGen1.5,该模型在单一系统中集成了图像理解、生成与编辑三大核心功能。UniGen1.5的突破在于构建了一个统一框架,使得一个模型能够同时完成图像理解、图像生成以及图像编辑任务。这种统一架构能够利用强大的图像理解能力反哺生成效果,实现更精准的视觉输出。苹果团队还首创引入了“编辑指令对齐”的后训练阶段,通过预测目标图像的详细文本描述来提升编辑的准确度。

UniGen1.5在强化学习层面也有所创新,研究团队设计了一套统一的奖励系统,能够同时应用于图像生成和图像编辑的训练过程。这一突破让模型在处理不同类型的视觉任务时,能够遵循一致的质量标准,增强了系统的“抗干扰”性。在多项行业标准基准测试中,UniGen1.5展现了强劲的竞争力,其在GenEval和DPG-Bench测试中分别获得高分,显著优于其他方法。尽管UniGen1.5整体表现优异,但研究人员也指出了其局限性,如在生成图片内的文字时容易出错,以及在部分编辑场景下可能出现主体特征漂移的问题。这些问题将是团队未来的优化重点。

相关内容

热门资讯

24家AI巨头联手美国政府,开... 12月19日,24家顶尖AI公司签署加入美国政府的“创世纪计划”,旨在推动新兴人工智能技术在科学发现...
华为智驾垫底引争议,尊界S80... 近日,媒体“第一电动”发布的“智驾战力天梯榜场景榜”引发广泛讨论。榜单中,特斯拉以纯视觉方案位列第一...
OpenAI升级ChatGPT... 12月19日,科技媒体TheVerge报道,OpenAI正在调整其聊天机器人ChatGPT,以识别和...
字节跳动联手三家投资者,Tik... 美国时间12月18日下午,TikTok CEO周受资发布内部信宣布,字节跳动及TikTok已与三家投...
男子被下病危通知书后,最后一次... 近日,河北一位病重的爸爸在被下病危通知书后,给孩子最后一次剪指甲的一幕令很多人落泪。妻子宋女士告诉记...
在数字文娱万亿元级赛道上,广东... □李妹妍中国数字文娱版图上,一个数字引人瞩目:1.75万亿元。这是2024年中国数字文娱的市场规模,...
广湛高铁下周一开通 汕汕高铁汕... 羊城晚报讯 记者严锦程报道:12月18日,记者从中国国家铁路集团有限公司获悉,广湛高铁与汕汕高铁汕头...
专家学者业界大咖齐聚共话数字文... 12月18日,2025年中国数字文娱大会在广州市天河区羊城创意产业园启幕。作为国内数字文娱领域的顶级...
技术如何重塑消费场景与商业模式... 统筹/羊城晚报全媒体记者 李焕坤文/羊城晚报全媒体记者 侯梦菲 黎秋玲 鄢敏 李焕坤图/羊城晚报全媒...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...