美团开源6B参数图像生成模型,文生图与编辑能力惊艳提升!
创始人
2025-12-08 10:29:57
0

今日,美团LongCat团队宣布正式发布并开源了图像生成模型LongCat-Image。该模型以6B参数规模,在文生图和图像编辑的核心能力上接近更大尺寸模型的效果。LongCat-Image采用文生图与图像编辑同源的架构设计,并结合渐进式学习策略,实现了指令遵循精准度、生图质量与文字渲染能力的高效协同提升,尤其在单图编辑的可控性和文字生成的汉字覆盖度方面表现突出。

LongCat-Image在图像编辑领域的多个重要基准测试中达到开源SOTA水平,其性能突破的背后是一套紧密协同的训练范式和数据策略。模型基于文生图Mid-training阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解。此外,通过预训练阶段的多源数据及指令改写策略,以及SFT阶段引入人工精标数据,实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。

针对中文文本渲染的行业痛点,LongCat-Image通过课程学习策略提升字符覆盖度和渲染精准度。预训练阶段基于千万量级合成数据学习字形,覆盖通用规范汉字表的8105个汉字;SFT阶段引入真实世界文本图像数据,提升在字体、排版布局上的泛化能力;RL阶段融入OCR与美学双奖励模型,进一步提升文本准确性与背景融合自然度。通过对prompt中指定渲染的文本采用字符级编码,大幅降低模型记忆负担,实现文字生成学习效率的跨越式提升。

相关内容

热门资讯

以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
小米SU7Ultra紫水晶车漆... 12月8日,小米汽车官方宣布,小米定制服务已正式开启交付。北京的袁先生成为首批用户之一,选择了紫水晶...
尊界S800销量破1.8万台!... 日前,江汽集团控股公司党委书记、董事长、总经理项兴初宣布,尊界S800自5月30日上市以来,175天...
地平线发布第四代BPU黎曼架构... 12月8日,在2025地平线技术生态大会上,地平线创始人兼CEO余凯宣布正式发布第四代BPU架构——...
吉利银河M7插混版亮相:家用S... 近日,工信部公示了吉利银河M7插混版的新款申报图,核心参数与配置细节首次曝光,标志着新车上市进程的进...
极狐N80KS大型MPV申报:... 近日,工信部最新一期新车申报目录中出现了极狐汽车全新大型MPV的申报信息。这款内部代号为N80KS的...
全面通车!广州增城区两条新路投... 近日,广州市增城区仙村园区交通网络建设迎来重要进展。12月5日,由区住建局负责实施的增城区进奉大道建...
以下是一些改写“回应民生关切”... 回应民生关切是政府工作的重要使命。通过加强政策调研,精准把握民众需求,制定切实可行的举措。在教育方面...
美团开源6B参数图像生成模型,... 今日,美团LongCat团队宣布正式发布并开源了图像生成模型LongCat-Image。该模型以6B...
奇瑞捷途山海L7PLUS「城市... 12月8日,奇瑞捷途汽车官方宣布捷途山海L7PLUS的「城市NOA」功能全国上线,11月15日后量产...