今日,腾讯混元发布混元图像3.0图生图(HunyuanImage3.0-Instruct)模型,该模型支持图片编辑与多图融合功能,并已在“元宝”平台同步上线。混元图像3.0图生图拥有80亿参数量,采用混合专家(MoE)架构,基于混元图像3.0的原生多模态架构基础模型,通过指令微调和后训练,实现了对用户输入图像和编辑指令的深度理解与处理。
混元图像3.0图生图能够理解输入图像内容,并基于用户的提示词进行推理,以确定需要编辑的区域、编辑步骤及保留区域,形成详细编辑指令。该模型支持多样化的图片编辑与多图融合能力,包括增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑能力,以及将多张照片中的人物或元素提取合成合照与生成新图片。
在数据层面,混元团队构建了千万量级的图生图数据,覆盖80+任务,并在持续训练阶段注入这些数据,使模型掌握基础编辑功能。同时,混元团队针对图生图数据构造了思维链,让模型学会先分析用户图像和意图,输出更加详细的编辑指令提升编辑效果。后训练阶段,混元图像3.0图生图采用自研MixGRPO算法,结合奖励模型多轮迭代,对齐用户偏好,提升了指令响应和非编辑区域保持一致的效果。


