11月28日,阿里通义大模型官方公众号宣布,其最新发布的生图模型Z-Image在HuggingFace趋势榜上迅速登顶双榜第一,并在模型发布首日下载量达到50万。Z-Image模型以6B参数规模,实现了与参数量大一个数量级模型相媲美的照片级真实感,无论是皮肤质感、发丝细节,还是自然光影与材质纹理,都能精细还原,构图与氛围兼具美学表现。
Z-Image-Turbo作为Z-Image的蒸馏优化版本,仅需8步推理即可生成高质量图像,在照片级真实感和中英双语文本渲染上表现卓越。Z-Image-Edit则基于Z-Image持续训练的编辑专用模型,能精准响应复杂复合指令,同时修改表情、姿态、背景、文字等多项元素,并在大幅变动中保持身份一致、光照协调、风格统一。
在数据层面,Z-Image构建了包含数据画像、跨模态向量引擎、世界知识图谱与主动标注系统的高效数据生态,用“对的数据”替代“多的数据”,从源头提升训练效率。架构层面,创新采用单流扩散Transformer(S³-DiT),将文本、图像潜变量与时间步条件统一为单序列输入,实现跨模态早融合,显著提升参数利用率。训练层面,通过三阶段渐进式策略,系统性注入世界知识并精准对齐人类偏好。推理层面,基于上述基础,推出Z-Image-Turbo,通过解耦式蒸馏与强化学习正则化,在仅8步推理下达成实时高质量生成,实现“高性能与普惠性”的统一。


