1月14日,智谱宣布联合华为开源新一代图像生成模型GLM-Image,标志着国产AI技术在图像生成领域取得重要进展。该模型基于昇腾Atlas800TA2设备和昇思MindSporeAI框架,成为首个在国产芯片上完成全程训练的SOTA多模态模型。GLM-Image采用“自回归+扩散解码器”混合架构,有效结合了全局指令理解与局部细节刻画,特别适用于海报、PPT等知识密集型场景的图像生成。
GLM-Image在CVTG-2K和LongText-Bench榜单上获得开源第一,尤其在汉字生成任务上表现出色。此外,模型在API调用模式下生成一张图片的成本仅为0.1元,且速度优化版本即将更新。智谱通过改进Tokenizer策略,使GLM-Image能够自适应处理多种分辨率,支持从1024x1024到2048×2048尺寸的任意比例图像生成任务,无需重新训练。
GLM-Image在实际应用中表现出色,无论是科普插画、多格图画、社交媒体图文封面,还是商业海报和写实摄影,都能生成构图设计感强、文字嵌入准确的高质量图像。模型的开源地址包括在线体验、API接入、GitHub和HuggingFace等,方便用户进一步探索和应用。


