智谱联合华为开源图像生成模型 GLM-Image

admin 阅读:48657 2026年01月14日

21世纪经济报道记者孔海丽

1月13日,智谱联合华为开源新一代图像生成模型GLM-Image,在科普插画、多格图画、社交媒体图文、商业海报、写实摄影等方面均可落地。

智谱联合华为开源图像生成模型 GLM-Image
图片来源于网络,如有侵权,请联系删除

图片由GLM-Image生成

GLM-Image是首个在国产芯片上完成全程训练的SOTA多模态模型,全流程均在昇腾Atlas 800T A2设备上完成,验证了在国产全栈算力底座上训练前沿模型的可行性。

依托昇腾NPU和昇思MindSpore AI框架,使用动态图多级流水下发、高性能融合算子、多流并行等特性,智谱自研了模型训练套件,全面优化数据预处理、预训练、SFT和后训练的端到端流程。通过动态图的多级流水优化机制,将Host侧算子下发的关键阶段流水化并高度重叠,消除下发瓶颈;通过多流并行策略,通信和计算互掩,打破文本梯度同步、图像特征广播等操作的通信墙,极致优化性能;使用AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子,同步提升训练的稳定性和性能。

近期,以Nano Banana Pro为代表的闭源图像生成模型正在推动图像生成与大语言模型的深度融合。技术范式正从单一的图像生成,进化为兼具世界知识与推理能力的认知型生成,这些模型在海报、PPT、科普图等知识密集型场景及高保真细节呈现上表现较好。

据了解,GLM-Image采用自主创新的“自回归+扩散解码器”混合架构,实现了图像生成与语言模型的联合,API调用模式下,生成一张图片仅需0.1元,速度优化版本即将更新。

GLM-Image所涉及的“自回归”架构利用其语言模型的底座优势,专注于提升对指令的语义理解和画面的全局构图;“扩散解码器”则配合Glyph Encoder的文本编码器,专注于还原图像的高频细节和文字笔画,以此改善模型“提笔忘字”的现象。