阿里Qwen-Image图像生成模型登顶HuggingFace,或成新时代图像编辑利器
新时代的PS来了,你会用吗?就在8月19日,阿里发布了图像生成基础模型Qwen-Image。该模型通过系统性的数据工程、渐进式的学习策略、改进的多任务训练范式以及可扩展的架构优化,致力于解决复杂文本渲染和精准图像编辑的核心难题。
近年来,图像生成技术作为AI领域的重要分支取得显著进展。无论是文本直接生成图像(T2I),还是对现有图像进行编辑(TI2I),关键在于机器能否精准理解并以视觉形式再现人类意图。尽管扩散模型等架构提升了生成图像的分辨率与细节表现力,但该领域仍面临两大挑战。

在文本到图像的生成任务中,模型对复杂、多维度文本指令的理解与对齐能力不足。处理多行文本渲染、非字母文字(如汉字)渲染、特定位置文字嵌入以及文字与视觉元素融合等精细任务时,现有模型效果不佳。
在图像编辑任务中,确保编辑后的图像与原始图像在视觉和语义上保持一致是难题。这既要求视觉上只修改目标区域,不影响其他部分细节;也要求语义上进行结构性调整(如改变人物姿态)时,保留主体身份特征与场景整体逻辑。
01
Qwen团队发布《Qwen-Image Technical Report》技术报告,详细介绍Qwen-Image的功能。
为实现精准文本渲染,Qwen-Image构建了全面的数据处理体系。该体系大规模收集数十亿级图文数据,注重质量。数据经过七个阶段的精细化过滤管道,从低分辨率基础筛选到高分辨率美学提纯,提升了数据质量与图文对齐度。
考虑到真实图像中汉字等内容的长尾分布特性,模型通过“纯粹渲染”“组合渲染”和“复杂渲染”三种策略合成高质量文本图像数据,弥补自然数据不足。在此基础上,采用由简到繁的“课程学习”策略训练,增强了渲染复杂中英文文本的能力。
为实现精准图像编辑,Qwen-Image提出增强的多任务学习框架。其核心是将输入图像编码为两种互补特征:一是通过Qwen2.5-VL模型提取的高层“语义特征”,用于理解图像内容和编辑指令;二是通过变分自编码器(VAE)提取的低层“重建特征”,用于保留图像视觉细节和纹理。
这两种特征作为引导信号输入到多模态扩散Transformer(MMDiT)中。“双重编码”设计使模型在执行编辑指令时,能平衡语义连贯性与视觉保真度。
Qwen-Image的模型架构由Qwen2.5-VL(条件编码器)、VAE(图像压缩与解码)和MMDiT(核心生成网络)三部分组成。VAE采用“单编码器、双解码器”架构,为未来视频生成任务奠定基础。MMDiT引入MSROPE新型位置编码方法,改善了文本与图像特征的对齐。
训练过程是渐进式的,从低分辨率到高分辨率,从无文本图像到有文本图像,结合监督微调(SFT)与直接偏好优化(DPO)等强化学习方法,优化生成结果质量与指令遵循准确性。大量测试和评估表明,Qwen-Image在图像生成、文本渲染和图像编辑任务上达到业界领先水平。
下面来看一些实际生成效果。我故意让Qwen-Image生成自然界不存在的东西。结果显示,Qwen的冰山渲染效果比GPT-5更好,但火焰跟冰山较为割裂,而GPT-5用熔岩填充火焰和冰山之间的部分,画面更自然。
提示词:A colossal iceberg that is on fire, with bright orange flames licking its crystalline blue surfaces, emitting thick steam and smoke into a freezing arctic sky. The water around the iceberg is boiling. Photorealistic, dramatic lighting.
Qwen-Image:

GPT-5:

在图片重构方面,GPT-5除猫整体改变,包括背景。因要求猫漂浮在空中,GPT-5把猫送上了大气层,而Qwen-Image让猫漂浮在半空中。
提示词:make the cat floating in the air and holding a sign that reads 'this is fun' written with a blue crayon
原图片:

Qwen-Imgae:

GPT-5:

有意思的是,由于原图片中出现星条旗,GPT-5和Gemini都不能完成对原图片的修改。但Qwen-Image完成了命令,不过生成图片中马斯克变得更苍老了。
提示词:Keep Elon Musk and his hat exactly as they are in terms of pose and size, but place them on the surface of Mars during a massive dust storm. The sky should be a swirling orange and red, with visible streaks of dust. Add a futuristic, slightly damaged SpaceX rover partially buried in the Martian sand in the background.
原图:

Qwen-Image:

02
Qwen-Image展现出强大的图像生成与编辑能力,它能成为“AI版的Photoshop”吗?要回答这个问题,需比较它与传统图像编辑软件的异同。
从功能上看,Qwen-Image与Photoshop有相似的编辑能力,但实现方式不同。Photoshop依赖工具箱、图层和滤镜,用户直接操作实现修改;Qwen-Image依赖自然语言指令,用户通过“描述”完成编辑。
在对象处理方面,Photoshop用套索、魔棒等工具精确选区后操作;Qwen-Image通过文本指令实现类似操作,还能理解风格要求并自动化处理。
在材质与风格转换上,Photoshop提供滤镜库等功能;Qwen-Image通过指令完成,如将普通图标变为特定风格的冰箱贴。此外,其精准的文本编辑能力对标Photoshop的文字工具。
在处理图像结构性变化时,比如人物姿态调整,Qwen-Image展现出超越传统工具的潜力。Photoshop调整姿态需手动修改,且难保证衣物纹理和背景过渡自然;Qwen-Image能理解指令,在保持人物身份、服装细节和背景一致性的前提下生成新姿态。
然而,不能简单将Qwen-Image视为Photoshop的替代品,二者核心工作范式存在根本差异。
最重要的是控制粒度。Photoshop提供像素级精确控制,用户可精确控制像素颜色;Qwen-Image是语义级、概率性控制,用户描述“什么”而非“如何做”,编辑结果有一定随机性。
Photoshop基于图层的工作流是非线性、非破坏性的,用户可随时修改图层;Qwen-Image的编辑更像“一次性”再生成过程,虽有“链式编辑”,但与PS图层调整逻辑不同。
精通Photoshop需掌握复杂知识;使用Qwen-Image需掌握“提示词工程”。它降低了图像编辑技术门槛,但引入新技能壁垒。
Qwen-Image并非Photoshop的直接替代品,而是全新的图像内容创作与编辑范式。Photoshop为专业人士提供精确控制能力;Qwen-Image将人的意图从技术操作中解放出来,侧重于创意构想实现和语义内容调整。
它们满足不同场景需求。专业设计师进行精细排版和品牌设计离不开Photoshop;需要快速产出创意概念图、营销素材或无专业设计技能的用户,Qwen-Image更高效、直观。
目前一些修图软件的AI功能较浅,未来二者可能深度融合,如在Photoshop中嵌入强大的语义理解和生成引擎,Qwen-Image标志着融合之路的“语义引擎”端达到新高度。
本文来自微信公众号“直面AI”,作者:苗正,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



