阿里最强“PS模型”开源!一手体验,0元P出氛围感合影
智东西,2025-12-24 15:26:13
![]()
智东西
作者|江宇
编辑|漠影
智东西12月24日报道,今日,阿里Qwen团队正式开源图像编辑模型Qwen-Image-Edit-2511,这是继9月23日发布Qwen-Image-Edit-2509后的最新增强版本。
![]()
在此前的多个公开基准测试中,Qwen-Image系列已展现出较强的图像编辑性能,共获得12项SOTA(最佳表现)。在中文文字生成评测ChineseWord与LongText-Bench中分别领先GPT Image 1、Seedream 3.0等主流模型。
新版本则聚焦图像生成过程中的人物一致性问题,在单人连拍、多人物融合等任务中显著提升面部特征与风格的稳定性,同时集成了多个LoRA子模型,增强了图像编辑中的几何构造、光照控制、材质替换等能力。
![]()
智东西也在第一时间进行了实测。整体来看,Qwen-Image-Edit-2511在人像融合、LoRA光照控制、风格一致性方面表现出色,生成结果自然。但在镜头旋转、空间构图与几何推理类操作上仍存在明显误差。
Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit-2511
魔搭社区:https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2511
技术报告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
一、新版本聚焦人物一致性与风格迁移,拓展多场景图像编辑能力
在此前版本的Qwen-Image中,Qwen团队首次构建了完整的图像生成与编辑框架,通过Qwen2.5-VL+VAE双编码机制配合MMDiT扩散架构,其中“MM”代表的是模型生成图像、文本等多模态内容的能力,“DiT”则代表了这是一个扩散Transformer。
Qwen团队在多个公开基准上对Qwen-Image进行了评估,比较对象为全球头部的开源、闭源图像生成模型。在通用图像生成测试GenEval、DPG和OneIG-Bench,以及图像编辑测试GEdit、ImgEdit和GSO上,Qwen-lmage超过了Flux.1、BAGEL等开源模型、字节跳动的SeedDream 3.0和OpenAI的GPT Image 1(High)。
在用于文本渲染的LongText-Bench、ChineseWord和TextCraft基准测试上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型,包括SeedDream 3.0和GPT Image 1(High)。
此次发布的Qwen-Image-Edit-2511版本,则在图像编辑阶段进一步增强了人物一致性表达能力,并引入LoRA模块提升光照、材质与视角控制表现。
Qwen-Image-Edit-2511在保持人物一致性方面做出了重点升级。针对输入人像生成的多张变体图像,模型在眼神、发型、配饰等细节上的保留更加稳定,适用于多表情、多姿态、多风格等需要角色连贯输出的场景。
![]()
除了单人任务,Qwen-Image-Edit-2511还显著优化了多人图像融合表现。相比此前版本,它可以更自然地将两张不同人像合成为同一张合影图像,保留人物原貌的同时,自动调整姿态与构图,生成结果在整体风格与角色协调性上更为连贯。这为AI情侣照、群像图等应用提供了更高质量的基础。
![]()
▲Qwen官方案例
同时,Qwen-Image-Edit-2511首次在基础模型中内置了部分高频使用的LoRA子模型。用户无需加载外部权重,即可直接启用如光照增强、新视角生成、材质替换等功能。
例如,用户可通过LoRA控制自然光线方向变化,重现柔光照明效果,也可以在工业设计场景中完成木材纹理或布料风格的替换操作。
在结构理解方面,该版本还加入了几何构造辅助能力,支持在输入图像的基础上添加辅助线、延长线等几何元素,适用于教学、工程图生成或图像标注任务。
二、实测:人物融合稳定、风格控制可用,但精细控制仍有边界
在实际体验中,我们围绕人物一致性、LoRA光照、材质替换、文字渲染以及几何推理等能力,对Qwen-Image-Edit-2511进行了多组测试。
整体来看,模型在人物类合成与风格表达方面表现稳定,输出结果具备较高可用性,但在镜头级控制与几何逻辑执行上仍存在一定局限。
案例1:情侣写真合影(人物一致性与互动姿态测试)
4:3,韩系情侣写真风格,背景为纯色暖调低饱和暗绿色磨砂质感墙面,正面柔光打光,人物面部形成柔和阴影过渡。一对年轻东亚情侣,女性人脸参考第一张图,长头发妆容精致带项链耳环,米白色露肩上衣;男性人脸参考第二张图,发型不变,黑色短袖。人物姿态互动感强(脸贴脸),表情灵动俏皮微笑,男生搞怪委屈,女生搞怪可爱笑眯眯,整体甜酷亲昵,胶片风格带颗粒感柔光暖调,注重互动细节与服饰质感。原比例。
![]()
▲参考图
生成结果中,两位人物的面部特征与细节保持良好一致性,互动姿态自然,光影符合写真风格,整体效果稳定且可用。
![]()
▲Qwen-Image-Edit-2511生成效果图
案例2:双人俯拍自拍(高角度合成与人物一致性测试)
请将图1和图2融合成一张双人俯拍自拍照,画面构图紧凑,两位主体靠得很近,头部略微上仰,眼神直视镜头,营造出强烈的视觉冲击力。左侧人物站得略靠前,参考我图1的主体形象特征造型保持不变,需要保持人脸相似度;右侧人物参考图2的主体形象特征保持造型不变,需要保持人脸相似度,略微内扣身体,拍摄角度为高角度俯拍,使头部比例被夸张放大,符合典型的日韩视觉自拍风格。背景为纯白色,简洁干净,进一步凸显人物主体。画面风格偏向日系视觉系,整体画面清晰度高,用iphone前置自拍,最终呈现出精致、时尚、略带的合影效果。要求人物实现无缝融进画面,视觉过渡自然,整体画面光线明亮且均匀。
合成结果中,两位人物在高角度俯拍构图下保持了较高的人脸相似度,自拍风格成立,背景干净,整体效果表现良好。
![]()
▲Qwen-Image-Edit-2511生成效果图
案例3:软光LoRA与镜头控制(光照重构与视角操作测试)
对上传的室内家居图进行重新打光,加入柔和光线、侧面光照效果,突出空间质感,整体光线要自然不过曝。
![]()
▲参考图
在该任务中,该模型成功完成柔光重新照明,侧光层次自然,整体光线控制稳定。
![]()
▲Qwen-Image-Edit-2511生成效果图
将镜头移至桌面特写
生成结果中,镜头确实发生变化,但桌面毛笔数量与书本打开状态与原图存在偏差,结构并不够严格。
![]()
▲Qwen-Image-Edit-2511生成效果图
将镜头向左旋转60度
该指令未能被有效执行,画面视角未出现明显旋转变化,该模型在精确镜头控制方面仍有限制。
![]()
▲Qwen-Image-Edit-2511生成效果图
案例4:材质替换(工业设计场景测试)
将家具图片中桌面与椅子的木质纹理替换为另一张图中的浅色松木材质,保持结构不变,仅替换材质贴图。
![]()
▲参考图
生成结果中,桌椅整体结构保持稳定,木质纹理替换自然贴合,观感统一。
![]()
▲Qwen-Image-Edit-2511生成效果图
案例5:文字渲染与风格融合(中英文文字测试)
生成竖版3:4画面比例的“真人与其对应卡通壁画合影”场景图像:将上传的真实人物照片以原样保留服装、发型、妆容置于画面左侧/前方,调整人物的动作和拍摄视角,以确保画面和谐。在真人背后墙面绘制1:1对应卡通壁画,厚涂质感且采用动漫风格大眼、柔和轮廓五官,完整复刻发型、服装及配饰细节如耳环、项链等,色彩饱和度高并带有涂鸦式笔触效果。墙面添加彩色涂鸦爱心、笑脸图案元素,地面点缀飞溅颜料装饰细节,壁画区域融入如“2026新年快乐”的中文字元素,字体风格契合涂鸦美学。确保真人与壁画比例、角度自然衔接,光照方向统一符合场景逻辑,保持整体色彩风格一致呈现生动、连贯且视觉和谐效果。
![]()
▲参考图
生成结果中,真人与卡通壁画在风格和镜头方向上衔接自然,中文文字“2026新年快乐”渲染清晰。
![]()
▲Qwen-Image-Edit-2511生成效果图
然后,把文字部分换成如“Merry Christmas”的英文元素和“圣诞快乐”的中文字元素中英文混合的文字。
在中英文混排场景下,模型依然能够正确生成文字内容,风格与画面保持一致,文字渲染稳定,未出现明显错字。
![]()
▲Qwen-Image-Edit-2511生成效果图
案例6:几何推理(辅助构造能力测试)
过A作$DE$的垂线,延长$ED$交于G。
![]()
▲参考图(左)与Qwen-Image-Edit-2511生成效果图(右)
该任务中模型生成的几何关系存在明显错误,垂线与交点位置不符合要求,其几何推理能力尚不足以支撑严谨的数学或工程制图任务。
三、内置LoRA模型增强实用性,覆盖光照、视角与工业材质替换
在Qwen-Image-Edit-2511中,官方首次将部分社区高频使用的LoRA子模型直接内置于基础模型中,用户无需加载额外权重即可调用对应能力。这一机制显著降低了LoRA功能的使用门槛,也提升了模型在专业应用场景下的实用性。
例如,在图像风格调控任务中,用户可通过光照增强LoRA控制自然光线的角度、强度与方向,生成具有真实光影层次的画面效果。当前版本已可实现“柔光—侧光”等典型照明风格的生成。
![]()
在视角调控方面,用户还可调用新视角LoRA,直接以同一主体为基准生成不同拍摄角度下的图像,可减少重复拍摄与人工调整角度所需成本。
![]()
此外,在工业设计任务中,LoRA机制也可被用于批量图像生成、元素删改与材质替换流程中。这类能力已初步具备在产品草图阶段进行测试的潜力。
![]()
综合来看,内置LoRA的集成设计提升了Qwen-Image-Edit-2511在具体任务中的可用性,尤其在光照控制、材质替换、多视角生成等高频需求中展现出更高的商用适配性,为设计、营销、内容生成等场景提供了更低成本的图像处理方案。
结语:国产开源模型朝商用化迈进了一步
综合来看,Qwen-Image-Edit-2511在人物一致性、多人物合成与LoRA风格控制方面展现出稳定表现,实用性比前一版本有明显进步。对于需要连贯角色形象输出、控制局部风格迁移、进行材质替换等图像生成任务的用户来说,它已经具备一定的落地能力。
不过,在镜头变换、构图调整、几何推理等涉及空间理解与强逻辑执行的任务中,模型仍存在稳定性与精度上的短板,与当前顶尖的多模态生成模型相比,仍有一定差距。
作为一款面向开源社区的图像编辑模型,Qwen-Image-Edit-2511正将模型能力朝向可控性与商用型场景聚焦,这也为国内开源路线提供了一个新的样本。