Qwen-Image-Edit是什么
Qwen-Image-Edit 是基于 200 亿参数的 Qwen-Image 架构构建的全能图像编辑模型。模型兼具语义与外观的双重编辑能力,能进行低层次的视觉外观编辑(如添加、删除、修改元素)和高层次的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等)。模型支持中英文双语文字的精准编辑,支持在保留原有字体、字号和风格的前提下修改图片中的文字。Qwen-Image-Edit 在多个公开基准测试中表现出色,具备 SOTA 性能,可通过 Qwen Chat体验。

Qwen-Image-Edit的主要功能
- 语义编辑:支持在保持原始图像视觉语义一致的前提下,对图像内容进行修改。
- 外观编辑:支持对图像的局部区域进行精确修改,如添加、删除或修改图像中的元素,同时保持其他区域不变。
- 精准文字编辑:支持中英文双语文字编辑,在保留原有字体、字号和风格的前提下,对图片中的文字进行增、删、改等操作。
- 强大的基准性能:在多个公开基准测试中表现出色,具备 SOTA(State-of-the-Art)性能,能高效完成各种复杂的图像编辑任务。
Qwen-Image-Edit的技术原理
- 模型架构:Qwen-Image-Edit 基于 200 亿参数的 Qwen-Image 模型进一步训练而成,继承其强大的文本渲染和图像生成能力。输入图像同时输入到两个模块,Qwen2.5-VL负责视觉语义控制,能理解图像的语义内容并进行语义层面的编辑。VAE Encoder负责视觉外观控制,能精确处理图像的视觉细节,实现局部区域的编辑。
- 语义与外观编辑:通过 Qwen2.5-VL 模块,模型能理解图像的整体语义,在保持语义一致的前提下进行内容修改。通过 VAE Encoder 模块,模型能精确处理图像的视觉细节,实现局部区域的添加、删除或修改。
- 文字编辑:Qwen-Image-Edit 在文字渲染方面进行优化,能精准识别和编辑图像中的文字。模型支持中英文双语,在保留原有字体、字号和风格的前提下,对文字进行增、删、改等操作。
- 链式编辑:模型支持链式编辑,通过逐步修正的方式,对复杂的图像内容进行精细调整。用户能指定需要修改的区域,模型逐步优化区域,直至达到理想效果。
Qwen-Image-Edit的项目地址
- 项目官网:https://qwenlm.github.io/blog/qwen-image-edit/
- GitHub仓库:https://github.com/QwenLM/Qwen-Image
- HuggingFace模型库:https://huggingface.co/Qwen/Qwen-Image-Edit
- 在线体验Demo:https://huggingface.co/spaces/Qwen/Qwen-Image-Edit
Qwen-Image-Edit的应用场景
- 创意设计:快速生成和修改虚拟角色的外观、服装和背景,高效完成原创 IP 的多样化创作。
- 广告与海报设计:直接在海报中修改文字内容并调整字体、字号和颜色,无需重新设计,提高设计效率。
- 影视与视频制作:在影视后期中快速调整场景元素或角色外观,或将视频画面风格从现实转换为动漫风格。
- 教育与培训:快速生成和修改教学用图像和图表,如历史人物肖像、科学实验示意图,增强教学效果。
- 个人应用:快速调整个人照片,如更换背景、添加装饰元素、修改服装,轻松制作个性化照片。