AI热点 8月前 • 168 阅读 • 0 评论

全能图像编辑 AI 模型 Qwen-Image-Edit 发布：哪里不对改哪里，文字也能随心换

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

HuggingFace

HuggingFace

0秒前

感谢IT之家网友四文鱼的线索投递！

IT之家 8 月 19 日消息，通义千问 Qwen 今日宣布推出 Qwen-Image-Edit —— Qwen-Image 的图像编辑版本。

Qwen-Image-Edit 基于 20B 的 Qwen-Image 模型进⼀步训练，成功将 Qwen-Image 的独特的文本渲染能力延展至图像编辑领域，实现了对图片中文字的精准编辑。

此外，Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL（实现视觉语义控制）和 VAE Encoder（实现视觉外观控制），从而兼具语义与外观的双重编辑能力。用户可以访问 Qwen Chat （chat.qwen.ai）并选择“图像编辑”功能进行体验。

Qwen-Image-Edit 的主要特性包括：

语义与外观双重编辑：Qwen-Image-Edit 不仅⽀持 low-level 的视觉外观编辑（如元素的添加、删除、修改等，要求图片其他区域完全不变），也支持 high-level 的视觉语义编辑（如 IP 创作、物体旋转、风格迁移等，允许整体像素变化但保持语义一致）。
精准文字编辑：Qwen-Image-Edit 支持中英文双语文字编辑，可在保留原有字体、字号、风格的前提下，直接对图片中的文字进行增、删、改等操作。
强大的基准性能：在多个公开基准测试中的评估表明，Qwen-Image-Edit 在图像编辑任务上具备 SOTA 性能，是一个强大的图像编辑基础模型。

Qwen-Image-Edit 的一大亮点在于其语义与外观双重编辑能力。所谓语义编辑，是指在保持原始图像视觉语义不变的前提下，对图像内容进行修改。IT之家附示例如下：

原创 IP 编辑

官方以 Qwen 的吉祥物 —— 卡皮巴拉为例，来直观展示这一能力：

可以看到，虽然编辑后的图像大多数像素与输入图像（最左侧的图）都不一样，但依然完美地保持了卡皮巴拉的角色一致性。Qwen-Image 的语义编辑能力使其能够进行原创 IP 的多样化创作。

更进一步的，官方在 Qwen Chat 上围绕 MBTI 十六型人格，设计了一系列编辑 prompt，成功地基于吉祥物卡皮巴拉，完成了 MBTI 表情包的制作，轻松地拓展了 IP。

视角转换

此外，视角转换同样是语义编辑中的一个重要应用场景。如下方两张示例图所示，Qwen-Image-Edit 不仅能够实现物体的 90 度旋转，还可以完成 180 度旋转，让我们直接看到物体的背面：

风格迁移

语义编辑的另一个典型应用是风格迁移。例如，输入一张人物头像，Qwen-Image-Edit 可以轻松将其转换为吉卜力等多种风格，这在虚拟形象创作等场景中极具价值：

新增、消除、重绘

除了语义编辑，外观编辑也是常见的图像编辑需求。外观编辑强调在编辑过程中保持图像的部分区域完全不变，实现元素的增、删、改。下图展示了在图片中添加指示牌的案例，可以看到 Qwen-Image-Edit 不仅成功添加了指示牌，还生成了相应的倒影。

下方是另一个有趣的例子，展示了如何在图片中删除细小的头发丝等微小物体。

此外，还可以对图像中指定的字母“n”进行颜色修改，将其变为蓝色，实现对特定元素的修改。

⼈物背景调整、服装修改

外观编辑在人物背景调整、服装更换等场景中同样有着广泛的应用，下面三张图片分别展示了这些实际应用场景。

英文文字编辑

Qwen-Image-Edit 的另一大亮点在于其准确的的文字编辑能力，这得益于 Qwen-Image 在文字渲染方面的深厚积累。如下所示，以下两个案例直观展示了 Qwen-Image-Edit 在英文文字编辑上的强大表现：

中文海报编辑

Qwen-Image-Edit 同样能够直接对中文海报进行编辑，不仅可以修改海报中的大字，连细小的文字也能精准调整。

链式编辑

最后，让我们通过一个具体的图像编辑案例，演示如何利用链式编辑的方式，逐步修正 Qwen-Image 生成的书法作品中的错误：

在这幅作品中，有不少汉字存在生成错误。我们可以借助 Qwen-Image-Edit，逐步修复它们。例如，可以在原图中用方框标注出需要修改的区域，指示 Qwen-Image-Edit 针对这些部分进行修正。这里，我们希望红框内正确地写出“稽”字，蓝色区域正确地写出“亭”字。

但实际操作中，“稽”字较为生僻，模型未能一次性完成修改。“稽”的右下角应为“旨”而非“日”。此时，我们可以进一步用红框圈出“日”的部分，让 Qwen-Image-Edit 对该细节进行微调，将其改为“旨”。

通过这种链式、逐步的编辑方式，我们可以持续修正错字，直至获得理想的最终效果。

最终，我们成功获得了完全正确的兰亭集序书法版本。

IT之家附开源地址：

ModelScope：https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Hugging Face：https://huggingface.co/Qwen/Qwen-Image-Edit
GitHub：https://github.com/QwenLM/Qwen-Image

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

6月前 • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

6月前 • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

6月前 • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

6月前 • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

6月前 • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

6月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

6月前 • AI热点

热门标签

传统亚秒级搜索影像豆包超人类智能体骗局解谜游戏谷歌文档 GEO优化分析贺卡设计

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝