开源项目 9月前 • 217 阅读 • 0 评论

昆仑万维开源Skywork UniPic！图像理解、生成与编辑全能力统一！

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

Ghibli AI

Ghibli AI

0秒前

7月30日，昆仑万维正式开源「Skywork UniPic」,这是一款基于自回归路线的多模态统一预训练模型。

该模型在单一架构中深度融合图像理解、文本到图像生成（T2I）和图像编辑三大核心能力，通过端到端预训练实现高效通用性。

主要功能：

图像理解：基于文本提示理解图像内容，完成图文匹配、问答等任务。模型能精准地捕捉图像的语义信息，实现对图像的深度理解。

prompt：这是哪座城市？（What city is this?）

文本到图像生成：根据用户输入的文本提示，模型能生成高质量的图像。

prompt：生成一个带有彩虹发丝的少女数字肖像。（Digital portrait of a girl with rainbow hair.）

图像编辑：用户提供参考图像和编辑指令，模型根据指令对图像进行修改，例如替换图像中的元素、调整风格等，支持多种复杂的编辑操作。

prompt：将图片中的星星替换成蜡烛（Replace the stars with the candle.）

prompt：将以下图片风格转绘成吉卜力风格和像素风格（Switch to a Ghibli style and a pixel style.）

性能优势：

Skywork UniPic以仅1.5B的轻量级参数规模，实现与大参数模型媲美的性能，在四大核心评估维度上均展现出了卓越表现！

指令遵循能力：GenEval评估得分0.86（无CoT），超越多数同类模型，逼近BAGEL（7B+7B*）的0.88分。

复杂生图领先：DPG-Bench基准达85.5分，行业SOTA。

编辑能力顶尖：GEditBench-EN得分5.83，ImgEdit-Bench达3.49分。

部署友好：在RTX 4090等消费级显卡流畅运行，降低技术门槛。

应用场景

创意设计与广告制作：广告公司根据文案快速生成创意图像，为新产品设计吸引人的宣传海报，大幅缩短设计周期，提升工作效率。

文化遗产保护：博物馆修复文物图像或根据历史文献复原古代场景，如重现古代丝绸之路的繁华景象，帮助观众更直观地了解历史，增强文化传承效果。

智能家居与物联网：智能家居系统根据用户语音指令生成相应场景图像，如温馨客厅场景，为用户提供直观的场景预览和定制服务，提升用户体验。

Github :https://github.com/SkyworkAI/UniPic

#AI开源项目推荐##github##AI技术##AI图像编辑#昆仑万维##多模态模型#

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 开源项目

超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板

超大参数量具身VLM开源：首创DPPO训练范式，模型性价比天花板

5月前 • 开源项目

用了Rust，谷歌实测：Android上内存漏洞率比C/C++低1000倍！

用了Rust，谷歌实测：Android上内存漏洞率比C/C++低1000倍！

5月前 • 开源项目

全球最大开源具身大模型！中国机器人跑完马拉松后开始学思考

全球最大开源具身大模型！中国机器人跑完马拉松后开始学思考

5月前 • 开源项目

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

5月前 • 开源项目

AI的开源战略

AI的开源战略

5月前 • 开源项目

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

5月前 • 开源项目

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

5月前 • 开源项目

热门标签

SoC AI合规 K-12 长记忆功能 AI超级框玉盘AI 上下文切换 UserLM-8b Gradio ether0

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝