开源项目 1天前 161 阅读 0 评论

昆仑万维开源Skywork UniPic!图像理解、生成与编辑全能力统一!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

7月30日,昆仑万维正式开源「Skywork UniPic」,这是一款基于自回归路线的多模态统一预训练模型。

该模型在单一架构中深度融合图像理解、文本到图像生成(T2I)和图像编辑三大核心能力,通过端到端预训练实现高效通用性。

主要功能:

图像理解:基于文本提示理解图像内容,完成图文匹配、问答等任务。模型能精准地捕捉图像的语义信息,实现对图像的深度理解。

prompt:这是哪座城市?(What city is this?)

文本到图像生成:根据用户输入的文本提示,模型能生成高质量的图像。

prompt:生成一个带有彩虹发丝的少女数字肖像。(Digital portrait of a girl with rainbow hair.)

图像编辑:用户提供参考图像和编辑指令,模型根据指令对图像进行修改,例如替换图像中的元素、调整风格等,支持多种复杂的编辑操作。

prompt:将图片中的星星替换成蜡烛(Replace the stars with the candle.)

prompt:将以下图片风格转绘成吉卜力风格和像素风格(Switch to a Ghibli style and a pixel style.)

性能优势:

Skywork UniPic以仅1.5B的轻量级参数规模,实现与大参数模型媲美的性能,在四大核心评估维度上均展现出了卓越表现!

指令遵循能力:GenEval评估得分0.86(无CoT),超越多数同类模型,逼近BAGEL(7B+7B*)的0.88分。

复杂生图领先:DPG-Bench基准达85.5分,行业SOTA。

编辑能力顶尖:GEditBench-EN得分5.83,ImgEdit-Bench达3.49分。

部署友好:在RTX 4090等消费级显卡流畅运行,降低技术门槛。

应用场景

创意设计与广告制作:广告公司根据文案快速生成创意图像,为新产品设计吸引人的宣传海报,大幅缩短设计周期,提升工作效率。

文化遗产保护:博物馆修复文物图像或根据历史文献复原古代场景,如重现古代丝绸之路的繁华景象,帮助观众更直观地了解历史,增强文化传承效果。

智能家居与物联网:智能家居系统根据用户语音指令生成相应场景图像,如温馨客厅场景,为用户提供直观的场景预览和定制服务,提升用户体验。

Github :https://github.com/SkyworkAI/UniPic

#AI开源项目推荐##github##AI技术##AI图像编辑#昆仑万维##多模态模型#

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!