7月30日,昆仑万维正式开源「Skywork UniPic」,这是一款基于自回归路线的多模态统一预训练模型。

该模型在单一架构中深度融合图像理解、文本到图像生成(T2I)和图像编辑三大核心能力,通过端到端预训练实现高效通用性。
主要功能:
图像理解:基于文本提示理解图像内容,完成图文匹配、问答等任务。模型能精准地捕捉图像的语义信息,实现对图像的深度理解。
prompt:这是哪座城市?(What city is this?)

文本到图像生成:根据用户输入的文本提示,模型能生成高质量的图像。
prompt:生成一个带有彩虹发丝的少女数字肖像。(Digital portrait of a girl with rainbow hair.)

图像编辑:用户提供参考图像和编辑指令,模型根据指令对图像进行修改,例如替换图像中的元素、调整风格等,支持多种复杂的编辑操作。
prompt:将图片中的星星替换成蜡烛(Replace the stars with the candle.)

prompt:将以下图片风格转绘成吉卜力风格和像素风格(Switch to a Ghibli style and a pixel style.)


性能优势:
Skywork UniPic以仅1.5B的轻量级参数规模,实现与大参数模型媲美的性能,在四大核心评估维度上均展现出了卓越表现!

指令遵循能力:GenEval评估得分0.86(无CoT),超越多数同类模型,逼近BAGEL(7B+7B*)的0.88分。

复杂生图领先:DPG-Bench基准达85.5分,行业SOTA。

编辑能力顶尖:GEditBench-EN得分5.83,ImgEdit-Bench达3.49分。

部署友好:在RTX 4090等消费级显卡流畅运行,降低技术门槛。
应用场景
创意设计与广告制作:广告公司根据文案快速生成创意图像,为新产品设计吸引人的宣传海报,大幅缩短设计周期,提升工作效率。
文化遗产保护:博物馆修复文物图像或根据历史文献复原古代场景,如重现古代丝绸之路的繁华景象,帮助观众更直观地了解历史,增强文化传承效果。
智能家居与物联网:智能家居系统根据用户语音指令生成相应场景图像,如温馨客厅场景,为用户提供直观的场景预览和定制服务,提升用户体验。
Github :https://github.com/SkyworkAI/UniPic