OmniGen2

新开源 AI 系统 OmniGen 2:像GPT-4o 一样融合了图像和文本生成

近日,北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。与2024年发布的第一代 OmniGen 相比,OmniGen2采用了两条独立的解码路径:一条用于文本生成,另一条用于图像生成,且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时,有效地提升了多模态语言模型的表现。OmniGen2的核心是一个基于

从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景

近日,VectorSpaceLab在Hugging Face平台正式开源全能多模态模型OmniGen2,以创新性双组件架构和强大的视觉处理能力,为研究者和开发者提供了高效的可控生成式AI基础工具。这款模型由30亿参数的视觉语言模型(VLM)Qwen-VL-2.5与40亿参数的扩散模型组合而成,通过冻结的VLM解析视觉信号和用户指令,结合扩散模型实现高质量图像生成,在视觉理解、文本生成图像、指令引导