Midjourney操作界面

字节跳动推出开源多模态模型BAGE 从图像生成到世界建模

4.8
0热度

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL(Big Advanced Generalized Embodied Learner),以70亿个有效参数的规模,开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越,已在多个标准评测中超越当前主流开源视觉语言模型(VLM),如Qwen2.5-VL和InternVL-2.5。BAGEL模型基于大规模交错多模态数据

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL(Big Advanced Generalized Embodied Learner),以70亿个有效参数的规模,开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越,已在多个标准评测中超越当前主流开源视觉语言模型(VLM),如Qwen2.5-VL和InternVL-2.5。

BAGEL模型基于大规模交错多模态数据进行训练,不仅具备强大的文本转图像生成能力,其效果甚至可媲美专业级生成器Stable Diffusion3(SD3)。在图像编辑、自由形式操作、多视图合成等复杂任务中,BAGEL的定性表现显著优于现有模型,显示出其在“世界建模”等前沿方向上的潜力。

QQ20250526-093643.png

QQ20250526-093648.png

技术架构方面,BAGEL采用混合变压器-专家(MoT)结构,并使用两个独立编码器分别捕捉图像的像素级和语义级特征。其训练范式遵循“下一组标记预测”策略,支持更高效的多模态预训练与监督学习,从而在理解与生成能力上实现阶梯式增强。

为了方便开发者使用,字节跳动不仅开源了预训练模型及评估脚本,还提供了详尽的使用文档和Gradio WebUI,便于快速部署与测试。用户可通过GitHub Pages获取全部资源。

研发团队鼓励社区积极参与模型优化,欢迎通过GitHub Issue或Discord渠道反馈模型在真实场景中的表现问题。字节跳动表示,持续开放与协作将是推动BAGEL进步的关键。

作为一个集理解、生成与编辑能力于一体的多模态模型,BAGEL的推出无疑为AI研究者与开发者提供了更强大的工具,也标志着通用人工智能迈入更实用、更开放的新阶段。

地址:https://github.com/ByteDance-Seed/Bagel

点赞(0)
顶部