
字节Seedream 3.0 文生图模型技术报告发布:多项性能大幅升级
字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。这一模型在性能上实现了重大提升,是一个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面取得突破,与上一版本相比优势显著。Seedream3.0在不同维度上的表现。本图各维度数据以最佳指标为参照系,已进行归一化调整。在功能亮点上,Seedream3.0可原生2K直出,无需后处理就能输出高分辨率图像
字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。这一模型在性能上实现了重大提升,是一个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面取得突破,与上一版本相比优势显著。
Seedream3.0在不同维度上的表现。本图各维度数据以最佳指标为参照系,已进行归一化调整。
在功能亮点上,Seedream3.0可原生2K直出,无需后处理就能输出高分辨率图像,满足多种场景需求;出图速度极快,仅需3秒,极大提升创作效率;小字生成和文本排版效果得到优化,解决了业界难题,具备商业级图文设计能力;美感和结构进一步提升,指令遵循性增强,出图更具感染力。
技术实现方面,Seedream3.0从多个维度进行了创新。数据优化上,通过图像缺陷感知扩充数据集,采用视觉语义协同采样策略和自研图文检索系统改进数据分布。
预训练阶段,使用跨模态旋转位置编码加强文字渲染能力,借助多分辨率混合训练实现2K图像直出,并采用新的损失函数提升训练效果。后训练RLHF阶段,设计多粒度美感描述,拓展奖励模型规模,提升模型性能。在推理加速上,采用一致性噪声预测和平稳采样过程,利用重要时间步采样加速模型蒸馏训练,实现1K分辨率生图端到端仅需3秒。
目前,Seedream3.0已在豆包、即梦等平台全量开放。在权威竞技场Artificial Analysis的打榜中,它与众多知名文生图模型竞争,一度排名第一,尤其在海报设计与创意生成方面表现突出。
未来,Seedream团队计划在更高效的结构设计、提升模型智能化水平、探索数据和模型的Scaling现象等方向深入研究,致力于推动视觉生成领域的发展。
Arxiv:https://arxiv.org/abs/2504.11346
技术呈现页:https://team.doubao.com/tech/seedream3_0