豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

AIbase基地

AI技术专栏作家 | 发布了 246 篇文章

豆包大模型近日发布了系列更新，其中豆包1.5·深度思考模型和豆包文生图模型3.0正式通过火山引擎开放 API，供开发者和企业客户使用。这两款模型在推理任务和通用任务的综合表现达到了业界前沿水平，并在视觉推理和图像生成方面取得了显著进展。

豆包1.5·深度思考模型在专业领域推理任务中表现出色，数学推理 AIME2024测试得分追平 OpenAI o3-mini-high，编程竞赛 Codeforces pass@8得分接近 OpenAI o1，科学推理 GPQA 得分接近 o3-mini-high，均达到或接近全球第一梯队。在创意写作等非推理任务中，该模型也展示了优秀的泛化能力，能够胜任更广泛和复杂的使用场景。

为提升模型的通用能力，豆包团队优化了数据处理策略，融合了可验证与创意性数据，以满足各类任务需求。大规模强化学习是训练推理模型的关键技术，团队创新性地提出了双轨奖励机制，兼顾“对错分明”和“见仁见智”任务，并有效实现了算法的可靠优化。此外，团队还优化了底层架构，保障了训练的稳定性、可扩展性、可重复性和计算效率。

豆包深度思考模型采用 MoE 架构，总参数为200B，激活参数仅20B，具备显著的训练和推理成本优势。基于高效算法和高性能推理系统，模型在提供极高并发承载能力的同时，实现了20毫秒的极低延迟。此外，该模型还具备视觉推理能力，能够像人类一样对看到的事物进行联想和思考，极大地拓展了智能推理的应用边界。

豆包文生图模型3.0是一个原生高分辨率、支持中英双语的图像生成基础模型，整体性能相比上一代有较大提升。该模型在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面取得了显著突破。Seedream3.0采取多项策略实现高效推理，1K 分辨率出图端到端仅需3秒，能够快速生成高品质图像，大幅提升创作效率。此外，该模型还优化了小字体高保真生成、多行文本语义排版等业界难题，让 AI 具备商业级图文设计能力。

在文生图权威竞技场 Artificial Analysis 上，豆包文生图模型 Seedream3.0与 GPT-4o、Imagen3、Midjourney v6.1、FLUX1.1Pro 等模型同台竞技，排名位居第一梯队。Seedream3.0已在字节跳动旗下豆包、即梦等平台全量开放，为企业客户提供了强大的图像生成能力。

豆包深度思考模型和文生图模型3.0的开放，为企业客户提供了更高效、更通用的推理能力和更强大的图像生成能力，进一步推动了 AI 技术在各行业的应用和发展。

豆包深度思考模型技术报告详见:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Seedream3.0技术报告详见:https://team.doubao.com/tech/seedream3_0