
豆包深度思考和文生图3.0模型正式开放API 对企业客户开放
豆包大模型近日发布了系列更新,其中豆包1.5·深度思考模型和豆包文生图模型3.0正式通过火山引擎开放 API,供开发者和企业客户使用。这两款模型在推理任务和通用任务的综合表现达到了业界前沿水平,并在视觉推理和图像生成方面取得了显著进展。豆包1.5·深度思考模型在专业领域推理任务中表现出色,数学推理 AIME2024测试得分追平 OpenAI o3-mini-high,编程竞赛 Codeforces
豆包大模型近日发布了系列更新,其中豆包1.5·深度思考模型和豆包文生图模型3.0正式通过火山引擎开放 API,供开发者和企业客户使用。这两款模型在推理任务和通用任务的综合表现达到了业界前沿水平,并在视觉推理和图像生成方面取得了显著进展。
豆包1.5·深度思考模型在专业领域推理任务中表现出色,数学推理 AIME2024测试得分追平 OpenAI o3-mini-high,编程竞赛 Codeforces pass@8得分接近 OpenAI o1,科学推理 GPQA 得分接近 o3-mini-high,均达到或接近全球第一梯队。在创意写作等非推理任务中,该模型也展示了优秀的泛化能力,能够胜任更广泛和复杂的使用场景。
为提升模型的通用能力,豆包团队优化了数据处理策略,融合了可验证与创意性数据,以满足各类任务需求。大规模强化学习是训练推理模型的关键技术,团队创新性地提出了双轨奖励机制,兼顾“对错分明”和“见仁见智”任务,并有效实现了算法的可靠优化。此外,团队还优化了底层架构,保障了训练的稳定性、可扩展性、可重复性和计算效率。
豆包深度思考模型采用 MoE 架构,总参数为200B,激活参数仅20B,具备显著的训练和推理成本优势。基于高效算法和高性能推理系统,模型在提供极高并发承载能力的同时,实现了20毫秒的极低延迟。此外,该模型还具备视觉推理能力,能够像人类一样对看到的事物进行联想和思考,极大地拓展了智能推理的应用边界。
豆包文生图模型3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,整体性能相比上一代有较大提升。该模型在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面取得了显著突破。Seedream3.0采取多项策略实现高效推理,1K 分辨率出图端到端仅需3秒,能够快速生成高品质图像,大幅提升创作效率。此外,该模型还优化了小字体高保真生成、多行文本语义排版等业界难题,让 AI 具备商业级图文设计能力。
在文生图权威竞技场 Artificial Analysis 上,豆包文生图模型 Seedream3.0与 GPT-4o、Imagen3、Midjourney v6.1、FLUX1.1Pro 等模型同台竞技,排名位居第一梯队。Seedream3.0已在字节跳动旗下豆包、即梦等平台全量开放,为企业客户提供了强大的图像生成能力。
豆包深度思考模型和文生图模型3.0的开放,为企业客户提供了更高效、更通用的推理能力和更强大的图像生成能力,进一步推动了 AI 技术在各行业的应用和发展。
豆包深度思考模型技术报告详见:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
Seedream3.0技术报告详见:https://team.doubao.com/tech/seedream3_0