Step-3 发布：包括发布会上没说的，都在这了

今天下午，阶跃星辰在 WAIC 2025 开幕前夕发布新一代基础大模型 Step 3，并宣布将在 7 月 31 日面向全球企业和开发者开源。

模型开源

Step-3 会在 7月31号正式开源

MoE 架构，321B 总参，38B 激活

Step-3 Model Card

性能领先，成本极致

Step-3 作为推理模型，具备视觉能力，并在多个榜单，如 MMMU、AIME2025 上，取得了开源多模态推理模型的 Sota

（注：DeepSeek R1 并不支持视觉输入）

Step-3 通过一系列的架构创新，极大降低了推理成本：国产芯片上的推理效率最高可达 DeepSeek-R1 的300%，且对所有芯片友好；在基于 NVIDIA Hopper 架构的芯片进行分布式推理时，Step-3 相较于 DeepSeek-R1 的吞吐量提升超 70%

BenchMark

模芯生态创新联盟

联合近 10 家芯片及基础设施厂商，共同发起“模芯生态创新联盟”，致力于打通芯片、模型和平台全链路技术，为企业和开发者提供高效易用的大模型解决方案，加速应用落地。

模芯生态创新联盟

该联盟的首批成员包括：华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等

目前，华为昇腾芯片已首先实现Step-3的搭载和运行。沐曦、天数智芯和燧原等也已初步实现运行Step-3

其它联盟厂商的适配工作正在开展

以上，来自官方

以下，则是独家

Step-3 如何让超大规模的AI模型，变得便宜又好用

以及...

详细的技术报告地址：https://docs.qq.com/pdf/DY01kUnNTZ0d3Y2Zy?

背景

芯片管制，让国内高端算力卡一直紧缺

在这种情况下，倒逼我们走出了另一条独立自研之路：用中国力量，也能做好世界大模型

最先展露头角的是 DeepSeek

作为第一梯队的模型厂，在春节期间以「低训练成本、国产卡部署」火遍全球，在国产 910B 上，跑出世界故事

来自 DeepSeek v3 Tech report

而今天，Step-3 进行了更进一步的探索，用全新架构，让模型达到了 DeepSeek 的最高 3 倍性能

接下来，容我细细道来

如何评估模型的成本

可能你在很多稿件里，看到过这么一种描述：

“xxx 大模型，把推理成本降低了 70%”

然后你去问：“出处在哪”

答曰：“不知道”

所以，我们先来探讨：

怎么去评估模型的成本

我们每个人，都当过「人肉大模型」

回想看看，做「现代文阅读理解」的时候

考卷给到一篇文章，如：《一种美味》

然后，再给你一个问题：

分析文中"草鱼眼里闪着一丝诡异的光"的寓意

草鱼："要有光"

你会怎么做呢？

先预览，通读全文，一目十行、快速把握大意

接着做题，反复翻阅试卷、寻找关键信息、写下一个个 token

过程中，会不断回顾上文，确保回答准确

考试技巧：如何人肉 attention

大模型的推理，与此极为相似

具体来说，在拿到问题后，流程是这样：

用预填充（Prefill）通读全文，对用户的输入，建立整体理解

用解码（Decoding）对应写做题，过程中，不断回顾已有信息，逐字生成回答

做题时，最耗时的是「翻卷子+思考内容」，其次是「找思路」

大模型的「翻卷子」，叫做「KV Cache」，极度消耗内存带宽；

大模型的「思考内容」，叫做「Attention 计算」，极度消耗内存计算资源

大模型的「打草稿 & 写答案」，叫做「FFN（前馈网络） 和 Linear before&after Attention」

大概就是这样

来，让我们列俩公式：

做题用时 = 读题用时 + 作答用时

= 读题用时 + 「翻卷子 + 思考用时 + 作答用时」

推理成本 = 预填充成本 + 解码成本

= 预填充成本 + 「KV Cache 成本 + Attention 计算成本 +...」

下面是一些开源模型，在 8k 和 32K 的上下文长度下，所产生的计算开销

8k 上下文下，计算量表现

32k 上下文下，计算量表现

从上述结构来看，解码阶段的成本大头，来自内存访问（KVCache）和计算处理（Attention/FFN）

所以，降低推理成本最直接有效的方式，就是从这两个最“烧钱”的点入手，分别优化内存调度和计算效率

现有方案的困境

对于推理成本优化，很多方案可能「用力过猛」，陷入两个极端：

极端一：为了省内存，把GPU累死

有些模型会压缩内部中间信息（比如 KV Cache），以减少显存占用。这确实节省了内存，但也让模型在每次访问这些信息时变得更复杂，访问速度更慢，延迟更高。整体推理效率下降，尤其在带宽受限的设备上更为明显。

极端二：为了省计算，让GPU吃不饱

另一类模型为了节省计算资源，每次只启用很小一部分模块参与计算。虽然听起来更“省”，但因为剩下的硬件没有参与工作，资源被浪费，推理速度也不一定快，反而导致整体性价比变差。

而 Step-3 则通过一系列设计，从一开始就让模型与硬件相互匹配，去做一款能力强、成本低的模型

Step-3 的方案

Step-3有两个核心创新：

一个在系统层，AFD分布式推理系统
一个在模型层，MFA注意力机制

并且，基于这俩创新，带来了协同设计的变化，让我们分别来说

AFD 分布式推理

AFD（Attention-FFN Disaggregation）是一种由 StepFun 团队提出的推理架构

它的核心思想是：

把模型中不同类型的工作，分配给最合适的硬件去执行

有点“人尽其才，物尽其用”的感觉

给每个人，分配合适的工作

而模型的推理计算任务，主要包括两类：

一种是注意力（Attention），极度消耗内存带宽、
另一种是前馈网络（FFN）计算，它极度消耗算力

传统做法，是把这两种任务交给同一组 GPU 同时处理，但这样很容易造成资源浪费：

有时候带宽紧张，算力闲着
有时候算力吃紧，带宽又空着

AFD 的做法是把 Attention 和 FFN 拆开，分别部署到不同类型的GPU集群上：

内存带宽大的GPU集群，专门负责「注意力」计算
算力强大的GPU集群，专门负责「FFN」计算

两组集群各司其职，形成高效流水线

通过“拆分-调度”的模式，把资源用在了刀刃上，极大提升了整体效率

模型创新：MFA 注意力机制

Step-3 的第二个核心创新，是引入了 MFA注意力机制（Multi-Matrix Factorization Attention）

但在讲 MFA 之前，让我们来认识一个概念：“算术强度”（Arithmetic Intensity），可以把它理解成一个「任务与硬件的匹配度」指标

每种GPU芯片，根据其算力和内存带宽的比例，都有一个最适合它的“算术强度”甜蜜区

算法的算术强度越接近芯片的甜点区，运行效率就越高，成本就越低

不同 GPU 的甜蜜点 roofline

注

数值越高，代表该芯片“算力”相对“内存带宽”越富余

过去的大模型设计往往很极端：

一些模型（如DSv3）：算术强度高达512。这个值只和顶级芯片H800（591）匹配，但在A800（156）或910B（175）上，就像让跑车发动机去拉一辆重型卡车，劲使不出来，效率极低。
另一些模型（如Qwen3）：算术强度只有32。这个值太低，在大部分芯片上都会先把内存带宽占满，而核心的计算单元却大量闲置。

而 Step-3 的MFA，把算术强度控制在了128

这是一个“黄金中间值”，它完美地贴合了A800、910B等主流和国产芯片的“甜蜜区”，同时在H800和H20上也能保持很高的效率

和 A800、910B 等主流芯片的理想区间非常接近• 在 H800、H20 等更强的芯片上也能保持高效率
即使未来采用 4-bit 量化、MTP 等技术，算术强度翻倍后依然不会“超标”

可见，MFA让 Step-3 更容易适配不同类型的硬件设备：不挑卡，跑得快，也跑得省

协同设计

在我看来，Step-3 最与众不同的地方，是其「系统与模型协同」的设计理念

在传统方案中，模型结构和推理系统往往是分开考虑的，导致优化时容易顾此失彼。

而 Step-3 通过 AFD 系统，将注意力（Attention）和前馈网络（FFN）分开部署，让每部分都能在适合的硬件上高效运行。据此，Step-3 可以清晰地分析并优化每一部分的性能瓶颈，而不必被整个庞大的模型所束缚。

MFA机制正是这个优化思想下的产物**。团队识别出注意力部分是推理成本的主要来源，于是设计了新的 MFA 注意力机制。它的算术强度被精心设定在 128，刚好贴合主流 GPU 的性能特征，实现了跨硬件平台的高效推理。

此外，MFA 的算术强度还特意留有余地，略低于硬件的上限（Roofline），为后续优化技术预留空间，比如更低位的量化或多 token 预测（MTP）。

这种设计，也为Step-3的持续进化埋下了伏笔

实测：成本到底降了多少

在这块，我摸来了点数据，看下图

不同上下文下，成本测算

总结一下：

H20：Step-3 的成本仅为 DSv3 的 30%
910B：效率是 DeepSeek R1 的 3 倍
A800：成本低于所有同类模型

为什么差距这么大？

Step-3的设计，正好匹配了这些GPU的硬件特性，资源利用率显著更高

另一个测试，是实际吞吐量的对比：

不同 GPU 下的吞吐量

总结：

Step-3 使用 32 张 Hopper GPU，吞吐量达到 4039 tokens/GPU/s
DSv3 使用 128 张 Hopper GPU，官方数据仅为 2324 tokens/GPU/s

Step-3 （FP8）用四分之一的卡，跑出了更高的速度。

如果拿来更多的硬件呢？

MFA vs MLA vs GQA

进一步拆解到单独的 Attention 层，差距更明显（在 32k 下）：

H800： MFA 比 MLA 快约 1.4 倍，比 GQA 快约 1.8 倍• H20：MFA 比 MLA 快约 3.3 倍，比 GQA 快约 2.1 倍
A800：比 GQA 快约 2 倍

Step-3 的 MFA 在所有测试硬件上都明显优于 MLA 和 GQA，尤其是在 H20、A800 等更具成本优势的 GPU 上，效果更为突出

越是“平价”设备，Step-3 的效率优势越明显。

补充

MLA是 DeepSeek 的，GQA 是 Qwen 的

最后

先让我们回到开头的「模芯联盟」：

模芯生态创新联盟

让搞模型的人和搞硬件的人坐在一起，软硬件系统设计

以及开头的「开源」：

Step-3 开源 Sota

让硬件厂商，根据模型特点优化芯片，或许才是重点

成本降下来，用的场景就多了

技术进步的意义，大概如此

文章来自微信公众号 “ 赛博禅心 “，作者金色传说大聪明

登录账号

Step-3 发布：包括发布会上没说的，都在这了

模型开源

性能领先，成本极致

模芯生态创新联盟

背景

如何评估模型的成本

现有方案的困境

Step-3 的方案

AFD 分布式推理

模型创新：MFA 注意力机制

协同设计

实测：成本到底降了多少

最后

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线作者

科技观察家

文章章节

推荐文章

阿里巴巴公布首款自研 AI 眼镜研发进展：出自夸克融合通义大模型，还要打通阿里全家桶

用AI制作3D卡通版西游记，一条点赞15万！

80万人排队求码后，Lovart功能升级放开用！果然是顶流设计Agent

失去三十年的日本，能成为AI SaaS出海的“理想国”么？｜出海参考

速抢（2核2G）77元/年香港免备案服务器

字节跳动扣子 Coze 宣布开源：采用 Apache 2.0 许可证，支持商用

“AI 教父”辛顿首次访华演讲：要像养虎一样把 AI 训练好，让它不“杀”你

我国自主研发“磐石・科学基础大模型”发布：系统掌握数理化天地生六大学科核心定理

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

登录账号

Step-3 发布：包括发布会上没说的，都在这了

模型开源

性能领先，成本极致

模芯生态创新联盟

背景

如何评估模型的成本

现有方案的困境

Step-3 的方案

AFD 分布式推理

模型创新：MFA 注意力机制

协同设计

实测：成本到底降了多少

最后

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线 作者

科技观察家

文章章节

推荐文章

阿里巴巴公布首款自研 AI 眼镜研发进展：出自夸克融合通义大模型，还要打通阿里全家桶

用AI制作3D卡通版西游记，一条点赞15万！

80万人排队求码后，Lovart功能升级放开用！果然是顶流设计Agent

失去三十年的日本，能成为AI SaaS出海的“理想国”么？｜ 出海参考

速抢（2核2G）77元/年香港免备案服务器

字节跳动扣子 Coze 宣布开源：采用 Apache 2.0 许可证，支持商用

“AI 教父”辛顿首次访华演讲：要像养虎一样把 AI 训练好，让它不“杀”你

我国自主研发“磐石・科学基础大模型”发布：系统掌握数理化天地生六大学科核心定理

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

AI前线作者

失去三十年的日本，能成为AI SaaS出海的“理想国”么？｜出海参考