AI热点 17小时前 117 阅读 0 评论

Step-3 发布:包括发布会上没说的,都在这了

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章


今天下午,阶跃星辰在 WAIC 2025 开幕前夕发布新一代基础大模型 Step 3,并宣布将在 7 月 31 日面向全球企业和开发者开源


模型开源


Step-3 会在 7月31号正式开源


MoE 架构,321B 总参,38B 激活

Step-3 Model Card


性能领先,成本极致


Step-3 作为推理模型,具备视觉能力,并在多个榜单,如 MMMU、AIME2025 上,取得了开源多模态推理模型的 Sota


(注:DeepSeek R1 并不支持视觉输入)


Step-3 通过一系列的架构创新,极大降低了推理成本:国产芯片上的推理效率最高可达 DeepSeek-R1 的300%,且对所有芯片友好;在基于 NVIDIA Hopper 架构的芯片进行分布式推理时,Step-3 相较于 DeepSeek-R1 的吞吐量提升超 70%



BenchMark


模芯生态创新联盟


联合近 10 家芯片及基础设施厂商,共同发起“模芯生态创新联盟”,致力于打通芯片、模型和平台全链路技术,为企业和开发者提供高效易用的大模型解决方案,加速应用落地。



模芯生态创新联盟


该联盟的首批成员包括:华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动


目前,华为昇腾芯片已首先实现Step-3的搭载和运行。沐曦、天数智芯和燧原等也已初步实现运行Step-3


其它联盟厂商的适配工作正在开展


以上,来自官方


以下,则是独家
Step-3 如何让超大规模的AI模型,变得便宜又好用

以及...
详细的技术报告地址:https://docs.qq.com/pdf/DY01kUnNTZ0d3Y2Zy?


背景


芯片管制,让国内高端算力卡一直紧缺


在这种情况下,倒逼我们走出了另一条独立自研之路:用中国力量,也能做好世界大模型


最先展露头角的是 DeepSeek


作为第一梯队的模型厂,在春节期间以「低训练成本、国产卡部署」火遍全球,在国产 910B 上,跑出世界故事


来自 DeepSeek v3 Tech report


而今天,Step-3 进行了更进一步的探索,用全新架构,让模型达到了 DeepSeek 的 最高 3 倍性能


接下来,容我细细道来


如何评估模型的成本


可能你在很多稿件里,看到过这么一种描述:


“xxx 大模型,把推理成本降低了 70%”


然后你去问:“出处在哪”


答曰:“不知道”


所以,我们先来探讨:


怎么去评估模型的成本


我们每个人,都当过「人肉大模型」


回想看看,做「现代文阅读理解」的时候


考卷给到一篇文章,如:《一种美味》


然后,再给你一个问题:


分析文中"草鱼眼里闪着一丝诡异的光"的寓意


草鱼:"要有光"


你会怎么做呢?


先预览,通读全文,一目十行、快速把握大意


接着做题,反复翻阅试卷、寻找关键信息、写下一个个 token


过程中,会不断回顾上文,确保回答准确


考试技巧:如何人肉 attention


大模型的推理,与此极为相似


具体来说,在拿到问题后,流程是这样:


用预填充(Prefill)通读全文,对用户的输入,建立整体理解


用解码(Decoding)对应写做题,过程中,不断回顾已有信息,逐字生成回答


做题时,最耗时的是「翻卷子+思考内容」,其次是「找思路」


大模型的「翻卷子」,叫做「KV Cache」,极度消耗内存带宽


大模型的「思考内容」,叫做「Attention 计算」,极度消耗内存计算资源


大模型的「打草稿 & 写答案」,叫做「FFN(前馈网络)Linear before&after Attention



大概就是这样


来,让我们列俩公式:


做题用时 = 读题用时 + 作答用时


= 读题用时 + 「翻卷子 + 思考用时 + 作答用时」


推理成本 = 预填充成本 + 解码成本


= 预填充成本 + 「KV Cache 成本 + Attention 计算成本 +...」


下面是一些开源模型,在 8k 和 32K 的上下文长度下,所产生的计算开销


8k 上下文下,计算量表现


32k 上下文下,计算量表现


从上述结构来看,解码阶段的成本大头,来自内存访问(KVCache)和计算处理(Attention/FFN)


所以,降低推理成本最直接有效的方式,就是从这两个最“烧钱”的点入手,分别优化内存调度和计算效率


现有方案的困境


对于推理成本优化,很多方案可能「用力过猛」,陷入两个极端:


极端一:为了省内存,把GPU累死


有些模型会压缩内部中间信息(比如 KV Cache),以减少显存占用。这确实节省了内存,但也让模型在每次访问这些信息时变得更复杂,访问速度更慢,延迟更高。整体推理效率下降,尤其在带宽受限的设备上更为明显。


极端二:为了省计算,让GPU吃不饱


另一类模型为了节省计算资源,每次只启用很小一部分模块参与计算。虽然听起来更“省”,但因为剩下的硬件没有参与工作,资源被浪费,推理速度也不一定快,反而导致整体性价比变差。


而 Step-3 则通过一系列设计,从一开始就让模型与硬件相互匹配,去做一款能力强、成本低的模型


Step-3 的方案


Step-3有两个核心创新:


  • 一个在系统层,AFD分布式推理系统
  • 一个在模型层,MFA注意力机制


并且,基于这俩创新,带来了协同设计的变化,让我们分别来说


AFD 分布式推理


AFD(Attention-FFN Disaggregation)是一种由 StepFun 团队提出的推理架构


它的核心思想是:


把模型中不同类型的工作,分配给最合适的硬件去执行


有点“人尽其才,物尽其用”的感觉



给每个人,分配合适的工作


而模型的推理计算任务,主要包括两类:


  • 一种是注意力(Attention),极度消耗内存带宽、
  • 另一种是前馈网络(FFN)计算,它极度消耗算力


传统做法,是把这两种任务交给同一组 GPU 同时处理,但这样很容易造成资源浪费:


  • 有时候带宽紧张,算力闲着
  • 有时候算力吃紧,带宽又空着


AFD 的做法是把 Attention 和 FFN 拆开,分别部署到不同类型的GPU集群上


  • 内存带宽大的GPU集群,专门负责「注意力」计算
  • 算力强大的GPU集群,专门负责「FFN」计算


两组集群各司其职,形成高效流水线


通过“拆分-调度”的模式,把资源用在了刀刃上,极大提升了整体效率


模型创新:MFA 注意力机制


Step-3 的第二个核心创新,是引入了 MFA注意力机制(Multi-Matrix Factorization Attention)


但在讲 MFA 之前,让我们来认识一个概念:“算术强度”(Arithmetic Intensity),可以把它理解成一个「任务与硬件的匹配度」指标


每种GPU芯片,根据其算力和内存带宽的比例,都有一个最适合它的“算术强度”甜蜜区


算法的算术强度越接近芯片的甜点区,运行效率就越高,成本就越低


不同 GPU 的甜蜜点 roofline


数值越高,代表该芯片“算力”相对“内存带宽”越富余


过去的大模型设计往往很极端:


  • 一些模型(如DSv3):算术强度高达512。这个值只和顶级芯片H800(591)匹配,但在A800(156)或910B(175)上,就像让跑车发动机去拉一辆重型卡车,劲使不出来,效率极低。
  • 另一些模型(如Qwen3):算术强度只有32。这个值太低,在大部分芯片上都会先把内存带宽占满,而核心的计算单元却大量闲置。


而 Step-3 的MFA,把算术强度控制在了128


这是一个“黄金中间值”,它完美地贴合了A800、910B等主流和国产芯片的“甜蜜区”,同时在H800和H20上也能保持很高的效率


  • 和 A800、910B 等主流芯片的理想区间非常接近• 在 H800、H20 等更强的芯片上也能保持高效率
  • 即使未来采用 4-bit 量化、MTP 等技术,算术强度翻倍后依然不会“超标”


可见,MFA让 Step-3 更容易适配不同类型的硬件设备:不挑卡,跑得快,也跑得省


协同设计


在我看来,Step-3 最与众不同的地方,是其「系统与模型协同」的设计理念


在传统方案中,模型结构和推理系统往往是分开考虑的,导致优化时容易顾此失彼。


而 Step-3 通过 AFD 系统,将注意力(Attention)和前馈网络(FFN)分开部署,让每部分都能在适合的硬件上高效运行。据此,Step-3 可以清晰地分析并优化每一部分的性能瓶颈,而不必被整个庞大的模型所束缚。


MFA机制正是这个优化思想下的产物**。团队识别出注意力部分是推理成本的主要来源,于是设计了新的 MFA 注意力机制。它的算术强度被精心设定在 128,刚好贴合主流 GPU 的性能特征,实现了跨硬件平台的高效推理。


此外,MFA 的算术强度还特意留有余地,略低于硬件的上限(Roofline),为后续优化技术预留空间,比如更低位的量化或多 token 预测(MTP)。


这种设计,也为Step-3的持续进化埋下了伏笔


实测:成本到底降了多少


在这块,我摸来了点数据,看下图


不同上下文下,成本测算


总结一下:


  • H20:Step-3 的成本仅为 DSv3 的 30%
  • 910B:效率是 DeepSeek R1 的 3 倍
  • A800:成本低于所有同类模型


为什么差距这么大?


Step-3的设计,正好匹配了这些GPU的硬件特性,资源利用率显著更高


另一个测试,是实际吞吐量的对比:


不同 GPU 下的吞吐量


总结:


  • Step-3 使用 32 张 Hopper GPU,吞吐量达到 4039 tokens/GPU/s
  • DSv3 使用 128 张 Hopper GPU,官方数据仅为 2324 tokens/GPU/s


Step-3 (FP8)用四分之一的卡,跑出了更高的速度。


如果拿来更多的硬件呢?

MFA vs MLA vs GQA


进一步拆解到单独的 Attention 层,差距更明显(在 32k 下):


  • H800: MFA 比 MLA 快约 1.4 倍,比 GQA 快约 1.8 倍• H20:MFA 比 MLA 快约 3.3 倍,比 GQA 快约 2.1 倍
  • A800:比 GQA 快约 2 倍


Step-3 的 MFA 在所有测试硬件上都明显优于 MLA 和 GQA,尤其是在 H20、A800 等更具成本优势的 GPU 上,效果更为突出


越是“平价”设备,Step-3 的效率优势越明显。


补充
MLA是 DeepSeek 的,GQA 是 Qwen 的


最后


先让我们回到开头的「模芯联盟」:


模芯生态创新联盟
让搞模型的人和搞硬件的人坐在一起,软硬件系统设计


以及开头的「开源」:


Step-3 开源 Sota
让硬件厂商,根据模型特点优化芯片,或许才是重点


成本降下来,用的场景就多了


技术进步的意义,大概如此



文章来自微信公众号 “ 赛博禅心 “,作者 金色传说大聪明

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!