AI人物 7小时前 58 阅读 0 评论

对话徐直军:华为最大的杀招,不是AI芯片

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

徐直军终于把他这六年最想说的话说了出来。

2025年华为全联接大会,会场的灯光一点点暗下去,大屏幕上浮现出“昇腾”字样的那一瞬间,没有想象中的轰然与热烈,有人屏住了呼吸,有人眼眶泛红,大家都知道,昇腾有一天会公开回归,但真正回归的那一刻,感慨的情绪压过了兴奋。

华为公布了未来数年完整的AI芯片路线图——这一刻,距离2018年发布昇腾310芯片,2019年发布昇腾910芯片,已经过去了两千多个日与夜。

这时间说长不长,说短也不短,却足够让一家企业经历生死沉浮。2019年的那个春天,美国的制裁让供应链几乎在一夜之间紧绷到极限。华为一度乐观地认为,这种影响不会持续太久,2019年的华为全联接大会上,华为按照既定节奏推进昇腾910的商用发布,依旧一副云淡风轻的模样。

但压力已经遍布每一处角落。徐直军回忆道,“按照当时昇腾910芯片的备货量,不敢卖给互联网领域客户,只卖国计民生领域的客户。”制裁像骤然降临的暴风雨,打断了华为原本昂扬的节奏。从荣光到孤立,从掌声到质疑,华为的芯片之路几乎被外界判了“死刑”。

度过有史以来最大的难关,需要付出什么代价,除了华为自己,无人知晓。外界看到的华为,可能是Mate 60“争气机”,可能是鸿蒙操作系统,也可能是MetaERP、高斯数据库以及一系列确保自身生产经营的中间件。

但更多华为人在蛰伏,海思、云计算、数据中心、光通信等华为大大小小的团队,都迫不及待要加入一线,AI算力,这是华为未来真正的战场。

今年3月份,华为正式推出了Atlas 900超节点,可以理解为华为AI战略的预告,满配支持384卡。384颗Ascend 910C芯片,能够像一台计算机一样工作,最大算力可达300 PFLOPS。到目前为止,Atlas 900依然是全球算力最大的超节点,CloudMatrix384超节点,是华为云基于Atlas 900超节点构建的云服务实例,也被广泛应用于大模型的训推。

海外知名分析机构SemiAnalysis,当时以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”为题分析并得出结论,华为的芯片技术落后一代,但其自主研发的云端超级算力解决方案CloudMatrix 384却可领先于英伟达和AMD当前市售产品一代,直接对标英伟达GB200 NVL72系统,在多项关键指标上展现出超越英伟达机架级解决方案的技术优势。

“以前英特尔允许我们使用CPU芯片互联协议,后来也被禁止了,我们从光器件、光模块、互联协议、互联芯片,全部靠重新定义、设计才能实现,有海外企业一直想把超节点搞一套出去,研究我们为什么能搞出超节点”徐直军说。相比于芯片本身,海外更关注超节点,因为目前海外能做出更好的芯片,但做不出如华为一般的超节点。

2025年华为全联接大会,时隔多年之后,华为轮值董事长徐直军再次与多家媒体对话——芯片不是华为AI算力的全部,“超节点+集群”算力解决方案是华为在AI领域的核心战略,灵衢互联协议是开创新计算架构的新范式。

芯片很重要,也没那么重要

“算力的基础是芯片,昇腾芯片是华为AI算力战略的基础。”徐直军表示,至2028年,华为开发和规划了三个系列,分别是Ascend 950系列,Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具体芯片还在规划中。

华为将以几乎一年一代算力翻倍的速度,同时围绕更易用,更多数据格式、更高带宽等方向持续演进,持续满足AI算力不断增长的需求。

相比Ascend 910B/910C,从Ascend 950开始的主要变化包括:

  • 引入SIMD/SIMT新同构,提升编程易用性;
  • 支持更加丰富的数据格式,包括FP32/HF32/FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;
  • 支持更大的互联带宽,其中950系列为2TB/s,970系列提升到4TB/s;
  • 支持更大的算力,FP8算力从950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力从950的2 PFLOPS提升到960的4 PFLOPS、970的8 PFLOPS;
  • 自研HBM,内存容量逐渐加倍,而内存访问带宽将翻两番。

芯片本身之外,生态是开发者关注的焦点问题,徐直军表示,“国内AI企业用昇腾训练大模型,主要是看他们用不用,就像谈恋爱,不谈的话,你怎么知道对方的优缺点,合适不合适,你要谈一下,要用一下。在用的过程中有问题解决问题,A能用,为什么B不能用,就是你用不用的问题。”

“当然,我们的生态和整个工具链肯定比英伟达有差距,原来工程师在英伟达应用很熟练,就不愿意转过来,它是工程师的习惯问题,而不是高层的问题。”他补充。

业界不少芯片厂商选择兼容英伟达CUDA生态,对现有AI开发体系友好,但华为有自己的考量。“我们不兼容CUDA生态,一定要搞CANN生态和MindSpore,也是出于长远考虑,如果我们投如此多的钱兼容CUDA生态,而且还是CUDA过去的版本,哪天CUDA生态兼容不了了怎么办?坚定不移研发MindSpore,当时很多专家都反对。现在我们的AI,从达芬奇到昇腾芯片到一切,所有的软件、硬件都不依赖于西方生态和供应链,长远考虑必须要把生态构建起来。”徐直军坦言。

如果故事只到这里,华为充其量实现了“活下来”的任务,很好,但对华为来说远不够好。毕竟在昇腾设计之初,就不是为了做一个备份,昇腾910发布就冲着最强算力的目标,在供应链和制程等芯片制造能力落后的情况下,华为昇腾芯片短期内还将处于追赶的状态。

然而,很多人没有意识到,成就英伟达的大模型,其实下一个成就的就是华为,大模型前期,英伟达受益于单个GPU卡的性能和CUDA生态,未来随着AI的演进,华为受益的是“超节点+集群”,后者已经在顶级大模型圈层得到认可,而普罗大众的认知不强。

超节点+集群,让中国没有算力之忧

2022年,英伟达曾发布DGX H100 NVL256“Ranger”平台,但最终未投入量产——该方案因成本过高、功耗巨大且可靠性问题(源于超量光收发器需求及双层网络架构)而被放弃。在2024年3月,英伟达转而推出基于Blackwell GPU打造的GB200 NVL72超节点产品,规模大幅缩小。

回过头看,英伟达的超节点路标已经消失不见,英伟达既证明了超节点是未来算力的趋势,也证明了超节点做起来的难度,华为接过AI算力的下一棒。

本次大会上,华为发布了最新超节点产品Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点,分别支持8192及15488张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,在未来多年都将是全球最强算力的超节点。

基于超节点,华为同时发布了全球最强超节点集群,分别是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力规模分别超过50万卡和达到百万卡,是当之无愧的全世界最强算力集群。

除了单颗芯片比它(英伟达)的算力小一点,功耗大一点,其他都是优势。”徐直军如此评价,“因为AI就是并行计算,所以我们的解决方案就是超节点,超节点做成一台机器,你用5颗,我可以用10颗,那我们用384/8192/15488颗芯片,这还不是最大的。”

他进一步解释道,(华为)不同于大模型公司,也不同于应用公司,作为ICT基础设施和智能终端提供商,华为充分发挥自身优势,扎扎实实把基础设施做好,通过基础设施挣钱,做超节点、做集群,公司内部已达成共识,通过昇腾硬件变现,取得商业成功。

超节点是一条不得已的道路,也是能够将华为所有能力融为一体,最大程度发挥华为优势的道路,更具有决定意义的是,超节点能够将华为在单芯片的劣势扭转为胜势,超过英伟达,实现算力最强。

“什么叫超节点?尽管物理上是多机柜、多个卡(8192个卡或者是15488个卡)联接成一个超节点,但是它们能够像一台计算机一样工作、学习、思考、推理。集群是把多个超节点以网络联结在一起,就像云服务一样,相当于用多个服务器一样,即把多台服务器连接在一起,再以软件层将它调度。”徐直军说。

他进一步表示,华为的核心战略就是“超节点+集群”,只有依靠超节点和集群,才能规避中国的芯片制造工艺受限,才能够为中国的AI算力提供源源不断的算力支持和供给。

创新有时是被逼出来的,不是天生想做。我们应对制裁,用非摩尔补摩尔、用数学补物理,不是什么伟大的事情。历史上海思靠芯片领先别人一代,现在芯片落后一代、两代,未来还不知道落后几代,只有另寻出路。另一条路就在这里,由于芯片工艺受限,逼着我们创新突破”徐直军说。

灵衢,以及华为自己的路

在徐直军大会演讲的最后,并不是以芯片来收尾,“我们希望和产业界一起,以开创的灵衢超节点互联技术,引领AI基础设施新范式;以基于灵衢的超节点和集群持续满足算力快速增长的需求,推动人工智能持续发展,创造更大的价值。”

在业内人士看来,灵衢的革命意义可能不亚于AI基础设施的再造,华为超节点+集群的成功,很大程度就依赖于灵衢。如果说光刻机是把单芯片的性能持续放大,那么,灵衢则是将数以万计的芯片联接起来。

2021年,华为规划了个公司级别的战略项目,其中之一是鸿蒙操作系统,另一个就是灵衢,其战略意义,可见一斑。

英伟达或者其他芯片公司的长处在于芯片,超节点却不是靠简单堆芯片就能实现大算力,就像大模型训练算力,在一定范围内,算力随着芯片数量的增加线性增长,到了一定瓶颈,芯片增加,边际效应大幅降低。

为大模型而定做的算力集群中,需要大量的数据高速传输,在人类历史上没有过这种,正向打满然后负向再打满的传输需求,低时延、高吞吐的要求都到了严苛级别,而且未来的算力不仅仅是当前大模型需要AI算力之间的高速互联,同时,AI算力和通用算力之间,通算和通算之间,也存在高速互联的需求。

随着IT产业的发展,PCIE、InfiniBand、RoCE等各种协议并行发展,英伟达的NVlink等协议最大化发挥了英伟达GPU的算力,灵衢不止是一个替代,它是AI算力互联标准的重塑,通过灵衢互联协议,能够把数万规模的计算卡,联接成一个超节点。

相较于NVlink协议的封闭,华为宣布将开放灵衢2.0技术规范,投入如此之大的心力,华为为何要将灵衢开放,其实不难理解,华为的理念是硬件变现,灵衢若只是华为一家之言,那就无法形成生态,更多的企业用灵衢构建自己的算力集群,产业的雪球才能越滚越大。

“我们的路肯定不是英伟达的路,现在大家都以英伟达的视角看我们的路,不公平。但我们自己不能‘傻’。我是短期痛苦,长期不痛苦。”徐直军说。

华为在AI算力领域走出来了一条自己的路,这是由很多能力构建成的系统。以光通信技术为例,英伟达超节点采用了全铜通信,优点是技术成熟,成本较低,缺点是只能部署2米以内,否则速度会大幅衰减,因此可联接芯片数量有限。华为采用了更激进的光通信策略,光模块带来了高带宽和高速率的优势,损耗低,适合长距离传输,因而可联接更多芯片,部署灵活。

但是,在华为之前,没有一家厂商敢用光模块来实现超节点,光模块故障率高且成本高,方案能不能做成都是未知数,华为凭借着多年积累的通信能力,在光芯片和连接技术、故障恢复等方面形成了一套独一无二的方案,使得超节点成为可能。

华为的胜利,是系统的胜利,是所有华为人乃至中国计算产业链的胜利。徐直军表示,“用超节点架构以及支持超节点的灵衢互联协议,打造超节点和集群,来满足我国无穷无尽的算力需求,这既是我们对自己的一个目标,又是对产业界的承诺,更是对国家的承诺。”

“把这条路闯出来,把中国产业链拉动起来,这条路就成了路。算不上新范式,是被迫出来的范式,是被逼出来的伟大。”徐直军说,“谁想做别人做过的事情呢?肯定想去开创未来的事情。”

(本文首发于钛媒体APP,作者|张帅,编辑|盖虹达)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!