从超节点到集群,华为亮出AI算力全家桶

admin 阅读:42418 2025年09月19日

21世纪经济报道记者倪雨晴 上海报道

从超节点到集群,华为亮出AI算力全家桶
图片来源于网络,如有侵权,请联系删除

华为算力,不再低调。

9月18日,在华为全联接大会上,华为副董事长、轮值董事长徐直军放猛料,直接公布了华为AI算力的全景图。

从全新的4颗昇腾芯片、3个超节点、2款鲲鹏CPU,到全新互联总线架构灵衢,华为从GPU到联接技术,全面对标英伟达。也很少有科技企业,像华为这样做到AI算力全栈技术。即使在华为内部人士看来,此次把很多曾在内部视为机密的计划都对外释放了。

从超节点到集群,华为亮出AI算力全家桶
图片来源于网络,如有侵权,请联系删除

徐直军指出:“算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键,”并再次强调:“基于中国可获得的芯片制造工艺,华为努力打造’超节点+集群’算力解决方案,来满足持续增长的算力需求。”

这也是时隔6年,华为又一次在全联接大会上集中展示芯片的进展。每年大会都是华为技术趋势的观察窗口,今年计算产业站到了最前沿。徐直军甚至在演讲中预告,明年可能叫“华为计算联接大会”,对AI算力的期许可见一斑。

回看华为在AI算力产业的布局,不论超节点还是昇腾,从来都不是横空出世,而是华为在持续研发中跑出的科技范式。尊重人才、长期投入基础研究、重视商业化能力,正是这样系统性的研发和市场驱动,才有了华为独特的范式创新。

(徐直军在华为全联接大会上演讲 图源:华为)

昇腾鲲鹏演进

徐直军表示,算力的基础是芯片,昇腾芯片是华为AI算力战略的基础。

围绕算力核心,徐直军完整公布了昇腾芯片未来三年的迭代路线:从2026年一季度即将推出的Ascend 950系列,到2027年的Ascend 960,再到2028年的Ascend 970,几乎以“一年一代算力翻倍”的速度推进,更多具体芯片还在规划中。

其中,明年即将推出的950系列备受关注,从命名来看,910到950也能体现出技术的迭代升级。徐直军详述了950系列在低精度数据格式、向量算力、互联带宽以及自研HBM等方面的突破。

据介绍,最先推出的Ascend 950PR,主要面向推理Prefill阶段和推荐业务场景,新增支持业界标准的FP8、MXFP578、MXFP4等低精度数据格式,提升训练效率。接下来的Ascend 950DT,相比Ascend 950PR,更注重推理Decode阶段和训练场景。

早在2018年10月的华为全联接大会上,徐直军首次阐述了华为AI战略,并公布了昇腾系列的AI芯片,分别是昇腾310和昇腾910,其中昇腾310当时已经量产,而昇腾910在2019年2季度上市。

在摩尔定律逐渐失效的情况下,AI芯片有助于解决算力的问题,能够提升芯片的计算效率,同时降低成本。因此,越来越多的硬件中都在CPU之外加入了AI元素。

再看CPU产品,华为鲲鹏生态快速发展,并有新规划,鲲鹏950预计2026年第四季度推出,鲲鹏960预计2028年第一季度推出。虽然鲲鹏直接对标英特尔、AMD的产品,但是在超节点中,昇腾和鲲鹏将形成合力。

在AI芯片市场上,英伟达仍占有绝对优势,但是中国AI市场上正风起云涌,从华为昇腾、到阿里平头哥、百度昆仑、寒武纪等都在追赶之中。

从华为体系来看,在算力层面,华为发展了昇腾AI芯片和服务器CPU鲲鹏芯片,并且围绕鲲鹏和昇腾构建新的计算生态。他们是华为最核心的AI算力旗舰,而华为也在努力为世界提供算力新选择。

多年前,华为就提出了计算战略,瞄准了人工智能的算力底座。随着近两年生成式AI的来临,尤其是昇腾算力体系加速爆发,华为也欲在新一轮的AI浪潮中占据主导地位。

在AI竞赛场上,昇腾从2019年面世以来就是不可忽视的一支力量。如今,昇腾也早已不是当年单卡的概念,已经从加速卡、集群、再演进到一整套AI软硬件体系。

三大超节点登场:全面对标英伟达

徐直军认为,超节点在物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。华为发布了最新超节点产品Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点,分别支持8192及15488张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,在未来多年都将是全球最强算力的超节点。

基于超节点,华为同时发布了全球最强超节点集群,分别是Atlas 950 SuperCluster和 Atlas 960 SuperCluster,算力规模分别超过50万卡和达到百万卡,是当之无愧的全世界最强算力集群。

徐直军表示,基于全球最强算力的超节点和集群,华为对于为人工智能的长期快速发展提供可持续且充裕算力,充满信心。

在徐直军看来,超节点成为AI基础设施建设新常态,目前CloudMatrix 384超节点累计部署300多套,服务20多家客户。其中,Atlas 950 SuperPoD,算力规模8192卡,预计于今年四季度上市。新一代产品Atlas 960 SuperPoD ,算力规模15488卡,预计2027年四季度上市。

同时,华为率先把超节点技术引入通用计算领域,发布全球首个通用计算超节点TaiShan 950 SuperPoD,结合GaussDB分布式数据库,能够彻底取代各种应用场景的大型机和小型机以及Exadata数据库一体机,将成为各类大型机、小型机的终结者。

在互联技术领域,华为通过系统性创新,突破了大规模超节点的互联技术挑战,开创了面向超节点的互联协议灵衢(UnifiedBus),徐直军宣布华为将开放灵衢2.0技术规范,共建灵衢开放生态。

一位华为内部人士向21世纪经济报道记者表示,目前高速互联总线有多种类型,包括NVlink,灵衢UB,UAlink等,但真正商用的基于高速互联总线的超节点架构产品,现在只有NVLink和灵衢UB,UB商用后,就可以和英伟达B系列掰手腕。

近年来,华为在硬件和软件产业链上双管齐下。面对眼前的挑战与短板,必须要寻找“弯道超车”的道路。当全球芯片企业的角逐愈演愈烈,华为转向工程化、系统化的突围思路,逐步透露出端倪。

在2024年的华为全联接大会上,徐直军曾谈到算力发展。他坦言,立足中国,只有基于实际可获得的芯片制造工艺打造的算力才是长期可持续的,“因为人工智能正在成为主导性算力需求,促使计算系统正在发生结构性变化,需要的是系统算力,而不仅仅是单处理器的算力。这些结构性变化,为我们通过架构性创新,开创出一条自主可持续的计算产业发展道路,提供了机遇。”

在一位华为专家看来,仅从单卡性能来看,和英伟达相比有差距,但是训练大模型都需要大系统,纯粹比单卡没有意义。通过超节点系统的有效调度,昇腾系统能效不比英伟达差,系统工程不是华为独有的选择,而是做计算系统的共同努力的方向。