徐直军详解华为最强“算力核弹”

  • 2025-09-19 07:58:39
  • 219

(文/观察者网吕栋编辑/张广凯)

所有人都没有预料到,华为会突然亮出未来几年的“芯片底牌”。

9月18日上午,在华为全连接大会2025上,华为轮值董事长徐直军一口气公布了多颗芯片,包括用于AI计算的昇腾950系列、昇腾960系列和昇腾970系列,用于通用计算的鲲鹏950处理器和鲲鹏960处理器,以及由这些芯片组成的“全球最强超节点”和“全球最强算力集群”。

要知道,华为上一次公开发布昇腾和鲲鹏芯片,还是2019年。自那以来,在美国多轮制裁下,无论是麒麟,还是昇腾和鲲鹏均遭重击。即便大家都知道最近两年华为芯片已逐步回归,但依然比较神秘,包括麒麟、鲲鹏和昇腾这些芯片将来如何迭代的,外界都不得而知。

“下面我分别介绍快要推出的和已规划的4颗昇腾芯片”、“我们自研了两种HBM”“鲲鹏处理器主要围绕支持超节点,更多核、更高性能等方向持续演进”......因此当徐直军直入主题直接介绍华为“未来的芯片路标”时,在场众人无不感到吃惊,思绪也被拉回几年前。

选在这个时间点“秀肌肉”,华为除了要展示“打不死”的韧性,更想在AI时代给中国人工智能的发展托底,给国内产业伙伴吃下更多“定心丸”。“我很确定地告诉大家,昇腾芯片将持续演进,为中国乃至世界的AI算力构筑坚固根基。”徐直军在会上如是说道。

尽管DeepSeek开创的模式可以大幅减少算力成本,但徐直军认为,要走向通用人工智能、走向物理AI,算力将继续是人工智能的关键,更是中国人工智能的关键。

他在会上首先介绍了昇腾950系列芯片。与前一代比,昇腾950系列的进步有几个方面,包括支持FP8/MXFP8/MXFP4等低数值精度数据格式,算力可达到1P和2P,提升训练效率和推理吞吐,并特别支持华为自研的HiF8,在保持FP8的高效的同时,精度非常接近FP16。

不同的地方在于,华为结合推理不同阶段对算力、内存和访存带宽等不同需求,自研了两种低成本HBM(高带宽内存),不同的HBM与昇腾950裸芯片合封,分别构成昇腾950PR:面向Prefill和推荐场景,以及昇腾950DT:面向Decode和训练场景。两颗芯片都将在明年上市。

徐直军还公布了规划中的两颗AI芯片。

昇腾960性能规格将比昇腾950翻倍,支持华为自研的HiF4数据格式,能进一步提升推理吞吐,并且比业界FP4方案的推理精度更优,计划在2027年四季度推出;昇腾970的规格还在讨论中,相比昇腾960,昇腾970的FP4算力、FP8算力、互联带宽将全面翻倍,内存访问带宽至少增加1.5倍,计划在2028年四季度推出。

我们都知道,虽然国产AI芯片由于制造工艺问题,单卡算力处于落后状态,但AI对算力的庞大需求,让单芯片角色逐步弱化,集群算力成为大势所趋。因此今年3月,华为综合在光通信、网络、供电等多方面的技术,把384颗昇腾芯片通过高速互联总线连在一起,推出了全球最大的超节点,性能指标超过了英伟达NVL72系统,它的优势是让计算和通信高速并行,充分提升算力利用率,已部署超300套。

但华为并没有停下脚步,这次重磅宣布了未来的超节点规划。

首先,是计划2026年四季度上市的Atlas950超节点,它基于8192颗昇腾950DT芯片打造,满配包括由128个计算柜、32个互联柜,共计160个机柜组成,占地面积1000平方米左右,柜间采用全光互联,总算力大幅度提升,其中FP8算力达到8EFLOPS,FP4算力达到16EFLOPS,互联带宽达到16PB/s,这个数字意味着,Atlas950一个产品的总互联带宽,已经超过今天全球互联网峰值带宽的10倍。

“Atlas950超节点,至少在未来多年都将保持是全球最强算力的超节点,并且在各项主要能力上都远超业界主要产品。其中,相比英伟达同样将在明年下半年上市的NVL144,Atlas950超节点卡的规模是其56.8倍,总算力是其6.7倍,内存容量是其15倍,达到1152TB;互联带宽是其62倍,达到16.3PB/s。即使是与英伟达计划2027年上市的NVL576相比,Atlas950超节点在各方面依然是领先的。”徐直军说道。

这仍然不够。

面向更长远,华为计划在2027年四季度推出Atlas960超节点,它基于15488颗昇腾960芯片组成,包括176个计算柜,44个互联柜,共220个机柜,占地面积约2200平方米,其总算力、内存容量、互联带宽在Atlas950基础上再翻倍。其中,FP8总算力将达到30EFLOPS,而FP4总算力将达到60EFLOPS;内存容量达到4460TB,互联带宽达到34PB/s。

不光是AI芯片迭代,华为还同时布局通用计算CPU。

徐直军透露,华为将在明年一季度推出鲲鹏950处理器,包括两个版本,分别是96核/192线程和192核/384线程,成为鲲鹏首颗实现机密计算的数据中心处理器。然后在2028年一季度,推出鲲鹏960处理器,高性能版本96核/192线程,高密版本不少于256核/512线程。

紧接着,他宣布了基于鲲鹏950的TaiShan950超节点,是全球首个通用计算超节点,明年一季度上市,最大支持16节点,32个处理器,最大内存48TB,支持内存、SSD、DPU池化。

“当前大型机、小型机替换的核心挑战是数据库分布式改造,而基于TaiShan950超节点打造的GaussDB多写架构,无需改造,但性能提升2.9倍,最终可平滑替代大型机、小型机上的传统数据库。TaiShan950加上分布式GaussDB将成为各类大型机、小型机的终结者,彻底取代各种应用场景的大型机和小型机以及Oracle的Exadata数据库服务器。”徐直军表示。

看到超节点的系统性优势后,华为还计划推出TaiShan950和Atlas950混合超节点。这样一方面可以通过超大带宽、超低时延互联以及超大内存,构成超大共享内存池,支持PB级推荐系统嵌入表;另一方面,混合超节点的超大AI算力,能够支持超低时延推理和特征检索。

但是这样也会带来巨大的挑战。比如在长距离连接和可靠性方面,当前的电互联技术在高速时联接距离短,而光互联更容易出故障。同时,当前跨柜卡间互联带宽低,和超节点的需求差距达5倍;跨柜的卡间时延大,当前互联技术最好只能做到3微秒左右,和Atlas950/960设计需求仍然有24%的差距,当时延已经低至2~3个微秒时,0.1微秒的提升挑战都很大。

徐直军透露,为了达成Atlas950/960超节点对互联的技术要求,为了实现万卡超节点还能是一台计算机,华为开创了超节点架构并开创了新型的互联协议,能够支撑万卡级超节点架构。

在技术上,万卡级超节点架构具备6大特征,分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。这个面向超节点的新型互联协议,被命名为“灵衢”,意味着类似九省通衢,实现大规模算力的联通,英文名称:UB(UnifiedBus)。

徐直军表示,为了更广泛地促进互联技术发展和产业进步,华为决定开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态,“灵衢既为超节点而生,是面向超节点的互联协议,也是构建算力集群产品最优的互联技术。”

他随后宣布了两个大规模计算集群。

首先是Atlas950SuperCluster集群,由64个Atlas950超节点互联组成,把1万多机柜中的52万多片昇腾950DT组成为一个整体,FP8总算力可达524EFLOPS。相比当前世界上最大的集群xAIColossus,规模是其2.5倍,算力是其1.3倍,“是当之无愧的全世界最强算力集群”。与此同时,2027年四季度,华为还计划基于Atlas960超节点,推出Atlas960SuperCluster,集群规模进一步提升到百万卡级,FP8总算力达到2ZFLOPS,FP4总算力达到4ZFLOPS。

但不可否认的是,AI算力的释放不仅考验硬件性能,也对配套软件和开发工具提出了更高要求。就像英伟达之所以实力强悍,不仅因为它的GPU性能强,也得益于CUDA生态成熟。

华为虽然有自己的昇腾芯片,但也需要CANN来发挥“CUDA”的角色。与CANN配套的是华为自研深度学习框架MindSpore,其作用类似于PyTorch,这些工具共同构成了华为原生的AI软硬件方案,以对标以英伟达为中心的PyTorch+CUDA方案。

坦白来讲,与发展了18年的CUDA生态相比,刚起步六七年的CANN,易用性和生态丰富度仍存在差距,并且任重道远。去年9月有外媒报道,为了让客户适应新生态,华为效仿英伟达最初推广CUDA的策略,向百度、科大讯飞和腾讯派遣了工程团队,帮助他们在CANN环境中重现和优化现有的基于CUDA的训练代码。

面对强大的CUDA生态,坚持开源构建生态或许是华为的最优选择。

徐直军在会上重申了华为的开源策略和路线:一、华为坚持昇腾硬件变现;二、CANN编译器和虚拟指令集接口开放,其它软件全开源,CANN基于Ascend910B/C的开源开放将于2025年12月31日前完成,未来开源开放与产品上市同步;三、Mind系列应用使能套件及工具链全面开源,并于2025年12月31日前完成;四、openPangu基础大模型全面开源。

从徐直军的演讲不难看出,华为未来的计算产业战略是,硬件将基于现有芯片工艺迭代昇腾和鲲鹏,同时以系统补单点,用超节点补足单卡瓶颈;软件上,华为将坚持开放开源,通过开放灵衢2.0技术规范,构建CANN和MindSpore等开源生态,解决美国的算力卡脖子问题。