徐直军详解华为最强“算力核弹”

2025-09-19 07:58:39
219

（文/观察者网吕栋编辑/张广凯）

所有人都没有预料到，华为会突然亮出未来几年的“芯片底牌”。

9月18日上午，在华为全连接大会2025上，华为轮值董事长徐直军一口气公布了多颗芯片，包括用于AI计算的昇腾950系列、昇腾960系列和昇腾970系列，用于通用计算的鲲鹏950处理器和鲲鹏960处理器，以及由这些芯片组成的“全球最强超节点”和“全球最强算力集群”。

要知道，华为上一次公开发布昇腾和鲲鹏芯片，还是2019年。自那以来，在美国多轮制裁下，无论是麒麟，还是昇腾和鲲鹏均遭重击。即便大家都知道最近两年华为芯片已逐步回归，但依然比较神秘，包括麒麟、鲲鹏和昇腾这些芯片将来如何迭代的，外界都不得而知。

“下面我分别介绍快要推出的和已规划的4颗昇腾芯片”、“我们自研了两种HBM”“鲲鹏处理器主要围绕支持超节点，更多核、更高性能等方向持续演进”......因此当徐直军直入主题直接介绍华为“未来的芯片路标”时，在场众人无不感到吃惊，思绪也被拉回几年前。

选在这个时间点“秀肌肉”，华为除了要展示“打不死”的韧性，更想在AI时代给中国人工智能的发展托底，给国内产业伙伴吃下更多“定心丸”。“我很确定地告诉大家，昇腾芯片将持续演进，为中国乃至世界的AI算力构筑坚固根基。”徐直军在会上如是说道。

尽管DeepSeek开创的模式可以大幅减少算力成本，但徐直军认为，要走向通用人工智能、走向物理AI，算力将继续是人工智能的关键，更是中国人工智能的关键。

他在会上首先介绍了昇腾950系列芯片。与前一代比，昇腾950系列的进步有几个方面，包括支持FP8/MXFP8/MXFP4等低数值精度数据格式，算力可达到1P和2P，提升训练效率和推理吞吐，并特别支持华为自研的HiF8，在保持FP8的高效的同时，精度非常接近FP16。

不同的地方在于，华为结合推理不同阶段对算力、内存和访存带宽等不同需求，自研了两种低成本HBM（高带宽内存），不同的HBM与昇腾950裸芯片合封，分别构成昇腾950PR：面向Prefill和推荐场景，以及昇腾950DT：面向Decode和训练场景。两颗芯片都将在明年上市。

徐直军还公布了规划中的两颗AI芯片。

昇腾960性能规格将比昇腾950翻倍，支持华为自研的HiF4数据格式，能进一步提升推理吞吐，并且比业界FP4方案的推理精度更优，计划在2027年四季度推出；昇腾970的规格还在讨论中，相比昇腾960，昇腾970的FP4算力、FP8算力、互联带宽将全面翻倍，内存访问带宽至少增加1.5倍，计划在2028年四季度推出。

我们都知道，虽然国产AI芯片由于制造工艺问题，单卡算力处于落后状态，但AI对算力的庞大需求，让单芯片角色逐步弱化，集群算力成为大势所趋。因此今年3月，华为综合在光通信、网络、供电等多方面的技术，把384颗昇腾芯片通过高速互联总线连在一起，推出了全球最大的超节点，性能指标超过了英伟达NVL72系统，它的优势是让计算和通信高速并行，充分提升算力利用率，已部署超300套。

但华为并没有停下脚步，这次重磅宣布了未来的超节点规划。

首先，是计划2026年四季度上市的Atlas950超节点，它基于8192颗昇腾950DT芯片打造，满配包括由128个计算柜、32个互联柜，共计160个机柜组成，占地面积1000平方米左右，柜间采用全光互联，总算力大幅度提升，其中FP8算力达到8EFLOPS，FP4算力达到16EFLOPS，互联带宽达到16PB/s，这个数字意味着，Atlas950一个产品的总互联带宽，已经超过今天全球互联网峰值带宽的10倍。

“Atlas950超节点，至少在未来多年都将保持是全球最强算力的超节点，并且在各项主要能力上都远超业界主要产品。其中，相比英伟达同样将在明年下半年上市的NVL144，Atlas950超节点卡的规模是其56.8倍，总算力是其6.7倍，内存容量是其15倍，达到1152TB；互联带宽是其62倍，达到16.3PB/s。即使是与英伟达计划2027年上市的NVL576相比，Atlas950超节点在各方面依然是领先的。”徐直军说道。

这仍然不够。

面向更长远，华为计划在2027年四季度推出Atlas960超节点，它基于15488颗昇腾960芯片组成，包括176个计算柜，44个互联柜，共220个机柜，占地面积约2200平方米，其总算力、内存容量、互联带宽在Atlas950基础上再翻倍。其中，FP8总算力将达到30EFLOPS，而FP4总算力将达到60EFLOPS；内存容量达到4460TB，互联带宽达到34PB/s。

不光是AI芯片迭代，华为还同时布局通用计算CPU。

徐直军透露，华为将在明年一季度推出鲲鹏950处理器，包括两个版本，分别是96核/192线程和192核/384线程，成为鲲鹏首颗实现机密计算的数据中心处理器。然后在2028年一季度，推出鲲鹏960处理器，高性能版本96核/192线程，高密版本不少于256核/512线程。

紧接着，他宣布了基于鲲鹏950的TaiShan950超节点，是全球首个通用计算超节点，明年一季度上市，最大支持16节点，32个处理器，最大内存48TB，支持内存、SSD、DPU池化。

“当前大型机、小型机替换的核心挑战是数据库分布式改造，而基于TaiShan950超节点打造的GaussDB多写架构，无需改造，但性能提升2.9倍，最终可平滑替代大型机、小型机上的传统数据库。TaiShan950加上分布式GaussDB将成为各类大型机、小型机的终结者，彻底取代各种应用场景的大型机和小型机以及Oracle的Exadata数据库服务器。”徐直军表示。

看到超节点的系统性优势后，华为还计划推出TaiShan950和Atlas950混合超节点。这样一方面可以通过超大带宽、超低时延互联以及超大内存，构成超大共享内存池，支持PB级推荐系统嵌入表；另一方面，混合超节点的超大AI算力，能够支持超低时延推理和特征检索。

但是这样也会带来巨大的挑战。比如在长距离连接和可靠性方面，当前的电互联技术在高速时联接距离短，而光互联更容易出故障。同时，当前跨柜卡间互联带宽低，和超节点的需求差距达5倍；跨柜的卡间时延大，当前互联技术最好只能做到3微秒左右，和Atlas950/960设计需求仍然有24%的差距，当时延已经低至2~3个微秒时，0.1微秒的提升挑战都很大。

徐直军透露，为了达成Atlas950/960超节点对互联的技术要求，为了实现万卡超节点还能是一台计算机，华为开创了超节点架构并开创了新型的互联协议，能够支撑万卡级超节点架构。

在技术上，万卡级超节点架构具备6大特征，分别是总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性。这个面向超节点的新型互联协议，被命名为“灵衢”，意味着类似九省通衢，实现大规模算力的联通，英文名称：UB（UnifiedBus）。

徐直军表示，为了更广泛地促进互联技术发展和产业进步，华为决定开放灵衢2.0技术规范，欢迎产业界伙伴基于灵衢研发相关产品和部件，共建灵衢开放生态，“灵衢既为超节点而生，是面向超节点的互联协议，也是构建算力集群产品最优的互联技术。”

他随后宣布了两个大规模计算集群。

首先是Atlas950SuperCluster集群，由64个Atlas950超节点互联组成，把1万多机柜中的52万多片昇腾950DT组成为一个整体，FP8总算力可达524EFLOPS。相比当前世界上最大的集群xAIColossus，规模是其2.5倍，算力是其1.3倍，“是当之无愧的全世界最强算力集群”。与此同时，2027年四季度，华为还计划基于Atlas960超节点，推出Atlas960SuperCluster，集群规模进一步提升到百万卡级，FP8总算力达到2ZFLOPS，FP4总算力达到4ZFLOPS。

但不可否认的是，AI算力的释放不仅考验硬件性能，也对配套软件和开发工具提出了更高要求。就像英伟达之所以实力强悍，不仅因为它的GPU性能强，也得益于CUDA生态成熟。

华为虽然有自己的昇腾芯片，但也需要CANN来发挥“CUDA”的角色。与CANN配套的是华为自研深度学习框架MindSpore，其作用类似于PyTorch，这些工具共同构成了华为原生的AI软硬件方案，以对标以英伟达为中心的PyTorch+CUDA方案。

坦白来讲，与发展了18年的CUDA生态相比，刚起步六七年的CANN，易用性和生态丰富度仍存在差距，并且任重道远。去年9月有外媒报道，为了让客户适应新生态，华为效仿英伟达最初推广CUDA的策略，向百度、科大讯飞和腾讯派遣了工程团队，帮助他们在CANN环境中重现和优化现有的基于CUDA的训练代码。

面对强大的CUDA生态，坚持开源构建生态或许是华为的最优选择。

徐直军在会上重申了华为的开源策略和路线：一、华为坚持昇腾硬件变现；二、CANN编译器和虚拟指令集接口开放，其它软件全开源，CANN基于Ascend910B/C的开源开放将于2025年12月31日前完成，未来开源开放与产品上市同步；三、Mind系列应用使能套件及工具链全面开源，并于2025年12月31日前完成；四、openPangu基础大模型全面开源。

从徐直军的演讲不难看出，华为未来的计算产业战略是，硬件将基于现有芯片工艺迭代昇腾和鲲鹏，同时以系统补单点，用超节点补足单卡瓶颈；软件上，华为将坚持开放开源，通过开放灵衢2.0技术规范，构建CANN和MindSpore等开源生态，解决美国的算力卡脖子问题。

常艾非歌曲视频发布网,提供常艾非歌曲视频发布信息,第一时间发布列表及资讯,常艾非的是常艾非全部歌曲_常艾非的首选资讯平台。