時隔多年，AI晶片又是華為發佈會主角了

2025/09/19

•

華為的晶片節奏，全面走上了新軌道。

繼余承東三摺疊手機發佈會上亮相麒麟晶片後，AI算力晶片也有了最新進展。

就在華為全聯接大會上，輪值董事長徐直軍，帶來了全球最強算力超節點和叢集！

Atlas 950 SuperPoD和Atlas 960 SuperPoD超節點，分別支援8192及15488張昇騰卡。

Atlas 950 SuperPoD預計在2026年第四季度上市，完全超越輝達預計在2027年上市的NVL576，在未來2年內保持全球算力第一。

同時還發佈了全球最強超節點叢集，分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster，算力規模分別超過50萬卡和達到百萬卡，同樣坐穩全球最強叢集寶座。

此外，華為還公佈了昇騰晶片、鯤鵬晶片未來2年的演進規劃。包括昇騰950系列/960系列，鯤鵬950/960等。

華為輪值董事長也坦承，由於製程和流片方面的原因，“短期在單晶片性能上和輝達有差距”……

但是，可以通過極致的系統架構和互聯技術，將大量晶片整合成一個“超級電腦”，在叢集等級實現全面超越。

明年Q1推出昇騰950PR，採用華為自研HBM

晶片方面，華為將堅持“一年一代，算力翻倍”的節奏，持續演進資料格式和頻寬技術，以滿足AI算力增長的無限需求。

由此公佈了昇騰950系列、昇騰960系列和昇騰970系列的演進路線。

昇騰950系列

昇騰950晶片架構亮點如下：

新增支援低精度資料格式
提升向量算力
提升互聯頻寬2.5倍
支援華為自研HBM

具體晶片如下：

昇騰950PR

定位：面向推薦（Recommendation）和偏好（Prefill）場景的推理（Inference）最佳化晶片。

推出這款晶片是因為隨著AIGC發展，輸入上下文越來越長，計算資源消耗增大。在電商、內容平台和社交媒體中，推薦演算法需要更高的精準度和更低的時延。

技術創新：採用華為自研HBM記憶體方案，可顯著降低成本。

產品形態：標準卡和超節點伺服器。

上市時間：2026年第一季度。

昇騰950DT

定位：面向訓練（Training）和深度學習（Deep Learning）場景。

技術創新：

採用自研HBM：HiZQ 2.0
記憶體容量高達144GB，訪問頻寬達4TB/s。
互聯頻寬提升至2TB/s。
支援FP8、MXFP8、MXFP4、HF8等多種資料格式，提升訓練效率。

上市時間：2026年第四季度。

昇騰960（規劃中）

定位：旗艦訓練晶片，各項規格相比昇騰950實現翻倍提升。

技術創新：

算力、記憶體容量、訪問速度、互聯連接埠數全面翻倍。
支援華為自研的Hi-F4資料格式，它是目前業界最優的4bit精度實現，能進一步提升推理吞吐，並且比業界FP4方案的推理精度更優。

上市時間：2027年第四季度。

昇騰970（規劃中）

定位：全面升級的訓練晶片，各項指標大幅提升。

初步規格：相比昇騰960，FP4、FP8算力全面翻倍，記憶體訪問頻寬提升至少1.5倍。

上市時間：2028年第四季度。

Atlas 950：預計未來2年保持全球第一

華為副董事長、輪值董事長徐直軍坦言，華為在單晶片製造上受到限制，但是通過過去30年在基礎軟體和系統架構上的積累，可以通過極致的算力架構和互聯技術，將大量晶片整合成一個“超級電腦”，從而在叢集層面實現超越。

超節點（SuperNode）是將大量計算單元（如晶片、伺服器）通過高速互聯技術整合成一台邏輯上統一的、能像單台電腦一樣學習、思考和推理的巨型AI電腦。它正成為AI基礎設施建設的新範式。

目前華為現有Atlas 900 A3超節點，支援384顆昇騰910C晶片。最大算力達300PFlops，至今仍是全球算力最強的AI超節點。自上市以來，已交付超300套，服務20多家客戶。

Atlas 950超節點

此次最新發佈Atlas 950超節點。

支援8,192張昇騰950DT晶片，規模是Atlas 900的20多倍。

它由128個計算櫃和32個互聯櫃組成，佔地約1000平方米，採用全光連接。

關鍵指標如下：

FP8算力：8 EFlops
FP4算力：16 EFlops
互聯頻寬：16.3 PB/s（超過全球網際網路總頻寬的10倍）
記憶體容量：1152 TB
訓練總吞吐：4.91mn TPS（較Atlas 900提升17倍）
推理總吞吐：19.6mn TPS（較Atlas 900提升26.5倍）

相比輝達2025年將上市的NVL144，卡規模是其56.8倍，總算力是其6.7倍，記憶體容量是其15倍，互聯頻寬是其72倍。

Atlas 950 超節點上市時間為2026年第四季度。預計在未來兩年內保持全球算力第一。

Atlas 960超節點

一同發佈的還有Atlas 960 超節點。

它基於昇騰960/昇騰950DT晶片，最大支援15,488卡。使用跨櫃全光互聯。

關鍵指標在Atlas 950基礎上再度翻番：

FP8算力：30 EFlops
FP4算力：60 EFlops
記憶體容量：4460 TB
互聯頻寬：34 PB/s
大模型訓練和推理性能相比Atlas 950提升3-4倍。

預計在2027年第四季度上市。

開創面向超節點的互聯協議靈衢

超節點技術不僅用於AI，同樣重塑通用計算。

華為發佈鯤鵬950、鯤鵬960晶片以及對應超節點。

鯤鵬950處理器：

版本：96核/192執行緒；192核/384執行緒
特性：支援機密計算，新增四層安全隔離。
上市時間：2026年第一季度。

基於鯤鵬950，組成泰山950超節點。

這將是全球首個通用計算超節點。最大支援16節點，32個處理器，最大記憶體48TB。同時支援內存、SSD、DPU池化。

基於TaiShan 950超節點打造的GaussDB讀寫架構無需對資料庫進行分佈式改造，性能提升2.9倍。

最終可平滑替代大型機、小型機上的傳統資料庫。TaiShan950加上分佈式GaussDB將成為各類大型機、小型機的終結者，徹底取代各種應用場景的大型機和小型機以及Oracle的Exadata資料庫伺服器。

除了核心資料庫場景，TaiShan 950超節點在更廣泛的場景裡，表現也很亮眼：比如虛擬化環境的記憶體利用率提升20%，在Spark巨量資料場景，即時資料處理時間縮短30%。

上市時間為2026年第一季度。

建構萬卡超節點的最大挑戰在於互聯技術。華為通過系統性創新攻克了兩大難題：

第一是如何做到長距離而且高可靠。大規模超節點機櫃多，櫃間聯接距離長，當前電互聯和光互聯技術都不能滿足需求。其中，當前的電互聯技術在高速時聯接距離短，最多隻能支援兩櫃互聯，而當前的光互聯技術雖然可以把長距離的多機櫃聯接在一起，但無法滿足可靠性需求。

第二是如何做到大頻寬而且低時延。當前跨櫃卡間互聯頻寬低，和超節點的需求差距達5倍；跨櫃的卡間時延大，當前互聯技術最好只能做到3微秒左右，和Atlas950/960設計需求仍然有24%的差距，當時延已經低至2~3個微秒時，已經逼近物理極限，那怕0.1微秒的提升，挑戰都很大。

基於此，華為開創了靈衢（UnifiedBus）互聯協議，並正式開放雲衢2.0技術規範，邀請產業夥伴共建生態，推動超節點產業發展。

最後，華為還有大招放出，發佈超級叢集：Atlas 950 SuperPlus叢集。

它由64個Atlas 950超節點並聯組成，整合52萬顆昇騰950T晶片。

總算力達524 EFlops。支援UBOE和RoCE兩種組網協議，UBOE在時延、可靠性和成本上更具優勢。

上市時間為2026年第四季度。

另外Atlas 960 SuperPlus叢集也在規劃中。

規模將達百萬卡級，FP8總算力達2 ZFlops，FP4達4 ZFlops。上市時間為2027年第四季度。

最後，徐直軍強調，華為將以基於靈衢的超節點和叢集持續滿足算力快速增長的需求，推動人工智慧持續發展，創造更大的價值。 (量子位)