華為輪值董事長徐直軍在華為全聯接大會2025上的主題演講,聚焦於“以開創的超節點互聯技術,引領AI基礎設施新範式”。他首先回顧了過去一年AI領域的發展,特別是DeepSeek的出現對產業界和華為帶來的衝擊與挑戰,以及華為雲和昇騰團隊為應對這些挑戰所做的努力。
演講中,徐直軍重申了去年華為全聯接大會提出的五點:算力可持續性、中國半導體製造工藝的現狀、基於實際可獲得晶片製造工藝的算力、AI作為主導性算力需求帶來的計算系統結構性變化,以及“超節點+叢集”算力解決方案的重要性。他特別強調,此次演講旨在詳細闡述第五點,即如何通過超節點互聯技術建構AI基礎設施新範式。
徐直軍還匯報了華為在昇騰產業峰會上做出的四項重要決定:堅持昇騰硬體變現;CANN編譯器和虛擬指令集介面開放,其他軟體全開源;Mind系列應用使能套件及工具鏈全面開源;openPangu基礎大模型全面開源。這些舉措旨在推動昇騰生態的開放與發展。
他進一步介紹了昇騰晶片的未來路標,明確表示昇騰晶片將持續演進,為全球AI算力奠定基礎。未來三年(至2028年),華為將推出Ascend 950系列(包括950PR和950DT)、Ascend 960和Ascend 970系列晶片。Ascend 950系列在FP8/MXFP8/MXFP4等低數值精度資料格式、向量算力、互聯頻寬等方面實現顯著提升,並結合自研HBM(HiBL 1.0和HiZQ 2.0)針對Prefill、推薦、Decode和訓練場景進行最佳化。Ascend 960和970則計畫在算力、頻寬、記憶體容量等方面實現翻倍或大幅升級,以每年一代、算力翻倍的速度持續提升競爭力,滿足AI算力需求。
演講全文如下:
——徐直軍在華為全聯接大會2025上的主題演講
女士們、先生們,各位老朋友、新朋友,大家上午好!
歡迎來參加2025年華為全聯接大會,時隔一年,很高興再次與大家相聚在上海。我想大家都能感受到,過去的一年對所有AI從業者、關注者來講是記憶深刻的一年,DeepSeek橫空出世,讓全國人民過了一個快樂的AI春節、科技春節,也讓所有大模型訓練者開啟了不知多少個不眠之夜,調整訓練方式,復現DeepSeek結果。當然也給我們帶來了巨大衝擊,華為雲為了接住DeepSeek快速增長的使用者和流量,日夜奮戰,AI研發團隊從春節開始,到今年4月30日,經過多團隊的協同作戰,終於使Ascend 910B/910C的推理能力達成了客戶的基本需求。
在進入今天的具體分享之前,請允許我回顧一下去年的HC,我講到了如下幾點:
第一、智能化的可持續,首先是算力的可持續;
第二、中國半導體製造工藝將在相當長時間處於落後狀態;
第三、可持續的算力只能基於實際可獲得的晶片製造工藝;
第四、人工智慧成為主導性算力需求,促使計算系統正在發生結構性變化;
第五、開創計算架構,打造“超節點+叢集”算力解決方案持續滿足算力需求。
但第五點沒有展開講,今天,我想利用此機會,來把我去年HC沒有完成的任務完成,也算是答卷。我今天分享的主題是:“以開創的超節點互聯技術,引領AI基礎設施新範式”,也是回答去年HC提到的第五點:如何開創計算架構,打造 “超節點+叢集”算力解決方案來持續滿足算力需求。
在展開今天主題前,回到DeepSeek對產業界、對華為的衝擊,DeepSeek開源後,我們的客戶對華為的昇騰發展指出了很多問題,也充滿了期待,並一直在給我們不斷地提建議。為此,經過內部的充分討論並達成共識,我們於2025年8月5日在北京專門舉辦了昇騰產業峰會,我代表華為給出了回應,在座的有的參加了,有的可能沒有參加。今天,我也利用此機會就主要的決定給大家匯報一下。主要有四點:
一、華為堅持昇騰硬體變現;
二、CANN 編譯器和虛擬指令集介面開放,其它軟體全開源,CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成,未來開源開放與產品上市同步;
三、Mind系列應用使能套件及工具鏈全面開源,並於2025年12月31日前完成;
四、openPangu基礎大模型全面開源。
接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求,但要走向AGI、要走向物理AI,我們認為,算力,過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵。
算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。自2018年發佈Ascend 310晶片,2019年發佈Ascend 910晶片,到2025年,Ascend 910C晶片隨著Atlas 900超節點規模部署,為大家所熟悉。在過去幾年,客戶和夥伴們對昇騰晶片有很多訴求,對昇騰晶片也有很多期待。面向未來,華為的晶片路標是如何規劃的?想必是大家普遍關心的話題,可能也是最關心的內容。
因此,今天,我就直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家,昇騰晶片將持續演進,為中國乃至世界的AI算力構築堅固根基。
未來3年,至2028年,我們在開發和規劃了三個系列,分別是Ascend 950系列,包括兩顆晶片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。下面我分別介紹快要推出的和已規劃的4顆昇騰晶片。
我們正在開發、且即將推出的晶片叫Ascend 950系列。我首先介紹一下Ascend 950系列的晶片架構,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰晶片相比,Ascend 950 在以下幾個方面實現了根本性提升。
第一,新增支援業界標準FP8/MXFP8/MXFP4等低數值精度資料格式,算力分別達到1P和2P,提升訓練效率和推理吞吐。並特別支援華為自研的HiF8,在保持FP8的高效的同時,精度非常接近FP16。
第二,大幅度提升了向量算力。這主要通過三個方面實現:其一,提升向量算力佔比;其二,採用創新的新同構設計,即支援 SIMD/SIMT 雙程式設計模型,SIMD能夠像流水線一樣處理“大塊”向量,而SIMT便於靈活處理“碎片化”資料;其三,把記憶體訪問顆粒度從512字節減少到128字節,記憶體訪問更精細,從而更好地支援了離散且不連續的記憶體訪問。
第三,互聯頻寬相比Ascend 910C提升了2.5倍,達到2TB/s。
第四,結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成晶片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。下面分別介紹。
首先是我們的第一顆晶片,Ascend 950PR,主要面向推理Prefill階段和推薦業務場景。首先,我們發現,隨著Agent的快速發展,輸入上下文越來越長,首Token輸出階段佔用計算資源越來越多。其次是在電子商務、內容平台、社交媒體等業務應用中,要求推薦演算法具有更高的精準度和更低的時延,對計算能力的需求也越來越大。推理Prefill階段和推薦演算法都是計算密集型,對計算平行的能力要求高,但對記憶體訪問頻寬的需求相對低。通過分級記憶體解決方案,推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。Ascend 950PR 採用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。
這顆晶片將在2026年一季度推出,首先支援的產品形態是標卡和超節點伺服器。
接下來這一顆是Ascend 950DT,相比Ascend 950PR,它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高,我們開發了HiZQ 2.0,使記憶體容量達到144GB,記憶體訪問頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次,支援了FP8/MXFP8/MXFP4/HiF8資料格式。
Ascend 950DT 將在2026年Q4推出。
第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體訪問頻寬、記憶體容量、互聯連接埠數等各種規格上相比Ascend 950翻倍,大幅度提升訓練、推理等場景的性能;同時還支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現,能進一步提升推理吞吐,並且比業界FP4方案的推理精度更優。
Ascend 960將在2027年四季度推出。
最後一顆是在規劃中的Ascend 970,這顆晶片的一些規格還在討論中。總體方向是,在各項指標上大幅度升級,全面升級訓練和推理性能。目前的初步考慮是,相比Ascend 960,Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍,記憶體訪問頻寬至少增加1.5倍。Ascend 970計畫在2028年四季度推出。大家屆時可以期待它的驚人表現。
這是剛才介紹的昇騰晶片的主要具體規格和路標,總體上,我們將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多資料格式、更高頻寬等方向持續演進,持續提升昇騰晶片的競爭力,持續滿足中國乃至世界AI算力需求。 (藍血研究)