#昇騰晶片
華為徐直軍:昇騰晶片是華為AI算力戰略的基礎
在最近舉行的華為全聯接大會上,華為輪值董事長徐直軍發表演講,他表示算力的基礎是晶片,而昇騰晶片是華為AI算力戰略的基礎。女士們、先生們,各位老朋友、新朋友,大家早安!歡迎來參加2025年華為全聯接大會,時隔一年,很高興能再次與大家相聚在上海。我想大家都能感受到,過去的一年對所有AI從業者、關注者來講是記憶深刻的一年,DeepSeek橫空出世,讓全國人民過了一個快樂的AI年,也讓所有大模型訓練者開啟了不知多少個不眠之夜,調整訓練方式,復現DeepSeek結果,當然也給我們帶來了巨大衝擊當然。從春節開始,到今年4月30日,經過多團隊的協同作戰,終於讓Ascend 910B/910C的推理能力達成了客戶的基本需求。在進入今天的具體分享之前,請容許我回顧去年的HC,我講到如下幾點:第一、智慧化的可持續,首先是算力的可持續;第二、中國半導體製造流程將在相當長時間處於落後狀態;第三、可持續的算力只能基於實際可取得的晶片製造製程;第四、人工智慧成為主導性算力需求,促使運算系統正在發生結構性變化;第五、開創運算架構,打造「超節點+叢集」算力解決方案持續滿足算力需求。但第五點沒有展開講,本來想講,但我的團隊不同意。今天,我想利用此機會,來把我去年HC沒有完成的任務完成,也算是答案卷。我今天分享的主題是:「以開創的超節點互聯技術,引領AI基礎設施新範式」,也是回答去年HC提到的第五點:如何開創運算架構,打造「超節點+叢集」算力解決方案來持續滿足算力需求。在展開今天主題前,回到DeepSeek對產業界、對華為的衝擊,DeepSeek開源後,我們的客戶對華為的昇騰發展指出了很多問題,也充滿了期待,並一直在給我們不斷地提建議。為此,經過內部的充分討論並達成共識,我們於2025年8月5日在北京專門舉辦了昇騰產業峰會,我代表華為給出了回應,在座的有的參加了,有的可能沒有參加。今天,我也利用此機會就主要的決定來向大家報告。主要有四點:一、華為堅持昇騰硬體變現;二、CANN 編譯器和虛擬指令集介面開放,其它軟體全開源,CANN基於Ascend 910B/C的開源開放將於2025年12月31日前完成,未來開源開放與產品上市同步;三、Mind系列應用使能套件及工具鏈全面開源,並於2025年12月31日前完成;四、openPangu基礎大模型全面開源。接下來回到今天的主題。儘管DeepSeek開創的模式可以大幅減少算力需求,但要走向AGI、要走向實體AI,我們認為,算力,過去是,未來也將繼續是人工智慧的關鍵,更是中國人工智慧的關鍵。算力的基礎是晶片,昇騰晶片是華為AI算力戰略的基礎。自2018年發表Ascend 310晶片,2019年發表Ascend 910晶片,到2025年,Ascend 910C晶片隨著Atlas 900超節點規模部署,為大家所熟悉。在過去幾年,客戶和夥伴們對昇騰晶片有很多訴求,對昇騰晶片也有很多期待。面向未來,華為的晶片路標是如何規劃的?想必是大家普遍關心的話題,也可能是最關心的內容。因此,今天,我將直入主題來介紹昇騰晶片及其路標。我很確定地告訴大家,昇騰晶片將持續演進,為中國乃至世界的AI算力構築堅固根基。未來3年,至2028年,我們在開發和規劃了三個系列,分別是Ascend 950系列,包括兩顆晶片:Ascend 950PR和Ascend 950DT,以及Ascend 960、Ascend 970系列,更多具體晶片還在規劃中。以下我分別介紹快要推出的和已規劃的4顆昇騰晶片。我們正在開發、且即將推出的晶片叫Ascend 950系列。我先介紹Ascend 950系列的晶片架構,Ascend 950 PR和Ascend 950 DT共用了Ascend 950 Die。與前一代昇騰晶片相比,Ascend 950 在以下幾個方面實現了根本性提升。第一,新增支援業界標準FP8/MXFP8/MXFP4等低數值精確度資料格式,算力分別達到1P和2P,提升訓練效率與推理吞吐。並特別支援華為自研的HiF8,在維持FP8的高效率的同時,精準度非常接近FP16。第二,大幅度提升了向量算力。這主要透過三個面向實現:其一,提升向量算力佔比;其二,採用創新的新同構設計,即支援SIMD/SIMT 雙程式設計模型,SIMD能夠像流水線一樣處理「大塊」向量,而SIMT便於靈活處理「碎片化」資料;其三,把記憶體存取顆粒度從512字節減少到128個字節減少到128個字節,從而讓記憶體存取。第三,互聯頻寬相比Ascend 910C提升了2.5倍,達到2TB/s。第四,結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同,我們自研了兩種HBM,分別是:HiBL 1.0和HiZQ 2.0。不同的自研HBM與Ascend 950 Die合封,分別構成晶片Ascend 950PR:面向Prefill和推薦場景,以及Ascend 950DT:面向Decode和訓練場景。以下分別介紹。首先是我們的第一顆晶片,Ascend 950PR,主要面向推理Prefill階段和推薦業務場景。首先,我們發現,隨著Agent的快速發展,輸入上下文越來越長,首Token輸出階段佔用運算資源越來越多。其次是在電子商務、內容平台、社群媒體等業務應用中,要求推薦演算法具有更高的準確度和更低的時延,對運算能力的需求也越來越大。推理Prefill階段和推薦演算法都是運算密集型,對計算並行的能力要求高,但對記憶體存取頻寬的需求相對低。透過分級記憶體解決方案,推理Prefill階段和推薦演算法對本地記憶體容量的需求相對也不高。 Ascend 950PR 採用了華為自研的低成本HBM,HiBL 1.0,相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資。這顆晶片將在2026年第一季推出,首先支援的產品形態是標卡和超節點伺服器。接下來這一顆是Ascend 950DT,比起Ascend 950PR,它更注重推理Decode階段和訓練場景。由於推理Decode階段和訓練對互聯頻寬和訪存頻寬要求高,我們開發了HiZQ 2.0,使記憶體容量達到144GB,記憶體存取頻寬達到4TB/s。同時把互聯頻寬提升到了2TB/s。其次,支援了FP8/MXFP8/MXFP4/HiF8資料格式。Ascend 950DT 將在2026年Q4推出。第三顆是在規劃中的晶片Ascend 960。它在算力、記憶體存取頻寬、記憶體容量、互聯埠數等各種規格上相比Ascend 950翻倍,大幅提升訓練、推理等情境的效能;同時也支援華為自研的HiF4資料格式。它是目前業界最優的4bit精度實現,能進一步提升推理吞吐,並且比業界FP4方案的推理精度更優。Ascend 960將在2027年第四季推出。最後一顆是在規劃中的Ascend 970,這顆晶片的一些規格還在討論中。整體方向是,在各項指標上大幅升級,全面升級訓練和推理表現。目前的初步考量是,相較於Ascend 960,Ascend 970的FP4算力、FP8算力、互聯頻寬要全面翻倍,記憶體存取頻寬至少增加1.5倍。 Ascend 970計劃在2028年第四季推出。大家屆時可以期待它的驚人表現。這是剛才介紹的昇騰晶片的主要具體規格和路標,總體上,我們將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多數據格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求。可以看到,相較於Ascend 910B/910C,從Ascend 950開始的主要變化包括:引進SIMD/SIMT新架構,提升程式設計易用性;支援更豐富的資料格式,包括FP32 /HF32 /FP16/BF16/FP8/MXFP8/HiF8/MXFP4/HiF4等;支援更大的互聯頻寬,其中950系列為2TB/s,970系列提升到4TB/s;支援更大的算力,FP8算力從950系列的1 PFLOPS提升到960的2 PFLOPS、970的4 PFLOPS;FP4算力從950的2 PFLOPS提升到960的4 PFLOPS、9708 PFLOPS;記憶體容量逐漸加倍,而記憶體存取頻寬將翻兩番。有了以昇騰晶片為基礎,我們就能夠打造出滿足客戶需求的算力解決方案。從大型AI算力基礎設施建設的技術方向來看,超節點已經成為主導性產品形態,並且正在成為AI基礎設施建設的新常態。超節點事實上就是一台能學習、思考、推理的計算機,物理上由多台機器組成,但邏輯上以一台機器學習、思考、推理。隨著算力需求的持續成長,超節點的規模也持續、快速增加。今年3月份,華為正式推出了Atlas 900超節點,滿配支援384卡。因為是超節點,這384顆Ascend 910C晶片,能夠像一台電腦一樣運作,最大算力可達300 PFLOPS。到目前為止,Atlas 900依然是全球算力最大的超節點。大家常聽到的CloudMatrix384超節點,是華為雲端基於Atlas 900超節點所建構的雲端服務實例。 Atlas 900超節點自上市以來,已累積部署超過300套,服務20多個客戶,涵蓋網路、電信、製造業等多個產業。可以說,Atlas 900於2025年,開啟了華為AI超節點的旅程。今天,結合我們已經推出或正在研發中的昇騰晶片,我將為大家帶來更多超節點和叢集產品。現在進入今天最令人興奮的時刻,就是新產品發布環節。今天我要發佈的第一款產品,Atlas 950超節點,基於Ascend 950DT打造。Atlas 950超節點支援8192張基於Ascend 950DT的昇騰卡,是Atlas 900超節點的20多倍,我們習慣稱呼的昇騰卡,每張卡對應一顆Ascend 950DT晶片,8192張昇騰卡等同於8192顆Ascend 950DT晶片。Atlas 950超節點滿配包括由128個計算櫃、32個互聯櫃,共160個機櫃組成,佔地面積1000平方米左右,櫃間採用全光互聯。總算力大幅提升,其中,FP8算力達8E FLOPS,FP4算力達16E FLOPS。互聯頻寬達到16PB/s,這個數字意味著,Atlas 950一個產品的總互聯頻寬,已經超過今天全球互聯網峰值頻寬的10倍有餘。Atlas 950超節點的上市時間是:2026年第四季。我們很自豪的看到,Atlas 950超節點,至少在未來多年都將保持是全球最強算力的超節點,並且在各項主要能力上都遠超業界主要產品。其中,相較於輝達同樣將在明年下半年上市的NVL144,Atlas 950超節點卡的規模是其56.8倍,總算力是其6.7倍,內存容量是其15倍,達到1152TB;互聯頻寬是其62倍,達到16.3PB/s。即使是與輝達計畫2027年上市的NVL576相比,Atlas 950超節點在各方面依然是領先的。算力、記憶體容量、記憶體存取速度、連網頻寬等能力的大幅增強,為大模型訓練效能和推理吞吐帶來顯著提升。相較於華為已推出的Atlas 900超節點,Atlas 950超節點的訓練效能提升17倍,達到4.91M TPS。透過支援FP4資料格式,Atlas 950超節點的推理效能提升達26.5倍,達到19.6M TPS。8192卡超節點並不是我們的終點,我們還在繼續努力。我今天發布的第二款超節點產品,Atlas 960超節點。基於Ascend 960,Atlas 960超節點最大可支援15488卡。 Atlas 960超節點由176個計算櫃,44個互聯櫃,共220個機櫃,佔地約2200平方公尺。Atlas 960超節點的上市時間是:2027年第四季。伴隨卡片的規模的再次升級,Atlas 960超節點讓我們在AI超節點的優勢再度增強。基於Ascend 960,其總算力、記憶體容量、連網頻寬在Atlas 950基礎上再翻倍。其中,FP8總算力將達到30E FLOPS,而FP4總算力將達到60 EFLOPS;記憶體容量達到4460TB,連網頻寬達到34PB/s。大模型訓練與推理的效能相比Atlas 950超節點,將分別提升3倍和4倍以上,達到15.9M TPS 和80.5M TPS。透過Atlas 950和Atlas 960,我們對於為人工智慧的長期快速發展提供永續且充裕算力,充滿信心。超節點已經重新定義AI基礎設施的範式,但不僅限於AI。在通用運算領域,我們也認為,超節點技術能夠帶來很大的價值。從需求角度考慮,金融核心業務等目前仍然有部分承載在大型機和小型機之上,相比普通伺服器叢集,它們對伺服器的性能和可靠性有更高的訴求,通用計算超節點在這兩點上正好切合需求。從技術角度考慮,超節點同樣可以為通算領域注入全新活力。因此,鯤鵬處理器主要圍繞支援超節點,更多核心、更高效能等方向持續演進。同時,透過自研的雙執行緒靈犀核,讓鯕鵬處理器能方便支援更多執行緒。2026年Q1,我們將推出Kunpeng 950處理器,包含兩個版本,分別是:96核心/192執行緒和192核心/384執行緒;支援通用運算超節點;安全性方面新增四層隔​​離,成為鯤鵬首顆實現機密運算的資料中心處理器。2028年Q1,鯤鵬處理器將在晶片微架構、先進封裝技術等領域持續突破關鍵技術,將再次推出兩個版本,分別是高效能版本,96核心/192線程,單核心效能提升50%+,主要面向AI host、資料庫等場景。以及高密版本,不少於256核心/512線程,主要面向虛擬化、容器、大數據、數倉等場景。接下來是今天我發布的第三款產品:TaiShan 950超節點,基於Kunpeng 950打造,全球首個通用運算超節點,其最大支援16節點,32個處理器,最大記憶體48TB,同時支援記憶體、SSD、DPU池化。這款產品不只是通用運算領域的技術升級,除了大幅提升通用運算場景下的業務效能,還能幫助金融系統破解核心難題。目前大型主機、小型主機替換的核心挑戰是資料庫分散式改造,而基於TaiShan 950超節點打造的GaussDB多寫架構,無需改造,但效能提升2.9 倍,最終可平滑取代大型主機、小型主機上的傳統資料庫。 TaiShan 950加上分散式GaussDB將成為各類大型主機、小型主機的終結者,徹底取代各種應用場景的大型主機和小型主機以及Oracle的Exadata資料庫伺服器。除了核心資料庫場景,TaiShan 950超節點在更廣泛的場景裡,表現也很亮眼:例如虛擬化環境的記憶體利用率提升20%,在Spark大數據場景,即時資料處理時間縮短30%。TaiShan 950超節點上市時間是:2026年一季度,敬請期待。超節點的價值,不僅體現在智算和通算傳統業務領域。網路產業廣泛應用的推薦系統,正從傳統推薦演算法向生成式推薦系統演進。我們可以基於TaiShan 950和Atlas 950打造成混合超節點,為下一代生成式推薦系統開啟全新架構方向。一方面,透過超大頻寬、超低時延互聯以及超大內存,混合超節點構成超大共享內存池,支援PB級推薦系統嵌入表,從而支撐超高維度用戶特徵;另一方面,混合超節點的超大AI算力,能夠支援超低時延推理和特徵檢索。因此,混合超節點是下一代生成式推薦系統的解決方案的全新選擇。大規模超節點把智算和通算的能力都推向新的高度,同時也對互聯技術提出了重大挑戰。華為作為聯接領域的領導者,當然不畏挑戰。在定義和設計Atlas 950、Atlas 960兩個超節點的技術規格時,我們遭遇了連網技術的巨大挑戰,主要在兩個方面:第一是如何做到長距離而且高可靠。大規模超節點機櫃多,櫃間聯接距離長,目前電互聯和光互聯技術都無法滿足需求。其中,目前的電互聯技術在高速時聯接距離短,最多隻能支援兩櫃互聯,而當前的光互聯技術雖然可以把長距離的多機櫃聯接在一起,但無法滿足可靠性需求。第二是如何做到大頻寬而且低時延。目前跨櫃卡間連帶寬低,和超節點的需求差距達5倍;跨櫃的卡間時延大,當前互聯技術最好只能做到3微秒左右,和Atlas 950/960設計需求仍然有24%的差距,當時延已經低至2~3個微秒時,已經提升物理極限,那0.1微秒的挑戰都很大。華為基於三十多年構築的技術能力,透過系統性創新,徹底解決了當前技術存在的問題,超標達成Atlas 950/960超節點的設計需求,使萬卡超節點成為可能。首先,為瞭解決長距離且高可靠問題,我們在互聯協議的物理層、數據鏈路層、網絡層、傳輸層等每一層都引入了高可靠機制;同時在光路引入了百納秒級故障檢測和保護切換,當出現光模組閃斷或故障時,讓應用無感;並且,我們重新定義和設計了光器件、光模組和互聯器件。這些創新與設計讓光互聯的可靠性提升100倍,互聯距離超過200米,實現了電的可靠與光的距離。其次,為瞭解決大頻寬且低時延問題,我們突破了多埠聚合與高密封裝技術,以及平等架構和統一協議,實現了TB級的超大頻寬,2.1微秒的超低時延。正是因為一系列系統性、原創性的技術創新,我們才攻克了超節點互聯技術,滿足了高可靠、全光互聯、高頻寬、低時延的互聯要求,讓大規模超節點成為了可能。為了達成Atlas 950/960超節點對互聯的技術要求,為了實現萬卡超節點還能是一台計算機,華為開創了超節點架構並開創了新型的互聯協議,能夠支撐萬卡級超節點架構。基於這個互聯協議的超節點架構的核心價值主張是:萬卡超節點,一台計算機,也就是說,透過該互聯協議,把數萬規模的計算卡,聯接成一個超節點,能夠像一台計算機一樣工作、學習、思考、推理。在技​​術上,我們總結認為,萬卡級超節點架構應該具備6個特徵,分別是匯流排級互聯、平等協同、全量池化、協定歸一、大規模組網、高可用性。我們為這個面向超節點的新型互聯協定取名為“靈衢”,英文名稱:UB,UnifiedBus今天,我們正式發布靈衢、UnifiedBus,一個超節點的互聯協定。同時,我宣佈,華為將開放靈衢2.0技術規格。為什麼從靈衢2.0開始開放?事實上,靈衢的研究是從2019年開始的,因為眾所周知的原因,先進製程不可取得,我們需要從多晶片上突破,希望把更多的運算資源連結在一起。我們取了一個名字叫UnifiedBus,簡稱UB,中文名字“靈衢”,意味著類似九省通衢,實現大規模算力的聯通。基於靈衢 1.0 的Atlas 900超節點自2025年3月開始交付,至今已商用部署300多套,靈衢1.0技術已充分驗證。在靈衢1.0的基礎上,我們繼續豐富功能,優化性能,提升規模,進一步完善了協議,形成了靈衢2.0,前面發布的Atlas 950超節點就是基於靈衢2.0。我們認為靈衢2.0具備了開放的條件,為了更廣泛地促進互聯技術發展和產業進步,今天華為決定開放靈衢2.0技術規範,歡迎產業界夥伴基於靈衢研發相關產品和部件,共建靈衢開放生態。我在去年HC會上強調過,基於中國可獲得的晶片製造工藝,我們努力打造「超節點+叢集」算力解決方案,來持續滿足算力需求。今天已經介紹了三個超節點產品。靈衢既為超節點而生,是針對超節點的互聯協議,也是建構算力群集產品最優的互聯技術。接下來為大家帶來兩個叢集產品:首先是,Atlas 950 SuperCluster 50萬卡叢集!Atlas 950 SuperCluster叢集由64個Atlas 950超節點互聯組成,把1萬多機櫃中的52萬多片昇騰950DT組成一個整體,FP8總算力可達524 EFLOPS。上市時間與Atlas 950超節點同步,即2026年Q4。在群集網路上,我們同時支援UBoE與RoCE兩種協議,UBoE是把UB協定承載在乙太網路上,讓客戶利用現有乙太交換器。相較於傳統RoCE,UBoE組網的靜態時延更低、可靠性更高,交換器和光模組數量都更節省,所以,我們推薦UBoE。這就是我們的Atlas 950 SuperCluster叢集。相較於目前世界最大的叢集xAI Colossus,規模是其2.5倍,算力是其1.3倍,是當之無愧的全世界最強算力叢集!無論是當下主流的千億稠密、稀疏大模型訓練任務,還是未來的兆、十兆大模型訓練,超節點叢集都可以成為性能強悍的算力底座,高效穩定地支援人工智慧持續創新。對應的,在2027年Q4,我們也將基於Atlas 960超節點,同步推出Atlas 960 SuperCluster,叢集規模進一步提升到百萬卡級,FP8總算力達到2 ZFLOPS! FP4總算力達4 ZFLOPS。並且,它同樣也支援UBoE與RoCE兩種協議,在UBoE協議加持下,性能與可靠性同樣更優,並且,靜態時延和網絡無故障時間優勢進一步擴大,因此繼續推薦UBoE組網。透過Atlas 960 SuperCluster,我們將持續加速客戶應用創新,探索智慧水準新高。很高興今天為大家帶來一系列新產品,我們希望和產業界一起,以開創的靈衢超節點互聯技術,引領AI基礎設施新範式;以基於靈衢的超節點和叢集持續滿足算力快速增長的需求,推動人工智慧持續發展,創造更大的價值,謝謝! (礦石商業評論)
首發自研HBM記憶體!華為昇騰950/960/970晶片全公佈,全球最強超節點來了
在今日舉辦的華為全聯接大會2025上,華為輪值董事長徐直軍表示超節點成為AI基礎設施建設新常態,目前CloudMatrix 384超節點累計部署300+套,服務20+客戶。華為將推出全球最強超節點Atlas 950 SuperPoD,算力規模8192卡,預計於今年四季度上市。此外新一代產品Atlas 960 SuperPoD ,算力規模15488卡,預計2027年四季度上市。會上,徐直軍還發佈了全球首個通算超節點TaiShan950 SuperPoD,計畫2026年一季度上市。徐直軍稱,其將成為大型機、小型機終結者。此外,他還表示,算力過去是,未來也將繼續是,人工智慧的關鍵,更是中國人工智慧的關鍵。徐直軍還首次公佈了昇騰晶片演進和目標。他表示,未來三年,華為已經規劃了昇騰多款晶片,包括昇騰950PR、950DT以及昇騰960、970。其中昇騰950PR 2026年第一季度對外推出,該晶片採用了華為自研HBM。根據現場公佈的資訊,昇騰950PR晶片架構新增支援低精度資料格式,其中FP8/MXFP8/HIF8: 1 PFLOPS,MXFP4: 2 PFLOPS,重點提升向量算力,提升互聯寬頻2.5倍,支援華為自研HBM高頻寬記憶體,分為HiBL 1.0和HiZQ 2.0兩個版本。規格方面,HiBL 1.0容量128GB,頻寬1.6TB/s;HiZQ 2.0容量144GB,頻寬4TB/s。其中,昇騰950PR晶片採用950核心+HiBL 1.0記憶體,可提升推理Prefill(預填充)性能,提升推薦業務性能。昇騰950DT採用HiZQ 2.0記憶體,可提升推理Decode(解碼)性能,提升訓練性能,提升記憶體容量和頻寬。延伸閱讀:在大模型推理中,Prefill階段負責接收完整輸入資料(如文字或圖像),並計算快取。這一過程需要強大的算力支援,通常由高性能晶片完成。 該階段強調算力而非記憶體頻寬,因此更適合在HBM(高頻寬記憶體)晶片上運行。相比之下,後續的Decode階段更依賴高速記憶體傳輸和互聯方案。HBM(High Bandwidth Memory,高頻寬記憶體)是一種基於3D堆疊技術的先進DRAM解決方案,多層DRAM晶片垂直整合,顯著提升資料傳輸效率。具有超高頻寬與低延遲、高容量密度、高能效比等優勢,能協助快速處理資料密集型的AI任務。美國國際戰略研究中心(CSIS)AI專家艾倫(Gregory Allen)解釋,HBM對於製造先進AI晶片至關重要,價值約佔整體晶片的一半。AI推理需頻繁呼叫海量模型參數(如千億級權重)和即時輸入資料。HBM的高頻寬和大容量允許GPU直接訪問完整模型,可避免傳統DDR記憶體因頻寬不足導致的算力閒置。對於千億參數以上的大模型,HBM可顯著提升響應速度。當下,HBM已成為高端AI晶片的標配,訓練側滲透率接近100%,推理側隨模型複雜化加速普及。 (快科技)
路透社:中國團隊正在大規模維修老舊的AI晶片,用技術修復的方法來緩解晶片斷供的問題
散英魂寄千萬雄鷹翱翔神州,盡智魄載十億慧芯呼喚華夏。01 前沿導讀據路透社新聞報導稱,中國的技術團隊正在針對大規模的老舊輝達晶片進行修理維護工作。現在中國團隊所掌握的這些來自於輝達的H100、A100晶片,都是在美國禁令實施之前改採購的老舊產品,由於美國的對華封鎖,這些老舊晶片失去了輝達官方的技術維護。#輝達深圳地區大約有十幾家小公司針對輝達的ai晶片進行維修服務,其每月的處理數量高達500次以上。這種對老舊產品的技術維修,在一定程度上減輕了中國企業對於先進ai晶片的需求壓力,使其可以繼續採用美國的高算力晶片進行ai訓練。#ai02 產品修復正常投入訓練的GPU晶片,其綜合壽命為2-5年,隨後就需要官方對其進行維護保養。但是中國市場的A100、H100晶片長時間高負荷運行,極大壓縮了壽命時間。Meta公司用1.6萬張H100晶片組成的訓練叢集,曾經在54天內出現了400次的故障,其中大約有58%的故障都是因為硬體問題。在美國頒布了晶片禁令之後,中國市場上面所存在的老舊輝達晶片成為了唯一資源。持續高負荷的工作負載,將會導致晶片出現損耗,例如干導熱膏、風扇問題、PCB 上的元件疲勞以及 SXM 介面中的連接器引腳損壞或氧化。以上只是算力晶片可能出現的情況,實際上還會出現更複雜的問題。例如電子系統故障、大型GPU或HBM封裝下的焊點裂紋,甚至HBM記憶體退化。除了模具開裂、中介層分層等致命的硬體故障無法修復之外,其他的問題均可以通過技術手段進行修復。對於這種外觀破損的產品,輝達官方也是不被列入保修範圍之內的。據網易科技所發佈的新聞報告顯示,一位在深圳從事晶片維修的商家自2024年開始涉足ai晶片的維修之後,門店每天的維修需求龐大,生意火爆。為了應對日益龐大的維修需求,該商家專門成立了一家新公司,專門處理ai晶片的維修訂單,每個月大約要維修500塊以上的輝達晶片。為了驗證其維修的精準程度,商家的維修中心還配備了一個可以容納256台伺服器的機房,以此來對維修之後的ai晶片進行技術驗證。雖然中國企業已經推出了類似作用的ai級晶片產品,但是受制於性能和產能的劣勢,使用輝達晶片來訓練ai依然是目前的主流選擇。03 市場需求2022年,在輝達最新的H100晶片發佈之前,美國政府就宣佈在一段時間後,對中國企業進行產品的禁售。這不但限制了H100晶片的對華出口,而且還將兩年前發佈的A100晶片一併封鎖。按照美國的政策規定,不允許輝達繼續為中國市場上面的受限產品提供售後服務,這也順勢催生出了中國本土的維修產業鏈。前段時間,美國政府允許輝達的H20晶片對中國進行出口。雖然這塊晶片被美國解除了禁令,但是其算力性能較弱,相當於H100晶片20%的性能,是輝達專供於中國市場的特供晶片。美國瑞傑金融集團(Raymond James)的分析師曾指出,輝達H100晶片的每塊售價在2.5萬美元—3萬美元之間,如果因產能受阻或是出口管制引起搶購熱潮,那麼輝達所有算力晶片的售價將會大幅度提升。據財聯社記者通過多方採訪證實,H20系列的價格增速最為明顯。一台內建8塊H20晶片的訓練叢集,其綜合售價已經達到了110萬元,相較於2024年的售價漲幅至少10萬元。這對於許多中國公司來說,相較於購買H20晶片所獲得的技術效率,還不如去採購本土的ai晶片,或者找技術機構去維護老舊的ai產品。輝達算力卡經銷商對財聯社記者表示,對於中國市場來說,H20晶片是主流,其次是A100和H100。由於A100和H100均被美國進行了出口管制,只有H20被允許出口,所以H20的售價被進一步拉高。華為的昇騰晶片雖然在算力性能上面與H20不相上下,但是受限於產能,昇騰晶片還無法完全吃下H20晶片的市場。在中國國產晶片產能受阻、H20晶片有限供應的情況下,催生出維修老款輝達晶片的技術團隊。這些專注於維修算力晶片的團隊,在一定程度上緩解了中國企業對於高算力晶片的需求。 (逍遙漠)
全球封殺昇騰晶片,為什麼美國不願放過華為?
美國全球追殺華為!在最新禁令中,美國一邊禁售輝達H20晶片,另一面在全球範圍內拉黑華為昇騰晶片。為什麼美國這麼害怕華為?華為幾乎做什麼,它就封鎖什麼。當年,華為手機銷量首次超越蘋果,就被美國全球製裁,連孟晚舟都被加拿大扣押了。然後,華為5G麒麟晶片也被封鎖,被逼得退出市場。因光刻機被禁,華為熬了3年之久,才借助中芯國際代工7奈米重返5G。如今,華為昇騰晶片打破了輝達H20一家獨大的局面,又被美國全球追殺了。為什麼美國非要死盯華為不放?根本原因就一個:華為的技術太強了。縱觀全球,還從來沒有那一家公司,像華為這樣,被美國以舉國之力,全球追殺的。而且,還不是一次性的追殺,而是層層圍堵,不斷加碼,全球追殺,誓不罷休。從2019年,華為被踢出美國算起來,這場華為美國之戰,已經打到第六年了。可結果呢?美國是,明知殺不死華為,卻不甘心放棄。華為則是,明知對方絕不會放過自己,但也絕不妥協,力戰到底。但打了六年之後,華為是越打越強了,而美國封鎖則是越鎖,越鎖不住了。為什麼是這樣?一是,中國不認輸。華為能活到現在,它的背後也站著一支強大的國家隊。在華為最危難的時候,深圳國資委出資1000億,買下榮耀,給華為補了一大口血。為了幫助華為突破晶片製造之困,國家成立晶片大基金,全力支援光刻機研發和晶片工藝的突破。深圳國資委還親自下場,成立了「新凱來」等大量半導體裝備企業,專供光刻機、刻蝕機、清洗裝置以及光刻機原料等核心技術突破。美國以舉國之力壓制華為,中國也幾乎是以舉國之力,力挺華為。華為的晶片突圍之戰,成為了中美晶片對決的巔峰之戰。華為被迫站在了美國的砲口下,但也得到了中國的全面後勤支援。這才保住了華為不倒。二是,華為確實屬於技術實力派。一個國家能被美國盯住六年,扛住美國六年的封鎖與打壓,這本身就證明了華為自身擁有強大的韌性。在這六年裡,華為沒有一味地等待光刻機的突破,而是在堅守基本盤的同時,全力開拓汽車業務,形成第二增長曲線。像華為通訊,依然穩居世界第一,5G業務遍佈全球。華為手機則在中芯國際的代工支援下,市佔率逼近20%,打敗蘋果,重返中國第一。而華為汽車就更是成為了中國版的「博世」,華為智駕幾乎拿下了中國全部國有大車企,包括長安、北汽、上汽、一汽、廣汽以及奇瑞等。華為智駕也躋身中國第一梯隊,更是一手帶飛了賽力斯。三是,在晶片領域,華為仍舊取得重大突破。這次被美國全球追殺的華為昇騰晶片,就是國內最先進的AI算力晶片了。雖然它的性能比不上輝達的旗艦H100、H200,但輝達之外,華為已經站穩第二名了。用黃仁勳的話說,輝達的最強對手之一,就是華為。同時呢,華為麒麟晶片也完成了對英特爾晶片的替代。手機、電腦、汽車三大算力平台,華為海思都一手包了。在手機領域,它曾經超越高通、蘋果。在電腦領域,它取代了英特爾。在汽車領域,它則是輝達的第一對手。這種硬核的技術實力,放在全球都是頂尖的存在。而華為取得的這種技術,都還是在美國封鎖之下完成的。這就形成了一個非常規的技術循環:華為越強大,美國就越封鎖,美國越封鎖,華為越強大!現在著急的不是華為,而是美國。因為在中國的晶片工業上,就只剩下最後一塊短板了。一旦光刻機突破,華為就徹底擋不住了。留給美國製裁華為的時間已然不多了。 (牲產隊)
高科技這個賽道,美國靠“下絆子”贏不了
美國商務部日前發佈指南稱,“在全球任何地方使用華為昇騰晶片均違反美國出口管制規定”,後來又將上述措辭調整為“警告業界使用中國先進電腦晶片,包括特定華為昇騰晶片的風險”。但不管怎麼改,說白了,就是明著給中國發展高科技“下絆子”,用的是“莫須有罪名+長臂管轄”的老套路。對此,中國商務部於5月19日和21日先後兩次發聲,斥責美方“手伸得太長,是典型的單邊霸凌行徑”,並表達了中方堅決維護自身正當權益的決心。美方此次政策的實質,是試圖將其國內權力意志強加於全球市場,對中國高性能計算晶片進行全方位圍堵,意在阻斷中國晶片的技術迭代,剝奪其參與全球供應鏈的資格,迫使全球企業繼續依賴美國晶片。最過分的是,華盛頓的“長臂”甚至要干涉中國公司在中國境內使用中國自己生產的晶片,這是對14億多人發展權的極度藐視。科技進步是每個國家增強競爭力、提升國民生活水平的必由之路,不是誰能剝奪的。世界並非專門為美國廚房備菜的“菜園”,國家不分大小強弱,各國人民追求美好生活的權利都應是平等並受到尊重的。絆倒別人就能讓自己永遠領先?答案必然是不能。就在美方“下絆子”的當口,從中國高科技產業傳來兩個好消息。華為正式發佈全新鴻蒙電腦,小米則宣佈開始量產3奈米晶片。業內人士認為,這兩家中國企業宣佈的新突破,正是美國長期佔優勢、同時對我嚴防死守的關鍵領域。中國科技企業正以自力更生的精神和全面迸發的創新活力,努力超越向西方公司繳納高昂“數字稅”的年代。從“兩彈一星”到5G網路的全球領先,從“深度求索”到神舟二十號的成功飛天,中國科技發展的歷程反覆印證:外部封鎖只會激發內生動力,不斷地點燃中國科技發展的鬥志。一個發展中大國科技潛力的爆發,對自工業革命以來保持優勢地位的傳統強權大國造成心理衝擊,是完全可以理解的。然而,若一口咬定中國發展科技是為了“取代美國”,那就是毫無根據的臆測和自尋煩惱,但這恰恰代表了相當一部分華盛頓政客頑固的對華認知,他們還是從中美戰略競爭甚至“科技冷戰”的狹隘視角去看待中國。實際上,中國科技發展服務於國內經濟現代化建設、服務於民生理想的目標非常明確,而中國的科技發展,包括華為的昇騰晶片、小米的晶片研發在內,客觀上為世界提供了更多選擇,加速了人類科技發展的腳步。事實勝於雄辯,中國科技企業專心致志做好自己的事,同時蹚出一條既適合自己、又能惠及更多國家的發展道路。中國的發展從不是為了“扳倒”誰,而是邀請大家一起把蛋糕做大。非洲城市街頭的電動大巴,中東沙漠深處的太陽能電站,東南亞偏遠村莊的衛星訊號……在世界各個角落,隨處可見中國倡導的人類命運共同體理念為全球科技生態注入的澎湃活力。在提供價格更有競爭力的差異化產品的同時,中國也向世界普及了一種全新的發展理念和路徑:即這個世界除了你輸我贏、零和博弈,還有合作共贏、做大做強,正是這條攜手為世界做增量的全球化大道,托舉起中國科技發展的機遇期。正因如此,“下絆子”對付中國科技崛起不可能得逞,因為中國企業的身後是一個高度分工合作的生態圈。在全球半導體產業鏈上,荷蘭的光刻機、日本的半導體材料供應商、美國的晶片製造商,都與中國市場深度繫結。華盛頓在這一各國都高度重視的賽道上“下絆子”,不僅會遭到中國企業的堅決反對,也勢必遭到依賴中國市場和供應鏈的各國企業的反對,其中美國企業顯然也不在少數。而這個貼著保護主義標籤的“絆子”,從長遠看也無助於美國企業競爭力的提高。21世紀是世界多極化和經濟全球化的時代,在時代發展的浪潮上,“誰贏誰輸”早已是短視與過時的思維,“普惠包容”才是實現發展的共贏之道。希望美方立即停止這種違反國際法和國際關係基本準則的錯誤作法,停止用歧視性限制措施對中國科技企業進行遏制打壓。在高科技這個賽道上,不是靠“絆”就能贏的,公平競爭、開放合作、互利共贏才是正確的奔跑方式。 (環球時報)
華為靠什麼突破美國晶片封鎖?
美國為了徹底封鎖中國的AI技術發展,把輝達專門給中國「特供」的性能閹割版晶片H20也給禁了。美國商務部(BIS)還在他們的出口管制規定裡加了這麼三條:不准拿美國晶片來跑中國的AI模型,否則會被警告。要防止從其他地方買美國晶片再轉運到中國。最離譜的一條是:在全世界任何地方都不准用華為的昇騰晶片。咱就是說,美國這手伸得有點長啊!美國最先進的晶片不賣給我們也就算了,還想封殺華為的晶片。後來美國可能是怕華為給昇騰晶片改個名字(比如叫……沈騰晶片?) 來繞開美國的管制規定,所以美國商務部很快又把那條公告改成了:「發佈詳細指南,提醒業界使用中國先進計算晶片(包括華為昇騰晶片)的相關風險」我打開那個指南,發現裡頭目前只有三款華為昇騰晶片,後續可能會根據情況來增加。美國為何這麼針對華為?很可能是因為,華為已經找到了用昇騰晶片替代美國晶片的辦法。前不久,華為雲把384個國產的昇騰AI晶片連接在一起(我畫不了那麼多就畫5個意思一下哈)組成的這個整體取名叫CloudMatrix384超節點。它已經能和輝達用72張最強的GB200晶片相互連接組成的NVL72超節點打得有來有回,很多指標甚至更高。也就是,以後跑大模型,不是非得用輝達的卡,用國產卡也可以。不過也有網友疑惑:咱們靠堆更多的卡才能打贏人家,是不是沒什麼技術含量啊?今天我就給大家通俗解釋一下這其中的門道,以及為什麼華為走的這條大規模堆卡路線更適合中國。先問個問題:兩個晶片一起幹同一個活,一定比一個同樣的晶片更快嗎?未必。因為如果這兩個晶片溝通得很慢,他倆都還在分配任務或者彙總結果,一個晶片早就幹完了。兩個不一定比一個快,甚至十個晶片也未必更快,所以堆晶片能堆出多少實際算力,本身就是一個技術活兒。而現在大模型越來越大,幾千億甚至上兆參數,一個卡肯定裝不下。裝不下怎麼辦呢?大多數情況是用很多張卡通過頻繁通訊形成一個整體,來跑一個大模型。這就會導致:一對一單挑,我可能打不過你。但不好意思,現在是「群毆」的時代,不流行單挑了。晶片能不能「堆」得起來,每一個晶片在叢集裡能實際發揮出百分之幾的算力,關鍵就要看晶片之間的通訊速度。那晶片之間的通訊速度,往往是被什麼東西卡著呢?電腦裡的各種硬體,大多數時候靠一個叫PCIe的東西互聯,它就相當於電腦裡的普通公路。這條路平時非常夠用,但是當幾個GPU(或者AI晶片)想連在一起幹同一個活,要非常頻繁地互傳輸資料,PCIe的頻寬就不夠用了。而且PCIe是「主從架構」,也就是CPU像主人,其他裝置像隨從,隨從之間要相互通訊,必須經過主人同意和安排——這當然也會拖慢速度。所以為了防止拖慢速度,輝達在2014年就搗鼓出一個GPU之間專用的互聯通道,叫NVLink。並以NVLink為基礎做出了NVSwitch,可以讓更多GPU互聯。傳輸速度比PCIe要快十幾二十倍,而且是對等互聯,也就是GPU之間互聯不需要經過CPU同意和安排。這也是為什麼,即使輝達給中國特供的閹割版H20晶片,性能只有美國企業能直接買到的H100的三分之一,國內企業還是搶著買。因為可以用NVSwitch高速互聯,讓堆卡得到的算力收益更高。不過NVLink也有兩個小問題。一是只有輝達的GPU之間可以用NVLink,GPU跟別的東西互聯還是得走PCIe,而GPU幹活又經常需要CPU參與,免不了還是要走PCIe,拖慢整體速度。二是NVLink有傳輸距離的限制。互聯的GPU如果在同一塊電路板上,走的是板上的線,如果是不同的電路板,通常用銅纜來連接。在高速傳輸的情況下,超過一米訊號就急劇衰減。就像藍牙耳機離遠了就會卡頓斷連——它本來就是為短距離傳輸而設計的。所以輝達要堆GPU,只能儘可能壓縮到小的空間裡。比如像這樣,72個最強的GB200晶片擠到這麼一個機櫃裡,用NVLink互聯,當成一個整體來用。這就是現階段輝達能交出來的最佳答卷。由於這玩意兒性能比一般的伺服器厲害太多,所以它叫「超節點」。不是不想堆更多,而是目前的水平只能堆這麼多。超過72個晶片,比如兩個超節點要互聯,通常只能走遠距離傳輸網路比如像InfiniBand、高速乙太網路之類的,速度要比NVLink慢10倍。那華為是怎麼做的呢?先交代一下背景啊,2019年美國開始制裁華為,當時美國企業主導的PCIe標準組織(PCI-SIG)立馬就把華為的會員資格給取消了。不讓用PCIe的話會很麻煩,華為被逼無奈,只能自己做一套通訊方案來連接各種晶片和裝置。不過也正因為是一套全新的通訊方案,沒有歷史包袱,反而讓華為可以放開手腳去發揮自己最大的優勢。什麼優勢呢?光通訊技術。華為用類似這樣的光模組接到晶片上。它能把晶片產生的電訊號翻譯成光訊號,再用光纖來傳輸,從而實現晶片之間的光通訊。通過多路平行,頻寬可以累加到每秒幾百GB,比NVLink都快。而且GPU、CPU、NPU各種晶片都能互聯,在架構上大家也是完全對等,不像PCIe需要以CPU為主。但最關鍵的是,還不受距離限制。在一個機箱裡可以用。機櫃之間可以用。甚至跨機房也可以用。所以能連接更多晶片形成一個更大規模的超節點,在整體上實現超越。這樣一個用3166根光纖、6912個光模組來連接384個昇騰晶片,得到的CloudMatrix384超節點,就是目前華為雲交出來的答卷。根據專業分析機構SemiAnalysis的報告,華為的超節點,計算能力是輝達超節點的兩倍。以多打少的策略,讓華為和中國現在擁有了超越輝達的AI系統能力。而且384張卡的規模,讓CloudMatrix384擁有了一些獨特的優勢。比如天然就很適合跑像DeepSeek這樣的MoE(多專家)模型。道理很簡單,DeepSeek V3和R1模型是由256個專家模型構成的。如果跑在72張卡組成的超節點裡,一張卡肯定要擠好幾個專家模型,相互搶資源。要麼就用好幾個72張卡的超節點,但這樣又會帶來通訊延遲。而跑在384張卡的超節點裡,一張卡跑一個專家,更簡單高效。唉~誰能想到,當年被美國逼得沒辦法才自研的傳輸方案,反而成了華為雲在AI時代最有力的回擊。欸?那為何輝達不用光模組來堆更多的晶片呢?你以為我不上清華,是因為我不想嗎?其實在2022年,輝達就打算用光通訊來連接256個H100晶片。但後來還是放棄了,明面上說是因為光模組太貴,功耗又太大。但其實更重要的原因是:光通訊是一匹烈馬,很難駕馭。光通訊更容易故障,像什麼插口沒插緊、光纖彎得有點狠或者插頭粘了點灰,各種情況都可能影響通訊。相比之下,銅纜簡直跟牛一樣脾氣好又皮實耐造。輝達想用光通訊,就得跟別的公司採購光模組光纖這些,本來就容易壞,還沒法自己把控質量,後期維護也難。所以輝達最終決定退而求其次,繼續用銅纜。而華為表示:光通訊,這個我可太熟了!華為本來就是做通訊出身,九十年代就在做網路交換機,2000年前後華為的光通訊技術就已經做到國際領先。如果把華為做過的光通訊總距離連起來,估計都能繞地球十幾圈了,這得積累多少經驗和技術呢。我隨便舉幾個例子啊。比如在光通訊發生故障之前,光模組經常會處於一個亞健康狀態。華為雲可以用AI演算法,根據光模組的收發功率、電流、電壓、溫度來判斷出光模組是不是處在亞健康狀態,在故障之前就主動更換。光通訊的某個通道故障發生以後,會自動用通道抗損技術來降低損失。就好比一條車道出故障,通常情況下,整條路都可能會堵車癱瘓。但華為雲可以臨時封閉這條道,同時協調其他車道降速,讓整體繼續保持通暢,讓模型訓練不中斷。根據華為官方的說法,通過抗損技術可以大幅降低光模組的失效率,模型訓練穩定40天以上不中斷。另外故障發生以後,會通過動態的壓測技術來快速定位是那個節點跑得比較慢。再通過內建的一萬種故障模式庫來快速識別到底出了什麼問題,觸發對應的自癒策略,做到分鐘級自動恢復。這樣的例子還有很多,都是靠工程實踐和踩坑積累出來的。所以光通訊,尤其是所有晶片之間都用光通訊的方案,對輝達是一匹烈馬,但對於華為來說就剛剛好,過去積累的經驗和能力正好用上。至於光模組功耗大的問題,中國是全球最大的能源生產國,也是最大的清潔能源生產國,稍微多用點電,也比發展個AI技術還得看美國臉色要強吧?所以回過頭來你就會發現,輝達靠的是更強的單卡,把算力儘量壓縮到更小的空間裡,而華為靠的是更強的通訊,把卡的數量規模堆得更大。這兩條路線,我覺得跟中美兩國的產業土壤差異有關。輝達超強的單卡能力,最早是被美國的3D遊戲和圖像計算產業給捲出來的。而華為的通訊能力,是中國超高的光纖到戶普及率給捲出來的。咱們國家從1991年就開始大力發展光纖通訊(長途通訊不再用電纜,都走光纖)現在中國光纖到戶的普及率達到90%,而美國只有30%。歷史發展軌跡決定了我們比對手更擅長什麼,所以完全不必按照別人的節奏。走自己的路,同樣可以到達山頂。 (通俗解釋)