華為靠什麼突破美國晶片封鎖?

美國為了徹底封鎖中國的AI技術發展,把輝達專門給中國「特供」的性能閹割版晶片H20也給禁了。

美國商務部(BIS)還在他們的出口管制規定裡加了這麼三條:

不准拿美國晶片來跑中國的AI模型,否則會被警告。

要防止從其他地方買美國晶片再轉運到中國。

最離譜的一條是:在全世界任何地方都不准用華為的昇騰晶片。

咱就是說,美國這手伸得有點長啊!

美國最先進的晶片不賣給我們也就算了,還想封殺華為的晶片。

後來美國可能是怕華為給昇騰晶片改個名字(比如叫……沈騰晶片?) 來繞開美國的管制規定,所以美國商務部很快又把那條公告改成了:

「發佈詳細指南,提醒業界使用中國先進計算晶片(包括華為昇騰晶片)的相關風險」

我打開那個指南,發現裡頭目前只有三款華為昇騰晶片,後續可能會根據情況來增加。

美國為何這麼針對華為?

很可能是因為,華為已經找到了用昇騰晶片替代美國晶片的辦法

前不久,華為雲把384個國產的昇騰AI晶片連接在一起(我畫不了那麼多就畫5個意思一下哈)

組成的這個整體取名叫CloudMatrix384超節點

它已經能和輝達用72張最強的GB200晶片相互連接組成的NVL72超節點打得有來有回,很多指標甚至更高。

也就是,以後跑大模型,不是非得用輝達的卡,用國產卡也可以。

不過也有網友疑惑:咱們靠堆更多的卡才能打贏人家,是不是沒什麼技術含量啊?

今天我就給大家通俗解釋一下這其中的門道,以及為什麼華為走的這條大規模堆卡路線更適合中國。

先問個問題:兩個晶片一起幹同一個活,一定比一個同樣的晶片更快嗎?

未必。

因為如果這兩個晶片溝通得很慢,他倆都還在分配任務或者彙總結果,一個晶片早就幹完了。

兩個不一定比一個快,甚至十個晶片也未必更快,所以堆晶片能堆出多少實際算力,本身就是一個技術活兒。

而現在大模型越來越大,幾千億甚至上兆參數,一個卡肯定裝不下。

裝不下怎麼辦呢?大多數情況是用很多張卡通過頻繁通訊形成一個整體,來跑一個大模型。

這就會導致:

一對一單挑,我可能打不過你。

但不好意思,現在是「群毆」的時代,不流行單挑了。

晶片能不能「堆」得起來,每一個晶片在叢集裡能實際發揮出百分之幾的算力,關鍵就要看晶片之間的通訊速度。

那晶片之間的通訊速度,往往是被什麼東西卡著呢?

電腦裡的各種硬體,大多數時候靠一個叫PCIe的東西互聯,它就相當於電腦裡的普通公路。

這條路平時非常夠用,但是當幾個GPU(或者AI晶片)想連在一起幹同一個活,要非常頻繁地互傳輸資料,PCIe的頻寬就不夠用了。

而且PCIe是「主從架構」,也就是CPU像主人,其他裝置像隨從,隨從之間要相互通訊,必須經過主人同意和安排——這當然也會拖慢速度。

所以為了防止拖慢速度,輝達在2014年就搗鼓出一個GPU之間專用的互聯通道,叫NVLink。

並以NVLink為基礎做出了NVSwitch,可以讓更多GPU互聯。

傳輸速度比PCIe要快十幾二十倍,而且是對等互聯,也就是GPU之間互聯不需要經過CPU同意和安排。

這也是為什麼,即使輝達給中國特供的閹割版H20晶片,性能只有美國企業能直接買到的H100的三分之一,國內企業還是搶著買。

因為可以用NVSwitch高速互聯,讓堆卡得到的算力收益更高。

不過NVLink也有兩個小問題。

一是只有輝達的GPU之間可以用NVLink,GPU跟別的東西互聯還是得走PCIe,而GPU幹活又經常需要CPU參與,免不了還是要走PCIe,拖慢整體速度。

二是NVLink有傳輸距離的限制。

互聯的GPU如果在同一塊電路板上,走的是板上的線,如果是不同的電路板,通常用銅纜來連接。

在高速傳輸的情況下,超過一米訊號就急劇衰減。就像藍牙耳機離遠了就會卡頓斷連——它本來就是為短距離傳輸而設計的。

所以輝達要堆GPU,只能儘可能壓縮到小的空間裡。

比如像這樣,72個最強的GB200晶片擠到這麼一個機櫃裡,用NVLink互聯,當成一個整體來用。

這就是現階段輝達能交出來的最佳答卷。

由於這玩意兒性能比一般的伺服器厲害太多,所以它叫「超節點」。

不是不想堆更多,而是目前的水平只能堆這麼多。

超過72個晶片,比如兩個超節點要互聯,通常只能走遠距離傳輸網路比如像InfiniBand、高速乙太網路之類的,速度要比NVLink慢10倍。

那華為是怎麼做的呢?

先交代一下背景啊,2019年美國開始制裁華為,當時美國企業主導的PCIe標準組織(PCI-SIG)立馬就把華為的會員資格給取消了。

不讓用PCIe的話會很麻煩,華為被逼無奈,只能自己做一套通訊方案來連接各種晶片和裝置。

不過也正因為是一套全新的通訊方案,沒有歷史包袱,反而讓華為可以放開手腳去發揮自己最大的優勢。

什麼優勢呢?光通訊技術。

華為用類似這樣的光模組接到晶片上。

它能把晶片產生的電訊號翻譯成光訊號,再用光纖來傳輸,從而實現晶片之間的光通訊。

通過多路平行,頻寬可以累加到每秒幾百GB,比NVLink都快。

而且GPU、CPU、NPU各種晶片都能互聯,在架構上大家也是完全對等,不像PCIe需要以CPU為主。

但最關鍵的是,還不受距離限制。

在一個機箱裡可以用。

機櫃之間可以用。

甚至跨機房也可以用。

所以能連接更多晶片形成一個更大規模的超節點,在整體上實現超越。

這樣一個用3166根光纖、6912個光模組來連接384個昇騰晶片,得到的CloudMatrix384超節點,就是目前華為雲交出來的答卷。


根據專業分析機構SemiAnalysis的報告,華為的超節點,計算能力是輝達超節點的兩倍。

以多打少的策略,讓華為和中國現在擁有了超越輝達的AI系統能力。

而且384張卡的規模,讓CloudMatrix384擁有了一些獨特的優勢。比如天然就很適合跑像DeepSeek這樣的MoE(多專家)模型。

道理很簡單,DeepSeek V3和R1模型是由256個專家模型構成的。

如果跑在72張卡組成的超節點裡,一張卡肯定要擠好幾個專家模型,相互搶資源。

要麼就用好幾個72張卡的超節點,但這樣又會帶來通訊延遲。

而跑在384張卡的超節點裡,一張卡跑一個專家,更簡單高效。

唉~誰能想到,當年被美國逼得沒辦法才自研的傳輸方案,反而成了華為雲在AI時代最有力的回擊。

欸?那為何輝達不用光模組來堆更多的晶片呢?

你以為我不上清華,是因為我不想嗎?

其實在2022年,輝達就打算用光通訊來連接256個H100晶片。

但後來還是放棄了,明面上說是因為光模組太貴,功耗又太大。

但其實更重要的原因是:光通訊是一匹烈馬,很難駕馭。

光通訊更容易故障,像什麼插口沒插緊、光纖彎得有點狠或者插頭粘了點灰,各種情況都可能影響通訊。

相比之下,銅纜簡直跟牛一樣脾氣好又皮實耐造。

輝達想用光通訊,就得跟別的公司採購光模組光纖這些,本來就容易壞,還沒法自己把控質量,後期維護也難。

所以輝達最終決定退而求其次,繼續用銅纜。

而華為表示:光通訊,這個我可太熟了!

華為本來就是做通訊出身,九十年代就在做網路交換機,2000年前後華為的光通訊技術就已經做到國際領先。

如果把華為做過的光通訊總距離連起來,估計都能繞地球十幾圈了,這得積累多少經驗和技術呢。

我隨便舉幾個例子啊。

比如在光通訊發生故障之前,光模組經常會處於一個亞健康狀態。

華為雲可以用AI演算法,根據光模組的收發功率、電流、電壓、溫度來判斷出光模組是不是處在亞健康狀態,在故障之前就主動更換。

光通訊的某個通道故障發生以後,會自動用通道抗損技術來降低損失。

就好比一條車道出故障,通常情況下,整條路都可能會堵車癱瘓。

但華為雲可以臨時封閉這條道,同時協調其他車道降速,讓整體繼續保持通暢,讓模型訓練不中斷。

根據華為官方的說法,通過抗損技術可以大幅降低光模組的失效率,模型訓練穩定40天以上不中斷。

另外故障發生以後,會通過動態的壓測技術來快速定位是那個節點跑得比較慢。

再通過內建的一萬種故障模式庫來快速識別到底出了什麼問題,觸發對應的自癒策略,做到分鐘級自動恢復

這樣的例子還有很多,都是靠工程實踐和踩坑積累出來的。

所以光通訊,尤其是所有晶片之間都用光通訊的方案,對輝達是一匹烈馬,但對於華為來說就剛剛好,過去積累的經驗和能力正好用上。

至於光模組功耗大的問題,中國是全球最大的能源生產國,也是最大的清潔能源生產國,稍微多用點電,也比發展個AI技術還得看美國臉色要強吧?


所以回過頭來你就會發現,輝達靠的是更強的單卡,把算力儘量壓縮到更小的空間裡,而華為靠的是更強的通訊,把卡的數量規模堆得更大。


這兩條路線,我覺得跟中美兩國的產業土壤差異有關。

輝達超強的單卡能力,最早是被美國的3D遊戲和圖像計算產業給捲出來的。

而華為的通訊能力,是中國超高的光纖到戶普及率給捲出來的。

咱們國家從1991年就開始大力發展光纖通訊(長途通訊不再用電纜,都走光纖)

現在中國光纖到戶的普及率達到90%,而美國只有30%。

歷史發展軌跡決定了我們比對手更擅長什麼,所以完全不必按照別人的節奏。走自己的路,同樣可以到達山頂。 (通俗解釋)