黃仁勳“人肉快遞”,掀起900億美元算力爭奪戰


全球首台,黃仁勳親自送貨上門,OpenAI首發,DGX H200算是把流量拉滿了。

DGX H200在發布大概半年後出貨交付客戶,按級別算屬於現役“AI算力核彈”,更先進的GB200系列畢竟還沒有量產服役。

身為山姆·奧特曼的親密戰友,在去年的「宮鬥事件」中一同被趕出公司的格雷格·布羅克曼興奮的在推特上官宣了這一消息。在格雷格·布羅克曼炫耀式的推文中,還特意引用了黃仁勳在這台設備上的寄語簽名——“為了推動AI、計算與人類的發展。”


山姆·奧特曼、黃仁勳與格雷格·布羅克曼與DGX-GH200伺服器合影

2016年,彼時黃仁勳在馬斯克等人的見證下,也曾為OpenAI捐贈了全球首台DGX-1伺服器。請注意,當時是贈送的。黃仁勳寫道,“致埃隆和OpenAI團隊,為了計算和人類的未來,我向你們贈送世界上第一台DGX-1。”

兩次題詞,都強調“為了計算和人類的未來”,或多或少能說明:矽谷大佬們眼中“規模法則”是帶領人類通往AGI時代的大門;黃仁勳和輝達,掌握著打開這扇大門的鑰匙。

一直以來,OpenAI信奉的就是這種“大力出奇蹟”的邏輯,山姆·奧特曼頻繁對外吹風“我們需要更多的GPU”、“世界需要更多的人工智能計算”,甚至被傳出“ 7兆美元投資AI晶片製造」的訊息。

我們的問題是,矽谷巨頭們的算力儲備情況如何,輝達能否緩解AI佈道者們的算力焦慮症,而誰又會成為輝達供應算力子彈的掣肘,回答這些問題,可以從H200的「戰鬥力」開始。

H200迎戰MI300X、Gaudi3

H200其實去年下半年就已經發布,分HGX和DGX兩個版本。 HGX可以理解為計算模組,包含4 GPU、8 GPU兩個版本,而DGX版本可以理解為AI超算伺服器,不僅搭載了GPU模組,還配置有作業系統和處理器。

大家都說DGX H200交付,更準確的說法應該是DGX GH200,這裡的“G”,對應的就是輝達的Grace處理器。

單純的看硬件,H200和上一代產品H100採用相同的Hooper架構,浮點運算性能基本沒有提升(如下表),改進在於H200全球首發了HBM3e內存(去年8月給客戶送樣,今年3月開始量產),顯存達到了141GB,顯存頻寬達到4.8TB/s。


*BlackWell與Hopper架構基礎硬體規格對比,資料來源:Semianalysis

由於浮點運算性能沒有提升,整體配置沒有大改,H200也被外界解讀為半代升級,但價格基本上不變,好歹算是個加量不加價,未來H100即將退役,相關市場則交棒給H200了。

依輝達官方的說法,H200運行70B參數的Llama 2和175B參數的GPT-3,推理性能分別提升1.9倍和1.6倍。

作為明星產品,H100一直被用來作為業界對標的對象,AMD在發布MI300X時對外強調,70B參數的Llama 2推理性能是H100的1.4倍,英特爾在Gaudi3上給出的數據則是1.5倍。

把幾款產品放在一起對比,H200、Gaudi 3和MI300X,70B參數的Llama 2模型,推理表現分別是H100的1.9倍、1.5倍和1.4倍。



*Intel和AMD官方提供的Gaudi 3、MI300X 70B參數Llama 2推理性能

基於顯存、頻寬的提升,依舊能讓輝達在特定參數模型的推理上,佔據領先地位。更重要的是,黃仁勳手中還有未上市的「核彈級產品」GB200,以及未公佈的B100。

基於紙面參數看,輝達目前還領先競爭對手一個代差,但紙面參數的追趕並不難。

作為挑戰者,AMD和英特爾也需要提供讓開發者從輝達的CUDA生態走出去的吸引力,這種生態建設則是長期的追趕過程。芯事重重資深顧問,亞洲視覺科技研發總監陳經在GTC大會解讀直播中將CUDA類比成PC互聯網時代的Windows,“開發者則需要在Windows給定的框架裡使用PC。”

「CUDA不是孤立軟體,它需要眾多配套系統,包括硬體層、驅動、GPU叢集、底層函式庫、Pytorch等上層函式庫、編譯器,跟著CUDA的套路走會很方便,一旦偏離套路就遇到知識盲區,懂怎麼調整的人極為稀缺。被弄崩潰,適配的時間耗不起。

除了生態,另一個增加吸引力的槓桿是價格,追趕者需要藉助更高的性價比,來涵蓋開發者們的遷移成本。

當然,挖牆角並不是一件容易的事情,輝達在商業策略上也有明確的反競爭機制,Semianalysis曾在研究報告中援引供應鏈人士的爆料,稱輝達正在基於多重因素,對客戶進行不同優先級的產能分配。影響因素包括但不限於:有多方採購的情況,自研AI晶片,捆綁採購輝達其他產品。

在這種情況下,下場自研都會面臨訂單交付優先順序下調的風險,更不用說在輝達、AMD和Intel之間「騎牆」。

當然,這些都是對於存量用戶的爭搶。在增量用戶面前,性價比就是Intel、AMD這些追趕者的強力武器,這個策略在英特爾身上表現的最為明顯——今年的Intel Vision大會上,英特爾就秀了一波合作夥伴陣容,其中包括博世、Naver 、SAP、Ola等等。

矽谷公司搶算力“上頭”

算力是矽谷巨頭們在AI時代的硬通貨,但他們手上到底屯了多少顯示卡,建構了什麼規模的算力?

研究機構Omdia的數據顯示,截至2023年第三季度,輝達H100出貨量達到65萬張,其中Meta和微軟分別拿下15萬張,接近全部訂單的一半。若以單卡價格24000美元計算,截至2023年第三季度,65萬張H100總計為輝達貢獻156億美元營收。


截至2023年Q3,H100的出貨量及主要科技公司儲備狀況,資料來源:Omdia


另外,Omdia數據也顯示,光是第三季度,輝達的H100出貨量就達到50萬台,價值120億美元。也就是說,矽谷巨頭們的訂單在第三季得到了集中交付。交付量的成長與CoWoS封裝產能拉升呈正相關。公開數據顯示,台積電於去年4月、6月和10月,先後進行了多輪CoWoS設備加單,也對InFO封裝線改機以增加CoWoS產能。

要注意,Omdia的資料只統計到第三季度,且不包含OpenAI,所以只做參考。事實上,各家H100的囤貨都在不斷上漲,矽谷巨頭們對算力的需求並不是虛張聲勢,而是用真金白銀兌現。

日前,馬斯克在特斯拉電話會議上確認公司已儲備3.5萬​​張H100。對照上面的圖表,這意味著特斯拉過去兩季新儲備2萬張H100。馬斯克在電話會議上也表示,2024年年底,總計儲備量將達到8.5萬張。祖克柏更早前宣布計畫到2024年底,將H100的儲備量提升到35萬張,微軟則提出了更宏大的目標,到年底GPU儲備量翻一倍,達到180萬張,實際是在暗示目前已經屯了90萬張(感慨一下納德拉的鈔能力)。

買卡其實很好理解,但前有發表間隔大半年的H200,後有性能更出眾的B200,矽谷巨頭們該怎麼選?

有報告指出微軟將放棄採購H100,計畫搶奪50%的GB200訂單,可是問題在於,「算力核彈」B200現階段仍屬於「期貨」。依照H200的交付節奏預估,包含台積電的邏輯晶片的生產及封裝,富士康和緯創的代工以及最終進入渠道,B200系列向客戶發貨最快也要到今年四季度。

黃仁勳給OpenAI交付全球第一台DGX GH200,其目的也是在向市場表態,H200系列已具備量產交付能力,如果大家想要進入AGI時代,“鑰匙”就擺在這裡,而微軟喊“卡” ,就意味著將算力拱手讓人。

爭搶算力在人類史上可能會是長期現象,只是大家都在喊著缺顯卡,缺算力,誰才是真正缺的那一位?

傅盛在騰訊科技的對話中提到谷歌的案例,他說「如果一個谷歌研究員跟老闆說訓練一次2000萬美金,老闆問能不能做成?你說不知道,肯定就很難申請到資源。

也就是說,對於一家商業化公司,當你的目標或收益不夠明確時,想燒錢堆算力做大模型是一件很困難的時間,畢竟所有的資本支出要對股東、投資人負責,微軟和Meta瘋狂砸錢買卡,就是因為商業回報已經有若隱若現的意思。

祖克柏在2024財年一季度電話會議上說,“生成式AI可能要投資數年,才能實現有效盈利”,看起來是給投資者打預防針,但Meta的信息流、廣告推薦系統都已經清楚的看到投資回報。祖克柏說,臉書30%的貼文來自AI推薦系統,Instagram更是達到了50%,而且兩個端到端人工智慧工具Advantage+購物和Advantage+應用程式帶來的營收已經翻倍成長。

微軟的邏輯也差不多,剛公佈的2024年第三財季業績全面超預期,AI推動Azure雲端營收加速成長了31%,貢獻的雲端營收增幅提升至7個百分點,包含Copilot AI助理的Office商業收入增長15%。

如果真的說巨頭們信奉“規模法則”,強調“大力出奇蹟”,至少微軟、Meta們還可以再加一個“不見兔子不撒鷹”的標籤。


全球科技公司自研晶片佈局,來源:摩根史坦利

當然,儲備算力,買或說搶是一條路徑,自研則是另一條路徑,這可能會帶來數十億的採購和能耗成本的縮減。

不過,自研前期資本支出龐大,從投入到性能符合預期的產出兌現也需要時間,基本上科技公司都在採用自研+採購兩條腿走路的策略。

大摩先前提供了一份研究報告,資料顯示絕大部分科技公司在自研晶片上都有佈局(如上圖),包括谷歌的TPU,meta的MTIA,也包括國內大廠的相關項目。

長期看,自研確實可以消除算力焦慮,大摩對自研的總結是「單美元效率」更高,尤其是不追求最尖端工藝產品的情況下,「單美元效率」會更明顯。 Semiannaly的「總擁有成本」也值得參考,該機構在研究報告中以GB200為例,強調儘管Blackwell系列提供了更多浮點運算性能,但考慮到矽面積的增加,單位面積的性能並沒有顯著提升,而且隨著功率的提升,每瓦性能的提升幅度也會逐步下降。

還有一個終極問題,錢和卡片都有了,電怎麼辦?

AI新創公司OpenPipe聯合創始人、CEO 凱爾·科比特援引一位微軟的工程師的觀點稱,「如果在一個州放置超過10萬張H100 GPU,電網就會崩潰。」那麼,卡不夠可以自研,電力不夠,矽谷巨頭們又要下場佈局電力基礎設施?

「卡黃仁勳脖子」的兩隻手

矽谷巨頭缺卡又缺電,輝達則缺乏CoWoS產能和HBM記憶體。

CoWoS稱為2.5D封裝,簡單說就是將邏輯晶片、HBM內存通過矽中介層,再透過矽通孔技術,最後連接至PCB基板上,其英文全稱也就是Chip on Wafer on Substrate。

今年GTC,黃仁勳在面對全球媒體的採訪時,被問及CoWoS需求是去年三倍是否屬實時幽了一默,反問記者“你想要確切的數據,這很有趣。”

關於輝達CoWoS需求的具體情況,黃仁勳不給小抄,就只能參考外界資料。

Digitimes引用設備廠的數據,表示台積電2023年全年CoWoS總產能逾12萬片,2024年將衝上24萬,輝達將取得14.4萬-15萬片,佔台積電總產能約60%左右。從Semianalysis追蹤的數據來看(如下圖),2023年Q3輝達的佔比大致在40-50%的區間。

另外,隨著台積電擴產及其他客戶需求成長,輝達的CoWoS需求佔比也會被稀釋,去年11月份,台積電電話會議上確認輝達佔台積電CoWoS總產能的40%,基本和Semianalysis數據吻合。


*Semianalysis提供的CoWoS產能分佈情形追蹤與預測

而按月拆分,Digitimes也預測,台積電的今年一季度CoWoS產能將爬升到17000片/月,到年底有機會爬升到26000片-28000片/月。

依照CoWoS月產能17000片的數據來計算,如果輝達可以拿到其中40%,即6800片,而一片12英寸的晶圓,大致可以切30張左右的H200,即台積電單月可完成20.4萬張H200的封裝。到年底,依照台積電26000片/月的CoWoS產能,輝達如果還是佔40%,即10400片/月,單月可以完成31.2萬張H200的封裝。

也就是說,輝達在台積電的助攻下,H200 GPU全年的封裝產能,下限可能是244萬張,上限有可能突破374萬張,按照24000美元的單價,價值在580億美元-890億美元之間。

雖然和台積電長期交好,但似乎黃仁勳並不滿足於當前的產能,也有消息說輝達將在第二季度向英特爾開出先進封裝訂單,預計月產能大概5000片左右,即單月封裝15萬張H200 。

輝達苦CoWoS產能久矣,同樣苦HBM產能久矣。以H100、H200都是標配了6顆HBM內存,而GB200更是搭配了8顆HBM3e內存,HBM內存不夠用了怎麼辦?

目前,HBM記憶體主要供應商有SK海力士、三星與美光,和先進封裝一樣,HBM廠商也在瘋狂擴產。

外媒引用韓國券商Kiwoom Securities的數據,稱三星電子的HBM內存月產能,預計將從2023年第二季的2.5萬片晶圓增加到2025年第四季的15-17萬片;同期,SK海力士的月產能預計將從3.5萬片爬升到12-14萬片,以此估算,2024年全球HBM總產能700-75萬片左右。

以12層堆疊的HBM3e為例,以90%的良率,每片晶圓可切750顆HBM,依照前面估算的70-75萬片年產能,預計全球2024年總計產出5200-5600萬顆HBM3e記憶體。而如果以前面的H200產能計算,每張GPU搭配6顆HBM內存,僅輝達一家,對HBM內存的年需求總量大致在1460萬-2240萬顆區間。

如果SK海力士、三星和美光的HBM內存擴產順利,輝達懸著的心基本上可以放下一半的,另一半也要看AMD、英特爾以及自研的企業如何來搶產能了。

畢竟,也不能在下場自研AI晶片,蓋晶圓代工廠,建造發電站這些想法出現之後,再給矽谷巨頭們安排新任務──下場蓋內存廠。 (騰訊科技)