黃仁勳“人肉快遞”，掀起900億美元算力爭奪戰

2024/05/01

•

全球首台，黃仁勳親自送貨上門，OpenAI首發，DGX H200算是把流量拉滿了。

DGX H200在發布大概半年後出貨交付客戶，按級別算屬於現役“AI算力核彈”，更先進的GB200系列畢竟還沒有量產服役。

身為山姆·奧特曼的親密戰友，在去年的「宮鬥事件」中一同被趕出公司的格雷格·布羅克曼興奮的在推特上官宣了這一消息。在格雷格·布羅克曼炫耀式的推文中，還特意引用了黃仁勳在這台設備上的寄語簽名——“為了推動AI、計算與人類的發展。”

2016年，彼時黃仁勳在馬斯克等人的見證下，也曾為OpenAI捐贈了全球首台DGX-1伺服器。請注意，當時是贈送的。黃仁勳寫道，“致埃隆和OpenAI團隊，為了計算和人類的未來，我向你們贈送世界上第一台DGX-1。”

兩次題詞，都強調“為了計算和人類的未來”，或多或少能說明：矽谷大佬們眼中“規模法則”是帶領人類通往AGI時代的大門；黃仁勳和輝達，掌握著打開這扇大門的鑰匙。

一直以來，OpenAI信奉的就是這種“大力出奇蹟”的邏輯，山姆·奧特曼頻繁對外吹風“我們需要更多的GPU”、“世界需要更多的人工智能計算”，甚至被傳出“ 7兆美元投資AI晶片製造」的訊息。

我們的問題是，矽谷巨頭們的算力儲備情況如何，輝達能否緩解AI佈道者們的算力焦慮症，而誰又會成為輝達供應算力子彈的掣肘，回答這些問題，可以從H200的「戰鬥力」開始。

H200迎戰MI300X、Gaudi3

H200其實去年下半年就已經發布，分HGX和DGX兩個版本。 HGX可以理解為計算模組，包含4 GPU、8 GPU兩個版本，而DGX版本可以理解為AI超算伺服器，不僅搭載了GPU模組，還配置有作業系統和處理器。

大家都說DGX H200交付，更準確的說法應該是DGX GH200，這裡的“G”，對應的就是輝達的Grace處理器。

單純的看硬件，H200和上一代產品H100採用相同的Hooper架構，浮點運算性能基本沒有提升（如下表），改進在於H200全球首發了HBM3e內存（去年8月給客戶送樣，今年3月開始量產），顯存達到了141GB，顯存頻寬達到4.8TB/s。

*BlackWell與Hopper架構基礎硬體規格對比，資料來源：Semianalysis

由於浮點運算性能沒有提升，整體配置沒有大改，H200也被外界解讀為半代升級，但價格基本上不變，好歹算是個加量不加價，未來H100即將退役，相關市場則交棒給H200了。

依輝達官方的說法，H200運行70B參數的Llama 2和175B參數的GPT-3，推理性能分別提升1.9倍和1.6倍。

作為明星產品，H100一直被用來作為業界對標的對象，AMD在發布MI300X時對外強調，70B參數的Llama 2推理性能是H100的1.4倍，英特爾在Gaudi3上給出的數據則是1.5倍。

把幾款產品放在一起對比，H200、Gaudi 3和MI300X，70B參數的Llama 2模型，推理表現分別是H100的1.9倍、1.5倍和1.4倍。

*Intel和AMD官方提供的Gaudi 3、MI300X 70B參數Llama 2推理性能

基於顯存、頻寬的提升，依舊能讓輝達在特定參數模型的推理上，佔據領先地位。更重要的是，黃仁勳手中還有未上市的「核彈級產品」GB200，以及未公佈的B100。

基於紙面參數看，輝達目前還領先競爭對手一個代差，但紙面參數的追趕並不難。

作為挑戰者，AMD和英特爾也需要提供讓開發者從輝達的CUDA生態走出去的吸引力，這種生態建設則是長期的追趕過程。芯事重重資深顧問，亞洲視覺科技研發總監陳經在GTC大會解讀直播中將CUDA類比成PC互聯網時代的Windows，“開發者則需要在Windows給定的框架裡使用PC。”

「CUDA不是孤立軟體，它需要眾多配套系統，包括硬體層、驅動、GPU叢集、底層函式庫、Pytorch等上層函式庫、編譯器，跟著CUDA的套路走會很方便，一旦偏離套路就遇到知識盲區，懂怎麼調整的人極為稀缺。被弄崩潰，適配的時間耗不起。

除了生態，另一個增加吸引力的槓桿是價格，追趕者需要藉助更高的性價比，來涵蓋開發者們的遷移成本。

當然，挖牆角並不是一件容易的事情，輝達在商業策略上也有明確的反競爭機制，Semianalysis曾在研究報告中援引供應鏈人士的爆料，稱輝達正在基於多重因素，對客戶進行不同優先級的產能分配。影響因素包括但不限於：有多方採購的情況，自研AI晶片，捆綁採購輝達其他產品。

在這種情況下，下場自研都會面臨訂單交付優先順序下調的風險，更不用說在輝達、AMD和Intel之間「騎牆」。

當然，這些都是對於存量用戶的爭搶。在增量用戶面前，性價比就是Intel、AMD這些追趕者的強力武器，這個策略在英特爾身上表現的最為明顯——今年的Intel Vision大會上，英特爾就秀了一波合作夥伴陣容，其中包括博世、Naver 、SAP、Ola等等。

矽谷公司搶算力“上頭”

算力是矽谷巨頭們在AI時代的硬通貨，但他們手上到底屯了多少顯示卡，建構了什麼規模的算力？

研究機構Omdia的數據顯示，截至2023年第三季度，輝達H100出貨量達到65萬張，其中Meta和微軟分別拿下15萬張，接近全部訂單的一半。若以單卡價格24000美元計算，截至2023年第三季度，65萬張H100總計為輝達貢獻156億美元營收。

截至2023年Q3，H100的出貨量及主要科技公司儲備狀況，資料來源：Omdia

另外，Omdia數據也顯示，光是第三季度，輝達的H100出貨量就達到50萬台，價值120億美元。也就是說，矽谷巨頭們的訂單在第三季得到了集中交付。交付量的成長與CoWoS封裝產能拉升呈正相關。公開數據顯示，台積電於去年4月、6月和10月，先後進行了多輪CoWoS設備加單，也對InFO封裝線改機以增加CoWoS產能。

要注意，Omdia的資料只統計到第三季度，且不包含OpenAI，所以只做參考。事實上，各家H100的囤貨都在不斷上漲，矽谷巨頭們對算力的需求並不是虛張聲勢，而是用真金白銀兌現。

日前，馬斯克在特斯拉電話會議上確認公司已儲備3.5萬張H100。對照上面的圖表，這意味著特斯拉過去兩季新儲備2萬張H100。馬斯克在電話會議上也表示，2024年年底，總計儲備量將達到8.5萬張。祖克柏更早前宣布計畫到2024年底，將H100的儲備量提升到35萬張，微軟則提出了更宏大的目標，到年底GPU儲備量翻一倍，達到180萬張，實際是在暗示目前已經屯了90萬張（感慨一下納德拉的鈔能力）。

買卡其實很好理解，但前有發表間隔大半年的H200，後有性能更出眾的B200，矽谷巨頭們該怎麼選？

有報告指出微軟將放棄採購H100，計畫搶奪50%的GB200訂單，可是問題在於，「算力核彈」B200現階段仍屬於「期貨」。依照H200的交付節奏預估，包含台積電的邏輯晶片的生產及封裝，富士康和緯創的代工以及最終進入渠道，B200系列向客戶發貨最快也要到今年四季度。

黃仁勳給OpenAI交付全球第一台DGX GH200，其目的也是在向市場表態，H200系列已具備量產交付能力，如果大家想要進入AGI時代，“鑰匙”就擺在這裡，而微軟喊“卡” ，就意味著將算力拱手讓人。

爭搶算力在人類史上可能會是長期現象，只是大家都在喊著缺顯卡，缺算力，誰才是真正缺的那一位？

傅盛在騰訊科技的對話中提到谷歌的案例，他說「如果一個谷歌研究員跟老闆說訓練一次2000萬美金，老闆問能不能做成？你說不知道，肯定就很難申請到資源。

也就是說，對於一家商業化公司，當你的目標或收益不夠明確時，想燒錢堆算力做大模型是一件很困難的時間，畢竟所有的資本支出要對股東、投資人負責，微軟和Meta瘋狂砸錢買卡，就是因為商業回報已經有若隱若現的意思。

祖克柏在2024財年一季度電話會議上說，“生成式AI可能要投資數年，才能實現有效盈利”，看起來是給投資者打預防針，但Meta的信息流、廣告推薦系統都已經清楚的看到投資回報。祖克柏說，臉書30%的貼文來自AI推薦系統，Instagram更是達到了50%，而且兩個端到端人工智慧工具Advantage+購物和Advantage+應用程式帶來的營收已經翻倍成長。

微軟的邏輯也差不多，剛公佈的2024年第三財季業績全面超預期，AI推動Azure雲端營收加速成長了31%，貢獻的雲端營收增幅提升至7個百分點，包含Copilot AI助理的Office商業收入增長15%。

如果真的說巨頭們信奉“規模法則”，強調“大力出奇蹟”，至少微軟、Meta們還可以再加一個“不見兔子不撒鷹”的標籤。

當然，儲備算力，買或說搶是一條路徑，自研則是另一條路徑，這可能會帶來數十億的採購和能耗成本的縮減。

不過，自研前期資本支出龐大，從投入到性能符合預期的產出兌現也需要時間，基本上科技公司都在採用自研+採購兩條腿走路的策略。

大摩先前提供了一份研究報告，資料顯示絕大部分科技公司在自研晶片上都有佈局（如上圖），包括谷歌的TPU，meta的MTIA，也包括國內大廠的相關項目。

長期看，自研確實可以消除算力焦慮，大摩對自研的總結是「單美元效率」更高，尤其是不追求最尖端工藝產品的情況下，「單美元效率」會更明顯。 Semiannaly的「總擁有成本」也值得參考，該機構在研究報告中以GB200為例，強調儘管Blackwell系列提供了更多浮點運算性能，但考慮到矽面積的增加，單位面積的性能並沒有顯著提升，而且隨著功率的提升，每瓦性能的提升幅度也會逐步下降。

還有一個終極問題，錢和卡片都有了，電怎麼辦？

AI新創公司OpenPipe聯合創始人、CEO 凱爾·科比特援引一位微軟的工程師的觀點稱，「如果在一個州放置超過10萬張H100 GPU，電網就會崩潰。」那麼，卡不夠可以自研，電力不夠，矽谷巨頭們又要下場佈局電力基礎設施？

「卡黃仁勳脖子」的兩隻手

矽谷巨頭缺卡又缺電，輝達則缺乏CoWoS產能和HBM記憶體。

CoWoS稱為2.5D封裝，簡單說就是將邏輯晶片、HBM內存通過矽中介層，再透過矽通孔技術，最後連接至PCB基板上，其英文全稱也就是Chip on Wafer on Substrate。

今年GTC，黃仁勳在面對全球媒體的採訪時，被問及CoWoS需求是去年三倍是否屬實時幽了一默，反問記者“你想要確切的數據，這很有趣。”

關於輝達CoWoS需求的具體情況，黃仁勳不給小抄，就只能參考外界資料。

Digitimes引用設備廠的數據，表示台積電2023年全年CoWoS總產能逾12萬片，2024年將衝上24萬，輝達將取得14.4萬-15萬片，佔台積電總產能約60%左右。從Semianalysis追蹤的數據來看（如下圖），2023年Q3輝達的佔比大致在40-50%的區間。

另外，隨著台積電擴產及其他客戶需求成長，輝達的CoWoS需求佔比也會被稀釋，去年11月份，台積電電話會議上確認輝達佔台積電CoWoS總產能的40%，基本和Semianalysis數據吻合。

而按月拆分，Digitimes也預測，台積電的今年一季度CoWoS產能將爬升到17000片/月，到年底有機會爬升到26000片-28000片/月。

依照CoWoS月產能17000片的數據來計算，如果輝達可以拿到其中40%，即6800片，而一片12英寸的晶圓，大致可以切30張左右的H200，即台積電單月可完成20.4萬張H200的封裝。到年底，依照台積電26000片/月的CoWoS產能，輝達如果還是佔40%，即10400片/月，單月可以完成31.2萬張H200的封裝。

也就是說，輝達在台積電的助攻下，H200 GPU全年的封裝產能，下限可能是244萬張，上限有可能突破374萬張，按照24000美元的單價，價值在580億美元-890億美元之間。

雖然和台積電長期交好，但似乎黃仁勳並不滿足於當前的產能，也有消息說輝達將在第二季度向英特爾開出先進封裝訂單，預計月產能大概5000片左右，即單月封裝15萬張H200 。

輝達苦CoWoS產能久矣，同樣苦HBM產能久矣。以H100、H200都是標配了6顆HBM內存，而GB200更是搭配了8顆HBM3e內存，HBM內存不夠用了怎麼辦？

目前，HBM記憶體主要供應商有SK海力士、三星與美光，和先進封裝一樣，HBM廠商也在瘋狂擴產。

外媒引用韓國券商Kiwoom Securities的數據，稱三星電子的HBM內存月產能，預計將從2023年第二季的2.5萬片晶圓增加到2025年第四季的15-17萬片；同期，SK海力士的月產能預計將從3.5萬片爬升到12-14萬片，以此估算，2024年全球HBM總產能700-75萬片左右。

以12層堆疊的HBM3e為例，以90%的良率，每片晶圓可切750顆HBM，依照前面估算的70-75萬片年產能，預計全球2024年總計產出5200-5600萬顆HBM3e記憶體。而如果以前面的H200產能計算，每張GPU搭配6顆HBM內存，僅輝達一家，對HBM內存的年需求總量大致在1460萬-2240萬顆區間。

如果SK海力士、三星和美光的HBM內存擴產順利，輝達懸著的心基本上可以放下一半的，另一半也要看AMD、英特爾以及自研的企業如何來搶產能了。

畢竟，也不能在下場自研AI晶片，蓋晶圓代工廠，建造發電站這些想法出現之後，再給矽谷巨頭們安排新任務──下場蓋內存廠。 (騰訊科技)