#閹割版
禁令之下,黃仁勳再用“閹割晶片”搶奪中國市場
美國實施的晶片出口管制正在對輝達造成持續衝擊。資料顯示,今年前兩個季度,輝達在中國市場的損失預計達到 125 億美元,其市場佔有率也從巔峰時期的95%大幅下跌至目前的50%。輝達CEO黃仁勳反覆強調中國市場的戰略價值,表面上是因為營收和市場份額的考量,深層原因則是其絕對市場主導地位正在受到挑戰——中國本土晶片廠商的快速成長正在打破原有格局。在H20出口許可遲遲無法兌現的情況下,輝達計畫於7月份推出應對方案,通過減配、“閹割”的形式繞過出口管制,由B20、B40/B30來替代H20,試圖重新奪回市場份額,以扭轉在華業務的下滑趨勢。川普此前在社交平台上稱,會盡快向輝達發許可證6月中旬,本營國際(AceCamp)公開了一份專家調研紀要,稱輝達預計7月份針對中國市場推出 H20 繼任者 B20 和 B40/B30 晶片,單卡售價6500美元~8000美元,伺服器預計80000美元~100000美元之間。本營國際在該紀要中指出,新的B20、B40/B30基於GB202 GPU,該GPU曾用於消費級的RTX 5090和專業級的RTX Pro 6000保持一致。記憶體採用了GDDR7 ,分為 24GB、36GB、48GB 等版本。互聯方面,B20通過NVLink匯流排連接到CX-8晶片,形成一個相當於PCIe卡的離散模組,以實現PCIe互聯,頻寬 800Gbps,即100GB/s,適合 8-16 卡小規模叢集的推理和小模型後訓練;B40/B30 直接支援 NVLink 互聯,頻寬900GB/s,採用OAM 形態,可用於 NVL72 等高密度叢集,但受計算性能和頻寬限制,叢集性能不及 H20(~85%)。黃仁勳手握一把手術刀,小心切割 GPU,圖片由AI生成1. 第三代中國“特供”大廠買B40、平價IDC選B20受美國出口管制動態調整的影響,輝達過去幾年持續不斷地調整產品SKU,以應對禁令。如果B20按期上市,將成為第三代中國“特供產品”,前兩代分別是基於Hopper架構的H20、H800以及Ampere架構的A800。相比上一代的H20,這代產品取消了HBM高頻寬記憶體,記憶體頻寬從4.8TB/s(HBM3e版,HBM3版為4.0TB/s),下滑至1.5TB/s-1.7TB/s,直接影響就是支援的並行數減少。GDDR7替換HBM是出於合規需要,與美國商務部的出口管制條例更新有關。2024年,美國商務部將HBM記憶體定義為先進計算和人工智慧應用的儲存器進行特殊管控,其要求記憶體頻寬密度在每平方毫米2GB/s及以上的 HBM 產品,其出口、再出口均受管制,覆蓋HBM2、HBM2e及更先進的產品。儘管記憶體縮水屬於被動調整,但GDDR7應該是現階段避開管制線的最優選擇。千芯董事長陳巍指出,“GDDR7頻寬預期可以超過1.5TB/s,雖不如HBM3e,但一般比A100的HBM2e的表現更好,可視為4090的IDC版。”對於改配GGDR7的B20晶片,一位資深國產GPU從業者則給出相反的評價,“算力有點低,記憶體大小和頻寬都上不去,性能弱於國產頭部。”相比之下,輝達B40/B30在國內市場可能更受關注,關鍵在於它保持了與H20相同的NVLink互聯功能,最大頻寬可達900GB/s。上述國產GPU從業者解釋:“通過NVLink可以實現Scale Up擴展,像NVL72、NVL144等,類似華為Cloudmatrix 384的架構。”作為特供中國的版本,每次在上市初期都會引髮質疑,H20和H800都經歷過這個階段,但最終由於客戶可選擇的替代方案有限,隨著產品供應逐漸穩定,質疑聲逐漸消退,“真香定律”開始發揮作用——一些企業甚至通過大批次採購,躋身輝達全球前五大客戶行列。2024年12月,金融時報援引市場機構Omdia的資料稱,微軟2024年總計採購了48.5萬張輝達Hopper晶片,字節跳動憑藉23萬張位列第二。今年4月份,路透社報導稱,包括字節、阿里在內的中國科技公司於今年一季度總計採購了超過160億美元的H20晶片,折合人民幣超過1160億元。一位大廠演算法工程師表示,“B40(性能)應該不如H20,價格上也是這個定位,作為選擇不多可以買的卡,還是有需求的。”陳巍認為,基於目前的消息判斷,在B20、B40/B30的選擇上,不同客戶會存在不同的傾向,“B20組網的有效頻寬低於B40/B30,考慮到模型大小變大的趨勢,B40/B30會是有錢大廠的選擇,平價IDC廠可能傾向於B20。”2. 輝達的焦慮、國產的難題黃仁勳和整個矽谷都在焦慮,強調過度管制會影響美國晶片的競爭力,給來自中國本土的競爭對手創造機會,其市場份額從95%,下滑至50%是一個非常直觀的量化指標。受特供版晶片硬體晶片不斷縮水的影響,上述國產GPU從業者透露,一些大廠在綜合權衡之後,已經在加速陪跑國產生態,“如果考慮今後的供應安全和供應穩定,一定要儘早匯入國產,但目前企業對輝達的供應都還抱有一定僥倖。”在他看來,企業在國產生態門外徘徊,與切換國產生態所需要的額外成本、業務落地速度有關,“本來好好地採用輝達方案,匯入(國產)新方案可能帶來額外投入,還不見得有太多額外收益,就可能有顧慮。”輝達的產品性能縮水給國產帶來機會,但國產也有自己的難題。上述大廠演算法工程師表示,“國產卡算力還是可以的,就是生態和叢集還有些地方需要進步。”輝達的生態,核心關鍵詞即CUDA,它提供了統一的程式設計模型、豐富的程式碼庫,對輝達的硬體體系、主流的AI框架,都具有良好的相容性,開發者容易對其形成依賴。目前,國產GPU基本都在推動對CUDA生態的相容,幫助開發者遷移。“NV的生態壟斷還在,”陳巍說,但他認為國產中高端GPU的挑戰還包括先進工藝產能。根據公開資料,目前國產GPU的工藝製程的上限為7nm,受禁令的影響,自去年台積電自查事件開始,其已經無法為大陸客戶的7nm AI晶片提供代工服務。“中高端國產卡短期受限於工藝和產能,最近連EDA工具都有波動。”陳巍說。EDA工具的波動則與日前新思科技、楷登電子、西門子三大巨頭暫停對中國大陸供應的傳聞有關。作為“晶片之母”,EDA軟體不僅用於半導體設計,也廣泛用於晶圓製造、封裝測試的多個環節,包括良率預測、訊號分析等,如果上述環節的EDA工具管制收緊,也會影響到國產GPU的產能。3. 算力的A、B面數字石油、吞金獸一台8卡B40/B30伺服器,單價預計在10萬美元左右(約合人民幣70萬元),由於支援NVL72拓展,建構一台B40 NVL72機櫃,硬體成本將超過人民幣600萬元。“B40的TCO(總擁有成本)跟H20差不多,吸引力不高了。”上述國產GPU從業者表示。H20作為特供中國的上一代晶片,今年初受DeepSeek熱潮的推動,一度受到網際網路公司、金融機構的瘋搶,“8卡H20伺服器價格,一路從88萬元漲到了105萬元,由於成本低、合規,大廠都是成千台的採購。”一位GPU分銷商此前透露。如果按伺服器運行狀態分,不管是B40的70萬元,還是H20的88萬元,都屬於靜態成本,一旦開機運行,伴隨巨大尖銳刺耳的轟鳴聲而來的,還有高昂的動態成本。一台B40 NVL72機櫃機的動態成本,按費用項目拆分涉及質保、維運、軟體授權、能耗等,預計在700萬元以上。僅電費一項,按單機櫃能耗50千瓦來預估(對標H20單卡400瓦+CPU+交換機等硬體功耗),每年的能耗就接近44萬度,按一度電1元的均價算,就達到44萬元。靜態成本+動態成本,按年合計接近1300萬元,平均到每天的成本超過3.6萬元,假設B40的算力能達到H20的85%,後者單卡FP16算力為0.148P,B40 NVL72的總算力大概在9P左右。年成本1300萬元對應的還僅僅是B40 NVL72這類算力受限的方案,如果更換成H100,靜態+動態成本將大幅飆升。按此前ServeTheHome披露的資訊,馬斯克旗下Colossus AI超算叢集採用超微基於HGX H100伺服器定製的機櫃,單個伺服器容納8張H100 GPU,每個機櫃可容納8個伺服器,總計64張H100 GPU,可以提供64P的FP16算力,其靜態的硬體成本即超過2000萬元。以此來算,矽谷巨頭們頻繁提及的萬卡H100叢集,靜態成本就超過30億元,堪稱矽基時代的吞金獸。高昂的成本讓算力更趨向於科技巨頭們的遊戲,一些院校、科研機構和初創企業則很難建構大規模的自有算力體系。今年的智源大會上,智源研究院理事長黃鐵軍教授透露,“現在學校沒有那麼多算力,百卡可能都沒有,學生們沒有那麼多實踐的機會,智源雖然有一定的算力,但也只有1000P,千卡等級,這個資源和一個大模型公司比還差很多。”黃鐵軍說,“智算平台建設起來之後,給學校、給這些人才更多基礎資源條件,特別重要。這跟物理、化學、生命前沿研究一樣,沒有尖端的儀器,很多工作沒法開展。”4. 誰會背著硬碟出海?中國市場上的智算中心建設如火如荼,但先進算力仍然面臨出口管制,企業開始嘗試在海外訓練大模型以提升效率。日前,華爾街日報報導稱,一家中企利用海外分部租賃當地服務商300台伺服器,安排工程師通過硬碟轉運4800TB的企業資料到海外進行模型訓練。利用子公司/海外分部/關聯公司等租賃當地算力訓練模型示意圖 來源:WSJ利用企業資料訓練自有模型技術上可行,但這種行為是否會觸及美國的出口管制條例?2024年早期,拜登政府曾討論過要評估實施限制,阻止中國企業獲取美國雲端運算服務,但最終並未推行,而川普政府於今年5月份在廢除“AI擴散規則”時,在新聞稿中明確提及,如果IaaS(基礎設施即服務)提供商知曉客戶在AI模型訓練且用途敏感需要申請許可證。換句話說,只要訓練模型不用於敏感用途,即屬於合規範疇。“這個風險目前主要限制軍事相關的模型訓練,一般民用的不受限制。”一位合規領域從業者表示。租賃海外雲廠提供的先進算力需要合規支撐,而中國企業的資料出境也同樣需要做合規。北京豐禮律師事務所合夥人劉星認為,就華爾街日報報導的案例來看,企業攜帶自有資料出境行為並不違法,“特定資料出境需申報安全評估,如不涉及“重要資料”和個人資訊,一般不會觸發評估要求。”上述合規領域從業者也認同這種說法,在他看來,企業按照法規要求做好脫敏即不構成隱私和敏感資料。“基因資料、測繪資料、出口管制的技術資料、安防資料等都屬於重要資料。”劉星補充道。利用海外算力訓練大模型這種路徑,雖然技術、法規上都存在可行性,但實際能匹配到的業務場景有限。“目前大模型訓練這波演進趨勢,都是主要的幾個大玩家在玩(沒有使用海外算力的需求),智駕演算法訓練現在雖然在卷,但使用海外的CSP,像AWS、Azure這種,折騰的風險太大,即便是走合規路徑出海,操作上也不具備可行性。”上述國產GPU從業者表示。劉星認為,網際網路大廠很多都是“關鍵資訊基礎設施營運者”,符合《資料出境安全評估辦法》規定的申報情形,“國家管理更嚴格,大廠做(出海訓練模型)這類事估計會更謹慎。”而在陳巍看來,攜帶資料出海做模型訓練,好處是可以接觸到更先進算力,資料不走網際網路,一般不需要擔心資料洩露的風險,更適合做行業大模型的中小廠。“原文寫得是300台,初步猜測是H100,大概2400卡的規模,”陳巍說,“DeepSeek就是用2048卡訓練的,而大廠可能會用萬卡叢集做訓練。” (騰訊科技)