輝達首席執行官黃仁勳周四在巴黎對CNN記者安娜·斯圖爾特表示:“未來,我們的預測將不包括中國市場。”然而,中國對輝達的重要性不言而喻——否則,黃仁勳不會如此努力地放大華為作為競爭威脅的形象。他聲稱華為的晶片可與輝達最先進的處理器相媲美,但這與中國市場的實際情況不符。
我們的行業調查顯示,華為的CloudMatrix384——黃仁勳將其定位為可與輝達Blackwell架構媲美的產品——在中國市場上難以推廣。雖然一些公司表示了興趣,但尚未有實質性訂單。
現在已經明確的是,輝達針對中國市場的新款晶片基於GB202 GPU——與RTX 6000和RTX 5090相同的基礎架構。
根據我們的調查,輝達至少從2024年中開始開發這一下一代中國市場晶片——H20的繼任者。數月的提前準備,加上這些晶片基於已在RTX 5090等產品中出貨的現有GB202基礎GPU,使輝達能夠快速部署這些新款中國市場處理器。行業共識認為,新晶片最早將於7月上市。
基於GB202晶片,輝達計畫推出兩種型號。第一種被業內稱為B20,第二種被稱為B40或B30——命名尚未確定。兩位業內人士告訴我們,輝達最終可能將這些晶片簡單命名為RTX 6000變體,此舉顯然是為了向監管機構和市場掩蓋這些晶片屬於Blackwell系列。
4月實施的最新美國出口管制措施對總計算能力之外的兩個額外指標——記憶體頻寬和互連速度——引入了限制。關於記憶體規格,我們瞭解到B20和B40都將使用GDDR記憶體,而非此前針對中國市場的H20晶片中使用的HBM記憶體,後者在4月法規後被禁。
然而,一個令人意外的進展是,根據中國研究機構AceCamp 6月13日專家訪談的記錄,B40將保留NVLink連接,具備與H20相同的互連能力。這意味著B40在叢集配置中可能仍非常有效,有望支援四卡單機設定以及NVL72或NVL144等高密度解決方案。
B20使用輝達的ConnectX-8實現互連功能,通過乙太網路實現連接,最大互連頻寬為800Gbps。每塊B20晶片通過NVLink匯流排連接到ConnectX-8晶片,形成一個相當於PCIe卡的離散模組,支援PCIe卡格式的互連。
這種設計針對每台機器8到16張卡的小規模叢集進行了最佳化,主要面向推理任務和較小模型的訓練後處理。由於晶片間互連頻寬遠低於NVLink,B20在整體平行效率上損失較大,因此基本不適合模型訓練。
B30/B40支援NVLink互連,但速度低於標準規格。預計NVLink頻寬將與H20的900Gbps相同,而非B系列的1.8Tbps全功能,具體規格需視官方發佈資訊而定。
兩種型號均採用OAM(OCP加速模組)形態,設計美學與標準NVLink架構一致,可能支援四卡單機配置,並可擴展到NVL72或NVL144等高密度叢集。然而,降頻的NVLink結合B30固有的計算和記憶體頻寬限制,導致叢集性能低於H20。這些晶片可能無法支援H20所能實現的大規模叢集訓練,最大容量可能僅限於數百晶片的訓練後處理和微調。
預計GDDR容量配置包括24GB、36GB和48GB三種。48GB配置可能性最大,每塊B20晶片預計配備六個8GB GDDR7模組。未來若有韌體修改,可能實現類似於RTX 4090消費卡的雙面記憶體配置等高密度記憶體解決方案。
路透社上月報導,新款中國市場晶片的定價在6500至8000美元之間,與我們的行業調查一致。若B30定價在這一水平,將具有極高的性價比,遠低於H20的1萬至1.2萬美元。雖然B40性能約為H20的85%,但其顯著較低的價格應能保證持續的客戶需求。
我們的行業消息人士表示,配備這些新晶片的完整伺服器配置售價約為8萬至10萬美元,其中乙太網路連接系統價格接近8萬美元,OAM NVLink配置接近10萬美元。不過,這些報價基於初步估算,已包含一定折扣。
根據AceCamp的研究,中國主要科技公司對晶片型號表現出不同興趣。騰訊似乎更青睞B20,因為其推理任務繁重且對網路調度和管理要求高,B20的性價比尤其吸引人。字節跳動更關注B30和B40,希望這些高端型號能部分滿足H20停產後留下的市場需求。
與此同時,阿里巴巴尚未明確表示對具體型號的偏好,顯示出對晶片的強烈總體需求,但未提供詳細分配計畫。這種市場細分直接反映了各公司不同的業務部署需求。
真正的考驗還在後面,因為主要中國客戶尚未收到測試卡。評估過程通常需要約一個月,只有在完成這些評估後,公司才會開始下達大量訂單。
對輝達而言,中國市場是不可完全放棄的重要收入來源。雖然黃仁勳可能通過誇大華為能力試圖說服美國官員重新考慮制裁,但華為等中國競爭對手在自身研發方面並未停滯不前。 (傅里葉的貓)