誰能代替輝達？

2023/10/27

•

今年夏天，英偉達（輝達）創辦人黃仁勳特別騰出時間，拜訪了一個名叫戰略與國際研究中心（CSIS）的智庫。在美國，智庫的意見能在很大程度上左右華盛頓的政策走向，深處科技戰前線的黃仁勳自然深知這一點。

黃仁勳上來就是一頓彩虹屁，並明確表達了捐贈的意願。隨後他話鋒一轉，表示有一位小同志嚴重拖累了智庫隊伍的整體水平，建議清除出去。

這位小同志不是別人，正是CSIS資深研究中心主任Gregory C. Allen，也是美國晶片出口管制政策的堅定鼓吹者。

面對美國的打壓，英偉達似乎比中國公司還要著急。過去數月，黃仁勳一直在盡力阻止制裁落地。

除去給智庫施壓，黃仁勳也當面警告了華盛頓決策層，認為制裁會造成嚴重代價。同時，他也不忘敦促美國半導體產業協會發表譴責聲明，強調進一步限制將損害產業的競爭力[2]。

今年7月，黃仁勳還拉上高通和英特爾去了華盛頓，目的也是說服美國政府放鬆對華限制。

然而，美國仍在10月17日更新了晶片出口管制，中國特供版晶片H800和A800也被列入禁售範圍。更令人驚訝的是，用於遊戲的消費級顯示卡RTX 4090也進了名單。

這對英偉達來說無疑是致命一擊，長期以來，中國大陸市場一直佔據其20%以上的收入。10月17日出口管制發布當天，英偉達股價下跌近5%，AMD和英特爾也跟著跌了1%。

那麼，英偉達是否真的無法取代？中國市場之於英偉達又意味著什麼？

最好的選擇

簡單來說，美國政府在新的出口管制政策中增加了多個新指標，不僅把特供產品H800和A800牢牢卡死，還順便誤傷了消費級顯示卡RTX4090，搞得國內黃牛趁機漲了一波價。

為什麼說是「誤傷」？雖然RTX4090和H100都是GPU，但兩者的設計想法截然不同。

例如，RTX4090的頻率強於H100，因為更高的頻率能夠提供更強的圖形渲染能力。而H100的強項則是理論算力、顯存大小和顯存頻寬，這是因為AI推理和訓練都非常考驗資料的吞吐效率，這也是為什麼H100需要昂貴的HBM3記憶體。

至於玩遊戲，H100甚至都不支援主流遊戲的圖形介面。這也符合英偉達官方的「消費性」和「計算類」的歸類。

在一些討論中，RTX 4090由於更低的價格、不差的算力、更低的功耗，一度被認為同樣可以用於高效能運算。

客觀地說，鐵了心也能用。但一般而言，RTX 4090由於顯示記憶體和頻寬的限制，最多只能用作推理晶片。

AI晶片根據部署位置區分，大致可分為雲端晶片和終端晶片。雲端晶片用於訓練模型，俗稱訓練晶片；終端晶片用於終端設備，根據訓練好的模型對即時資料執行推理任務，俗稱推理晶片。

職責不同，導致對訓練晶片和推理晶片的性能要求也有很大差異：訓練晶片需要透過海量資料訓練可靠的模型，因此對資料傳輸速率、算力等指標有相當極端的要求。這也是為什麼H100不惜用上昂貴的HBM記憶體和CoWoS封裝，都是為了資料吞吐效率。

「特供版」的H800和A100，閹割的也是記憶體頻寬，算力其實沒有改變。

推理晶片一般處理即時任務，對於低延遲的要求更高，而且由於部署在終端，還要考慮功耗、大小、成本等問題。因此，用RTX4090這類消費級顯示卡強行訓練，過低的頻寬會帶來「記憶體牆」的問題。

無論是Google的TPU、還是特斯拉的FSD晶片，大部分應用場景都是推理。大部分國產AI晶片，也都是走推理晶片的路子。

而在訓練晶片這個場景下，英偉達的確是目前最好的選擇。

從絕對的算力來講，H100並不是巔峰。但在AI訓練這件事上，一口氣買幾百塊顯示卡的科技公司更在意的是另一個指標：單位成本的算力。

這也是為什麼大家寧願加價搶H100，也不願意買「青春版H100」－A100：以H100 SXM版本、A100 80GB SXM版本8月的售價（24000美元、15000美元）計算，每單位算力的成本分別為12.13美元、24.04美元，H100 SXM優勢明顯。

另外，資料中心建置完成後，還需要考慮電力、維運、故障、後期支援等多方面成本。種種因素疊加，大家還是老實地拿起了號碼牌，加入了漫長的H100等待序列中。

例如特斯拉，前腳宣布給自研的Dojo超級電腦投10億美元，後腳就透露要購買10000張H100用於驅動AI負載。

簡言之，在推理場景下，英偉達尚有替代方案；但在訓練晶片裡，英偉達是事實上的唯一方案。

原因在於，英偉達真正的護城河，是軟體。

隱形的護城河

今年10月10日，AMD宣布打算收購一家名為Nod.ai的AI開源軟體新創公司，以補足其軟體短板。

雖然貴為GPU產業的世界第二，但長期以來AMD的市佔率只能和英偉達二八開，在以AI為代表的高效能運算市場，存在感就幾乎為0。

事實上，AMD的AI晶片理論參數並不差，與H100對標的MI250X，雖然在FP32/FP64精度下的算力略遜於H100，但考慮到10000美元的售價，MI250X的「單位成本算力「其實更高，理論上可以成為比H100更好的選擇。

但實際上，不管是大公司還是新創公司，大家還是比較喜歡H100。原因就在軟體，也就是大名鼎鼎的CUDA。

眾所周知，GPU最初的目的是為遊戲和影片進行圖像渲染。黃仁勳幾乎是所有奧斯卡「最佳視覺效果」提名電影背後的男人。2007年，英偉達也曾獲得一個分量十足的獎項：艾美獎，以表彰其對娛樂產業的重大貢獻。

首先發現GPU被大材小用的是華爾街菁英，在渲染影像時所用到的平行運算能力，正符合金融場景裡高頻交易的需求。

不過，在用GPU跑交易之前，得先編寫大量的底層語言程式碼，這顯然勸退了一大批交易員。

為了降低GPU的編程門檻，David Kirk說服黃仁勳在2006年推出CUDA，CUDA的全名為Compute Unified Device Architecture，即計算統一設備架構，其作用也直白地寫在名字裡了：為GPU編程提供統一架構，使其滿足不同應用場景下的算力需求。

伴隨CUDA推出的是一本程式設計指南，裡面詳述了實現效能的具體方法，並且隨著產品的升級迭代不斷更新，至今已更新到12.3版。

最新版CUDA程式設計指南

這樣的說明書在今天看來是基礎必備，在當時與競爭對手的差距也不過兩年，但先發者的一步領先卻足以定義產業。

CUDA推出後，英偉達迅速打開了新業務的大門，在航空航太、天文學、氣象學領域都有GPU的身影。

2009年，蘋果的開發團隊推出OpenCL，支持者包括AMD和英特爾，希望能以通用性在CUDA身上分一杯羹。但作為追趕者，OpenCL平台上的開發者自然更少，容易陷入惡性循環。

而CUDA則在「使用人數越多，CUDA平台就越好用，新開發者就越傾向於選擇CUDA」的良性循環中，加強了生態優勢。

在深度學習爆發後，許多學習框架要么是在CUDA發布之後才會支持OpenCL，要么壓根不支持OpenCL，使得OpenCL始終無法觸及更高附加價值的業務[5 ]。

2016年，AMD自家軟體ROCm姍姍來遲，在投入不如英偉達的情況下，服務更新上落後CUDA，因此也難與CUDA抗衡。

晶片的架構和製程可以靠一兩代產品迅速拉近差距，但一個成熟的生態系統卻很難被破壞。CUDA生態遍佈各行各業，從企業蔓延到教育系統。吳恩達曾評價：CUDA出現之前，全球能用GPU編程的可能不超過100人。而目前全球的CUDA開發者已經達到數百萬。

從某種程度上來說，CUDA已成為業界的事實標準。它的另一個特點是：只能和英偉達的硬體適配。

因此，任何開發者想要脫離CUDA生態，都得考慮標新立異的成本與風險。

不過對英偉達來說，繁榮的CUDA生態既是令競爭對手望而生畏的高山，卻也是自己的軟肋所在。

英偉達在擔心什麼？

黃仁勳之所以如此著急，道理也簡單：如果鐵了心換掉英偉達，也不是不可以。

英偉達固然是人工智慧得以走上時代舞台中央最大的功臣之一，但在當下，它卻有兩個不容忽視的問題：

一是成本過高。以「地表最強GPU」H100為例，首發價為3.3萬美金，如今二手市場價格更一度上漲至5萬美金左右。

科技公司如果要搭建擁有一萬塊H100的資料中心，即便不考慮其他成本和後續開支，光GPU採購費就需要數億美金——即便對《財星》世界500強排行榜上的科技公司來說，這也不是筆小錢，更遑論新創公司。

二是通用晶片難以實現差異化。堆疊算力不是簡單往車上加汽油，需要考慮軟體適配性、自身業務需求等一系列問題。更何況，如果只用英偉達的GPU，代表只有當英偉達出新產品，自家產品才能跟著升級，徹底將戰略主動權交給了黃總。

這就是英偉達面臨的一個尷尬情境：自己的客戶都是自己的對手。

早在2014年，Google已開始了自研晶片的計劃，其最新成果就是TPUv5系列。對參數量小於200B的大模型來說，TPUv5在推理時更具性價比，相較於英偉達GPU有著肉眼可見的成本優勢[4]。

而在重要的中國市場，美國的出口管制其實是在給黃總幫倒忙。

如前文所述，英偉達的核心壁壘在CUDA組成的繁榮生態——它就像一個無數開發者組成的“圈子”，後來者想要進入AI產業，就得融入這個圈子。如果把一部分開發者攔在圈子外面，那麼他們最有可能做什麼：組成一個自己的圈子。

事實上，英偉達非常清楚這一點，其法律顧問Tim Teter就曾這樣警告華盛頓：你冒的風險是刺激了一個由競爭對手主導的生態系統的發展，這可能會對美國在半導體、先進技術和人工智能領域的領導地位產生非常負面的影響。

如果「被踢出圈子」的機率只有1%，那大家只會把它當作一個黑天鵝事件；但一旦這個機率上升到哪怕只有10%，就一定會有人行動起來。這也是為什麼英偉達對美國的出口管制如此警覺——中國科技公司會鐵下心來掀桌子，開始搭建自己的生態。

英偉達並非是唯一有著類似境遇的公司，英特爾與高通也一同參與了施壓美國政府的行動當中。它們的部分競爭力同樣來自生態的構建，英偉達的境遇讓這兩家晶片巨頭深感唇亡齒寒。

要知道，上一輪針對英偉達的出口管制發布後，英特爾專門把Gaudi 2芯片的發布會放在北京開，一口一個“幫助構建中國人工智能的未來”“攜手中國產業生態”，趁機挖黃總牆角的心思昭然若揭。

結果新版出口管制出爐，AMD的MI250X、MI300，英特爾的Gaudi 2、Gaudi 3和黃總一起上了名單。這也難怪有小道消息說，英特爾高層和美國高級官員交涉時[2]，一度急得指著對方鼻子問“到底懂不懂半導體？”

儘管相較於美國，國內的晶片產業整體的差距並不小，但長期的封鎖，一定會加速中國晶片產業的發展。一旦這個過程開始，也許就不可逆了。

這就是英偉達害怕的、美國眾多晶片公司所擔心的事情，正如黃仁勳所說[1]：There is no other China，there is only one China。（遠川科技評論）