圍剿輝達

2024/08/02

•

ChatGPT爆火，打開了一個價值千億美元的AI晶片市場，誰能從看似無法戰勝的晶片巨人輝達身上，撕下一塊肉來？

反抗

一個隱秘的微信群，在上海張江的AI晶片公司人士中口口相傳，群名叫“國產晶片抱團取暖群”，進群的必須是國產晶片公司員工，在這裡，即使是競爭對手，也會交換資訊，互換商務資源。

“國產晶片抱團取暖群”圈定了一塊停戰區，同行可以暫時休戰，互幫互助，只因為大家都有一個共同的敵人：輝達。

因為輝達的存在，國產晶片公司的銷售，多少都嘗過一點屈辱的滋味。

李明（化名）是一家國產GPU公司的銷售，這一輪AI熱潮掀起時，他曾信心滿滿地去見客戶，可來不及寒暄，客戶開口就是連環追問：

“你們的東西，和輝達A100晶片相比，啥差距？輝達有NVLink，你們有什麼？”（作者註：NVLink是把多個GPU晶片連接起來，避免GPU的資料搬到CPU計算，以提升計算效率）

眼見用產品和技術打動不了客戶，李明的團隊開始想辦法托關係，找“更有力的人士”去遊說，但客戶還是擺擺手，“我們還是想用輝達”。

輝達A100，826平方毫米面積上就塞了540億個電晶體，是打開AI大模型魔盒的鑰匙。大模型訓練，像是在海量資料中“煉丹”，目的是找出資料變化的規律；而用輝達晶片訓練大模型，就好比讓幾億個智商200的人來算數，而其它晶片的效果，只等同於找了幾千個智商100的人來計算。

最頂尖的科技公司，都在瘋狂搶購輝達。誰擁有最多的輝達高端GPU，誰就有機會訓練出更聰明的大模型。

公開資訊顯示，OpenAI目前掌握著全世界最多的輝達高端GPU，至少達五萬片；Google、Meta也是萬卡叢集的擁有者（2.6萬左右）；而國內罕見有輝達高端GPU萬卡叢集的網際網路大廠，是字節跳動（1.3萬）。

輝達壟斷著全球產業鏈上最好的資源——擁有台積電最充足的晶片先進製程產能、籠絡著全世界最大的工程師使用者群體，掌握了一眾AI公司的計算命脈。

絕對的壟斷，往往會滋生不滿、憤怒和逃離。

“今天所有做大模型的，基本都在嚴重虧錢！只有一家在賺錢！輝達”，一位行業人士語氣忿忿不平——“輝達的利潤率讓所有的客戶都很難受，很傷害AI行業！”

財報顯示，輝達毛利率達到71%，其中，熱門產品A100和H100系列，毛利率高達90%。作為一家硬體公司，輝達居然享有比網際網路軟體公司更高的毛利率。

高價暴利，讓輝達的大客戶開始逃離。7月30日，蘋果宣佈其AI模型用8000片GoogleTPU來訓練，而輝達含量是0；消息一出，輝達股價下跌超7%，創下近三個月最大跌幅，市值蒸發1930億美元，幾乎跌掉了一個拼多多。

對於所有想在輝達身上撕下一塊肉的國內GPU企業來說，2022年是個轉機之年，美國數輪禁令下達，輝達迫於生計，在中國持續推出閹割版本晶片，但又被快速停用：

2022年9月，A100/H00禁止向中國出口，輝達推出閹割版本A800/H800；

2023年10月，A800 / H800 / L40 / L40S / RTX4090被禁止向中國出口；

2024年6月，輝達創始人黃仁勳稱，將向中國推送閹割版本的L20、H20晶片。

然而，閹割版本引發了行業更激烈的聲討。輝達即將推送的H20，價格雖是輝達H100的一半，性能卻前者只有1/3。一位AI行業人士怒斥——“這不就搶錢嗎？純純智商稅！”

當輝達的客戶開始不滿與憤怒，那些想代替輝達的國產晶片公司，卻在這種情緒中得到了“滋養”。

過去，他們只能跟在輝達的屁股後面，艱難分食一點點蛋糕碎屑。半導體分析公司TechInsights的一項資料顯示，2023年，輝達在資料中心GPU出貨量市場份額高達98%，國產晶片和一眾晶片巨頭加起來，只佔微弱的2%。

如今禁令襲來，完美的輝達在中國市場被撕開一道口子，誰能替代輝達？國產AI晶片廠商看到了生機。

“今年咔嚓，輝達在中國的90%市場都給釋放出來了，能不能搶到，各憑本事”，一家國產GPU公司創始人表示。

36氪曾在2021年發表過《深氪｜寧德時代：兆電池帝國的裂縫》，在動力電池行業，寧德時代一騎絕塵，被競爭對手們虎視眈眈。如今，在AI晶片領域一家獨大的輝達，也被諸多同行視為眼中釘、肉中刺，但輝達的不同在於，它的壁壘更高，與對手們的差距更大。

我們嘗試通過輝達對手們的反抗，去找到“輝達的裂縫”，放眼GPU行業，國產GPU、AI晶片廠商雖然力量孱弱，但他們更懂中國市場，打法更加本土化；而諸如英特爾、AMD等老牌晶片巨頭，則有著更充足的糧草彈藥，正面對擊輝達。

短期內，輝達不會被打倒，但它也不會毫髮無傷。

突圍

想突圍，就要找到對手的弱點。輝達的弱點之一是：傲慢。

晶片行業，本質上是一個To B軟體行業。客戶需要晶片廠商“陪伴感”的服務，比如把硬體偵錯好、把軟硬體相容做好，陪伴到位了，客戶才有粘性，晶片產品就不容易被替換。

但多位國產晶片人士告訴36氪，在中國市場，除了像BAT、字節這樣幾十億規模的大採購方，其餘大部分公司交易額縱使達幾千萬，幾乎很難得到來自輝達的售後服務。

也就是說，當使用輝達晶片的中國工程師們有疑惑時，只能靠自己到輝達官網上搜尋文件，或者去社區自學。

和輝達合作時，中國客戶們的種種需求經常得不到滿足。一位晶片行業人士告訴36氪，輝達在中國一般會推最高配、最貴的全套方案，而當客戶提出針對特定場景的定製化要求時，也一般會被否掉，客戶們買完卡後，要“自己琢磨，或者再找厲害的演算法公司搞定”。

輝達的這種做法，積累了不少中小客戶的抱怨。“輝達如今作為大廠，對小客戶已經不會像過去那樣重視，他們的產品沒有挑戰者，不需要去費力討好客戶”，前述人士表示。

但在過去，輝達生態的崛起其實印證了服務對於晶片行業的重要性：2006年，CUDA生態剛起步時，輝達產品和如今的國產晶片一樣並不出色。但輝達團隊先從高校的科研團隊推起，再滲透到每一個細分行業的初創公司做軟硬體適配，才有了如今的大片江山。

中國晶片廠商們，也領悟到這一點，嘗試從客戶服務開始切入。

國內某家不願具名的AI晶片公司，2023年以來，嘗試讓後台的研發人員走到一線親自服務——不僅要駐場聯合調教，在銷售打單後，給客戶專門拉個有研發人員的小群。客單價小到幾百萬、幾十萬不等，都能享受7×24小時的諮詢。

光提供本地化的貼心服務遠遠不夠，在輝達中國大撤退之餘，晶片行業而早已不簡單是晶片產品本身對決，更考驗著各自對時間窗口期的把握。中國晶片廠商就像一群狼撲上來，轟轟烈烈的打單開始了。

華為來勢最兇猛。華為此前聯合訊飛，發佈的裝置“星火一體機”上，就搭載了“昇騰910B”。這顆晶片，曾號稱單卡能力“對標輝達A100”。不為人知的是，光鮮案例背後艱難的一面——36氪瞭解到，華為對此不惜人力成本，調配了幾百名工程師下場幫訊飛調教參數。

儘管這被行業稱為“手工打造”，但標竿案例一出，許多大模型公司、網際網路公司都對華為拋出了測試的橄欖枝。

一家國產晶片銷售驚訝發現，自從去年7月份至今，只要是公開招標的智能算力中心項目，都能看到華為等級不低的管理層在那駐場，“華為如今一個項目可以派幾百個人上去服務，甚至一些關鍵項目不惜虧本，從別的項目獲得收入”。

前述不具名晶片公司，也配齊了200名鐵血銷售——在國內晶片行業，這都是一個相當罕見的組態。他們的銷售團隊從大模型落地最火熱的三個領域開始入手，金融、法律、工業，幾乎出現在每一場與算力相關的展會， “晶片行業，資源第一，跑的慢了就死掉了”。

國產晶片一場隱秘的價格戰也開始了。

晶片廠商一位人士告訴36氪，他們的目標是，不惜單價，也要拿下更多標竿智能算力中心的單子。36 氪觀察到，有的國產公司推理卡，為了降低成本，不惜把價貴的HBM（高頻寬記憶體）拿掉，甚至以低於成本價50%的價格在出貨。

“不管怎麼樣，大家還是希望從各個切入點突破，各自從輝達那切走一小小塊蛋糕，讓輝達不再是一家獨大”。

但現實卻是殘酷的，具體到產品上，國產AI晶片難免出現種種問題。

一位晶片人士向36氪舉例：同樣處理一個資料集，用輝達的A100叢集來跑，可能只需要十天，但用某些國產晶片產品，可能要跑上好幾個月。國產晶片硬體上積累的時間太短，又缺先進製程，硬體上的差距，導致使用效率不高。

軟體短板也很明顯。另一位行業人士測試發現，當使用國產晶片跑大模型時，若要在上面做更多酷炫應用，基礎大模型做一旦改動，國產晶片就容易發生當機，“很多情況下，國產晶片大家基本是捏著鼻子用起來”。

如今，各家真正看清了眼前的“圍剿”策略，也逐漸分化出了更現實的路徑：

儘管還有少數派繼續往萬卡進發，著重訓練場景，和輝達硬剛，其中以摩爾執行緒、華為為代表；但更多數派的選擇是，轉而更關注大模型/小模型在各行各業的落地，從對硬體、軟體要求都不高的推理場景抓起，以燧原、天數智芯等為代表。

（36氪註：大模型有訓練和推理兩個環節：訓練是從幾十億資料庫中尋找規律的過程，是“造”大模型；推理是在“用”大模型的過程，難度更小、對軟硬體要求更低、與產業連接更緊密）

“我們如今沒有盲目追趕輝達，我們追不起，不敢盲目做超大算力的晶片”，一位晶片行業人士直言。

國內晶片廠商們一個現實的考量是，輝達的主要精力並不在此，國內廠商為此避開了輝達的正面戰火。

此前，大部分公司基於成本考慮，多採用輝達消費級遊戲顯示卡4090來跑推理——這些卡的問題一堆：功耗過高、記憶體不夠、被停用。輝達官方也不允許這些消費級顯示卡被用於大模型推理。

國產晶片公司從輝達這一空白處切入。天數智芯、燧原今年都在猛推對標4090的推理卡，打出了大記憶體、低功耗、供應穩定的賣點。

國產晶片廠商也明確了找準細分市場的重要性。比如則針對一些功耗敏感的場景，主打低功耗小晶片；或者扎進視訊最佳化等細分場景，做小而美的生意。

巨頭戰場，劍拔弩張

當國產GPU公司將“超越輝達”寫進PPT，這更像一種美好的願景，這群公司成立時間不長，迎上了國產替代的風口，即便只超越一點，也被視作是壯舉，輝達之於他們，是對手，也是標竿。

但論及與輝達輩分相當的英特爾、AMD，氣氛就更加劍拔弩張。

“我們內部將輝達當作死敵”，AMD的一位MI系列產品線的研發人員告訴36氪。

在今年6月的台北電腦展（Computex 2024）上，AMD創始人蘇姿丰（她還是輝達創始人黃仁勳的表親）也首次明確了未來AMD在GPU上的產品節奏——每年迭代一款新的GPU產品，和輝達更新節奏保持一致。

輝達幾乎每上一款GPU，AMD都會第一時間從市場上買回來拆機，與還沒上市的產品做對比。“這裡要加點feature（指標）、那裡參數要拉高”，他們追求的是，“硬體上不能落後於輝達，參數上微贏”，前述人士對36氪提到。

2023年以來，AMD中國生態合作夥伴們，幾乎每隔兩天，就會收到來自AMD的軟體最佳化新訴求。為了推廣他們的GPU，AMD高管們有時還會要求更優勢的CPU部門，搭配著GPU去打單，頂著CPU可能賣不出去的風險。

“AMD的人天天‘燒香拜佛’，就希望我們把生態搞起來”，一家生態公司高管表示，據他透露，目前國內已經有10多家雲廠商和To B客戶，在和AMD晶片相關的適配和效果驗證。

相比於一眾焦灼的國產晶片廠商，國外晶片巨頭們在硬體層面的優勢在於，擁有先進製程和HBM產能，因此，AMD、英特爾的產品，相比於輝達產品其實不會有太大的差距，某種程度上甚至更優異。

官方的資料顯示，AMD的產品（2023年12月發佈的MI300X）此前宣稱算力是輝達H100的1.2倍；英特爾的產品（2024年4月發佈的Gaudi 3）在能效和推理性能上也遠超H100。當然，也更便宜，AMD的GPU價格大概是輝達對標產品的七八成。

但所有和輝達正面硬剛的廠商都面臨著一個共同的難題：大家的硬體如何有優勢，都因軟體劣勢而黯淡，如同木桶的短板。

在GPU還只能用於圖形計算的年代，輝達推出的軟體平台CUDA，相當於給開發者提供了一套程式設計介面，讓他們能最熟悉的程式語言，在GPU上自如編寫計算程序。

“我給你們打個比方，CUDA為什麼超越不了，就好比你學會一種語言，這麼多年，都是用這個語言幹活的，如果我讓你換一套語言，你會不會很難受，會不會不願意？”一家晶片公司員工這樣給36氪舉例。

CUDA作為輝達軟體生態壁壘最深厚之處，縱是家大業大的英特爾、AMD也無法短時間內彎道超車。

一位英特爾GPU團隊前員工告訴36氪，他們曾經安排全球3000多名工程師、投入了三四年，卻只把精度從0%提升到4%——他們用英特爾的晶片轉換一張人像，等待許久，資訊丟失到“已看不出是一張人臉”。

“雞生蛋還是蛋生雞”的謬論再現。正是由於AMD和英特爾的GPU用的人不多，其及對應的軟體平台（ROCm、oneAPI）用的人也更少，因此很難有人能把它們真正的硬體能力完全發揮出來。

“輝達的CUDA一直有那麼多開發者在上面迭代演算法，幫輝達把推理和訓練做得很高效，導致輝達一直能有議價權，他也永遠知道他下一個晶片應該咋做，但這是AMD和英特爾都很頭疼的事”，一家AMD生態公司CEO直言，如今AMD的軟體工具ROCm，“就像20年前的輝達CUDA一般”。

但對於下遊客戶來說，風險正是由此而生。

驗證大模型本就是一項有不確定性的實驗，若還要在一個沒有被驗證過的晶片上跑，相當於把兩個不可控的變數放在一起——拋棄輝達，意味著要支付巨大遷移成本，承載不確定性。

儘管如此，圍剿輝達，對於AMD和英特爾這兩家來說，依舊是一場不得不打的仗。

全球晶片架構三分天下：X86架構指導著PC領域，是英特爾和AMD的天下；移動市場是Arm的天下；輝達則主導著人工智慧市場。

在全新AI革命引領時代的近一年半，輝達一度跨過3兆美金市值大關，如今也相當於7個英特爾+AMD市值的總和。

時隔20年後，晶片巨頭們對輝達的“圍剿”，是又一場焦灼的聖戰，這也是一場後知後覺的反撲。

真正的裂縫

當國內AI晶片公司組成螞蟻雄兵，AMD和英特爾全力以赴，遭遇此等圍追堵截的輝達，真的被撼動了嗎？

輝達帝國的裂縫，正在悄悄蔓延。

一個讓輝達必須警惕的訊號是，OpenAI、Google、微軟……這些因AI信仰，為輝達充值的大客戶們，正邁出“反輝達”第一步。

自研晶片是各家籌謀已久的棋局。一位GoogleTPU團隊的前核心員工告訴36氪，用掉了世界上1/4算力的Google，“可能年底就不對外採購晶片了”。過去Google自研TPU更多基於成本考慮，比如擔心輝達隨意漲價，或者供應不夠穩定，如今Google的造芯策略更為激進——“幾乎是不計代價和成本投入”。

OpenAI則有無數手準備，他們計畫籌資高達7兆美元，建立一個全新的AI晶片帝國。

在國內，36氪也從多方瞭解到——目前輝達在國內最大的買方，阿里、字節、百度，基本都在秘密研究用於大模型訓練的晶片。

不過，自研晶片畢竟是一個長遠之計，這些大客戶們短期內的另一項方案是，嘗試輝達對手們的產品，減少對輝達的依賴。

AMD就是這個Plan B。一位AMD內部人士告訴36氪，AMD的GPU產品已經在歐洲、美國、韓國等地，打開了大客戶市場——微軟已經採購上萬片AMD的產品，特斯拉、Midjourney、美國國家實驗室、韓國電信也都已批次提貨。

在國內，AMD生態公司員工陳文表示，AMD某型號加速卡在2023年有幾百片出貨，雖不多，“但AMD的這款產品，此前在國內幾乎查無此人”。

根據AMD方面此前樂觀預計，在2024年年底，資料中心GPU將給AMD帶來高達20億美元的收入。

而中國晶片廠商的螞蟻雄兵，雖然尚未對輝達造成實質性威脅，但星星之火，也有漸起之勢。

36氪瞭解到，如今，國產訓練、推理晶片的銷售，已經躍進了一個新台階——一個令人欣慰的積極訊號是，國內公認最難打單的網際網路公司、大模型公司，已對國產晶片廠商開了口子。

據36氪瞭解，目前，昇騰晶片已經艱難突圍進百度在內的網際網路公司體系。

此外，國內諸如智譜AI、MiniMax、階躍星辰等AI公司，都在訓練兆參數規模的大模型，但在輝達高端晶片有限的情況下，大模型公司們普遍選擇“混訓”（即輝達+其他晶片），比如，智譜AI的叢集儲備了近半的昇騰晶片。

另外，天數智芯、燧原的推理晶片產品去年以來，雙雙有了數萬片的出貨，出貨管道包括國內各大智算中心，前者打進了大模型廠商百川的供應鏈；百度崑崙芯這邊，過去兩代推理晶片累計出貨量數萬片，來自百度和外部管道的出貨量已各佔一半。

“輝達現在的價格和供應水位，正處於試探大家幹不幹、怎麼幹的邊界線上”，一位行業人士直言。

如果把眼光拉得更到未來三五年，輝達新的威脅也在逐漸閃現。

行業裡面也出現了GPU之外的全新的AI晶片架構——比如此前推出LPU架構的矽谷晶片公司Groq，號稱運行大語言模型比輝達的GPU“速度快了十倍”；

還有發佈了大模型ASIC晶片的矽谷晶片Etched，號稱比輝達GPU“快了一個數量級”。這些晶片創業公司，背後站著OpenAI這樣的明星投資陣容。

36氪瞭解到，國內今年以來也冒出了全新的AI晶片創業公司。比如，上海市近來秘密支援了兩家全新的AI晶片公司。

一家國產TPU公司“中昊芯英”CEO楊龔軼凡表示，GPU的整體電晶體利用率只有20%，其實缺陷很明顯，相比之下，TPU和ASIC等新的架構雖然通用性不強，但電晶體利用率能夠達到60%-100%，“未來三五年國內外必定出現一大堆GPU架構之外的AI晶片”。

星星點點，足以讓輝達這個巨物被撼動。

“你以為輝達就像是外表看來一騎絕塵無對手？真不是”，一位輝達員工告訴36氪。正如黃仁勳經常掛在嘴邊的一句話，“我們距離倒閉，只有30天的時間 ”。

輝達做了十幾年的準備，再撞上OpenAI這樣的天才公司，才共同催化才出現了輝達的奇蹟。

在過去，半導體行業最不缺乏彎道超車巨頭的故事。圍剿輝達之戰的硝煙，早已燃起。 (36氪Pro)