圍剿輝達



ChatGPT爆火,打開了一個價值千億美元的AI晶片市場,誰能從看似無法戰勝的晶片巨人輝達身上,撕下一塊肉來?



反抗

一個隱秘的微信群,在上海張江的AI晶片公司人士中口口相傳,群名叫“國產晶片抱團取暖群”,進群的必須是國產晶片公司員工,在這裡,即使是競爭對手,也會交換資訊,互換商務資源。

“國產晶片抱團取暖群”圈定了一塊停戰區,同行可以暫時休戰,互幫互助,只因為大家都有一個共同的敵人:輝達

因為輝達的存在,國產晶片公司的銷售,多少都嘗過一點屈辱的滋味。

李明(化名)是一家國產GPU公司的銷售,這一輪AI熱潮掀起時,他曾信心滿滿地去見客戶,可來不及寒暄,客戶開口就是連環追問:

“你們的東西,和輝達A100晶片相比,啥差距?輝達有NVLink,你們有什麼?”(作者註:NVLink是把多個GPU晶片連接起來,避免GPU的資料搬到CPU計算,以提升計算效率)

眼見用產品和技術打動不了客戶,李明的團隊開始想辦法托關係,找“更有力的人士”去遊說,但客戶還是擺擺手,“我們還是想用輝達”。

輝達A100,826平方毫米面積上就塞了540億個電晶體,是打開AI大模型魔盒的鑰匙。大模型訓練,像是在海量資料中“煉丹”,目的是找出資料變化的規律;而用輝達晶片訓練大模型,就好比讓幾億個智商200的人來算數,而其它晶片的效果,只等同於找了幾千個智商100的人來計算。


輝達A100 圖片來自輝達官網


最頂尖的科技公司,都在瘋狂搶購輝達。誰擁有最多的輝達高端GPU,誰就有機會訓練出更聰明的大模型。

公開資訊顯示,OpenAI目前掌握著全世界最多的輝達高端GPU,至少達五萬片;Google、Meta也是萬卡叢集的擁有者(2.6萬左右);而國內罕見有輝達高端GPU萬卡叢集的網際網路大廠,是字節跳動(1.3萬)。

輝達壟斷著全球產業鏈上最好的資源——擁有台積電最充足的晶片先進製程產能、籠絡著全世界最大的工程師使用者群體,掌握了一眾AI公司的計算命脈。

絕對的壟斷,往往會滋生不滿、憤怒和逃離。

“今天所有做大模型的,基本都在嚴重虧錢!只有一家在賺錢!輝達”,一位行業人士語氣忿忿不平——“輝達的利潤率讓所有的客戶都很難受,很傷害AI行業!”

財報顯示,輝達毛利率達到71%,其中,熱門產品A100和H100系列,毛利率高達90%。作為一家硬體公司,輝達居然享有比網際網路軟體公司更高的毛利率。

高價暴利,讓輝達的大客戶開始逃離。7月30日,蘋果宣佈其AI模型用8000片GoogleTPU來訓練,而輝達含量是0;消息一出,輝達股價下跌超7%,創下近三個月最大跌幅,市值蒸發1930億美元,幾乎跌掉了一個拼多多。


輝達股價跌幅圖


對於所有想在輝達身上撕下一塊肉的國內GPU企業來說,2022年是個轉機之年,美國數輪禁令下達,輝達迫於生計,在中國持續推出閹割版本晶片,但又被快速停用:

2022年9月,A100/H00禁止向中國出口,輝達推出閹割版本A800/H800;

2023年10月,A800 / H800 / L40 / L40S / RTX4090被禁止向中國出口;

2024年6月,輝達創始人黃仁勳稱,將向中國推送閹割版本的L20、H20晶片。

然而,閹割版本引發了行業更激烈的聲討。輝達即將推送的H20,價格雖是輝達H100的一半,性能卻前者只有1/3。一位AI行業人士怒斥——“這不就搶錢嗎?純純智商稅!”

當輝達的客戶開始不滿與憤怒,那些想代替輝達的國產晶片公司,卻在這種情緒中得到了“滋養”。

過去,他們只能跟在輝達的屁股後面,艱難分食一點點蛋糕碎屑。半導體分析公司TechInsights的一項資料顯示,2023年,輝達在資料中心GPU出貨量市場份額高達98%,國產晶片和一眾晶片巨頭加起來,只佔微弱的2%。

如今禁令襲來,完美的輝達在中國市場被撕開一道口子,誰能替代輝達?國產AI晶片廠商看到了生機。

“今年咔嚓,輝達在中國的90%市場都給釋放出來了,能不能搶到,各憑本事”,一家國產GPU公司創始人表示。

36氪曾在2021年發表過《深氪|寧德時代:電池帝國的裂縫》,在動力電池行業,寧德時代一騎絕塵,被競爭對手們虎視眈眈。如今,在AI晶片領域一家獨大的輝達,也被諸多同行視為眼中釘、肉中刺,但輝達的不同在於,它的壁壘更高,與對手們的差距更大。

我們嘗試通過輝達對手們的反抗,去找到“輝達的裂縫”,放眼GPU行業,國產GPU、AI晶片廠商雖然力量孱弱,但他們更懂中國市場,打法更加本土化;而諸如英特爾、AMD等老牌晶片巨頭,則有著更充足的糧草彈藥,正面對擊輝達。

短期內,輝達不會被打倒,但它也不會毫髮無傷。



突圍

想突圍,就要找到對手的弱點。輝達的弱點之一是:傲慢。

晶片行業,本質上是一個To B軟體行業。客戶需要晶片廠商“陪伴感”的服務,比如把硬體偵錯好、把軟硬體相容做好,陪伴到位了,客戶才有粘性,晶片產品就不容易被替換。

但多位國產晶片人士告訴36氪,在中國市場,除了像BAT、字節這樣幾十億規模的大採購方,其餘大部分公司交易額縱使達幾千萬,幾乎很難得到來自輝達的售後服務。

也就是說,當使用輝達晶片的中國工程師們有疑惑時,只能靠自己到輝達官網上搜尋文件,或者去社區自學。

和輝達合作時,中國客戶們的種種需求經常得不到滿足。一位晶片行業人士告訴36氪,輝達在中國一般會推最高配、最貴的全套方案,而當客戶提出針對特定場景的定製化要求時,也一般會被否掉,客戶們買完卡後,要“自己琢磨,或者再找厲害的演算法公司搞定”。

輝達的這種做法,積累了不少中小客戶的抱怨。“輝達如今作為大廠,對小客戶已經不會像過去那樣重視,他們的產品沒有挑戰者,不需要去費力討好客戶”,前述人士表示。

但在過去,輝達生態的崛起其實印證了服務對於晶片行業的重要性:2006年,CUDA生態剛起步時,輝達產品和如今的國產晶片一樣並不出色。但輝達團隊先從高校的科研團隊推起,再滲透到每一個細分行業的初創公司做軟硬體適配,才有了如今的大片江山。


NVIDIA H100 圖源:輝達官網


中國晶片廠商們,也領悟到這一點,嘗試從客戶服務開始切入。

國內某家不願具名的AI晶片公司,2023年以來,嘗試讓後台的研發人員走到一線親自服務——不僅要駐場聯合調教,在銷售打單後,給客戶專門拉個有研發人員的小群。客單價小到幾百萬、幾十萬不等,都能享受7×24小時的諮詢。

光提供本地化的貼心服務遠遠不夠,在輝達中國大撤退之餘,晶片行業而早已不簡單是晶片產品本身對決,更考驗著各自對時間窗口期的把握。中國晶片廠商就像一群狼撲上來,轟轟烈烈的打單開始了。

華為來勢最兇猛。華為此前聯合訊飛,發佈的裝置“星火一體機”上,就搭載了“昇騰910B”。這顆晶片,曾號稱單卡能力“對標輝達A100”。不為人知的是,光鮮案例背後艱難的一面——36氪瞭解到,華為對此不惜人力成本,調配了幾百名工程師下場幫訊飛調教參數。


華為和訊飛發佈星火一體機,圖源訊飛


儘管這被行業稱為“手工打造”,但標竿案例一出,許多大模型公司、網際網路公司都對華為拋出了測試的橄欖枝。

一家國產晶片銷售驚訝發現,自從去年7月份至今,只要是公開招標的智能算力中心項目,都能看到華為等級不低的管理層在那駐場,“華為如今一個項目可以派幾百個人上去服務,甚至一些關鍵項目不惜虧本,從別的項目獲得收入”。

前述不具名晶片公司,也配齊了200名鐵血銷售——在國內晶片行業,這都是一個相當罕見的組態。他們的銷售團隊從大模型落地最火熱的三個領域開始入手,金融、法律、工業,幾乎出現在每一場與算力相關的展會, “晶片行業,資源第一,跑的慢了就死掉了”。

國產晶片一場隱秘的價格戰也開始了。

晶片廠商一位人士告訴36氪,他們的目標是,不惜單價,也要拿下更多標竿智能算力中心的單子。36 氪觀察到,有的國產公司推理卡,為了降低成本,不惜把價貴的HBM(高頻寬記憶體)拿掉,甚至以低於成本價50%的價格在出貨。

“不管怎麼樣,大家還是希望從各個切入點突破,各自從輝達那切走一小小塊蛋糕,讓輝達不再是一家獨大”。


國內外AI晶片公司及關鍵產品,資訊來自公開管道


但現實卻是殘酷的,具體到產品上,國產AI晶片難免出現種種問題。

一位晶片人士向36氪舉例:同樣處理一個資料集,用輝達的A100叢集來跑,可能只需要十天,但用某些國產晶片產品,可能要跑上好幾個月。國產晶片硬體上積累的時間太短,又缺先進製程,硬體上的差距,導致使用效率不高。

軟體短板也很明顯。另一位行業人士測試發現,當使用國產晶片跑大模型時,若要在上面做更多酷炫應用,基礎大模型做一旦改動,國產晶片就容易發生當機,“很多情況下,國產晶片大家基本是捏著鼻子用起來”。

如今,各家真正看清了眼前的“圍剿”策略,也逐漸分化出了更現實的路徑:

儘管還有少數派繼續往萬卡進發,著重訓練場景,和輝達硬剛,其中以摩爾執行緒、華為為代表;但更多數派的選擇是,轉而更關注大模型/小模型在各行各業的落地,從對硬體、軟體要求都不高的推理場景抓起,以燧原、天數智芯等為代表。

(36氪註:大模型有訓練和推理兩個環節:訓練是從幾十億資料庫中尋找規律的過程,是“造”大模型;推理是在“用”大模型的過程,難度更小、對軟硬體要求更低、與產業連接更緊密)


摩爾執行緒在2024年人工智慧大會上發佈誇娥萬卡叢集 36氪拍攝


“我們如今沒有盲目追趕輝達,我們追不起,不敢盲目做超大算力的晶片”,一位晶片行業人士直言。

國內晶片廠商們一個現實的考量是,輝達的主要精力並不在此,國內廠商為此避開了輝達的正面戰火。

此前,大部分公司基於成本考慮,多採用輝達消費級遊戲顯示卡4090來跑推理——這些卡的問題一堆:功耗過高、記憶體不夠、被停用。輝達官方也不允許這些消費級顯示卡被用於大模型推理。

國產晶片公司從輝達這一空白處切入。天數智芯、燧原今年都在猛推對標4090的推理卡,打出了大記憶體、低功耗、供應穩定的賣點。

國產晶片廠商也明確了找準細分市場的重要性。比如則針對一些功耗敏感的場景,主打低功耗小晶片;或者扎進視訊最佳化等細分場景,做小而美的生意。



巨頭戰場,劍拔弩張

當國產GPU公司將“超越輝達”寫進PPT,這更像一種美好的願景,這群公司成立時間不長,迎上了國產替代的風口,即便只超越一點,也被視作是壯舉,輝達之於他們,是對手,也是標竿。

但論及與輝達輩分相當的英特爾、AMD,氣氛就更加劍拔弩張。

“我們內部將輝達當作死敵”,AMD的一位MI系列產品線的研發人員告訴36氪。

在今年6月的台北電腦展(Computex 2024)上,AMD創始人蘇姿丰(她還是輝達創始人黃仁勳的表親)也首次明確了未來AMD在GPU上的產品節奏——每年迭代一款新的GPU產品,和輝達更新節奏保持一致。

輝達幾乎每上一款GPU,AMD都會第一時間從市場上買回來拆機,與還沒上市的產品做對比。“這裡要加點feature(指標)、那裡參數要拉高”,他們追求的是,“硬體上不能落後於輝達,參數上微贏”,前述人士對36氪提到。


蘇姿丰在今年台北電腦展上發佈Instinct MI325X


2023年以來,AMD中國生態合作夥伴們,幾乎每隔兩天,就會收到來自AMD的軟體最佳化新訴求。為了推廣他們的GPU,AMD高管們有時還會要求更優勢的CPU部門,搭配著GPU去打單,頂著CPU可能賣不出去的風險。

“AMD的人天天‘燒香拜佛’,就希望我們把生態搞起來”,一家生態公司高管表示,據他透露,目前國內已經有10多家雲廠商和To B客戶,在和AMD晶片相關的適配和效果驗證。

相比於一眾焦灼的國產晶片廠商,國外晶片巨頭們在硬體層面的優勢在於,擁有先進製程和HBM產能,因此,AMD、英特爾的產品,相比於輝達產品其實不會有太大的差距,某種程度上甚至更優異。

官方的資料顯示,AMD的產品(2023年12月發佈的MI300X)此前宣稱算力是輝達H100的1.2倍;英特爾的產品(2024年4月發佈的Gaudi 3)在能效和推理性能上也遠超H100。當然,也更便宜,AMD的GPU價格大概是輝達對標產品的七八成。

但所有和輝達正面硬剛的廠商都面臨著一個共同的難題:大家的硬體如何有優勢,都因軟體劣勢而黯淡,如同木桶的短板。

在GPU還只能用於圖形計算的年代,輝達推出的軟體平台CUDA,相當於給開發者提供了一套程式設計介面,讓他們能最熟悉的程式語言,在GPU上自如編寫計算程序。

“我給你們打個比方,CUDA為什麼超越不了,就好比你學會一種語言,這麼多年,都是用這個語言幹活的,如果我讓你換一套語言,你會不會很難受,會不會不願意?”一家晶片公司員工這樣給36氪舉例。

CUDA作為輝達軟體生態壁壘最深厚之處,縱是家大業大的英特爾、AMD也無法短時間內彎道超車。

一位英特爾GPU團隊前員工告訴36氪,他們曾經安排全球3000多名工程師、投入了三四年,卻只把精度從0%提升到4%——他們用英特爾的晶片轉換一張人像,等待許久,資訊丟失到“已看不出是一張人臉”。


英特爾CEO基辛格發佈Gaudi系列晶片


“雞生蛋還是蛋生雞”的謬論再現。正是由於AMD和英特爾的GPU用的人不多,其及對應的軟體平台(ROCm、oneAPI)用的人也更少,因此很難有人能把它們真正的硬體能力完全發揮出來。

“輝達的CUDA一直有那麼多開發者在上面迭代演算法,幫輝達把推理和訓練做得很高效,導致輝達一直能有議價權,他也永遠知道他下一個晶片應該咋做,但這是AMD和英特爾都很頭疼的事”,一家AMD生態公司CEO直言,如今AMD的軟體工具ROCm,“就像20年前的輝達CUDA一般”。

但對於下遊客戶來說,風險正是由此而生。

驗證大模型本就是一項有不確定性的實驗,若還要在一個沒有被驗證過的晶片上跑,相當於把兩個不可控的變數放在一起——拋棄輝達,意味著要支付巨大遷移成本,承載不確定性。

儘管如此,圍剿輝達,對於AMD和英特爾這兩家來說,依舊是一場不得不打的仗。

全球晶片架構三分天下:X86架構指導著PC領域,是英特爾和AMD的天下;移動市場是Arm的天下;輝達則主導著人工智慧市場。

在全新AI革命引領時代的近一年半,輝達一度跨過3兆美金市值大關,如今也相當於7個英特爾+AMD市值的總和。

時隔20年後,晶片巨頭們對輝達的“圍剿”,是又一場焦灼的聖戰,這也是一場後知後覺的反撲。



真正的裂縫

當國內AI晶片公司組成螞蟻雄兵,AMD和英特爾全力以赴,遭遇此等圍追堵截的輝達,真的被撼動了嗎?

輝達帝國的裂縫,正在悄悄蔓延。

一個讓輝達必須警惕的訊號是,OpenAI、Google、微軟……這些因AI信仰,為輝達充值的大客戶們,正邁出“反輝達”第一步。

自研晶片是各家籌謀已久的棋局。一位GoogleTPU團隊的前核心員工告訴36氪,用掉了世界上1/4算力的Google,“可能年底就不對外採購晶片了”。過去Google自研TPU更多基於成本考慮,比如擔心輝達隨意漲價,或者供應不夠穩定,如今Google的造芯策略更為激進——“幾乎是不計代價和成本投入”。

OpenAI則有無數手準備,他們計畫籌資高達7兆美元,建立一個全新的AI晶片帝國。

在國內,36氪也從多方瞭解到——目前輝達在國內最大的買方,阿里、字節、百度,基本都在秘密研究用於大模型訓練的晶片。


海外雲廠商、大模型廠商、明星晶片廠商產品進展,36 氪綜合資訊整理、製圖


不過,自研晶片畢竟是一個長遠之計,這些大客戶們短期內的另一項方案是,嘗試輝達對手們的產品,減少對輝達的依賴。

AMD就是這個Plan B。一位AMD內部人士告訴36氪,AMD的GPU產品已經在歐洲、美國、韓國等地,打開了大客戶市場——微軟已經採購上萬片AMD的產品,特斯拉、Midjourney、美國國家實驗室、韓國電信也都已批次提貨。

在國內,AMD生態公司員工陳文表示,AMD某型號加速卡在2023年有幾百片出貨,雖不多,“但AMD的這款產品,此前在國內幾乎查無此人”。

根據AMD方面此前樂觀預計,在2024年年底,資料中心GPU將給AMD帶來高達20億美元的收入。

而中國晶片廠商的螞蟻雄兵,雖然尚未對輝達造成實質性威脅,但星星之火,也有漸起之勢。

36氪瞭解到,如今,國產訓練、推理晶片的銷售,已經躍進了一個新台階——一個令人欣慰的積極訊號是,國內公認最難打單的網際網路公司、大模型公司,已對國產晶片廠商開了口子。

據36氪瞭解,目前,昇騰晶片已經艱難突圍進百度在內的網際網路公司體系。

此外,國內諸如智譜AI、MiniMax、階躍星辰等AI公司,都在訓練兆參數規模的大模型,但在輝達高端晶片有限的情況下,大模型公司們普遍選擇“混訓”(即輝達+其他晶片),比如,智譜AI的叢集儲備了近半的昇騰晶片。

另外,天數智芯、燧原的推理晶片產品去年以來,雙雙有了數萬片的出貨,出貨管道包括國內各大智算中心,前者打進了大模型廠商百川的供應鏈;百度崑崙芯這邊,過去兩代推理晶片累計出貨量數萬片,來自百度和外部管道的出貨量已各佔一半。

“輝達現在的價格和供應水位,正處於試探大家幹不幹、怎麼幹的邊界線上”,一位行業人士直言。


輝達創始人黃仁勳 圖源視覺中國


如果把眼光拉得更到未來三五年,輝達新的威脅也在逐漸閃現。

行業裡面也出現了GPU之外的全新的AI晶片架構——比如此前推出LPU架構的矽谷晶片公司Groq,號稱運行大語言模型比輝達的GPU“速度快了十倍”;

還有發佈了大模型ASIC晶片的矽谷晶片Etched,號稱比輝達GPU“快了一個數量級”。這些晶片創業公司,背後站著OpenAI這樣的明星投資陣容。

36氪瞭解到,國內今年以來也冒出了全新的AI晶片創業公司。比如,上海市近來秘密支援了兩家全新的AI晶片公司。

一家國產TPU公司“中昊芯英”CEO楊龔軼凡表示,GPU的整體電晶體利用率只有20%,其實缺陷很明顯,相比之下,TPU和ASIC等新的架構雖然通用性不強,但電晶體利用率能夠達到60%-100%,“未來三五年國內外必定出現一大堆GPU架構之外的AI晶片”。

星星點點,足以讓輝達這個巨物被撼動。

“你以為輝達就像是外表看來一騎絕塵無對手?真不是”,一位輝達員工告訴36氪。正如黃仁勳經常掛在嘴邊的一句話,“我們距離倒閉,只有30天的時間 ”。

輝達做了十幾年的準備,再撞上OpenAI這樣的天才公司,才共同催化才出現了輝達的奇蹟。

在過去,半導體行業最不缺乏彎道超車巨頭的故事。圍剿輝達之戰的硝煙,早已燃起。 (36氪Pro)