誰能成為輝達平替?



AI晶片明星創業公司、獨角獸紛紛湧現,試圖從輝達口中虎口奪食。

誰能替代輝達?

在資料中心GPU領域,2023年輝達出貨量達到376萬片,佔據全球近98%的市場份額,可以說無人匹敵。

AI晶片也被稱為AI加速器或計算卡,是專門用於處理人工智慧應用中的大量計算任務的模組,主要包括圖形處理器(GPU)、現場可程式設計門陣列(FPGA)、專用積體電路(ASIC)等。

根據Gartner的資料,2023年AI晶片市場規模將達到534億美元,比2022年增長20.9%,2024年將增長25.6%,達到671億美元。到2027年,AI晶片營收預計將是2023年市場規模的兩倍以上,達到1194億美元。

各大巨頭公司上演的算力軍備競賽無疑成為了推高AI晶片市場的強勁動力。

從2024年起,主流大模型幾乎都在千億參數之上,Llama3有4000億參數、GPT4有1.8兆參數。兆參數大模型,對應著萬卡以上規模的超大算力叢集。

OpenAI掌握著至少達五萬片的輝達高端GPU,Meta自建了24576片H100組成的超萬卡叢集,Google則有26000片H100構成的A3超級電腦……超過有4萬家企業採購了輝達GPU,像Meta、微軟、亞馬遜、Google總計貢獻了其40%的收入。

財報顯示,輝達毛利率達到71%,其中,A100和H100系列的毛利率更是高達90%。輝達作為一家硬體公司,有著比網際網路公司更高的毛利率。

據悉,輝達用於資料中心的AI晶片每片售價為2.5萬-4萬美元,是傳統產品的7-8倍。研究公司Omdia諮詢總監Kazuhiro Sugiyama表示,輝達產品價格高昂,這對想投資AI的公司來說是一個負擔。

高昂的售價也讓不少大客戶開始尋找替代方案。7月30日,蘋果宣佈其AI模型用8000片GoogleTPU來訓練。OpenAI首顆晶片也於今日曝光,將採用台積電最先進的A16埃米級工藝,專為Sora視訊應用打造。

全球範圍內,AI晶片明星創業公司、獨角獸紛紛湧現,試圖從輝達口中虎口奪食。這其中,既有華人背景的獨角獸SambaNova以及剛剛嶄露頭角的Etched,也有OpenAI CEO奧特曼投資的獨角獸Cerebras Systems正在衝刺IPO,軟銀集團總裁孫正義則是在去年將ARM成功上市之後,今年7月又收購了英國AI晶片公司Graphcore,試圖打造下一個輝達。

斯坦福系華人打造的AI晶片獨角獸SambaNova


8月27日,美國AI晶片初創公司SambaNova首次詳細介紹了其新推出的全球首款面向兆參數規模的人工智慧(AI)模型的AI晶片系統——基於可重構資料流單元 (RDU) 的 AI 晶片 SN40L。

據介紹,基於SambaNova的SN40L的8晶片系統,可以為5兆參數模型提供支援,單個系統節點上的序列長度可達256k+。對比英偉的H100晶片,SN40L不僅推理性能達到了H100的3.1倍,訓練性能也達到了H100的2倍,總擁有成本更是僅有其1/10。



SambaNova CEO Rodrigo Liang


公司的三位聯合創始人都是斯坦福背景,其中CEO Rodrigo Liang是前Sun/甲骨文工程副總裁,另外兩位聯合創始人都是斯坦福教授,此外團隊中還有不少華人工程師。

SambaNova目前估值50億美元(約365億元人民幣),累計完成了6輪總計11億美元的融資,投資方包括英特爾、軟銀、三星、Google Venture等。




他們不僅在晶片上要挑戰輝達,業務模式上也要比輝達走得更遠:直接參與幫助企業訓練私有大模型。並且晶片不單賣,而是出售其定製的技術堆疊,從晶片到伺服器系統,甚至包括部署大模型。

其對於目標客戶的野心更是很大——瞄準世界上最大的2000家企業。目前,SambaNova的晶片和系統已獲得不少大型客戶,包括世界排名前列的超算實驗室,日本富岳、美國阿貢國家實驗室、勞倫斯國家實驗室,以及諮詢公司埃森哲等。

Rodrigo Liang認為,大模型與生成式AI商業化的下一個戰場是企業的私有資料,尤其是大企業。最終,企業內部不會運行一個GPT-4或GoogleGemini那樣的超大模型,而是根據不同資料子集建立150個獨特的模型,聚合參數超過兆。

這一策略與GPT-4和GoogleGemini等做法形成鮮明對比,巨頭大多希望建立一個能泛化到數百萬個任務的巨型模型。

兩個00後哈佛輟學生打造的AI晶片公司Etched


Etched創始人是兩個哈佛00後輟學生。Gavin Uberti曾在OctoML和Xnor.ai擔任要職,Chris Zhu則是華裔,除了在哈佛大學擔任過電腦科學的教學研究員外,還有在亞馬遜等公司的實習經歷。

他們在ChatGPT還沒有發佈的時候就看好大模型方向,於是在2022年從哈佛大學退學,與 Robert Wachen 和前賽普拉斯半導體公司首席技術官 Mark Ross聯手創辦了Etched,打造專用於 AI 大模型的晶片。



Gavin Uberti(左)和Chris Zhu(右)


他們走了一條獨特的路線:只能跑Transformer的AI晶片,並且採用了ASIC的設計方案。目前,市面幾乎所有方案都對AI模型廣泛支援,而他們從2022年底,就篤定Transformer模型將會統治整個市場,認為GPU在性能升級上的速度太慢了,只有走特化的ASIC晶片這條路才能實現性能上的飛躍。

歷經兩年,今年6月27日,Etched 推出了自己的第一款 AI 晶片 Sohu,成為了世界第一款專用於 Transformer 計算的晶片。

它運行大模型的速度比輝達H100要快20倍,比今年3月才推出的頂配晶片B200還要快上超過10倍。一個搭載八片Sohu晶片的伺服器,可以取代整整160個輝達H100 GPU。大大降低成本的同時,也不會有性能損失。

由於Sohu僅支援一種演算法,所以絕大多數的控制流模組都可以被剔除,晶片可以整合更多的數學計算單元,在算力利用率上可以達到90%以上,而GPU卻只能做到30%。對於一個規模不算大的設計團隊而言,維護單一架構的軟體棧明顯壓力也更小。




在Sohu晶片發佈的同時,Etched也宣佈已完成了1.2億美元的 A 輪融資,由 Primary Venture Partners 和 Positive Sum Ventures 共同領投。

本輪融資的主要投資者包括矽谷知名投資人Peter Thiel、加密數字貨幣交易平台Coinbase前首席技術官及前a16z普通合夥人Balaji Srinivasan、GitHub 首席執行官 Thomas Dohmke、Cruise 聯合創始人 Kyle Vogt 和 Quora 聯合創始人 Charlie Cheever等等。

奧特曼投資的AI晶片獨角獸Cerebras Systems擬衝刺IPO


成立於2015年的Cerebras Systems最獨特的地方在於,他們的晶片和主流的輝達GPU大相逕庭。過去,晶片在摩爾定律的牽引下越做越小,以輝達H100為例,814平方毫米的核心面積上擁有800億電晶體。

而Cerebras的AI晶片,則選擇將一整張晶片越做越大,號稱“造出了世界上最大面積晶片”。據介紹,Cerebras開發的WSE 3晶片由整張晶圓切割,比盤子還大,需要人用雙手捧起來。一張WSE 3晶片,在46000多平方毫米的核心面積上擁有40000億電晶體(是H100的50倍)。



比盤子大的晶片,需要用雙手捧起來。圖源:Ars Technica


Cerebras宣稱,他們的晶片可以訓練的 AI 大模型規模,比目前業界頂尖大模型(如OpenAI 的GPT-4或Google的Gemini)還要大10倍。

今年8月27日,Cerebras Systems宣佈推出AI推理服務Cerebras Inference,號稱“全球最快”。據官網介紹,該推理服務在保證精度的同時,速度比輝達的服務快20倍;其處理器記憶體頻寬是輝達的7000倍,而價格僅為GPU的1/5,性價比提高了100倍。Cerebras Inference還提供多個服務層次,包括免費、開發者和企業級,滿足從小規模開發到大規模企業部署的不同需求。

聯合創始人兼CEOAndrew Feldman擁有斯坦福大學MBA學位,首席技術官Gary Lauterbach被公認為業界頂尖的電腦架構師之一。2007年,兩人一起創辦了微型伺服器公司SeaMicro,並由AMD在2012年以3.34億美元收購,兩人隨之加入了AMD。




據外媒披露,Cerebras Systems已秘密申請在美國IPO,最快2024年10月上市。目前,這家公司已融資7.2億美元,估值約為42億到50億美元,其中,最大的個人投資者之一是OpenAI的首席執行官山姆•奧特曼(Sam Altman)。據報導,奧特曼參與了Cerebras 的8100萬美元D輪融資。

晶片傳奇大神加盟的Tenstorrent,要成為輝達的“平替”


在2021年之前,Tenstorrent還是一家名不見經傳的公司。不過,隨著被譽為“硅仙人”的半導體行業大神級人物吉姆・凱勒(Jim Keller)宣佈加入該公司並擔任首席技術官兼總裁,這家公司一時名聲大噪。

吉姆·凱勒從業歷程堪稱電腦行業歷史。1998-1999年,吉姆·凱勒在AMD操刀了支撐速龍的K7/K8架構;2008-2012年,在蘋果牽頭研發了A4、A5處理器;2012-2015年,在AMD主持K12 ARM項目、Zen架構項目;2016-2018年,在特斯拉研發FSD自動駕駛晶片,2018-2020年,在Intel參與神秘項目。

吉姆·凱勒加盟Tenstorrent,希望為輝達昂貴的GPU提供“平替”。他認為,輝達並沒有很好地服務於某些市場,而這些市場恰恰是Tenstorrent所要奪取的。

Tenstorrent 稱,其 Galaxy 系統的效率是輝達DGX的三倍,成本低 33%,後者是世界上最受歡迎的 AI 伺服器。

據報導,Tenstorrent 有望在今年年底前發佈其第二代多用途 AI 處理器。根據 Tenstorrent去年秋天的最新路線圖,該公司打算發佈其Black Hole獨立AI處理器和Quasar低功耗低成本小晶片,用於多小晶片 AI 解決方案。

該公司聲稱其即將推出的處理器提供的性能效率可與輝達的 AI GPU 相媲美。同時,Tenstorrent 表示,其架構對記憶體頻寬的消耗低於競爭對手,這是其更高效率和更低成本的關鍵原因。

Tentorrent晶片主要特點是其100多個核心中的每個核心都有小型CPU,即“大腦中的大腦”,核心將能夠自行“思考”,決定先處理那些資料,或者是否放棄某些被認為不必要的任務,從而提高整體效率。




截至目前,Tentorrent已經完成至少6輪融資。此前,Tentorrent的投資方以風投為主,也就是在吉姆·凱勒加盟之後,公司在2023年8月完成了新一輪1億美元的融資,投資方中開始出現了產業資本——現代汽車集團和三星旗下風投公司Samsung Catalyst Fund。

軟銀打折收購Graphcore,打造輝達的競爭對手


Graphcore成立於2016年,由CTO Simon Knowles和CEO Nigel Toon創立。公司致力於開發Intelligence Processing Unit(IPU),這是一種專門為人工智慧和機器學習設計的處理器,具有獨特的架構和優勢,例如大規模平行的MIMD架構、高記憶體頻寬和緊密耦合的本地分佈式SRAM等。

Graphcore 陸續推出了多款基於IPU的產品,如GC200 IPU處理器、Bow IPU等,並不斷進行技術升級和改進。

不過,今年7月,這家正處於困境的英國AI晶片企業已被軟銀收購。

根據協議,Graphcore將成為軟銀的全資子公司,繼續以現有名稱營運。報導稱,整個交易總額可能達到約4億英鎊(約合5億美元,35.60億元人民幣),比Graphcore上輪融資時估值28億美元縮水82%左右,實際軟銀僅用2折價值買下Graphcore。




Graphcore 曾一度被視為“英國版輝達”。然而自 2020 年以來,該企業未獲得新的投資,也丟失了來自微軟的重要訂單,這使其資金緊張、營運困難,未能跟上AI晶片領域的大勢。同時,美國對中國 AI 半導體的出口管制持續收緊,也影響Graphcore在中國的發展,最終不得不選擇退出中國市場,並損失總收入的四分之一。

此次收購Graphcore不僅鞏固了軟銀在AI晶片領域的地位,也是孫正義AI戰略的重要一步。

前Google工程師成立Groq,創造出新物種LPU


Groq在今年8月宣佈完成6.4億美元D輪融資,投資方包括貝萊德、思科投資、三星催化基金等,估值達到28億美元。




這家公司由前Google工程師Jonathan Ross於2016年創立,聲稱其語言處理單元硬體LPU可以運行現有的GenAI模型,如GPT-4,速度將提升十倍,而能耗僅為十分之一。該公司利用Meta的Llama 2創造了一個新的大型語言模型(LLM)性能記錄,即每使用者每秒300個令牌(Token)。

相對於GPU的多功能性,LPU雖然在語言處理方面表現出色,但其應用範圍較窄。這限制了它們在更廣泛的 AI 任務範圍內的通用性。此外,作為新興技術,LPU 還沒有得到社區的廣泛支援,可用性也面臨挑戰。

Groq計畫在2025年第一季度末部署超過10.8萬個LPU,這是除主要科技巨頭之外最大的人工智慧推理部署。 (鏡觀台)