AI晶片新戰役:ASIC登場,GPU失色



談及AI晶片,公眾首先映入腦海的往往是GPU的身影。

GPU在訓練和運行大AI模型方面一直佔據主導地位,其強大的平行處理能力讓它在處理複雜計算任務時遊刃有餘。

然而由於一些原因,炙手可熱的GPU正在面臨一些挑戰與侷限性,使其 “AI寵兒” 的地位逐漸受到動搖。

01

風口上的GPU

關於GPU市場格局變動的原因,可歸結為以下三大要素:

第一點,GPU已成為AI晶片領域競爭的核心焦點。目前,輝達所產出的GPU主要被各大科技巨頭所壟斷。

近日,LessWrong網站上發表了一篇部落格,根據公開資料對輝達晶片的產量、各個AI巨頭的GPU/TPU數量進行了估計。

其中微軟目前擁有75萬至90萬塊H100 GPU,預計到2025年這一數字將飆升至250萬至310萬塊。Google的表現同樣強勢,現階段掌握了100萬至150萬塊H100,明年預計增加到350萬至420萬塊。Meta擁有55萬至65萬塊GPU,預計未來一年將增長至190萬至250萬塊。此外,亞馬遜當前擁有25萬至40萬塊GPU,預計將在2025年達到130萬至160萬塊。而新興公司xAI也在迅速崛起,預計從10萬塊H100增長至55萬至100萬塊。

這些資料充分反映出大型企業對AI算力的爭奪已趨於白熱化,尤其是微軟和Google。

此外,Melius Research的分析師Ben Reitzes的報告顯示,這些巨頭正在特別購買輝達的GB200晶片,其中微軟下單量在70萬至140萬塊之間,Google為40萬塊,亞馬遜則購買了36萬塊,OpenAI也不甘示弱,至少擁有40萬塊GB200晶片。

科技巨頭包攬輝達GPU的同時,直接導致了中小型企業在獲取GPU資源上面臨嚴峻挑戰。

第二點,GPU價格的飆升使得這些科技巨頭在採購晶片時需要支付更高的成本。

據投行Raymond James的分析師估計,H100售價為2.5萬至3萬美元。 就算是價格、訂購數量都按照區間的低端進行計算,微軟也需要花費超過180億美元用於購買GPU。

微軟、亞馬遜、Google等科技巨頭正在全球範圍內加速佈局AI算力,以維持其市場競爭力。據報導,這些公司在AI相關項目和資料中心上的投資已超過400億美元,並預計未來十年的支出將達到1兆美元。

在眾多花錢的項目中,購買GPU便是各家的當務之急。

日前,埃隆·馬斯克的人工智慧初創公司xAI已經向輝達成功下單,訂購了價值10.8億美元的GB200 AI晶片,並憑藉這筆巨額交易獲得了優先交付的權利。

高昂的售價讓科技巨頭們壓力倍增,叫苦不迭。

第三點,從另一角度來看,即便科技巨頭暫且將成本因素置於次要地位,輝達本身的供應不足狀況仍使這些科技巨頭憂心不已。

目前,輝達的GPU壟斷了約80%的AI半導體,製造在台積電進行。在後續的流程中,會利用CoWoS進行封裝,但是CoWoS的產量目前是一個瓶頸。

另外,在CoWoS中,GPU周圍放置了多個HBM(高頻寬記憶體),這些HBM是堆疊的DRAM,也被認為是瓶頸之一。

在產能不足、巨頭哄搶、售價高昂的背景下,大大小小眾多企業開始積極探尋輝達 GPU 的替代品,試圖破解AI晶片市場的一家獨大的現狀。

AMD首席執行官蘇姿丰(Lisa Su)也在前不久表示,隨著行業將精力集中於更加標準化的模型設計,將有機會建構更多在可程式設計性和靈活性方面要求不那麼高的定製晶片。這種晶片將更加節能、體積更小、成本更低。

“目前,GPU是大語言模型的首選架構,因為GPU在平行處理方面非常高效,但在可程式設計性方面有所欠缺,”蘇姿丰說。“五年多後它還會是首選架構嗎?我認為情況會發生變化。”

蘇姿丰預計,五年或七年時間內GPU還不會失勢,但會出現GPU以外的新勢力。

那麼,除了GPU,還有那些類型的晶片能夠勝任AI計算的任務呢?

02

AI晶片的另外兩種主流選擇

在近兩年的技術浪潮中,另外兩種晶片——FPGA與ASIC,也逐漸走進了大眾的視野。

FPGA(Field Programmable Gate Array,現場可程式設計門陣列),是一種半定製晶片。使用者可以根據自身的需求進行重複程式設計。FPGA 的優點是既解決了定製電路的不足,又克服了原有可程式設計器件門電路數有限的缺點,對晶片硬體層可以靈活編譯,功耗小於 CPU、GPU;缺點是硬體程式語言較難,開發門檻較高,晶片成本、價格較高。FPGA 比 GPU、CPU 更快是因為其具有定製化的結構。

ASIC(Application Specific Integrated Circuit特定用途積體電路)根據產品的需求進行特定設計和製造的積體電路,其定製程度相比於 GPU 和 FPGA 更高。ASIC 算力水平一般高於GPU、FPGA,但初始投入大,專業性強縮減了其通用性,演算法一旦改變,計算能力會大幅下降,需要重新定製。

從成本角度看,GPU、FPGA、ASIC 三種硬體從左到右,從軟體到硬體,通用性逐漸降低、越專用,可定製化逐漸提高,相應的設計、開發成本逐漸提高,但是單位成本理論性能越高。

從運算速度來看,由於GPU架構固定,硬體原生支援的指令也固定。而FPGA和ASIC則是可程式設計的,因此,GPU的運算速度要遜色於FPGA和ASIC。

從功耗和時延角度來看,GPU的功耗遠遠大於FPGA和ASIC。GPU時延也高於FPGA、ASIC。

FPGA與ASIC的適用場景也不盡相同,就邊緣AI而言,FPGA確實展現出了更高的適用性;ASIC的主要優勢在於其針對特定任務的高度最佳化,這通常會導致更高的性能和更低的功耗(在大量生產時),也正因此,在AI計算應用中,業內對於ASIC的呼聲似乎要略高於FPGA。

03

多家機構,看好ASIC

12月,博通的定製ASIC和輝達GPU引起廣泛討論。

摩根士丹利12月15日發佈研報《AI ASIC 2.0:潛在贏家》,認為ASIC憑藉針對性最佳化和成本優勢,有望逐步從輝達GPU手中爭取更多市場份額。

隨著生成式AI應用的迅猛發展,全球AI計算需求呈現爆炸式增長。報告預計,到2027年,雲端AI半導體市場規模將達到2380億美元,而在樂觀情境下甚至可能達到4050億美元。


摩根士丹利預計,AI ASIC市場規模將從2024年的120億美元增長至2027年的300億美元,年複合增長率達到34%。

儘管輝達的AI GPU性能卓越,但摩根士丹利認為,雲服務提供商如Google、亞馬遜和微軟,仍在積極推動ASIC設計。這背後的驅動力主要有兩個。

首先,是最佳化內部工作負載。通過開發自訂晶片,CSP可以更高效地滿足其內部AI推理和訓練需求。

其次,是更好的性價比。報告指出,雖然輝達的GPU具備強大的計算性能,但其硬體價格高昂,特別是在AI訓練過程中。相比之下,ASIC的單位成本更低,尤其是在大規模使用後。

巴克萊的另一份報告則預計,AI推理計算需求將快速提升,預計其將佔通用人工智慧總計算需求的70%以上,推理計算的需求甚至可以超過訓練計算需求,達到後者的4.5倍。輝達GPU目前在推理市場中市佔率約80%,但隨著大型科技公司定製化ASIC晶片不斷湧現,這一比例有望在2028年下降至50%左右。

04

國際龍頭,各自佈局

博通,是AI市場的“新任寵兒”

截至12月13日收盤,美股又一家兆美元市值晶片公司誕生。當天博通股價大漲超過24%,市值首次突破1兆美元大關,也成為繼輝達和台積電之後,全球第三家市值過兆美元的半導體行業公司。

博通股價大漲是在公司公佈了好於預期財報之後。博通全年業績顯示,2024財年,全年營收達516億美元,同比增長44%,其中AI和VMware兩大業務類股成為核心增長引擎。

ASIC定製服務是博通半導體業務的一項重要收入來源,特別是在AI的驅動之下,博通來自與AI相關的ASIC定製服務營收正快速增長。

博通CEO陳福陽在近日的財報電話會上預測稱,目前的三大科技客戶將在2027財年花費600億至900億美元購買博通供應的人工智慧元件。

業界分析,博通ASIC晶片的大客戶包括Google、Meta;近期市場消息顯示,蘋果也有計畫開發AI伺服器晶片,合作方很有可能也是博通。

不僅如此,從美國目前對中國的禁售條款來看,ASIC晶片似乎始終被排除在外,博通也因此持續受益。

隨著博通為雲端運算廠商定製更多AI晶片,這些廠商可能減少對輝達晶片的依賴,有市場投資者擔心輝達未來的晶片需求可能有所緩解。

Marvell受到追捧

與博通業務模型類似的Marvell也在近日受到資本市場追捧。

12月初,Marvell已經發佈了2025財年第三財季財報,期內公司實現營業收入15.16億美元,同比增長7%、環比增長19%。其中資料中心相關收入同比增長98%、環比增長25%,這是公司旗下所有業務中唯一實現同比收入增長的業務類型。

Marvell總裁兼CEO Matt Murphy指出,這主要來自於AI定製化晶片需求支撐,此外還有雲服務客戶對於互聯產品的持續性需求。預計這種趨勢將延續到2026財年(約指2025公曆年份)。

僅在12月,Marvell先是官宣與亞馬遜雲(AWS)擴大戰略合作,宣佈一項為期五年、跨代際產品的合作計畫,涵蓋Marvell旗下定製AI晶片、DSP、資料中心互聯光模組、乙太網路交換機解決方案等多種類型,以支援AWS推進在資料中心計算、網路和儲存等方面強化產品能力。不久還宣佈推出業界首款3nm高速(1.6Tbps)互聯平台。

博通和Marvell有類似的產業定位,並不聚焦於GPU這類通用的大規模平行計算晶片設計研發,而是更專注於幫助有晶片定製化需求的主流雲服務廠商進行產品設計。這也是ASIC晶片相關業績高速成長的原因。

Google,自研TPU

Google 早在 2013 年就秘密研發專注 AI機器學習演算法晶片,並用於雲端運算資料中心,取代輝達 GPU。

這款TPU自研晶片2016年公開,為深度學習模型執行大規模矩陣運算,如自然語言處理、電腦視覺和推薦系統模型。Google 其實在 2020 年的資料中心便建構 AI 晶片 TPU v4,直到 2023 年 4 月才首次公開細節。

值得注意的是TPU是一種定製化的 ASIC 晶片,它由Google從頭設計,並專門用於機器學習工作負載。

2023年12月6日,Google官宣了全新的多模態大模型Gemini,並丟出了另一個重磅炸彈——全新的自研晶片TPU v5p,它也是迄今為止功能最強大的TPU。

隨後在今年5月,Google又宣佈了第六代資料中心 AI 晶片 Tensor 處理器單元--Trillium。

據悉,除了輝達所佔據的80%市場,其餘20%的絕大部分由各種版本的GoogleTPU所控制。Google自身不出售晶片,而是通過其雲端運算平台租用存取權。

微軟:推出基於Arm架構的通用型晶片Cobalt、ASIC晶片Maia 100

2023年11月,微軟在Ignite技術大會上發佈了首款自家研發的AI晶片Azure Maia 100,以及應用於雲端軟體服務的晶片Azure Cobalt。兩款晶片將由台積電代工,採用5nm製程技術。

Cobalt是基於Arm架構的通用型晶片,具有128個核心,Maia 100是一款專為 Azure 雲服務和 AI 工作負載設計的 ASIC 晶片,用於雲端訓練和推理的,電晶體數量達到1050億個。這兩款晶片將匯入微軟Azure資料中心,支援OpenAI、Copilot等服務。

負責Azure晶片部門的副總裁Rani Borkar表示,微軟已開始用Bing和Office AI產品測試Maia 100晶片,微軟主要AI合作夥伴、ChatGPT開發商OpenAI,也在進行測試中。

不過,微軟並不認為自己的 AI 晶片可以廣泛替代輝達的產品。有分析認為,微軟的這一努力如果成功的話,也有可能幫助它在未來與輝達的談判中更具優勢。

除了前述幾家公司,Meta等科技行業領導者正積極加快自主研發晶片的步伐。這些努力不僅限於ASIC領域,還包括FPGA和RISC-V等多個方向,旨在降低對輝達技術的依賴。

在科技行業中,不單單是這些頭部企業有所動作。摩根士丹利在相關報告裡對全球 ASIC 供應鏈展開了梳理,並且確定了六大潛在的優勢方:

ASIC供應商方面,除了博通,Alchip(世芯電子)和Socionext也被視為ASIC市場的潛力股。其中,Alchip由於與AWS的深度合作,預計將在2026年顯著提升市場份額。

電子設計自動化工具方面,Cadence有望實現結構性增長。

代工廠方面,台積電及其供應鏈夥伴將從ASIC設計與製造的快速增長中受益。

測試服務方面,Advantest是AI晶片測試領域的領先者,其在AI裝置測試方面的專注將為其帶來顯著增長。

HBM方面,三星電子是非輝達HBM市場份額領先者,將從ASIC需求增長中獲益。

05

蘋果,屢試“新果”

今年7月,蘋果公司發佈iPhone AI的首個預覽版,隨後發佈論文,稱其人工智慧模型是在Google的TPU(張量處理單元)上訓練的。論文中介紹了為支援Apple Intelligence功能而開發的基礎語言模型,包括一個設計用於在裝置上高效運行的約30億參數模型和一個基於私有雲端運算的雲側大模型。

近日,蘋果公司在亞馬遜的AWS Reinvent大會上又高調宣佈將使用亞馬遜自家定製的AI晶片進行模型訓練。根據蘋果機器學習與人工智慧高級總監Benoit Dupin的說法,蘋果正在評估亞馬遜最新的Trainium2晶片,尤其是其在預訓練“蘋果智能”(Apple Intelligence)模型方面的潛力。

這一跡象表明,在訓練尖端人工智慧方面,大型科技公司正在探索除輝達GPU以外的其他替代方案。

長久以來,人工智慧訓練主要依賴於價格高昂的輝達圖形處理器。然而,雲服務提供商與初創企業正積極研發成本更低的替代方案,並探索可能實現更高效處理的新途徑。蘋果採用定製晶片的做法,或許在向其他企業傳遞一個訊號:非輝達的訓練方案同樣也能奏效。 (半導體產業縱橫)