這一戰,Google準備了十年


9月3日,一則消息在科技圈引起了軒然大波:Google開始對外出售TPU了。

據報導,Google近期已在接觸那些主要租賃輝達晶片的小型雲服務提供商,敦促他們在其資料中心也託管Google自家的AI處理器,也就是TPU。

Google已與至少一家雲服務提供商——總部位於倫敦的Fluidstack——達成協議,將在紐約的一個資料中心部署其TPU。

Google的努力不止於此。據報導,該公司還向其他以輝達為核心的服務商尋求類似的合作,其中包括正在為OpenAI建造資料中心的Crusoe,以及向微軟租賃晶片並與OpenAI簽有供應合同的輝達“親兒子”CoreWeave。

9月9日,花旗分析師因TPU競爭加劇將輝達目標價下調至200美元,預計2026年GPU銷售額將因此減少約120億美元。

明眼人都能看出來的是,Google和輝達之間的大戰,已經開始了。而它們爭奪的,將是AI計算這個真正的兆美元市場。

然而,Google對這一戰的準備,其實比我們想像的都要久。

01. TPU,AI計算的最優解?

早在2006年,Google的內部就討論過在自家的資料中心中部署GPU、FPGA或ASIC的可能性。不過,當時只有少數應用程式能夠在這些特殊硬體上運行,而Google大型資料中心的過剩算力也完全夠它們使用了。因此,部署特殊硬體的計畫被擱置。

然而,到了2013年,Google的研究人員發現:如果人們每天使用語音搜尋並通過深度神經網路進行3分鐘的語音識別,那麼當時Google的資料中心需要雙倍的算力才能滿足日益增長的計算需求。

而如果僅通過擴巨量資料中心規模來滿足算力需求,不但耗時,而且成本高昂。於是,在這個背景下,Google開始了TPU的設計。

Google的TPU是為AI計算而生的ASIC晶片,它專注於實現兩個核心目標:極高的矩陣乘法吞吐量與卓越的能效。

為了實現高吞吐量,TPU在硬體層面採用了“脈動陣列”(Systolic Array)架構。該架構由大量簡單的處理單元(PE)構成網格。資料流從陣列的邊緣輸入,在每個時鐘周期同步地、一步步地流經相鄰的處理單元。每個單元執行一次乘法累加運算,並將中間結果直接傳遞給下一個。

這種設計使得資料在陣列內部被高度復用,最大限度地減少了對高延遲、高功耗主記憶體的訪問,從而實現了驚人的處理速度。

而其卓越能效的秘訣,則在於軟硬體協同的“提前編譯”(Ahead-of-Time Compilation)策略。傳統的通用晶片需要高能耗的快取來應對多樣的、不可預測的資料訪問。TPU則不同,它的編譯器在程式執行前就完整規劃好了所有資料路徑,這種確定性使其無需複雜的快取機制,從而大幅降低了能耗。

在TPU的設計上,Google主導整體架構與功能定義,博通Broadcom參與了部分晶片的中後端設計工作,目前,Google TPU主要由台積電代工生產。

隨著大語言模型參數的急劇擴張,AI計算任務正在從“訓練”走向“推理”。這時,作為通用算力單元的GPU,開始顯露出成本以及功耗過高的問題。

而TPU從設計之初就專門瞄準了AI計算,具有很高的性價比優勢。據報導,GoogleTPU算力成本僅為OpenAI使用GPU成本的1/5,性能功耗比更是優於同代GPU。

因此,為了抓住市場,Google圍繞著自己的TPU架構,打造了一系列產品與生態。

02. Google造芯這十年

Google第一代TPU (v1) 於2015年推出,通過高度簡化的專用設計,實現了超越同期CPU與GPU的能效比,並在AlphaGo等項目中展示了其高效能,從而驗證了AI ASIC的技術路徑。

隨著研發深入,訓練環節的算力瓶頸日益凸顯,促使TPU的設計方向轉向系統級解決方案。2017年發佈的TPU v2為此引入了BF16資料格式以支援模型訓練,並配置了高頻寬記憶體(HBM)。

更為關鍵的是,v2通過定製的高速網路將256個晶片單元互聯,首次建構了TPU Pod系統。隨後的TPU v3通過增加計算單元數量和引入大規模液冷技術,實現了性能的顯著提升。

TPU v4的發佈帶來了互聯技術的重大革新,其核心是採用了光學電路交換(OCS)技術,實現了TPU Pod內部網路拓撲的動態重構,從而提升了大規模訓練任務的容錯能力與執行效率。進入v5與v6 (Trillium) 階段,TPU產品線呈現出分化策略,形成了分別側重於極致性能的'p'系列與能效比的'e'系列,以適應多樣化的AI應用場景。

2025年Google TPU的全年出貨量預計為250萬片。v5系列總出貨量預計為190萬⽚,其中v5e佔⽐約120萬⽚,v5p佔⽐約70萬⽚, v6系列預計總出貨量為60萬⽚,⽬前僅v6e在市場上銷售,⽽v6p將在第四季度上市,約10-20萬⽚左右。預計到2026年,總體TPU銷量將超過300萬片。

在今年的Google雲大會上,Google發佈了第七代TPU,代號“Ironwood”。

Ironwood是Google迄今為止性能最強、能效最高且最節能的TPU晶片,其峰值算力達到4614 TFLOPs,記憶體容量為192GB,頻寬高達7.2 Tbps,每瓦峰值算力為29.3 TFLOPs。此外,Ironwood首次支援FP8計算格式,並在張量核和矩陣數學單元中實現這一功能,這使得其在處理大規模推理任務時更加高效。

Ironwood最高配叢集可擁有9216個液冷晶片,峰值算力可達42.5 ExaFLOPS,是世界上最大的超級電腦El Capitan的24倍以上。其支援大規模平行處理和高效記憶體訪問,適用於複雜的推理任務如大型語言模型和混合專家模型。

事實上,Ironwood的整體性能已經十分接近輝達B200,甚至在一些方面還有所超越。

當然,輝達的統治力不僅在於其硬體性能,更在於整個CUDA生態。Google深知這一點,因此,它也建構了JAX這樣的,能在TPU上運行的高性能計算Python庫。

Google還發佈了其模型流水線解決方案“Pathway”,用於向外部開發者訓練大型語言模型(LLM)。將其作為訓練模型的必備手冊,研究人員無需重新設計模型即可開發Gemini等LLM。

有了上述的一整個“軍火庫“,Google終於可以和輝達掰掰手腕了。

03. Googlevs輝達

投資銀行D.A. Davidson分析師Gil Luria在最新報告中指出,過去一年以來Google母公司Alphabet大幅縮小與輝達的差距,如今已成為“最好的輝達替代方案”。

報告顯示,過去半年,圍繞Google Cloud TPU的開發者活躍度激增了約96%。

Gil Luria與前沿AI實驗室的研究人員和工程師交流後發現,業內普遍看好GoogleTPU。因此Luria認為,若Google將TPU業務與DeepMind部門合併並將它們分拆上市,估值或將高達9000億美元。

AI獨角獸Anthropic此前使用亞馬遜的Trainium晶片來訓練模型,最近,該公司被發現正在招聘TPU核心工程師;馬斯克旗下的人工智慧公司xAI也對採購TPU表現出興趣。這一切都說明了業界對於TPU的認可。

而Google自身也在積極行動。首先,Google有意在公司內部進行從輝達GPU到自研TPU的迭代。Omdia資料顯示,2024年估計Google訂購16.9萬台Hopper 架構GPU,在五大雲廠商中排名最後,約為微軟的三分之一。同時,Google內部已部署了約150萬顆TPU。

Google的對外戰略,就是文章開頭提到的,對那些使用輝達晶片的資料中心供應TPU。據報導,為了與Floydstack達成合作,Google將提供最高32億美元的備選擔保支援,若Fluidstack無力支付紐約新資料中心的租賃費用,Google將補足差額。

根據野村證券最新報告,預計到2026年,ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。

輝達需要緊張起來了。

04. 結語

市場對GoogleTPU的積極接受,反映出越來越多的公司想擺脫輝達“一卡難求“的困境,尋求更高的性價比和更多元、穩定的供應鏈。

而借此機會挑戰輝達的,也不只有Google一家公司。供應鏈資料顯示,Meta將於2025年第四季度推出其首款ASIC晶片MTIA T-V1。它由博通設計,具有複雜的主機板架構,並採用液冷和風冷混合技術。

到2026年年中,MTIA T-V1.5將進行進一步升級,晶片面積將翻倍,超過輝達下一代GPU Rubin的規格,其計算密度將直接接近輝達的 GB200 系統。2027年的MTIA T-V2可能會帶來更大規模的CoWoS封裝和高功率機架設計。

報告指出,根據供應鏈估計,Meta的目標是到2025年底至2026年實現100萬至150萬件ASIC出貨量。

微軟、亞馬遜同樣有自研的ASIC晶片,正在對這片被GPU霸佔的市場虎視眈眈。

對此,輝達也有自己的反擊手段。今年5月,輝達正式發佈NVLink Fusion。NVLink Fusion允許資料中心將輝達GPU與第三方CPU或定製化AI加速器混合使用,標誌著輝達正式打破硬體生態壁壘。

近日,輝達執行副總裁暨首席財務官Colette Kress在高盛組織的會議上談及了對於AISC晶片所帶來的競爭看法,稱輝達GPU更具性價比。

一場大戲已經拉開了帷幕。無論是兆美元的市場規模,還是未來AI時代硬體結構的定義權,都值得幾大巨頭為之瘋狂。

這一戰,誰都有不能輸的理由。 (半導體產業縱橫)