全球算力格局震盪,“高階TPU”崛起!

非GPU時代大幕拉開。

頭圖由AI生成

芯東西3月2日消息,近日,多家外媒報導,非GPU晶片應用迎來爆發期,前有Meta傳已與Google簽署數十億美元合作,大規模租用TPU訓練模型;後有OpenAI被曝計畫匯入輝達基於Groq技術的AI推理晶片。

這些重磅合作正是全球AI算力格局加速重構的縮影。2026年伊始,摩根大通的一份產能報告流出:Google計畫在2027年部署600-700萬顆TPU,大部分將供給Anthropic、OpenAI、Meta以及蘋果等外部客戶。

無獨有偶,2月13日,OpenAI上線GPT-5.3-Codex-Spark。這款模型選擇了一家特殊的晶片廠商來承接推理任務——Cerebras,一個以“晶圓級晶片”挑戰輝達的“叛逆者”。這是OpenAI首次在主力模型上大規模採用非GPU晶片完成部署,背後原因在於Cerebras帶來的更低延遲與更低能耗,為即時程式設計帶來接近即時的響應體驗。

僅僅半年之前,全球AI產業的目光還牢牢鎖定在輝達的財報和產能分配上,人們爭相與這家算力巨擘結成利益同盟。如今,全球頭號AI玩家們紛紛重新規劃未來幾年的晶片訂單。

IDC預測,到2028年,中國非GPU伺服器市場規模佔比將接近50%;高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%增長至2027年的45%。

▲全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部,芯東西製圖)

面對日益清晰的算力變局,一個更深層的轉折正在發生:AI的競爭焦點正從單純的算力規模,深刻轉向對能效比與延遲的極致追求

這一轉折,將GPU推向尷尬境地:由於每次計算都需要在外部視訊記憶體和計算單元之間頻繁往返搬運資料,這種冗長的傳輸路徑讓GPU始終受困於高能耗和高延遲的先天缺陷。路透社爆料,OpenAI已多次表示對輝達晶片的“不滿”——響應速度未達預期,在程式碼生成產品Codex上感受尤為明顯。

壓力迫使輝達這條“巨龍”尋求改變。2025年底,輝達不惜以近三倍溢價拿下Groq核心技術與團隊。這家公司的創始人Jonathan Ross正是GoogleTPU核心設計者。被稱為“TPU之父”的他,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。最終,輝達以200億美元的天價,買下了這把“高階TPU”之劍。

去GPU化的趨勢仍在繼續。沒有人願意把未來十年的基礎設施押注在一個能耗大、延遲高、系統封閉的技術上。但這場算力變局的核心懸念尚未解開:TPU能否真正扛起對抗GPU的大旗?那個讓輝達不惜押下重注的Groq,又藏著怎樣的技術底牌?

01.

從自用到商用:

GoogleTPU擾動全球算力格局

一直以來,GoogleTPU都作為其內部的核心算力支撐,專供自家大模型訓練與推理使用。而去年至今,Google策略發生重大轉變,被曝要正式將TPU推向商用市場。

巨額訂單迅速湧向Google。

博通CEO透露,AI明星公司Anthropic下單了總額210億美元(約1486億元人民幣)的訂單,採購基於GoogleTPU建構的AI算力系統;與此同時,Meta被曝已與Google達成數十億美元的AI晶片交易。此外,潛在客戶還包括蘋果,以及已與SpaceX合併的xAI等,TPU市場規模持續擴大。

這背後是雙重機遇的疊加。

一方面,大模型進入規模化落地階段,全球算力需求爆發、成本壓力加劇,單一依賴GPU的架構瓶頸日益凸顯

另一方面,GoogleTPU的性能已具備與頂級GPU分庭抗禮的實力——2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片:單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。

TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。更為關鍵的是,依託自研光電路交換機(OCS)技術,其萬卡級叢集可實現近乎線性的加速比,顯著降低了傳統GPU叢集在萬卡規模下的通訊效率損耗。

▲Google TPU v5e、v5p、v6、v7晶片關鍵性能對比(圖片來源:SemiAnalysis)

GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。

此外,對於大模型公司而言,算力成本是繞不開的難題。“每美元產生的Token數”正取代峰值算力,成為衡量晶片商業價值的標尺。TPU憑藉AI專用架構帶來的2-4倍能效優勢,以及萬卡叢集近乎線性的擴展能力,將大模型推理的綜合成本相比GPU拉低50%以上——這正是Anthropic、Meta們用訂單投票的根本邏輯。

因此,當下大多大模型企業會選擇採購TPU+GPU多元算力來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。

這一事實表明:未來頭部AI公司,大機率都會轉向“多晶片平行”路線,以降低對單一架構的依賴、提升成本競爭力。

▲OpenAI與Anthropic購買算力的成本對比(圖片來源:SemiAnalysis)

綜上,GoogleTPU的性能跨越式提升、頂尖大模型的規模化驗證、頭部AI公司的主動佈局,這三重因素共同印證,TPU已從過去的全球算力產業補充路線,正式升級為全球算力競爭中的主流路線。這不僅打破了長期由輝達絕對主導的AI晶片格局,也為國內外算力晶片打開了全新發展窗口。

02.

不止於TPU:十年磨一劍,

“TPU之父”探索更高階的可能

然而,GoogleTPU的成功並非終點。國內外一批聚焦TPU晶片的創新企業快速崛起,它們擺脫復刻GoogleTPU的發展模式,逐步走出了一條差異化、多元化平行的發展之路。

這其中的代表玩家,就是被輝達高價收購的AI晶片創企Groq。這家公司的創始人,被稱為“TPU之父”的Jonathan Ross,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。行業資深專家表示,二者的不同之處與晶片架構密切相關。

GoogleTPU採用“固定架構+叢集擴展”的設計思路:其晶片內部搭載相對固定的計算單元,依託二維資料流模式開展固定化的算力運算;在晶片間互聯層面,則通過建構3D Torus拓撲結構,實現多晶片間的高效資料流傳輸與協同計算。

▲GoogleTPU架構(圖片來源:Google官網)

與GoogleTPU晶片的固定資料流不同,Groq的TSP(Tensor Streaming Processor)晶片是一種“軟體定義硬體”(Software Defined Hardware)的新型資料流處理器。

“通過建構可重構的軟硬體系統,使其在保持可程式設計性的同時,達到接近ASIC的極致性能。”美國DARPA“電子復興計畫”(ERI)高度看好“軟體定義硬體”技術,並將其作為國家級戰略佈局的核心方向之一。

這也是Groq被稱之為“高階TPU”的原因。通過晶片內功能切片化微架構的底層設計,結合軟體層面的靈活配置能力,TSP可根據不同任務場景和計算需求實現計算邏輯與資料流路徑對應。同時,該晶片依託大容量片上SRAM及靜態調度機制,在顯著提升資料訪存效率的同時還能有效降低資料搬運能耗,實現計算效率的提升。

二者的性能表現對比,Groq的優勢也已經得到資料驗證。公開資訊顯示,在相同推理任務中,Groq晶片的首token延遲比GoogleTPU v7晶片降低20%~50%,每token成本降低10%~30%

架構選擇的背後,折射出整個產業對計算效率瓶頸的重新審視。電腦體系結構泰斗、圖靈獎獲得者David Patterson教授在最新研究中指出,大模型每次生成都繞不開資料搬運,而搬運能耗遠高於計算本身,未來的核心命題是“讓資料離計算更近”。

為此,他提出了幾個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。這些均指向同一個目標——用架構創新降低資料移動的能耗與延遲

David Patterson的洞察將AI規模化的競爭拉回最樸素的物理層面,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。

03.

“高階TPU”含金量還在上升:

三大創新將架構優勢發揮至極

相比於Groq所強調的確定性資料流能力,國內的清微智能、海外的Cerebras等晶片企業在高效的多維度資料流動態配置及先進整合方式上,還在持續提升“高階TPU”的含金量。

主要表現為如下幾個方面:

其一,通過3D Chiplet技術建構三維立體資料流架構。依託“計算核心+3D DRAM芯粒”的組合,清微智能在“垂直+水平”兩個維度上形成高效資料流計算模式,核心目標是突破傳統二維資料流架構的效率侷限。

具體而言,三維資料流計算架構可依據計算任務核心需求以及資料特性,在水平維度與垂直維度上實現資料流的靈活調度,最大化縮短資料傳輸路徑、提升資料流周轉效率,顯著降低資料搬運過程中的延遲與能耗,最終實現計算效率的進一步提升。

其二,是依託算力網格技術建構靈活資料流計算範式。該技術可突破傳統固定組網的擴展性與語義適配瓶頸,通過靈活組網及Scale up與Scale out協同,能根據AI任務特性,即時下發資料流的動態配置資訊,實現在多種互聯拓撲結構間靈活切換和精準調度,降低互聯延遲,充分釋放資料流架構算力。

其三,通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。具體而言,晶圓級晶片技術將資料流架構思想從晶片內部擴展至整片晶圓尺度,在整片晶圓高密度整合大量計算核心,極大縮短計算核心間的互聯距離,實現數量級的互聯頻寬提升與通訊延遲的降低,從而將資料流架構的算力規模與計算效能發揮到極致,是資料流計算架構的理想物理載體。

以Cerebras晶圓級晶片為例。實測資料顯示,Cerebras CS 3系統在推理性能上較輝達旗艦DGX B200 Blackwell GPU快21倍,成本與功耗均降低 1/3,在算力、成本、能效上展現出顯著的綜合優勢。

▲Cerebras CS-3 vs輝達GPU:大模型推理速度對比(圖片來源:Cerebras官網)

04.

結語:AI算力規則正在重構

當GoogleTPU走出圍牆、OpenAI擁抱晶圓級晶片、輝達天價收編Groq,這些訊號均指向同一個方向:TPU已變成巨頭們真金白銀押注的主戰場。

算力世界的單極時代,正在被多元架構終結。決定下一代AI天花板的,不再是算力堆砌的軍備競賽,而是能耗、延遲、確定性共同構成的AI能力新指標。

對於國產晶片而言,這場變局既是機遇也是挑戰。跟隨者只能瓜分殘羹,唯有走出自己的底層創新之路,才有資格參與下一輪全球算力洗牌。 (芯東西)