GPU時代落幕？矽谷巨頭集體「叛逃」，輝達1500億瘋狂自救

2026/03/07

•

去GPU化的浪潮，已經攔不住了！OpenAI嫌輝達太慢，Anthropic砸1486億投奔TPU，老黃被迫200億天價收購「叛徒」自救。如今，算力軍備賽正式進入能效為王的新時代：誰先卡住「每焦耳每微秒」的極限，誰或許就是下一個十年的霸主。

再過兩周，黃仁勳將站上GTC 2026的舞台。

他提前放了話：「我們準備了幾款世界上前所未見的全新晶片。」

底氣來自一份炸裂的成績單——

輝達2026財年年收入2159億美元，淨利潤翻倍，資料中心業務三年翻了13倍。

在財報電話會上，CFO直接甩出一個數字：客戶已經部署了9吉瓦的Blackwell基礎設施！

但詭異的一幕出現了。

財報發佈當晚，輝達盤後一度漲超4%。隨後股價悄然轉跌，次日直接低開低走，收跌5.46%，一夜蒸發數千億美元市值。

華爾街不是看不懂數字，是看懂了趨勢。

前有Anthropic甩出210億美元訂單，全面採購基於GoogleTPU的算力系統；後有Meta跟Google簽下數十億美元晶片大單，大規模租用TPU訓練模型。

為了給程式設計帶來接近即時的響應體驗，OpenAI更是歷史上首次將主力級產品GPT-5.3-Codex-Spark，部署在了更低延遲與更低能耗的非GPU晶片Cerebras上。

輝達最大的幾個客戶，正在集體分散籌碼。

根據摩根大通的產能報告，Google計畫在2027年部署600至700萬顆TPU，大部分供給Anthropic、OpenAI、Meta和蘋果等外部客戶。

高盛投資研究部的模型顯示，全球AI伺服器中非GPU晶片出貨佔比，將從2024年的36%升至2027年的45%。

類似的，IDC也預測，到2028年，中國非GPU伺服器市場規模佔比將逼近50%。

GPU的致命短板

一個更深層的轉折正在發生：AI的競爭焦點，正從單純的算力規模，轉向對能效比與延遲的極致追求。

過去拼誰卡多、誰叢集大。

現在拼的是，同樣花一塊錢，誰能吐出更多Token。

「每美元產生的Token數」正在取代峰值算力，成為衡量晶片商業價值的核心指標。

究其原因在於，GPU的架構決定了，每次計算時資料都要在外部視訊記憶體和計算單元之間來回搬運。

路徑長、次數多，能耗就高、延遲就大。堆更多卡解決不了這個問題。

路透社爆料，OpenAI已多次表達對輝達晶片的「不滿」——響應速度沒達預期，在程式碼生成產品Codex上感受尤為明顯。

壓力迫使輝達這條「巨龍」尋求改變。

圖靈獎得主David Patterson教授在最新研究中指出，大模型每次token生成都繞不開資料搬運，而搬運能耗遠高於計算本身。

未來的核心命題是「讓資料離計算更近」。

為此，他給出了三個AI晶片的演進方向：近記憶體處理、3D堆疊、低延遲互連。

實際上，這些都指向同一件事——用架構創新降低資料搬運的能耗和延遲。

換句話說就是，誰能用更低的能耗、更低的延遲跑通下一代模型，誰就能在未來十年的算力牌桌上佔得先機。

GoogleTPU殺向商用市場

一直以來，GoogleTPU專供自家大模型訓練和推理，外人用不到。

去年開始，Google把TPU推向了商用。

訂單隨即湧入。

博通CEO透露，Anthropic下了210億美元的大單；Meta簽下數十億美元TPU租賃協議；潛在客戶還包括蘋果和已與SpaceX合併的xAI。

原因不難理解。大模型進入規模化落地階段，算力需求爆發、成本壓力加劇，單一依賴GPU的瓶頸越來越明顯。而GoogleTPU的性能，已經具備與頂級GPU分庭抗禮的實力。

2025年推出的第七代TPU，是Google迄今為止性能最高、可擴展性最強的AI晶片——

單晶片峰值算力4614 TFLOPS（FP8精度），最大叢集9216顆晶片、總算力達42.5 EFLOPS。

劃重點：TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。

不僅如此，Google自研的光電路交換機（OCS）技術，還讓萬卡級叢集實現近乎線性的加速比。相比之下，傳統GPU叢集規模越大，通訊損耗越嚴重；而TPU叢集基本不吃這個虧。

GoogleTPU崛起還有更為直接的例證：在TPU上訓練的Gemini 3，在多個權威基準測試中位居榜首，為業界頂尖模型之一。

回到成本帳上。

TPU憑藉AI專用架構帶來的2-4倍能效優勢，將大模型推理的綜合成本相比GPU拉低50%以上。而這正是Anthropic、Meta們用訂單投票的根本邏輯。

當下，大多數大模型企業已經在用TPU+GPU的組合來緩解成本壓力。

去年11月，半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現：與OpenAI相比，同時使用TPU與GPU的Anthropic，在與輝達談判時擁有更強的議價權。

手裡有TPU，就多了一張跟老黃討價還價的牌。未來頭部AI公司大機率都會走「多晶片平行」路線。

性能跨越式提升，頂尖大模型規模化驗證，頭部公司主動佈局——TPU已從算力產業的補充路線，升級為主流路線。

輝達一家獨大的格局，正在被改寫。

十年磨一劍「TPU之父」要造下一代AI晶片

2025年底，輝達斥資200億美元，拿下AI晶片創企Groq的核心技術和團隊。

這是輝達史上最大的一筆交易，溢價近三倍。

Groq創始人Jonathan Ross，被稱為「TPU之父」，GoogleTPU的核心設計者之一。離開Google後，他創立Groq的目標很明確：做一顆超越GoogleTPU的晶片。

兩者的差異在架構。

GoogleTPU走的是「固定架構+叢集擴展」路線。

其中，晶片內部搭載固定計算單元，依託二維資料流運算；晶片間通過3D Torus拓撲實現高效互聯。架構穩定，但靈活性有限。

Groq的TSP（Tensor Streaming Processor）則是一種「軟體定義硬體」的資料流處理器。

其核心理念是，通過建構可重構的軟硬體系統，在保持可程式設計性的同時，達到接近ASIC的極致性能。

具體來說，晶片內部做了功能切片化微架構設計，配合軟體層的靈活配置，可根據不同任務即時調整計算邏輯和資料流路徑。

同時，依託大容量片上SRAM及靜態調度機制，顯著提升了資料訪存效率並降低搬運能耗。

美國DARPA「電子復興計畫」（ERI）高度看好「軟體定義硬體」方向，將其列為國家級戰略核心。這也是Groq被稱為「高階TPU」的原因。

資料顯示，在相同推理任務中，Groq晶片首token延遲比GoogleTPU v7降低20%至50%，每token成本降低10%至30%。

這場晶片革命，才剛開始加速

Groq被收編，但「高階TPU」的進化沒停。

國內清微智能、海外Cerebras等公司正在高效資料流動態配置和先進整合方式上持續突破。

1. 通過3D Chiplet技術建構三維立體資料流架構。

具體來說，「計算核心+3D DRAM芯粒」的組合在垂直與水平兩個維度上形成了高效的資料流計算模式，突破了傳統二維架構的效率侷限。

三維架構可以依據計算任務的需求和資料特性，在兩個維度上靈活調度資料流，最大化縮短傳輸路徑，降低搬運過程中的延遲與能耗，從而進一步提升整體計算效率。

2. 依託算力網格技術建構靈活資料流計算範式。

傳統固定組網存在擴展性和語義適配瓶頸。而算力網格技術則可以通過靈活組網，實現Scale up與Scale out的協同。

根據AI任務特性，系統能即時下發資料流的動態配置資訊，在多種互聯拓撲結構間靈活切換、精準調度。最終降低互聯延遲，充分釋放資料流架構的算力。

3. 通過前沿的晶圓級晶片技術，將資料流架構的優勢發揮到極致。

這項技術將資料流架構從晶片尺度擴展到整片晶圓。

在整張晶圓上高密度整合大量計算核心，計算核心間的互聯距離被極大縮短。帶來的結果是，互聯頻寬實現數量級提升，通訊延遲大幅降低。

資料流架構的算力規模與計算效能由此被推到極致。這也是為什麼晶圓級晶片被視為資料流計算架構的理想物理載體。

以Cerebras為例。

資料顯示，Cerebras CS 3系統推理性能比輝達旗艦DGX B200快21倍，成本與功耗均降低三分之一，在算力、成本、能效上展現出顯著的綜合優勢。

在實測中，OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度，讓程式碼編寫第一次有了即時互動的體驗。

GPU獨霸的時代，回不去了

GoogleTPU走出圍牆，OpenAI擁抱晶圓級晶片，輝達天價收編Groq。

這些訊號均指向同一個方向：

算力世界的單極格局正在鬆動。

定義下一代AI上限的，不再是單純的算力規模，而是能耗、延遲、確定性共同構成的AI新標尺。

對於國產晶片而言，這是窗口，也是分水嶺。簡單復刻只能分得殘羹，唯有在底層架構上走出自己的創新之路，才有資格進入下一輪博弈。 (新智元)