CUDA被撕開第一道口子!GoogleTPUv7干翻輝達
【新智元導讀】當Google不再只滿足於「TPU自己用」,TPU搖身一變成了輝達王座下最鋒利的一把刀!CUDA護城河還能守住嗎?讀完這篇SemiAnalysis的分析,你或許會第一次從「算力帳本」的視角,看懂Google暗藏的殺招。
GoogleGemini 3的成功,讓其背後的TPU再次成為全世界關注的焦點。
資本市場給出了明確的反應,Google股價的上漲,也讓一個話題再次被拿到牌桌上討論:
GoogleTPU是不是真的能和輝達GPU掰一掰手腕?
尤其是TPUv7更是人們討論關注的焦點,這款專門為AI設計的晶片是否能夠打破輝達多年來的GPU形成的壟斷?
眾所周知,SemiAnalysis是一家在科技界,尤其是半導體和人工智慧領域極具影響力的精品研究與諮詢公司。
它以硬核、深度的資料分析著稱,不同於泛泛而談的科技媒體,它更像是一個服務於華爾街投資者、晶片巨頭和AI從業者的「行業智庫」。
剛剛,他們最新的文章給出一個明確的結論:TPUv7首次向輝達發起了衝鋒。
而且這一篇文章由12位作者共同撰寫,可見份量之重。
這篇文章深入剖析了GoogleTPUv7如何向輝達的AI硬體霸權發起實質性挑戰。核心轉折點在於:
CUDA護城河能否被終結?
TPUv8和輝達下一代AI新品Vera Rubin,誰更強大?
接下來的內容,會給你答案。
輝達堅不可摧的堡壘,出現了一絲裂痕。
目前,世界上最頂尖的兩個模型——Anthropic的Claude 4.5 Opus,以及Google的Gemini 3,它們絕大部分訓練和推理基礎設施,都運行在Google的TPU和亞馬遜的Trainium上。
其中的Gemini 3,以及其所有早期版本的Gemini,則是完全在TPU上進行訓練的。
這還不算,Google正在向多家公司出售商用的TPU硬體。
輝達的王座迎來了新的挑戰者。
早在2006年,Google就有過建立AI專用基礎設施的想法。
但一直到2013年,Google才開始為TPU晶片奠定基礎,並在2016年將其投入生產。
同一年,亞馬遜也啟動了Nitro計畫,該計畫專注於開發晶片以最佳化通用CPU計算和儲存。
如今,通過推進TPU商業化,Google已經成為輝達最新且最具威脅的挑戰者。
Gemini 3發佈後,市場反響強烈。
輝達還專門為此發佈了一條官方推文,恭喜Google在AI領域的進展,同時不忘強調自己依然遙遙領先。
在推文中,輝達強調自己仍在持續向Google供應硬體,並表示自己依然領先行業一代,是唯一能夠運行所有AI模型、並能在各種計算場景中使用的平台。
同時,強調GPU比專用晶片(ASIC)在性能、通用性和可替代性上更強,這句話明顯是對GoogleTPU、AWS Trainium等專用晶片的回應。
突然崛起的TPU
在過去的幾個月裡,GoogleDeepMind的Gemini 3、Google雲以及TPU綜合體,賺足了眼球,也將Google母公司Alphabet的市值推高至接近4兆美元。
TPU產量大幅上調,Anthropic、Meta、SSI、xAI、OAI等TPU的客戶名單正在不斷擴大,這些推動了Google和TPU供應鏈的大幅重新評級,無疑也將壓制以輝達GPU為重點的供應鏈。
除了面對TPU的壓力,輝達還面臨著通過「循環經濟」造成AI泡沫的質疑,許多質疑者認為輝達通過資助燒錢的AI初創公司,本質上是將錢從一個口袋轉移到另一個口袋。
SemiAnalysis認為更合理的解釋是:
輝達旨在通過股權投資而非降價來保護其在基礎實驗室的主導地位——降價將拉低毛利率並引發投資者普遍恐慌。
下文將通過解析OpenAI與Anthropic的合作模式,展示前沿實驗室如何通過採購(或威脅採購)TPU來降低 GPU 的總體擁有成本(TCO,Total Cost of Ownership)。
雖然OpenAI目前尚未部署TPU,但僅憑「轉向TPU」這一可能,就已在其輝達叢集成本上節省約30%。
簡單來說,OpenAI並沒有真的把Google的TPU晶片插進伺服器裡跑任務,而是把「我隨時可能改用TPU」作為一個巨大的談判籌碼,迫使輝達為了留住這個大客戶,變相給予了巨額優惠。
GoogleTPU的大規模外部化
TPU堆疊長期以來一直與輝達AI硬體相抗衡,但它主要是為了支援Google的內部工作負載。
即使在2018年向Google雲平台客戶提供TPU之後,Google仍未將其完全商業化。
如今,這種情況正在開始改變。
在過去的幾個月裡,Google已經動員了整個堆疊的努力,通過Google雲平台或作為商用供應商銷售完整的TPU系統,開啟了TPU大規模商用的步伐。
這一舉措也使這家搜尋巨頭成為一個真正差異化的雲提供商。
與此同時,Google的頂級客戶Anthropic也在繼續推動擺脫對輝達單一依賴,兩者在採用TPU上一拍即合。
與Anthropic的交易,標誌著TPU規模化商用的一個重要里程碑。
那麼,Anthropic和其他客戶為什麼想要Google的TPU?
答案很簡單。
TPUv7 Ironwood是一個優秀系統內的強大晶片,即使晶片在參數上落後於輝達,Google的系統級工程也使得TPU堆疊在性能和成本效率方面都能與輝達相匹配。
這種組合為Anthropic提供了引人注目的性能和TCO,因此贏得了其大規模的訂單。
與輝達通過GB200擴展其GPU生態一樣,Google自2017年TPUv2以來,也一直在機架內和跨機架擴展TPU。
Google的ICI擴展網路,也與輝達NVLink匹敵的競爭對手。
如今,預訓練前沿模型仍然是AI硬體中最困難和資源最密集的挑戰。
自2024年5月GPT-4o以來,OpenAI的頂尖研究人員尚未完成廣泛用於新前沿模型的成功全規模預訓練運行,而TPU平台則通過了這一測試。
對於Google來說,在最具挑戰性的硬體問題之一中悄悄擠入並建立性能領先地位,確實是一個令人印象深刻的壯舉。
微架構仍然很重要:Ironwood接近Blackwell
雖然Google一直在推動系統和網路設計的邊界,但從一開始,Google在晶片方面的設計理念相對於輝達就更為保守。
歷史上,TPU的峰值理論FLOPs明顯較少,記憶體規格也低於相應的輝達GPU。
其中有3個原因。
首先,Google對其基礎設施的「RAS」(可靠性、可用性和可服務性)非常重視。
Google寧願犧牲絕對性能來換取更高的硬體正常執行階段間。
第二個原因,直到2023年,Google的主要AI工作負載是為其核心搜尋和廣告資產提供動力的推薦系統模型。
與大模型工作負載相比,RecSys工作負載的算術強度要低得多,這意味著相對於傳輸的每一位資料,需要的FLOPs更少。
第三個原因,是TPU主要面向內部,在外部誇大這些規格的壓力要小得多。
商用GPU提供商希望為其晶片行銷儘可能好的性能規格,這激勵他們將行銷的FLOPs提高到儘可能高的數字。
進入大模型時代之後,GoogleTPU的設計理念發生了明顯轉變。
從最近兩代為大模型設計的TPU:TPUv6 Trillium(Ghostlite)和TPUv7 Ironwood(Ghostfish)就可以看出這種變化。
TPUv6在FLOPs上已經非常接近H100/H200,但它比H100晚了2年。
TPUv7 Ironwood是下一次迭代,Google在FLOPs、記憶體和頻寬方面幾乎完全縮小了與相應輝達旗艦GPU的差距,儘管全面上市比Blackwell晚了1年。
理論上的絕對性能是一回事,但重要的是單位總擁有成本(TCO)的實際性能。
雖然Google通過Broadcom採購TPU並支付高額利潤,但這明顯低於輝達不僅在他們銷售的GPU上,而且在整個系統(包括CPU、交換機、NIC、系統記憶體、布線和連接器)上賺取的利潤。
從Google的角度來看,每顆晶片在全規模部署下的TCO比輝達GB200伺服器低 44%。
這足以彌補峰值FLOPs和峰值記憶體頻寬約10%的不足。
為什麼Anthropic下注TPU?
比較理論FLOPs只能說明部分問題。
更重要的是有效FLOPs,因為峰值數字在實際工作負載中幾乎從未達到。
輝達的優勢源於CUDA護城河和開箱即用的廣泛開源庫,幫助工作負載高效運行,實現高FLOPs和記憶體頻寬。
相比較之下,TPU軟體堆疊開箱即用的性能較弱,然而Anthropic擁有強大的工程資源和前Google編譯器專家,他們既瞭解TPU堆疊,也很好地理解自己的模型架構。
因此,彌補了這方面的不足。
他們可以投資自訂核心以驅動高TPU效率,這使得他們可以達到比採用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)。
另一個巨大轉變
傳統上,TPU軟體和硬體團隊一直是面向內部的。
這具有優點,例如沒有行銷團隊施加壓力來誇大所述的理論FLOPs。
只面向內部的另一個優勢是TPU團隊非常重視內部功能請求和最佳化內部工作負載。
缺點是他們不太關心外部客戶或工作負載。
TPU生態系統中的外部開發者數量遠低於CUDA生態系統。
這是TPU的主要弱點之一,就像所有非輝達加速器一樣。
Google此後修改了針對外部客戶的軟體戰略,並已經對其TPU團隊的KPI以及他們如何為AI/ML生態系統做出貢獻做出了重大改變。
其中有2個主要變化:
通過查看Google對各種TPU軟體倉庫的貢獻數量,可以清楚地看到外部化戰略。
從3月開始vLLM貢獻顯著增加。
從5月開始,建立了「tpu-inference」倉庫,這是官方的vLLMTPU統一後端。
Google在軟體戰略方面仍然處理不當的一個地方是,他們的XLA圖編譯器、網路庫和TPU執行階段仍然沒有開源,也沒有很好的文件記錄。
這讓從高級使用者到普通使用者的各種使用者感到沮喪,因為他們無法偵錯程式碼出了什麼問題。
此外,用於多Pod訓練的MegaScale程式碼庫也不是開放原始碼的。
就像PyTorch或Linux開源迅速增加了採用率一樣,為了加速使用者的採用,Google或許應該將其開源,使用者採用率的增加將超過他們公開和免費提供的所有軟體IP。
如果想要瞭解更深入的技術細節,比如Google獨有的ICI光互連技術到底有那些優勢,可以閱讀原文:
https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the
(新智元)