這兩天,GoogleTPU徹底火了。
據國外媒體報導,Meta正考慮從2027年起在其資料中心部署Google的TPU(張量處理單元),潛在合同金額達數十億美元。消息一出,Google股價盤前暴漲超4%,而輝達股價則一度下跌超4%。
這不是TPU第一次震撼業界。就在此前不久,Google發佈的Gemini 3大模型全程使用TPU訓練,橫掃各大基準測試榜單,月活使用者突破6.5億。AI初創企業Anthropic更是宣佈將部署多達100萬個GoogleTPU晶片,交易價值數百億美元。
Google今年正式發佈第七代TPU晶片Ironwood,單晶片峰值算力達到4614 TFLOPS,在訓練和推理方面的性能比上一代提升了4倍多,被稱為“迄今為止性能最強、能效最高的定製晶片”。最高配叢集可連接9216個液冷晶片,峰值算力可達42.5 ExaFLOPS,是世界上最大超級電腦的24倍以上。
從“不被看好的救命項目”到如今可能撼動輝達霸權的戰略級武器,TPU用十年時間完成了驚人的蛻變。
被迫自研
時間回到2013年,Google內部爆發了一場算力危機。
當時,Google的研究人員做出了一個驚人的預測:如果全球僅1億Android使用者每天使用語音搜尋並通過神經網路進行3分鐘的語音識別,所消耗的算力就將是Google所有資料中心總算力的兩倍。而當時全球Android使用者遠不止1億。如果僅通過擴巨量資料中心規模來滿足需求,不僅耗時,成本更是高得驚人。
當時市面上有三個選擇:繼續使用CPU、購買輝達GPU,或者自研ASIC晶片。
雖然輝達GPU已經非常成熟,可以立即購買,但Google經過評估後發現,依賴GPU存在兩個致命問題:一是GPU並非完全專門用於深度學習計算,在Google的規模下,效率損失意味著巨大的成本浪費;二是將對Google戰略至關重要的硬體完全依賴單一供應商,風險太大。
當時Google團隊研究了市面上所有算力解決方案,最終全部被高層否決。開發公司內部的深度學習專用處理器晶片,成為Google的不二之選。
但問題在於,開發ASIC晶片通常需要數年時間和高昂成本,在AI快速發展的時代,Google等不起。這個項目的目標非常明確:必須快速向資料中心交付硬體,而且要大規模交付。目標是開發一個與GPU相比,在推理上產生10倍成本性能優勢的ASIC。
Google迅速行動起來,挖來了惠普智能基礎設施實驗室高級總監Norm Jouppi、Arm架構開發商Calxeda的SoC工程總監Richard Ho等一批晶片行業資深人才,還與另一位巨頭——博通達成了合作。
通常一個晶片的開發需要幾年時間,但Google只用了15個月就完成了從立項到大規模部署。
TPU項目負責人Norm Jouppi回憶道:“晶片設計過程異常迅速,這本身就是一項非凡的成就。更出乎意料的是,首批交付的矽片無需進行任何錯誤修正以及掩膜的更改,而正在同步進行的還有團隊組建,RTL設計專家、驗證專家都急需補充,整個工作節奏非常緊張。”
2015年,第一代TPU悄然誕生。它採用28nm製程工藝,專為推理設計,雖然參數在今天看來並不出眾,但在當時卻帶來了15-30倍的性能提升和30-80倍的能效提升。
TPU的核心創新在於採用了“脈動陣列”(Systolic Array)架構。這是一個由65536個乘法單元構成的256×256網格,資料像血液一樣有節奏地流過處理單元,每個單元只做乘法和累加,然後將結果傳遞給下一個。這種設計使資料在陣列內部被高度復用,最大限度減少了對高延遲、高功耗主記憶體的訪問。
更關鍵的是,TPU採用了“提前編譯"”策略。編譯器在程式執行前就完整規劃好了所有資料路徑,這種確定性使其無需複雜的快取機制,從而大幅降低了能耗。
但最初,業界對TPU並不看好。
當Google發佈TPU架構細節和性能指標時,立刻引發了激烈爭議。輝達加速計算副總裁Ian Buck毫不客氣地回應:“Kepler是2009年設計的,用於解決傳統高性能計算問題。當Kepler設計時,GPU深度學習研究甚至還沒開始。”他強調,輝達在Maxwell和Pascal兩代GPU上已專門針對機器學習做了大量最佳化。
輝達隨即公佈了自己的基準測試結果。在GoogLeNet推理工作負載上,要求99%的交易響應時間低於10毫秒的前提下,TPU能處理28萬次推理/秒,而Pascal P40能處理56萬次/秒——整整兩倍於TPU。即使是更小的Tesla P4,性能也與TPU基本持平。
更致命的質疑來自成本層面。Buck直言不諱地表示:“GPU單位性能的成本應該遠低於TPU。"他指出,P4加速卡售價約2100美元,P40約4700美元。如果Google開發和製造TPU的總成本無法在性價比上超越這些GPU,那麼自研晶片在經濟上就毫無意義。
輝達還預測,未來的Volta架構GPU將把機器學習推理性能再翻一番。屆時,升級了GDDR5記憶體的TPU也只能勉強追平Volta的性能。“對於市場上其他公司來說,為AI開發定製ASIC是一項極其昂貴且具有挑戰性的任務。”Buck的言外之意很明確:在GPU年年迭代的節奏下,定製晶片的風險太高。
業界普遍都在質疑:Google為什麼要冒險自研?如果GPU能滿足需求,為什麼還要承擔巨額研發成本和供應鏈風險?
這個問題的答案,要等到幾年後才逐漸清晰。Google最看重的不是單卡峰值性能,而是在其特定工作負載下的總擁有成本(TCO)。TPU雖然在通用基準測試中不一定佔優,但在Google的實際應用場景中,能夠以更低的功耗實現足夠的性能,並且完全按照Google的需求定製。
更重要的是,自研晶片讓Google掌握了戰略主動權。它不必擔心供應商漲價,不必受制於GPU的產品路線圖,可以根據自身需求隨時調整晶片設計。
現實很快就打了包括輝達在內的所有人的臉——TPU最終生產了超過10萬顆,在廣告、搜尋、語音、AlphaGo甚至自動駕駛等領域被廣泛採用。
2016年,在舉世矚目的AlphaGo對戰李世石的比賽中,TPU正式亮相。當時AlphaGo僅部署了48個TPU,就戰勝了之前內建1202個CPU和176個GPU的版本,這一戰讓TPU徹底出圈。
迭代突破:從 v1 到 v7 的十年征程
TPU v2(2017):從推理到訓練的跨越
第一代TPU在加速推理方面驚豔業界,但它無法參與訓練,這成為深度學習繼續擴展的最大瓶頸。Google通過內部大規模訓練任務發現:推理是“跑刷新視訊”,訓練才是“拍電影本身”,二者的計算差距不止一星半點。在這樣的背景下,TPU v2 的目標不再是做一顆快晶片,而是承擔起支撐未來數十億參數模型的訓練任務,基礎定位發生徹底變化。
TPU v2最重要的創新,是Google親手定義了深度學習時代的核心數值格式——bfloat16。它保留FP32的動態範圍,同時把精度砍半,既保證模型訓練穩定性,又讓吞吐和能效大幅提升。與此同時,Google將片上高頻寬記憶體擴充至16GB,並將頻寬提升到600GB/s,為訓練階段的巨量資料流動提供高速通道。更加大膽的是全新的“2D環形互連”(ICI),首次將 256 顆 TPU 以低延遲網路串成一個訓練陣列。
當年發佈的 TPU v2 Pod,峰值算力達到 11.5 PetaFLOPS,標誌著Google真正邁向“AI超級計算基礎設施提供者”的道路。v2 奠定了此後 TPU 系列作為“訓練叢集核心”的角色,也開始推動行業從單卡競爭轉向“叢集規模+互連架構”的新賽道。它不僅是 TPU 的一次升級,更是Google AI 基礎架構戰略的第一次大方向轉折。
TPU v3(2018):液冷時代的開啟
僅僅一年後,TPU v3 將整體性能再次翻倍,單個 Pod 的晶片數增至 1024 顆,訓練能力大幅提升。然而性能爆發也帶來副作用:單顆 TPU v3 功耗飆升至 450W,大規模叢集意味著要同時處理上百千瓦的熱量。傳統風冷方案完全無法承載如此密度,這成為Google必須正面突破的技術難題。
面對散熱瓶頸,Google作出關鍵決策——全面轉向液冷。TPU v3 叢集首次採用直接液冷方案,讓冷卻液貼身吸走晶片產生的熱量。對於資料中心而言,這是基礎設施層的結構性變革,意味著從伺服器機架、管路布設到能耗管理,全都要為AI計算重新設計。液冷的引入,也宣告 TPU 進入“超高功率密度計算”的新紀元。
Google通過 v3 建立起在大規模訓練基礎設施中的工程優勢,奠定了後續 TPU 超大規模叢集能力的物理基礎,也讓液冷成為之後 AI 資料中心的主流趨勢。
TPU v4(2022):光電互連的革命
當模型規模進入數百億甚至兆參數時代,叢集規模成為性能的決定性因素。傳統固定拓撲的互連網路很快遇到瓶頸——模型結構不同、訓練階段不同,對通訊模式的需求也不同。TPU v4 面臨的核心挑戰,不只是提升速度,而是讓網路能夠隨任務而變。
2022年的TPU v4 的最大突破是引入 OCS(Optical Circuit Switch)光電路交換技術,讓互連從“固定拓撲”變成“動態可程式設計”。系統通過微鏡陣列在毫秒等級切換光路,能夠為不同規模、不同訓練階段的任務建立最優連接結構。與此同時,TPU v4採用3D環面拓撲,單叢集規模擴大至 4096 顆晶片,在 7nm 工藝的加持下,整體能效比上一代更高。
OCS 技術的引入,直接推動行業把“可重構光網路”納入超算與大型訓練叢集的標準方案,也成為Google後續更大規模訓練系統的基石。
TPU v5p(2023):向訓練與推理雙強進化
隨著 Transformer 家族模型不斷膨脹,訓練的需求依然高漲,但推理成為新的成本黑洞。Google意識到:如果 TPU 只盯著訓練,將在推理市場失去陣地;若只盯推理,又會失去在大型模型訓練上的領導地位。因此,v5p 的使命是打造一顆“訓練強、推理也強”的全能計算核心。
TPU v5p 將叢集規模提升至 8960 顆晶片,並將晶片間互連頻寬翻倍至 1200GB/s,同時升級至 800G OSFP 光模組,實現更高密度、更低延遲的通訊。無論是在超大規模模型訓練,還是在大型線上推理服務的吞吐表現上,v5p 都相比上一代實現顯著躍升,成為泛AI負載加速器。
v5p 的定位轉變十分關鍵:Google正式不再把 TPU 限製為訓練晶片,而是把它推向更廣泛的推理市場。這是一次戰略上的擴圈,使 TPU 在未來大型 AI 服務中具備更廣泛的應用空間。v5p 為 TPU v6 和 v7 的“推理強化路線”打下基礎,也標誌著 TPU 產品線從單一場景走向通用化的轉折點。
TPU v6(2024):推理時代的宣言
進入 2024 年,全球 AI 公司最大的開銷已經不再是訓練,而是推理。隨著數十億使用者每天呼叫大模型服務,推理成為全行業的成本中心。Google意識到:誰能把推理成本壓下來,誰就能贏得下一階段的 AI 服務競爭。TPU v6(Trillium)因此被定義為面向推理進行架構重做的產品。
TPU v6 的架構圍繞推理重新設計:FP8 算力吞吐顯著提升,使大模型推理的性價比大幅改進;片上 SRAM 容量翻倍,減少訪問 HBM 的能耗和延遲;整體能效比上一代提升 67%,在同等功耗下獲得顯著更高的吞吐。這些設計都直指推理任務的痛點——頻寬、延遲、能效。
Trillium 的推出,是Google向行業宣告:TPU 的主戰場不再侷限於訓練,而是全力進攻推理。憑藉能效優勢,v6 成為Google內部搜尋、廣告、YouTube 推薦以及 Gemini 系列模型推理的主力引擎,在規模化部署中具備極高成本優勢。TPU 自此徹底進入“推理優先”的時代,為 v7 Ironwood 的到來鋪平道路。
TPU v7 Ironwood(2025):正面交鋒輝達
如果說過去的 TPU 主要在自家生態中使用,那麼 TPU v7 Ironwood 的定位完全不同:這是Google第一次在推理晶片性能上正面向輝達開火。其單晶片 FP8 峰值算力達到 4614 TFLOPS,略高於輝達 B200 的 4500 TFLOPS,標誌著 TPU 在推理性能上首次反壓 NVIDIA。
Ironwood 配備 192GB HBM3e,頻寬高達 7.2TB/s,使其能更輕鬆承載數百億到上千億參數的推理任務。最高支援 9216 顆液冷晶片組成叢集,峰值算力可達 42.5 ExaFLOPS,是當前業內最大的專用推理叢集之一。在延遲、吞吐、能效方面都達到行業頂尖水準。
Ironwood 標誌著 TPU 歷史上的新階段——Google第一次把 TPU 產品推向開放競爭場,並將其作為與輝達抗衡的主動武器。象徵 TPU 從追趕時代邁入進攻時代,也標誌著Google在 AI 基礎設施競爭中不再只依賴規模,而是開始以性能和產品力正面對壘。
輝達GPU霸權,面臨動搖
過去十年,TPU主要服務於Google內部,但現在Google已開始積極推動TPU的商業化。
2024年夏天,Google開始與主要出租輝達晶片的小型雲服務提供商接洽,探討在其資料中心託管TPU的可能性。目前已與倫敦Fluidstack達成協議,將在紐約資料中心部署TPU。若Fluidstack無法支付即將到期的紐約資料中心租賃費用,Google將提供高達32億美元的兜底擔保——這手法幾乎復刻輝達當初扶持CoreWeave的策略。
Google還開始向Meta、大型金融機構等推介在其自有資料中心部署TPU的方案。知情人士透露,Google雲部門部分高管預測,這類業務可能為Google帶來數十億美元的年收入,幫助Google拿下輝達10%的年營收盤子。
為推動TPU本地部署,Google還專門開發了“Google版CUDA”——TPU command center,簡化客戶的TPU使用流程。雖然Google為TPU打造的程式語言Jax普及度遠不及CUDA,但Google向客戶承諾,可借助PyTorch生態工具與TPU command center互動,無需精通Jax。
野村證券指出,預計到2026年,ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。2025年,GoogleTPU的全年出貨量預計為250萬片,到2026年將超過300萬片。
隨著TPU的崛起,輝達感受到了前所未有的壓力。
2025年11月26日凌晨,在GoogleTPU Ironwood正式上市和Meta考慮採購TPU的消息傳出後,輝達罕見發佈緊急聲明回應:“我們對Google的成功感到高興——他們在人工智慧領域取得了重大進展,而我們仍將繼續向Google供貨。輝達領先行業整整一代,是唯一能夠運行所有AI模型,並可在所有計算場景中部署的平台。”
這條聲明瀏覽量破150萬,評論超750個,成為AI圈爆火內容。當天輝達股價下跌2.59%,而自10月底以來,輝達市值已縮水超5兆人民幣。
但競爭遠未結束。Google自己也承認,TPU和輝達GPU的需求都在加速增長,公司會繼續同時支援兩種晶片。事實上,即使Google成功開發了TPU,仍在大量採購輝達GPU。2024年,Google訂購了約16.9萬台Hopper架構GPU,同時內部已部署約150萬顆TPU。
業內更多觀點認為,未來更可能呈現ASIC和GPU異構部署,而不是那一種架構一統天下。TPU的優勢在於針對特定任務的極致最佳化和能效比,而GPU的優勢在於通用性、靈活性和完整的生態系統。
TPU團隊的快速流失
TPU的成功吸引了整個行業的目光,也引發了激烈的人才爭奪戰。
2015年,風險投資家Chamath Palihapitiya在Google財報會上無意間瞭解到Google正在自研AI晶片。他敏銳地意識到這是一次晶片創新的機會,開始對GoogleTPU團隊工程師進行人才mapping。
2016年底,在GoogleTPU核心團隊的十人中,有八人悄悄離職,由前Google高級工程師Jonathan Ross帶隊,在加州山景城創辦了Groq公司。這批人帶走了TPU最核心的技術理念和設計經驗。
Groq推出的LPU(語言處理單元)晶片,推理速度達到輝達GPU的10倍,成本只有其1/10。雖然在總體擁有成本上仍有爭議,但其展現的技術路線為行業帶來了新思路。2024年8月,Groq完成由貝萊德領投的6.4億美元融資,估值達到28億美元。Meta首席AI科學家Yann LeCun更是公開稱讚:"Groq晶片確實直擊要害。"
OpenAI同樣也在挖角Google。Sam Altman制定的用人法則只有一條:要麼現在在Google,要麼之前在Google。為了推進激進的7兆美元自研晶片戰略,OpenAI近一年來大量挖角GoogleTPU團隊。
值得注意的是,Sam Altman搭建了以前Google高級工程總監Richard Ho為首的硬體研發團隊,主要成員包括Tensor SoC負責人Ravi Narayanaswami、高級硬體工程師Thomas Norrie、技術經理Sara Zebian、研究科學家Phitchaya以及設計驗證經理Jerry Huang等人。
2024年10月,OpenAI宣佈與博通及台積電達成合作,計畫於2026年生產首個定製晶片。這支由前GoogleTPU核心成員組成的團隊,正在為OpenAI打造下一代AI晶片。
此外,TPU的成功促使許多公司建構自己的AI晶片。亞馬遜推出了Trainium和Inferentia,微軟開發了Maia,特斯拉打造了Dojo。初創公司如Cerebras、SambaNova、Graphcore等也紛紛入局。
這些公司的晶片團隊中,都能找到前TPU成員的身影。GoogleTPU項目,已經成為AI晶片行業的“黃埔軍校”。
寫在最後
從2015年為瞭解決AI計算效率瓶頸被迫自研,到2025年即將把TPU部署到客戶自有資料中心,Google用十年時間,把一個“不得不做的救命項目”,一步步打造成可能撼動輝達霸權的戰略級武器。
TPU的成功證明了幾點:
第一,專用晶片大有可為。在特定領域,ASIC可以實現比通用晶片高出數十倍的能效比。隨著AI應用的深入,會有越來越多的公司選擇定製化晶片。
第二,軟硬體協同是關鍵。Google之所以能成功,不僅因為硬體設計出色,更因為擁有TensorFlow、JAX等軟體生態,以及海量的內部應用場景來驗證和最佳化。這種垂直整合能力是多數公司難以複製的。
第三,算力競爭的本質是成本競爭。TPU從來不是為了和誰比單卡性能,而是為了讓AI真正跑得起、賺得到錢。在推理成本成為AI公司最大開支的今天,誰能提供性價比最高的算力,誰就能贏得市場。
第四,生態系統仍是關鍵壁壘。儘管TPU技術先進,但輝達的CUDA生態系統依然強大。未來的競爭,不僅是晶片性能的比拚,更是生態系統的較量。
展望未來,AI基礎設施將從“自建GPU叢集”轉向“雲+專用晶片+混合部署”的全新形態。GPU、TPU、定製ASIC將各展所長,形成多樣化共存的生態。這不僅會打破輝達的長期壟斷,也將為整個AI產業帶來新的發展機遇。 (半導體行業觀察)
