這顆不被看好的晶片，終於翻身？

2025/11/30

•

這兩天，GoogleTPU徹底火了。

據國外媒體報導，Meta正考慮從2027年起在其資料中心部署Google的TPU（張量處理單元），潛在合同金額達數十億美元。消息一出，Google股價盤前暴漲超4%，而輝達股價則一度下跌超4%。

這不是TPU第一次震撼業界。就在此前不久，Google發佈的Gemini 3大模型全程使用TPU訓練，橫掃各大基準測試榜單，月活使用者突破6.5億。AI初創企業Anthropic更是宣佈將部署多達100萬個GoogleTPU晶片，交易價值數百億美元。

Google今年正式發佈第七代TPU晶片Ironwood，單晶片峰值算力達到4614 TFLOPS，在訓練和推理方面的性能比上一代提升了4倍多，被稱為“迄今為止性能最強、能效最高的定製晶片”。最高配叢集可連接9216個液冷晶片，峰值算力可達42.5 ExaFLOPS，是世界上最大超級電腦的24倍以上。

從“不被看好的救命項目”到如今可能撼動輝達霸權的戰略級武器，TPU用十年時間完成了驚人的蛻變。

被迫自研

時間回到2013年，Google內部爆發了一場算力危機。

當時，Google的研究人員做出了一個驚人的預測：如果全球僅1億Android使用者每天使用語音搜尋並通過神經網路進行3分鐘的語音識別，所消耗的算力就將是Google所有資料中心總算力的兩倍。而當時全球Android使用者遠不止1億。如果僅通過擴巨量資料中心規模來滿足需求，不僅耗時，成本更是高得驚人。

當時市面上有三個選擇：繼續使用CPU、購買輝達GPU，或者自研ASIC晶片。

雖然輝達GPU已經非常成熟，可以立即購買，但Google經過評估後發現，依賴GPU存在兩個致命問題：一是GPU並非完全專門用於深度學習計算，在Google的規模下，效率損失意味著巨大的成本浪費；二是將對Google戰略至關重要的硬體完全依賴單一供應商，風險太大。

當時Google團隊研究了市面上所有算力解決方案，最終全部被高層否決。開發公司內部的深度學習專用處理器晶片，成為Google的不二之選。

但問題在於，開發ASIC晶片通常需要數年時間和高昂成本，在AI快速發展的時代，Google等不起。這個項目的目標非常明確：必須快速向資料中心交付硬體，而且要大規模交付。目標是開發一個與GPU相比，在推理上產生10倍成本性能優勢的ASIC。

Google迅速行動起來，挖來了惠普智能基礎設施實驗室高級總監Norm Jouppi、Arm架構開發商Calxeda的SoC工程總監Richard Ho等一批晶片行業資深人才，還與另一位巨頭——博通達成了合作。

通常一個晶片的開發需要幾年時間，但Google只用了15個月就完成了從立項到大規模部署。

TPU項目負責人Norm Jouppi回憶道：“晶片設計過程異常迅速，這本身就是一項非凡的成就。更出乎意料的是，首批交付的矽片無需進行任何錯誤修正以及掩膜的更改，而正在同步進行的還有團隊組建，RTL設計專家、驗證專家都急需補充，整個工作節奏非常緊張。”

2015年，第一代TPU悄然誕生。它採用28nm製程工藝，專為推理設計，雖然參數在今天看來並不出眾，但在當時卻帶來了15-30倍的性能提升和30-80倍的能效提升。

TPU的核心創新在於採用了“脈動陣列”（Systolic Array）架構。這是一個由65536個乘法單元構成的256×256網格，資料像血液一樣有節奏地流過處理單元，每個單元只做乘法和累加，然後將結果傳遞給下一個。這種設計使資料在陣列內部被高度復用，最大限度減少了對高延遲、高功耗主記憶體的訪問。

更關鍵的是，TPU採用了“提前編譯"”策略。編譯器在程式執行前就完整規劃好了所有資料路徑，這種確定性使其無需複雜的快取機制，從而大幅降低了能耗。

但最初，業界對TPU並不看好。

當Google發佈TPU架構細節和性能指標時，立刻引發了激烈爭議。輝達加速計算副總裁Ian Buck毫不客氣地回應：“Kepler是2009年設計的，用於解決傳統高性能計算問題。當Kepler設計時，GPU深度學習研究甚至還沒開始。”他強調，輝達在Maxwell和Pascal兩代GPU上已專門針對機器學習做了大量最佳化。

輝達隨即公佈了自己的基準測試結果。在GoogLeNet推理工作負載上，要求99%的交易響應時間低於10毫秒的前提下，TPU能處理28萬次推理/秒，而Pascal P40能處理56萬次/秒——整整兩倍於TPU。即使是更小的Tesla P4，性能也與TPU基本持平。

更致命的質疑來自成本層面。Buck直言不諱地表示：“GPU單位性能的成本應該遠低於TPU。"他指出，P4加速卡售價約2100美元，P40約4700美元。如果Google開發和製造TPU的總成本無法在性價比上超越這些GPU，那麼自研晶片在經濟上就毫無意義。

輝達還預測，未來的Volta架構GPU將把機器學習推理性能再翻一番。屆時，升級了GDDR5記憶體的TPU也只能勉強追平Volta的性能。“對於市場上其他公司來說，為AI開發定製ASIC是一項極其昂貴且具有挑戰性的任務。”Buck的言外之意很明確：在GPU年年迭代的節奏下，定製晶片的風險太高。

業界普遍都在質疑：Google為什麼要冒險自研？如果GPU能滿足需求，為什麼還要承擔巨額研發成本和供應鏈風險？

這個問題的答案，要等到幾年後才逐漸清晰。Google最看重的不是單卡峰值性能，而是在其特定工作負載下的總擁有成本（TCO）。TPU雖然在通用基準測試中不一定佔優，但在Google的實際應用場景中，能夠以更低的功耗實現足夠的性能，並且完全按照Google的需求定製。

更重要的是，自研晶片讓Google掌握了戰略主動權。它不必擔心供應商漲價，不必受制於GPU的產品路線圖，可以根據自身需求隨時調整晶片設計。

現實很快就打了包括輝達在內的所有人的臉——TPU最終生產了超過10萬顆，在廣告、搜尋、語音、AlphaGo甚至自動駕駛等領域被廣泛採用。

2016年，在舉世矚目的AlphaGo對戰李世石的比賽中，TPU正式亮相。當時AlphaGo僅部署了48個TPU，就戰勝了之前內建1202個CPU和176個GPU的版本，這一戰讓TPU徹底出圈。

迭代突破：從 v1 到 v7 的十年征程

TPU v2（2017）：從推理到訓練的跨越

第一代TPU在加速推理方面驚豔業界，但它無法參與訓練，這成為深度學習繼續擴展的最大瓶頸。Google通過內部大規模訓練任務發現：推理是“跑刷新視訊”，訓練才是“拍電影本身”，二者的計算差距不止一星半點。在這樣的背景下，TPU v2 的目標不再是做一顆快晶片，而是承擔起支撐未來數十億參數模型的訓練任務，基礎定位發生徹底變化。

TPU v2最重要的創新，是Google親手定義了深度學習時代的核心數值格式——bfloat16。它保留FP32的動態範圍，同時把精度砍半，既保證模型訓練穩定性，又讓吞吐和能效大幅提升。與此同時，Google將片上高頻寬記憶體擴充至16GB，並將頻寬提升到600GB/s，為訓練階段的巨量資料流動提供高速通道。更加大膽的是全新的“2D環形互連”（ICI），首次將 256 顆 TPU 以低延遲網路串成一個訓練陣列。

當年發佈的 TPU v2 Pod，峰值算力達到 11.5 PetaFLOPS，標誌著Google真正邁向“AI超級計算基礎設施提供者”的道路。v2 奠定了此後 TPU 系列作為“訓練叢集核心”的角色，也開始推動行業從單卡競爭轉向“叢集規模+互連架構”的新賽道。它不僅是 TPU 的一次升級，更是Google AI 基礎架構戰略的第一次大方向轉折。

TPU v3（2018）：液冷時代的開啟

僅僅一年後，TPU v3 將整體性能再次翻倍，單個 Pod 的晶片數增至 1024 顆，訓練能力大幅提升。然而性能爆發也帶來副作用：單顆 TPU v3 功耗飆升至 450W，大規模叢集意味著要同時處理上百千瓦的熱量。傳統風冷方案完全無法承載如此密度，這成為Google必須正面突破的技術難題。

面對散熱瓶頸，Google作出關鍵決策——全面轉向液冷。TPU v3 叢集首次採用直接液冷方案，讓冷卻液貼身吸走晶片產生的熱量。對於資料中心而言，這是基礎設施層的結構性變革，意味著從伺服器機架、管路布設到能耗管理，全都要為AI計算重新設計。液冷的引入，也宣告 TPU 進入“超高功率密度計算”的新紀元。

Google通過 v3 建立起在大規模訓練基礎設施中的工程優勢，奠定了後續 TPU 超大規模叢集能力的物理基礎，也讓液冷成為之後 AI 資料中心的主流趨勢。

TPU v4（2022）：光電互連的革命

當模型規模進入數百億甚至兆參數時代，叢集規模成為性能的決定性因素。傳統固定拓撲的互連網路很快遇到瓶頸——模型結構不同、訓練階段不同，對通訊模式的需求也不同。TPU v4 面臨的核心挑戰，不只是提升速度，而是讓網路能夠隨任務而變。

2022年的TPU v4 的最大突破是引入 OCS（Optical Circuit Switch）光電路交換技術，讓互連從“固定拓撲”變成“動態可程式設計”。系統通過微鏡陣列在毫秒等級切換光路，能夠為不同規模、不同訓練階段的任務建立最優連接結構。與此同時，TPU v4採用3D環面拓撲，單叢集規模擴大至 4096 顆晶片，在 7nm 工藝的加持下，整體能效比上一代更高。

OCS 技術的引入，直接推動行業把“可重構光網路”納入超算與大型訓練叢集的標準方案，也成為Google後續更大規模訓練系統的基石。

TPU v5p（2023）：向訓練與推理雙強進化

隨著 Transformer 家族模型不斷膨脹，訓練的需求依然高漲，但推理成為新的成本黑洞。Google意識到：如果 TPU 只盯著訓練，將在推理市場失去陣地；若只盯推理，又會失去在大型模型訓練上的領導地位。因此，v5p 的使命是打造一顆“訓練強、推理也強”的全能計算核心。

TPU v5p 將叢集規模提升至 8960 顆晶片，並將晶片間互連頻寬翻倍至 1200GB/s，同時升級至 800G OSFP 光模組，實現更高密度、更低延遲的通訊。無論是在超大規模模型訓練，還是在大型線上推理服務的吞吐表現上，v5p 都相比上一代實現顯著躍升，成為泛AI負載加速器。

v5p 的定位轉變十分關鍵：Google正式不再把 TPU 限製為訓練晶片，而是把它推向更廣泛的推理市場。這是一次戰略上的擴圈，使 TPU 在未來大型 AI 服務中具備更廣泛的應用空間。v5p 為 TPU v6 和 v7 的“推理強化路線”打下基礎，也標誌著 TPU 產品線從單一場景走向通用化的轉折點。

TPU v6（2024）：推理時代的宣言

進入 2024 年，全球 AI 公司最大的開銷已經不再是訓練，而是推理。隨著數十億使用者每天呼叫大模型服務，推理成為全行業的成本中心。Google意識到：誰能把推理成本壓下來，誰就能贏得下一階段的 AI 服務競爭。TPU v6（Trillium）因此被定義為面向推理進行架構重做的產品。

TPU v6 的架構圍繞推理重新設計：FP8 算力吞吐顯著提升，使大模型推理的性價比大幅改進；片上 SRAM 容量翻倍，減少訪問 HBM 的能耗和延遲；整體能效比上一代提升 67%，在同等功耗下獲得顯著更高的吞吐。這些設計都直指推理任務的痛點——頻寬、延遲、能效。

Trillium 的推出，是Google向行業宣告：TPU 的主戰場不再侷限於訓練，而是全力進攻推理。憑藉能效優勢，v6 成為Google內部搜尋、廣告、YouTube 推薦以及 Gemini 系列模型推理的主力引擎，在規模化部署中具備極高成本優勢。TPU 自此徹底進入“推理優先”的時代，為 v7 Ironwood 的到來鋪平道路。

TPU v7 Ironwood（2025）：正面交鋒輝達

如果說過去的 TPU 主要在自家生態中使用，那麼 TPU v7 Ironwood 的定位完全不同：這是Google第一次在推理晶片性能上正面向輝達開火。其單晶片 FP8 峰值算力達到 4614 TFLOPS，略高於輝達 B200 的 4500 TFLOPS，標誌著 TPU 在推理性能上首次反壓 NVIDIA。

Ironwood 配備 192GB HBM3e，頻寬高達 7.2TB/s，使其能更輕鬆承載數百億到上千億參數的推理任務。最高支援 9216 顆液冷晶片組成叢集，峰值算力可達 42.5 ExaFLOPS，是當前業內最大的專用推理叢集之一。在延遲、吞吐、能效方面都達到行業頂尖水準。

Ironwood 標誌著 TPU 歷史上的新階段——Google第一次把 TPU 產品推向開放競爭場，並將其作為與輝達抗衡的主動武器。象徵 TPU 從追趕時代邁入進攻時代，也標誌著Google在 AI 基礎設施競爭中不再只依賴規模，而是開始以性能和產品力正面對壘。

輝達GPU霸權，面臨動搖

過去十年，TPU主要服務於Google內部，但現在Google已開始積極推動TPU的商業化。

2024年夏天，Google開始與主要出租輝達晶片的小型雲服務提供商接洽，探討在其資料中心託管TPU的可能性。目前已與倫敦Fluidstack達成協議，將在紐約資料中心部署TPU。若Fluidstack無法支付即將到期的紐約資料中心租賃費用，Google將提供高達32億美元的兜底擔保——這手法幾乎復刻輝達當初扶持CoreWeave的策略。

Google還開始向Meta、大型金融機構等推介在其自有資料中心部署TPU的方案。知情人士透露，Google雲部門部分高管預測，這類業務可能為Google帶來數十億美元的年收入，幫助Google拿下輝達10%的年營收盤子。

為推動TPU本地部署，Google還專門開發了“Google版CUDA”——TPU command center，簡化客戶的TPU使用流程。雖然Google為TPU打造的程式語言Jax普及度遠不及CUDA，但Google向客戶承諾，可借助PyTorch生態工具與TPU command center互動，無需精通Jax。

野村證券指出，預計到2026年，ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。2025年，GoogleTPU的全年出貨量預計為250萬片，到2026年將超過300萬片。

隨著TPU的崛起，輝達感受到了前所未有的壓力。

2025年11月26日凌晨，在GoogleTPU Ironwood正式上市和Meta考慮採購TPU的消息傳出後，輝達罕見發佈緊急聲明回應：“我們對Google的成功感到高興——他們在人工智慧領域取得了重大進展，而我們仍將繼續向Google供貨。輝達領先行業整整一代，是唯一能夠運行所有AI模型，並可在所有計算場景中部署的平台。”

這條聲明瀏覽量破150萬，評論超750個，成為AI圈爆火內容。當天輝達股價下跌2.59%，而自10月底以來，輝達市值已縮水超5兆人民幣。

但競爭遠未結束。Google自己也承認，TPU和輝達GPU的需求都在加速增長，公司會繼續同時支援兩種晶片。事實上，即使Google成功開發了TPU，仍在大量採購輝達GPU。2024年，Google訂購了約16.9萬台Hopper架構GPU，同時內部已部署約150萬顆TPU。

業內更多觀點認為，未來更可能呈現ASIC和GPU異構部署，而不是那一種架構一統天下。TPU的優勢在於針對特定任務的極致最佳化和能效比，而GPU的優勢在於通用性、靈活性和完整的生態系統。

TPU團隊的快速流失

TPU的成功吸引了整個行業的目光，也引發了激烈的人才爭奪戰。

2015年，風險投資家Chamath Palihapitiya在Google財報會上無意間瞭解到Google正在自研AI晶片。他敏銳地意識到這是一次晶片創新的機會，開始對GoogleTPU團隊工程師進行人才mapping。

2016年底，在GoogleTPU核心團隊的十人中，有八人悄悄離職，由前Google高級工程師Jonathan Ross帶隊，在加州山景城創辦了Groq公司。這批人帶走了TPU最核心的技術理念和設計經驗。

Groq推出的LPU（語言處理單元）晶片，推理速度達到輝達GPU的10倍，成本只有其1/10。雖然在總體擁有成本上仍有爭議，但其展現的技術路線為行業帶來了新思路。2024年8月，Groq完成由貝萊德領投的6.4億美元融資，估值達到28億美元。Meta首席AI科學家Yann LeCun更是公開稱讚："Groq晶片確實直擊要害。"

OpenAI同樣也在挖角Google。Sam Altman制定的用人法則只有一條：要麼現在在Google，要麼之前在Google。為了推進激進的7兆美元自研晶片戰略，OpenAI近一年來大量挖角GoogleTPU團隊。

值得注意的是，Sam Altman搭建了以前Google高級工程總監Richard Ho為首的硬體研發團隊，主要成員包括Tensor SoC負責人Ravi Narayanaswami、高級硬體工程師Thomas Norrie、技術經理Sara Zebian、研究科學家Phitchaya以及設計驗證經理Jerry Huang等人。

2024年10月，OpenAI宣佈與博通及台積電達成合作，計畫於2026年生產首個定製晶片。這支由前GoogleTPU核心成員組成的團隊，正在為OpenAI打造下一代AI晶片。

此外，TPU的成功促使許多公司建構自己的AI晶片。亞馬遜推出了Trainium和Inferentia，微軟開發了Maia，特斯拉打造了Dojo。初創公司如Cerebras、SambaNova、Graphcore等也紛紛入局。

這些公司的晶片團隊中，都能找到前TPU成員的身影。GoogleTPU項目，已經成為AI晶片行業的“黃埔軍校”。

寫在最後

從2015年為瞭解決AI計算效率瓶頸被迫自研，到2025年即將把TPU部署到客戶自有資料中心，Google用十年時間，把一個“不得不做的救命項目”，一步步打造成可能撼動輝達霸權的戰略級武器。

TPU的成功證明了幾點：

第一，專用晶片大有可為。在特定領域，ASIC可以實現比通用晶片高出數十倍的能效比。隨著AI應用的深入，會有越來越多的公司選擇定製化晶片。

第二，軟硬體協同是關鍵。Google之所以能成功，不僅因為硬體設計出色，更因為擁有TensorFlow、JAX等軟體生態，以及海量的內部應用場景來驗證和最佳化。這種垂直整合能力是多數公司難以複製的。

第三，算力競爭的本質是成本競爭。TPU從來不是為了和誰比單卡性能，而是為了讓AI真正跑得起、賺得到錢。在推理成本成為AI公司最大開支的今天，誰能提供性價比最高的算力，誰就能贏得市場。

第四，生態系統仍是關鍵壁壘。儘管TPU技術先進，但輝達的CUDA生態系統依然強大。未來的競爭，不僅是晶片性能的比拚，更是生態系統的較量。

展望未來，AI基礎設施將從“自建GPU叢集”轉向“雲+專用晶片+混合部署”的全新形態。GPU、TPU、定製ASIC將各展所長，形成多樣化共存的生態。這不僅會打破輝達的長期壟斷，也將為整個AI產業帶來新的發展機遇。 (半導體行業觀察)

科技