股價“跌跌不休”,輝達都不得不站出來表態,“我們領先了全行業一代”。
事情要從巴菲特「謝幕之作」說起-波克夏‧哈撒韋公司首次建倉Google母公司Alphabet股票,隨後更勁爆的是市場又傳出輝達大客戶Meta考慮2027年在其資料中心部署GoogleTPU,並於2026年透過Google雲租用TPU算力。
輝達在緊急聲明中,強調GPU在效能、通用性和可攜性方面「遠優於」ASIC(專用積體電路),並重申自研TPU無法取代GPU的靈活性。 Google發言人也表示繼續和輝達保持合作關係,並強調公司致力於同時支援TPU和輝達GPU。
TPU,從一個10年前為瞭解決AI計算效率瓶頸的“救命項目”,如今已經發展成為Google的“經濟支柱”。
作為自研ASIC晶片的代表,TPU已經具備動搖輝達根基的潛力,只不過Google的邏輯不是和輝達比單卡性能,而是在用一套完全不同的超大規模系統哲學,重新定義AI基礎設施的未來。
一切都要從10年前,TPU誕生的那一刻說起。
Google在2015年啟動TPU項目,這並非出於炫技,更不是為了彰顯技術實力,而是被逼入了一個「不自研將難以支撐未來業務規模」的現實。
隨著深度學習在Google內部的應用不斷擴散,Google工程團隊當時意識到一個關鍵問題正在逼近——包括搜尋、廣告等Google核心服務都涉及巨量用戶請求,如果全面採用深度學習模型,那麼Google全球資料中心的功耗將暴漲至難以承受的程度,即使採購再多GPU也無法滿足需求,更不用說成本上的激增。
彼時GPU更適合訓練大規模神經網絡,但其能源效率並非針對即時線上推理設計。
Google內部甚至出現預測:如果未來所有核心業務上線深度模型,全球資料中心的電力成本會成長十倍。內部高層意識到,繼續依賴CPU和GPU的現有路線不可持續。
因此,Google決定自研ASIC加速器,目標不是造一個“最強通用晶片”,而是造一個“可大量部署在資料中心、用於特定矩陣運算的高能效晶片”。
最終,TPU v1在2016年正式投入使用,用於支援Google翻譯以及部分搜尋功能,證明了ASIC方案具有可行性。
2017年Transformer論文發表後,Google幾乎在同一時間意識到:這個新架構的計算模式高度規則、矩陣密度極高、平行度驚人,簡直是為TPU量身訂做的。與其讓外部硬體廠商慢慢跟進,不如自己把軟件框架、編譯器、晶片架構、網路拓撲、散熱系統全部握在手裡,形成全端閉環。
於是,TPU不再是孤立的晶片,而升級為GoogleAI基礎設施的底座:既要訓練出世界最強的模型,也要讓AI以最低成本滲透到公司每一條產品線。
從v2、v3開始,Google逐步開放TPU給Google雲端客戶,正式進入商業化階段。
雖然早期生態與相容性仍遜於GPU,但Google以XLA編譯器、高效能Pod架構、液冷資料中心、軟硬體深度共設計,硬生蹚出一條差異化道路。
2021年,TPU v4橫空出世,第一次把4096顆晶片組成一個超節點,靠著自研的環形拓撲網絡(2D/3D torus)實現近乎無損的跨晶片通訊。這套系統讓數千顆加速器像一顆「巨型晶片」一樣協同工作,直接把Google帶入超大規模AI時代,PaLM 540B模型正是在v4 Pod上訓練完成的。
Google用實際行動證明:只要叢集規模夠大、互聯效率夠高,模型效能就會隨著運算量近乎線性增長,而TPU的網路拓撲和排程系統,正是實現這一規律的最關鍵硬體支撐。
2023到2024年,TPU v5p成為轉折點。
它首次大規模進入Google廣告系統、搜尋核心排序、YouTube推薦、地圖即時預測等賺錢產品線,效能較v4翻倍,同時推出彈性節點架構,讓企業客戶可以按需擴展到近9,000顆晶片的規模。
Meta、Anthropic等頭部模型公司開始認真評估並採購TPU v5p,這標誌著TPU終於從「內部黑科技」成長為「生態可選項」。
2024年發表的第六代TPU v6(代號Trillium)則徹底亮明態度:Google未來的主戰場不再是訓練,而是推理。推理成本正成為全球AI公司最大的單項支出,v6從架構到指令集全部圍繞推理負載重新設計,FP8吞吐暴漲、片上SRAM容量翻倍、KV Cache訪問模式深度優化、晶片間帶寬大幅提升,能效比上一代提升67%。
Google公開表示,這一代TPU的目標是成為「推理時代最省錢的商業引擎」。
從2015年為瞭解決AI計算的效率瓶頸被迫自研,到2025年即將把TPU部署到客戶自有數據中心,Google用十年時間,把一個“不得不做的救命項目”,一步步打造成可能撼動輝達霸權的戰略級武器。
TPU從來不是為了和誰比性能,而是為了讓AI真正跑得起、賺得到錢。這正是Google與眾不同的打法,也是它最可怕的地方。
2025年,Google推出的第七代TPU(TPU v7,代號Ironwood)成為全球AI基礎設施領域最受關注的硬體產品。
這一代在架構、規模、可靠性、網絡與軟件系統上的一次全面重構。
Ironwood的誕生,正式宣告TPU從“追趕者時代”邁入“進攻時代”,也標誌著Google將推理時代視為未來十年的決戰主戰場。
Ironwood之所以特殊,首先在於它是TPU歷史上第一款專用推理晶片。與先前以訓練為主的v5p和以能效為主的v6e不同,Ironwood從第一天起就鎖定超大規模線上推理這一終極場景,並在多項關鍵指標上首次與輝達Blackwell系列實現正面交鋒。
單晶片層面,Ironwood的FP8稠密算力達到4.6 petaFLOPS,略高於Nvidia B200的4.5 petaFLOPS,已躋身全球旗艦加速器第一梯。內存配置為192GB HBM3e,帶寬7.4 TB/s,與B200的192GB/8 TB/s僅一步之遙。晶片間通訊帶寬9.6 Tbps,雖數字上不及Blackwell的14.4 Tbps,但Google走的是一條完全不同的系統級道路,單純數值對比已失去意義。
真正讓Ironwood成為里程碑的,是其超大規模擴展能力。
一個Ironwood Pod可整合9216顆晶片,構成一個超節點,FP8峰值性能超過42.5 exaFLOPS。 Google在技術檔案中指出,在特定FP8負載下,該Pod效能相當於最接近競品系統的118倍。這不是單晶片差距,而是系統架構與拓撲設計的碾壓。
支撐這一規模的核心,是Google十年磨一劍的2D/3D環面拓撲結合光路交換(OCS)網絡。
與輝達依賴NVLink+高階交換器建構的NVL72(僅72顆GPU)不同,Google從根本上放棄了傳統交換器為中心的設計,轉而用三維環面拓撲結構直接連接所有晶片,並通過OCS實現動態光路重構。
OCS本質上是一套“光版人工電話交換台”,利用MEMS微鏡在毫秒級完成光信號物理切換,幾乎不引入額外延遲,更重要的是,當叢集內出現晶片故障時,OCS能瞬間繞開壞點,保持整個計算域不中斷。
得益於此,Google液冷Ironwood系統的年可用性達到99.999%,即全年停機時間不到六分鐘。這一數字在超大規模AI群集中堪稱恐怖,遠超業界基於GPU的訓練群集常見程度。
Google已將TPU叢集從「實驗玩具」徹底升級為「資料中心命脈」。
在推理場景下,Ironwood展現出系統級的降維打擊能力。整個節點提供1.77 PB高帶寬HBM,所有晶片均可近乎等距訪問,這對KV緩存管理至關重要。推理時代最貴的不是算力,而是記憶體帶寬和高速緩存命中率,Ironwood透過共享巨量高速記憶體和極低通訊開銷,大幅減少重複計算。
內部實測顯示,同等負載下Ironwood的推理成本較GPU旗艦系統低30%-40%,極端場景下更高。
軟件層面同樣火力全開。 MaxText框架全面支援最新訓練與推理技術,GKE拓撲感知調度可根據Pod內即時狀態智慧分配任務,推理網關支援前綴緩存感知路由。綜合優化後,首Token延遲最高下降96%,整體推理成本再降30%。
Ironwood不僅推動Gemini系列繼續領跑,也直接撬動外部生態。
Anthropic宣佈未來Claude系列的訓練與部署將使用多達一百萬顆TPU。即使擁有AWS Trainium等備選方案的玩家,也無法忽視Ironwood在超大規模推理上的代際優勢。
CNBC在對AI晶片領域三大玩家——Google、輝達和亞馬遜——進行分析後指出,三者都在大規模投入研發,但它們追求的目標、商業模式、生態建構方式、硬體哲學均有顯著不同。
這些差異深刻影響了晶片的形態、性能側重點、客戶採用路徑以及市場地位。
輝達的路線始終圍繞著GPU推進,而GPU的核心價值在於通用性。
GPU具備海量平行計算單元,能夠支援從深度學習到圖形渲染再到科學計算等多種工作負載。更重要的是CUDA生態幾乎鎖定了全行業的開發路徑,一旦模型或框架為CUDA優化,就很難切換到其他晶片架構。
輝達透過軟硬深度捆綁實現了類似蘋果生態在消費品市場的壟斷能力,但GPU的缺陷也十分明顯。
首先,GPU並非為推理優化,它的設計初衷是高速平行計算,而不是以最低成本執行重複推理指令。其次,GPU的靈活性意味著其硬體資源在實際推理場景中可能並非最優配置,導致單位能耗的效率不如ASIC。最後,輝達的定價權極高,雲廠商往往需要以遠高於製造成本的價格購入GPU,形成今日廣為人知的「輝達稅」。
Google的路線與輝達不同。Google並不追求硬體通用性,而是追求深度學習特別是Transformer負載的極致效率。TPU的核心是脈動陣列,這是一種專門為矩陣乘法設計的架構,使其在深度學習計算中特別有效率。
Google不是希望TPU成為產業通用晶片,而是成為全球AI推理和訓練最具效能的專用晶片,進而讓Google整個AI系統做到效能領先、成本最低、部署最廣。
Google的核心優勢在於全端整合能力。他們不僅控制晶片,還控制模型、框架、編譯器、分散式訓練系統和資料中心基礎設施。這讓Google可以做出許多GPU無法實現的系統級優化。
例如資料中心網路拓撲完全為TPU超節點服務,軟件層面的調度系統能根據模型特性自動調整硬體資源的使用方式。這種「系統級一體化」是輝達無法做到的,因為輝達只能控制GPU,而無法控制客戶的資料中心。
亞馬遜則走了第三條路線,其晶片戰略出發點是降低AWS的基礎設施成本,同時減少對外部供應商尤其是輝達的依賴,因此他們開發了Trainium和Inferentia。
作為雲廠商,AWS關注的是規模效應與經濟性,而非像Google那樣建構一個統一的AI算力體系。
Trainium的設計更靈活,在不少情況下接近GPU的適配能力,但效能針對訓練和推理分別做了優化。 Inferentia則聚焦推理,適合高吞吐部署場景。亞馬遜透過晶片降低內部成本並將節省部分回饋給客戶,從而提升AWS的競爭力。
整體而言,輝達的路線是通用、生態驅動、軟件鎖定;Google的路線是專用、垂直整合、系統統一;亞馬遜的路線是成本優化、雲端驅動、相容商業需求。三者的路線差異導致了AI晶片市場中出現了截然不同的產品形式、商業策略與競爭格局。
Google之所以能夠在推理時代獲得顯著優勢,關鍵並不僅僅在於TPU的硬體效能,更在於其全端垂直整合策略。
這種策略讓Google避免了昂貴的“CUDA稅”,並在成本結構上相對於OpenAI和其他依賴GPU的企業形成了巨大優勢。
所謂CUDA稅,是指GPU晶片從生產到銷售過程中所疊加的高額利潤。
輝達的GPU成本大約只有幾千美元,但賣給雲廠商時價格往往動輒數萬美元不等,毛利率高達八成以上。全球所有訓練大模型的科技公司幾乎都要支付這項成本,而且無法擺脫。
OpenAI依賴輝達GPU進行訓練和推理,且由於GPT系列模型參數規模龐大、推理量龐大,其總體算力開支遠超多數企業的總收入。
輝達的定價模式使這些公司無論怎麼優化模型,都難以實現規模化商業利潤。
Google的策略完全不同。 Google採用自研TPU進行訓練與推理,整個供應鏈由Google控制,從晶片設計到製造、從網路方案到軟體棧再到資料中心佈局,全部由Google內部優化。
由於不需要支付輝達稅,Google的算力成本結構天生比OpenAI更具優勢。
Google不僅在內部獲得低成本,還將這種成本優勢傳遞給Google雲端的客戶。透過TPU服務,Google可以為客戶提供更低價格的推理能力,從而吸引大量模型公司和企業遷移到Google平台。
根據科技網站venturebeat.com的報導,Google在算力成本上的結構性優勢遠遠優於OpenAI。這意味著,Google提供同等推理服務時,其底層成本可能僅為對手的兩成。如此大的成本差異在推理時代具有決定性意義。
當企業的推理成本佔到其支出的大部分時,遷移到成本最低的平台就成為必然選擇。例如,一家企業每年可能在推理上消耗數千萬美元甚至上億美元,如果遷移到TPU可以節省三到五成成本,那麼遷移幾乎是一種不可迴避的商業決策。
Google還推出了TPU@Premises計劃,將TPU直接部署在企業資料中心,讓客戶可以在本地以最低延遲使用推理能力。這再次強化了Google的成本優勢,進一步擴大TPU的商業輻射範圍。
在OpenAI的商業模式中,其最重要的成本來自算力,而在Google的商業模式中,其算力成本是自研產品體系的一部分,可以透過Google雲收回投資。 Google在硬體、軟體、網路和雲端基礎設施上的深度融合,使其具備真正意義上的垂直整合能力。
這種整合不是簡單節省成本,而是在推動整個生態的重新配置。
隨著越來越多企業意識到推理成本的重要性,Google的成本優勢將不斷被放大,TPU的市場份額也將在推理時代獲得更快成長。 TPU的垂直整合策略最終不僅是Google的競爭策略,更是對整個產業競爭秩序的重塑力量。
回顧TPU的發展史,可以看到一個典型的「追趕到領先」的演變軌跡。
早期TPU在生態成熟度、相容性和訓練性能方面落後於GPU,外界普遍認為Google在AI大模型時代被OpenA 超越。然而這種外部印象忽略了Google在基礎設施層面的深度積累,也忽略了Google在全端系統上的獨特優勢。
隨著Gemini系列模型逐代升級,Google逐步證明自己仍是全球少數可以實現訓練穩定性、推理成本控制和全端效能優化的公司,TPU在其中扮演了關鍵角色。
Gemini 2.0多模態模型的訓練和推理都在TPU上完成,而TPU的高效能使Google能夠以相對低成本訓練大規模模型,使模型迭代周期更短、成本更低。
隨著公司進入推理時代,TPU的角色從支援Google內部模型轉向支援全球企業客戶。 Google雲的AI收入隨之大幅增加,雲部門的財報顯示全年化收入達到440億美元,並成為Google整體業績成長的重要驅動力。
Google在雲端市場的競爭地位長期落後於AWS和Azure,但在AI時代出現了新的賽道,在AI基礎設施方面實現領先。這一領先並非偶然,而是TPU多年積累後的自然結果。
在企業AI採用加速的大背景下,越來越多公司需要推理成本低、穩定性高、效能強的模型部署方案。 GPU雖然效能強,但成本和供貨都有限制,而TPU提供了更具經濟性和穩定性的替代方案。尤其在大規模線上推理場景中,TPU的優勢尤為明顯。
更重要的是,Google並非只以晶片作為賣點,而是以整體解決方案吸引企業。
例如Google提供從模型訓練、模型監控、向量資料庫、推理服務到資料安全的一體化體系,TPU在其中作為最底層基礎設施發揮作用。 Google將自己塑造成企業採用AI的完整平台,使其與AWS和Azure在差異化競爭中獲得新的優勢。
未來幾年,AI產業的競爭將從模型維度轉向成本維度,從訓練能力轉向推理規模,從生態建構轉向基礎設施整合。 Google憑藉TPU、全球資料中心佈局、代際升級節奏和全端能力,預計在這一新周期中建立比過去十年更牢固的競爭壁壘。
Google從追趕者轉向領先者的過程並非一蹴而就,而是在十年時間裡持續投入基礎設施、堅持自研、不斷調整模型路線的結果。 TPU是Google在AI時代建構的最長久、最深層、最具戰略意義的資產,而這項資產正成為推動Google市值成長、雲端業務崛起和AI商業模式重塑的主力引擎。 (半導體產業縱橫)