目前,Google正積極接觸那些依賴租賃輝達晶片的小型雲服務提供商,勸說它們在資料中心託管Google的TPU處理器。首戰告捷,Google已與倫敦的Fluidstack達成協議,將在紐約的一個資料中心部署TPU。
同時,Google的觸角伸向了為OpenAI建造資料中心的Crusoe,以及向微軟租賃晶片並與OpenAI簽有供應合同的CoreWeave——後者被業內視為輝達的親兒子。這一系列動作,意圖再明顯不過:Google不僅要搶奪輝達的客戶,更要直接切入其最核心、利潤最豐厚的AI算力供應鏈。輝達以200億美元現金,收購初創公司Groq的核心資產,這筆交易不僅刷新了輝達自身的歷史收購紀錄,遠超其2019年以70億美元收購Mellanox的規模,更以雷霆之勢,將一顆冉冉升起的輝達挑戰者直接納入麾下。此次遠非一次簡單的收購,而是一場精心策劃的戰略圍剿。畢竟已經冒出來一家GoogleTPU了,輝達不允許再有任何真正的挑戰者存在,要麼被擊敗,要麼被收購。
Google為這一戰所做的鋪墊,遠比我們想像的更為漫長,也更為深遠。早在2015年,第一代TPU v1的性能優勢,就已經在AlphaGo的演進中得到了最戲劇化的體現:1)AlphaGo Fan(2015年10月):擊敗歐洲冠軍樊麾的版本,運行在Google雲上,動用了1202個CPU和176個GPU的分佈式叢集。2)AlphaGo Lee(2016年3月):擊敗李世石的版本,同樣在雲端運行,但硬體已取代為僅48個第一代TPU。計算裝置從上千個銳減到幾十個,背後的電力、機房空間和維運成本呈數量級下降。3)AlphaGo Master(2017年5月):戰勝世界第一柯潔的版本,運算量僅為上一代的十分之一,甚至可以在單台伺服器上運行,僅需4個第一代TPU。從1202個CPU+176個GPU,到4個TPU。這組對比再直觀不過地揭示了專用AI晶片帶來的效率飛躍。第一代TPU的成功,迅速從實驗室走向了Google龐大的產品線,被部署到Google搜尋、廣告、YouTube以及雲平台等服務的每一次請求中,處理著每天數百億次的推理任務。自此,Google意識到,他們需要的不是一顆更快的通用晶片,而是一把為特定任務量身定製的手術刀。TPU項目應運而生,其設計哲學極其清晰:為神經網路推理任務做極致最佳化,追求極致的性能功耗比,放棄GPU使用的32位浮點數,轉而使用8位整數INT8進行計算。這大幅減少了電晶體數量、功耗和記憶體頻寬需求,而精度損失對於許多推理任務而言是可接受的。但是TPU v1僅專注於推理,而AI發展的瓶頸正迅速轉向需要巨大算力的大模型訓練環節。Google的TPU迭代之路就此全面展開,其升級不僅體現在單晶片性能,更在於系統級和生態級的突破。此後,TPU迅速迭代:1)TPU v2/v3:首次支援訓練任務。更重要的是,Google提出了 “TPU Pod” 的概念,通過高速網際網路絡將成千上萬個TPU晶片連接成一個超級電腦,為訓練大型模型提供了可能。2)TPU v4:性能顯著提升,並開始通過Google雲對外提供服務,但主要客戶仍是Google自身和少數雲使用者。
3)TPU v5p:被視為一個重大飛躍,在一些基準測試中與輝達H100相當。同時,推理需求再次爆發,v5系列中更側重低價的v5e版本,將戰略重心轉回高性價比、高吞吐量的推理,旨在以更低成本服務海量使用者。
4)TPU v6 (Trillium) 與 v7 (Ironwood):最新的兩代產品。TPU v6在理論算力上已非常接近輝達H200,而v7則進一步縮小了與輝達旗艦產品在發佈時機和理論算力上的差距。v7 Ironwood首次支援FP8計算格式,單晶片FP8算力與輝達B200非常接近,屬於同一性能梯隊。在系統層面,由近萬顆晶片組成的Ironwood超級叢集總算力也達到了與輝達Blackwell系統相當的等級。Google的策略很清晰,從滿足內部需求出發,用十年時間,逐步將TPU打造成一項可對外銷售的雲端運算核心服務——2025年,GoogleTPU全年出貨量預計為250萬顆,其中v5系列佔190萬顆,v6系列佔60萬顆;2026年,預計全年出貨量將高達400萬顆,其中v7 Ironwood佔據主導地位將超過200萬顆。從數量上來看,輝達資料中心GPU在2026年出貨量約600萬顆,TPU的追趕勢頭已經不容小覷。
Google的戰略,正在發生根本性轉變:從自產自用的封閉生態,轉向直面市場的晶片供應商。2023-2026四年時間,GoogleTPU的總產量預計高達800萬顆。然而,僅2027和2028兩年,其新規劃的總產量就高達1200萬顆。這意味著,Google計畫用未來兩年時間,生產遠超過去四年總和的晶片。這種擴張速度在半導體行業堪稱罕見,不僅遠超市場預期,更清晰地指向一個目標——大規模商業化。如此龐大的產能規劃,已遠遠超出Google自身雲服務Google Cloud的預期需求。兩年1200萬顆的規模,瞬間將TPU推向了與一線AI晶片廠商比肩的層級。這筆產能經濟帳,是Google轉型的核心動力。以此推算,若Google在2027年實現100萬顆TPU的對外銷售(約佔其當年規劃產量500萬顆的20%),即可創造約260億美元的新增營收。作為對比,這相當於Google雲2024年全年營收的相當大一部分,凸顯了其成為新增長極的潛力。若2027年500萬顆、2028年700萬顆TPU的預測成真,那麼到2028年,GoogleTPU的年產量將直逼輝達GPU的預計出貨規模。這意味著在短短兩年內,Google可能從一個主要的晶片消費者,轉變為一個能在供應量上與輝達正面交鋒的競爭者。此前,TPU如同GoogleAI商業版圖的私人彈藥庫,專為驅動其搜尋、廣告、YouTube及雲平台AI服務而最佳化,這種垂直整合帶來了極高的效率和性能壁壘。然而,將其轉化為對外銷售的商品,意味著Google要直面截然不同的商業規則:標準化、軟體生態、客戶支援、市場價格競爭。Google的突破口在於提供 “AI解決方案”而非“AI通用晶片” 。它可以將TPU與自家強大的AI軟體棧(如TensorFlow、JAX)、雲服務和預訓練模型進行打包,為客戶提供“開箱即用”的AI能力,以降低客戶整體擁有成本TCO。但這套策略也面臨嚴峻挑戰:輝達的CUDA生態歷經十餘年建設,已成為AI開發的事實標準,Google需要建構一個堪比CUDA的、開放且繁榮的開發者生態,這比製造晶片本身更為艱難;第三方客戶是否願意將AI未來押注在Google晶片上?這取決於TPU的性能、性價比、軟體相容性、長期支援承諾,以及客戶對“不被單一雲廠商繫結”的深度顧慮;作為後來者,TPU必須在性能或成本上提供顯著優勢,才能說服客戶遷移已基於輝達GPU建構的複雜工作流。頭部AI公司動向上看,TPU的吸引力是真實的。AI獨角獸Anthropic此前使用亞馬遜的Trainium晶片,最近被發現在招聘TPU核心工程師;馬斯克的xAI也對採購TPU表現出濃厚興趣。這些領先的模型開發商對算力成本極為敏感,它們的傾向是行業趨勢的最佳觀察——畢竟2025下半年,圍繞GoogleTPU的開發者活躍度也激增了近100%。GoogleTPU的產能激增,是一部剛剛拉開的序幕而已。前方的核心懸念早已不再是技術,而是商業模式的抉擇:Google能否成功將其技術優勢轉化為市場認可的開放生態和客戶信任?這場Google十年佈局的下半場,將決定TPU是止步於一個有力的挑戰者,還是真正成為重塑AI算力格局的顛覆性力量。面對圍攻,輝達並未坐以待斃。其反擊策略是:開放生態,以退為進。輝達正式發佈NVLink Fusion技術,允許資料中心將輝達GPU與第三方CPU或定製化AI加速器混合使用。這看似輝達正式打破自身硬體生態壁壘,實則是以GPU為核心,建構一個更包容、更強大的“輝達中心化”生態系統。輝達真正的核心壁壘,還是在於其軟體生態CUDA——畢竟主流AI框架無論是TensorFlow還是PyTorch都是通過呼叫CUDA的API進而在GPU上執行計算,其背後都是對CUDA庫函數的呼叫(如TensorFlow和PyTorch都會呼叫cuDNN來執行核心的神經網路計算)。
表面上看,這是一筆資產收購。但細究協議條款,其核心是一次典型的矽谷式人才收購。輝達並非全盤買下Groq公司,而是達成了一項“非獨家技術許可協議”,進而獲得Groq推理技術的授權。同時核心團隊整體遷移,Groq創始人兼首席執行長Jonathan Ross、總裁Sunny Madra,以及其他高級領導層將加入輝達,以推進所授權的技術。這種操作模式在科技巨頭間已屢見不鮮,2024年微軟也曾以6.5億美元挖走Inflection AI的創始人與核心團隊。其高明之處在於:既能以最快速度獲取頂尖人才和核心技術,又能最大程度規避傳統併購可能引發的反壟斷審查和整合難題。對於輝達而言,200億美元買下的不僅是技術,更是由前GoogleTPU核心班底組成的團隊。畢竟已經冒出來一家GoogleTPU了,輝達不允許再有任何真正的挑戰者存在,要麼被擊敗,要麼被收購。
Groq團隊中匯聚了大量前GoogleTPU工程師,堪稱GoogleTPU核心班底的二次創業。他們帶著在Google未竟的抱負,旨在打造一款超越GPU和TPU的專用AI推理晶片。同時成本上,Groq其解決方案可低至同等性能GPU的十分之一,進而精準地擊中了接下來即將興起的AI產業推理階段的核心痛點,對輝達在推理市場的統治地位構成了直接威脅。
黃仁勳絕非意氣用事。這筆天價收購背後,是輝達面對複雜競爭格局的深謀遠慮。訓練市場輝達已近乎壟斷,但推理市場格局未定。Groq在低延遲、高並行推理場景所展現出來的優勢,正吸引著那些對成本和延遲敏感的企業。通過收購,輝達直接將最具顛覆性的技術路線收入囊中,這本質上是一次昂貴的防禦性收購。長期來看,對於AMD、博通以及其他AI晶片初創公司,競爭環境更加惡劣。它們不僅要在技術上對抗輝達的“GPU+LPU(TPU)”組合拳,還要在資本和生態上應對輝達的進攻。如今回望,Google為這一戰所做的鋪墊,遠比我們想像的更為漫長,也更為深遠,但同時也更勝券在握。 (新財富)