#TPU
Google TPU v7和輝達GB300的架構,供應鏈差異
01.Google TPU V7 vs 輝達GB300 晶片差異在 AI 晶片領域,Google TPU 與輝達 GPU 的競爭已進入白熱化階段。作為雙方的旗艦產品,TPU v7(代號 “Ironwood”)與 GB300 分別代表了專用 ASIC 架構與通用平行計算架構的巔峰水平,二者在架構設計、性能參數、能效比、擴展性及成本等維度存在顯著差異,這些差異直接決定了它們在不同 AI 場景中的適配性。TPU v7 屬於ASIC晶片的類別。TPU v7 延續了Google TPU 系列 “犧牲通用性、追求張量運算極致效率” 的設計邏輯,核心架構圍繞深度學習中的矩陣乘法(張量運算核心)深度定製,更加適合推理場景,單晶片功耗中等。GB300 作為輝達 Blackwell 架構的旗艦產品,延續了 GPU “通用平行計算” 的核心優勢,兼顧張量運算、圖形渲染、科學計算等多場景需求,算力較高,適合高算力的AI大模型訓練,成本高,功耗高。02.Google TPU V7 vs 輝達GB300機櫃級架構差異從表面參數來看,TPU v7 與 GB300 的差異首先體現在機櫃尺度上。TPU v7 機櫃的熱設計功率約為 90kW,整櫃部署 64 顆 TPU 晶片,採用 16 台 2U 伺服器的形態。網路層面使用 OCS 光交換架構,機櫃內部不設定獨立交換機,算力節點之間通過高度定製化的光互連直接通訊。相比之下,GB300 機櫃的單櫃功率提升至約熱 150kW,晶片數量 72 顆,伺服器形態收斂為 18 台 1U 伺服器,並配備獨立的 InfiniBand / 乙太網路交換裝置。這種設計明顯更貼近當前主流 AI 資料中心的部署邏輯。但真正值得關注的,並不是功率或晶片數量的差距,而是兩種機櫃在設計目標上的根本不同。TPU v7 本質上是為 Google 內部算力體系定製的“算力終端”;而 GB300 則被定義為可以被反覆複製、快速部署的“標準算力模組”。02.Google TPU V7 vs 輝達GB300伺服器內部架構差異TPU v7 伺服器部署4顆TPU晶片。在 TPU v7 的伺服器內部結構中,液冷系統呈現出高度聚焦的特徵。TPU 晶片被單獨配置為 4 塊小冷板,液冷覆蓋範圍嚴格限定在算力核心之上,而 CPU、記憶體、電源模組仍然沿用風冷方案,儲存系統則未被納入液冷體系。TPU v7 採用 EPDM 軟管、Parker NSP 接頭與 Manifold 分配結構,配合 In-row CDU 使用。這種方案具備良好的安裝靈活性和成本可控性,非常適合 Google 這種自建、自維運的資料中心體系。在 TPU v7 的體系裡,傳統意義上的“交換機”本身就被弱化了。TPU Pod 裡真正承擔大規模互聯角色的,是 OCS(Optical Circuit Switch,光電路交換),這種方案更多是一個“光層調度裝置”,而不是高功耗、高算力的包轉發晶片裝置。這類 OCS 的特點是交換晶片功耗低、發熱密度分散、運行狀態極其穩定,遠沒有 GPU 或 NVLink / InfiniBand 交換 ASIC 那麼“熱”。從熱設計角度看,它根本沒有到必須引入液冷的門檻,用成熟的風冷方案完全可以覆蓋,而且風險更低。GB300伺服器部署4GPU+2GPU。液冷方案更加複雜,液冷覆蓋率95%,幾乎全液冷覆蓋,是小冷板結構,4+2方案,採用不鏽鋼波紋管、MOD + UQD 快接結構,以及 Rack / Row 級 CDU 相容設計,為長期運行、頻繁部署與快速維護而服務的工程選擇。GB300 使用的是新一代 InfiniBand 交換平台(對應 Quantum / Quantum-X 這一代架構),單顆交換 ASIC 的功耗已經進入數百瓦等級,並且連接埠速率、SerDes 數量、內部交換頻寬都在指數級提升。GB300的交換機是1u高度,採用液冷架構方案,Asic晶片部署液冷冷板。04.Google TPU V7 vs 輝達GB300 供應鏈差異由於輝達目前只提供L6板卡產品,不直接提供L10-L11整機伺服器,比如冷板,CDU等部件屬於L6之後的環節,不屬於輝達的直接環節,但是液冷系統又是非常重要的一環,所以為保障下遊客戶使用輝達晶片正常運行,輝達會提前設計一套整機系統提供給終端及伺服器OEM廠商參考,在液冷生態體系中,輝達要求通過一系列的認證測試進而確定各個液冷元件的RVL(推薦供應商名錄);要成為供應商進入RVL基本成為進入輝達液冷生態體系的強制性要求。在RVL基礎上,輝達GB200採用強制指定少數液冷部件供應商的模式,如 Vertiv 是輝達指定的系統級液冷合作夥伴。在這種模式下,液冷供應商將可能形成產能瓶頸,無法支撐GB300及後續產品的巨大需求。為降低供應鏈的風險,輝達在GB300上做出了調整,僅負責提供液冷部件設計參考及介面的規範;由此給予了ODM/OEM廠商更大的設計靈活性,並且由CSP或ODM/OEM在RVL範圍內自主選擇液冷部件供應商,為新供應商的進入創造了條件。在這種模式下,液冷部件供應商需要同時通過英偉 達RVL 認證以獲取配套資格,同時也需要進入OEM/ODM的AVL(合格供應商名錄)以確保在液冷系統整合階段被選用。Google與輝達的冷供應商選擇模式不同,Google目前不直接出售TPU晶片,而是出售google Colud的算力,資料中心多數採用自健,所以Google的所有資料中心基礎設施產品由google自己採購。因此Google液冷系統供應商會作為一級供應商直接向Google提供配套產品,液冷系統供應商將向Google指定的部件供應商採購液冷系統部件。因此對於國內廠商來說有更大的機會切入Google的供應鏈並且能夠持續獲得市場份額。 (零氪1+1)
什麼是TPU
TPU 就是 Google 專門為“人工智慧算題”定製的一種超級計算晶片,它不是什麼都能幹,但在算 AI 這件事上,又快、又省電、又便宜。先打個比方:廚師和廚房 🍳想像你要開一家餐廳:CPU:像一個全能廚師,什麼菜都會做,但一次只能做幾道,速度不快GPU:像一廚房的廚師一起做菜,特別適合做“重複、規則的菜”TPU:不是廚師,而是一條只做“漢堡”的自動化生產線你要做各種菜 → CPU / GPU 很靈活你要每天做上百萬個一模一樣的漢堡 → 自動化產線(TPU)效率最高人工智慧的計算,本質上就是“反覆做同一類數學運算”,所以 Google 乾脆做了一條“只幹這一件事”的生產線,這就是 TPU。TPU 到底在“算”什麼?人工智慧(比如 ChatGPT、翻譯、語音識別)本質上是在做三件事:把大量資料變成數字對這些數字做海量、重複的數學運算得到一個結果(比如一句話、一個答案)TPU 的設計目標只有一個:把第 2 步算得又快、又便宜、又不費電為什麼 Google 要自己做 TPU?因為用傳統晶片算 AI,有三個大問題:問題 1:太耗電 ⚡訓練一個大模型,要用掉小城市等級的電量問題 2:太貴 💰用通用晶片,很多功能 AI 根本用不上,卻要為它們買單問題 3:規模太大 📈一個模型要用幾千、幾萬塊晶片一起算,“晶片之間怎麼交流”反而成了瓶頸TPU 就是為這三個問題量身定做的:砍掉沒用的功能專門最佳化 AI 常用的計算從一開始就考慮“成千上萬塊一起工作”TPU 和顯示卡(GPU)有什麼不同?一句話區別:GPU 是“能幹很多事的高手”,TPU 是“只幹一件事的世界冠軍”。遊戲、科研、小公司 → GPUGoogle 這種每天跑海量 AI 的公司 → TPUTPU 在那裡用到了?你每天其實已經在“用” TPU 了:Google 搜尋結果排序語音助手翻譯圖片識別大模型(比如 Gemini)只是這些計算發生在 Google 的資料中心裡,你看不到而已。為什麼普通人也該關心 TPU?因為它影響的是:1. AI 的價格算得越便宜,AI 服務就越便宜2. AI 的速度回答更快、延遲更低3. AI 的普及能支撐更大、更聰明的模型可以這麼理解:TPU 是讓 AI 從“奢侈品”變成“日用品”的基礎設施之一。最後一個形象總結GPU:萬能工具箱TPU:工業級流水線AI 的未來:當需求足夠大,流水線一定比萬能工具便宜所以,TPU 並不是要“取代所有晶片”,而是 在 AI 這件事上,用最笨、但最高效的方式做到極致。 (Techcoffee)
高盛:成本暴降70%!GoogleTPU強勢追趕,性價比已追平輝達
高盛表示,Google/Broadcom 的TPU正在迅速縮小與輝達GPU在推理成本上的差距。從TPU v6升級至TPU v7,單位代幣推理成本下降約70%,與輝達GB200 NVL72基本持平。這並不意味著輝達地位被動搖,但它清晰地表明,AI晶片競爭核心評價體系正在從“誰算得更快”,轉向“誰算得更便宜、更可持續”。在AI資本開支仍維持高位、但商業化壓力不斷上升的當下,市場關注點正在發生一場悄然卻深刻的轉移:大模型還能不能繼續“無視成本地跑下去”。據追風交易台,高盛最新發佈的AI晶片研究報告,並未延續市場熟悉的“算力、製程、參數規模”對比,而是從更貼近商業現實的角度切入——推理階段的單位成本。通過建構一條“推理成本曲線”,高盛試圖回答一個對AI產業至關重要的問題:在模型進入高頻呼叫階段後,不同晶片方案在折舊、能耗和系統利用率等約束下,每處理一百萬個token究竟需要付出多少真實成本。研究結論指向了一次正在加速、但尚未被充分消化的變化:Google/Broadcom 的TPU正在迅速縮小與輝達GPU在推理成本上的差距。從TPU v6升級至TPU v7,單位token推理成本下降約70%,使其在絕對成本層面與輝達GB200 NVL72基本持平,部分測算情形下甚至略具優勢。這並不意味著輝達的地位被動搖,但它清晰地表明,AI晶片競爭的核心評價體系正在從“誰算得更快”,轉向“誰算得更便宜、更可持續”。當訓練逐漸成為前期投入,而推理成為長期現金流來源,成本曲線的斜率,正在取代峰值算力,成為決定產業格局的關鍵變數。一、從算力領先到成本效率,AI晶片競爭的評價標準正在切換在AI發展的早期階段,訓練算力幾乎決定了一切。誰能更快訓練出更大的模型,誰就擁有技術話語權。然而,隨著大模型逐步進入部署與商業化階段,推理負載開始遠遠超過訓練本身,成本問題被迅速放大。高盛指出,在這一階段,晶片的性價比不再只由單卡性能決定,而是由系統層面的效率共同塑造,包括算力密度、互聯效率、記憶體頻寬以及能源消耗等多重因素。基於這一邏輯建構的推理成本曲線顯示,Google/Broadcom TPU在原始計算性能和系統效率上的進步,已經足以在成本維度上與輝達正面競爭。相比之下,AMD和亞馬遜Trainium在代際成本下降幅度上仍較為有限。從現階段測算結果看,兩者的單位推理成本仍明顯高於輝達和Google方案,對主流市場的衝擊相對有限。二、TPU成本躍遷的背後,是系統工程能力而非單點突破TPU v7實現大幅降本,並非來自單一技術突破,而是系統級最佳化能力的集中釋放。高盛認為,隨著計算晶片本身逐步逼近物理極限,未來推理成本能否繼續下降,將越來越依賴“計算相鄰技術”的進步。這些技術包括:更高頻寬、更低延遲的網路互聯;高頻寬記憶體(HBM)和儲存方案的持續整合;先進封裝技術(如台積電CoWoS);以及機架級解決方案在密度與能效上的提升。TPU在這些方面的協同最佳化,使其在推理場景中展現出明顯的經濟性優勢。這一趨勢也與Google自身的算力部署高度一致。TPU在Google內部工作負載中的使用比例持續上升,已廣泛用於Gemini模型的訓練與推理。同時,具備成熟軟體能力的外部客戶也在加速採用TPU方案,其中最引人注目的案例是Anthropic向Broadcom下達的約210億美元訂單,相關產品預計將在2026年中開始交付。不過,高盛同時強調,輝達仍然掌握“上市時間”優勢。在TPU v7剛剛追平GB200 NVL72之際,輝達已經推進至GB300 NVL72,並計畫在2026年下半年交付VR200 NVL144。持續的產品迭代節奏,仍是其維持客戶黏性的關鍵籌碼。三、投資含義再平衡:ASIC崛起,但輝達的護城河尚未被擊穿從投資視角看,高盛並未因TPU的快速追趕而下調對輝達的判斷。該機構仍維持對輝達與Broadcom的買入評級,認為兩者最直接繫結AI資本開支中最具可持續性的部分,並將長期受益於網路、封裝和系統級技術升級。在ASIC陣營中,Broadcom的受益邏輯尤為清晰。高盛已將其2026財年每股收益預期上調至10.87美元,較市場一致預期高出約6%,並認為市場仍低估了其在AI網路與定製計算領域的長期盈利能力。AMD和亞馬遜Trainium當前仍處於追趕階段,但高盛也指出,AMD的機架級方案存在後發優勢的可能性。預計在2026年末,基於MI455X的Helios機架方案有望在部分訓練與推理場景中實現約70%的推理成本下降,值得持續跟蹤。更重要的是,這份研報給出的並非“贏家通吃”的結論,而是一幅逐漸清晰的產業分工圖景:GPU繼續主導訓練與通用算力市場,而定製ASIC在規模化、可預測的推理負載中不斷滲透。在這一過程中,輝達的CUDA生態與系統級研發投入仍構成堅實護城河,但其估值邏輯也將持續接受“推理成本下行”的現實檢驗。當AI真正進入“每一個token都要算回報”的階段,算力競爭終究要回到經濟學本身。TPU成本暴降70%,並不是一次簡單的技術追趕,而是一次對AI商業模式可行性的關鍵壓力測試。而這,或許正是GPU與ASIC之爭背後,市場最應認真對待的訊號。 (invest wallstreet)
Google TPU與輝達GPU對比分析
市面上有兩類比較典型的GoogleTPU和輝達GPU對比分析,一類是純技術層面討論,晦澀難懂,另一類會講得斬釘截鐵,但可信度難以判斷。今天我分享一篇通俗易懂,且信源可靠的TPU和GPU對比分析文章,信源來自於The Information對Google、輝達、蘋果等公司員工的訪談。租用最先進的GPU與最先進的TPU,那個性價比更優?這取決於雲服務提供商(註:AWS、Azure、Google雲)對GPU的收費標準,該標準可能會根據開發者對該晶片系統的承諾(使用)期限而有所不同。不過,由於在這些系統上運行應用程式涉及到軟體問題,因此很難對它們進行直接比較。對於已經使用輝達的CUDA程式語言在伺服器晶片上運行人工智慧的客戶來說,租用輝達晶片更具成本效益,而有時間和資源重寫程序的開發者則可以通過使用TPU來節省資金。不過,對於大多數開發者而言,輝達的軟體能讓他們快速且輕鬆地開始在GPU上運行人工智慧應用程式。像Anthropic、蘋果和Meta這樣經驗豐富公司在使用TPU時可能面臨的挑戰更少,因為他們更擅長編寫在伺服器晶片上運行人工智慧的軟體。根據對Google和輝達前員工的採訪,TPU相比GPU具有潛在的成本優勢,這取決於客戶運行的AI計算工作負載數量及其類型。對於使用GoogleGemini模型的客戶來說,TPU的成本效益可能尤為顯著,因為這些模型是基於TPU開發的。卓哥理解:1.價格不能直接比, 看合同期限,租1年和租3年價格肯定不同。2.絕大部分開發人員已經用慣了輝達CUDA軟體系統,用TPU會有遷移成本。3.基於TPU開發的大模型更具成本效應。我已經在不少於3處靠譜信源看到,基於TPU開發的Gemini相比於基於GPU開發的ChatGPT更具成本優勢。輝達首席執行長黃仁勳曾表示,即便競爭對手的晶片定價為零,企業們仍會更青睞輝達的晶片。這種說法精準嗎?事情並非如此簡單。生產輝達晶片的台積電會謹慎地避免將過多的晶片製造和封裝產能投入到單一公司,因此輝達不太可能獲得其滿足客戶需求所需的全部產能。由於輝達通常無法獲得足夠的產能來滿足整體需求,市場對其競爭對手的晶片將會有需求。卓哥理解:台積電不希望輝達一家獨大。其實下游晶片代工廠產能給誰很重要的,不是說晶片設計公司想要多少產能就有多少產能。大摩不是說GoogleTPU 2026年要產300萬顆(利用博通與台積電良好關係)嗎?最近又傳出消息說今年不一定能產300萬顆,台積電可能沒這麼多產能給Google。最先進的TPU(Ironwood)和最先進的GPU(Blackwell)在計算能力或其他關鍵指標(如能效)方面有什麼區別?一位行業高管表示,以每秒兆次浮點運算(FLOPS)來衡量(卓哥註:這是AI開發人員衡量晶片計算能力的常用方式。),Google最先進的TPU在單晶片基礎上的性能是輝達最先進GPU的一半。Google可以將搭載數千個TPU的伺服器整合到一個計算單元中,這使得它們在開發新的人工智慧模型時特別有用且具有成本效益,而輝達最多隻能連接256個GPU。當然輝達的晶片客戶可以通過使用額外的網路電纜連接其資料中心的伺服器來克服這一限制。卓哥理解:單兵作戰,TPU性能只有GPU一半,但TPU可以用人海戰術堆料。TPU運行AI的方式與GPU有何不同?GPU能夠處理各種各樣的計算任務,從渲染視訊遊戲圖形到訓練大型語言模型。這種晶片在機器學習模型所需的重複性數學運算方面表現出色,特別是將數字網格相乘的過程,也就是所謂的矩陣乘法。Google的TPU更加專門化,能夠比GPU更快地處理矩陣乘法和運行某些AI模型。TPU之所以能做到這一點,是借助了脈動陣列——一種由簡單計算器組成的網格,這些計算器以有節奏的模式相互傳遞資料。這種設計使數字能在計算過程中持續流動,無需不斷從晶片記憶體中調取資料,從而避免了時間和能量的浪費。TPU效率更高,因為它只做一件事,但這也意味著它們只在特定軟體上運行良好。GPU可以被用來完成更多種類的任務。卓哥理解:之前還看過一個訪談,說TPU的風險之一就是通用性不好,中途切換做其他(非初始設定)任務的效果遠不如GPU。在處理大語言模型或大型視覺、視訊模型方面,TPU與GPU相比有那些優缺點?TPU為Google的人工智慧開發者提供了相較於GPU的成本優勢,因為該公司的人工智慧模型、應用程式和資料中心在設計時就考慮到了TPU。但TPU僅能與某些人工智慧軟體工具(如TensorFlow)順暢協作。然而,大多數人工智慧研究人員使用PyTorch,該工具在GPU上運行得更好。TensorFlow和PyTorch使開發者無需從頭編寫特定的軟體程式碼,就能訓練和運行人工智慧模型。對於視訊和視覺模型,TPU擅長執行圖像識別所需的重複性數學運算。它們通過將摺積(圖像模型中的核心計算)轉換為矩陣乘法來處理這些運算。但一些工程師表示,在開發視覺模型方面,GPU優於TPU,因為這一過程通常涉及對複雜圖像變換的試驗,例如旋轉、裁剪或調整顏色。那些公司使用TPU?據蘋果前員工及其人工智慧團隊發表的研究論文稱,蘋果長期以來一直使用TPU來訓練其最大的語言模型。人工智慧圖像公司Midjourney在2023年表示,它正在使用TPU來開發自己的模型。據一位瞭解這一轉變的人士透露,人工智慧開發商Cohere此前使用TPU開發模型,但去年由於在早期版本的TPU上遇到技術問題,轉而使用GPU。卓哥補充:還有其他案例是,一直用GPU然後切換去用TPU的公司。Google要在Google雲之外大量銷售TPU,需要具備那些條件?Google需要徹底改革其整個供應鏈,效仿輝達的商業模式,不僅要從代工廠獲得足夠的晶片,還要確保客戶能夠安裝這些晶片並可靠地使用它們。這意味著Google必須投入大量資金來發展銷售分銷網路,包括聘請生產晶片容納裝置的伺服器設計師,以及僱傭眾多工程師為TPU買家提供客戶支援和其他服務。卓哥理解:如果Google要外租或者賣TPU,先得到台積電拿到足夠產能配額,此外還得組建銷售和工程師支援團隊。生產最先進的TPU與生產最先進的GPU的生產成本相比如何?潛在成本可能相近。Google為Ironwood在台積電採用了比輝達為Blackwell所使用的更昂貴、更先進的晶片製造技術。但Ironwood晶片體積更小,這意味著台積電可以從一片晶圓上切割出更多晶片。這彌補了與昂貴矽片相關的額外成本。瞭解生產情況的人士表示,這兩款晶片都使用了相同類型的高頻寬記憶體。Google生產多少個TPU?這與其他人工智慧晶片相比如何?據摩根士丹利的最新估計,Google計畫在2026年生產超過300萬個TPU,2027年生產約500萬個。一位瞭解TPU項目的Google員工表示,公司已告知部分TPU客戶,其計畫在2027年生產更高數量的TPU,但目前尚不清楚台積電是否會同意在該年度生產這麼多TPU。Google通過博通公司訂購其最強大的TPU,博通與台積電有合作,同時也為TPU晶片本身提供一些輔助技術。據兩位瞭解生產情況的人士透露,輝達目前生產的GPU數量大約是Google生產的TPU的三倍。卓哥補充:除了博通,Google也已在與聯發科合作。博通在TPU的研發中扮演什麼角色?Google通過博通在台積電生產最強大的TPU,而且博通還負責TPU的物理設計,包括至關重要的晶片封裝,並且實質上是根據Google建立的藍圖來開發這款晶片。晶片封裝指的是晶片的組裝,隨著晶片上電晶體的縮小變得愈發困難,這一環節已成為整個流程中更為重要的部分。博通還為Google提供了設計TPU的一項關鍵智慧財產權:序列器/解串器,業內稱之為SerDes。這是實現高速資料在TPU之間傳輸以支援平行計算的最佳技術,通過這種技術,多個晶片可以協同工作——這是開發大語言模型的重要一步。Google和博通有時會因博通的TPU價格而產生分歧,這促使Google尋求聯發科等其他合作夥伴。聯發科即將生產一款性能稍弱的TPU,旨在幫助Google降低其人工智慧運行成本。博通從開發TPU中獲得的分成是多少?據分析師稱,這至少有80億美元。如果Google出售或出租TPU,讓它們進入其他公司的資料中心,這在經濟層面可能會產生什麼影響?目前尚不清楚Google向其雲客戶出租TPU能產生多少毛利率。除了伺服器晶片租賃業務外,它還可以向雲客戶銷售許多其他服務。這位前TPU高管表示,如果Google將TPU出售或出租給其他公司的資料中心,那麼這些設施需要按照高度特定的方式設計,類似於Google的資料中心,才能像Google在自身人工智慧應用中那樣,充分利用TPU帶來的成本優勢。此外,這樣做意味著Google將放棄從雲客戶那裡獲得的其他類型收入,比如儲存和資料庫相關收入,因此它可能會向TPU買家額外收費,以彌補這部分潛在的收入損失。.Google為何要追求一種更接近輝達的商業模式?Google已向潛在的TPU客戶表示,一些科技和金融服務公司出於安全等原因,希望將TPU安置在自己的資料中心——即非Google的資料中心。Google一直在與競爭對手雲服務提供商洽談為部分客戶託管TPU事宜。(卓哥註:典型如甲骨文)讓TPU得到更廣泛的應用,也有助於Google說服更多客戶使用其Gemini人工智慧模型,這些模型是針對TPU進行最佳化的。與運行TPU的軟體相比,開發者更熟悉輝達晶片及其運行的軟體。像JAX、PyTorch XLA這樣的新解決方案是否正在縮小這一差距?簡而言之,答案是否定的,不過Google正努力改變這一現狀。而且,Google還向潛在的TPU客戶推介將這些晶片與特製的Google軟體配合使用,這樣能讓晶片的運行更為便捷。 (卓哥投研筆記)
輝達:三十年未有之大變局
目前,Google正積極接觸那些依賴租賃輝達晶片的小型雲服務提供商,勸說它們在資料中心託管Google的TPU處理器。首戰告捷,Google已與倫敦的Fluidstack達成協議,將在紐約的一個資料中心部署TPU。同時,Google的觸角伸向了為OpenAI建造資料中心的Crusoe,以及向微軟租賃晶片並與OpenAI簽有供應合同的CoreWeave——後者被業內視為輝達的親兒子。這一系列動作,意圖再明顯不過:Google不僅要搶奪輝達的客戶,更要直接切入其最核心、利潤最豐厚的AI算力供應鏈。輝達以200億美元現金,收購初創公司Groq的核心資產,這筆交易不僅刷新了輝達自身的歷史收購紀錄,遠超其2019年以70億美元收購Mellanox的規模,更以雷霆之勢,將一顆冉冉升起的輝達挑戰者直接納入麾下。此次遠非一次簡單的收購,而是一場精心策劃的戰略圍剿。畢竟已經冒出來一家GoogleTPU了,輝達不允許再有任何真正的挑戰者存在,要麼被擊敗,要麼被收購。01Google的決心Google為這一戰所做的鋪墊,遠比我們想像的更為漫長,也更為深遠。早在2015年,第一代TPU v1的性能優勢,就已經在AlphaGo的演進中得到了最戲劇化的體現:1)AlphaGo Fan(2015年10月):擊敗歐洲冠軍樊麾的版本,運行在Google雲上,動用了1202個CPU和176個GPU的分佈式叢集。2)AlphaGo Lee(2016年3月):擊敗李世石的版本,同樣在雲端運行,但硬體已取代為僅48個第一代TPU。計算裝置從上千個銳減到幾十個,背後的電力、機房空間和維運成本呈數量級下降。3)AlphaGo Master(2017年5月):戰勝世界第一柯潔的版本,運算量僅為上一代的十分之一,甚至可以在單台伺服器上運行,僅需4個第一代TPU。從1202個CPU+176個GPU,到4個TPU。這組對比再直觀不過地揭示了專用AI晶片帶來的效率飛躍。第一代TPU的成功,迅速從實驗室走向了Google龐大的產品線,被部署到Google搜尋、廣告、YouTube以及雲平台等服務的每一次請求中,處理著每天數百億次的推理任務。自此,Google意識到,他們需要的不是一顆更快的通用晶片,而是一把為特定任務量身定製的手術刀。TPU項目應運而生,其設計哲學極其清晰:為神經網路推理任務做極致最佳化,追求極致的性能功耗比,放棄GPU使用的32位浮點數,轉而使用8位整數INT8進行計算。這大幅減少了電晶體數量、功耗和記憶體頻寬需求,而精度損失對於許多推理任務而言是可接受的。但是TPU v1僅專注於推理,而AI發展的瓶頸正迅速轉向需要巨大算力的大模型訓練環節。Google的TPU迭代之路就此全面展開,其升級不僅體現在單晶片性能,更在於系統級和生態級的突破。此後,TPU迅速迭代:1)TPU v2/v3:首次支援訓練任務。更重要的是,Google提出了 “TPU Pod” 的概念,通過高速網際網路絡將成千上萬個TPU晶片連接成一個超級電腦,為訓練大型模型提供了可能。2)TPU v4:性能顯著提升,並開始通過Google雲對外提供服務,但主要客戶仍是Google自身和少數雲使用者。3)TPU v5p:被視為一個重大飛躍,在一些基準測試中與輝達H100相當。同時,推理需求再次爆發,v5系列中更側重低價的v5e版本,將戰略重心轉回高性價比、高吞吐量的推理,旨在以更低成本服務海量使用者。4)TPU v6 (Trillium) 與 v7 (Ironwood):最新的兩代產品。TPU v6在理論算力上已非常接近輝達H200,而v7則進一步縮小了與輝達旗艦產品在發佈時機和理論算力上的差距。v7 Ironwood首次支援FP8計算格式,單晶片FP8算力與輝達B200非常接近,屬於同一性能梯隊。在系統層面,由近萬顆晶片組成的Ironwood超級叢集總算力也達到了與輝達Blackwell系統相當的等級。Google的策略很清晰,從滿足內部需求出發,用十年時間,逐步將TPU打造成一項可對外銷售的雲端運算核心服務——2025年,GoogleTPU全年出貨量預計為250萬顆,其中v5系列佔190萬顆,v6系列佔60萬顆;2026年,預計全年出貨量將高達400萬顆,其中v7 Ironwood佔據主導地位將超過200萬顆。從數量上來看,輝達資料中心GPU在2026年出貨量約600萬顆,TPU的追趕勢頭已經不容小覷。02輝達的正面交鋒Google的戰略,正在發生根本性轉變:從自產自用的封閉生態,轉向直面市場的晶片供應商。2023-2026四年時間,GoogleTPU的總產量預計高達800萬顆。然而,僅2027和2028兩年,其新規劃的總產量就高達1200萬顆。這意味著,Google計畫用未來兩年時間,生產遠超過去四年總和的晶片。這種擴張速度在半導體行業堪稱罕見,不僅遠超市場預期,更清晰地指向一個目標——大規模商業化。如此龐大的產能規劃,已遠遠超出Google自身雲服務Google Cloud的預期需求。兩年1200萬顆的規模,瞬間將TPU推向了與一線AI晶片廠商比肩的層級。這筆產能經濟帳,是Google轉型的核心動力。以此推算,若Google在2027年實現100萬顆TPU的對外銷售(約佔其當年規劃產量500萬顆的20%),即可創造約260億美元的新增營收。作為對比,這相當於Google雲2024年全年營收的相當大一部分,凸顯了其成為新增長極的潛力。若2027年500萬顆、2028年700萬顆TPU的預測成真,那麼到2028年,GoogleTPU的年產量將直逼輝達GPU的預計出貨規模。這意味著在短短兩年內,Google可能從一個主要的晶片消費者,轉變為一個能在供應量上與輝達正面交鋒的競爭者。此前,TPU如同GoogleAI商業版圖的私人彈藥庫,專為驅動其搜尋、廣告、YouTube及雲平台AI服務而最佳化,這種垂直整合帶來了極高的效率和性能壁壘。然而,將其轉化為對外銷售的商品,意味著Google要直面截然不同的商業規則:標準化、軟體生態、客戶支援、市場價格競爭。Google的突破口在於提供 “AI解決方案”而非“AI通用晶片” 。它可以將TPU與自家強大的AI軟體棧(如TensorFlow、JAX)、雲服務和預訓練模型進行打包,為客戶提供“開箱即用”的AI能力,以降低客戶整體擁有成本TCO。但這套策略也面臨嚴峻挑戰:輝達的CUDA生態歷經十餘年建設,已成為AI開發的事實標準,Google需要建構一個堪比CUDA的、開放且繁榮的開發者生態,這比製造晶片本身更為艱難;第三方客戶是否願意將AI未來押注在Google晶片上?這取決於TPU的性能、性價比、軟體相容性、長期支援承諾,以及客戶對“不被單一雲廠商繫結”的深度顧慮;作為後來者,TPU必須在性能或成本上提供顯著優勢,才能說服客戶遷移已基於輝達GPU建構的複雜工作流。頭部AI公司動向上看,TPU的吸引力是真實的。AI獨角獸Anthropic此前使用亞馬遜的Trainium晶片,最近被發現在招聘TPU核心工程師;馬斯克的xAI也對採購TPU表現出濃厚興趣。這些領先的模型開發商對算力成本極為敏感,它們的傾向是行業趨勢的最佳觀察——畢竟2025下半年,圍繞GoogleTPU的開發者活躍度也激增了近100%。GoogleTPU的產能激增,是一部剛剛拉開的序幕而已。前方的核心懸念早已不再是技術,而是商業模式的抉擇:Google能否成功將其技術優勢轉化為市場認可的開放生態和客戶信任?這場Google十年佈局的下半場,將決定TPU是止步於一個有力的挑戰者,還是真正成為重塑AI算力格局的顛覆性力量。面對圍攻,輝達並未坐以待斃。其反擊策略是:開放生態,以退為進。輝達正式發佈NVLink Fusion技術,允許資料中心將輝達GPU與第三方CPU或定製化AI加速器混合使用。這看似輝達正式打破自身硬體生態壁壘,實則是以GPU為核心,建構一個更包容、更強大的“輝達中心化”生態系統。輝達真正的核心壁壘,還是在於其軟體生態CUDA——畢竟主流AI框架無論是TensorFlow還是PyTorch都是通過呼叫CUDA的API進而在GPU上執行計算,其背後都是對CUDA庫函數的呼叫(如TensorFlow和PyTorch都會呼叫cuDNN來執行核心的神經網路計算)。03AI戰爭進入整合階段表面上看,這是一筆資產收購。但細究協議條款,其核心是一次典型的矽谷式人才收購。輝達並非全盤買下Groq公司,而是達成了一項“非獨家技術許可協議”,進而獲得Groq推理技術的授權。同時核心團隊整體遷移,Groq創始人兼首席執行長Jonathan Ross、總裁Sunny Madra,以及其他高級領導層將加入輝達,以推進所授權的技術。這種操作模式在科技巨頭間已屢見不鮮,2024年微軟也曾以6.5億美元挖走Inflection AI的創始人與核心團隊。其高明之處在於:既能以最快速度獲取頂尖人才和核心技術,又能最大程度規避傳統併購可能引發的反壟斷審查和整合難題。對於輝達而言,200億美元買下的不僅是技術,更是由前GoogleTPU核心班底組成的團隊。畢竟已經冒出來一家GoogleTPU了,輝達不允許再有任何真正的挑戰者存在,要麼被擊敗,要麼被收購。Groq團隊中匯聚了大量前GoogleTPU工程師,堪稱GoogleTPU核心班底的二次創業。他們帶著在Google未竟的抱負,旨在打造一款超越GPU和TPU的專用AI推理晶片。同時成本上,Groq其解決方案可低至同等性能GPU的十分之一,進而精準地擊中了接下來即將興起的AI產業推理階段的核心痛點,對輝達在推理市場的統治地位構成了直接威脅。黃仁勳絕非意氣用事。這筆天價收購背後,是輝達面對複雜競爭格局的深謀遠慮。訓練市場輝達已近乎壟斷,但推理市場格局未定。Groq在低延遲、高並行推理場景所展現出來的優勢,正吸引著那些對成本和延遲敏感的企業。通過收購,輝達直接將最具顛覆性的技術路線收入囊中,這本質上是一次昂貴的防禦性收購。長期來看,對於AMD、博通以及其他AI晶片初創公司,競爭環境更加惡劣。它們不僅要在技術上對抗輝達的“GPU+LPU(TPU)”組合拳,還要在資本和生態上應對輝達的進攻。如今回望,Google為這一戰所做的鋪墊,遠比我們想像的更為漫長,也更為深遠,但同時也更勝券在握。 (新財富)
Anthropic打響「去CUDA」第一槍!210億美元豪購Google100萬塊TPU
【新智元導讀】未發先贏,也只有Anthropic了!Claude一小時寫完Google一整年程式碼震撼全網,甚至,他們豪購100萬塊GoogleTPU自建超算。AI軍備賽拐點,或許就在這一年。2026年開局,Anthropic未發一彈已佔先機!Google首席工程師Jaana Dogan連發多帖,高度讚揚Claude Opus 4.5——僅用一小時,便復現了一個曾讓Google工程師鑽研整年的AI系統。另一個前Google和Meta科學家Rohan Anil觀點更具衝擊力:若借助Opus的智能編碼能力,自己早期長達六年的探索工作,可被高度濃縮至幾個月內完成。自發佈過去一個多月,Claude Opus 4.5真正的實力爆發了。沒有圖像/音訊模型、巨大的上下文,僅有一款專注編碼的Claude,Anthropic依舊是OpenAIGoogle最有力競爭者。這究竟是什麼神仙打法?聯創Daniela Amodei給出了一個直白有力的回答,「少即是多」。一直以來,Anthropic都在押注用最少的資源,做更多的事,才不會掉隊,始終跑在AI最前沿。豪購100萬塊TPU,自建超算相較於模型發佈,更重大的一件事是,Anthropic也要自建超算了。權威機構SemiAnalysis爆出,Anthropic準備買下近100萬塊TPU v7晶片。這批晶片將從博通直接下單,並將其部署在自控基礎設施中。整個部署架構是這樣的:Anthropic持有TPU的所有權,基礎設施部分交給了TeraWulf、Hut8和Cipher Mining合作夥伴來提供。至於現場的實際落地維運,比如布線、開機測試、上線驗收和日常遠端管理這些活,都外包給了Fluidstack來全權負責。目前,Google雖暫未公佈TPU v7單價,但依據行業推測,大概在15,000–25,000美元之間。Anthropic一出手就是100萬張,此前爆料稱,這筆交易金額或達210億美元。對於輝達來說,將丟失300億美元(B200)潛在大訂單。然而,這筆交易最危險的地方不在金額,而在於結構:這意味著,Anthropic自有超算將不再依賴CUDA生態,不再被雲廠商「算力稅」抽成,將算力主權握在手中。有網友表示,這顯然是一件大事。Google現在大力推行商用晶片戰略,這將在未來催生一個基於TPU建構的生態系統。畢竟,Google已經用Gemini 3實證了,不用GPU,TPU也可以訓出強大模型。2026年AI生死局,反向押注如今進入2026年,AI行業已演變為「暴力規模與效率」的較量。作為規模派的代表,OpenAI投入1.4兆美元用於算力和基礎設施建設。相較之下,Anthropic卻選擇了一條不同的道路——「花小錢辦大事」(Do more with less),把籌碼押在了三件事上:更高品質、結構更好的訓練資料明顯加強模型推理能力的後訓練技術以及極度現實的目標:讓模型跑得更便宜、更容易被大規模採用在CNBC採訪中,Daniela Amodei強調,公司一直以來都以審慎的態度利用資源。下一階段的勝利,不會僅靠最大規模的預訓練任務來贏得,而是取決於每一美元算力能交付多少能力。Amodei稱,我們在Anthropic一直以來的目標是——在這個單純依賴大量算力的領域運作時,儘可能審慎地利用我們擁有的資源。就算力和資本而言,Anthropic擁有的資源一直只是競爭對手的一小部分。然而,在過去幾年的大部分時間裡,我們都擁有最強大、性能最好的模型,一以貫之。當然,這並不意味著Anthropic「沒錢」。恰恰相反,這家公司目前已經鎖定了約1000億美元規模的算力承諾,而且他們自己也承認,如果要繼續站在前沿,這個數字只會繼續飆升。他們並不是否認Scaling。他們賭的是:規模並不是唯一的槓桿。Anthropic並沒有把自己定位成一個面向大眾的「消費級AI明星產品」。它更像是一個企業優先的模型供應商。Claude的主要收入來源,是被嵌入到別人的產品、工作流和內部系統中。這類場景雖無噱頭,但黏性更強、更接近真實生產力。Anthropic表示,他們的收入已經連續三年實現同比十倍增長。更罕見的是,他們還建構了一張非常不尋常的銷售策略:「Claude幾乎出現在所有主流雲平台上,包括那些同時也在賣自家競爭模型的雲廠商。」Daniela Amodei對此的解釋很直白:不是緩和關係,而是被客戶需求倒逼。大型企業希望在雲廠商之間保有選擇權,而云廠商也不願意因為模型問題失去最大客戶。下一階段真正的贏家,可能不是那個燒錢最多的實驗室,而是那個能在實體經濟承受範圍內持續改進的公司。「指數級增長會持續,直到它停止。」2026年真正的問題是:如果那條被整個行業奉為信仰的曲線,真的開始失靈——這場由算力堆起來的AI軍備競賽,是否還能體面收場?Claude Opus 4.5,刷屏了如今,全網都被Claude Opus 4.5震撼到了。Helius首席執行長表示,「Opus 4.5簡直瘋狂到離譜」。本人已程式設計十年,它卻可以根據提供系統設計指導,以及明確的自我驗證路徑,完成任何要求的任務。有開發者在短短半小時內,不寫一行程式碼,建構出一款iOS應用。同樣地,還有人在20分鐘內打造了類似ESPN風格的應用。有人用Claude程式設計一個程序,用攝影機記錄下了花開的時刻。就連Karpathy幾天前發文,自己也上手Claude Code,讓其接入智能家居系統。不僅如此,Claude Code不僅適用於程式設計,Pietro Schirano還將原始DNA資料輸入,並利用它找出了一些與健康相關的基因。One More Thing去年3月12日,《紐約時報》報導,Google持有Anthropic公司14%的股份。2024年,Anthropic將亞馬遜雲服務(AWS)確定為其主要訓練合作夥伴;亞馬遜將向Anthropic追加投資40億美元。此外,Zoom也有Anthropic部分股權。最近,Google被傳出正在洽談追加投資Anthropic。新一輪融資或將使Anthropic的估值突破3500億美元。不得不讓人懷疑,Google是不是要在2026年收購Anthropic?Claude Code要併入Google了?不過,Anthropic如此成功,有必要賣給Google嗎?而且,Anthropic一貫標榜「安全AI」,一旦被收購,「Google+Anthropic」毫無疑問地將終結AI競賽,OpenAI、微軟、輝達等另一方會甘心嗎?(新智元)
算力三國:GPU、TPU、LPU 誰將定義 2026?
核心洞察在人工智慧浪潮席捲全球的當下,算力已成為驅動技術革命的核心引擎。在這場激烈的算力競賽中,圖形處理器(GPU)、張量處理器(TPU)與語言處理器(LPU)等專用晶片扮演著不可或缺的關鍵角色。GPU 憑藉輝達的 CUDA 生態,從圖形渲染領域完成華麗轉身,穩穩奠定 AI 訓練的基石地位;TPU 源於Google對內部算力危機的前瞻性佈局,以專用架構重塑了 AI 計算效率的行業標竿;LPU 則由前 TPU 核心團隊再創業而生,精準切入推理市場,以創新性的確定性執行架構挑戰傳統計算範式。這三款晶片的誕生與演進,共同譜寫了 AI 硬體從通用到專用、從訓練到推理的技術史詩,並將在未來持續定義 AI 技術的邊界,塑造行業發展新格局。一、回顧歷史:AI 晶片的誕生與初心1、GPU:從圖形處理到 AI 基石的華麗轉身黃仁勳的遠見:CUDA 生態的建構在人工智慧浪潮席捲全球之前,輝達的核心業務聚焦於為電子遊戲提供高性能圖形處理器。然而,公司創始人兼 CEO 黃仁勳的遠見卓識,早已超越圖形渲染的侷限。他敏銳洞察到,計算的未來在於平行處理,並堅信 GPU 的平行計算能力有望突破遊戲領域,拓展至更廣泛的科學計算場景。早在 2010 年代初期,黃仁勳便大力推廣 “加速計算” 理念,著手建構圍繞 GPU 的完整生態系統。這一戰略的核心是 CUDA(Compute Unified Device Architecture,統一計算裝置架構)—— 一個允許開發者使用 C 語言等高級程式語言,編寫在 GPU 上運行的平行計算程序的軟體平台。“CUDA 的出現,讓原本專用於圖形處理的 GPU 實現‘通用化’,搖身一變成為能夠執行各類複雜數學運算的‘通用圖形處理器’。”AlexNet 的引爆點2012 年,AlexNet 模型在 ImageNet 圖像識別競賽中取得壓倒性勝利,成為 GPU 在深度學習領域崛起的標誌性事件。在此之前,深度學習雖已在學術界引發關注,但受限於計算資源,發展始終較為緩慢。AlexNet 的成功,不僅印證了深度學習在圖像識別領域的巨大潛力,更向學術界和工業界充分展示了 GPU 在加速深度學習訓練中的獨特優勢,直接推動 GPU 成為 AI 訓練的主流硬體。2、TPU:Google的 “未雨綢繆” 與內部創新算力危機:語音搜尋帶來的挑戰Google的張量處理器(TPU),源於對公司未來算力需求的深刻危機感與前瞻性思考。2013 年,Google工程師進行了一項驚人測算:若當時全球每位Android使用者每天僅使用三分鐘語音搜尋服務,Google就需將整個資料中心的容量擴充一倍,才能滿足激增的算力需求。這場潛在的算力危機不僅是技術層面的挑戰,更是戰略層面的警醒。它讓Google高層深刻認識到,AI 將成為公司未來所有產品與服務的核心驅動力,而算力正是這場變革的基石。脈動陣列:打破馮・諾依曼瓶頸Google工程師意識到,要從根本上提升 AI 計算效率,必須突破傳統計算模式的束縛。他們需要一種能夠最大限度減少記憶體訪問、將計算與資料流緊密結合的創新架構。最終,Google將目光投向了一種古老卻極具潛力的架構 —— 脈動陣列(Systolic Array)。該概念最早於 1970 年代末提出,設計思想是讓資料像血液在心臟中流動般,在處理器陣列中有節奏地循環流動,從而大幅提升計算效率。3、LPU:Groq 的 “推理革命”前 TPU 團隊的再創業在Google TPU 項目取得巨大成功後,其核心技術團隊成員喬納森・羅斯(Jonathan Ross)選擇離開Google,創立了名為 Groq 的新公司,並推出全新晶片概念 —— 語言處理單元(Language Processing Unit, LPU)。LPU 的設計理念,是在 TPU 基礎上實現進一步 “專用化”。如果說 TPU 是為 “張量處理” 而生的通用 AI 加速器,那麼 LPU 便是為 “語言處理” 這一特定 AI 應用場景量身打造的超專用加速器。“AI for Everyone” 的理念Groq 及其 LPU 的背後,蘊含著與科技巨頭略有不同的哲學理念 —— 推動 “AI for Everyone”(人人可用的 AI)。他們認為,當前 AI 的開發與部署成本依然高昂,尤其是對中小型企業而言,建構和維護高性能 AI 推理基礎設施是一項巨大挑戰。“LPU 通過採用‘確定性執行’架構,旨在為每一次推理請求提供可預測、極低延遲的響應。”二、立足當下:晶片架構、性能與生態1、核心架構解析:從通用到專用晶片架構演進示意圖plaintext三大晶片架構核心特徵GPU 架構:CUDA 核心 + Tensor Core 平行處理架構數千個通用 CUDA 核心,支援多工平行計算專用 Tensor Core,高效處理矩陣運算搭載 NVLink 高速互聯技術,提升多晶片協同效率TPU 架構:脈動陣列(Systolic Array)專用設計256x256 MAC 單元陣列,聚焦矩陣運算最佳化資料在陣列內部循環流動,減少記憶體訪問延遲65,536 個 ALU 平行計算,算力密度高LPU 架構:確定性執行可程式設計流水線軟體優先編譯器調度,實現指令高效執行傳送帶式資料流設計,保障處理穩定性片上 SRAM 高速儲存,提升資料讀取速度2、性能對比與主流模型適配主流模型適配分析3、生態系統:軟體、框架與開發者社區NVIDIA CUDA:成熟生態構築護城河擁有 cuBLAS、cuDNN、TensorRT 等豐富工具鏈深度支援 PyTorch、TensorFlow 等主流 AI 框架全球開發者社區龐大,技術資源豐富Google TPU:與自研框架深度融合搭載 XLA 編譯器最佳化,提升計算效率提供端到端 AI 解決方案,簡化開發流程與 Google Cloud 深度整合,支援雲端部署Groq LPU:新興生態加速崛起推出 GroqCloud API,降低使用門檻採用軟體定義硬體模式,靈活適配需求編譯器驅動架構,最佳化指令執行效率三、資本與合作:AI 晶片市場的博弈1、TPU v7 的影響:Google的 “反擊”性能突破:對標 NVIDIA 旗艦晶片Google於 2025 年 11 月發佈的第七代 TPU(代號 Ironwood),是其對 NVIDIA 在 AI 晶片市場主導地位發起的最強有力 “反擊”。TPU v7 在性能上實現巨大突破,單 pod 聚合計算能力據稱達到 NVIDIA 最大 NVL72 機架配置的約 40 倍。這一驚人的性能優勢,讓 TPU v7 成為全球 AI 晶片市場的焦點。其成功不僅體現在單晶片性能上,更源於卓越的系統架構設計。市場策略:從自用到對外銷售TPU v7 的發佈,標誌著Google AI 晶片市場策略的重大轉變。在此之前,TPU 主要供Google內部使用,或通過 Google Cloud 向少數客戶提供服務;而 TPU v7 推出後,Google開始積極將其作為商品化硬體產品,向更廣泛的外部客戶銷售。潛在大客戶:Meta(數十億美元交易)、Anthropic(採購 100 萬 + TPU 晶片)、xAI 等科技公司市場目標:搶佔 NVIDIA 10% 的 data center 收入份額2、輝達與 Groq 的合作:強強聯合合作背景:補齊推理市場短板儘管 NVIDIA 在 AI 訓練市場佔據絕對統治地位,但在推理市場,其優勢並不突出。推理任務對延遲、成本和能效的要求更高,這正是 GPU 等通用計算晶片的短板。Groq 的 LPU 恰好彌補了這一缺口 —— 憑藉專為推理最佳化的架構,LPU 在延遲、吞吐量和能效方面表現出色,完美適配推理場景需求。重磅合作:200 億美元的戰略佈局據報導,NVIDIA 與 Groq 的合作協議價值高達 200 億美元,充分彰顯了 NVIDIA 對 Groq 技術價值與市場潛力的高度認可。這一合作將進一步鞏固 NVIDIA 在 AI 晶片市場的領導地位,通過整合 Groq 的推理技術,NVIDIA 可向客戶提供從訓練到推理的端到端解決方案,建構更完整的技術閉環。四、展望未來:2026 年的 AI 晶片格局1、技術趨勢:專用化、高能效與異構計算專用化趨勢ASIC 晶片市場份額預計到 2026 年將突破 30%,專用晶片向細分場景深度滲透:TPU:聚焦大規模矩陣運算最佳化LPU:深耕即時推理場景邊緣 AI 專用晶片:適配終端裝置需求高能效發展“綠色 AI” 成為行業關鍵指標,性能功耗比優先成為研發核心:採用 3nm、2nm 先進製程工藝創新架構設計,減少無效計算液冷散熱技術普及,提升散熱效率異構計算多晶片協同工作成為主流架構,各晶片各司其職、優勢互補:GPU:主導模型訓練環節TPU:負責大規模推理任務LPU:支撐即時互動場景AI 晶片技術演進時間線2、市場格局:競爭與合作並存雲端運算巨頭的自研晶片之路現有佈局:Google(TPU v7 及後續產品)、亞馬遜(Trainium 和 Inferentia)、微軟(Maia 晶片)、蘋果(Neural Engine)2026 年預期:自研晶片性能與 NVIDIA 正面抗衡,與雲服務、軟體生態深度繫結,提供一站式 AI 解決方案,減少對第三方供應商依賴初創公司的機遇與挑戰Groq 的成功證明了細分領域創新的可能性,但初創公司仍面臨多重挑戰:機遇:邊緣 AI 市場快速增長、低功耗推理需求旺盛、細分場景創新空間廣闊挑戰:研發成本高昂、巨頭生態競爭壓力大、供應鏈受地緣政治影響3、應用前景:從雲端到邊緣大模型推理普及化隨著 TPU、LPU 等專用晶片的發展,LLM 推理成本將大幅下降,應用場景全面拓寬:智能客服:實現自然高效的人機互動教育領域:提供個性化學習輔導醫療健康:輔助疾病診斷與治療邊緣 AI 興起物聯網裝置普及推動邊緣 AI 成為新熱點,低功耗晶片賦能終端智能:自動駕駛:即時處理感測器資料智能家居:提供個性化場景化服務智能裝置:實現本地 AI 功能,降低雲端依賴AI 晶片跨行業滲透與融合製造業:智能質檢、智慧物流最佳化金融業:智能風控、量化交易加速醫療健康:影像診斷輔助、新藥研發提速自動駕駛:高等級自動駕駛功能落地結語從 GPU 的平行計算革命,到 TPU 的專用架構創新,再到 LPU 的確定性執行突破,AI 晶片的發展史是技術創新與市場需求相互成就的演進史。展望未來,AI 晶片市場將呈現多元化、專業化的發展格局。專用化、高能效、異構計算將成為技術發展的主旋律,市場競爭也將從單一性能比拚,轉向技術、資本與生態的全方位較量。在這場 AI 算力革命中,無論是科技巨頭、初創公司,還是各行各業的企業,都將找到自身定位,共同推動 AI 技術向更高效率、更廣泛應用、更可持續的方向發展。 (大行投研)