#GB300晶片
Google TPU v7和輝達GB300的架構,供應鏈差異
01.Google TPU V7 vs 輝達GB300 晶片差異在 AI 晶片領域,Google TPU 與輝達 GPU 的競爭已進入白熱化階段。作為雙方的旗艦產品,TPU v7(代號 “Ironwood”)與 GB300 分別代表了專用 ASIC 架構與通用平行計算架構的巔峰水平,二者在架構設計、性能參數、能效比、擴展性及成本等維度存在顯著差異,這些差異直接決定了它們在不同 AI 場景中的適配性。TPU v7 屬於ASIC晶片的類別。TPU v7 延續了Google TPU 系列 “犧牲通用性、追求張量運算極致效率” 的設計邏輯,核心架構圍繞深度學習中的矩陣乘法(張量運算核心)深度定製,更加適合推理場景,單晶片功耗中等。GB300 作為輝達 Blackwell 架構的旗艦產品,延續了 GPU “通用平行計算” 的核心優勢,兼顧張量運算、圖形渲染、科學計算等多場景需求,算力較高,適合高算力的AI大模型訓練,成本高,功耗高。02.Google TPU V7 vs 輝達GB300機櫃級架構差異從表面參數來看,TPU v7 與 GB300 的差異首先體現在機櫃尺度上。TPU v7 機櫃的熱設計功率約為 90kW,整櫃部署 64 顆 TPU 晶片,採用 16 台 2U 伺服器的形態。網路層面使用 OCS 光交換架構,機櫃內部不設定獨立交換機,算力節點之間通過高度定製化的光互連直接通訊。相比之下,GB300 機櫃的單櫃功率提升至約熱 150kW,晶片數量 72 顆,伺服器形態收斂為 18 台 1U 伺服器,並配備獨立的 InfiniBand / 乙太網路交換裝置。這種設計明顯更貼近當前主流 AI 資料中心的部署邏輯。但真正值得關注的,並不是功率或晶片數量的差距,而是兩種機櫃在設計目標上的根本不同。TPU v7 本質上是為 Google 內部算力體系定製的“算力終端”;而 GB300 則被定義為可以被反覆複製、快速部署的“標準算力模組”。02.Google TPU V7 vs 輝達GB300伺服器內部架構差異TPU v7 伺服器部署4顆TPU晶片。在 TPU v7 的伺服器內部結構中,液冷系統呈現出高度聚焦的特徵。TPU 晶片被單獨配置為 4 塊小冷板,液冷覆蓋範圍嚴格限定在算力核心之上,而 CPU、記憶體、電源模組仍然沿用風冷方案,儲存系統則未被納入液冷體系。TPU v7 採用 EPDM 軟管、Parker NSP 接頭與 Manifold 分配結構,配合 In-row CDU 使用。這種方案具備良好的安裝靈活性和成本可控性,非常適合 Google 這種自建、自維運的資料中心體系。在 TPU v7 的體系裡,傳統意義上的“交換機”本身就被弱化了。TPU Pod 裡真正承擔大規模互聯角色的,是 OCS(Optical Circuit Switch,光電路交換),這種方案更多是一個“光層調度裝置”,而不是高功耗、高算力的包轉發晶片裝置。這類 OCS 的特點是交換晶片功耗低、發熱密度分散、運行狀態極其穩定,遠沒有 GPU 或 NVLink / InfiniBand 交換 ASIC 那麼“熱”。從熱設計角度看,它根本沒有到必須引入液冷的門檻,用成熟的風冷方案完全可以覆蓋,而且風險更低。GB300伺服器部署4GPU+2GPU。液冷方案更加複雜,液冷覆蓋率95%,幾乎全液冷覆蓋,是小冷板結構,4+2方案,採用不鏽鋼波紋管、MOD + UQD 快接結構,以及 Rack / Row 級 CDU 相容設計,為長期運行、頻繁部署與快速維護而服務的工程選擇。GB300 使用的是新一代 InfiniBand 交換平台(對應 Quantum / Quantum-X 這一代架構),單顆交換 ASIC 的功耗已經進入數百瓦等級,並且連接埠速率、SerDes 數量、內部交換頻寬都在指數級提升。GB300的交換機是1u高度,採用液冷架構方案,Asic晶片部署液冷冷板。04.Google TPU V7 vs 輝達GB300 供應鏈差異由於輝達目前只提供L6板卡產品,不直接提供L10-L11整機伺服器,比如冷板,CDU等部件屬於L6之後的環節,不屬於輝達的直接環節,但是液冷系統又是非常重要的一環,所以為保障下遊客戶使用輝達晶片正常運行,輝達會提前設計一套整機系統提供給終端及伺服器OEM廠商參考,在液冷生態體系中,輝達要求通過一系列的認證測試進而確定各個液冷元件的RVL(推薦供應商名錄);要成為供應商進入RVL基本成為進入輝達液冷生態體系的強制性要求。在RVL基礎上,輝達GB200採用強制指定少數液冷部件供應商的模式,如 Vertiv 是輝達指定的系統級液冷合作夥伴。在這種模式下,液冷供應商將可能形成產能瓶頸,無法支撐GB300及後續產品的巨大需求。為降低供應鏈的風險,輝達在GB300上做出了調整,僅負責提供液冷部件設計參考及介面的規範;由此給予了ODM/OEM廠商更大的設計靈活性,並且由CSP或ODM/OEM在RVL範圍內自主選擇液冷部件供應商,為新供應商的進入創造了條件。在這種模式下,液冷部件供應商需要同時通過英偉 達RVL 認證以獲取配套資格,同時也需要進入OEM/ODM的AVL(合格供應商名錄)以確保在液冷系統整合階段被選用。Google與輝達的冷供應商選擇模式不同,Google目前不直接出售TPU晶片,而是出售google Colud的算力,資料中心多數採用自健,所以Google的所有資料中心基礎設施產品由google自己採購。因此Google液冷系統供應商會作為一級供應商直接向Google提供配套產品,液冷系統供應商將向Google指定的部件供應商採購液冷系統部件。因此對於國內廠商來說有更大的機會切入Google的供應鏈並且能夠持續獲得市場份額。 (零氪1+1)
輝達GPU全部售罄,網路晶片大賣,市值暴漲
晶片巨頭輝達的營收和即將上市的銷售額均超出華爾街預期,緩解了投資者對人工智慧 (AI) 領域巨額支出引發市場動盪的擔憂。該公司周三發佈的季度財報顯示,截至10月份的三個月內,營收飆升62%至570億美元,主要得益於人工智慧資料中心對其晶片的需求增長。該部門的銷售額增長66%,超過510億美元。達到512億美元,輕鬆超過分析師此前預期的490.9億美元,較上一季度增長25%,較去年同期增長66%。剩餘的68億美元營收來自輝達的遊戲業務(42億美元),其次是專業可視化和汽車領域的銷售額。按美國通用會計準則(GAAP)計算,公司淨利潤為320億美元,同比增長65%。營收和利潤均超出華爾街預期。輝達表示,大部分增長是由其GB300晶片的初期銷售推動的。網路業務,即使數十個GPU能夠像一台電腦一樣協同工作的元件,貢獻了資料中心82億美元的銷售額。輝達首席財務官科萊特·克雷斯在一份聲明中表示,該公司最暢銷的晶片系列現在是 Blackwell Ultra,這是該公司 Blackwell 晶片的第二代版本。輝達首席財務官科萊特·克雷斯在致股東的聲明中指出,計算能力的加速發展、強大的AI模型以及智能體應用的興起推動了公司資料中心業務的增長。克雷斯在公司第三季度財報電話會議上表示,上個季度,公司宣佈了總計500萬個GPU的AI工廠和基礎設施項目。克雷斯表示:“這種需求涵蓋了所有市場,包括雲服務提供商、主權國家、現代建築企業和超級計算中心,並且包括多個標誌性建設項目。”Blackwell Ultra GPU於3月份發佈,提供多種配置選擇,表現尤為強勁,目前已成為公司內部的領頭羊產品。據該公司稱,此前的Blackwell架構版本也一直保持著強勁的需求。輝達表示,預計本季度銷售額約為 650 億美元,而分析師此前預期為 616.6 億美元。該公司表示,本季度淨利潤增長 65%,達到 319.1 億美元,即每股 1.30 美元,而去年同期淨利潤為 193.1 億美元,即每股 78 美分。輝達是全球市值最高的公司,被視為人工智慧繁榮的風向標。這家晶片製造商的業績可能會影響市場情緒。首席執行官黃仁勳在一份聲明中表示,其人工智慧 Blackwell 系統的銷售額“遠超預期”,並且“雲 GPU(圖形處理單元)已售罄”。黃仁勳在公司第三季度財報中表示:“Blackwell 的銷售額遠超預期,雲端 GPU 也已售罄。計算需求在訓練和推理方面持續加速增長,呈指數級增長。我們已經進入了人工智慧的良性循環。人工智慧生態系統正在快速擴張——湧現出更多新的基礎模型建構者、更多人工智慧初創公司,覆蓋更多行業和更多國家。人工智慧正在無處不在,無所不能。”“關於人工智慧泡沫的說法很多。但從我們的角度來看,我們看到的卻截然不同,”他在與分析師的電話會議上說道。“我們在人工智慧的各個階段都表現出色。”他曾表示,人們願意為人工智慧工具付費表明這項技術是“有利可圖的”,即便大多數科技公司現在都將賺到的錢再投資於新的基礎設施。由於人們越來越擔心人工智慧股票估值過高,這家晶片製造商的季度報告在華爾街引起了比以往更多的關注。由於人們對人工智慧投資回報的擔憂不斷,這些擔憂導致標普 500 指數在周三之前連續四天下跌。在輝達發佈業績之前,人們對其表現的預期很高。LPL Financial 的首席技術戰略家 Adam Turnquist 表示,問題不在於公司是否會超出預期,“而在於超出多少”。“儘管人工智慧估值佔據了新聞頭條,但輝達依然以優雅的方式開展業務,”哈格里夫斯·蘭斯當高級股票分析師馬特·布裡茨曼表示。他表示,人工智慧領域某些領域的估值“需要喘口氣,但輝達並不屬於這一類”。黃仁勳此前曾表示,他預計到明年人工智慧晶片訂單額將達到5000億美元。投資者們正在關注該公司預計何時實現這些收入,以及如何完成這些訂單。輝達首席財務官科萊特·克雷斯告訴分析師,該公司“可能”會在已宣佈的 5000 億美元訂單之外再接更多訂單。在財報電話會議上,她還別出心裁地列舉了晶片製造商合作夥伴近期財務報告中的亮點,以此強調人工智慧正在為公司帶來回報。例如,她提到,Meta公司的人工智慧推薦系統讓使用者“在Facebook和Threads等應用上花費了更多時間”;Anthropic公司近期表示,預計今年的年收入將達到70億美元;Salesforce的工程團隊自從使用人工智慧進行編碼以來,效率提高了30%。她還列舉了一系列企業客戶的例子。但她也對阻礙該公司向中國出口晶片的監管限製表示失望,稱美國“必須贏得包括中國開發者在內的每一位開發者的支援”。克雷斯在財報電話會議上指出:“由於地緣政治問題以及中國市場競爭日益激烈,本季度未能達成大額採購訂單。儘管我們對目前阻礙我們向中國出口更具競爭力的資料中心計算產品的現狀感到失望,但我們仍致力於繼續與美國和中國政府保持溝通,並將繼續倡導提升美國在全球的競爭力。”科技巨頭們正加大對人工智慧的投入,爭相從推動股價創下歷史新高的繁榮浪潮中獲利。Meta、Alphabet 和微軟上個月發佈的財報再次證實,這些公司在從資料中心到晶片等各個方面都投入了巨額資金。Google母公司Alphabet的首席執行官桑達爾·皮查伊也表示,儘管人工智慧投資的增長是一個“非凡的時刻”,但當前的人工智慧熱潮也存在一些“非理性”因素。他的這番言論是在其他行業領袖發出警告之際發表的。輝達生產的晶片對人工智慧資料中心至關重要,它與人工智慧領域的關鍵參與者(如 OpenAI、Anthropic 和 xAI)達成了一系列交易,而輝達正是這些交易的核心。這些交易因其循環性質而備受關注,因為人工智慧公司之間的相互投資日益增多。這些協議包括輝達向OpenAI (ChatGPT背後的公司)投資1000億美元。 (半導體行業觀察)