谷歌晶片,全球第三了


儘管Google是一家無晶圓廠設計公司,不向第三方公司出售晶片,但它是資料中心處理器業務中真正的巨頭。山景城公司擁有重要的市場份額,由於最近人工智慧的爆炸式增長,該市場份額預計將進一步擴大。

Tech Insights 發布的新研究將Google評為資料中心領域最大的晶片設計公司之一。 Tech Insights表示,憑藉其在半導體供應鏈和ASIC 市場等多個領域的獨特專業知識,Google的市場份額可與英特爾和AMD 等更知名的晶片製造商相媲美。

Tech Insights強調,Google在2015 年推出的張量處理單元( TPU ) 開創了客製化人工智慧加速器的先河,這使得該公司超越了雲端競爭對手微軟和亞馬遜。就市場佔有率而言,只有英偉達和英特爾超越Google。

Tech Insights指出,Google去年向其全球資料中心運送了200 萬個TPU。隨著TPU v4 的推出,該業務在2021 年實現了顯著增長,恰逢大型語言模型的興起。 Broadcom 是Google 在ASIC 設計方面的主要合作夥伴,它可能從TPU v4 的推出中受益最多。

谷歌使用TPU 來加速內部工作負載,而Nvidia GPU 則處理雲端運算任務。 Tech Insights報告稱,到2023 年,Google將擁有最大的AI 加速器安裝基數和最大的AI 計算基礎設施。該公司最近推出了第六代TPU,稱為Trillium,旨在增強AI 超級電腦架構。

TI 也指出,隨著雲端超大規模企業投資新的加速器和Nvidia AI GPU,去年伺服器市場的庫存出現了重大調整。微軟和亞馬遜也分別使用Azure Cobalt 和Graviton 開發客製化人工智慧加速器。

Azure Cobalt 和Graviton 都是基於Arm 的客製化處理器。谷歌最近推出了基於Arm 的Axion 處理器來補充其TPU。根據Bernstein Research 的報告,Arm 架構目前已用於全球10% 的伺服器,其中超過50% 安裝在亞馬遜的AWS 資料中心。


谷歌的第六代TPU

5 月14 日星期二,Google發布了名為Trillium 的第六代TPU(張量處理單元)。

該晶片本質上是TPU v6,是該公司在與GPU 製造商英偉達以及雲端提供商微軟和亞馬遜(擁有自己的人工智慧晶片)的人工智慧戰鬥中的最新武器。

TPU v6 將繼承TPUv5 晶片,TPUv5 晶片有兩種版本:TPUv5e 和TPUv5p。該公司表示,Trillium 晶片是「迄今為止性能最高、最節能的TPU」 。 “

谷歌在加州山景城舉行的IO 會議上表示,Trillium 晶片將運行的人工智慧模型將取代目前的Gemini 大語言模型。

谷歌對該晶片進行了全方位的改進。該晶片的峰值計算性能提高了4.7 倍。它還使高頻寬記憶體、內部頻寬和晶片間互連速度加倍。

谷歌發言人在給HPCwire 的電子郵件中表示:“通過比較Trillium TPU 與Cloud TPU v5e 的每芯片峰值計算性能(bf16),我們得到了4.7 倍的數字。”

BF16 在TPU v5e 上的表現為197 teraflops,如果提高4.7 倍,BF16 在Trillium 上的峰值效能將達到925.9 teraflops。

Google 的TPU 早就應該有大幅的效能提升了。 TPU v5e 的197 兆次浮點BF16 效能實際上比TPU v4 的275 兆次浮點有所下降。

Trillium 晶片具有下一代HBM 內存,但沒有具體說明它是HBM3 還是HBM3e,Nvidia 在其H200 和Blackwell GPU 中使用了HBM3e。

TPU v5e 上的HBM2 容量為16GB,因此Trillium 將擁有32GB 的容量,HBM3 和HBM3e 均有提供。 HBM3e 提供最大的頻寬。

伺服器Pod 中最多可配對256 個Trillium 晶片,與 TPU v5e 相比,晶片間通訊提高了一倍。谷歌並未透露晶片間通訊速度,但可能是3,200 Gbps,是TPU v5e 1,600 Gbps 的兩倍。

谷歌在一篇部落格文章中表示,Trillium TPU 的節能效果也比TPU v5e 高出67%。

Trillium 正在取代TPU 品牌名稱,並將成為未來幾代晶片背後的品牌。 Trillium 是根據花的名字命名的,不要與AWS 的Trainium 混淆,Trainium 是一種人工智慧訓練晶片。

谷歌很快就發布了其第六代TPU——距離該公司發布TPU v5 晶片還不到一年。

TPU v4 於2020 年推出,拖了三年才發行TPU v5。 TPU v5 本身的開發也陷入了爭議。

谷歌聲稱,人工智慧代理幫助TPU v5 晶片進行平面規劃,速度比人類專家快約六個小時。

與TPU v5 AI 設計項目相關的研究人員被解僱或離職,這些說法目前正在接受《自然》雜誌的調查。

伺服器Pod 將託管256 個Trillium 晶片, AI 晶片的通訊速度是類似TPU v5 Pod 設定的兩倍。

這些Pod可以組合成更大的集群, 並透過光纖網路進行通訊。艙體之間的通訊速度也將提高兩倍,從而提供更大的AI 模型所需的可擴展性。

Google表示:“Trillium TPU 可以擴展到數百個Pod,透過每秒數拍比特的資料中心網路互連建築級超級電腦中的數萬個晶片。”

一項名為Multislice 的技術將大型AI 工作負載串聯到大型叢集中的數千個TPU 上。這確保了TPU 的高正常運作時間和能源效率。

該晶片具有第三代SparseCores,這是一種更接近高頻寬記憶體的中間晶片, 大多數AI 運算都在這裡進行。

SparseCores 讓處理更接近記憶體中的數據, 支援AMD、英特爾和高通正在研究的新興運算架構。

通常,資料必須從記憶體移動到處理單元,這會消耗頻寬並產生阻塞點。稀疏計算模型試圖透過將處理單元移近記憶體集群來釋放網路頻寬。

Google表示:“Trillium TPU 可以更快地訓練下一波基礎模型,並以更少的延遲和更低的成本為這些模型提供服務。”

Trillium 還具有用於矩陣數學的TensorCore。 Trillium 晶片是為人工智慧設計的,不會運行科學應用程式。

該公司最近發布了首款CPU Axion,它將與Trillium 搭配使用。

Trillium 晶片將成為Google自主研發的Hypercomputer AI 超級電腦設計的一部分,該設計針對其TPU 進行了最佳化。

該設計融合了運算、網路、儲存和軟體,以滿足不同的AI 消費和調度模型。 「日曆」系統滿足任務何時開始的嚴格期限,而「彈性啟動」模型則保證任務何時結束並交付結果。

超級電腦包含一個軟體堆疊和其他工具,用於開發、最佳化、部署和編排用於推理和訓練的AI 模型。其中包括JAX、PyTorch/XLA 和Kubernetes。

超級電腦將繼續使用針對GPU 最佳化的互連技術,例如基於Nvidia H100 GPU 的Titanium 卸載系統和技術。

預計Trillium 晶片將在Google Cloud 中提供,但Google沒有提供提供日期。它將成為頂級產品,成本高於TPU v5 產品。

雲端中GPU 的高價格可能會讓Trillium 對客戶有吸引力。已經使用Vertex(Google Cloud 中的AI 平台)中提供的AI 模型的客戶也可能會轉向Trillium。

AWS 的Trainium 晶片也可用,而微軟的Azure Maia 晶片主要用於推理。

谷歌一直將其TPU 作為Nvidia GPU 的AI 替代品。谷歌發布了研究論文,將TPU 的效能與同類Nvidia GPU 進行了比較。

谷歌最近宣布將搭載Nvidia 的新GPU、B200 和帶有Blackwell GPU 的專用DGX 盒。

Nvidia 最近也宣布將以7 億美元收購Run.ai。收購Run.ai 將使Nvidia 在運行AI 模型時能夠使其軟體堆疊獨立於Google 的堆疊。

TPU 最初是為Google的本土模型設計的,但該公司正在努力更好地映射到開源模型,其中包括Gemini 的分支Gemma。(半導體產業觀察)