Google雲今天宣佈即將推出迄今為止最強大、最節能的張量處理單元 Trillium TPU。
Google的 TPU 與 Nvidia 公司的圖形處理單元類似,後者已成為運行生成人工智慧工作負載的最受歡迎的硬體。Google希望通過 Trillium 為企業提供 Nvidia GPU 的替代品。
Trillium今天在Google I/O 2024上推出,是該公司的第六代 TPU。它旨在為最苛刻的生成式人工智慧模型和工作負載提供支援,提供比現有 TPU 顯著增強的計算、記憶體和網路功能。
Google雲機器學習、系統和雲 AI 副總裁兼總經理 Amin Vadhat 表示,與Google宣佈的目前最強大的晶片TPU v5e相比,Trillium TPU 的峰值計算性能提高了 4.7 倍。Cloud Next 去年八月。為了實現更高的性能,Google 投入了大量精力來擴展執行計算的矩陣乘法單元或 MXU 的大小,並提高了其整體時鐘速度。
此外,Trillium GPU 的高頻寬記憶體容量和頻寬是原來的兩倍,而晶片間互連頻寬也增加了一倍。Amin 表示,這些增強功能將顯著縮短大型語言模型的訓練時間和服務延遲。
另一項新的創新是第三代SparseCore,它是一個專業加速器,用於處理先進的基於人工智慧的排名和推薦系統中的超大嵌入。借此,Trillium TPU 將能夠訓練下一代基礎人工智慧模型,並以更低的延遲和成本為它們提供服務。Amin 表示,與此同時,它們的能效提升高達 67%,這意味著比 TPU v5e 更低的運行成本和更小的碳足跡。
Google表示,Trillium 將於今年晚些時候推出,能夠在單個高頻寬、低延遲 Pod 中擴展到超過 256 個 TPU。通過利用 Google 在 Pod 級可擴展性、多切片技術和Titanium 智能處理單元方面的進步,使用者將能夠連結數百個 Trillium TPU 的單獨 Pod,以建構 PB 級超級電腦和資料中心網路。
Google Cloud 的一些客戶已經制定了使用 Trillium TPU 的計畫。例如,GoogleDeepMind將使用新晶片來訓練和服務下一代GoogleGemini模型,並且比以前更快、更高效、延遲更低。此外,一家名為Deep Genomics Inc. 的公司正計畫使用 Trillium TPU 來推進人工智慧藥物發現。
Deep Genomics 創始人兼首席資訊官 Brendan Frey 表示:“我們的使命是建立和應用先進的人工智慧模型,以突破 RNA 治療領域的可能性界限。”他希望 Trillium TPU 能夠改善其人工智慧的訓練和運行基礎模型100倍。“先進的人工智慧模型突破了 RNA 治療領域的可能性界限。”
Trillium TPU 還將與Google Cloud 的 AI 超級電腦項目整合,該項目是一個超級電腦平台,旨在運行尖端的 AI 工作負載。AI超級電腦將最先進的TPU和GPU與開放原始碼軟體框架和靈活的消費模型整合在一起,以支援極其強大的新型AI工作負載的開發。
當 Trillium 推出時,它將作為另一個硬體選項新增到 AI 超級電腦中,與Google的 TPU v5p 和 Nvidia 的 H100 GPU 一起。該公司還計畫將 Nvidia 的新型 Blackwell GPU 與 AI 超級電腦整合,但尚未透露具體時間,因此尚不清楚 Trillium TPU 是否會首先推出。
生成式人工智慧正在改變我們與技術互動的方式,同時為業務影響帶來巨大的效率機會。但這些進步需要更大的計算、記憶體和通訊來訓練和微調最有能力的模型,並以互動方式為全球使用者群提供服務。十多年來,Google一直在開發定製的人工智慧專用硬體、張量處理單元(TPU),以推動規模和效率的前沿發展。
該硬體支援我們今天在 Google I/O 上宣佈的多項創新,包括Gemini 1.5 Flash、Imagen 3和Gemma 2等新型號;所有這些模型都經過 TPU 訓練並提供服務。為了提供下一代前沿模型並讓您也能做到這一點,我們很高興推出第六代 TPU Trillium,它是迄今為止性能最強、能效最高的 TPU。
與 TPU v5e 相比,Trillium TPU 的每晶片峰值計算性能提高了 4.7 倍,令人印象深刻。我們將高頻寬記憶體 (HBM) 容量和頻寬增加了一倍,並將 TPU v5e 的晶片間互連 (ICI) 頻寬增加了一倍。此外,Trillium還配備了第三代SparseCore,這是一種專用加速器,用於處理高級排名和推薦工作負載中常見的超大嵌入。Trillium TPU 可以更快地訓練下一波基礎模型,並以更少的延遲和更低的成本為這些模型提供服務。至關重要的是,我們的第六代 TPU 也是最具可持續性的:Trillium TPU 的能效比 TPU v5e 高出 67% 以上。
Trillium 可以在單個高頻寬、低延遲 Pod 中擴展到多達 256 個 TPU。除了這種 Pod 級可擴展性之外,借助多切片技術和Titanium 智能處理單元 (IPU ),Trillium TPU 還可以擴展到數百個 Pod,從而連接建築物級超級電腦中的數萬個晶片,這些晶片通過每秒數 PB 的速度互連資料中心網路。
十多年前,Google認識到需要首款用於機器學習的晶片。2013 年,我們開始開發世界上第一個專用人工智慧加速器 TPU v1,隨後於 2017 年推出了第一個雲 TPU。如果沒有 TPU,Google 的許多最受歡迎的服務(例如即時語音搜尋、照片對象識別、互動式語言翻譯以及 Gemini、Imagen 和 Gemma 等最先進的基礎模型都是不可能的。事實上,TPU 的規模和效率為 Google Research 的Transformers基礎工作奠定了基礎,而 Transformers 是現代生成人工智慧的演算法基礎。
TPU 是專為神經網路而設計的,我們始終致力於改善 AI 工作負載的訓練和服務時間。與 TPU v5e 相比,Trillium每晶片的峰值計算量提高了 4.7 倍。為了達到這種性能水平,我們擴大了矩陣乘法單元 (MXU)的大小並提高了時鐘速度。此外,SparseCores 通過戰略性地解除安裝來自 TensorCores 的隨機和細粒度訪問來加速嵌入繁重的工作負載。
HBM 容量和頻寬加倍使 Trillium 能夠處理具有更多權重和更大鍵值快取的更大模型。下一代 HBM 可實現更高的記憶體頻寬、更高的能效以及靈活的通道架構,以提高記憶體吞吐量。這可以縮短大型模型的訓練時間和服務延遲。這是模型權重和鍵值快取的兩倍,訪問速度更快,計算能力更強,可加速 ML 工作負載。ICI 頻寬加倍使訓練和推理作業能夠擴展到數萬個晶片,這得益於定製光學 ICI 互連與 Pod 中 256 個晶片的戰略組合以及Google Jupiter Networking(將可擴展性擴展到叢集中的數百個 Pod)。
Trillium TPU 將為下一波人工智慧模型和代理提供動力,我們期待幫助我們的客戶獲得這些先進的功能。例如,自動駕駛汽車公司Nuro致力於通過機器人技術通過使用 Cloud TPU 訓練模型來創造更美好的日常生活;Deep Genomics正在利用人工智慧為藥物發現的未來提供動力,並期待他們的下一個由 Trillium 提供支援的基礎模型將如何改變患者的生活;Google雲年度人工智慧合作夥伴德勤將提供 Trillium,通過生成式人工智慧實現業務轉型。對 Trillium TPU 上長上下文、多模式模型的訓練和服務的支援也將使Google DeepMind能夠比以往更快、更高效、延遲更低地訓練和服務未來幾代 Gemini 模型。
Trillium TPU 是 Google Cloud人工智慧超級電腦的一部分,這是一種專為尖端人工智慧工作負載而設計的突破性超級計算架構。它整合了性能最佳化的基礎設施(包括 Trillium TPU)、開放原始碼軟體框架和靈活的消費模型。我們對 JAX、PyTorch/XLA 和 Keras 3 等開源庫的承諾為開發人員提供支援。對 JAX 和 XLA 的支援意味著為任何上一代 TPU 編寫的聲明性模型描述直接對應到 Trillium TPU 的新硬體和網路功能。我們還與 Hugging Face 在 Optimum-TPU 上合作,以簡化模型訓練和服務。
“我們與 Google Cloud 的合作使 Hugging Face 使用者可以更輕鬆地在 Google Cloud 的 AI 基礎設施(包括 TPU)上微調和運行開放模型。我們很高興能夠通過即將推出的第六代Trillium TPU進一步加速開源 AI ,並且我們預計開放模型將繼續提供最佳性能,因為與上一代相比,每個晶片的性能提高了 4.7 倍。我們將通過我們新的 Optimum-TPU 庫,讓所有 AI 建構者輕鬆獲得 Trillium 的性能!” - Hugging Face 產品主管 Jeff Boudier說。
自 2017 年以來,Sada 每年都榮獲年度合作夥伴獎,並提供 Google 雲服務以實現最大影響。
作為值得驕傲的 Google Cloud 首要合作夥伴,SADA 與全球知名的 AI 先驅有著 20 年的悠久歷史。我們正在為數千名不同的客戶快速整合人工智慧。憑藉我們豐富的經驗和人工智慧超電腦架構,我們迫不及待地想幫助我們的客戶利用 Trillium 釋放生成人工智慧模型的下一個前沿領域的價值。- Miles Ward,Sada 首席技術官說
AI 超級電腦還提供 AI/ML 工作負載所需的靈活消費模型。動態工作負載調度程序 (DWS) 讓訪問 AI/ML 資源變得更加容易,並幫助客戶最佳化支出。Flex 啟動模式可以通過同時調度所需的所有加速器來改善突發工作負載(例如訓練、微調或批處理作業)的體驗,無論您的入口點是什麼:Vertex AI Training、Google Kubernetes Engine (GKE) 或 Google Cloud Compute引擎。
Lightricks 很高興能夠通過 AI 超級電腦的性能提升和效率提升來重新獲得價值。
“自 Cloud TPU v4 以來,我們一直在將 TPU 用於文字到圖像和文字到視訊模型。憑藉 TPU v5p 和 AI 超級電腦的效率,我們的訓練速度實現了 2.5 倍的驚人提升!第六代 Trillium TPU 令人難以置信,與上一代相比,每晶片的計算性能提高了 4.7 倍,HBM 容量和頻寬提高了 2 倍。當我們擴展文字到視訊模型時,這對我們來說來得正是時候。我們還期待使用 Dynamic Workload Scheduler 的彈性啟動模式來管理我們的批次推理作業並管理我們未來的 TPU 預留。” - Lightricks 核心生成人工智慧研究團隊負責人Yoav HaCohen 博士說。
Google Cloud TPU 是人工智慧加速領域的前沿技術,經過定製設計和最佳化,可為大規模人工智慧模型提供支援。TPU 獨家通過 Google Cloud 提供,為訓練和服務 AI 解決方案提供無與倫比的性能和成本效益。無論是複雜的大型語言模型還是圖像生成的創造性潛力,TPU 都有助於開發人員和研究人員突破人工智慧世界的可能界限。 (半導體行業觀察)