大型語言模型加大了可持續計算和異構整合的壓力;資料管理成為關鍵的區別因素。
領先的人工智慧系統設計正在從建構儘可能最快的人工智慧處理器轉向採用一種更加平衡的方法,包括高度專業化的異構計算元素、更快的資料移動和顯著降低的功率。
這一轉變的一部分圍繞著採用 2.5D/3.5D 封裝的晶片,這可以針對不同的工作負載和資料類型實現更大的定製化,並提高每瓦性能。除此之外,領先的晶片製造商還利用最近的Hot Chips 24會議展示了新穎的微架構、預取和分支預測方面的改進、更快的記憶體訪問以及更智能的片上和片外資料管理。
由於當今電網的限制,政府機構和公用事業公司要求晶片製造商減少處理大型語言模型所需的能源,而晶片製造商正對此作出反應。他們還利用這些異構架構在超大規模和邊緣資料中心挖掘新機遇。
這些新設計還瞄準了 NVIDIA 在 AI 領域的近乎壟斷地位,因為廉價 GPU 和基於 CUDA 的模型大量湧現。沒有那種通用處理器能像定製加速器那樣節能,而且今年 Hot Chips 上展示的大多數多晶片架構都不是單一類型的晶片,而是包含多種類型的處理器、更廣泛的記憶體和 I/O 組態以限制瓶頸,以及更高效的資料管理。
當然,NVIDIA 非常清楚這些競爭威脅,而且該公司肯定不會停滯不前。其新款 Blackwell 晶片將 GPU 與 CPU 和 DPU 結合在一起,其量化方案除了具有處理更大規模資料模型所需的極快訓練能力外,還為低精度 AI 打開了大門。
NVIDIA GPU 架構總監 Raymond Wong 在 Hot Chips 24 演講中表示:“與通用計算不同,人工智慧和加速計算是一個全端問題,需要從頭開始重新審視軟體和計算。問題的規模和我們所需的性能需要一種新方法,從上到下和從下到上尋找解決方案,涵蓋硬體、系統軟體、加速庫、平台和應用程式框架……我們必須學會如何最佳化晶片、網路和基礎設施。”
NVIDIA 未來仍有大量的擴張機會,但未來它將在許多方面面臨更激烈的競爭。
今年處理器設計的一大變化是更加注重資料管理。有了人工智慧,它不再只是建構大量冗餘處理單元並儘可能快地運行它們。越來越多的目標是智能地對資料進行優先順序排序——資料越來越多,資料類型也越來越多——但這種方法並不新鮮。事實上,它可以追溯到 1980 年,當時英特爾推出了 8087 浮點協處理器。Arm 在 2011 年通過其 big.LITTLE 雙核處理器擴展了這一概念,較小的核心針對計算密集度較低的作業,較大的核心則用於需要時。
此後,這一策略通過更複雜的分區和優先順序劃分不斷完善,但這種策略通常與大型資料中心中運行的 AI 晶片無關。大多數 AI 訓練都在那裡進行,而且訓練可能會在那裡繼續駐留一段時間,因為開發大型語言模型並反覆查詢它們需要大量的計算能力。不過,並非每個計算周期都是處理密集型的,生成式 AI 模型確實需要像今天這樣頻繁地查詢。
甚至連 IBM 也已將重點從每秒兆次運算 (TOPS) 轉向每瓦性能 (即每秒皮焦耳)。IBM 聲稱其大型電腦處理了全球 70% 的金融交易,但 IBM 也已將重點從每秒兆次運算 (TOPS) 轉向每瓦性能 (即每秒皮焦耳)。這一點尤其值得注意,因為與大型系統公司不同(目前約佔所有前沿晶片設計的 45%),IBM 將其系統出售給終端客戶,而不僅僅是將計算作為一種服務。
IBM 的新款 Telum 處理器包含用於 I/O 加速的資料處理單元 (DPU)(基本上就是將資料彙集到要處理和儲存的位置)以及創新的快取。總共包含 8 個以 5.5 GHz 運行的核心、10 個 36 兆字節的 L2 快取和一個新的加速器晶片。
IBM 傑出工程師 Chris Berry 表示:“DPU 被業界廣泛用於高效處理大量資料。大型機處理大量資料。一台完全組態的 IBM z16 每天能夠處理 250 億筆加密交易。這比 Google 搜尋、Facebook 帖子和推文每天的加密交易量總和還要多。這種規模需要的 I/O 功能遠遠超出了典型計算系統所能提供的範圍。它需要自訂 I/O 協議來最大限度地減少延遲,支援數千個作業系統實例的虛擬化,並可以隨時處理數以萬計的 I/O 請求。”
新晶片的八核中央計算綜合體功耗降低了 15%,部分原因是分支預測功能更強大。過去幾年,這一直是 Hot Chips 大會的主題,更準確的分支預測和更快的預取錯誤恢復可以提高性能。但 DPU 的加入更進一步,充當資料的智能交通警察。Berry 指出,DPU 直接安裝在處理器晶片上,可以將 I/O 管理所需的功耗降低 70%。此外,加速器晶片的 32 個核心中的每一個都配備了 2MB 暫存器,他將其描述為“簡單地存放資料以備後用”,每瓦性能的改進值得關注。
英特爾還推出了用於 AI 訓練的下一代加速器晶片 Gaudi 3,該晶片具有 4 個深度學習核心 (DCORE)、8 個 HBM2e 堆疊、一個可組態而非可程式設計的矩陣乘法引擎。此外,它還具有 64 個張量處理核心和一個記憶體子系統,其中包括 L2 和 L3 快取和 HBM 的統一記憶體空間、近記憶體計算以及一個整合軟體套件,允許客戶插入自訂 TPC 核心,並支援 PyTorch。它還通過中介層橋連接兩個計算晶片。
英特爾在裝置內管理資料的方法在概念上與 IBM 類似。英特爾使用同步管理器將工作分派給指定單元,並使用執行階段驅動程式通過組態同步管理器來設定工作依賴關係。這種方法可以最大限度地提高系統內的資源利用率,並通過使用中斷管理器非同步傳遞事件來避免任何瓶頸。
英特爾首席 AI 性能架構師 Roman Kaplan 表示:“每個深度學習核心都包含 2 個 MME(矩陣乘法引擎)、16 個張量處理核心和 24 兆字節快取。晶片的主要主力是 MME。它執行所有可以轉換為矩陣乘法的運算。這是一個可組態的(而非可程式設計的)引擎,這意味著您不需要在該引擎上運行任何程式碼。有一組固定的暫存器控制該單元的操作,根據這些值,該單元就可以正常工作。每個 MME 單元基本上都是一個大型輸出固定脈動陣列。”
AMD 的 MI300X 晶片面向 AI 系統,基於由 12 個晶片組成的分佈式 AI 系統,具有 4 個 I/O 晶片和 8 個加速器晶片,同樣可以將資料傳輸到最佳處理位置。AMD 高級研究員兼 Instinct 首席 SoC 架構師 Alan Smith 表示:“生成式 AI 模型性能需要記憶體容量和頻寬。因此,我們將 MI300X 的規模作為目標,以滿足這一需求,並實現單片設計無法實現的整合度。MI300X 採用第四代 Infinity 結構、PCI Express Gen 5、HBM3 和 CDMA3 架構,可在計算、記憶體和 I/O 子系統之間實現平衡擴展。”
過去,AI 處理領域主要分為超大規模資料中心的訓練和小型裝置(通常是移動裝置)的推理。由於移動大量資料的成本以及獲取查詢結果所需的時間,訓練和推理都越來越多地轉向邊緣。雖然 LLM 不斷擴展,但它們並不是唯一被訓練的 AI 模型。可以使用不太密集的計算基礎設施來訓練更小、更特定領域的模型,並且可以在帶電池的裝置上進行推理。
這為使用小晶片的異構設計開闢了一個全新的市場,並非所有小晶片都將由同一家公司或代工廠開發。HBM 是這個方向的第一個巨大成功,但小晶片正在被設計用於一系列不同的應用程式,類似於過去幾十年軟 IP 的使用方式。與資料中心 AI 晶片一樣,管理資料移動和記憶體是關鍵
英特爾的 Lunar Lake 是該晶片製造商針對移動和桌面計算的答案。英特爾 CPU SoC 硬體架構負責人 Arik Gihon 指出了該晶片的四個主要目標——能效、核心性能、改進的圖形和整體性能,最高可達 120 TOPS。英特爾的方法是分離邏輯,使用 2.5D 組態的計算塊和平台控製器塊,並帶有封裝記憶體。
“Lunar Lake 由兩個主要模組組成,”Gihon 說道。“一個是計算模組,另一個是平台控製器晶片。計算模組採用台積電 N3B 製造,PCB 採用台積電 N6 製造。基礎晶片採用英特爾 1227 製造,它們通過 Foveros 技術連接。我們還引入了封裝記憶體,它有兩大優勢。一是功率。由於互連少,它使我們能夠專門針對低功耗最佳化 PHY,以及專門針對封裝記憶體的最佳化。二是主機板上的佔用空間,最大可達 250 平方毫米。 ”
與此同時,高通也按照同樣的思路開發了定製的 Oryon SoC。它包括三個 CPU 叢集,每個叢集有四個核心。其中兩個專注於性能,一個專注於能效。在許多演示中,最引人注目的是微架構,它基本上就是指令在硬體上的執行方式。與更大的系統一樣,資料在何處處理和儲存是許多此類設計的核心。
高通公司工程高級副總裁 Gerard Williams 表示:“[Oryon] 有八個基本解碼器,它們正在為執行單元、載入儲存單元和向量執行單元準備指令。指令本身進入重新排序緩衝區。它大約有 600 個條目,這讓您大致瞭解機器在飛行過程中要管理多少條指令。從退出的角度來看,這台機器每個周期可以退出八條指令。”
高通晶片中特別值得注意的是記憶體管理單元。“它由一個非常大的統一二級轉換緩衝區支援,這主要是為了處理大量資料,”威廉姆斯說。“它旨在處理所有虛擬化結構、安全層,但這個結構遠大於 8 千個條目,這是非常不常見的。它旨在將轉換延遲降至最低。”
會議上的許多演講者都是熟悉的名字,但也有一些新人。例如,FuriosaAI 是一家總部位於韓國的初創公司,正在開發用於邊緣的 AI 晶片。該公司開發了一種所謂的張量收縮處理器,用於可持續的 AI 計算。
“雖然訓練是關於人工智慧模型的,但推理是關於服務和部署的,”聯合創始人兼首席執行官 June Paik 表示。“我們在 2021 年的原始設計針對 BERT 規模的模型進行了最佳化。然而,隨著 GPT3 等基礎模型的出現,我們很快在設計上做出了重大轉變——該模型比 BERT 大五倍。儘管這些龐大的模型主要處於研究階段,但我們對它們的潛力充滿信心。我們相信人們會傾向於最強大的人工智慧模型,因為更智能的模型會帶來更大的好處。我們還相信,隨著這些應用的擴展,效率將變得更加重要。因此,我們著手將 RNGD打造為最高效的推理晶片。”
其架構的核心是快速地將資料來回移動到記憶體,該架構面向邊緣資料中心。該公司聲稱記憶體頻寬為 1.5 TB/秒。RNGD 還擁有兩個 HBM3 堆疊和 256 MB SRAM,以及 48 GB 記憶體容量。
AI 剛剛開始發揮作用,但未來仍面臨挑戰。首先,AI 必須是可持續的,大型晶片公司非常理解這一點,Hot Chips 24 上展示的晶片架構就是明證。但晶片只是解決方案的一部分。
可持續性還需要更高效的軟體、微架構的改進,以便減少大型語言模型查詢的發生頻率,以及越來越精確的響應,以便 LLM 響應值得信賴。此外,它還需要以晶片的形式更緊密地整合專用處理元件,這些晶片能夠更快、更高效地處理不同類型的資料。
底線是:人工智慧不會消失,但要充分發揮其潛力,需要整個半導體生態系統的努力。 (半導體行業觀察)