#大模型參數
晶圓級晶片,是未來
今天,大模型參數已經以“億”為單位狂飆。僅僅過了兩年,大模型所需要的計算能力就增加了1000倍,這遠遠超過了硬體迭代的速度。目前支援AI大模型的方案,主流是依靠GPU叢集。但單晶片GPU的瓶頸是很明顯的:第一,單晶片的物理尺寸限制了電晶體數量,即便採用先進製程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多晶片互聯時,資料在晶片間傳輸產生的延遲與頻寬損耗,導致整體性能無法隨晶片數量線性增長。這就是為什麼,面對GPT-4、文心一言這類兆參數模型,即使堆疊數千塊輝達 H100,依然逃不過 “算力不夠、電費爆表” 的尷尬。目前,業內在AI訓練硬體分為了兩大陣營:採用晶圓級整合技術的專用加速器(如Cerebras WSE-3和Tesla Dojo)和基於傳統架構的GPU叢集(如輝達 H100)。晶圓級晶片被認為是未來的突破口。01晶圓級晶片,兩大玩家在常規的晶片生產流程中,一個晶圓會在光刻後被切割成許多小裸片(Die)並且進行單獨封裝,每片裸片在單獨封裝後成為一顆完整的晶片。晶片算力的提升方式,是依靠增加晶片面積,所以晶片廠商都在不斷努力增加晶片面積。目前算力晶片的單Die尺寸大約是26x33=858mm2,也就是接近曝光窗大小,但是晶片的最大尺寸無法突破曝光窗的大小。曝光窗大小多年來一直維持不變,成為了制約晶片算力增長的原因之一。晶圓級晶片則提供了另一種思路。通過製造一塊不進行切割的晶圓級互連基板,再將設計好的常規裸片在晶圓基板上進行整合與封裝,從而獲得一整塊巨大的晶片。未經過切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成頻寬更高、延時更短的互連結構,相當於通過高性能互連與高密度整合建構了更大的算力節點。所以,相同算力下,由晶圓級晶片建構的算力叢集佔地面積對比GPU 叢集能夠縮小 10-20 倍以上,功耗可降低 30% 以上。全球有兩家公司已經開發出了晶圓級晶片的產品。一家是Cerebras。這家企業從2015年成立,自2019年推出了WES-1,之後經過不斷迭代,目前已經推出到第三代晶圓級晶片——WES-3。WES-3採用台積電5nm工藝,電晶體數量達到誇張的4兆個,AI核心數量增加到90萬個,快取容量達到了44GB,可以支援高達 1.2PB 的片外記憶體。WES-3的能力可以訓練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆並聯情況下,一天內即可完成700億參數的調教,支援最多2048路互連,一天便可完成Llama 700億參數的訓練。這些都是整合在一塊215mm×215mm=46,225mm2的晶圓上。如果這個對比還不夠明顯,那可以這麼看:對比輝達H100,WES-3的片上記憶體容量是 H100的880倍、單晶片記憶體頻寬是H100的7000倍、核心數量是H100的52倍,片上互連頻寬速度是H100的3715倍。另一家是特斯拉。特斯拉的晶圓級晶片被命名為Dojo。這是馬斯克在2021年就開始的嘗試。特斯拉Dojo的技術路線和Cerebras不一樣。是通過採用Chiplet路線,在晶圓尺寸的基板上整合了 25 顆專有的 D1 芯粒(裸Die)。D1芯粒在645平方毫米的晶片上放置了500億個電晶體,單個芯粒可以提供362 TFlops BF16/CFP8的計算能力。合起來的單個Dojo擁有9Petaflops的算力,以及每秒36TB的頻寬。特斯拉的Dojo系統專門針對全自動駕駛(FSD)模型的訓練需求而定製。思路是從25個D1芯粒→1個訓練瓦(Training Tile)→6個訓練瓦組成1個托盤→2個托盤組成1個機櫃→10個機櫃組成1套ExaPOD超算系統,能夠提供1.1EFlops的計算性能。02晶圓級晶片與GPU對比既然單晶片GPU和晶圓級晶片走出了兩條岔路,在這裡我們以Cerebras WSE-3、Dojo 和輝達 H100為例,對比一下兩種晶片架構對算力極限的不同探索。一般來說AI 訓練晶片 GPU 硬體的性能通過幾個關鍵指標進行評估:每秒浮點運算次數(FLOPS) ,表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力的強弱。記憶體頻寬,決定了訪問和處理資料的速度,直接影響訓練效率。延遲和吞吐量,能夠評估GPU處理巨量資料負載和模型平行性的效率,從而影響即時性能。算力性能Cerebras WSE-3 憑藉單片架構,在 AI 模型訓練中展現獨特潛力。一般來講,每秒浮點運算次數(FLOPS) 能夠表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力。WSE-3 的 FP16 訓練峰值性能達到 125 PFLOPS,支援訓練高達 24 兆參數的 AI 模型,且無需進行模型分區處理。這個功能就特別適合以精簡高效的方式處理超大模型。與依賴分層記憶體架構(可能造成處理瓶頸)的傳統 GPU 不同,WSE 的設計使850 個核心可獨立運行,並直接訪問本地記憶體,這樣就有效提升了計算吞吐量。在這方面,輝達H100採用的是模組化和分佈式方法。單個 H100 GPU 可為高性能計算提供 60 TFLOPS FP64 計算能力,八個互連的 H100 GPU 組成的系統,可實現超 1 ExaFLOP 的 FP8 AI 性能。但分佈式架構就存在資料傳輸問題,雖然NVLink 和 HBM3 記憶體能降低延遲,但在訓練超大型模型時,GPU 間通訊仍會影響訓練速度。在AI訓練的表現中,Cerebras WSE-3會更加擅長處理超大型模型。2048個WSE-3系統組成的叢集,訓練Meta的700億參數Llama 2 LLM僅需1天,相比Meta原有的AI訓練叢集,速度提升達30倍。延遲與吞吐量從資料傳輸來看,WSE-3 的單片架構避免了多晶片間的資料傳輸,顯著降低延遲,支援大規模平行計算和核心間低延遲通訊。速度快是單片的優勢,與傳統GPU 叢集相比,WSE-3 可將軟體複雜度降低高達 90%,同時將即時 GenAI 推理的延遲降低 10倍以上。特斯拉Dojo Training Tile屬於晶圓級整合,當然也能夠大幅降低通訊開銷。由於是從Die到Die之間傳遞,在跨區塊擴展時仍會產生一定延遲。目前,Dojo 能實現 100 納秒的晶片間延遲,並且針對自動駕駛訓練最佳化了吞吐量,可同時處理 100 萬個每秒 36 幀的視訊流。輝達H100基於 Hopper 架構,是目前最強大的AI訓練GPU之一,配備18,432個CUDA 核心和640個張量核心,並通過NVLink和NVSwitch系統實現GPU間高速通訊。高速通訊。雖然多 GPU 架構具備良好擴展性,但資料傳輸會帶來延遲問題,即便NVLink 4.0 提供每個GPU 900 GB/s的雙向頻寬,延遲仍高於晶圓級系統。儘管能夠憑藉著架構特性實現單晶圓工作負載的低延遲和高吞吐量,但晶圓級系統如WSE-3 和 Dojo面臨著可擴展性有限、製造成本高和通用工作負載靈活性不足的問題。誰更划算?從硬體購置成本來看,不同晶片的價格因架構和應用場景而異。據報導,特斯拉單台Tesla Dojo 超級電腦的具體成本估計在3 億至 5 億美元之間。技術路線上,Dojo採用的是成熟晶圓工藝再加上先進封裝(採用了台積電的Info_SoW技術整合),去實現晶圓級的計算能力,能夠避免挑戰工藝極限。這既能保證較高的良品率,又便於實現系統的規模化生產,芯粒的更新迭代也更為輕鬆。Cerebras WSE 系統則因先進的製造工藝與複雜設計,面臨較高的初期研發和生產成本。據報導,Cerebras WSE-2 的每個系統成本在 200 萬至 300 萬美元之間。相比之下,輝達單GPU的採購成本比較低。以輝達A100來說,40GB PCIe型號價格約 8,000 - 10,000美元,80GB SXM型號價格在18,000 - 20,000美元。這使得許多企業在搭建 AI 計算基礎設施初期,更傾向於選擇輝達GPU。不過,輝達GPU在長期使用中存在能耗高、多晶片協作性能瓶頸等問題,會導致營運成本不斷增加。總體來看,雖然WSE-2能為超大規模AI模型提供超高計算密度,但對於需要在大型資料中心和雲服務中部署多GPU可擴展方案的機構,A100的成本優勢更為明顯。03結語常規形態下,叢集算力節點越多,則叢集規模越大,花費在通訊上的開銷就越大,叢集的效率就越低。這就是為什麼,輝達NVL72 通過提升叢集內的節點整合密度(即提高算力密度)。在一個機架中整合了遠超常規機架的 GPU 數量,使得叢集的尺寸規模得到控制,效率才能實現進一步提升。這是輝達權衡了良率和成本之後給出的解決方案。但是如果輝達繼續按照這種計算形態走下去,想要進一步提升算力密度,就會走到晶圓級晶片的路上。畢竟,晶圓級晶片的形態是目前為止算力節點整合密度最高的一種形態。晶圓級晶片,潛力無限。 (半導體產業縱橫)