據海外媒體報導,輝達和亞馬遜正在推進儲存架構的研發,該架構允許 GPU 直接控制 SSD 等儲存裝置。輝達計畫在其 Vera Rubin平台上率先推出 GPU 發起的直接儲存訪問 (GIDS) 技術,這一轉變會加速高頻寬快閃記憶體 (HBF) 的普及。
當前AI大模型參數持續暴漲,HBM高頻寬記憶體暴露出兩大致命短板:
一是物理堆疊上限決定其容量擴容難度極大、成本居高不下,無法承載兆級超大規模模型;
二是GPU與HBM之間的資料傳輸功耗,已佔據AI伺服器整機系統總功耗近50%,算力能效比嚴重失衡。與此同時,傳統馮諾依曼架構存在天生的資料搬運瓶頸,資料需經過CPU中轉→DRAM快取→再傳輸至GPU,而CPU線程調度存在結構性上限,GPU卻具備數萬級平行算力,二者的算力與資料調度效率嚴重錯配,成為AI推理、訓練提速的核心枷鎖。
實際上GPU直存技術經歷了兩代迭代,二者的核心差異集中在資料流轉路徑、核心侷限與技術定位上。
其中,GDS(GPU直接儲存)作為初代過渡型直存方案,資料流轉仍需依賴CPU,具體路徑為CPU下發請求→儲存裝置→中轉至GPU,無法脫離CPU管控,仍存在明顯的調度延遲。
而GIDS(GPU發起直接儲存訪問)作為下一代主流架構,實現了革命性突破,允許GPU直接操控SSD/高速快閃記憶體,全程繞過CPU和DRAM,徹底剔除中間調度層級,讓GPU算力不再被CPU資料調度拖累,不過其落地需要配套高性能快閃記憶體以適配頻寬需求,這也是其與GDS最核心的區別。兩代技術的核心目標一致,均是為了克服傳統馮諾依曼計算架構的資料傳輸瓶頸。
為適配GIDS技術的落地,解決HBM容量不足的痛點,高頻寬快閃記憶體(HBF)成為最優解決方案。其技術原理對標HBM的堆疊思路,將NAND快閃記憶體垂直堆疊,並通過矽通孔(TSV)實現互聯,同時將高速快閃記憶體物理貼近GPU佈局,最大化提升資料傳輸效率。從核心優勢來看,NAND快閃記憶體的位密度是DRAM的30倍,在同等體積下能夠實現更大的儲存容量,完美契合AI大模型對海量儲存的需求。
據行業實測資料顯示,採用6顆HBF單元與2顆HBM單元的組合搭配,可將原有GPU記憶體從192GB提升至3120GB,容量提升超16倍,這意味著該組合有望支撐參數規模為現有架構16倍的超大AI模型落地部署,大幅突破當前AI模型的參數規模上限。
HBF快閃記憶體的屬性決定了其無法全面替代現有儲存方案,而是與HBM形成互補關係。其核心優勢在於超大容量、低成本、易堆疊擴容,能夠完美適配海量AI模型資料的儲存需求;但同時也存在硬性短板,即NAND快閃記憶體的耐久性有限,通常僅支援約10萬次的寫入和擦除循環,遠低於DRAM近乎無限制的擦寫能力。基於這一屬性,HBF被精準定位為AI推理場景的適配儲存方案——AI推理過程中,模型參數基本保持不變,屬於唯讀工作負載,無需高頻擦寫,能夠最大化發揮HBF的容量優勢,同時規避其耐久性不足的短板;而在AI大模型高頻訓練場景中,由於存在大量資料讀寫操作,HBF無法替代HBM,二者各司其職、互補共生。
當前,全球頭部科技企業已紛紛佈局GPU驅動的儲存架構,其中,輝達作為行業主導者,率先推進GIDS技術落地,計畫依託其Vera Rubin 平台率先推出該技術,牽頭制定GPU直存行業新標準,牢牢把控AI算力架構的話語權。亞馬遜則深度聯合輝達,共同研發GPU直連儲存的底層架構,優先將其落地於雲端AI算力叢集。
除了輝達和亞馬遜,微軟、AMD也在同步跟進同類GPU直存技術路線,佈局自研替代方案,以此制衡輝達的生態壟斷。
在硬體端,三星電子作為核心玩家,採取雙線佈局策略,一方面自研下一代高性能Z-NAND快閃記憶體,另一方面同步開發GIDS技術,實現GPU直接訪問基於Z-NAND的儲存裝置,打造快閃記憶體硬體與架構協議一體化方案,搶佔AI高端快閃記憶體市場。
此外,學術端也提供了有力支撐,韓國延世大學系統半導體工程系教授宋基煥團隊完成了相關理論論證,明確了該架構的能效提升、容量擴容邏輯,為產業落地提供了堅實的技術理論基礎。 (IT前哨站)
