當兆級參數的大模型把傳統計算架構逼到牆角,一場“資料搬運”的戰爭終於爆發了。
最近半導體圈傳出一個重磅消息:輝達和亞馬遜要跳過CPU,讓GPU自己直接控制SSD了。你沒看錯,就是GPU直接跟硬碟“聊天”。這一次,CPU可能要“失業”了。
瓶頸在那裡?
現在的電腦系統,用的是幾十年前定下的那個老規矩。任何資料要跑到GPU裡做計算,都得先經過CPU那張“通行證”,再在DRAM裡住一晚,才能送到GPU。這叫馮·諾依曼架構。
放在以前,這事兒沒啥問題。但AI大模型來了之後,情況就變了。GPU有幾萬個核心在一起幹活,算力強得離譜,但CPU的線程處理能力根本跟不上。你想想看,GPU這個“超級工廠”明明能一分鐘造一萬個零件,結果CPU這個“調度員”一分鐘只能送過來十個,剩下的時間GPU全在乾等著。
這就是今天AI算力最大的絆腳石——“儲存牆”。資料在CPU、DRAM和GPU之間來回搬運,搬來搬去的時間比真正幹活的時間還長。業內有個說法:處理器百分之七十以上的時間都花在等資料上了。效率能高嗎?
怎麼破局?
輝達和亞馬遜這次要做的事,說白了就是讓GPU自己說了算。
他們搞了個新技術叫GIDS,全稱是“GPU發起直接儲存訪問”。聽名字有點繞口,但道理很簡單:GPU不用再求著CPU幫忙了,自己直接給SSD下命令,把需要的資料調過來。CPU這個“中間人”直接被踢出局,連DRAM那個“中轉站”都不用了。
根據輝達的計畫,下一代Vera Rubin AI平台會率先用上GIDS。這個平台本身就不簡單——由七顆晶片組成,GPU首發搭載HBM4視訊記憶體,CPU配了256GB記憶體,一台伺服器造價高達1.8億美元。但即便如此,大模型對資料搬運的需求仍在快速膨脹。GIDS就是在給這條高速公路再砍掉幾個收費站,讓資料直接飛過去。
這個方向其實不是第一次被人想到。微軟在遊戲領域搞的DirectStorage、三星之前探索的Z-NAND,都是類似的思路。但輝達和亞馬遜這次把GPU直連儲存推到了資料中心等級,格局完全不一樣。
容量瓶頸誰來打破?
GIDS解決了資料路徑的問題,但還有一個更現實的問題擺在那裡:GPU的視訊記憶體容量不夠用。
HBM雖然又快又好,但容量有限,價格還貴得離譜。大模型那點參數動不動就幾千億,讓GPU天天從SSD裡搬運,次數多了誰也受不了。
所以業界又搞出了一個新東西叫HBF——高頻寬快閃記憶體。名字很唬人,說白了就是把NAND快閃記憶體按照HBM那種方式堆疊起來。HBM堆的是DRAM,HBF堆的是NAND。第一代HBF預計可以堆16層,總容量512GB,頻寬超過1638GB/s,是PCIe 6.0的50倍。
延世大學宋基煥教授團隊算了一筆帳:6顆HBF搭配2顆HBM,GPU的儲存能從192GB直接拉到3120GB,漲了16倍。這個數字太誇張了。你想想,以前裝不下的模型,現在一塊GPU就能搞定,系統複雜度下降不止一個檔次。
當然HBF也不是萬能的。NAND快閃記憶體寫入次數有限,讀寫延遲比DRAM高。所以目前的思路是把HBF留給推理場景——那些模型參數不怎麼變的活兒,讓HBF來扛;高頻訓練這種需要反覆刷新的,還得HBM上。兩者搭配幹活,分工明確。
這是一場誰都不想輸的競賽
輝達牽頭搞GIDS,亞馬遜第一個在雲端落地。其他巨頭也沒閒著。
微軟和AMD都在搞自研方案,三星則重新撿起了擱置七年的Z-NAND技術,目標是性能比傳統SSD提升15倍,功耗降80%,專門針對AI場景做最佳化。
更值得注意的是SK海力士和閃迪的動作。HBF的研發和標準化處理程序明顯在加快,2026年出樣品,2027年量產,節奏緊湊。一旦HBF鋪開,AI伺服器的儲存格局可能要重新洗牌。
對於普通消費者來說,這些變化可能還很遙遠。但如果你的手機廠商、電腦品牌都用上了這套技術,你會發現AI運行速度飛躍式提升,使用體驗截然不同。
留給CPU的時間不多了
這一輪儲存架構的改變,不是某個廠商的突發奇想,而是被AI算力的需求逼出來的。當資料的搬運成本高過計算成本的時候,搬走那條最堵的路,就成了所有人的共識。
GPU直控SSD,看起來只是換了一條資料通道。但背後牽動的是整個半導體產業——CPU的核心地位被動搖,DRAM的統治地位被挑戰,NAND快閃記憶體有了新的用武之地,甚至連封裝和互連技術都要重新設計。
當老規矩被打破的時候,總有人被淘汰,也總有人冒出來。 (世界半導體技術論壇)
