一場儲存革命突然打響！輝達聯手亞馬遜，直接把CPU“踢”出AI算力賽道

2026/05/24

•

當兆級參數的大模型把傳統計算架構逼到牆角，一場“資料搬運”的戰爭終於爆發了。

最近半導體圈傳出一個重磅消息：輝達和亞馬遜要跳過CPU，讓GPU自己直接控制SSD了。你沒看錯，就是GPU直接跟硬碟“聊天”。這一次，CPU可能要“失業”了。

瓶頸在那裡？

現在的電腦系統，用的是幾十年前定下的那個老規矩。任何資料要跑到GPU裡做計算，都得先經過CPU那張“通行證”，再在DRAM裡住一晚，才能送到GPU。這叫馮·諾依曼架構。

放在以前，這事兒沒啥問題。但AI大模型來了之後，情況就變了。GPU有幾萬個核心在一起幹活，算力強得離譜，但CPU的線程處理能力根本跟不上。你想想看，GPU這個“超級工廠”明明能一分鐘造一萬個零件，結果CPU這個“調度員”一分鐘只能送過來十個，剩下的時間GPU全在乾等著。

這就是今天AI算力最大的絆腳石——“儲存牆”。資料在CPU、DRAM和GPU之間來回搬運，搬來搬去的時間比真正幹活的時間還長。業內有個說法：處理器百分之七十以上的時間都花在等資料上了。效率能高嗎？

怎麼破局？

輝達和亞馬遜這次要做的事，說白了就是讓GPU自己說了算。

他們搞了個新技術叫GIDS，全稱是“GPU發起直接儲存訪問”。聽名字有點繞口，但道理很簡單：GPU不用再求著CPU幫忙了，自己直接給SSD下命令，把需要的資料調過來。CPU這個“中間人”直接被踢出局，連DRAM那個“中轉站”都不用了。

根據輝達的計畫，下一代Vera Rubin AI平台會率先用上GIDS。這個平台本身就不簡單——由七顆晶片組成，GPU首發搭載HBM4視訊記憶體，CPU配了256GB記憶體，一台伺服器造價高達1.8億美元。但即便如此，大模型對資料搬運的需求仍在快速膨脹。GIDS就是在給這條高速公路再砍掉幾個收費站，讓資料直接飛過去。

這個方向其實不是第一次被人想到。微軟在遊戲領域搞的DirectStorage、三星之前探索的Z-NAND，都是類似的思路。但輝達和亞馬遜這次把GPU直連儲存推到了資料中心等級，格局完全不一樣。

容量瓶頸誰來打破？

GIDS解決了資料路徑的問題，但還有一個更現實的問題擺在那裡：GPU的視訊記憶體容量不夠用。

HBM雖然又快又好，但容量有限，價格還貴得離譜。大模型那點參數動不動就幾千億，讓GPU天天從SSD裡搬運，次數多了誰也受不了。

所以業界又搞出了一個新東西叫HBF——高頻寬快閃記憶體。名字很唬人，說白了就是把NAND快閃記憶體按照HBM那種方式堆疊起來。HBM堆的是DRAM，HBF堆的是NAND。第一代HBF預計可以堆16層，總容量512GB，頻寬超過1638GB/s，是PCIe 6.0的50倍。

延世大學宋基煥教授團隊算了一筆帳：6顆HBF搭配2顆HBM，GPU的儲存能從192GB直接拉到3120GB，漲了16倍。這個數字太誇張了。你想想，以前裝不下的模型，現在一塊GPU就能搞定，系統複雜度下降不止一個檔次。

當然HBF也不是萬能的。NAND快閃記憶體寫入次數有限，讀寫延遲比DRAM高。所以目前的思路是把HBF留給推理場景——那些模型參數不怎麼變的活兒，讓HBF來扛；高頻訓練這種需要反覆刷新的，還得HBM上。兩者搭配幹活，分工明確。

這是一場誰都不想輸的競賽

輝達牽頭搞GIDS，亞馬遜第一個在雲端落地。其他巨頭也沒閒著。

微軟和AMD都在搞自研方案，三星則重新撿起了擱置七年的Z-NAND技術，目標是性能比傳統SSD提升15倍，功耗降80%，專門針對AI場景做最佳化。

更值得注意的是SK海力士和閃迪的動作。HBF的研發和標準化處理程序明顯在加快，2026年出樣品，2027年量產，節奏緊湊。一旦HBF鋪開，AI伺服器的儲存格局可能要重新洗牌。

對於普通消費者來說，這些變化可能還很遙遠。但如果你的手機廠商、電腦品牌都用上了這套技術，你會發現AI運行速度飛躍式提升，使用體驗截然不同。

留給CPU的時間不多了

這一輪儲存架構的改變，不是某個廠商的突發奇想，而是被AI算力的需求逼出來的。當資料的搬運成本高過計算成本的時候，搬走那條最堵的路，就成了所有人的共識。

GPU直控SSD，看起來只是換了一條資料通道。但背後牽動的是整個半導體產業——CPU的核心地位被動搖，DRAM的統治地位被挑戰，NAND快閃記憶體有了新的用武之地，甚至連封裝和互連技術都要重新設計。

當老規矩被打破的時候，總有人被淘汰，也總有人冒出來。 (世界半導體技術論壇)