GPU繞過CPU直控儲存,SSD供應鏈變成AI記憶體供應鏈

Vera Rubin的基礎視訊記憶體配置是192GB HBM4。這個數字已經是H100的兩倍多,業界普遍覺得夠用了。

01 192GB到3120GB,這不是升級,是供應鏈重組

加上6塊HBF之後,這個數字變成3120GB。不是翻倍,是16倍以上。

這組數字是理解整件事的起點。HBF全稱High-Bandwidth Flash,把NAND快閃記憶體做成類似HBM的堆疊封裝結構,單棧容量上限4TB,而HBM目前每棧只有32-64GB。6塊HBF加上2塊HBM的混合配置,讓一塊GPU的可定址記憶體突破3TB大關,進入此前只有伺服器整機才能觸碰的容量規模。

但這件事真正的意思不是"AI晶片記憶體變大了"。

真正的意思是:如果這條路走通,AI記憶體的供應鏈結構將從根本上改變。HBM是三星、SK Hynix、Micron三家寡頭把持的封閉遊戲,製造門檻極高,產能極度緊張,價格對下游幾乎沒有議價空間。誰進得了HBM供應鏈,靠的是多年的封裝工藝積累,不是靠砸錢就能翻盤的。HBF是SanDisk和SK Hynix正在聯合開發的新物種,走的是完全不同的供應鏈路徑——底層是NAND,而NAND的玩家遠不止三家,全球NAND產能比HBM寬裕得多,製造門檻雖然不低,但低於HBM一個數量級。

NVIDIA在Vera Rubin上怎麼選,直接決定了未來兩年誰的訂單飛漲、誰的出貨被擠掉。

現在的答案,比大多數人預期的更複雜,也更有意思。NVIDIA明確表態短期不採用HBF,但同時正在和Kioxia合作開發速度比標準SSD快100倍的PCIe Gen7高速SSD,通過GIDS架構直接掛進GPU的記憶體地址空間。這兩件事放在一起,得出的結論是:NAND已經進入AI記憶體供應鏈,只是進來的形態不是HBF堆疊封裝,而是超高速eSSD。

手裡有NAND顆粒的廠商、做SSD主控的晶片公司、做PCIe Gen7測試的儀器廠商,這些玩家此前不在HBM供應鏈裡,但正在被捲進一條新的AI基礎設施路徑。他們的產品,正在被重新定義價值。

02 Vera Rubin的HBM4供應鏈:三家廠商,一個客戶,格局待定

Vera Rubin這一代全面切換到HBM4,直接跳過HBM3E。這個選擇不只是性能躍升,對供應商格局的衝擊同樣不小。

SK Hynix是三家裡進度最快的,2026年2月就開始向NVIDIA交付HBM4樣品和早期量產批次。從HBM3E到HBM4,SK Hynix一直是NVIDIA最核心的儲存合作夥伴,雙方在封裝工藝、介面協議、訊號完整性測試上的深度協作已經持續多代,不是短期資金砸進去就能複製的關係。供應商繫結的隱性成本,在半導體行業裡往往被低估——換一家供應商不只是換個零件供應方,而是重新做一遍從工藝認證到系統級驗證的全套流程。

Micron於2026年3月宣佈進入HBM4高量產階段,官方資料顯示相比HBM3E,頻寬提升2.3倍,功耗效率提升20%。Micron這組數字說明技術上已經夠格,2.3倍頻寬提升不是小步迭代,是一次有實質意義的代際升級,背後是先進封裝工藝和介面電路設計的雙重最佳化。但技術夠格和拿到大單是兩回事——在Vera Rubin量產爬坡期間,Micron的實際份額仍取決於穩定交貨能力和良率表現,而這些只能在量產過程中驗證,不是發佈會上公佈一組數字就能確認的。

三星的狀況最複雜。截至2026年3月,NVIDIA仍在對三星HBM4的封裝工藝和良率做審計,這意味著三星連進入量產供貨的資格證都還沒拿到。三星在HBM3E階段就因封裝良率問題,錯過了H100和H200的主要供應窗口。H200階段的教訓沒能快速轉化為HBM4階段的交貨能力,這背後是三星在先進封裝方向(尤其是混合鍵合/TC-NCP等工藝)的積累相比SK Hynix的真實差距。

Vera Rubin供應鏈的量產爬坡目標是2026年第三季度。此前遭遇的散熱設計和封裝工程問題,據Digitimes 2026年5月15日的報導,供應鏈各方已確認主要障礙已解除,Q3大規模出貨的預期得到維持。

從這個供應鏈格局推導:SK Hynix穩了,Micron在追趕,三星還在排隊等資格證。每晚一代就少一個出貨窗口,而AI GPU的代際更新速度已經加快到兩年一代以內。

03 KV Cache的飢渴:為什麼192GB已經不夠了

理解NVIDIA為什麼要在Vera Rubin上摺騰儲存架構,需要先把大模型推理時視訊記憶體的實際用法拆清楚。

推理和訓練對記憶體的需求結構完全不同。訓練時,資料批次化處理,模型權重靜態載入,視訊記憶體用量相對可預測,可以通過梯度檢查點、混合精度等方式靈活壓縮。推理時不行——使用者提交的上下文是動態的,每生成一個token,模型都需要快取之前所有token的Key-Value矩陣資料。這個快取叫做KV Cache,是推理過程中不可壓縮的核心中間態。

KV Cache的規模隨上下文長度線性增長,不是小數字。以目前主流的千億參數級模型為例,支撐1M token上下文窗口的單請求KV Cache,可以達到幾十GB到上百GB量級,具體大小取決於模型層數、每層注意力頭數和隱層維度。一個請求本身還算可控,問題在於資料中心同時處理成百上千個並行推理請求,每一個都有自己的KV Cache。

把多個會話的KV Cache同時壓在GPU視訊記憶體裡,192GB不是外界想像中那麼寬裕。很多資料中心營運商在部署H100/H200叢集時,為了保證推理吞吐量,主動把單GPU的並行請求數限制在遠低於理論上限的水平——原因就是視訊記憶體容量撐不住。這個取捨的代價是硬體利用率打折扣,同等叢集規模能支撐的並行使用者數比理論值少很多。

Agentic AI讓這個問題進一步激化。AI Agent需要維持跨任務的長期記憶,多個並行子任務之間要共享上下文狀態,一個複雜的Agent會話積累的上下文可以輕易達到普通問答的數十倍。上下文越長,KV Cache越大,視訊記憶體裡的空間越快被吃完,新的請求就需要等前面的請求釋放資源。這是一個真實的排隊問題,不是理論上的瓶頸。

傳統的解法是增加每張卡的HBM容量,或者把KV Cache分散到更多張卡上平行處理。但增加HBM容量的邊際成本極高,而且物理上限卡在封裝工藝,不能無限堆——HBM棧的數量受限於Package基板面積和熱密度;多卡平行帶來NVLink或Infiniband通訊開銷,超過一定規模之後吞吐量的增益遞減,而且多卡叢集的採購和維運成本是單卡的好幾倍。還有一種方案是KV Cache量化壓縮,把快取資料的精度從FP16降到INT8或更低,可以減少50%到75%的視訊記憶體佔用,但精度損失在長上下文場景下會影響模型輸出質量,不是所有場景都可以接受的取捨。GIDS提供的是第四條路:把外部儲存變成GPU視訊記憶體的容量延伸,讓KV Cache的儲存邊界從HBM的物理上限解耦出來,同時不走多卡通訊的複雜路徑。

04 GIDS:GPU直控儲存的技術路徑拆解

GIDS的核心機制是把儲存IO路徑裡的CPU去掉。

傳統伺服器裡,儲存訪問走的是這條鏈路:GPU發出資料需求,通知CPU,CPU調度儲存控製器,儲存資料先讀入主機側DRAM,再經PCIe DMA傳給GPU視訊記憶體。這條鏈路在普通計算場景下問題不大,但在AI推理的IO密度下,每一個環節都是代價。CPU調度延遲在微秒量級;主機側記憶體的中轉複製消耗額外頻寬和功耗;PCIe來回擺渡的往返開銷在高並行場景下疊加明顯。單次訪問的延遲數字看起來不大,乘以推理叢集裡每秒數以百萬計的IO請求,就是顯著的系統吞吐量損失。

GIDS讓GPU直接向儲存裝置發出IO請求,資料通過PCIe直達GPU的記憶體地址空間,CPU完全退出這條資料路徑。GPU側的驅動和韌體負責管理資料在HBM和外部儲存之間的流動,那些KV Cache資料是"熱的"留在HBM,那些是"溫的"或"冷的"放到外部儲存,調度邏輯完全由GPU側掌握,不經過主機側作業系統的中間層。

這不是從零發明的技術。NVIDIA的GPUDirect Storage已經實現了GPU繞過CPU從NVMe SSD拉資料的基本能力,應用於高性能計算和AI訓練場景。GIDS可以理解為在這個基礎上針對推理KV Cache場景做的專項最佳化:更激進的預取策略(基於模型自注意力訪問模式預判那些Cache會被訪問)、更細粒度的快取熱度分級、更低的調度軟體開銷。

引入GIDS之後,GPU的記憶體層次從兩層變成三層:

第一層是GPU片上SRAM,每卡幾百MB,速度最快,存當前計算的中間態和最熱的權重片段;

第二層是HBM,Vera Rubin標配192GB HBM4,高頻寬低延遲,存活躍請求的KV Cache熱區和當前執行的模型權重;

第三層是外部儲存,eSSD或HBF,大容量,存歷史上下文KV Cache的冷溫區,由GIDS按需拉回第二層。

三層結構的關鍵在於第三層的頻寬和延遲能否在實際推理時序裡被接受。HBM的頻寬是TB/s級,當前PCIe Gen5 NVMe SSD頂配大約12-15GB/s,PCIe Gen7理論翻倍到24-30GB/s範圍。差距還是明顯的,但NVIDIA的工程判斷是:通過足夠激進的預取和平行IO,可以把這個延遲差距大部分隱藏在計算過程裡。這個判斷是否成立,需要在Vera Rubin實際落地後的推理性能測試中驗證。

05 HBF到底是什麼:SanDisk+SK Hynix的NAND封裝賭注

HBF是High-Bandwidth Flash的縮寫,由SanDisk和SK Hynix聯合開發,本質是把NAND顆粒塞進HBM的封裝邏輯裡——多層NAND晶圓垂直堆疊,通過TSV(矽通孔)互連,形成一個介面行為接近HBM但容量遠超HBM的儲存棧。

核心參數對比非常直觀。HBM每棧32-64GB,HBF目標單棧4TB,容量差距是60到125倍。頻寬方向倒過來,HBM遠快於HBF——DRAM的讀寫速度本來就比NAND快一到兩個數量級,封裝形態的改變改變不了底層的物理特性。HBF的頻寬相比傳統NVMe SSD會有顯著提升,因為堆疊封裝後IO路徑更短、平行度更高,但跟HBM比,仍然有數量級的差距。

這個特性決定了HBF的定位。不是去搶HBM的高速計算快取角色,而是以比SSD更高的頻寬和更接近GPU Package的物理位置,承接KV Cache冷溫區的儲存和調取。在三層記憶體架構裡,HBF理論上是比eSSD更好的第三層選項——延遲更低、頻寬更高、物理整合度更好。代價是封裝複雜度大幅上升,量產時間線也隨之推後。

這不是紙上概念。2026年2月,Raja Koduri正式加入SanDisk的HBF技術顧問委員會。Koduri是業界公認的GPU和AI晶片架構大咖,做過AMD Radeon掌門人,後來主導Intel的GPU和AI算力佈局多年。他的出現,意味著HBF在架構設計和生態推進層面正在走向實質性落地,而不只是發白皮書。

HBF第一批工程樣品的出貨節點是2026年下半年,量產則需要更長的爬坡周期。這個時間線註定錯過Vera Rubin這一代的採購窗口。即便HBF樣品一切順利,從樣品到規模量產之間的良率爬坡和供應鏈建設,通常也需要12到18個月,這意味著HBF進入AI伺服器系統的最早可能節點是2027年底到2028年。

目前已確認的重要客戶是Google。Google在資料中心基礎設施上一貫是自己主導規格、定製封裝,自研TPU的採購邏輯跟買現成GPU的雲廠商完全不同。HBF這種需要深度定製封裝設計、非標準形態的方案,和Google"從晶片到機房自己說了算"的風格高度匹配。另外,Meta等自研AI晶片的科技巨頭,在技術能力和需求規模上也滿足早期採用HBF的條件。

NVIDIA不在這個名單裡,至少現在不在。這個判斷本身值得仔細看一遍:不是NVIDIA覺得HBF沒有未來,而是NVIDIA認為在Vera Rubin這代的時間窗口內,eSSD的成熟度和工程可行性遠高於HBF,並且對當前這代產品的推理性能訴求已經足夠。至於下一代或下下代,還未有定論。

06 NVIDIA的真實選擇:拒絕HBF形態,但NAND已經進來了

這裡有一個需要糾正的常見誤讀。

NVIDIA不選HBF,不等於NVIDIA認為NAND在AI記憶體體系裡沒有位置。這兩件事是獨立的判斷,不能混為一談。

NVIDIA的立場是:HBF的頻寬訴求,用eSSD配合GIDS就能滿足;HBF高度定製化的封裝形態會增加不必要的系統整合成本;供應鏈成熟度上,eSSD已經可以量產,HBF還需要等。所以NVIDIA的組合是:HBM4做高速計算快取,高速eSSD配合GIDS做容量擴展層。

具體的合作對像是Kioxia。Kioxia是鎧俠的英文名,即前東芝儲存部門,也是SanDisk日本NAND工廠的合資方,全球頂級NAND製造商之一。NVIDIA和Kioxia聯合開發的PCIe Gen7超高速SSD,目標速度是標準企業級NVMe SSD的100倍,針對AI推理KV Cache訪問模式做了專項韌體和控製器最佳化。

100倍的速度差距是怎麼來的。當前PCIe Gen5 NVMe企業SSD的順序讀寫在12-15GB/s量級,PCIe Gen7介面理論頻寬翻倍,再結合主控的大規模平行佇列管理、針對大塊連續讀的深度預取、面向AI推理訪問模式的韌體最佳化,疊加在一起可以推動有效頻寬數倍於介面頻寬翻倍的幅度。100倍是一個工程目標,不是簡單的介面規格換算,能否真正實現需要Kioxia的主控能力配合NVIDIA的GIDS驅動層一起驗證。

從供應鏈結構看,eSSD路線對NVIDIA有幾個明顯好處:供應鏈今天就存在,不需要等HBF新產線爬坡;多家NAND廠商都有能力提供PCIe Gen7 SSD顆粒,不像HBM那樣高度集中在兩三家;系統整合靈活,資料中心營運商可以按需配置儲存容量,不用在GPU Package層面就鎖死規格。此外eSSD的故障替換更方便——在資料中心裡,一塊eSSD壞了可以熱插拔更換,不像HBM焊死在Package上只能整卡報廢。

但核心結論不因此改變:NAND快閃記憶體已經正式進入AI記憶體體系。不是未來可能,是正在發生。進來的門是eSSD而不是HBF,但NAND供應鏈被捲入這個遊戲是確定的。

做個簡單的推算:一個Vera Rubin GPU配置6塊eSSD,每塊按10TB規格估算,單卡eSSD容量就達60TB。一台8卡伺服器節點是480TB的高速AI SSD配置需求。按照資料中心的採購體量,單個大型雲廠商一輪AI GPU叢集擴張動輒數千到數萬塊GPU,對應的AI SSD需求是數十甚至數百PB量級。這個數字對應到NAND顆粒的消耗量,遠超過消費級SSD市場的日常波動。理解了這個規模,就理解了為什麼Kioxia願意把頂級研發資源投進這個合作裡。這不是小生意,這是NAND產業下一輪增長的新地基。

07 五個可執行判斷:誰受益,誰承壓,誰要重新定價

一、Kioxia是近期最確定的直接受益者,先發繫結的價值被低估。

NVIDIA-Kioxia的PCIe Gen7 AI SSD合作,一旦進入Vera Rubin量產供應鏈,Kioxia就拿到了全球最大AI GPU平台的供應商資質認證。供應鏈裡的繫結關係一旦建立,替換成本極高——工藝認證、韌體相容性測試、良率穩定性驗收,每一步都是時間和工程資源。Kioxia在產能規模上不及三星和SK Hynix,但先發合作夥伴的身份,在這輪AI基礎設施擴張期裡價值不亞於產能規模本身。另外Kioxia所在的日本地區,在地緣政治風險上相比韓國廠商更低,這個隔外因素也在NVIDIA採購決策中佔一定權重。值得注意的是這個窗口有時效:下一代GPU平台的供應商競標會重新開放,三星、SK Hynix的競標能力屆時更強。

二、HBM4的價格上行斜率,可能比市場共識判斷要平緩。

市場的慣性邏輯是:AI伺服器需求爆發,HBM需求猛增,HBM價格飛漲。這條鏈中間多了一個分叉:GIDS+eSSD如果真能把有效記憶體從192GB推高到3000GB以上,每塊GPU對物理HBM棧數的增量訴求就被eSSD部分承接了。SK Hynix和Micron在2026-2027年大幅擴張HBM4產能,如果實際需求增速因為eSSD的分流而低於產能擴張速度,HBM的供需格局可能比現在的共識判斷要寬鬆。這不是說HBM需求會下降,而是說漲價的斜率可能沒那麼陡,訂閱了"HBM一定繼續飛漲"這個判斷的人需要加入新變數。

三、PCIe Gen7 SSD會提前撬動主控和測試裝置的訂單。

速度百倍於標準SSD的要求,對SSD控製器晶片是跨代升級。Marvell、Phison、Innogrit都需要響應,其中Marvell在資料中心SSD主控上佈局最早,AI推理場景的需求訊號傳導上佔優勢。另一個先行指標是測試儀器訂單:Keysight、Tektronix這類PCIe Gen7測試裝置廠商,往往比儲存量產提前半年到一年感受到技術切換帶來的詢價,跟蹤這類公司的AI測試產品訂單動態,能早一步判斷產業鏈切換節奏。

四、HBF的真正量產窗口在2027年以後,現在押注要算清楚時間成本。

Google鎖定、Raja Koduri出山,這兩個訊號說明HBF不是空氣。但從工程樣品到量產,NAND封裝新形態的認證周期通常在12到18個月,HBF的真正量產窗口落在2027年底到2028年。現在重倉押注HBF供應鏈,是在用2026年的溢價賭2028年的需求落地,時間成本不划算。如果投資周期在兩年以上,現在開始密切跟蹤SanDisk(WD)和SK Hynix在HBF工程進展上的披露,是值得做的訊號收集工作。

五、中國儲存廠商在AI eSSD這裡比HBM那裡門檻低,但入場券還沒拿到。

HBM的入場壁壘是綜合性的:先進混合鍵合封裝工藝、與GPU Package的協同設計規範、多代供應商深度繫結,這些壁壘疊加在一起讓中國廠商短期幾乎沒有切入可能。AI eSSD不同:核心競爭要素是NAND顆粒的寫入速度、耐久性(TBW指標)、低延遲隨機讀特性,以及SSD主控的AI訪問模式最佳化能力。長江儲存的3D NAND顆粒性能在消費級場景已經具備競爭力,但AI推理對顆粒的混合讀寫耐久度和超低延遲的要求,比消費級嚴苛許多。這個差距是真實存在的,但不是不可追趕的數量級差距。誰能率先把顆粒性能和SSD主控能力拉到AI推理場景的基準線以上,就能拿到這個新供應鏈的第一張入場券——現在這張券還沒人拿到,但門還開著。

NAND進入AI記憶體供應鏈,這件事不等NVIDIA選不選HBF。它已經通過eSSD這扇門發生了。今天做NAND顆粒、SSD主控、PCIe儲存介面的供應商,要開始認真對待AI推理這個新需求方。把AI伺服器的儲存需求繼續當成傳統企業SSD來看,會漏掉整件事裡最值錢的那個判斷。所謂SSD供應鏈突然變成AI記憶體供應鏈,不是比喻,是正在發生的供應鏈遷移,只是入場券的價格和門檻,行業裡大多數人還沒來得及重新定價。 (閒芯)