#HBF
HBF or HBM?高頻寬快閃記憶體(HBF)更適合AI推理!
這張圖介紹了HBF(高頻寬快閃記憶體)在 AI 推理伺服器中的應用價值:AI工作負載的內存需求可以分為模型參數讀取和KV 快取讀寫兩類:1. 模型參數讀取(Weight Streaming,權重流)訪問模式:大粒度順序讀取。頻寬需求:需支撐GB/s~TB/s 級頻寬,對 “高頻寬” 特性高度依賴。部署優勢:若 HBF 靠近計算核心部署,大容量特性可顯著提升權重讀取效率。2. KV 快取讀寫(KV Cache Read/Write)訪問模式:快取級隨機訪問,對延遲極度敏感。操作特性:生成每個token時都會觸發寫操作;且 KV 快取的大小會隨上下文長度和注意力頭數量線性擴展。HBF 為何不適用訓練場景?訓練場景的記憶體需求與 HBF 的技術侷限存在根本衝突:訪問模式:寫密集型,伴隨持續的梯度更新、最佳化器狀態修改,且存在頻繁細粒度讀寫。介質侷限:HBF 基於快閃記憶體技術,受限於兩個核心短板 ——耐用性:快閃記憶體的擦寫次數有上限,寫密集的訓練會快速耗盡其生命周期;延遲:快閃記憶體的讀寫延遲遠高於 DRAM,無法滿足訓練對低延遲的嚴苛要求。HBF為何適配推理場景?可從三方面理解:特性匹配:HBF 具備大容量、低成本、高密度的優勢,完美適配推理伺服器對 “儲存規模” 和 “成本效率” 的需求。工作負載契合:推理中的 “權重流” 任務是大粒度順序讀取,與 HBF 的頻寬優勢完全匹配。場景區分:訓練是 “寫密集型” 工作負載,會突破 HBF 的耐用性和延遲上限;而推理的讀寫模式更溫和,可充分發揮 HBF 的潛力。HBF取代HBM會發生什麼?假設HBF完全取代了HBM作為GPU的主記憶體。其優勢在於:每GPU多TB記憶體容量使非常大型模型能夠局部安裝在每個加速器上對於頻寬密集型權重流且預取能力強,高效高效但也具有很明顯的侷限性:KV快取作延遲不足隨機訪問性能仍不及 HBM培訓和混合工作量不切實際不支援通用GPU使用場景因此HBF僅適用於具有固定作模式的專用推理加速器,無法作為通用GPU中HBM的替代。HBM + HBF混合GPU記憶體最好!HBM仍然是主要的低延遲記憶體,而HBF則作為高容量讀取最佳化層加入。HBM→KV 快取、熱啟動、中間張量HBF→模型參數、冷啟動通過 HBM 維護低延遲計算流水線,減少對 HBM 的依賴和成本,還相容當前的GPU設計和軟體棧,缺點是包設計複雜度增加,且需要關注功耗與熱量問題。 (銳芯聞)
HBF要取代HBM?
被譽為“高頻寬記憶體 (HBM) 之父”的韓國科學技術院 金正浩教授 最近在 YouTube 節目中發表了一番驚人的言論:“在人工智慧時代,權力平衡正在發生轉變——從 GPU 轉向記憶體。”高頻寬快閃記憶體 (HBF)是一種結合 3D NAND 快閃記憶體高密度與 HBM 高頻寬特性的創新儲存技術,通過垂直堆疊多層 NAND 晶片並利用矽通孔 (TSV) 技術實現層間互聯,為 AI 推理提供前所未有的大容量、高頻寬儲存解決方案。其核心原理是採用與 HBM 類似的堆疊架構 (8-16 層),但使用 NAND 快閃記憶體替代 DRAM,通過 TSV 和微凸點連接各層,將邏輯晶片與儲存陣列鍵合,支援平行訪問多個 NAND 子陣列,大幅提升頻寬和吞吐量。HBF vs HBM 核心差異點HBM:速度擔當,適合 AI 訓練等高即時性場景HBF:容量擔當,專為 AI 推理設計,可儲存完整大模型因此HBF 可以解決幾個核心痛點:當前 AI 推理中,GPU 有60-70% 時間處於等待記憶體狀態;大型模型 (如 1.8T 參數的 LLM) 無法完整裝入傳統 HBM,需頻繁從硬碟載入,嚴重拖慢推理速度。查詢到的幾個實測案例給大家分享一下:使用 HBF 運行 LLaMA 3.1 (405B 參數) 時,性能僅比理想 HBM 方案低 2.2%.單 GPU 搭配 8 個 HBF 堆疊可提供4TB 儲存空間,是純 HBM 方案的 20 倍 +完全容納1.8T 參數的前沿 LLM 模型,實現 "單卡即推理"具體到應用場景,比如:大型語言模型推理:支援超長上下文窗口,無需分片載入多模態 AI:處理圖像、視訊等大容量資料邊緣 AI:自動駕駛、智能終端、IoT 裝置,提供高容量低功耗方案AI 訓練中的檢查點儲存:大幅縮短模型恢復時間當前佈局的廠商:SanDisk 與 SK 海力士聯盟,2025 年 8 月簽署MoU,共同制定 HBF 技術規範並推動標準化,目前預估:2026 年下半年:首批 HBF 記憶體樣品2027 年初:首批搭載 HBF 的 AI 推理裝置SK 海力士已在 2025 年 OCP 峰會推出 **"AIN 系列"**,其中 AIN B 系列採用 HBF 技術三星電子的佈局已啟動自主 HBF 產品的早期概念設計,計畫利用在高性能儲存領域的研發經驗,滿足資料中心需求。其他廠商鎧俠 (Kioxia) 已開發出5TB 容量、64GB/s 頻寬的 HBF 原型;美光等儲存巨頭也在密切關注 HBF 技術發展。金正浩作為 HBM 技術發明人,分享了他在 YouTube 節目中提出震撼觀點,給大家分享一下:權力轉移論:"AI 時代,權力正從 GPU 轉向記憶體"記憶體已成為 AI 性能的決定性瓶頸,而非 GPU 算力;未來 AI 架構將圍繞記憶體建構,而非傳統的 CPU/GPU 中心模式。HBF 取代 HBM 論:"HBM 時代即將結束,HBF 時代即將到來"儘管 NAND 比 DRAM 慢,但提供10 倍 + 容量,對大規模 AI 模型至關重要;2027-2028 年將是 HBF正式商業化的爆發期;HBF 將與 HBM 形成互補架構:HBM 負責高速計算,HBF 提供海量儲存輝達收購論:"輝達可能收購一家記憶體公司"潛在目標:SanDisk (閃迪)、美光等儲存廠商,目標當然是為了掌控 HBF 等記憶體核心技術,擺脫對韓企的依賴另外金正浩教授描繪了未來 AI 儲存的四層架構:SRAM (桌面筆記本):GPU 內部,速度最快但容量最小HBM (書架):提供高速訪問和計算HBF (地下圖書館):儲存 AI 模型的 "深層知識",持續向 HBM 提供資料雲端儲存 (公共圖書館):通過光纖連接各資料中心HBF 將成為 AI 推理的標準配置,大幅降低大模型部署門檻解決當前 "記憶體牆" 問題,使 AI 應用突破容量限制,實現更複雜的推理預計到 2027 年,HBF 將引爆兆級新賽道,重塑儲存和 AI 產業格局HBF 技術代表了 AI 儲存領域的重大突破,它不是要完全取代 HBM,而是與 HBM 形成 容量 + 速度 的黃金組合隨著 2026-2027 年 HBF 技術正式落地,我們將見證 AI 推理性能的又一次飛躍,以及儲存在 AI 系統中地位的根本性提升 —— 正如金正浩教授所言:"在人工智慧時代,記憶體正在成為新的王者。" (IT前哨站)