#快閃記憶體
儲存還要繼續瘋!輝達ICMSP讓快閃記憶體漲停,黃仁勳要一統儲存處理器
輝達推出全新推理上下文(Inference Context)記憶體儲存平台(ICMSP),通過將推理上下文解除安裝(Offload)至NVMe SSD的流程標準化,解決KV快取容量日益緊張的問題。該平台於 2026 年國際消費電子展(CES 2026)正式發佈,致力於將GPU的KV快取(Key-Value Cache)擴展至基於 NVMe 的儲存裝置,並獲得輝達 NVMe 儲存合作夥伴的支援。此消息一出,引爆的是本就漲到高不可攀的儲存廠商股價,多家儲存廠商和快閃記憶體控製器廠商股價直接漲停,快閃記憶體極有可能步DRAM後塵成為AI基建帶動下第二波緊俏儲存器,儲存價格特別是快閃記憶體價格在2026年可能成為儲存產品整體價格繼續飆漲的第二輪推動力。從某個角度考慮,ICMSP的推出,讓GPU晶片可以降低對大容量HBM產品的嚴重依賴,同時也讓AMD同步發佈的Helios機架平台變得有些“過時”,因為輝達已經邁向了存算結合的新階段。不過相比這些,黃仁勳在解答分析師問題時更是直言“我們現在是全球最大的網路公司。我預計我們還將成為全球最大的儲存處理器公司”,通過不斷收購儲存技術,輝達致力於在AI算力體系架構中,擁有更多的話語權。從這點來看,ICMSP將成為輝達在AI走向千行百業的工程化過程中主導的技術之一。認識一下ICMSP在大型語言模型推理過程中,KV快取用於儲存上下文資料 —— 即模型處理輸入時,表徵令牌間關係的鍵(keys)和值(values)。隨著推理推進,新令牌參數不斷生成,上下文資料量持續增長,往往會超出 GPU 的可用記憶體。當早期快取條目被淘汰後又需重新呼叫時,必須重新計算,這會增加延遲。智能體 AI(Agentic AI)和長上下文工作負載進一步加劇了這一問題,因為它們需要保留更多上下文資料。而 ICMSP 通過將 NVMe 儲存上的 KV 快取納入上下文記憶體地址空間,並支援跨推理任務持久化儲存,有效緩解了這一困境。輝達創始人兼CEO黃仁勳表示:“人工智慧正在徹底變革整個計算架構 —— 如今,這場變革已延伸至儲存領域。人工智慧不再侷限於一次性互動的聊天機器人,而是能理解物理世界、進行長周期推理、立足事實、借助工具完成實際工作,並具備短期和長期記憶的智能協作夥伴。借助BlueField-4,輝達與軟硬體合作夥伴正為人工智慧的下一個前沿領域重塑儲存架構。” 他在CES演講中提到,通過BlueField-4,機櫃中可直接部署KV快取上下文記憶體儲存。隨著 AI 模型規模擴展至兆參數等級,且支援多步驟推理,其生成的上下文資料量極為龐大,同時運行的此類模型數量也在不斷增加。KV 快取軟體(即 ICMSP)需適配GPU、GPU 伺服器及 GPU 機櫃叢集,這些裝置可能同時處理多種不同的推理工作負載。每個模型 / 智能體工作負載的參數集都需妥善管理,並能精準對接運行在特定 GPU 上的目標AI模型或智能體 —— 且這種對應關係可能隨任務調度動態變化。這意味著需要專門的 KV 快取上下文中繼資料管理機制。基於NVMe的KV快取儲存需實現跨層級相容,涵蓋 GPU、GPU 伺服器、GPU 機櫃乃至多機櫃叢集。輝達表示,ICMSP 不僅提升了 KV 快取容量,還加速了機櫃級 AI 系統叢集間的上下文共享。多輪互動 AI 智能體的持久化上下文特性,提高了響應速度,提升了 AI 工廠的吞吐量,並支援長上下文、多智能體推理的高效擴展。圖1 基於 NVMe 的 KV 快取儲存需實現跨層級相容,覆蓋GPU、GPU 伺服器、GPU機櫃乃至GPU機櫃叢集ICMSP 依賴Rubin GPU叢集級快取容量,以及輝達即將推出的BlueField-4資料處理器(DPU)—— 該處理器整合Grace CPU,吞吐量高達 800 Gbps。BlueField-4 將提供硬體加速的快取部署管理功能,消除中繼資料開銷,減少資料遷移,並確保GPU節點的安全隔離訪問。輝達的軟體產品(包括DOCA框架、Dynamo KV快取解除安裝引擎及其內建的 NIXL(輝達推理傳輸庫)軟體實現了 AI 節點間 KV 快取的智能加速共享。儲存架構必須重構,在這個過程中,上下文成為新瓶頸,主要體現在模型規模持續擴大、上下文(Context)長度不斷增加、多輪對話導致上下文(Context)累積以及並行使用者與會話數量增多等方面。圖2 黃仁勳在 CES 2026 展示的上下文瓶頸幻燈片Dynamo支援跨記憶體和儲存層級的協同工作,覆蓋GPU的高頻寬記憶體(HBM)、GPU 伺服器 CPU 的動態隨機存取儲存器(DRAM)、直連 NVMe SSD 及網路附加儲存。此外,還需搭配輝達Spectrum-X乙太網路,為基於RDMA的AI原生KV快取訪問提供高性能網路架構。輝達稱,ICMSP的能效將比傳統儲存提升5倍,令牌每秒處理量最高可提升5倍。圖3 黃仁勳在 CES 2026 展示的推理上下文記憶體儲存平台幻燈片行業反饋鑑於輝達在AI算力架構方面擁有絕對的話語權,ICMSP的推出必定會得到一眾合作夥伴的鼎力支援,以免錯失商機。輝達列出了眾多將通過BlueField-4支援ICMSP的儲存合作夥伴,BlueField-4 將於 2026 年下半年正式上市。首批合作夥伴包括 AIC、Cloudian、DDN、戴爾科技、HPE、日立資料系統、IBM、Nutanix、Pure Storage、超微(Supermicro)、VAST Data 和 WEKA。預計 NetApp、聯想(Lenovo)和 Hammerspace 也將後續加入。將KV快取解除安裝或擴展至NVMe SSD的架構理念,其實已有廠商率先實踐 —— 例如 Hammerspace的零級儲存技術(Tier zero tech)、VAST Data的開放原始碼軟體VAST Undivided Attention(VUA),以及WEKA的增強記憶體網格(Augmented Memory Grid)。戴爾也通過在PowerScale、ObjectScale和閃電計畫(Project Lightning,私人預覽版)儲存產品中整合LMCache和NIXL等技術,實現了KV快取解除安裝功能。這些均為基於BlueField-3的解決方案。如今,輝達旨在為所有儲存合作夥伴提供標準化的KV快取記憶體擴展框架。戴爾、IBM、VAST Data和WEKA已明確表示將支援 ICMSP。WEKA在題為《上下文時代已然來臨》的部落格中,詳細闡述了支援該平台的實施方案及核心原因,指出ICMSP是 “一類新型 AI 原生基礎設施,將推理上下文視為一級平台資源。這一架構方向與WEKA的增強記憶體網格高度契合,後者通過擴展 GPU 記憶體,實現了大規模、無限量、高速、高效且可復用的上下文儲存。”WEKA產品行銷副總裁Jim Sherhart表示:“為上下文資料套用為長期儲存資料設計的重量級持久性、複製和中繼資料服務,會產生不必要的開銷 —— 導致延遲增加、功耗上升,同時降低推理經濟性。”“推理上下文固然需要適當的管控,但它的特性與企業級資料不同,不應強行套用企業級儲存語義。傳統協議和資料服務帶來的開銷(如中繼資料路徑、小 I/O 放大、默認的持久性 / 複製機制、在錯誤層級施加的多租戶控制),可能將‘高速上下文’降級為‘低速儲存’。當上下文對性能至關重要且需頻繁複用的情況下,這種開銷會直接體現為尾部延遲增加、吞吐量下降和效率降低。”VAST Data 表示,其儲存/AI作業系統將運行在BlueField-4處理器上,“打破傳統儲存層級界限,提供機櫃級共享KV快取,為長上下文、多輪對話和多智能體推理提供確定性訪問性能。”VAST 全球技術合作副總裁John Mao稱:“推理正逐漸成為一個記憶體系統,而非單純的計算任務。未來的贏家不會是擁有最多原始計算資源的叢集,而是那些能以線速遷移、共享和管控上下文的叢集。連續性已成為新的性能前沿。如果上下文無法按需獲取,GPU 將陷入閒置,整個系統的經濟性將徹底崩塌。通過在輝達 BlueField-4 上運行 VAST AI 作業系統,我們正將上下文轉化為共享基礎設施 —— 默認高速、按需提供策略驅動管控,並能隨著智能體 AI 的規模擴展保持性能穩定性。”關於ICSMP,黃仁勳在CES 2026後答分析師會議上做了更多詳細的說明,其中最驚人的是黃仁勳表態希望未來輝達成為最大的儲存處理器公司,從而掌握更巨量資料話語權。Aaron Rakers- 富國銀行證券有限責任公司研究部:目前供應鏈面臨著諸多動態變化,比如 DRAM 價格、供應可用性等問題。我想瞭解你們對供應鏈的看法。黃仁勳(Jen-Hsun Huang:我們的供應鏈涵蓋了上游和下游。我們的優勢在於,由於我們的規模已經非常龐大,而且在如此大的規模下仍然保持快速增長,我們很早就開始為合作夥伴準備應對這種大規模的產能擴張。過去兩年,大家一直在和我討論供應鏈問題 —— 這是因為我們的供應鏈規模巨大,而且增長速度驚人。每個季度,我們的增長規模都相當於一家完整的公司,這還只是增量部分。我們每季度都在新增一家大型上市公司的規模。因此,我們在 MGX(機架級產品)方面所做的所有供應鏈最佳化工作。我們之所以如此注重元件標準化、避免生態系統和供應鏈資源浪費、並為合作夥伴提供大量投資(包括預付款支援),就是為了幫助他們擴大產能。我們談論的不是數百億美元,而是數千億美元的投入,以幫助供應鏈做好準備。因此,我認為我們目前的供應鏈狀況非常良好,這得益於我們與合作夥伴長期穩定的合作關係。而且,大家應該知道,我們是全球唯一一家直接採購 DRAM 的晶片公司。仔細想想,我們是全球唯一一家直接採購DRAM的晶片公司。有人問我們為什麼要這麼做?因為事實證明,將DRAM整合為CoWoS(晶圓級系統整合)並打造超級電腦的難度極大。而建立這樣的供應鏈體系,給了我們巨大的競爭優勢。現在市場環境雖然嚴峻,但我們很幸運擁有這樣的技術能力。說到功耗,看看我們的上游合作夥伴 —— 系統製造商、記憶體供應商、多層陶瓷電容器(MLCC)供應商、印刷電路板(PCB)供應商等,我們與他們都保持著緊密的合作。James Schneider- 高盛集團研究部:我想瞭解一下你們今天宣佈的上下文(Context)記憶體儲存控制技術。它在各類應用場景中的重要性如何?您是否認為它會成為某些特定客戶問題的性能瓶頸?我們是否可以期待你們在這個方向上繼續創新,就像你們過去在網路領域所做的那樣?黃仁勳(Jen-Hsun Huang):我們現在是全球最大的網路公司。我預計我們還將成為全球最大的儲存處理器公司,而且很可能我們的高端 CPU 出貨量也將超過其他任何公司。原因在於,Vera 和 Grace(以及 Vera 相關產品)已經應用於每個節點的智能網路介面卡(SmartNIC)中。我們現在是 AI 工廠的智能網路介面卡提供商。當然,很多雲服務提供商都有自己的智能網路介面卡(如亞馬遜的 Nitro),他們會繼續使用。但在外部市場,BlueField 系列產品取得了巨大的成功,而且 BlueField-4 將會表現更加出色。BlueField-4 的採用率(不僅僅是早期採用)正在快速增長。其上層的軟體層名為 DOCA(發音與 CUDA 相近),現在已經被廣泛採用。因此,在高性能網路的東西向流量(east-west traffic)方面,我們是市場領導者。在網路隔離的南北向流量(north-south networking)方面,我非常有信心我們也將成為市場領導者之一。而儲存領域目前是一個完全未被充分服務的市場。傳統的儲存基於 SQL 結構化資料,結構化資料庫相對輕量化。而 AI 資料庫的鍵值快取(KV caches)則極其龐大,你不可能將其掛在南北向網路上 —— 這會造成網路流量的巨大浪費。你需要將其直接整合到計算架構中,這就是我們推出這一新層級儲存技術的原因。這是一個全新的市場,很可能會成為全球最大的儲存市場 —— 它將承載全球 AI 的工作記憶體。這種儲存的規模將是巨大的,而且需要極高的性能。我非常高興的是,目前人們進行的推理工作負載已經超出了全球現有基礎設施的計算能力。因此,我們現在處理的上下文(Context)記憶體、令牌記憶體和鍵值快取的規模已經非常龐大,傳統的儲存系統已經無法滿足需求。當市場出現這種拐點,而你又有遠見能夠預見它的到來時,這就是進入一個新市場的最佳時機。而 BlueField-4 在這一領域具有絕對的競爭優勢,沒有任何產品能與之匹敵。Ken Chui- Robocap:我的問題同時涉及利潤率和技術。你們目前已經擁有 CPX 技術,通過收購 Grok,你們還獲得了可用於推理的 SRAM 技術。此外,你們的團隊一個月前發表了一篇論文,討論如何在 GPU 中使用 CPX 技術,從而減少對 HBM 的依賴 —— 因為可以用 GDDR7 替代 HBM。我們都知道 HBM 的成本非常高。因此,未來通過結合 Grok 的技術和你們內部的 CPX 技術,你們對 HBM 的使用會有何變化?這是否能更好地控制 HBM 的使用成本,從而對利潤率產生積極影響?黃仁勳(Jen-Hsun Huang):當然。我可以先描述一下這些技術各自的優勢,然後再談談面臨的挑戰。例如,CPX 在每美元預填充性能(prefill per dollar)方面比普通的 Rubin 更有優勢 ——Rubin CPX 的每美元預填充性能高於普通版 Rubin。如果將所有資料都儲存在 SRAM 中,那麼當然不需要 HBM 記憶體。但問題是,SRAM 能夠支援的模型規模比 HBM 小 100 倍左右。不過,對於某些工作負載來說,SRAM 的速度要比 HBM 快得多,因此性能會極其出色。因此,我認為它在預填充(prefill)和解碼(decode)等場景中會有明顯優勢。但問題在於,工作負載的形態一直在變化 —— 有時是混合專家模型(MOE),有時是多模態模型,有時是擴散模型(diffusion models),有時是自回歸模型(auto regressive models),有時是狀態空間模型(SSMs)。這些模型的形態和規模各不相同,對 NVLink、HBM 記憶體或其他元件的壓力也會不斷變化。因此,我的觀點是,由於工作負載變化如此之快,而且全球的創新速度也在加快,輝達之所以能夠成為通用解決方案,正是因為我們的靈活性。大家明白我的意思嗎?如果你的工作負載從早到晚都在變化,而且客戶需求各不相同,那麼我們的產品具有很強的通用性,幾乎適用於所有場景。你可能能夠針對某一種特定工作負載進行極致最佳化,但如果這種工作負載只佔總負載的 10%、5% 甚至 12%,那麼當它不被使用時,這部分資料中心資源就被浪費了 —— 而你只有 1 吉瓦的電力資源。關鍵在於,你不能把資料中心看作是擁有無限資金和空間的資源,而是要在有限的電力下實現整體利用率的最大化。架構越靈活,整體效益就越好。如果採用統一的架構 —— 例如,當我們更新 DeepSeek 模型時,資料中心內所有 GPU 的性能都會立即提升;當我們更新通義千問(Qwen)模型的庫時,整個資料中心的性能都會提升 —— 這樣的協同效應是非常顯著的。但如果你有 17 種不同的架構,每種架構只適用於特定場景,那麼整體的總擁有成本(TCO)反而會更高。這就是面臨的挑戰。即使在我們研發這些技術時,也非常清楚這一點 —— 這非常困難。 (EEPW)
3D NAND,靠它了
邊緣和雲端不斷增長的儲存需求,推動了多種應用對更高容量快閃記憶體的需求不斷增長。3D NAND快閃記憶體每12到18個月推出一次,其更新換代速度和性能提升幅度遠超大多數其他半導體器件。每一代新產品都能帶來50%更快的讀寫速度、40%更高的位密度、更低的延遲和更高的能效。3D快閃記憶體製造商通過堆疊和連接儲存單元,利用微小而深的通道,維持著如此驚人的生產速度。這些通道隨著每一代產品的推出而變得更小更深。一項突破性的低溫蝕刻技術,能夠在僅100奈米的開口下,鑽出數十億個深度達10微米的通道孔,且孔徑近乎垂直。在這樣一個重視能源效率和可持續性的行業中,這些創新的蝕刻工具旨在將能耗降低至以往低溫解決方案的一半,同時減少80%以上的碳排放。對於NAND快閃記憶體的蝕刻工藝而言,關鍵挑戰在於如何在保持合理蝕刻速率的同時,確保通道從上到下的垂直輪廓。建模在最佳化工藝配方方面發揮著越來越重要的作用,以確保垂直輪廓的一致性,避免關鍵尺寸偏差、彎曲以及儲存器孔內部的形狀畸變。即使只有少量資料,人工智慧也能幫助最佳化這些特徵的輪廓。這些儲存器輪廓之所以如此關鍵,是因為它們的均勻性直接關係到NAND快閃記憶體的性能,而性能的衡量指標是讀寫速度和程式設計/擦除效率。3D NAND晶片的主要生產商包括三星電子、西部資料、東芝旗下的鎧俠(Kioxa)、SK海力士等。通過堆疊更多更薄的二氧化矽和氮化矽交替層(ON),他們能夠在每一代器件中增加30%的字線數量。然後,利用深反應離子刻蝕(DRIE)技術在晶片上刻蝕出數十億個高縱橫比的圓柱體(深度與寬度之比超過50:1)。DRIE反應器優先將離子垂直導向,從而實現用於深溝槽隔離、矽通孔、MEMS腔體和其他垂直結構的平行結構。在NAND快閃記憶體中,即使這些特徵的原子級偏差極其微小,也會降低器件的電性能,導致良率和性能下降,並可能影響其可靠性。在深度為 10 微米、直徑為 100 奈米的孔中,允許的輪廓偏差僅為 10 奈米。“因此,如果您將 10 奈米的輪廓偏差視為深度的函數,那麼這小於 0.1% 的輪廓偏差,這確實令人印象深刻,” Lam Research全球蝕刻產品公司副總裁 Tae Won Kim 表示。3D NAND 如何擴展?3D NAND 晶片製造商利用三種關鍵方法擴展其器件(見圖 1)。快閃記憶體單元可以更緊密地排列(x 和 y 方向擴展),或者使用垂直連接進行堆疊。自 2014 年左右業界從 2D NAND 過渡到 3D NAND 以來,快閃記憶體製造商主要採用垂直方向的建構方式,同時將邏輯電路放置在儲存陣列下方,以進一步縮小尺寸(稱為晶片陣列下,或 CUA)。晶片製造商還在不增加面積的情況下增加每個單元的位數,從單位元擴展到每個單元 4 位元(四層單元)及更高,這增加了電壓狀態的數量。圖 1:NAND 快閃記憶體通過減小單元間距和尺寸、堆疊字線以及增加每個單元的位數來實現規模化我們是如何走到這一步的?NAND晶片製造商之間的競爭異常激烈,他們都力求在每個製造步驟中實現卓越的均勻性和重複性。這裡展示的是儲存器空穴通道蝕刻。其他重要的NAND高深寬比蝕刻工藝包括:狹縫:蝕刻區域,用於隔離字線,確保正常的電氣功能;多層觸點:連接不同金屬布線層的孔,以及樓梯:用於訪問每一層中的文字行的連接(見圖 2)。垂直通道蝕刻工藝完成後,氧化層、陷阱層和多晶矽通道會沿著孔的側壁沉積。這種結構通常被稱為“通心粉狀通道”。圖 2:三維 NAND 門環繞式架構示意圖,圖中顯示了一串垂直排列的電荷陷阱單元,採用氧化物-氮化物-氧化物 (ONO) 柵極介質,以及數量有限的字線在大多數NAND產品中,垂直排列的電荷陷阱單元取代了位於源極/漏極上方的浮柵(FG)電晶體。雖然兩種器件的工作原理類似,但電荷陷阱單元位於沉積在柵極氧化層(源極和漏極之間)的氮化物層中,本質上是一個內部帶有氮化矽陷阱層的垂直MOSFET器件。單元陣列完成後,晶片製造商通常會製造第二層或堆疊層,然後再將其連接成串。“但是,要確保這層厚度約為 30µm 的堆疊層之間直徑一致,會增加工藝的複雜性和成本,對高堆疊沉積和高縱橫比蝕刻工藝提出了挑戰,”imec 儲存器工藝整合團隊的高級整合研究員 Sana Rachidi 指出。雖然多層短層結構可以減輕高深寬比蝕刻裝置的負擔,但也增加了成本和複雜性,尤其是在第一層中的多個儲存器孔需要與第二層中的孔對齊,以便後續連接的情況下。這需要在需要對齊的短層結構和提高蝕刻性能以在ON堆疊中刻蝕更深區域之間進行權衡。目前,NAND 快閃記憶體供應商正儘可能地將多個儲存單元封裝在單層結構中,然後再建構第二層。“另一個趨勢是將外圍 CMOS 電路最佳化在不同的晶圓上,然後使用混合鍵合技術將其連接到儲存陣列堆疊層,”Rachidi 表示。“為了控制不斷增長的加工成本,他們還在垂直方向上進行進一步的縮放,即所謂的 Z 軸間距縮放。”為什麼需要低溫工藝?在傳統的反應離子刻蝕(RIE)工藝中,隨著微孔內材料的不斷去除,刻蝕速率會逐漸下降。2010年代,刻蝕裝置製造商開始探索低溫工藝(0°C至-30°C),以期通過結合低溫工藝和新型化學方法,提高RIE系統的生產效率並改善垂直刻蝕效果。通過保持晶圓低溫,高能氟離子和氧離子能夠有效地去除氧化氮化物層及其相關雜質。“較低的溫度可以抑制不必要的側壁刻蝕,同時增強離子遷移率和轟擊效果,” Lam Research公司的Kim表示。這種超低溫是通過在刻蝕平台上使用冷卻器以及對晶圓進行氦氣冷卻來實現的。從化學角度來看,更高的刻蝕速率源於中性物質表面擴散和物理吸附的增強。重要的是,工藝工程師需要控制孔頂部聚合物的形成,因為聚合物會阻礙離子流到達特徵底部。“孔輪廓是通過精確控制晶圓溫度和氣體化學性質來控制的,這利用了刻蝕側壁上中性物質吸附方式隨溫度變化而發生的從化學吸附到物理吸附的轉變,”Kim解釋道。所需的蝕刻深度不斷增加。東京電子的 Yoshihide Kihara 及其同事估計:“對於未來超過 400 層的晶片,為了維持當前的 2 層堆疊結構,每層儲存器通道孔的蝕刻深度至少需要 8µm。”這種新型化學方法既能提高刻蝕速率和孔深,又能減少碳排放。東京電子補充道:“通過使用HF氣體進行刻蝕,可以大幅降低傳統CF氣體的分壓,從而與第一代低溫工藝相比,溫室氣體的碳排放量可減少84%。”該公司還發現,少量含磷氣體(PF₃ )可作為催化劑,促進HF與SiO₂之間的反應,從而在較低溫度下提高刻蝕速率。低溫蝕刻技術的需求已經非常明確。Kim指出,Lam Research已經在用於3D NAND應用的生產晶圓廠中安裝了1000個低溫蝕刻腔。反應離子刻蝕(RIE)可採用兩種類型的反應器——電容耦合電漿體(CCP)和電感耦合電漿體(ICP)。通常,ICP更為常用,因為它的兩個電極可以獨立控制離子能量和離子密度,而射頻偏置功率則可將活性離子加速注入刻蝕孔中。RIE(反應離子刻蝕)裝置供應商眾多,包括應用材料公司(Applied Materials)、Plasma-Therm公司、牛津儀器公司(Oxford Instruments)和Sentech Instruments公司,但Lam Research和東京電子(TEL)是低溫刻蝕領域大批次生產的主導企業。東京電子於2023年推出了首款低溫刻蝕機,而Lam Research則於2024年7月推出了第三代低溫刻蝕機。Lam Research的Kim指出,這三代反應釜採用了三種不同的化學體系。(Lam Research並未透露目前使用的具體氣體種類。)成功蝕刻的另一個關鍵要素是用於形成孔和縫隙的光刻和蝕刻掩模。晶片製造商使用厚厚的非晶碳硬掩模(通過化學氣相沉積法沉積),並在其上旋涂玻璃和光刻膠,首先對硬掩模進行圖案化。這層厚掩模保護了蝕刻過程中需要保留的ON/ON/ON區域。Lam Research 還利用電漿體脈衝在刻蝕模式和鈍化模式之間切換。刻蝕過程的副產物非常重要,因為它們可以鈍化側壁,防止結構彎曲。垂直通道刻蝕的縱橫比已經接近 70:1,要過渡到 100:1 的縱橫比,控制起來將更具挑戰性。輪廓控制、人工智慧和蝕刻工藝建模在提升製造工藝成果方面發揮著越來越重要的作用。在開發用於最佳化NAND垂直通道蝕刻的蝕刻工藝時,值得注意的是,有超過30個可調的蝕刻參數,包括溫度、氣體流速、功率、工藝時間等等。由蔡成恩領導的宏碁公司工程師團隊,提出了一種基於人工智慧的方法,用於最佳化垂直通道(VC)結構中的蝕刻輪廓,從而最大限度地減少VC輪廓的形狀變形。與許多使用大型、多樣化資料集建構的人工智慧輔助建模計算不同,宏碁團隊利用來自25片已加工晶圓(包括晶圓中心、中間和邊緣)的資料,最佳化了蝕刻工藝,從而降低了關鍵尺寸(CD)的變化。這種方法降低了工藝開發的成本和時間。蔡及其同事報告稱:“半導體行業面臨的關鍵挑戰之一是在工藝開發初期就儘可能減少晶圓消耗,因為這對於降低成本和加快產品開發進度至關重要。” 該人工智慧程序能夠最佳化33個刻蝕參數,從而降低頂部CD、弓形CD(最寬點)、CD畸變和CD條紋程度的變化。宏碁人工智慧輔助調優方法的核心策略是基於全面的資料集對預訓練的Transformer模型進行微調。該微調過程將機器學習演算法應用於來自實際晶圓和DOE分割的小資料集。“通過將預測的刻蝕參數輸入模型,即可獲得最終的VC輪廓,從而使系統能夠高精度地模擬和預測VC結構,”宏碁團隊強調了領域知識的作用。“為了提高模型預測的精準性,我們基於該領域的專家知識,設定了一些具有特定約束條件的預設參數。這一步驟對於最佳化模型輸出並確保預測結果與實際可行的刻蝕條件相符至關重要。”利用透射電鏡(TEM)在垂直通道(VC)中10多個深度處的斜面切割測量資料,記錄了關鍵尺寸(CD)的變化,並通過機器學習(ML)確定了33個刻蝕參數的最佳化值。“通過建立高精度的刻蝕輪廓,該方法不僅提高了刻蝕結構的質量,還有助於半導體行業顯著降低成本。借助先進的最佳化技術,人工智慧輔助的調諧方法確保最終的垂直通道結構在最大限度減少形狀變形和保持對關鍵尺寸的嚴格控制方面表現出卓越的性能。”最重要的是,新的工藝配方降低了特徵畸變,這與NAND的性能和可靠性直接相關。“在初始工藝中,當VC形狀畸變嚴重時,閾值電壓會突然升高,表明在3D NAND程式設計過程中性能不穩定。”人工智慧輔助蝕刻工藝徹底消除了這種閾值電壓異常,從而實現了可預測且最佳化的器件性能。未來微縮面臨風險?為了在每一代產品中持續增加ON層數,縮小字線之間的z軸間距(現有器件的z軸間距約為40nm)似乎是合理的。然而,imec的研究人員警告說,隨著NAND快閃記憶體製造商在繼續使用現有材料的情況下縮小尺寸,會出現兩個物理問題——橫向電荷遷移和單元間干擾。電荷遷移和訊號干擾會降低閾值電壓、增大亞閾值擺幅、降低資料保持時間並提高程式設計/擦除電壓。imec 的研究人員表示:“當進一步減小字線層厚度時,電荷陷阱電晶體的柵極長度也會相應縮短。因此,柵極對溝道的控制力逐漸減弱,相鄰單元之間的靜電耦合也隨之增強。除了單元間的干擾外,儲存單元在垂直方向上的縮小還會導致橫向電荷遷移(或垂直電荷損失)。被困在 SiN 層內的電荷往往會穿過垂直方向的 SiN 層遷移,從而影響資料保持時間。”一種可以抑制單元間干擾的工藝改進方法是用低介電常數材料(低k值)的空氣間隙代替字線之間的氧化物介質。事實上,空氣間隙此前已在二維NAND器件中用於此目的。然而,在垂直結構中引入空氣間隙比在平面結構中要困難得多。Imec 最近設計了一種可重複的氣隙方案,該方案在沉積 ONO 堆疊層之前,先對柵極間氧化層進行凹陷處理。“氣隙的引入使其與字線自對準,從而可以精確控制其位置,並提供可擴展的解決方案。”研究人員和製造商將繼續探索這種及其他方案,以繼續縮小 3D NAND 的尺寸。結論低溫蝕刻是反應離子刻蝕工藝的一項關鍵發展,它能夠在3D NAND器件中形成極深極薄的腔體,用於垂直接觸、狹縫、階梯接觸和周邊接觸。晶片製造商正在最佳化30多個蝕刻參數,以確保從頂部到底部關鍵尺寸(CD)的垂直輪廓保持最小變化。隨著這項極具挑戰性的技術的推廣應用,工藝模擬和人工智慧輔助可以在配方最佳化方面發揮重要作用,而無需運行數百片開發晶圓。這可以節省成本並縮短產品上市時間。因此,業界可能會更加依賴虛擬製造來完成這些以及其他關鍵的製造步驟。 (半導體行業觀察)
DRAM價格,還要漲!
行業預估資料顯示,由於雲服務提供商(CSP)在人工智慧基礎設施領域的投入持續高企,動態隨機存取儲存器(DRAM)與快閃記憶體(NAND flash)的供應增長始終無法跟上需求擴張的步伐,2026 年全年全球記憶體市場預計將持續處於供不應求的緊張狀態,進而推動產品價格走高。此番市場前景的預測,源於記憶體製造商們跌宕起伏的 2025 年。這一年,廠商們年初還在應對地緣政治不確定性帶來的衝擊,以及庫存過剩的遺留問題,到了下半年,市場供需格局卻驟然收緊。分析師認為,隨著人工智慧伺服器佔據行業產能的比例不斷攀升,供應商紛紛將產能向利潤率更高的產品傾斜,這種供需失衡的狀態還將持續。行業預估顯示,2026 年 DRAM 的位元供應量增幅約為 15% 至 20%,而需求增速預計將更快,達到 20% 至 25% 左右。NAND 快閃記憶體市場也呈現出類似的態勢,其位元供應量增幅為 13% 至 18%,相比之下,需求增幅則達到 18% 至 23%。這一供需缺口在伺服器應用領域表現得最為突出。分析師預計,在各大雲平台持續加大人工智慧訓練與推理業務投入的驅動下,2026 年伺服器領域的 DRAM 和 NAND 快閃記憶體消耗量將同比激增 40% 至 50%。DDR4 逐步退市,加劇傳統產品供應壓力傳統 DRAM 產線的快速減產,已成為引發記憶體短缺的核心因素。頭部供應商正加速淘汰 DDR4 相關產線,將晶圓產能重新分配給更新型、利潤率更高的產品。業內消息稱,到 2026 年下半年,三星電子和 SK 海力士的 DDR4 晶圓開工佔比預計將降至個位數低位,這將導致 DDR4 的市場供應量大幅縮減。產能收縮直接推動 DDR4 價格強勢反彈。儘管部分領域正逐步向 DDR5 平台過渡,但 2025 年第四季度,DDR4 與 DDR5 的現貨價差進一步拉大,這也印證了市場對 DDR4 這一老規格產品的需求仍在持續。市場從業者預估,2026 年 DDR4 的供應量將持續比需求量短缺約 10%,這一局面將支撐其價格在至少 2026 年下半年之前保持高位運行。台灣地區的記憶體供應商已從這一市場變化中獲益。南亞科技進一步鞏固了其全球最大 DDR4 供應商的地位,華邦電子則增加資本支出,擴大產能規模。據業內消息透露,華邦電子計畫將其高雄工廠的月產能從約 1.4 萬片晶圓,提升至 2.4 萬至 2.5 萬片。高頻寬記憶體(HBM)擠佔 DDR5 產能隨著高頻寬記憶體(HBM)在高端產能中的佔比不斷提升,記憶體供應壓力正進一步加劇。行業預估顯示,SK 海力士、美光科技以及三星電子的 HBM3E 產能已基本被預訂一空。目前 SK 海力士的 HBM4 產品已通過客戶驗證,業內預計其他競爭對手也將迅速跟進佈局 HBM4,這將進一步擠壓標準 DDR5 的產能空間。與此同時,人工智慧伺服器與新一代中央處理器(CPU)平台正逐步採用更大容量的 DDR5 RDIMM 記憶體配置,這也促使供應商將更多精力集中在企業級與人工智慧相關的產品上。市場預估資料顯示,三星 64GB DDR5 RDIMM 記憶體的合約價已從 2025 年第三季度的約 265 美元,上漲至第四季度的約 450 美元,到 2026 年第一季度,其價格或將逼近 480 美元,後續仍存在繼續上漲的可能性。分析師指出,不含 HBM 在內,傳統 DRAM 產品的價格在 2025 年第四季度上漲了近 50% 甚至更高。這一漲價勢頭預計將延續至 2026 年上半年,而從供需缺口的規模來看,即便到 2026 年下半年,產品價格的回落空間也十分有限。2026 年,市場對 128GB 及更大容量 DDR5 記憶體模組,以及採用 LPDDR5X 規格的 SOCAMM2 記憶體配置的需求,預計將佔據 DRAM 產能的更大份額。此外,HBM4 的生產不僅會消耗更多晶圓,還涉及更為複雜的良率管控,這都將進一步加劇記憶體市場的結構性供應壓力。隨著記憶體製造商紛紛暫停公開報價,並持續上調產品價格,非人工智慧領域與消費級市場的採購商正面臨採購成本攀升與貨源緊缺的雙重難題。NAND 快閃記憶體產能擴張難紓供應困境在 NAND 快閃記憶體領域,產能擴張的處理程序同樣受到制約。儘管鎧俠與長江儲存均在建設新的生產基地,但業內消息稱,這些新產能要到 2026 年第二季度才有可能實現可觀的產量貢獻,短期內難以對市場供應格局產生實質性影響。人工智慧推理業務的爆發,也正在重塑 NAND 快閃記憶體的市場需求結構。2025 年,推理相關基礎設施的資本投入規模已超過訓練業務,預計 2026 年這一投入還將進一步增長,進而推動企業級固態硬碟(SSD)需求快速攀升。北美雲服務營運商對 128TB 至 256TB 大容量固態硬碟的需求日益旺盛,這也促使廠商們從三層單元(TLC)NAND 快閃記憶體技術,轉向四層單元(QLC)技術,以實現成本與儲存密度的平衡。雲服務提供商的大規模產能預訂,已推動 NAND 快閃記憶體價格大幅上漲。市場預估顯示,2025 年第四季度 NAND 晶圓價格環比暴漲約 95% 至 100%,部分採購商即便願意支付更高價格,也依然難以獲得穩定貨源。分析師預計,NAND 快閃記憶體的供應短缺與價格上漲態勢將延續至 2026 年,不過價格上漲的節奏或將有所放緩。記憶體模組廠商承壓,利潤率面臨考驗緊張的供應形勢,正迫使記憶體模組廠商採取限量出貨策略,並優先保障戰略客戶的訂單需求。雖然產品平均售價的走高支撐了營收增長,但原材料成本的持續攀升正不斷擠壓廠商的利潤率,同時也使得廠商之間的貨源爭奪愈發激烈。威剛科技表示,2026 年記憶體模組市場的兩極分化態勢或將加劇,部分廠商能夠獲得穩定的晶片供應,而另一些廠商則將持續面臨貨源短缺的困境。工業級記憶體供應商宜鼎國際指出,雲人工智慧業務將成為 2026 年市場的核心增長驅動力,人工智慧推理與邊緣計算應用的加速落地,或將利多那些已佈局人工智慧相關產品線的廠商。主控晶片製造商群聯電子透露,公司已在行業淡季期間鎖定了部分 2026 年的晶片供應,但這些產能仍無法滿足市場需求。群聯電子預計,記憶體市場的供需失衡狀態將持續數年,並計畫縮減零售市場的出貨量,將資源集中投向附加值更高的企業級客戶。分析師提醒,當前市場仍存在諸多風險因素,包括高端記憶體產品生產過程中的技術落地難題,以及雲服務提供商資本支出可能出現的波動。展望 2026 年,在人工智慧驅動的強勁需求,以及結構性供應約束的雙重作用下,記憶體市場的定價權仍將牢牢掌握在記憶體晶片製造商手中。 (半導體芯聞)
全球首顆!中國全新架構快閃記憶體晶片問世,10億次儲存刷新行業標竿
當資料儲存速度突破“億級”大關,一顆晶片可瞬間完成10億次資料讀寫,中國自主研發的全新架構快閃記憶體晶片不僅填補全球技術空白,更以顛覆性創新打破歐美日韓長期壟斷的儲存晶片市場格局。這一里程碑式突破,標誌著中國在核心儲存領域實現從跟跑到領跑的跨越,為全球半導體產業注入全新發展動能。中國快閃記憶體晶片研發之路是自主創新的堅韌探索。2016年長江儲存成立之初,全球快閃記憶體市場被三星、SK海力士、美光等巨頭瓜分,國內自主生產能力幾乎為零。面對技術鴻溝,中國企業選擇難度更高的3D NAND賽道,從32層到64層再到128層,僅用兩年實現關鍵技術跨越。2022年底,長江儲存推出全球首款232層3D NAND晶片,儲存密度超越國際同行;2025年,全新架構快閃記憶體晶片橫空出世,憑藉獨創技術實現10億次/秒的儲存速度,完成從“追趕到引領”的蛻變,累計申請專利超1.2萬件,95%為發明專利。這項突破背後是多重世界級難題的攻克。核心挑戰在於全新架構的設計與實現,研發團隊摒棄傳統整合模式,採用儲存陣列與外圍電路分離製造再鍵合的創新方案,破解了性能與密度的矛盾。高深寬比刻蝕、高精度鍵合等關鍵工藝曾依賴進口裝置,在美國製裁導致裝置斷供的困境下,中國企業與北方華創、中微公司等組成“攻堅聯盟”,實現45%的裝置國產化率,攻克了壞塊管理、ECC平行計算等行業痛點 。同時,需在奈米級空間內平衡速度、功耗與穩定性,最終通過工藝最佳化將良率提升至國際先進水平。該晶片的技術參數達到全球領先水準。儲存速度突破10億次/秒,較國際主流產品提升3-5倍;採用自主創新架構,儲存密度達15.03 Gb/mm²,在同等尺寸下儲存容量實現翻倍;支援3V和1.8V雙工作電壓,連續讀取速率最高可達83MB/s,功耗較傳統產品降低40% ;內建先進壞塊管理功能和8bit ECC平行計算技術,資料可靠性達到99.999%,滿足高端場景嚴苛需求。在應用層面,該晶片將賦能多領域數位化升級。在AI與資料中心領域,10億次儲存速度可支撐海量資料即時處理,助力人工智慧模型訓練效率提升;在消費電子領域,適配智慧型手機、SSD等終端,實現秒級開機與大型檔案瞬時傳輸;在工業控制與IoT領域,低功耗、高可靠性特性可滿足極端環境下的長期穩定運行,推動智能製造與物聯網發展 。華為、浪潮等企業已簽署長期採購協議,加速技術落地應用。這一突破徹底打破了歐美日韓的壟斷格局。此前全球儲存晶片市場CR5超90%,國外企業長期掌控定價權 。如今中國快閃記憶體晶片全球市佔率已提升至12.8%,國內市場覆蓋率超30%,迫使國際巨頭調整定價策略。更具里程碑意義的是,三星等國際巨頭已向中國企業支付專利授權費,標誌著中國在儲存領域從技術追隨者轉變為規則制定參與者。同時,帶動上游裝置、材料國產化協同發展,形成完整產業生態,為全球半導體產業提供多元技術路徑。從無到有、從追趕到引領,中國全新架構快閃記憶體晶片的突破,印證了自主創新的核心價值。隨著產能逐步擴張至月產30萬片的目標,中國將進一步提升全球市場話語權,推動儲存晶片行業進入“中國智造”引領的新時代。這不僅是中國半導體產業的重大跨越,更為全球科技產業格局重塑注入了中國力量。 (我是科技達人)
中國國產記憶體、快閃記憶體晶片不再是備胎!兩巨頭擴產 技術差距不到1年
最近3個月記憶體及快閃記憶體兩種儲存晶片價格大漲,而且漲勢之猛是30多年來最強的。這一次尤其關鍵的一個轉變就是,國內公司沒有缺席,長江、長鑫兩家公司的記憶體及快閃記憶體已經不可小覷。日前有消息稱長江儲存發佈了通知,宣佈快閃記憶體晶圓漲價40%,模組產品漲價100%,不過這個消息並沒有得到完全證實。供應鏈人士表示12月的快閃記憶體晶圓成交價比11月提升了10%多一點,SSD成品漲幅在15-20%。供應鏈表示,該公司今年已經多次調整價格,部分規格的產品價格已經不輸三星等原廠,暗示策略已經轉向控量穩價,不再是追求低價搶市場。報導還提到了兩家國產儲存廠商產能,長江儲存的快閃記憶體產能達到了16萬片/月,長鑫的記憶體產能更是高達28萬片晶圓/月,2026年還會進一步提升到30萬片/月。隨著產能及價格策略的變化,這兩家公司的儲存晶片已經不是以往的備胎,電腦廠商也會開始採購他們的晶片,進行測試驗證。其中華碩、宏碁已經進入評估階段,希望借此提高供應鏈彈性,分散風險。在技術上,長江儲存已經發佈了300層堆疊的快閃記憶體產品,長鑫11月底也發佈了8000MHz的DDR5產品,LPDDR5也達到了10677MHz。這些都是當前的頂級產品,被認為與三星等廠商的技術差距不到1年時間了。國產記憶體及快閃記憶體晶片目前主要的問題還是裝置受限,導致產能及良率面臨挑戰,但是在一步步解決自主供應鏈之後,很快不再受美國禁令影響。到時候會真正有機會重塑市場格局,兩三年內超越三星不太可能,但坐三望二是有機會的。說到三星,日前有消息稱AMD最快明年1月份跟三星簽訂合作協議,將使用後者的2nm工藝SF2P生產新一代晶片,這有望給三星帶來數十億美元的訂單。與此同時,Intel也在跟三星談晶片代工合作,不過他們已經有自己的18A工藝了,不需要三星2nm代工,這次談的反而是已經很成熟的5nm及8nm工藝,尤其是後者,Intel決定將PCH晶片組訂單給三星8nm來做。這個晶片組主要用於新一代處理器,也就是26年底的Nova Lake處理器,目前已經準備進入量產階段。Intel當前的PCH晶片組使用的是三星14nm工藝,是在三星美國工廠生產的,但8nm PCH晶片要轉回韓國的華城工廠生產,這裡的產能畢竟穩定,可以月產3-4萬晶圓,這也是Intel選擇三星韓國工廠生產的關鍵原因。對Intel來說,他們自己將專注於先進工藝的研發生產,PCH晶片組這樣的簡單產品外包給代工廠更有助於降低成本,三星的8nm也是比較成熟穩定的工藝了,之前NVIDIA的RTX 30系列GPU就是這個工藝生產的。從14nm升級到8nm之後,預計Nova Lake的晶片組面積會更小,發熱也會更低,這對PC玩家來說也是好事,不然高負載下工作時主機板的散熱也不讓人放心。(硬體世界)
HBF or HBM?高頻寬快閃記憶體(HBF)更適合AI推理!
這張圖介紹了HBF(高頻寬快閃記憶體)在 AI 推理伺服器中的應用價值:AI工作負載的內存需求可以分為模型參數讀取和KV 快取讀寫兩類:1. 模型參數讀取(Weight Streaming,權重流)訪問模式:大粒度順序讀取。頻寬需求:需支撐GB/s~TB/s 級頻寬,對 “高頻寬” 特性高度依賴。部署優勢:若 HBF 靠近計算核心部署,大容量特性可顯著提升權重讀取效率。2. KV 快取讀寫(KV Cache Read/Write)訪問模式:快取級隨機訪問,對延遲極度敏感。操作特性:生成每個token時都會觸發寫操作;且 KV 快取的大小會隨上下文長度和注意力頭數量線性擴展。HBF 為何不適用訓練場景?訓練場景的記憶體需求與 HBF 的技術侷限存在根本衝突:訪問模式:寫密集型,伴隨持續的梯度更新、最佳化器狀態修改,且存在頻繁細粒度讀寫。介質侷限:HBF 基於快閃記憶體技術,受限於兩個核心短板 ——耐用性:快閃記憶體的擦寫次數有上限,寫密集的訓練會快速耗盡其生命周期;延遲:快閃記憶體的讀寫延遲遠高於 DRAM,無法滿足訓練對低延遲的嚴苛要求。HBF為何適配推理場景?可從三方面理解:特性匹配:HBF 具備大容量、低成本、高密度的優勢,完美適配推理伺服器對 “儲存規模” 和 “成本效率” 的需求。工作負載契合:推理中的 “權重流” 任務是大粒度順序讀取,與 HBF 的頻寬優勢完全匹配。場景區分:訓練是 “寫密集型” 工作負載,會突破 HBF 的耐用性和延遲上限;而推理的讀寫模式更溫和,可充分發揮 HBF 的潛力。HBF取代HBM會發生什麼?假設HBF完全取代了HBM作為GPU的主記憶體。其優勢在於:每GPU多TB記憶體容量使非常大型模型能夠局部安裝在每個加速器上對於頻寬密集型權重流且預取能力強,高效高效但也具有很明顯的侷限性:KV快取作延遲不足隨機訪問性能仍不及 HBM培訓和混合工作量不切實際不支援通用GPU使用場景因此HBF僅適用於具有固定作模式的專用推理加速器,無法作為通用GPU中HBM的替代。HBM + HBF混合GPU記憶體最好!HBM仍然是主要的低延遲記憶體,而HBF則作為高容量讀取最佳化層加入。HBM→KV 快取、熱啟動、中間張量HBF→模型參數、冷啟動通過 HBM 維護低延遲計算流水線,減少對 HBM 的依賴和成本,還相容當前的GPU設計和軟體棧,缺點是包設計複雜度增加,且需要關注功耗與熱量問題。 (銳芯聞)
外媒:NAND快閃記憶體將於明年進入超級週期
隨著人工智慧(AI)資料中心的擴展,NAND產品在AI記憶體市場的重要性正迅速增長。儘管與DRAM相比,AI帶來的益處曾較為有限,但企業級固態硬碟(eSSD)能夠快速處理和儲存大量資料,使得NAND價格和銷售額進入上升軌道。據外媒報導,SanDisk(閃迪)公司首席執行官David Goeckeler在三季度財報的發佈中表示:“明年將是資料中心NAND需求首次超過移動領域的第一年。”他指出:“NAND的需求正超過供應,這一趨勢將持續到明年年底之後。”其他主要NAND供應商也對市場做出了類似評估。三星電子在上個月的財報中談及NAND市場狀況時表示:“即使考慮到我們明年生產能力的擴張,客戶需求仍將超過供應,導致供需之間存在顯著缺口。”SK海力士也表示,其明年的NAND產量已經“全部售罄”,並補充道:“一些供應商現在正尋求籤署長期供應合同。”NAND供需之間的不平衡導致產品價格不斷上漲。用於儲存卡和USB 隨身碟的128Gb MLC NAND快閃記憶體固定交易價格在9月上漲了10.6%,10月進一步上漲14.9%,創下十年來的最大漲幅。據報導,三星電子和閃迪最近決定將NAND供應價格提高10%。此外,一種被稱為“HBF”的下一代儲存技術也備受關注。該產品通過類似高頻寬記憶體(HBM)的方式堆疊NAND晶片,旨在保持HBM的優點,同時利用NAND的特性來解決HBM的容量限制問題。SK海力士和閃迪已開始聯合開發HBF,並計畫於2027年開始生產。 (芯聞眼)
HBF要取代HBM?
被譽為“高頻寬記憶體 (HBM) 之父”的韓國科學技術院 金正浩教授 最近在 YouTube 節目中發表了一番驚人的言論:“在人工智慧時代,權力平衡正在發生轉變——從 GPU 轉向記憶體。”高頻寬快閃記憶體 (HBF)是一種結合 3D NAND 快閃記憶體高密度與 HBM 高頻寬特性的創新儲存技術,通過垂直堆疊多層 NAND 晶片並利用矽通孔 (TSV) 技術實現層間互聯,為 AI 推理提供前所未有的大容量、高頻寬儲存解決方案。其核心原理是採用與 HBM 類似的堆疊架構 (8-16 層),但使用 NAND 快閃記憶體替代 DRAM,通過 TSV 和微凸點連接各層,將邏輯晶片與儲存陣列鍵合,支援平行訪問多個 NAND 子陣列,大幅提升頻寬和吞吐量。HBF vs HBM 核心差異點HBM:速度擔當,適合 AI 訓練等高即時性場景HBF:容量擔當,專為 AI 推理設計,可儲存完整大模型因此HBF 可以解決幾個核心痛點:當前 AI 推理中,GPU 有60-70% 時間處於等待記憶體狀態;大型模型 (如 1.8T 參數的 LLM) 無法完整裝入傳統 HBM,需頻繁從硬碟載入,嚴重拖慢推理速度。查詢到的幾個實測案例給大家分享一下:使用 HBF 運行 LLaMA 3.1 (405B 參數) 時,性能僅比理想 HBM 方案低 2.2%.單 GPU 搭配 8 個 HBF 堆疊可提供4TB 儲存空間,是純 HBM 方案的 20 倍 +完全容納1.8T 參數的前沿 LLM 模型,實現 "單卡即推理"具體到應用場景,比如:大型語言模型推理:支援超長上下文窗口,無需分片載入多模態 AI:處理圖像、視訊等大容量資料邊緣 AI:自動駕駛、智能終端、IoT 裝置,提供高容量低功耗方案AI 訓練中的檢查點儲存:大幅縮短模型恢復時間當前佈局的廠商:SanDisk 與 SK 海力士聯盟,2025 年 8 月簽署MoU,共同制定 HBF 技術規範並推動標準化,目前預估:2026 年下半年:首批 HBF 記憶體樣品2027 年初:首批搭載 HBF 的 AI 推理裝置SK 海力士已在 2025 年 OCP 峰會推出 **"AIN 系列"**,其中 AIN B 系列採用 HBF 技術三星電子的佈局已啟動自主 HBF 產品的早期概念設計,計畫利用在高性能儲存領域的研發經驗,滿足資料中心需求。其他廠商鎧俠 (Kioxia) 已開發出5TB 容量、64GB/s 頻寬的 HBF 原型;美光等儲存巨頭也在密切關注 HBF 技術發展。金正浩作為 HBM 技術發明人,分享了他在 YouTube 節目中提出震撼觀點,給大家分享一下:權力轉移論:"AI 時代,權力正從 GPU 轉向記憶體"記憶體已成為 AI 性能的決定性瓶頸,而非 GPU 算力;未來 AI 架構將圍繞記憶體建構,而非傳統的 CPU/GPU 中心模式。HBF 取代 HBM 論:"HBM 時代即將結束,HBF 時代即將到來"儘管 NAND 比 DRAM 慢,但提供10 倍 + 容量,對大規模 AI 模型至關重要;2027-2028 年將是 HBF正式商業化的爆發期;HBF 將與 HBM 形成互補架構:HBM 負責高速計算,HBF 提供海量儲存輝達收購論:"輝達可能收購一家記憶體公司"潛在目標:SanDisk (閃迪)、美光等儲存廠商,目標當然是為了掌控 HBF 等記憶體核心技術,擺脫對韓企的依賴另外金正浩教授描繪了未來 AI 儲存的四層架構:SRAM (桌面筆記本):GPU 內部,速度最快但容量最小HBM (書架):提供高速訪問和計算HBF (地下圖書館):儲存 AI 模型的 "深層知識",持續向 HBM 提供資料雲端儲存 (公共圖書館):通過光纖連接各資料中心HBF 將成為 AI 推理的標準配置,大幅降低大模型部署門檻解決當前 "記憶體牆" 問題,使 AI 應用突破容量限制,實現更複雜的推理預計到 2027 年,HBF 將引爆兆級新賽道,重塑儲存和 AI 產業格局HBF 技術代表了 AI 儲存領域的重大突破,它不是要完全取代 HBM,而是與 HBM 形成 容量 + 速度 的黃金組合隨著 2026-2027 年 HBF 技術正式落地,我們將見證 AI 推理性能的又一次飛躍,以及儲存在 AI 系統中地位的根本性提升 —— 正如金正浩教授所言:"在人工智慧時代,記憶體正在成為新的王者。" (IT前哨站)