老黃演講後,網上很多博主都發了關於GTC的內容,但是絕大多數都是新聞性質的,他們只講了黃仁勳都說了啥。這篇文章我們結合 NVIDIA 的技術規劃,來聊一聊網上可能沒有的分析和GTC的核心看點。對於兆營收和CPO的資訊,都是大家知道的了,這篇文章就不再贅述了。1、CPX的黯然退場在上個月下旬的時候,網上還依然傳著很多關於 CPX 要使用 HBM 的傳言。我當時就聽到消息說 CPX 要取消,我當時還不太信,但事實證明確實是被 LPU 取代了。那為什麼會取代呢?就是因為輝達的路線轉換,他們要從 prefill 加速切換到 推理加速。這些內容和觀點,我們之前在星球中都講過。2、誰是這次 GTC 大會之後最大的受益方?那顯然是三星。因為 LPU 是找三星獨家代工,採用的是三星的 N4 工藝。這意味著三星不僅是輝達全層級儲存的核心供應商,現在更獨攬了 LPU 的代工大單。在Rubin上,三星的綜合價值量已經超過台積電了,因為台積電只負責代工加封裝。原文連結:https://globalsemiresearch.substack.com/p/nvidia-gtc-2026-is-samsung-the-biggest3、LPX 機架引入 FPGA 的作用可能很多人都沒想到,在 LPX 機架上面引入了 FPGA。那麼它的作用是什麼呢?專門負責實現系統內可配置的串聯通訊旁路後端搭配了一顆 CPU 進行協同控制這種精密協同架構保障了 256 顆 LPU 能夠作為單一的巨型處理器運行,從而實現低延時的確定性推理加速。4、為什麼要把CPU獨立成機櫃?是因為我們已經正式邁入智能體時代。智能體在自主工作時,需要頻繁地呼叫工具、執行邏輯程式碼、進行強化學習和自我糾錯。而獨立的 CPU 機架,正是為了提供海量的“沙盒”環境而生。單個機架整合了 256 顆 CPU,可以同時維持超過 22,500 個並行的智能體測試和驗證環境,填補了 GPU 在複雜單線程邏輯處理上的短板。5、輝達為什麼要設獨立的儲存機櫃?這就要結合輝達之前提出的 ICMS(推理上下文記憶體儲存)方案來解釋了。在智能體時代,模型需要處理數百萬 token 的超長上下文,導致 KV Cache 的數量呈線性暴增。如果將海量的 KV Cache 全部放在 HBM 層,不僅容量受限,而且成本非常高。但如果解除安裝到傳統的共享化企業儲存中,其功耗過大,而延時又會嚴重拖慢推理速度,導致 GPU 處於閒置等待狀態。因此,輝達採用了分級儲存架構:ICMS 充當了整個 AI 叢集的長期記憶庫。它專門針對海量臨時 KV Cache 資料的儲存、檢索和共享進行了最佳化。通過高速 RDMA 網路,它能夠提前將上下文資料預載入回 GPU 記憶體,從而避免了歷史資料的重複計算,顯著提高效率。6、拋開技術層面,老黃最關注的是什麼?拋開第六個看點,拋開所有的技術參數,老黃最看重的底層護城河其實是產能和供應鏈。最近他頻繁來亞洲,是為了鎖定儲存、晶圓代工和先進封裝產能。這也是他這兩年頻繁來亞洲的原因,因為要鎖定儲存晶圓和 CoWoS 產能。黃仁勳在供應鏈管理上的優勢,是其他所有企業都望塵莫及的。這裡我們再多說一點,Google前段時間賣給Anthropic的TPU,其實Google非常後悔,因為他們現在內部都沒得用,結果還把珍貴的算力賣給了競爭對手。所以這也是 OpenAI 去年瘋狂跟各個大廠合作、畫餅要產能的原因。這一反面案例恰恰印證了在 AI 算力即“企業命脈”的當下,對底層產能的絕對把控力才是決定最終勝負的關鍵。 (傅里葉的貓)