#輝達GPU
輝達、蘋果、Google…為何集體重倉這一賽道?
當全球AI競賽進入“場景為王”與“生態制勝”的雙軌時代,一場由底層技術驅動的產業變革正席捲而來。從矽谷到深圳,輝達以GPU算力底座重構生產力邏輯,蘋果借Vision Pro打開AI與物理世界互動入口,Google憑Gemini大模型拓展通用智能邊界;ChatGPT開啟人機互動新形態,人工智慧已從技術噱頭成為行業進化核心引擎。作為數字世界基石的電子產業,正站在智能化轉型的關鍵隘口……AI技術廣泛創新應用當下,電子產業正迎來AI 驅動的深刻變革。從聚焦場景化智能的 “AI 小龍蝦”,到主打全鏈協同的 “Hermes”,AI 技術已在電子產業各環節落地生根。兩大技術方向的崛起,釋放出核心行業訊號:電子產業創新,急需一款兼具AI 原生與全鏈協同能力的全新解決方案。今日,這一行業答案正式揭曉—— 融合 AI 小龍蝦與 Hermes 核心 AI 理念,EDA365AI 應運而生。作為AI 驅動的電子產業智能平台,EDA365AI 平台致力於重塑電子產業從設計、採購到製造的全鏈路創新範式。升級後的EDA365AI平台,以電子產業全域資料為基座、自建百億級資料資產為核心,整合整合庫、知識庫、產品庫、廠商庫等全維度電子行業資料,實現電子領域資料的全品類、高精度沉澱。平台採用雙引擎模型架構:一方面整合主流通用大模型,另一方面自研專業熠瓴多模態大模型,打造“通用能力 + 垂直深耕” 的雙驅動架構,為系統提供核心智能驅動力。依託熠瓴大模型,EDA365AI 平台整合ASED 設計系統、CAMClaw 解析引擎、SailWindEDA 設計工具及行業專業知識庫,建構覆蓋電子產業全鏈條的AI 能力矩陣。通過 AI 技術與全鏈路資料的持續訓練最佳化,平台以 AI 工具為核心載體,全面提升電子產業設計、採購、製造全流程效率。同時,平檯面向企業提供企業級AI 應用輸出,通過多終端客戶端為企業使用者交付高價值AI應用矩陣,推動企業實現組織能力底層變革:AI不是單一工具,是組織能力的創新重塑;重塑業務流程,打破資料與協作壁壘;重塑決策邏輯,實現全流程資料驅動;重塑協作模式,建構人機共生新生態。最終以效率革命,實現企業營運效率與管理效能的雙重提升。未來已來,EDA365AI 將助力企業搭建 “資料 — 模型 — 工具 — 智能體 — 應用” 的端到端的智能閉環,驅動電子產品開發全鏈路智能化升級,共築電子產業發展新範式!EDA365 AI的核心工具EDA365 AI 並非傳統 EDA 工具的“AI 升級版”,它是以三大核心智能體模組為引擎:智能設計:方案設計智能體:從需求到方案自動生成,驅動設計決策智能化。元器件提參建庫智能體:自動解析資料手冊,建構結構化元件整合庫。原理圖輔助設計:智能搜尋參考電路,復用成熟模組,提升設計規範性。PCB輔助設計智能體:AI驅動佈局最佳化與資源分配,提升PCB設計效率。智能採購:器件優選:AI驅動的器件選型決策工具,建構可量化、可驗證的選型閉環,助力從“經驗判斷”轉向“精準定義”。器件優購:一站式智能採購工具,貫通單顆物料精準尋源與整單 BOM 全域配全,實現採購全流程高效、透明、智能。智能製造:PCB報價與預審:線上Gerber檔案參數自動解析、AI提參、線上快速工程EQ確認,工程預審自動化分析。智能DFM分析:AI預測生產缺陷,工藝流程最佳化,確保產品設計一次成功。資料庫:覆蓋從設計原理圖,元器件技術參數,模型,廠商庫等百億級資料庫。 (EDA365電子論壇)
AI性能暴增35倍!輝達發佈全新LPU,GPU不再是唯一主角!
當地時間3月16日,輝達GTC 2026正式美國加州聖何塞召開。輝達創始人兼首席執行長黃仁勳身披標誌性皮衣登場,在長達兩個半小時的主題演講中,勾勒出這家算力巨頭從“晶片公司”向“AI基礎設施工廠”全面蛻變的宏偉藍圖。面對市場對業績持續性的高度關注,黃仁勳給出了極為強勁的預期:到2027年,輝達新一代AI晶片的累計營收將正式跨入1兆美元時代。這一數字是他去年預測的兩倍。本次演講的一大重點,當屬備受期待的Vera Rubin AI工廠平台。與以往發佈單晶片不同,黃仁勳此次展示的是一個包含7款全新晶片的“全家桶”系統。他強調:“過去提到Hopper,我會舉起一塊晶片,那很可愛。但提到Vera Rubin,大家想到的是整個系統。”這一系統級平台的核心元件包括:Vera CPU:全球首款專為“AI智能體時代”與“強化學習”設計的處理器。它搭載88個自研“Olympus”核心,性能較傳統CPU快50%,能效提升達2倍。黃仁勳將其比作智能體系統背後的“指揮與調度中心”,負責管理海量並行任務。Rubin GPU:與Vera CPU通過NVLink-C2C技術實現1.8TB/s的驚人互聯頻寬,共同構成強大的算力核心。NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學器件的Spectrum-X可擴展交換機:構成了一套完整的超高速互聯、網路與資料處理基礎,確保資料在AI工廠內高效流轉。黃仁勳展示了基於這些元件建構的Vera Rubin NVL72機架,它整合了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平台,訓練大型混合專家模型所需GPU數量僅為其四分之一,推理吞吐量/瓦特提升高達10倍。他驕傲地宣稱,通過極致的軟硬體協同設計,在短短兩年內,輝達將1GW資料中心內的Token生成速率提升了350倍。特別值得重點介紹的是,黃仁勳展示Vera Rubin平台的“全家桶”時,還推出了一款看似小巧卻極具戰略意義的晶片——Groq 3語言處理單元(LPU)。這款源自輝達去年12月以約200億美元收購Groq核心技術資產的晶片,被黃仁勳定位為Rubin GPU的“推理協處理器”,成為了Vera Rubin平台的又一基石。黃仁勳解釋了引入LPU的戰略考量時指出:在AI智能體時代,推理需求正加速分化。面對需要極高互動性、超短響應時間的任務,傳統GPU架構存在性能冗餘。為此,輝達引入了專注於“極致低延遲Token生成”的LPU架構。本文將深入解析Groq 3 LPU的技術細節、混合推理架構以及它對AI推理市場的深遠影響。一、技術顛覆:打造150TB/s的SRAM怪獸Groq 3 LPU最引人注目的特點,在於其徹底顛覆了傳統AI加速器的記憶體架構。1、500MB片上SRAM:頻寬的極致追求與大多數依賴HBM(高頻寬記憶體)作為工作記憶體層的AI加速器不同,每個Groq 3 LPU晶片整合了500MB的片上SRAM(靜態隨機存取儲存器)。這種記憶體此前主要用於CPU和GPU的超快取記憶體,從未在AI加速器中擔當主角。這500MB SRAM看似“微不足道”——與每個Rubin GPU上容量高達288GB的HBM4相比,僅為其1/500。但SRAM的關鍵優勢在於頻寬:這塊SRAM可提供高達150TB/s的頻寬,而HBM4的頻寬僅為22TB/s。這意味著,對於頻寬極度敏感的AI解碼操作,Groq 3 LPU的頻寬是傳統HBM的近7倍。輝達超大規模計算副總裁Ian Buck對此解釋道:“讓我們對比一下這兩種處理器:GPU擁有288GB記憶體,但頻寬是22TB/s;LPU只有1/500的容量,但頻寬達到了驚人的150TB/s。對於需要極致低延遲的token生成任務,LPU的頻寬優勢無可替代。”基於此晶片的Groq 3 LPX機架配備256顆LPU,提供128GB片上SRAM和640TB/s總頻寬。黃仁勳描繪了GPU與LPU協同工作的未來圖景:Vera Rubin負責需要海量計算的“預填充”階段,而Groq LPU則負責對延遲極度敏感的“解碼”階段。在這種混合架構下,系統的推理吞吐量與功耗比最高可提升35倍。他建議企業客戶,若工作負載包含大量高價值的Token生成需求,應將25%的資料中心規模配置給Groq。據悉,由三星代工的Groq LP30晶片已進入量產,預計今年第三季度出貨。2、三星代工:黃仁勳現場致謝在GTC主題演講中,黃仁勳特別提到三星電子,感謝其為輝達加快生產Groq 3 LPU晶片。這是輝達首次公開確認三星晶圓代工部門參與下一代AI晶片生產。“三星為輝達生產Groq 3 LPU晶片,並正在加快生產速度,我非常感謝三星。”黃仁勳在演講中表示。他進一步透露,該晶片將於2026年第三季度正式出貨。這一合作標誌著三星與輝達的夥伴關係從儲存領域(HBM)正式擴展到晶圓代工領域。三星電子當天在GTC大會現場展出了第七代HBM產品“HBM4E”和垂直堆疊晶片“核心裸片”,積極宣傳其在儲存和代工領域的雙重合作。3、技術代價:容量與成本的博弈SRAM的優勢背後是殘酷的工程權衡。SRAM的生產成本遠高於DRAM,且佔用更大的晶片面積。這導致單個Groq 3 LPU僅能提供500MB記憶體,遠不足以獨立運行兆參數等級的超大AI模型。輝達的解決方案是:用數量彌補容量。公司將256顆Groq 3 LPU整合到一個Groq 3 LPX機架中,提供128GB的片上SRAM和40 PB/s的推理加速頻寬。該機架採用液冷設計,通過每個機架640TB/s的專用擴展介面將晶片互聯。Ian Buck坦承這種設計的侷限性:“你需要很多晶片才能獲得那種性能。從每晶片的token吞吐量(經濟性)來看,LPU其實相當低。”二、混合架構:GPU+LPU如何協同工作?既然LPU有容量短板,輝達為何要大費周章將其納入Rubin平台?答案在於推理任務的分工協作。1、預填充階段 vs. 解碼階段大語言模型的推理過程可分為兩個階段:預填充階段:處理輸入提示(prompt),平行計算所有輸入token,生成中間狀態。這一階段需要強大的浮點運算能力和大容量記憶體來儲存鍵值快取。解碼階段:逐個生成輸出token,每一步都依賴於之前生成的token。這一階段對延遲極度敏感,且受記憶體頻寬限制嚴重。輝達的策略是:讓Rubin GPU負責預填充階段,讓Groq LPU負責解碼階段。具體來說,在輝達新引入的Dynamo軟體框架協調下:Rubin GPU利用其288GB HBM4和強大的浮點運算能力,處理複雜的注意力機制(Attention)計算和數學運算,儲存大型鍵值快取Groq LPU利用其150TB/s的超高頻寬,處理前饋神經網路(FFN)層計算,實現極低延遲的逐token生成2、智能體間通訊:從100 token/s到1500 token/s隨著AI從單一大模型走向多智能體系統(multi-agent systems),推理延遲的要求發生了根本性變化。Ian Buck描繪了這樣的未來場景:在多智能體系統中,AI代理越來越多地與其他AI進行互動,而非與查看聊天窗口的人類交流。對人類而言看似合理的每秒100 token生成速率,對AI代理來說卻如同蝸牛爬行。Buck表示:“Rubin GPU和Groq LPU的組合將人工智慧代理間通訊的吞吐量從每秒100個token提升到每秒1500個token甚至更高。”3、35倍性能提升:資料背後的工程奇蹟根據輝達官方基準測試,當運行達到1兆參數規模的大語言模型時,Rubin GPU與Groq LPU組合相比上代方案,推理吞吐量每瓦特提升高達35倍。具體到成本層面,輝達強調,這一組合方案運行超大AI模型時,每百萬token的成本為45美元,每秒token處理量達到500。輝達聲稱,這將使超大AI模型服務的創收機會增加10倍。三、戰略意義:輝達為何需要LPU?1、填補推理市場的短板分析認為,“通過結合Rubin GPU和Groq LPX,輝達終於進入了推理市場——一個它從未成為第一的市場。”長期以來,輝達的GPU在訓練市場佔據絕對主導,但在低延遲推理領域,面臨著Cerebras、Groq(收購前)等挑戰者的競爭。Cerebras的晶圓級引擎同樣整合了大量SRAM,為先進模型提供低延遲推理,甚至吸引了OpenAI等大客戶。收購Groq技術並將其整合到Rubin平台,是輝達對競爭者的直接回應。正如Ian Buck所說,公司希望“通過這兩種處理器的結合,走向多智能體未來”。2、生態系統相容:無需修改CUDA對於現有輝達客戶而言,引入Groq LPU的一個重要優勢是軟體相容性。Groq 3 LPX機架與Rubin平台的結合“無需修改現有的NVIDIA CUDA軟體生態系統”。這意味著,企業客戶可以在不重寫程式碼的前提下,通過增加LPU機架來顯著提升推理性能。3、競爭格局:誰將受益?Tom's Hardware分析指出,Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示,公司目前專注於將Groq 3 LPX機架與Rubin整合,因為兩者都旨在提供相似的推理性能增強,而LPU不需要每個Rubin CPX模組所需的大量GDDR7記憶體。在客戶層面,PCMag預測,最大的AI公司——包括OpenAI、Anthropic、Meta——將成為這項技術的首批採用者。這意味著,未來你的聊天機器人查詢或圖像生成請求,可能正由Rubin GPU和Groq LPU協同處理。四、小結:推理時代的新範式Groq 3 LPU的發佈,標誌著輝達對AI計算的理解進入新階段。當行業還在爭論“記憶體容量vs記憶體頻寬”孰輕孰重時,輝達給出了一個務實答案:全都要,但分工協作。Rubin GPU負責需要大容量記憶體和複雜計算的預填充階段,Groq LPU負責需要極致低延遲的解碼階段。兩者通過NVLink和Spectrum-X高速互聯,在Dynamo軟體框架的調度下,如同一台電腦般協同工作。對於企業客戶而言,黃仁勳的建議很明確:如果你的工作負載包含大量需要高互動性的token生成任務,應考慮將資料中心的一部分規模配置給Groq LPU。在智能體AI成為行業下一個“拐點”的當下,這種混合架構可能是保持競爭力的關鍵。而對於三星而言,拿下Groq 3 LPU的代工訂單,標誌著其在AI晶片供應鏈中的地位從“儲存供應商”升級為“全面製造夥伴”。正如黃仁勳所言:“謝謝三星。”這句話背後,是AI算力生態日益複雜的分工與合作。 (芯智訊)
GPU時代落幕?矽谷巨頭集體「叛逃」,輝達1500億瘋狂自救
去GPU化的浪潮,已經攔不住了!OpenAI嫌輝達太慢,Anthropic砸1486億投奔TPU,老黃被迫200億天價收購「叛徒」自救。如今,算力軍備賽正式進入能效為王的新時代:誰先卡住「每焦耳每微秒」的極限,誰或許就是下一個十年的霸主。再過兩周,黃仁勳將站上GTC 2026的舞台。他提前放了話:「我們準備了幾款世界上前所未見的全新晶片。」底氣來自一份炸裂的成績單——輝達2026財年年收入2159億美元,淨利潤翻倍,資料中心業務三年翻了13倍。在財報電話會上,CFO直接甩出一個數字:客戶已經部署了9吉瓦的Blackwell基礎設施!但詭異的一幕出現了。財報發佈當晚,輝達盤後一度漲超4%。隨後股價悄然轉跌,次日直接低開低走,收跌5.46%,一夜蒸發數千億美元市值。華爾街不是看不懂數字,是看懂了趨勢。前有Anthropic甩出210億美元訂單,全面採購基於GoogleTPU的算力系統;後有Meta跟Google簽下數十億美元晶片大單,大規模租用TPU訓練模型。為了給程式設計帶來接近即時的響應體驗,OpenAI更是歷史上首次將主力級產品GPT-5.3-Codex-Spark,部署在了更低延遲與更低能耗的非GPU晶片Cerebras上。輝達最大的幾個客戶,正在集體分散籌碼。全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部)根據摩根大通的產能報告,Google計畫在2027年部署600至700萬顆TPU,大部分供給Anthropic、OpenAI、Meta和蘋果等外部客戶。高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%升至2027年的45%。類似的,IDC也預測,到2028年,中國非GPU伺服器市場規模佔比將逼近50%。GPU的致命短板一個更深層的轉折正在發生:AI的競爭焦點,正從單純的算力規模,轉向對能效比與延遲的極致追求。過去拼誰卡多、誰叢集大。現在拼的是,同樣花一塊錢,誰能吐出更多Token。「每美元產生的Token數」正在取代峰值算力,成為衡量晶片商業價值的核心指標。究其原因在於,GPU的架構決定了,每次計算時資料都要在外部視訊記憶體和計算單元之間來回搬運。路徑長、次數多,能耗就高、延遲就大。堆更多卡解決不了這個問題。路透社爆料,OpenAI已多次表達對輝達晶片的「不滿」——響應速度沒達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條「巨龍」尋求改變。圖靈獎得主David Patterson教授在最新研究中指出,大模型每次token生成都繞不開資料搬運,而搬運能耗遠高於計算本身。未來的核心命題是「讓資料離計算更近」。為此,他給出了三個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。實際上,這些都指向同一件事——用架構創新降低資料搬運的能耗和延遲。換句話說就是,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。GoogleTPU殺向商用市場一直以來,GoogleTPU專供自家大模型訓練和推理,外人用不到。去年開始,Google把TPU推向了商用。訂單隨即湧入。博通CEO透露,Anthropic下了210億美元的大單;Meta簽下數十億美元TPU租賃協議;潛在客戶還包括蘋果和已與SpaceX合併的xAI。原因不難理解。大模型進入規模化落地階段,算力需求爆發、成本壓力加劇,單一依賴GPU的瓶頸越來越明顯。而GoogleTPU的性能,已經具備與頂級GPU分庭抗禮的實力。2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片——單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。劃重點:TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。不僅如此,Google自研的光電路交換機(OCS)技術,還讓萬卡級叢集實現近乎線性的加速比。相比之下,傳統GPU叢集規模越大,通訊損耗越嚴重;而TPU叢集基本不吃這個虧。Google TPU v5e、v5p、v6、v7晶片關鍵性能對比GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。回到成本帳上。TPU憑藉AI專用架構帶來的2-4倍能效優勢,將大模型推理的綜合成本相比GPU拉低50%以上。而這正是Anthropic、Meta們用訂單投票的根本邏輯。當下,大多數大模型企業已經在用TPU+GPU的組合來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。手裡有TPU,就多了一張跟老黃討價還價的牌。未來頭部AI公司大機率都會走「多晶片平行」路線。OpenAI與Anthropic購買算力的成本對比性能跨越式提升,頂尖大模型規模化驗證,頭部公司主動佈局——TPU已從算力產業的補充路線,升級為主流路線。輝達一家獨大的格局,正在被改寫。十年磨一劍「TPU之父」要造下一代AI晶片2025年底,輝達斥資200億美元,拿下AI晶片創企Groq的核心技術和團隊。這是輝達史上最大的一筆交易,溢價近三倍。Groq創始人Jonathan Ross,被稱為「TPU之父」,GoogleTPU的核心設計者之一。離開Google後,他創立Groq的目標很明確:做一顆超越GoogleTPU的晶片。兩者的差異在架構。GoogleTPU走的是「固定架構+叢集擴展」路線。其中,晶片內部搭載固定計算單元,依託二維資料流運算;晶片間通過3D Torus拓撲實現高效互聯。架構穩定,但靈活性有限。GoogleTPU架構Groq的TSP(Tensor Streaming Processor)則是一種「軟體定義硬體」的資料流處理器。其核心理念是,通過建構可重構的軟硬體系統,在保持可程式設計性的同時,達到接近ASIC的極致性能。具體來說,晶片內部做了功能切片化微架構設計,配合軟體層的靈活配置,可根據不同任務即時調整計算邏輯和資料流路徑。同時,依託大容量片上SRAM及靜態調度機制,顯著提升了資料訪存效率並降低搬運能耗。美國DARPA「電子復興計畫」(ERI)高度看好「軟體定義硬體」方向,將其列為國家級戰略核心。這也是Groq被稱為「高階TPU」的原因。資料顯示,在相同推理任務中,Groq晶片首token延遲比GoogleTPU v7降低20%至50%,每token成本降低10%至30%。這場晶片革命,才剛開始加速Groq被收編,但「高階TPU」的進化沒停。國內清微智能、海外Cerebras等公司正在高效資料流動態配置和先進整合方式上持續突破。1. 通過3D Chiplet技術建構三維立體資料流架構。具體來說,「計算核心+3D DRAM芯粒」的組合在垂直與水平兩個維度上形成了高效的資料流計算模式,突破了傳統二維架構的效率侷限。三維架構可以依據計算任務的需求和資料特性,在兩個維度上靈活調度資料流,最大化縮短傳輸路徑,降低搬運過程中的延遲與能耗,從而進一步提升整體計算效率。2. 依託算力網格技術建構靈活資料流計算範式。傳統固定組網存在擴展性和語義適配瓶頸。而算力網格技術則可以通過靈活組網,實現Scale up與Scale out的協同。根據AI任務特性,系統能即時下發資料流的動態配置資訊,在多種互聯拓撲結構間靈活切換、精準調度。最終降低互聯延遲,充分釋放資料流架構的算力。3. 通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。這項技術將資料流架構從晶片尺度擴展到整片晶圓。在整張晶圓上高密度整合大量計算核心,計算核心間的互聯距離被極大縮短。帶來的結果是,互聯頻寬實現數量級提升,通訊延遲大幅降低。資料流架構的算力規模與計算效能由此被推到極致。這也是為什麼晶圓級晶片被視為資料流計算架構的理想物理載體。以Cerebras為例。資料顯示,Cerebras CS 3系統推理性能比輝達旗艦DGX B200快21倍,成本與功耗均降低三分之一,在算力、成本、能效上展現出顯著的綜合優勢。在實測中,OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度,讓程式碼編寫第一次有了即時互動的體驗。Cerebras CS-3 vs輝達GPU:大模型推理速度對比GPU獨霸的時代,回不去了GoogleTPU走出圍牆,OpenAI擁抱晶圓級晶片,輝達天價收編Groq。這些訊號均指向同一個方向:算力世界的單極格局正在鬆動。定義下一代AI上限的,不再是單純的算力規模,而是能耗、延遲、確定性共同構成的AI新標尺。對於國產晶片而言,這是窗口,也是分水嶺。簡單復刻只能分得殘羹,唯有在底層架構上走出自己的創新之路,才有資格進入下一輪博弈。 (新智元)
美國安全審查突襲,中國H200訂單全線凍結!
英國《金融時報》今日援引三位白宮及國會消息人士稱,美國國家安全委員會(NSC)於2月3日啟動新一輪對華AI晶片安全審查,已要求輝達暫停所有H200對華銷售申請,待審查結束後方可重啟批文流程。這意味著原本已獲“口頭放行”的50萬顆H200再次停擺,中國雲廠商春節前搶貨計畫被迫中斷。審查焦點在於“中國潛在用途”與CUDA生態技術外溢風險。NSC擔心,H200雖低於70 TFLOPS紅線,但可通過堆疊組成超算叢集,用於高超音速模擬與情報分析。國會助手透露,此次審查可能持續45-60天,且不排除將H200納入《國際武器貿易條例》(ITAR)管制清單。輝達凌晨回應,將“全面配合政府審查”,並暫停向中國客戶傳送任何新銷售要約。公司已通知阿里、字節等大客戶:已預付但未清關的訂單將暫緩發貨,可選擇退款(扣除物流與關稅成本)或轉口至第三國。現貨市場應聲跳漲:香港倉庫提貨價從4.2萬美元回彈至5萬美元,中間商開始囤貨待漲。中國國產GPU廠商連夜促銷:寒武紀MLU 300現貨價下調至0.95萬美元,並提供120天帳期;摩爾線程把S5000租金再降20%,諮詢量兩日增長3倍。業內普遍認為,若審查持續至4月,中國雲廠商將被迫擴大中國國產卡採購,2026年中國國產AI晶片市佔率有望從18%躍升至35%。對於仍在擴建的中國國產GPU、HBM與封裝產業鏈而言,美國再次“關門”意味著9個月替代窗口正式開啟。 (晶片行業)
昨晚請教了北美專家,聊聊周末刷屏的儲存
上周五儲存再次爆發,主要還是大摩早晨發的兩篇報告(我們周五早晨已發星球),剛好晚上我們請教了北美的儲存專家,側面驗證新邏輯。另外我們再交流幾個話題:3D DRAM、輝達在CES上發佈的新一代 GPU 架構對儲存的影響、以及未來儲存價格的判斷。1/CES2026輝達架構影響從我們以前的儲存框架來講,只是朦朧地知道,在接下來面對更多長文字的時候,可能需要更多的儲存支援。當時行業對轉折原因的分析較為分散,對儲存的判斷不夠清晰。但從25年8月份第三周開始,行情就出現了一個明顯的轉折。尤其是CES之後,輝達在 CES 2026 發佈代號為“Vera”的新一代 GPU 架構,核心升級在於引入專為大模型推理最佳化的計算單元,並配套推出“Context Memory Platform”(CMP,即推理上下文記憶體平台);如果把邏輯推導到我們底層的計算和應用產品線上去講,從第一代、第二代開始就出現了這個問題:即我們所有的大模型都是 Transformer 架構。在這種架構下,都是採用 QKV 的計算方式。當文字越來越長時,KV 快取的容量就會越來越大。在模型早期,KV 快取是直接放在 HBM裡的,因為它必須有足夠的頻寬才能和 GPU 通訊。所以回看兩年前,HBM 突然被叫到了異常的高度,不論多少錢都要去做。背後的邏輯是:輸入的文字越來越長,對 HBM 的需求一定是長期穩定的。因此,幾家原廠才會不遺餘力地將 HBM 作為最高優先順序進行研發投入。雖然良率很低,但每年都在迭代,因為 KV 快取最初就是存在 HBM 裡的。但兩年前大家就發現這是一個問題,因為 HBM 良率低且極其昂貴。那麼有沒有其他方式?其實兩三年前整個行業就預見到了這個問題,於是很多儲存引擎或資料庫軟體應運而生,也就是想辦法把資料從HBM中拿出來。但從 HBM 裡面拿出來,拿出來往那去放?輝達其實在 DPU系列上一直有佈局。在搭載 B200、B300的時候就配有DPU。到了現在的 BlueField-4(BF4),已經是第四代了。BlueField 的核心邏輯就是通過一張 DPU(資料處理器) 來管理幾張卡的資料。其實在去年,DPU 本身就已經具備了解除安裝/外遷KV 快取 的能力,只是當時模型的發展還沒到那個臨界點,軟體層面的最佳化也還沒像今年 CES 展示的這麼明確。在今年 CES 2026 上,輝達正式推出了基於 BF4 的軟體定義邏輯,將每個 GPU 理論上能支援的最大儲存容量具象化了——即通過 DPU 擴展,單 GPU 可支援高達 16TB 的儲存容量。這個數字的量化非常關鍵。之前關注不多的人可能覺得這是一個新增的東西,但實際上,它只是把大家對儲存需求的估值給具體量化了。這導致這一輪市場對儲存的觀點發生了變化。但從整體上看,無論是架構邏輯還是底層原因,在更長期的路線圖上,它的發展方向其實是一脈相承的,並沒有發生根本性的巨變。2/一些儲存的關鍵問題(1)真實缺口僅 5%-10%,為何漲價預期高達 50%?核心邏輯:恐慌性搶購放大效應供需真相:實際物理缺口並不極端(Global Supply ~12w vs Demand ~12w),缺口約 5-10% 。恐慌傳導:上游原材料漲價 20% + 龍頭(華邦)轉產高利產品(DDR4/NAND)-> 供應端收縮訊號明確 。下游由於庫存極低(疫情後未補庫),恐慌情緒被點燃 -> “怕斷貨”心理導致需求被數倍放大 -> 即使提價也無法滿足需求 。價格指引:2025 Q4 已漲 30%,2026 Q1-Q2 預計再漲 30%-50% 。漲價節奏方面,2025年CQ4為行業漲價起點,但當時漲價未充分落地,2026年CQ1、CQ2漲價趨勢明確,市場信心充足,訂單量較高;不過隨著真實訂單和付款推進,2026年下半年行業或將逐步梳理非緊急需求,需求格局將更清晰。(2)漲價傳導機制:這次不一樣?靈魂拷問:這輪漲價是需求拉動還是因為上游漲價被迫跟進?邏輯鏈條:上游:晶圓代工漲價 ~20% 。競對:台系大廠(華邦等)計畫漲價 50%-100% 。應對:國內順勢跟漲 -> 2025 全年漲 30%,Q4 單季漲 20%+,小客戶漲 40% 。展望:未來一年預期再漲 30%-50% 。隱憂:漲價主要由供給側(產能調整、原材料)驅動,而非單純的需求側爆發,需警惕下游承受力 。(3)為什麼模組廠這次可能會“餓死”?為什麼:以前周期上行時,模組廠都能跟著喝湯,這次為什麼原廠不給貨了?邏輯鏈條:HBM 擠出效應:HBM 需要消耗大量晶圓 + 良率低吃產能 -> 且 HBM 單晶圓毛利遠高於 DDR4/5 。策略逆轉:原廠(美光等)“All in AI” -> 只有把晶圓做成 HBM 或 SSD 才划算 -> 拒絕向模組廠出售晶圓(視為低效產能和潛在競爭對手)。結果:模組廠賴以生存的“低買高賣”模式失效,未來 3-5 年面臨持續的晶圓短缺。3/3D DRAM及封裝技術相關上周和一家Fabless晶片供應商交流,他說目前唯一能量產的3D dram之後國內的那家頂流,下一步就是期待手機26年能量產。今天的專家說未來幾年預計不會落地什麼新的技術,像3D dram等先進封裝技術被定義十年以上的長期研發計畫...短期沒有什麼儲存新技術,僅能通過軟體層面最佳化現有SSD產品 (北向牧風)