#輝達GPU | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#輝達GPU

他，扛起又一個任正非時刻！

黃仁勳，急了。 2026年4月15日，在一場長達90分鐘的訪談中，這位輝達掌門人罕見地打破克制，情緒激動地表示： “晶片又不是濃縮鈾，賣給中國怎麼了？” 真正讓他急的，並非一樁買賣的得失，而是一場正在發生的行業巨變。

太恐怖了！比輝達GPU還暴利100倍的行業。——HBM詳解篇

很多人問我為什麼三星海力士為何可以為所欲為，一個季度賺1000億美元，這是怎麼回事。我現在給大家一個計算題。GDDR5或者HBM現在單價100元，成本95元，利潤率只有5%。突然AI爆發，儲存需求暴漲。廠家要求漲價。一個季度，儲存漲價70%。現在單價變成了170元。成本還是95元，那利潤就變成了75元。75÷5＝15。也就是說一個季度漲價70%，利潤卻增長了15倍。那麼股價漲幅大機率會是戴維斯連按兩下，估值提高一倍。15×2等於30倍。也就說這個季度。股價漲30倍才合理。如果第二季度儲存再漲70%，170×1.7=289。289－100＝189。189÷5=37.8。利潤就是增長37.8。37.8÷15=2.52。也就說二季度儲存如果再漲70%，那利潤會在一季度的基礎上再漲1.52倍。大家看清楚儲存股票的邏輯了吧？只要儲存漲價，那股價就會指數級增長，那怕只漲價10%，那利潤率也是倍數增長。所以我的結論是，儲存漲價＝股價十倍價格漲幅。什麼時候股票會跌？儲存價格跌的時候（目前看不到會降價）。 (AI芯界)

租下22萬顆輝達GPU的同一天，Anthropic向GoogleTPU承諾了2000億美元

AI產業從“參數軍備競賽”轉向“算力效率競賽”。幾天前，矽谷傳出消息：Google宣佈，未來五年要提供給Anthropic的算力，規模高達5GW。緊接著，5月6日，這筆交易的價格被揭開——Anthropic承諾未來五年向Google雲支付約2000億美元，用於採購5GW的TPU算力和雲服務。同一天，Anthropic還宣佈租下SpaceX的Colossus1超級電腦，接入超過22萬顆輝達GPU用於推理。 5GW在資料中心行業是什麼概念？它大概相當於5座大型核電站滿負荷運轉的耗電量。這意味著Google幾乎是為了Anthropic新建好幾座超大規模資料中心，裡面塞滿幾十萬塊Google自己設計的TPU晶片。而Anthropic為此付出的承諾採購額高達2000億美元，佔到了Google雲積壓訂單的40%以上。

輝達、蘋果、Google…為何集體重倉這一賽道？

當全球AI競賽進入“場景為王”與“生態制勝”的雙軌時代，一場由底層技術驅動的產業變革正席捲而來。從矽谷到深圳，輝達以GPU算力底座重構生產力邏輯，蘋果借Vision Pro打開AI與物理世界互動入口，Google憑Gemini大模型拓展通用智能邊界；ChatGPT開啟人機互動新形態，人工智慧已從技術噱頭成為行業進化核心引擎。作為數字世界基石的電子產業，正站在智能化轉型的關鍵隘口……AI技術廣泛創新應用當下，電子產業正迎來AI 驅動的深刻變革。從聚焦場景化智能的 “AI 小龍蝦”，到主打全鏈協同的 “Hermes”，AI 技術已在電子產業各環節落地生根。兩大技術方向的崛起，釋放出核心行業訊號：電子產業創新，急需一款兼具AI 原生與全鏈協同能力的全新解決方案。今日，這一行業答案正式揭曉—— 融合 AI 小龍蝦與 Hermes 核心 AI 理念，EDA365AI 應運而生。作為AI 驅動的電子產業智能平台，EDA365AI 平台致力於重塑電子產業從設計、採購到製造的全鏈路創新範式。升級後的EDA365AI平台，以電子產業全域資料為基座、自建百億級資料資產為核心，整合整合庫、知識庫、產品庫、廠商庫等全維度電子行業資料，實現電子領域資料的全品類、高精度沉澱。平台採用雙引擎模型架構：一方面整合主流通用大模型，另一方面自研專業熠瓴多模態大模型，打造“通用能力 + 垂直深耕” 的雙驅動架構，為系統提供核心智能驅動力。依託熠瓴大模型，EDA365AI 平台整合ASED 設計系統、CAMClaw 解析引擎、SailWindEDA 設計工具及行業專業知識庫，建構覆蓋電子產業全鏈條的AI 能力矩陣。通過 AI 技術與全鏈路資料的持續訓練最佳化，平台以 AI 工具為核心載體，全面提升電子產業設計、採購、製造全流程效率。同時，平檯面向企業提供企業級AI 應用輸出，通過多終端客戶端為企業使用者交付高價值AI應用矩陣，推動企業實現組織能力底層變革：AI不是單一工具，是組織能力的創新重塑；重塑業務流程，打破資料與協作壁壘；重塑決策邏輯，實現全流程資料驅動；重塑協作模式，建構人機共生新生態。最終以效率革命，實現企業營運效率與管理效能的雙重提升。未來已來，EDA365AI 將助力企業搭建 “資料 — 模型 — 工具 — 智能體 — 應用” 的端到端的智能閉環，驅動電子產品開發全鏈路智能化升級，共築電子產業發展新範式！EDA365 AI的核心工具EDA365 AI 並非傳統 EDA 工具的“AI 升級版”，它是以三大核心智能體模組為引擎：智能設計：方案設計智能體：從需求到方案自動生成，驅動設計決策智能化。元器件提參建庫智能體：自動解析資料手冊，建構結構化元件整合庫。原理圖輔助設計：智能搜尋參考電路，復用成熟模組，提升設計規範性。PCB輔助設計智能體：AI驅動佈局最佳化與資源分配，提升PCB設計效率。智能採購：器件優選：AI驅動的器件選型決策工具，建構可量化、可驗證的選型閉環，助力從“經驗判斷”轉向“精準定義”。器件優購：一站式智能採購工具，貫通單顆物料精準尋源與整單 BOM 全域配全，實現採購全流程高效、透明、智能。智能製造：PCB報價與預審：線上Gerber檔案參數自動解析、AI提參、線上快速工程EQ確認，工程預審自動化分析。智能DFM分析：AI預測生產缺陷，工藝流程最佳化，確保產品設計一次成功。資料庫：覆蓋從設計原理圖，元器件技術參數，模型，廠商庫等百億級資料庫。 (EDA365電子論壇)

AI性能暴增35倍！輝達發佈全新LPU，GPU不再是唯一主角！

當地時間3月16日，輝達GTC 2026正式美國加州聖何塞召開。輝達創始人兼首席執行長黃仁勳身披標誌性皮衣登場，在長達兩個半小時的主題演講中，勾勒出這家算力巨頭從“晶片公司”向“AI基礎設施工廠”全面蛻變的宏偉藍圖。面對市場對業績持續性的高度關注，黃仁勳給出了極為強勁的預期：到2027年，輝達新一代AI晶片的累計營收將正式跨入1兆美元時代。這一數字是他去年預測的兩倍。本次演講的一大重點，當屬備受期待的Vera Rubin AI工廠平台。與以往發佈單晶片不同，黃仁勳此次展示的是一個包含7款全新晶片的“全家桶”系統。他強調：“過去提到Hopper，我會舉起一塊晶片，那很可愛。但提到Vera Rubin，大家想到的是整個系統。”這一系統級平台的核心元件包括：Vera CPU：全球首款專為“AI智能體時代”與“強化學習”設計的處理器。它搭載88個自研“Olympus”核心，性能較傳統CPU快50%，能效提升達2倍。黃仁勳將其比作智能體系統背後的“指揮與調度中心”，負責管理海量並行任務。Rubin GPU：與Vera CPU通過NVLink-C2C技術實現1.8TB/s的驚人互聯頻寬，共同構成強大的算力核心。NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學器件的Spectrum-X可擴展交換機：構成了一套完整的超高速互聯、網路與資料處理基礎，確保資料在AI工廠內高效流轉。黃仁勳展示了基於這些元件建構的Vera Rubin NVL72機架，它整合了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平台，訓練大型混合專家模型所需GPU數量僅為其四分之一，推理吞吐量/瓦特提升高達10倍。他驕傲地宣稱，通過極致的軟硬體協同設計，在短短兩年內，輝達將1GW資料中心內的Token生成速率提升了350倍。特別值得重點介紹的是，黃仁勳展示Vera Rubin平台的“全家桶”時，還推出了一款看似小巧卻極具戰略意義的晶片——Groq 3語言處理單元（LPU）。這款源自輝達去年12月以約200億美元收購Groq核心技術資產的晶片，被黃仁勳定位為Rubin GPU的“推理協處理器”，成為了Vera Rubin平台的又一基石。黃仁勳解釋了引入LPU的戰略考量時指出：在AI智能體時代，推理需求正加速分化。面對需要極高互動性、超短響應時間的任務，傳統GPU架構存在性能冗餘。為此，輝達引入了專注於“極致低延遲Token生成”的LPU架構。本文將深入解析Groq 3 LPU的技術細節、混合推理架構以及它對AI推理市場的深遠影響。一、技術顛覆：打造150TB/s的SRAM怪獸Groq 3 LPU最引人注目的特點，在於其徹底顛覆了傳統AI加速器的記憶體架構。1、500MB片上SRAM：頻寬的極致追求與大多數依賴HBM（高頻寬記憶體）作為工作記憶體層的AI加速器不同，每個Groq 3 LPU晶片整合了500MB的片上SRAM（靜態隨機存取儲存器）。這種記憶體此前主要用於CPU和GPU的超快取記憶體，從未在AI加速器中擔當主角。這500MB SRAM看似“微不足道”——與每個Rubin GPU上容量高達288GB的HBM4相比，僅為其1/500。但SRAM的關鍵優勢在於頻寬：這塊SRAM可提供高達150TB/s的頻寬，而HBM4的頻寬僅為22TB/s。這意味著，對於頻寬極度敏感的AI解碼操作，Groq 3 LPU的頻寬是傳統HBM的近7倍。輝達超大規模計算副總裁Ian Buck對此解釋道：“讓我們對比一下這兩種處理器：GPU擁有288GB記憶體，但頻寬是22TB/s；LPU只有1/500的容量，但頻寬達到了驚人的150TB/s。對於需要極致低延遲的token生成任務，LPU的頻寬優勢無可替代。”基於此晶片的Groq 3 LPX機架配備256顆LPU，提供128GB片上SRAM和640TB/s總頻寬。黃仁勳描繪了GPU與LPU協同工作的未來圖景：Vera Rubin負責需要海量計算的“預填充”階段，而Groq LPU則負責對延遲極度敏感的“解碼”階段。在這種混合架構下，系統的推理吞吐量與功耗比最高可提升35倍。他建議企業客戶，若工作負載包含大量高價值的Token生成需求，應將25%的資料中心規模配置給Groq。據悉，由三星代工的Groq LP30晶片已進入量產，預計今年第三季度出貨。2、三星代工：黃仁勳現場致謝在GTC主題演講中，黃仁勳特別提到三星電子，感謝其為輝達加快生產Groq 3 LPU晶片。這是輝達首次公開確認三星晶圓代工部門參與下一代AI晶片生產。“三星為輝達生產Groq 3 LPU晶片，並正在加快生產速度，我非常感謝三星。”黃仁勳在演講中表示。他進一步透露，該晶片將於2026年第三季度正式出貨。這一合作標誌著三星與輝達的夥伴關係從儲存領域（HBM）正式擴展到晶圓代工領域。三星電子當天在GTC大會現場展出了第七代HBM產品“HBM4E”和垂直堆疊晶片“核心裸片”，積極宣傳其在儲存和代工領域的雙重合作。3、技術代價：容量與成本的博弈SRAM的優勢背後是殘酷的工程權衡。SRAM的生產成本遠高於DRAM，且佔用更大的晶片面積。這導致單個Groq 3 LPU僅能提供500MB記憶體，遠不足以獨立運行兆參數等級的超大AI模型。輝達的解決方案是：用數量彌補容量。公司將256顆Groq 3 LPU整合到一個Groq 3 LPX機架中，提供128GB的片上SRAM和40 PB/s的推理加速頻寬。該機架採用液冷設計，通過每個機架640TB/s的專用擴展介面將晶片互聯。Ian Buck坦承這種設計的侷限性：“你需要很多晶片才能獲得那種性能。從每晶片的token吞吐量（經濟性）來看，LPU其實相當低。”二、混合架構：GPU+LPU如何協同工作？既然LPU有容量短板，輝達為何要大費周章將其納入Rubin平台？答案在於推理任務的分工協作。1、預填充階段 vs. 解碼階段大語言模型的推理過程可分為兩個階段：預填充階段：處理輸入提示（prompt），平行計算所有輸入token，生成中間狀態。這一階段需要強大的浮點運算能力和大容量記憶體來儲存鍵值快取。解碼階段：逐個生成輸出token，每一步都依賴於之前生成的token。這一階段對延遲極度敏感，且受記憶體頻寬限制嚴重。輝達的策略是：讓Rubin GPU負責預填充階段，讓Groq LPU負責解碼階段。具體來說，在輝達新引入的Dynamo軟體框架協調下：Rubin GPU利用其288GB HBM4和強大的浮點運算能力，處理複雜的注意力機制（Attention）計算和數學運算，儲存大型鍵值快取Groq LPU利用其150TB/s的超高頻寬，處理前饋神經網路（FFN）層計算，實現極低延遲的逐token生成2、智能體間通訊：從100 token/s到1500 token/s隨著AI從單一大模型走向多智能體系統（multi-agent systems），推理延遲的要求發生了根本性變化。Ian Buck描繪了這樣的未來場景：在多智能體系統中，AI代理越來越多地與其他AI進行互動，而非與查看聊天窗口的人類交流。對人類而言看似合理的每秒100 token生成速率，對AI代理來說卻如同蝸牛爬行。Buck表示：“Rubin GPU和Groq LPU的組合將人工智慧代理間通訊的吞吐量從每秒100個token提升到每秒1500個token甚至更高。”3、35倍性能提升：資料背後的工程奇蹟根據輝達官方基準測試，當運行達到1兆參數規模的大語言模型時，Rubin GPU與Groq LPU組合相比上代方案，推理吞吐量每瓦特提升高達35倍。具體到成本層面，輝達強調，這一組合方案運行超大AI模型時，每百萬token的成本為45美元，每秒token處理量達到500。輝達聲稱，這將使超大AI模型服務的創收機會增加10倍。三、戰略意義：輝達為何需要LPU？1、填補推理市場的短板分析認為，“通過結合Rubin GPU和Groq LPX，輝達終於進入了推理市場——一個它從未成為第一的市場。”長期以來，輝達的GPU在訓練市場佔據絕對主導，但在低延遲推理領域，面臨著Cerebras、Groq（收購前）等挑戰者的競爭。Cerebras的晶圓級引擎同樣整合了大量SRAM，為先進模型提供低延遲推理，甚至吸引了OpenAI等大客戶。收購Groq技術並將其整合到Rubin平台，是輝達對競爭者的直接回應。正如Ian Buck所說，公司希望“通過這兩種處理器的結合，走向多智能體未來”。2、生態系統相容：無需修改CUDA對於現有輝達客戶而言，引入Groq LPU的一個重要優勢是軟體相容性。Groq 3 LPX機架與Rubin平台的結合“無需修改現有的NVIDIA CUDA軟體生態系統”。這意味著，企業客戶可以在不重寫程式碼的前提下，通過增加LPU機架來顯著提升推理性能。3、競爭格局：誰將受益？Tom's Hardware分析指出，Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示，公司目前專注於將Groq 3 LPX機架與Rubin整合，因為兩者都旨在提供相似的推理性能增強，而LPU不需要每個Rubin CPX模組所需的大量GDDR7記憶體。在客戶層面，PCMag預測，最大的AI公司——包括OpenAI、Anthropic、Meta——將成為這項技術的首批採用者。這意味著，未來你的聊天機器人查詢或圖像生成請求，可能正由Rubin GPU和Groq LPU協同處理。四、小結：推理時代的新範式Groq 3 LPU的發佈，標誌著輝達對AI計算的理解進入新階段。當行業還在爭論“記憶體容量vs記憶體頻寬”孰輕孰重時，輝達給出了一個務實答案：全都要，但分工協作。Rubin GPU負責需要大容量記憶體和複雜計算的預填充階段，Groq LPU負責需要極致低延遲的解碼階段。兩者通過NVLink和Spectrum-X高速互聯，在Dynamo軟體框架的調度下，如同一台電腦般協同工作。對於企業客戶而言，黃仁勳的建議很明確：如果你的工作負載包含大量需要高互動性的token生成任務，應考慮將資料中心的一部分規模配置給Groq LPU。在智能體AI成為行業下一個“拐點”的當下，這種混合架構可能是保持競爭力的關鍵。而對於三星而言，拿下Groq 3 LPU的代工訂單，標誌著其在AI晶片供應鏈中的地位從“儲存供應商”升級為“全面製造夥伴”。正如黃仁勳所言：“謝謝三星。”這句話背後，是AI算力生態日益複雜的分工與合作。 (芯智訊)

GPU時代落幕？矽谷巨頭集體「叛逃」，輝達1500億瘋狂自救

去GPU化的浪潮，已經攔不住了！OpenAI嫌輝達太慢，Anthropic砸1486億投奔TPU，老黃被迫200億天價收購「叛徒」自救。如今，算力軍備賽正式進入能效為王的新時代：誰先卡住「每焦耳每微秒」的極限，誰或許就是下一個十年的霸主。再過兩周，黃仁勳將站上GTC 2026的舞台。他提前放了話：「我們準備了幾款世界上前所未見的全新晶片。」底氣來自一份炸裂的成績單——輝達2026財年年收入2159億美元，淨利潤翻倍，資料中心業務三年翻了13倍。在財報電話會上，CFO直接甩出一個數字：客戶已經部署了9吉瓦的Blackwell基礎設施！但詭異的一幕出現了。財報發佈當晚，輝達盤後一度漲超4%。隨後股價悄然轉跌，次日直接低開低走，收跌5.46%，一夜蒸發數千億美元市值。華爾街不是看不懂數字，是看懂了趨勢。前有Anthropic甩出210億美元訂單，全面採購基於GoogleTPU的算力系統；後有Meta跟Google簽下數十億美元晶片大單，大規模租用TPU訓練模型。為了給程式設計帶來接近即時的響應體驗，OpenAI更是歷史上首次將主力級產品GPT-5.3-Codex-Spark，部署在了更低延遲與更低能耗的非GPU晶片Cerebras上。輝達最大的幾個客戶，正在集體分散籌碼。全球AI晶片中GPU架構和非GPU架構比例（資料來源：高盛全球投資研究部）根據摩根大通的產能報告，Google計畫在2027年部署600至700萬顆TPU，大部分供給Anthropic、OpenAI、Meta和蘋果等外部客戶。高盛投資研究部的模型顯示，全球AI伺服器中非GPU晶片出貨佔比，將從2024年的36%升至2027年的45%。類似的，IDC也預測，到2028年，中國非GPU伺服器市場規模佔比將逼近50%。GPU的致命短板一個更深層的轉折正在發生：AI的競爭焦點，正從單純的算力規模，轉向對能效比與延遲的極致追求。過去拼誰卡多、誰叢集大。現在拼的是，同樣花一塊錢，誰能吐出更多Token。「每美元產生的Token數」正在取代峰值算力，成為衡量晶片商業價值的核心指標。究其原因在於，GPU的架構決定了，每次計算時資料都要在外部視訊記憶體和計算單元之間來回搬運。路徑長、次數多，能耗就高、延遲就大。堆更多卡解決不了這個問題。路透社爆料，OpenAI已多次表達對輝達晶片的「不滿」——響應速度沒達預期，在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條「巨龍」尋求改變。圖靈獎得主David Patterson教授在最新研究中指出，大模型每次token生成都繞不開資料搬運，而搬運能耗遠高於計算本身。未來的核心命題是「讓資料離計算更近」。為此，他給出了三個AI晶片的演進方向：近記憶體處理、3D堆疊、低延遲互連。實際上，這些都指向同一件事——用架構創新降低資料搬運的能耗和延遲。換句話說就是，誰能用更低的能耗、更低的延遲跑通下一代模型，誰就能在未來十年的算力牌桌上佔得先機。GoogleTPU殺向商用市場一直以來，GoogleTPU專供自家大模型訓練和推理，外人用不到。去年開始，Google把TPU推向了商用。訂單隨即湧入。博通CEO透露，Anthropic下了210億美元的大單；Meta簽下數十億美元TPU租賃協議；潛在客戶還包括蘋果和已與SpaceX合併的xAI。原因不難理解。大模型進入規模化落地階段，算力需求爆發、成本壓力加劇，單一依賴GPU的瓶頸越來越明顯。而GoogleTPU的性能，已經具備與頂級GPU分庭抗禮的實力。2025年推出的第七代TPU，是Google迄今為止性能最高、可擴展性最強的AI晶片——單晶片峰值算力4614 TFLOPS（FP8精度），最大叢集9216顆晶片、總算力達42.5 EFLOPS。劃重點：TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。不僅如此，Google自研的光電路交換機（OCS）技術，還讓萬卡級叢集實現近乎線性的加速比。相比之下，傳統GPU叢集規模越大，通訊損耗越嚴重；而TPU叢集基本不吃這個虧。Google TPU v5e、v5p、v6、v7晶片關鍵性能對比GoogleTPU崛起還有更為直接的例證：在TPU上訓練的Gemini 3，在多個權威基準測試中位居榜首，為業界頂尖模型之一。回到成本帳上。TPU憑藉AI專用架構帶來的2-4倍能效優勢，將大模型推理的綜合成本相比GPU拉低50%以上。而這正是Anthropic、Meta們用訂單投票的根本邏輯。當下，大多數大模型企業已經在用TPU+GPU的組合來緩解成本壓力。去年11月，半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現：與OpenAI相比，同時使用TPU與GPU的Anthropic，在與輝達談判時擁有更強的議價權。手裡有TPU，就多了一張跟老黃討價還價的牌。未來頭部AI公司大機率都會走「多晶片平行」路線。OpenAI與Anthropic購買算力的成本對比性能跨越式提升，頂尖大模型規模化驗證，頭部公司主動佈局——TPU已從算力產業的補充路線，升級為主流路線。輝達一家獨大的格局，正在被改寫。十年磨一劍「TPU之父」要造下一代AI晶片2025年底，輝達斥資200億美元，拿下AI晶片創企Groq的核心技術和團隊。這是輝達史上最大的一筆交易，溢價近三倍。Groq創始人Jonathan Ross，被稱為「TPU之父」，GoogleTPU的核心設計者之一。離開Google後，他創立Groq的目標很明確：做一顆超越GoogleTPU的晶片。兩者的差異在架構。GoogleTPU走的是「固定架構+叢集擴展」路線。其中，晶片內部搭載固定計算單元，依託二維資料流運算；晶片間通過3D Torus拓撲實現高效互聯。架構穩定，但靈活性有限。GoogleTPU架構Groq的TSP（Tensor Streaming Processor）則是一種「軟體定義硬體」的資料流處理器。其核心理念是，通過建構可重構的軟硬體系統，在保持可程式設計性的同時，達到接近ASIC的極致性能。具體來說，晶片內部做了功能切片化微架構設計，配合軟體層的靈活配置，可根據不同任務即時調整計算邏輯和資料流路徑。同時，依託大容量片上SRAM及靜態調度機制，顯著提升了資料訪存效率並降低搬運能耗。美國DARPA「電子復興計畫」（ERI）高度看好「軟體定義硬體」方向，將其列為國家級戰略核心。這也是Groq被稱為「高階TPU」的原因。資料顯示，在相同推理任務中，Groq晶片首token延遲比GoogleTPU v7降低20%至50%，每token成本降低10%至30%。這場晶片革命，才剛開始加速Groq被收編，但「高階TPU」的進化沒停。國內清微智能、海外Cerebras等公司正在高效資料流動態配置和先進整合方式上持續突破。1. 通過3D Chiplet技術建構三維立體資料流架構。具體來說，「計算核心+3D DRAM芯粒」的組合在垂直與水平兩個維度上形成了高效的資料流計算模式，突破了傳統二維架構的效率侷限。三維架構可以依據計算任務的需求和資料特性，在兩個維度上靈活調度資料流，最大化縮短傳輸路徑，降低搬運過程中的延遲與能耗，從而進一步提升整體計算效率。2. 依託算力網格技術建構靈活資料流計算範式。傳統固定組網存在擴展性和語義適配瓶頸。而算力網格技術則可以通過靈活組網，實現Scale up與Scale out的協同。根據AI任務特性，系統能即時下發資料流的動態配置資訊，在多種互聯拓撲結構間靈活切換、精準調度。最終降低互聯延遲，充分釋放資料流架構的算力。3. 通過前沿的晶圓級晶片技術，將資料流架構的優勢發揮到極致。這項技術將資料流架構從晶片尺度擴展到整片晶圓。在整張晶圓上高密度整合大量計算核心，計算核心間的互聯距離被極大縮短。帶來的結果是，互聯頻寬實現數量級提升，通訊延遲大幅降低。資料流架構的算力規模與計算效能由此被推到極致。這也是為什麼晶圓級晶片被視為資料流計算架構的理想物理載體。以Cerebras為例。資料顯示，Cerebras CS 3系統推理性能比輝達旗艦DGX B200快21倍，成本與功耗均降低三分之一，在算力、成本、能效上展現出顯著的綜合優勢。在實測中，OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度，讓程式碼編寫第一次有了即時互動的體驗。Cerebras CS-3 vs輝達GPU：大模型推理速度對比GPU獨霸的時代，回不去了GoogleTPU走出圍牆，OpenAI擁抱晶圓級晶片，輝達天價收編Groq。這些訊號均指向同一個方向：算力世界的單極格局正在鬆動。定義下一代AI上限的，不再是單純的算力規模，而是能耗、延遲、確定性共同構成的AI新標尺。對於國產晶片而言，這是窗口，也是分水嶺。簡單復刻只能分得殘羹，唯有在底層架構上走出自己的創新之路，才有資格進入下一輪博弈。 (新智元)

美國安全審查突襲，中國H200訂單全線凍結！

英國《金融時報》今日援引三位白宮及國會消息人士稱，美國國家安全委員會（NSC）於2月3日啟動新一輪對華AI晶片安全審查，已要求輝達暫停所有H200對華銷售申請，待審查結束後方可重啟批文流程。這意味著原本已獲“口頭放行”的50萬顆H200再次停擺，中國雲廠商春節前搶貨計畫被迫中斷。審查焦點在於“中國潛在用途”與CUDA生態技術外溢風險。NSC擔心，H200雖低於70 TFLOPS紅線，但可通過堆疊組成超算叢集，用於高超音速模擬與情報分析。國會助手透露，此次審查可能持續45-60天，且不排除將H200納入《國際武器貿易條例》（ITAR）管制清單。輝達凌晨回應，將“全面配合政府審查”，並暫停向中國客戶傳送任何新銷售要約。公司已通知阿里、字節等大客戶：已預付但未清關的訂單將暫緩發貨，可選擇退款（扣除物流與關稅成本）或轉口至第三國。現貨市場應聲跳漲：香港倉庫提貨價從4.2萬美元回彈至5萬美元，中間商開始囤貨待漲。中國國產GPU廠商連夜促銷：寒武紀MLU 300現貨價下調至0.95萬美元，並提供120天帳期；摩爾線程把S5000租金再降20%，諮詢量兩日增長3倍。業內普遍認為，若審查持續至4月，中國雲廠商將被迫擴大中國國產卡採購，2026年中國國產AI晶片市佔率有望從18%躍升至35%。對於仍在擴建的中國國產GPU、HBM與封裝產業鏈而言，美國再次“關門”意味著9個月替代窗口正式開啟。 (晶片行業)

昨晚請教了北美專家，聊聊周末刷屏的儲存

上周五儲存再次爆發，主要還是大摩早晨發的兩篇報告（我們周五早晨已發星球），剛好晚上我們請教了北美的儲存專家，側面驗證新邏輯。另外我們再交流幾個話題：3D DRAM、輝達在CES上發佈的新一代 GPU 架構對儲存的影響、以及未來儲存價格的判斷。1/CES2026輝達架構影響從我們以前的儲存框架來講，只是朦朧地知道，在接下來面對更多長文字的時候，可能需要更多的儲存支援。當時行業對轉折原因的分析較為分散，對儲存的判斷不夠清晰。但從25年8月份第三周開始，行情就出現了一個明顯的轉折。尤其是CES之後，輝達在 CES 2026 發佈代號為“Vera”的新一代 GPU 架構，核心升級在於引入專為大模型推理最佳化的計算單元，並配套推出“Context Memory Platform”（CMP，即推理上下文記憶體平台）；如果把邏輯推導到我們底層的計算和應用產品線上去講，從第一代、第二代開始就出現了這個問題：即我們所有的大模型都是 Transformer 架構。在這種架構下，都是採用 QKV 的計算方式。當文字越來越長時，KV 快取的容量就會越來越大。在模型早期，KV 快取是直接放在 HBM裡的，因為它必須有足夠的頻寬才能和 GPU 通訊。所以回看兩年前，HBM 突然被叫到了異常的高度，不論多少錢都要去做。背後的邏輯是：輸入的文字越來越長，對 HBM 的需求一定是長期穩定的。因此，幾家原廠才會不遺餘力地將 HBM 作為最高優先順序進行研發投入。雖然良率很低，但每年都在迭代，因為 KV 快取最初就是存在 HBM 裡的。但兩年前大家就發現這是一個問題，因為 HBM 良率低且極其昂貴。那麼有沒有其他方式？其實兩三年前整個行業就預見到了這個問題，於是很多儲存引擎或資料庫軟體應運而生，也就是想辦法把資料從HBM中拿出來。但從 HBM 裡面拿出來，拿出來往那去放？輝達其實在 DPU系列上一直有佈局。在搭載 B200、B300的時候就配有DPU。到了現在的 BlueField-4（BF4），已經是第四代了。BlueField 的核心邏輯就是通過一張 DPU（資料處理器）來管理幾張卡的資料。其實在去年，DPU 本身就已經具備了解除安裝/外遷KV 快取的能力，只是當時模型的發展還沒到那個臨界點，軟體層面的最佳化也還沒像今年 CES 展示的這麼明確。在今年 CES 2026 上，輝達正式推出了基於 BF4 的軟體定義邏輯，將每個 GPU 理論上能支援的最大儲存容量具象化了——即通過 DPU 擴展，單 GPU 可支援高達 16TB 的儲存容量。這個數字的量化非常關鍵。之前關注不多的人可能覺得這是一個新增的東西，但實際上，它只是把大家對儲存需求的估值給具體量化了。這導致這一輪市場對儲存的觀點發生了變化。但從整體上看，無論是架構邏輯還是底層原因，在更長期的路線圖上，它的發展方向其實是一脈相承的，並沒有發生根本性的巨變。2/一些儲存的關鍵問題（1）真實缺口僅 5%-10%，為何漲價預期高達 50%？核心邏輯：恐慌性搶購放大效應供需真相：實際物理缺口並不極端（Global Supply ~12w vs Demand ~12w），缺口約 5-10% 。恐慌傳導：上游原材料漲價 20% + 龍頭（華邦）轉產高利產品（DDR4/NAND）-> 供應端收縮訊號明確。下游由於庫存極低（疫情後未補庫），恐慌情緒被點燃 -> “怕斷貨”心理導致需求被數倍放大 -> 即使提價也無法滿足需求。價格指引：2025 Q4 已漲 30%，2026 Q1-Q2 預計再漲 30%-50% 。漲價節奏方面，2025年CQ4為行業漲價起點，但當時漲價未充分落地，2026年CQ1、CQ2漲價趨勢明確，市場信心充足，訂單量較高；不過隨著真實訂單和付款推進，2026年下半年行業或將逐步梳理非緊急需求，需求格局將更清晰。（2）漲價傳導機制：這次不一樣？靈魂拷問：這輪漲價是需求拉動還是因為上游漲價被迫跟進？邏輯鏈條：上游：晶圓代工漲價 ~20% 。競對：台系大廠（華邦等）計畫漲價 50%-100% 。應對：國內順勢跟漲 -> 2025 全年漲 30%，Q4 單季漲 20%+，小客戶漲 40% 。展望：未來一年預期再漲 30%-50% 。隱憂：漲價主要由供給側（產能調整、原材料）驅動，而非單純的需求側爆發，需警惕下游承受力。（3）為什麼模組廠這次可能會“餓死”？為什麼：以前周期上行時，模組廠都能跟著喝湯，這次為什麼原廠不給貨了？邏輯鏈條：HBM 擠出效應：HBM 需要消耗大量晶圓 + 良率低吃產能 -> 且 HBM 單晶圓毛利遠高於 DDR4/5 。策略逆轉：原廠（美光等）“All in AI” -> 只有把晶圓做成 HBM 或 SSD 才划算 -> 拒絕向模組廠出售晶圓（視為低效產能和潛在競爭對手）。結果：模組廠賴以生存的“低買高賣”模式失效，未來 3-5 年面臨持續的晶圓短缺。3/3D DRAM及封裝技術相關上周和一家Fabless晶片供應商交流，他說目前唯一能量產的3D dram之後國內的那家頂流，下一步就是期待手機26年能量產。今天的專家說未來幾年預計不會落地什麼新的技術，像3D dram等先進封裝技術被定義十年以上的長期研發計畫...短期沒有什麼儲存新技術，僅能通過軟體層面最佳化現有SSD產品 (北向牧風)