#輝達GPU
AI性能暴增35倍!輝達發佈全新LPU,GPU不再是唯一主角!
當地時間3月16日,輝達GTC 2026正式美國加州聖何塞召開。輝達創始人兼首席執行長黃仁勳身披標誌性皮衣登場,在長達兩個半小時的主題演講中,勾勒出這家算力巨頭從“晶片公司”向“AI基礎設施工廠”全面蛻變的宏偉藍圖。面對市場對業績持續性的高度關注,黃仁勳給出了極為強勁的預期:到2027年,輝達新一代AI晶片的累計營收將正式跨入1兆美元時代。這一數字是他去年預測的兩倍。本次演講的一大重點,當屬備受期待的Vera Rubin AI工廠平台。與以往發佈單晶片不同,黃仁勳此次展示的是一個包含7款全新晶片的“全家桶”系統。他強調:“過去提到Hopper,我會舉起一塊晶片,那很可愛。但提到Vera Rubin,大家想到的是整個系統。”這一系統級平台的核心元件包括:Vera CPU:全球首款專為“AI智能體時代”與“強化學習”設計的處理器。它搭載88個自研“Olympus”核心,性能較傳統CPU快50%,能效提升達2倍。黃仁勳將其比作智能體系統背後的“指揮與調度中心”,負責管理海量並行任務。Rubin GPU:與Vera CPU通過NVLink-C2C技術實現1.8TB/s的驚人互聯頻寬,共同構成強大的算力核心。NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學器件的Spectrum-X可擴展交換機:構成了一套完整的超高速互聯、網路與資料處理基礎,確保資料在AI工廠內高效流轉。黃仁勳展示了基於這些元件建構的Vera Rubin NVL72機架,它整合了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平台,訓練大型混合專家模型所需GPU數量僅為其四分之一,推理吞吐量/瓦特提升高達10倍。他驕傲地宣稱,通過極致的軟硬體協同設計,在短短兩年內,輝達將1GW資料中心內的Token生成速率提升了350倍。特別值得重點介紹的是,黃仁勳展示Vera Rubin平台的“全家桶”時,還推出了一款看似小巧卻極具戰略意義的晶片——Groq 3語言處理單元(LPU)。這款源自輝達去年12月以約200億美元收購Groq核心技術資產的晶片,被黃仁勳定位為Rubin GPU的“推理協處理器”,成為了Vera Rubin平台的又一基石。黃仁勳解釋了引入LPU的戰略考量時指出:在AI智能體時代,推理需求正加速分化。面對需要極高互動性、超短響應時間的任務,傳統GPU架構存在性能冗餘。為此,輝達引入了專注於“極致低延遲Token生成”的LPU架構。本文將深入解析Groq 3 LPU的技術細節、混合推理架構以及它對AI推理市場的深遠影響。一、技術顛覆:打造150TB/s的SRAM怪獸Groq 3 LPU最引人注目的特點,在於其徹底顛覆了傳統AI加速器的記憶體架構。1、500MB片上SRAM:頻寬的極致追求與大多數依賴HBM(高頻寬記憶體)作為工作記憶體層的AI加速器不同,每個Groq 3 LPU晶片整合了500MB的片上SRAM(靜態隨機存取儲存器)。這種記憶體此前主要用於CPU和GPU的超快取記憶體,從未在AI加速器中擔當主角。這500MB SRAM看似“微不足道”——與每個Rubin GPU上容量高達288GB的HBM4相比,僅為其1/500。但SRAM的關鍵優勢在於頻寬:這塊SRAM可提供高達150TB/s的頻寬,而HBM4的頻寬僅為22TB/s。這意味著,對於頻寬極度敏感的AI解碼操作,Groq 3 LPU的頻寬是傳統HBM的近7倍。輝達超大規模計算副總裁Ian Buck對此解釋道:“讓我們對比一下這兩種處理器:GPU擁有288GB記憶體,但頻寬是22TB/s;LPU只有1/500的容量,但頻寬達到了驚人的150TB/s。對於需要極致低延遲的token生成任務,LPU的頻寬優勢無可替代。”基於此晶片的Groq 3 LPX機架配備256顆LPU,提供128GB片上SRAM和640TB/s總頻寬。黃仁勳描繪了GPU與LPU協同工作的未來圖景:Vera Rubin負責需要海量計算的“預填充”階段,而Groq LPU則負責對延遲極度敏感的“解碼”階段。在這種混合架構下,系統的推理吞吐量與功耗比最高可提升35倍。他建議企業客戶,若工作負載包含大量高價值的Token生成需求,應將25%的資料中心規模配置給Groq。據悉,由三星代工的Groq LP30晶片已進入量產,預計今年第三季度出貨。2、三星代工:黃仁勳現場致謝在GTC主題演講中,黃仁勳特別提到三星電子,感謝其為輝達加快生產Groq 3 LPU晶片。這是輝達首次公開確認三星晶圓代工部門參與下一代AI晶片生產。“三星為輝達生產Groq 3 LPU晶片,並正在加快生產速度,我非常感謝三星。”黃仁勳在演講中表示。他進一步透露,該晶片將於2026年第三季度正式出貨。這一合作標誌著三星與輝達的夥伴關係從儲存領域(HBM)正式擴展到晶圓代工領域。三星電子當天在GTC大會現場展出了第七代HBM產品“HBM4E”和垂直堆疊晶片“核心裸片”,積極宣傳其在儲存和代工領域的雙重合作。3、技術代價:容量與成本的博弈SRAM的優勢背後是殘酷的工程權衡。SRAM的生產成本遠高於DRAM,且佔用更大的晶片面積。這導致單個Groq 3 LPU僅能提供500MB記憶體,遠不足以獨立運行兆參數等級的超大AI模型。輝達的解決方案是:用數量彌補容量。公司將256顆Groq 3 LPU整合到一個Groq 3 LPX機架中,提供128GB的片上SRAM和40 PB/s的推理加速頻寬。該機架採用液冷設計,通過每個機架640TB/s的專用擴展介面將晶片互聯。Ian Buck坦承這種設計的侷限性:“你需要很多晶片才能獲得那種性能。從每晶片的token吞吐量(經濟性)來看,LPU其實相當低。”二、混合架構:GPU+LPU如何協同工作?既然LPU有容量短板,輝達為何要大費周章將其納入Rubin平台?答案在於推理任務的分工協作。1、預填充階段 vs. 解碼階段大語言模型的推理過程可分為兩個階段:預填充階段:處理輸入提示(prompt),平行計算所有輸入token,生成中間狀態。這一階段需要強大的浮點運算能力和大容量記憶體來儲存鍵值快取。解碼階段:逐個生成輸出token,每一步都依賴於之前生成的token。這一階段對延遲極度敏感,且受記憶體頻寬限制嚴重。輝達的策略是:讓Rubin GPU負責預填充階段,讓Groq LPU負責解碼階段。具體來說,在輝達新引入的Dynamo軟體框架協調下:Rubin GPU利用其288GB HBM4和強大的浮點運算能力,處理複雜的注意力機制(Attention)計算和數學運算,儲存大型鍵值快取Groq LPU利用其150TB/s的超高頻寬,處理前饋神經網路(FFN)層計算,實現極低延遲的逐token生成2、智能體間通訊:從100 token/s到1500 token/s隨著AI從單一大模型走向多智能體系統(multi-agent systems),推理延遲的要求發生了根本性變化。Ian Buck描繪了這樣的未來場景:在多智能體系統中,AI代理越來越多地與其他AI進行互動,而非與查看聊天窗口的人類交流。對人類而言看似合理的每秒100 token生成速率,對AI代理來說卻如同蝸牛爬行。Buck表示:“Rubin GPU和Groq LPU的組合將人工智慧代理間通訊的吞吐量從每秒100個token提升到每秒1500個token甚至更高。”3、35倍性能提升:資料背後的工程奇蹟根據輝達官方基準測試,當運行達到1兆參數規模的大語言模型時,Rubin GPU與Groq LPU組合相比上代方案,推理吞吐量每瓦特提升高達35倍。具體到成本層面,輝達強調,這一組合方案運行超大AI模型時,每百萬token的成本為45美元,每秒token處理量達到500。輝達聲稱,這將使超大AI模型服務的創收機會增加10倍。三、戰略意義:輝達為何需要LPU?1、填補推理市場的短板分析認為,“通過結合Rubin GPU和Groq LPX,輝達終於進入了推理市場——一個它從未成為第一的市場。”長期以來,輝達的GPU在訓練市場佔據絕對主導,但在低延遲推理領域,面臨著Cerebras、Groq(收購前)等挑戰者的競爭。Cerebras的晶圓級引擎同樣整合了大量SRAM,為先進模型提供低延遲推理,甚至吸引了OpenAI等大客戶。收購Groq技術並將其整合到Rubin平台,是輝達對競爭者的直接回應。正如Ian Buck所說,公司希望“通過這兩種處理器的結合,走向多智能體未來”。2、生態系統相容:無需修改CUDA對於現有輝達客戶而言,引入Groq LPU的一個重要優勢是軟體相容性。Groq 3 LPX機架與Rubin平台的結合“無需修改現有的NVIDIA CUDA軟體生態系統”。這意味著,企業客戶可以在不重寫程式碼的前提下,通過增加LPU機架來顯著提升推理性能。3、競爭格局:誰將受益?Tom's Hardware分析指出,Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示,公司目前專注於將Groq 3 LPX機架與Rubin整合,因為兩者都旨在提供相似的推理性能增強,而LPU不需要每個Rubin CPX模組所需的大量GDDR7記憶體。在客戶層面,PCMag預測,最大的AI公司——包括OpenAI、Anthropic、Meta——將成為這項技術的首批採用者。這意味著,未來你的聊天機器人查詢或圖像生成請求,可能正由Rubin GPU和Groq LPU協同處理。四、小結:推理時代的新範式Groq 3 LPU的發佈,標誌著輝達對AI計算的理解進入新階段。當行業還在爭論“記憶體容量vs記憶體頻寬”孰輕孰重時,輝達給出了一個務實答案:全都要,但分工協作。Rubin GPU負責需要大容量記憶體和複雜計算的預填充階段,Groq LPU負責需要極致低延遲的解碼階段。兩者通過NVLink和Spectrum-X高速互聯,在Dynamo軟體框架的調度下,如同一台電腦般協同工作。對於企業客戶而言,黃仁勳的建議很明確:如果你的工作負載包含大量需要高互動性的token生成任務,應考慮將資料中心的一部分規模配置給Groq LPU。在智能體AI成為行業下一個“拐點”的當下,這種混合架構可能是保持競爭力的關鍵。而對於三星而言,拿下Groq 3 LPU的代工訂單,標誌著其在AI晶片供應鏈中的地位從“儲存供應商”升級為“全面製造夥伴”。正如黃仁勳所言:“謝謝三星。”這句話背後,是AI算力生態日益複雜的分工與合作。 (芯智訊)
GPU時代落幕?矽谷巨頭集體「叛逃」,輝達1500億瘋狂自救
去GPU化的浪潮,已經攔不住了!OpenAI嫌輝達太慢,Anthropic砸1486億投奔TPU,老黃被迫200億天價收購「叛徒」自救。如今,算力軍備賽正式進入能效為王的新時代:誰先卡住「每焦耳每微秒」的極限,誰或許就是下一個十年的霸主。再過兩周,黃仁勳將站上GTC 2026的舞台。他提前放了話:「我們準備了幾款世界上前所未見的全新晶片。」底氣來自一份炸裂的成績單——輝達2026財年年收入2159億美元,淨利潤翻倍,資料中心業務三年翻了13倍。在財報電話會上,CFO直接甩出一個數字:客戶已經部署了9吉瓦的Blackwell基礎設施!但詭異的一幕出現了。財報發佈當晚,輝達盤後一度漲超4%。隨後股價悄然轉跌,次日直接低開低走,收跌5.46%,一夜蒸發數千億美元市值。華爾街不是看不懂數字,是看懂了趨勢。前有Anthropic甩出210億美元訂單,全面採購基於GoogleTPU的算力系統;後有Meta跟Google簽下數十億美元晶片大單,大規模租用TPU訓練模型。為了給程式設計帶來接近即時的響應體驗,OpenAI更是歷史上首次將主力級產品GPT-5.3-Codex-Spark,部署在了更低延遲與更低能耗的非GPU晶片Cerebras上。輝達最大的幾個客戶,正在集體分散籌碼。全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部)根據摩根大通的產能報告,Google計畫在2027年部署600至700萬顆TPU,大部分供給Anthropic、OpenAI、Meta和蘋果等外部客戶。高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%升至2027年的45%。類似的,IDC也預測,到2028年,中國非GPU伺服器市場規模佔比將逼近50%。GPU的致命短板一個更深層的轉折正在發生:AI的競爭焦點,正從單純的算力規模,轉向對能效比與延遲的極致追求。過去拼誰卡多、誰叢集大。現在拼的是,同樣花一塊錢,誰能吐出更多Token。「每美元產生的Token數」正在取代峰值算力,成為衡量晶片商業價值的核心指標。究其原因在於,GPU的架構決定了,每次計算時資料都要在外部視訊記憶體和計算單元之間來回搬運。路徑長、次數多,能耗就高、延遲就大。堆更多卡解決不了這個問題。路透社爆料,OpenAI已多次表達對輝達晶片的「不滿」——響應速度沒達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條「巨龍」尋求改變。圖靈獎得主David Patterson教授在最新研究中指出,大模型每次token生成都繞不開資料搬運,而搬運能耗遠高於計算本身。未來的核心命題是「讓資料離計算更近」。為此,他給出了三個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。實際上,這些都指向同一件事——用架構創新降低資料搬運的能耗和延遲。換句話說就是,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。GoogleTPU殺向商用市場一直以來,GoogleTPU專供自家大模型訓練和推理,外人用不到。去年開始,Google把TPU推向了商用。訂單隨即湧入。博通CEO透露,Anthropic下了210億美元的大單;Meta簽下數十億美元TPU租賃協議;潛在客戶還包括蘋果和已與SpaceX合併的xAI。原因不難理解。大模型進入規模化落地階段,算力需求爆發、成本壓力加劇,單一依賴GPU的瓶頸越來越明顯。而GoogleTPU的性能,已經具備與頂級GPU分庭抗禮的實力。2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片——單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。劃重點:TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。不僅如此,Google自研的光電路交換機(OCS)技術,還讓萬卡級叢集實現近乎線性的加速比。相比之下,傳統GPU叢集規模越大,通訊損耗越嚴重;而TPU叢集基本不吃這個虧。Google TPU v5e、v5p、v6、v7晶片關鍵性能對比GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。回到成本帳上。TPU憑藉AI專用架構帶來的2-4倍能效優勢,將大模型推理的綜合成本相比GPU拉低50%以上。而這正是Anthropic、Meta們用訂單投票的根本邏輯。當下,大多數大模型企業已經在用TPU+GPU的組合來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。手裡有TPU,就多了一張跟老黃討價還價的牌。未來頭部AI公司大機率都會走「多晶片平行」路線。OpenAI與Anthropic購買算力的成本對比性能跨越式提升,頂尖大模型規模化驗證,頭部公司主動佈局——TPU已從算力產業的補充路線,升級為主流路線。輝達一家獨大的格局,正在被改寫。十年磨一劍「TPU之父」要造下一代AI晶片2025年底,輝達斥資200億美元,拿下AI晶片創企Groq的核心技術和團隊。這是輝達史上最大的一筆交易,溢價近三倍。Groq創始人Jonathan Ross,被稱為「TPU之父」,GoogleTPU的核心設計者之一。離開Google後,他創立Groq的目標很明確:做一顆超越GoogleTPU的晶片。兩者的差異在架構。GoogleTPU走的是「固定架構+叢集擴展」路線。其中,晶片內部搭載固定計算單元,依託二維資料流運算;晶片間通過3D Torus拓撲實現高效互聯。架構穩定,但靈活性有限。GoogleTPU架構Groq的TSP(Tensor Streaming Processor)則是一種「軟體定義硬體」的資料流處理器。其核心理念是,通過建構可重構的軟硬體系統,在保持可程式設計性的同時,達到接近ASIC的極致性能。具體來說,晶片內部做了功能切片化微架構設計,配合軟體層的靈活配置,可根據不同任務即時調整計算邏輯和資料流路徑。同時,依託大容量片上SRAM及靜態調度機制,顯著提升了資料訪存效率並降低搬運能耗。美國DARPA「電子復興計畫」(ERI)高度看好「軟體定義硬體」方向,將其列為國家級戰略核心。這也是Groq被稱為「高階TPU」的原因。資料顯示,在相同推理任務中,Groq晶片首token延遲比GoogleTPU v7降低20%至50%,每token成本降低10%至30%。這場晶片革命,才剛開始加速Groq被收編,但「高階TPU」的進化沒停。國內清微智能、海外Cerebras等公司正在高效資料流動態配置和先進整合方式上持續突破。1. 通過3D Chiplet技術建構三維立體資料流架構。具體來說,「計算核心+3D DRAM芯粒」的組合在垂直與水平兩個維度上形成了高效的資料流計算模式,突破了傳統二維架構的效率侷限。三維架構可以依據計算任務的需求和資料特性,在兩個維度上靈活調度資料流,最大化縮短傳輸路徑,降低搬運過程中的延遲與能耗,從而進一步提升整體計算效率。2. 依託算力網格技術建構靈活資料流計算範式。傳統固定組網存在擴展性和語義適配瓶頸。而算力網格技術則可以通過靈活組網,實現Scale up與Scale out的協同。根據AI任務特性,系統能即時下發資料流的動態配置資訊,在多種互聯拓撲結構間靈活切換、精準調度。最終降低互聯延遲,充分釋放資料流架構的算力。3. 通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。這項技術將資料流架構從晶片尺度擴展到整片晶圓。在整張晶圓上高密度整合大量計算核心,計算核心間的互聯距離被極大縮短。帶來的結果是,互聯頻寬實現數量級提升,通訊延遲大幅降低。資料流架構的算力規模與計算效能由此被推到極致。這也是為什麼晶圓級晶片被視為資料流計算架構的理想物理載體。以Cerebras為例。資料顯示,Cerebras CS 3系統推理性能比輝達旗艦DGX B200快21倍,成本與功耗均降低三分之一,在算力、成本、能效上展現出顯著的綜合優勢。在實測中,OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度,讓程式碼編寫第一次有了即時互動的體驗。Cerebras CS-3 vs輝達GPU:大模型推理速度對比GPU獨霸的時代,回不去了GoogleTPU走出圍牆,OpenAI擁抱晶圓級晶片,輝達天價收編Groq。這些訊號均指向同一個方向:算力世界的單極格局正在鬆動。定義下一代AI上限的,不再是單純的算力規模,而是能耗、延遲、確定性共同構成的AI新標尺。對於國產晶片而言,這是窗口,也是分水嶺。簡單復刻只能分得殘羹,唯有在底層架構上走出自己的創新之路,才有資格進入下一輪博弈。 (新智元)
美國安全審查突襲,中國H200訂單全線凍結!
英國《金融時報》今日援引三位白宮及國會消息人士稱,美國國家安全委員會(NSC)於2月3日啟動新一輪對華AI晶片安全審查,已要求輝達暫停所有H200對華銷售申請,待審查結束後方可重啟批文流程。這意味著原本已獲“口頭放行”的50萬顆H200再次停擺,中國雲廠商春節前搶貨計畫被迫中斷。審查焦點在於“中國潛在用途”與CUDA生態技術外溢風險。NSC擔心,H200雖低於70 TFLOPS紅線,但可通過堆疊組成超算叢集,用於高超音速模擬與情報分析。國會助手透露,此次審查可能持續45-60天,且不排除將H200納入《國際武器貿易條例》(ITAR)管制清單。輝達凌晨回應,將“全面配合政府審查”,並暫停向中國客戶傳送任何新銷售要約。公司已通知阿里、字節等大客戶:已預付但未清關的訂單將暫緩發貨,可選擇退款(扣除物流與關稅成本)或轉口至第三國。現貨市場應聲跳漲:香港倉庫提貨價從4.2萬美元回彈至5萬美元,中間商開始囤貨待漲。中國國產GPU廠商連夜促銷:寒武紀MLU 300現貨價下調至0.95萬美元,並提供120天帳期;摩爾線程把S5000租金再降20%,諮詢量兩日增長3倍。業內普遍認為,若審查持續至4月,中國雲廠商將被迫擴大中國國產卡採購,2026年中國國產AI晶片市佔率有望從18%躍升至35%。對於仍在擴建的中國國產GPU、HBM與封裝產業鏈而言,美國再次“關門”意味著9個月替代窗口正式開啟。 (晶片行業)
昨晚請教了北美專家,聊聊周末刷屏的儲存
上周五儲存再次爆發,主要還是大摩早晨發的兩篇報告(我們周五早晨已發星球),剛好晚上我們請教了北美的儲存專家,側面驗證新邏輯。另外我們再交流幾個話題:3D DRAM、輝達在CES上發佈的新一代 GPU 架構對儲存的影響、以及未來儲存價格的判斷。1/CES2026輝達架構影響從我們以前的儲存框架來講,只是朦朧地知道,在接下來面對更多長文字的時候,可能需要更多的儲存支援。當時行業對轉折原因的分析較為分散,對儲存的判斷不夠清晰。但從25年8月份第三周開始,行情就出現了一個明顯的轉折。尤其是CES之後,輝達在 CES 2026 發佈代號為“Vera”的新一代 GPU 架構,核心升級在於引入專為大模型推理最佳化的計算單元,並配套推出“Context Memory Platform”(CMP,即推理上下文記憶體平台);如果把邏輯推導到我們底層的計算和應用產品線上去講,從第一代、第二代開始就出現了這個問題:即我們所有的大模型都是 Transformer 架構。在這種架構下,都是採用 QKV 的計算方式。當文字越來越長時,KV 快取的容量就會越來越大。在模型早期,KV 快取是直接放在 HBM裡的,因為它必須有足夠的頻寬才能和 GPU 通訊。所以回看兩年前,HBM 突然被叫到了異常的高度,不論多少錢都要去做。背後的邏輯是:輸入的文字越來越長,對 HBM 的需求一定是長期穩定的。因此,幾家原廠才會不遺餘力地將 HBM 作為最高優先順序進行研發投入。雖然良率很低,但每年都在迭代,因為 KV 快取最初就是存在 HBM 裡的。但兩年前大家就發現這是一個問題,因為 HBM 良率低且極其昂貴。那麼有沒有其他方式?其實兩三年前整個行業就預見到了這個問題,於是很多儲存引擎或資料庫軟體應運而生,也就是想辦法把資料從HBM中拿出來。但從 HBM 裡面拿出來,拿出來往那去放?輝達其實在 DPU系列上一直有佈局。在搭載 B200、B300的時候就配有DPU。到了現在的 BlueField-4(BF4),已經是第四代了。BlueField 的核心邏輯就是通過一張 DPU(資料處理器) 來管理幾張卡的資料。其實在去年,DPU 本身就已經具備了解除安裝/外遷KV 快取 的能力,只是當時模型的發展還沒到那個臨界點,軟體層面的最佳化也還沒像今年 CES 展示的這麼明確。在今年 CES 2026 上,輝達正式推出了基於 BF4 的軟體定義邏輯,將每個 GPU 理論上能支援的最大儲存容量具象化了——即通過 DPU 擴展,單 GPU 可支援高達 16TB 的儲存容量。這個數字的量化非常關鍵。之前關注不多的人可能覺得這是一個新增的東西,但實際上,它只是把大家對儲存需求的估值給具體量化了。這導致這一輪市場對儲存的觀點發生了變化。但從整體上看,無論是架構邏輯還是底層原因,在更長期的路線圖上,它的發展方向其實是一脈相承的,並沒有發生根本性的巨變。2/一些儲存的關鍵問題(1)真實缺口僅 5%-10%,為何漲價預期高達 50%?核心邏輯:恐慌性搶購放大效應供需真相:實際物理缺口並不極端(Global Supply ~12w vs Demand ~12w),缺口約 5-10% 。恐慌傳導:上游原材料漲價 20% + 龍頭(華邦)轉產高利產品(DDR4/NAND)-> 供應端收縮訊號明確 。下游由於庫存極低(疫情後未補庫),恐慌情緒被點燃 -> “怕斷貨”心理導致需求被數倍放大 -> 即使提價也無法滿足需求 。價格指引:2025 Q4 已漲 30%,2026 Q1-Q2 預計再漲 30%-50% 。漲價節奏方面,2025年CQ4為行業漲價起點,但當時漲價未充分落地,2026年CQ1、CQ2漲價趨勢明確,市場信心充足,訂單量較高;不過隨著真實訂單和付款推進,2026年下半年行業或將逐步梳理非緊急需求,需求格局將更清晰。(2)漲價傳導機制:這次不一樣?靈魂拷問:這輪漲價是需求拉動還是因為上游漲價被迫跟進?邏輯鏈條:上游:晶圓代工漲價 ~20% 。競對:台系大廠(華邦等)計畫漲價 50%-100% 。應對:國內順勢跟漲 -> 2025 全年漲 30%,Q4 單季漲 20%+,小客戶漲 40% 。展望:未來一年預期再漲 30%-50% 。隱憂:漲價主要由供給側(產能調整、原材料)驅動,而非單純的需求側爆發,需警惕下游承受力 。(3)為什麼模組廠這次可能會“餓死”?為什麼:以前周期上行時,模組廠都能跟著喝湯,這次為什麼原廠不給貨了?邏輯鏈條:HBM 擠出效應:HBM 需要消耗大量晶圓 + 良率低吃產能 -> 且 HBM 單晶圓毛利遠高於 DDR4/5 。策略逆轉:原廠(美光等)“All in AI” -> 只有把晶圓做成 HBM 或 SSD 才划算 -> 拒絕向模組廠出售晶圓(視為低效產能和潛在競爭對手)。結果:模組廠賴以生存的“低買高賣”模式失效,未來 3-5 年面臨持續的晶圓短缺。3/3D DRAM及封裝技術相關上周和一家Fabless晶片供應商交流,他說目前唯一能量產的3D dram之後國內的那家頂流,下一步就是期待手機26年能量產。今天的專家說未來幾年預計不會落地什麼新的技術,像3D dram等先進封裝技術被定義十年以上的長期研發計畫...短期沒有什麼儲存新技術,僅能通過軟體層面最佳化現有SSD產品 (北向牧風)
頻寬戰爭前夜,“中國版Groq”浮出水面
在AI算力賽道,輝達憑藉Hopper、Blackwell、Rubin等架構GPU,早已在AI訓練領域建立起了難以撼動的技術壁壘與行業地位。但隨著即時AI場景需求爆發,傳統GPU在面對低批處理、高頻互動推理任務中的延遲短板愈發凸顯。為破解這一痛點,輝達重磅出擊,斥資200億美元收購Groq核心技術,搶跑AI推理市場。這一金額不僅創下輝達歷史最大手筆交易、刷新了推理晶片領域的估值紀錄,更鮮明地昭示著輝達從“算力霸主”向“推理之王”轉型的意志。緊隨這一動作,據技術博主AGF消息進一步披露,輝達計畫在2028年推出新一代Feynman架構GPU——採用台積電A16先進製程與SoIC 3D堆疊技術,核心目的正是為了在GPU內部深度整合Groq那套專為推理加速而生的LPU(語言處理單元),相當於給GPU加裝了一個專門處理語言類推理任務的專屬引擎,直指AI推理性能中長期存在的“頻寬牆”與“延遲瓶頸”。這些動作表明:AI行業的競爭正從單純的算力比拚,轉向對單位面積頻寬的極致追求——這與輝達此前“大模型推理90%的延遲源於資料搬運,導致算力利用率常低於30%”的結論不謀而合。無獨有偶,AMD通過3D V-Cache持續驗證儲存靠近計算的效能邏輯;d-Matrix、SambaNova等明星AI推理晶片公司,更是聚焦流式執行與片上頻寬建構核心競爭力,用實際行動印證這一行業共識。頻寬戰爭打響,誰是“中國版Groq”?回看中國市場,AI浪潮推動下,國產大模型多點突破、強勢崛起,本土AI晶片企業集體爆發並密集衝擊IPO,資本熱度居高不下。然而,當輝達選擇通過Feynman架構來補齊推理短板時,就意味著誰能率先解決“頻寬牆”問題,誰就握住了下一輪周期的入場券。在這一背景下,國內賽道湧現出前瞻性佈局者。近日,半導體行業觀察注意到,一家源於北京大學物理學院的AI晶片公司——寒序科技(ICY Technology),宣佈完成數千萬元人民幣新一輪融資。這家企業以“超高頻寬推理晶片”為核心產品,被業內視為中國大陸少有的在技術路線層面正面對標Groq的前沿技術團隊。“中國版Groq”的名號,初見端倪。實際上,寒序科技的技術披露並非偶然,而是源於在內部保密原則下的長期的低調深耕。早在2024年9月與2025年11月,寒序科技就已聯合北京大學物理學院、電腦學院、積體電路學院,以及澳門大學模擬與混合訊號積體電路全國重點實驗室,先後承擔、主持兩項北京市科技計畫項目。他們前瞻性地鎖定0.1TB/mm²/s超大頻寬流式推理晶片研發,在省部級重大研發任務中,在北京市科學技術委員會的指導下,在任務書中全面對標Groq的技術路線與頻寬指標。這意味著,當Groq因LPU爆紅被視為“推理新範式”時,中國科研與產業團隊已在國內同步推進一條差異化的實現路徑。據瞭解,寒序科技採用“雙線佈局”建構核心競爭力:一方面,已發佈SpinPU-M系列磁機率計算晶片,推出1024位元全連接伊辛退火求解硬體,覆蓋組合最佳化與量子啟髮式計算市場;另一方面,本輪融資的核心看點——SpinPU-E磁邏輯計算晶片系列,直指大模型推理解碼(Decode)階段加速,以片上MRAM(磁性隨機儲存器)為核心介質,建構超高頻寬磁性流式處理架構。能看到,寒序科技並未跟隨主流GPU的片外DRAM/HBM或Groq的存算一體SRAM方案,而是選擇了片上MRAM這條更底層、更物理本征、更具長期想像力的技術路線。眾所周知,當前主流的AI計算範式面臨多重困境:採用HBM的GPU方案,頻寬受限於昂貴的2.5D/3D先進封裝,核心儲存器件HBM產能被海外巨頭壟斷且面臨出口管制;採用SRAM的Groq方案,則因SRAM單元面積大、成本高,單晶片儲存容量有限,難以規模部署千億參數大模型。面對這些行業普遍的困局,寒序科技源自北大物理學院,從凝聚態物理的角度,從第一性原理進行思考,利用本征功耗更低、速度更快的“電子自旋翻轉”,代替“電子電荷運動”來進行儲存與計算。而這種底層邏輯的革新,正是源於MRAM技術帶來的核心優勢。它兼具SRAM的高速、DRAM的高密度與快閃記憶體的非易失性等優勢,其直立結構的磁性隧道結,通過垂直微型化和CMOS工藝相容性,能夠大幅降低對複雜封裝的依賴,在成本、功耗和可靠性上具有顯著優勢。與SRAM方案相比,MRAM技術的差異化優勢十分突出:儲存密度領先:主流AI推理架構深度依賴片上SRAM以換取高速,但SRAM正面臨嚴峻的微縮困境。傳統SRAM每個儲存單元由6個電晶體(6T)組成,儲存密度低,儲存容量小,儲存典型的DeepSeek-R1-671B大語言模型可能需要數千片Groq LPU晶片,且5nm以下節點尺寸幾乎停止縮減;而MRAM天然採用1T1M(1個電晶體+1個磁隧道結)結構,單個MTJ可以執行SRAM 6個電晶體的儲存功能,同等晶片面積和工藝節點下,儲存密度是SRAM的5-6倍。工藝成本更低:MRAM的物理結構優勢,使其在國產工藝製程即便落後一代的情況下,性能指標也能對標甚至超越採用先進製程的SRAM方案。這意味著MRAM無需追逐極先進製程,大幅降低流片與量產成本(單片成本可降至原來的十分之一以下),同時保障了供應鏈自主可控。非易失性與高能效:MRAM斷電後資料不丟失,無需像SRAM/DRAM那樣持續刷新,待機功耗接近零,具備快速啟動、低待機功耗、高耐用性等優勢;同時避免了SRAM的漏電流損耗,為邊緣端和雲端的大規模部署提供極佳能效優勢,大幅降低運行成本。通過自研的磁性存算一體流式架構,寒序科技將MRAM的器件優勢轉化為晶片級系統性能。據悉,SpinPU-E晶片架構的目標是將訪存頻寬密度提升至0.1-0.3TB/mm²·s,不僅能比肩以“快”成名的Groq LPU(0.11 TB/mm²·s),更是輝達H100(0.002-0.003 TB/mm²·s)的數十倍。據瞭解,輝達GPU的架構最初面向大規模訓練與圖形渲染場景設計,強調峰值算力與吞吐能力,並通過多級快取、動態調度和共享儲存來適配高度平行但相對粗粒度的工作負載。在大模型推理的Decode階段,GPU性能瓶頸主要來自對外部儲存(HBM)和複雜記憶體層級的高度依賴。該計算過程呈現出強序列性、小批次和頻寬主導等特徵,與GPU設計初衷明顯錯配。在實際執行中,GPU仍需要通過多級快取和共享儲存來訪問,資料到達計算單元的時間並不固定,不同計算單元之間也需要反覆等待和協調。這使得訪存延遲和執行順序經常波動,矩陣加乘單元很難按照固定節拍持續運行,算力難以穩定發揮。而寒序科技採用確定性的“磁性流式處理(MSA)架構”,將大規模MRAM Banks緊鄰矩陣加乘單元部署,並圍繞推理資料流建構多級流水執行路徑,使權重和中間啟動在局部高頻寬範圍內按固定順序流動。通過在硬體層面同時約束儲存位置、訪存頻寬、通訊路徑與執行節拍,該架構在Decode階段顯著降低了延遲抖動與外部儲存訪問依賴,實現更高的頻寬與更快、更穩定的推理性能。值得關注的是,MSA架構並非簡單的存內計算概念,而是圍繞推理場景,對資料流組織、儲存-計算耦合方式以及執行節拍進行重新設計,在保證超高頻寬的同時,顯著降低對先進製程與複雜封裝的依賴。有業內人士指出,這一路線與NVIDIA在Feynman架構中所釋放的訊號高度一致:未來推理性能的競爭核心,不再是算力規模,而是單位面積頻寬與執行範式。走出北大實驗室的秘密武器——“天時地利人和”SpinPU-E展現出的性能優勢,並非偶然的技術選擇,而是核心團隊跨學科積澱、全鏈條技術把控與前瞻性路線佈局的成果。據報導,寒序科技是國內首個有能力跑通從物理、材料、器件到異質整合、晶片設計、演算法的交叉團隊,核心成員源自北京大學物理學院應用磁學中心——國內磁學研究的頂尖高地,擁有近70年的磁學積澱,核心成員橫跨凝聚態物理、電子科學、電腦技術、人工智慧等多領域:首席執行長朱欣岳兼具凝聚態物理、人工智慧演算法與積體電路的交叉背景,曾主導多模態AI演算法開發、多顆高性能專用晶片研發,帶領團隊完成四輪市場化財務融資與產品化;首席科學家羅昭初作為MIT TR35入選者,曾於清華大學、蘇黎世聯邦理工學院完成自旋電子學、磁性計算的科研工作,深耕微納磁電子學與磁儲存/計算,擁有深厚的學術積累與Nature、Science正刊成果,團隊歷經多次流片驗證,既保有前沿技術探索的銳氣,又具備工程化落地的能力。相比純粹的架構創新,寒序科技這種“材料-器件-晶片-系統-演算法”的全鏈條視野和全端攻關能力,讓MRAM技術得以從底層原理到上層系統實現協同最佳化與突破,而非僅停留在邏輯和架構層面的修補。這也是寒序科技被視為精準踩中2030年行業時間軸的前瞻性下注的核心原因。這種對行業趨勢的精準踩點,不僅體現在技術路線的選擇上,或許也蘊含在對商業化路徑的思考中。回溯Groq的成長軌跡來看,其業務從核心的GroqChip LPU推理晶片起步,逐步延伸至加速卡、伺服器系統、資料中心叢集,最終建構了雲服務平台,形成了“晶片-硬體-系統-雲服務”的全端佈局。沿著Groq被驗證的商業邏輯向前推演,寒序科技大概也會沿著相似的路徑開展自己的業務版圖——以SpinPU-E磁邏輯晶片為起點,向上建構硬體產品矩陣,最終通過雲服務觸達更廣泛市場的全端路徑,以建構更強的技術壁壘和產業競爭力。更關鍵的是,這條路徑並非簡單的模式復刻,而是基於本土產業現狀的創新破局——當行業苦於HBM成本高企、SRAM微縮放緩之時,寒序科技沒有陷入“算力堆砌”的內卷,而是利用MRAM磁性計算新範式,在中國本土成熟供應鏈基礎上,築起了一座對標全球頂尖推理性能的頻寬高地。這種從底層物理原理出發的差異化競爭策略,或許正是其作為“中國版Groq”浮出水面的核心底氣。MRAM開啟新型儲存“黃金時代”破局“頻寬封鎖”寒序科技對MRAM技術的探索並非孤例,背後是一場從“備選”走向“必選”的新型儲存技術浪潮。尤其是在全球半導體產業的演進與地緣政治激盪背景下,為MRAM在內的新型儲存鋪就了一條通往AI算力核心舞台的“黃金賽道”。2024年12月,美國商務部工業與安全域(BIS)發佈新出口管制規則,明確限制向中國出口記憶體頻寬密度超過2GB/s/mm²的尖端儲存器。這一封鎖點,直指AI推理晶片的命門——頻寬。目前,輝達、AMD等巨頭極度依賴HBM,而HBM產能幾乎被SK海力士、三星、美光等海外儲存原廠壟斷,且受限於複雜的2.5D/3D先進封裝。同時,Groq所代表的SRAM路線價格極高(Groq 230MB片上SRAM記憶體的單卡售價2萬美金),在先進製程微縮上也已近極限。在此背景下,MRAM路線的戰略價值陡增。它不僅在物理特性上具備跨代超越SRAM的潛力,更重要的是,它能基於國產28nm/22nm等成熟製程實現超高頻寬,徹底規避對尖端工藝和海外HBM供應鏈的依賴。這不僅是技術路線的“備選”,更是中國半導體產業在算力領域破除卡脖子困境、實現差異化突圍的“必選”。有業內專家表示,這一戰略意義迫切需要國家有關部門給予更高重視與政策傾斜。MRAM不僅是單一儲存技術的革新,更能帶動磁性材料、磁電子器件、存算一體架構等全產業鏈突破,有望徹底改變國內在HBM領域的落後局面和SRAM對先進製程的依賴,為AI算力產業打造自主可控的“第二曲線”。全球共振,商業化拐點已至?當前,產業界正在用實際行動表明,MRAM不再只是實驗室裡的美好構想,而是憑藉獨特優勢正成為全球半導體產業佈局的重點。其中,晶圓代工龍頭與晶片大廠均在積極佈局:台積電、三星、英特爾、SK海力士、IMEC等憑藉其先進的技術研發和大規模生產製造能力,已明確將嵌入式MRAM推進到22nm、16nm甚至更先進節點,持續提升MRAM的性能和整合度。恩智浦與台積電合作推出16nm FinFET車規級eMRAM,應用於其S32系列高端MCU,實現寫入速度比傳統快閃記憶體快10-15倍、耐久性超百萬次;瑞薩電子也推出了基於22nm工藝的STT-MRAM技術,瞄準汽車MCU市場;GlobalFoundries、Everspin在12nm和22nm工藝上緊密合作,將MRAM納入工業級和車規級量產方案;Avalanche與聯電攜手合作推出22nm STT-MRAM,在工業級和航天級市場擁有深厚積澱。據LexisNexis資料統計,2004-2013年間,MRAM市場的專利申請量保持穩定,每年約有300至400項專利申請。需要注意的是,圖表末尾的下降並不代表興趣的下降,而是專利申請和公開之間的時間存在滯後。這些頭部廠商的集體行動,清晰印證著MRAM正從“備選技術”升級為“主流方案”,在汽車電子、邊緣AI、高端計算等領域的商業化落地進入爆發前夜。回看國內市場,本土半導體廠商同樣敏銳捕捉到了新型儲存技術的發展機遇,積極佈局相關領域。RRAM領域湧現出昕原半導體、銘芯啟睿、燕芯微等玩家;MRAM賽道,寒序科技、致真儲存、馳拓科技、凌存科技、亙存科技等紛紛嶄露頭角,為國內MRAM的發展奠定了產業基礎。相對於RRAM基於電子電荷遷移,是一種統計物理範疇下的阻變器件;MRAM的存取機理是基於自旋的確定性兩態翻轉,更加可控、精準,大規模製造下器件一致性、器件壽命極限都更有優勢與潛力。兩者均被台積電等半導體巨頭作為下一代面向AI的儲存技術重點押注。具體來看,本土MRAM廠商各有側重,多數主要集中於儲存、加密、嵌入式控制等傳統領域,例如:致真儲存專注於磁性隧道結(MTJ)的核心器件研發與製造工藝,掌握從材料研發到器件製造的全鏈路技術,擁有國內唯一的8英吋磁儲存晶片專用後道微納加工工藝中試線。近期與北京航空航天大學聯合攻關,研製出全球首顆8Mb容量自旋軌道力矩磁隨機儲存器晶片(SOT-MRAM),實現SOT-MRAM容量規模化突破。馳拓科技專注於MRAM儲存晶片的技術研發與生產製造,建有12英吋MRAM量產中試線,是國內首家實現MRAM量產的企業。近期成功突破垂直磁化體系技術瓶頸,儲存器件TMR關鍵指標比肩國際頭部代工廠量產的STT-MRAM。凌存科技專注於儲存模組開發,致力於將MRAM技術從核心器件層面推向終端應用,成功開發了世界首款高速、高密度、低功耗的儲存器MeRAM原型機及基於MeRAM的真隨機數發生器晶片,產品廣泛應用於車載電子、高性能運算、安全等領域。寒序科技則獨闢蹊徑,與多數國內MRAM企業不同,其以MRAM為核心介質建構計算晶片,將MRAM的物理優勢轉化為算力與頻寬優勢,開闢了“磁性計算”這一全新賽道,致力於從計算層面引領國內MRAM技術從利基低毛利領域向高端市場跨越,成為國內MRAM技術從儲存替代向計算革新跨越的關鍵力量,舉起大旗與國內磁學領域全面擁抱合作,力爭一同搶佔全球“磁計算”的戰略高地。綜合來看,從器件、裝置、製造到系統應用,國內產業鏈的前期佈局已具備支撐本土MRAM技術產業化與生態發展的基礎。尤其是寒序科技的差異化定位,進一步填補了國內MRAM從儲存到計算的關鍵空白,為後續誕生更多行業廠商提供了土壤和必然性。生態共建:國產MRAM的“磁計算”革命根據市場研究機構Precedence Research資料顯示,2024年全球MRAM市場規模估計為42.2億美元,預計從2025年的57.6億美元增長到2034年的約847.7億美元,復合年增長率高達34.99%。雖然前景廣闊,但MRAM的大規模爆發和商業化落地仍需產業合力,需要產業鏈上下游凝聚共識,共同建構生態。結合國際經驗和國內產業的發展現狀來看,更深度的產業合作與資源傾斜或許是推動MRAM技術發展的有力舉措。例如,國家有關部門可以給予MRAM技術更多重視,加大資金與政策支援,積極推動MRAM這一有希望在頻寬領域實現“變道超車”的關鍵技術。同時,借鑑台積電、三星、GlobalFoundries等頭部廠商對MRAM的關注與投入力度,國內代工廠或許也應加強對MRAM的工藝研發與資源投入,積極與國內廠商共同開展技術研發與工藝最佳化,爭取儘早打通“設計-製造-封測”的本土化鏈路,形成協同創新的合力,降低MRAM晶片的流片成本與量產門檻。還有一點不可忽視。輝達收購 Groq核心技術,計畫在Feynman架構中整合LPU單元的案例,充分證明了“通用算力+專用引擎”的協同優勢和行業趨勢。這一案例極具啟示價值。筆者認為,在未來提升AI推理效率的行業共識下,國內AI晶片廠商應抓住這一變革機遇,加強與在新型介質與架構上具備底層創新能力的團隊的合作力度,打造兼具通用算力與專用推理性能的新技術路徑,快速補強技術短板,建構差異化競爭力。產業界正釋放清晰訊號:以MRAM為代表的新型儲存,已成為後摩爾時代的核心焦點。地緣政治的戰略訴求、國際大廠的技術押注、國內產業鏈的長期積澱,再加上寒序科技的差異化突破,多重力量共振之下,MRAM正逐漸邁入產業化的“黃金時代”,有望成為中國AI晶片產業實現換道超車的關鍵抓手。五年後,誰將主導下一代推理晶片?當摩爾線程、沐曦、天數、壁仞等國產AI晶片公司接連叩響資本市場的大門,一個時代的答卷已然清晰。它們的密集上市,標誌著中國在基於傳統GPU架構的算力競賽中,完成了從無到有的突圍,進入了國產替代的收穫期。如果說上一代AI晶片的競爭是“算力競賽”,那麼下一代的分水嶺將是“誰能率先跨過頻寬牆”。在這個關鍵轉折點上,兩條路徑清晰呈現:一條是Groq選擇的極致SRAM片上整合路徑,用極高成本將頻寬推向極限,並因此獲得了行業霸主輝達以數百億美元估值的戰略整合;另一條,則是以MRAM為代表的新型儲存介質路線,為突破頻寬瓶頸提供了一種更具根本性,也更符合長期成本與供應鏈安全需求的方案。數年後,當AI推理進入“頻寬決勝”的新時代,晶片市場或許不再僅有算力的巨獸,主導市場的佼佼者還將屬於那些能夠率先在“頻寬戰爭”中沉澱出護城河的先行者。正如Groq在矽谷用SRAM驚豔了世界,行業演進的邏輯暗示:“中國版Groq”的出現也將不再是懸念。在這個征程中,中國半導體產業各方也都在積極擁抱AI,拓展產品品類,謀劃新的增長曲線。而寒序科技正依託MRAM磁性計算的新範式,給出“中國版”的實現路徑——並且,這條路,他們早在多年前,就已開始默默鋪設。 (半導體行業觀察)
Google TPU與輝達GPU對比分析
市面上有兩類比較典型的GoogleTPU和輝達GPU對比分析,一類是純技術層面討論,晦澀難懂,另一類會講得斬釘截鐵,但可信度難以判斷。今天我分享一篇通俗易懂,且信源可靠的TPU和GPU對比分析文章,信源來自於The Information對Google、輝達、蘋果等公司員工的訪談。租用最先進的GPU與最先進的TPU,那個性價比更優?這取決於雲服務提供商(註:AWS、Azure、Google雲)對GPU的收費標準,該標準可能會根據開發者對該晶片系統的承諾(使用)期限而有所不同。不過,由於在這些系統上運行應用程式涉及到軟體問題,因此很難對它們進行直接比較。對於已經使用輝達的CUDA程式語言在伺服器晶片上運行人工智慧的客戶來說,租用輝達晶片更具成本效益,而有時間和資源重寫程序的開發者則可以通過使用TPU來節省資金。不過,對於大多數開發者而言,輝達的軟體能讓他們快速且輕鬆地開始在GPU上運行人工智慧應用程式。像Anthropic、蘋果和Meta這樣經驗豐富公司在使用TPU時可能面臨的挑戰更少,因為他們更擅長編寫在伺服器晶片上運行人工智慧的軟體。根據對Google和輝達前員工的採訪,TPU相比GPU具有潛在的成本優勢,這取決於客戶運行的AI計算工作負載數量及其類型。對於使用GoogleGemini模型的客戶來說,TPU的成本效益可能尤為顯著,因為這些模型是基於TPU開發的。卓哥理解:1.價格不能直接比, 看合同期限,租1年和租3年價格肯定不同。2.絕大部分開發人員已經用慣了輝達CUDA軟體系統,用TPU會有遷移成本。3.基於TPU開發的大模型更具成本效應。我已經在不少於3處靠譜信源看到,基於TPU開發的Gemini相比於基於GPU開發的ChatGPT更具成本優勢。輝達首席執行長黃仁勳曾表示,即便競爭對手的晶片定價為零,企業們仍會更青睞輝達的晶片。這種說法精準嗎?事情並非如此簡單。生產輝達晶片的台積電會謹慎地避免將過多的晶片製造和封裝產能投入到單一公司,因此輝達不太可能獲得其滿足客戶需求所需的全部產能。由於輝達通常無法獲得足夠的產能來滿足整體需求,市場對其競爭對手的晶片將會有需求。卓哥理解:台積電不希望輝達一家獨大。其實下游晶片代工廠產能給誰很重要的,不是說晶片設計公司想要多少產能就有多少產能。大摩不是說GoogleTPU 2026年要產300萬顆(利用博通與台積電良好關係)嗎?最近又傳出消息說今年不一定能產300萬顆,台積電可能沒這麼多產能給Google。最先進的TPU(Ironwood)和最先進的GPU(Blackwell)在計算能力或其他關鍵指標(如能效)方面有什麼區別?一位行業高管表示,以每秒兆次浮點運算(FLOPS)來衡量(卓哥註:這是AI開發人員衡量晶片計算能力的常用方式。),Google最先進的TPU在單晶片基礎上的性能是輝達最先進GPU的一半。Google可以將搭載數千個TPU的伺服器整合到一個計算單元中,這使得它們在開發新的人工智慧模型時特別有用且具有成本效益,而輝達最多隻能連接256個GPU。當然輝達的晶片客戶可以通過使用額外的網路電纜連接其資料中心的伺服器來克服這一限制。卓哥理解:單兵作戰,TPU性能只有GPU一半,但TPU可以用人海戰術堆料。TPU運行AI的方式與GPU有何不同?GPU能夠處理各種各樣的計算任務,從渲染視訊遊戲圖形到訓練大型語言模型。這種晶片在機器學習模型所需的重複性數學運算方面表現出色,特別是將數字網格相乘的過程,也就是所謂的矩陣乘法。Google的TPU更加專門化,能夠比GPU更快地處理矩陣乘法和運行某些AI模型。TPU之所以能做到這一點,是借助了脈動陣列——一種由簡單計算器組成的網格,這些計算器以有節奏的模式相互傳遞資料。這種設計使數字能在計算過程中持續流動,無需不斷從晶片記憶體中調取資料,從而避免了時間和能量的浪費。TPU效率更高,因為它只做一件事,但這也意味著它們只在特定軟體上運行良好。GPU可以被用來完成更多種類的任務。卓哥理解:之前還看過一個訪談,說TPU的風險之一就是通用性不好,中途切換做其他(非初始設定)任務的效果遠不如GPU。在處理大語言模型或大型視覺、視訊模型方面,TPU與GPU相比有那些優缺點?TPU為Google的人工智慧開發者提供了相較於GPU的成本優勢,因為該公司的人工智慧模型、應用程式和資料中心在設計時就考慮到了TPU。但TPU僅能與某些人工智慧軟體工具(如TensorFlow)順暢協作。然而,大多數人工智慧研究人員使用PyTorch,該工具在GPU上運行得更好。TensorFlow和PyTorch使開發者無需從頭編寫特定的軟體程式碼,就能訓練和運行人工智慧模型。對於視訊和視覺模型,TPU擅長執行圖像識別所需的重複性數學運算。它們通過將摺積(圖像模型中的核心計算)轉換為矩陣乘法來處理這些運算。但一些工程師表示,在開發視覺模型方面,GPU優於TPU,因為這一過程通常涉及對複雜圖像變換的試驗,例如旋轉、裁剪或調整顏色。那些公司使用TPU?據蘋果前員工及其人工智慧團隊發表的研究論文稱,蘋果長期以來一直使用TPU來訓練其最大的語言模型。人工智慧圖像公司Midjourney在2023年表示,它正在使用TPU來開發自己的模型。據一位瞭解這一轉變的人士透露,人工智慧開發商Cohere此前使用TPU開發模型,但去年由於在早期版本的TPU上遇到技術問題,轉而使用GPU。卓哥補充:還有其他案例是,一直用GPU然後切換去用TPU的公司。Google要在Google雲之外大量銷售TPU,需要具備那些條件?Google需要徹底改革其整個供應鏈,效仿輝達的商業模式,不僅要從代工廠獲得足夠的晶片,還要確保客戶能夠安裝這些晶片並可靠地使用它們。這意味著Google必須投入大量資金來發展銷售分銷網路,包括聘請生產晶片容納裝置的伺服器設計師,以及僱傭眾多工程師為TPU買家提供客戶支援和其他服務。卓哥理解:如果Google要外租或者賣TPU,先得到台積電拿到足夠產能配額,此外還得組建銷售和工程師支援團隊。生產最先進的TPU與生產最先進的GPU的生產成本相比如何?潛在成本可能相近。Google為Ironwood在台積電採用了比輝達為Blackwell所使用的更昂貴、更先進的晶片製造技術。但Ironwood晶片體積更小,這意味著台積電可以從一片晶圓上切割出更多晶片。這彌補了與昂貴矽片相關的額外成本。瞭解生產情況的人士表示,這兩款晶片都使用了相同類型的高頻寬記憶體。Google生產多少個TPU?這與其他人工智慧晶片相比如何?據摩根士丹利的最新估計,Google計畫在2026年生產超過300萬個TPU,2027年生產約500萬個。一位瞭解TPU項目的Google員工表示,公司已告知部分TPU客戶,其計畫在2027年生產更高數量的TPU,但目前尚不清楚台積電是否會同意在該年度生產這麼多TPU。Google通過博通公司訂購其最強大的TPU,博通與台積電有合作,同時也為TPU晶片本身提供一些輔助技術。據兩位瞭解生產情況的人士透露,輝達目前生產的GPU數量大約是Google生產的TPU的三倍。卓哥補充:除了博通,Google也已在與聯發科合作。博通在TPU的研發中扮演什麼角色?Google通過博通在台積電生產最強大的TPU,而且博通還負責TPU的物理設計,包括至關重要的晶片封裝,並且實質上是根據Google建立的藍圖來開發這款晶片。晶片封裝指的是晶片的組裝,隨著晶片上電晶體的縮小變得愈發困難,這一環節已成為整個流程中更為重要的部分。博通還為Google提供了設計TPU的一項關鍵智慧財產權:序列器/解串器,業內稱之為SerDes。這是實現高速資料在TPU之間傳輸以支援平行計算的最佳技術,通過這種技術,多個晶片可以協同工作——這是開發大語言模型的重要一步。Google和博通有時會因博通的TPU價格而產生分歧,這促使Google尋求聯發科等其他合作夥伴。聯發科即將生產一款性能稍弱的TPU,旨在幫助Google降低其人工智慧運行成本。博通從開發TPU中獲得的分成是多少?據分析師稱,這至少有80億美元。如果Google出售或出租TPU,讓它們進入其他公司的資料中心,這在經濟層面可能會產生什麼影響?目前尚不清楚Google向其雲客戶出租TPU能產生多少毛利率。除了伺服器晶片租賃業務外,它還可以向雲客戶銷售許多其他服務。這位前TPU高管表示,如果Google將TPU出售或出租給其他公司的資料中心,那麼這些設施需要按照高度特定的方式設計,類似於Google的資料中心,才能像Google在自身人工智慧應用中那樣,充分利用TPU帶來的成本優勢。此外,這樣做意味著Google將放棄從雲客戶那裡獲得的其他類型收入,比如儲存和資料庫相關收入,因此它可能會向TPU買家額外收費,以彌補這部分潛在的收入損失。.Google為何要追求一種更接近輝達的商業模式?Google已向潛在的TPU客戶表示,一些科技和金融服務公司出於安全等原因,希望將TPU安置在自己的資料中心——即非Google的資料中心。Google一直在與競爭對手雲服務提供商洽談為部分客戶託管TPU事宜。(卓哥註:典型如甲骨文)讓TPU得到更廣泛的應用,也有助於Google說服更多客戶使用其Gemini人工智慧模型,這些模型是針對TPU進行最佳化的。與運行TPU的軟體相比,開發者更熟悉輝達晶片及其運行的軟體。像JAX、PyTorch XLA這樣的新解決方案是否正在縮小這一差距?簡而言之,答案是否定的,不過Google正努力改變這一現狀。而且,Google還向潛在的TPU客戶推介將這些晶片與特製的Google軟體配合使用,這樣能讓晶片的運行更為便捷。 (卓哥投研筆記)
美銀分析:輝達GPU技術超前,H200未來收入仍存不確定性
美銀本周舉辦了輝達(NVDA)投資者關係部門的 Toshiya Hari 線上投資者會議,核心要點如下:1)輝達 GPU 仍領先競爭對手整整一代 —— 目前已推出的基於 GPU 的大語言模型(LLM)均採用舊款 Hopper 架構訓練,而非 Blackwell 架構(基於該架構的大語言模型將於 2026 年初推出),後者相較前代性能提升 10-15 倍;2)下一代 Vera Rubin 架構按計畫將於 2026 年下半年推出,路線圖未發生變化;預填充推理 CPX 版本同樣按計畫推進,預計 2026 年第四季度發佈;3)Google仍是輝達的核心客戶,且合作規模持續擴大,所有模型開發者仍在使用輝達的產品;4)輝達對 2025-2026 年(日歷年)至少 5000 億美元的銷售額展望具備供需端可見性,與 OpenAI、Anthropic 的合作將帶來額外增量;5)已推出 5 年的 Ampere 架構 GPU 在客戶端仍保持近 100% 的利用率,GPU 5-6 年的折舊 / 使用壽命設定合理;6)輝達的核心競爭優勢在於與客戶的協同設計能力,其打造的端到端平台涵蓋 CPU、GPU、縱向擴展、橫向擴展、跨場景擴展及軟體(CUDA 庫)—— 這一優勢無人能複製;7)中國市場及 H200 GPU 相關影響目前尚難以評估;8)儘管儲存成本上漲,公司仍維持 70% 左右的毛利率展望不變。與此同時,美銀仍認為,輝達 2026/2027 年(日歷年)預期市盈率分別為 25 倍 / 19 倍,這一估值具備較強吸引力 —— 其市盈率相對盈利增長率(PEG 比率)僅約 0.5 倍,而同期 Mag-7 成分股及其他成長型同行的 PEG 比率約為 2 倍。美銀維持對輝達的 “買入” 評級,將其列為首選標的,目標價 275 美元。輝達仍領先競爭對手整整一代儘管GoogleGemini3 是目前頂尖的大語言模型且基於 TPU 訓練,但輝達認為目前判定勝負為時尚早。關鍵在於,當前已推出的基於 GPU 的大語言模型均採用 2022 年發佈的舊款 Hopper 架構產品訓練,與即將推出的基於 2024 年 Blackwell 架構 GPU 訓練的大語言模型無可比性。基於 Blackwell 架構的模型將於 2026 年初開始逐步推出,輝達認為屆時其至少領先競爭對手整整一代的優勢將明確顯現。此外,MLPerf、InferenceMAX 等多數外部基準測試顯示,Blackwell 架構在訓練和推理領域均處於絕對領先地位,輝達在每瓦令牌數和每令牌收入兩項關鍵指標上均保持領先。2026 年前至少 5000 億美元銷售額具備可見性輝達重申,公司對 2025-2026 年(日歷年)Blackwell/Rubin/ 網路業務類股至少 5000 億美元的銷售額展望具備供需端可見性。輝達近期與 OpenAI 及 Anthropic /微軟達成的合作(每採購 / 部署 1GW 算力,輝達將投入 100 億美元資金)將為這 5000 億美元銷售額帶來額外增量 —— 這些合作目前為意向書(LOI)形式,有望成為業績上行的潛在驅動力。需注意的是,Blackwell 世代資料中心基礎設施的輝達相關產品價值約為 300 億美元 / GW,Rubin 世代這一數值將更高。中國市場及 H200 GPU 影響尚難量化關於川普政府近期擬重新允許向中國出售 H200 GPU 的立場,輝達認為目前評估或量化其影響為時尚早。輝達尚未獲得正式許可,後續還需明確三大問題:中國客戶的實際需求、公司供應鏈端的產能建設速度及規模、監管機構的相關許可情況。美國政府要求的 25% 相關削減比例具體計算方式尚不明確,但美銀認為,此舉更可能導致公司銷貨成本(COGS)上升,而非收入下滑。 (騰訊自選股)