#輝達GPU
美國安全審查突襲,中國H200訂單全線凍結!
英國《金融時報》今日援引三位白宮及國會消息人士稱,美國國家安全委員會(NSC)於2月3日啟動新一輪對華AI晶片安全審查,已要求輝達暫停所有H200對華銷售申請,待審查結束後方可重啟批文流程。這意味著原本已獲“口頭放行”的50萬顆H200再次停擺,中國雲廠商春節前搶貨計畫被迫中斷。審查焦點在於“中國潛在用途”與CUDA生態技術外溢風險。NSC擔心,H200雖低於70 TFLOPS紅線,但可通過堆疊組成超算叢集,用於高超音速模擬與情報分析。國會助手透露,此次審查可能持續45-60天,且不排除將H200納入《國際武器貿易條例》(ITAR)管制清單。輝達凌晨回應,將“全面配合政府審查”,並暫停向中國客戶傳送任何新銷售要約。公司已通知阿里、字節等大客戶:已預付但未清關的訂單將暫緩發貨,可選擇退款(扣除物流與關稅成本)或轉口至第三國。現貨市場應聲跳漲:香港倉庫提貨價從4.2萬美元回彈至5萬美元,中間商開始囤貨待漲。中國國產GPU廠商連夜促銷:寒武紀MLU 300現貨價下調至0.95萬美元,並提供120天帳期;摩爾線程把S5000租金再降20%,諮詢量兩日增長3倍。業內普遍認為,若審查持續至4月,中國雲廠商將被迫擴大中國國產卡採購,2026年中國國產AI晶片市佔率有望從18%躍升至35%。對於仍在擴建的中國國產GPU、HBM與封裝產業鏈而言,美國再次“關門”意味著9個月替代窗口正式開啟。 (晶片行業)
昨晚請教了北美專家,聊聊周末刷屏的儲存
上周五儲存再次爆發,主要還是大摩早晨發的兩篇報告(我們周五早晨已發星球),剛好晚上我們請教了北美的儲存專家,側面驗證新邏輯。另外我們再交流幾個話題:3D DRAM、輝達在CES上發佈的新一代 GPU 架構對儲存的影響、以及未來儲存價格的判斷。1/CES2026輝達架構影響從我們以前的儲存框架來講,只是朦朧地知道,在接下來面對更多長文字的時候,可能需要更多的儲存支援。當時行業對轉折原因的分析較為分散,對儲存的判斷不夠清晰。但從25年8月份第三周開始,行情就出現了一個明顯的轉折。尤其是CES之後,輝達在 CES 2026 發佈代號為“Vera”的新一代 GPU 架構,核心升級在於引入專為大模型推理最佳化的計算單元,並配套推出“Context Memory Platform”(CMP,即推理上下文記憶體平台);如果把邏輯推導到我們底層的計算和應用產品線上去講,從第一代、第二代開始就出現了這個問題:即我們所有的大模型都是 Transformer 架構。在這種架構下,都是採用 QKV 的計算方式。當文字越來越長時,KV 快取的容量就會越來越大。在模型早期,KV 快取是直接放在 HBM裡的,因為它必須有足夠的頻寬才能和 GPU 通訊。所以回看兩年前,HBM 突然被叫到了異常的高度,不論多少錢都要去做。背後的邏輯是:輸入的文字越來越長,對 HBM 的需求一定是長期穩定的。因此,幾家原廠才會不遺餘力地將 HBM 作為最高優先順序進行研發投入。雖然良率很低,但每年都在迭代,因為 KV 快取最初就是存在 HBM 裡的。但兩年前大家就發現這是一個問題,因為 HBM 良率低且極其昂貴。那麼有沒有其他方式?其實兩三年前整個行業就預見到了這個問題,於是很多儲存引擎或資料庫軟體應運而生,也就是想辦法把資料從HBM中拿出來。但從 HBM 裡面拿出來,拿出來往那去放?輝達其實在 DPU系列上一直有佈局。在搭載 B200、B300的時候就配有DPU。到了現在的 BlueField-4(BF4),已經是第四代了。BlueField 的核心邏輯就是通過一張 DPU(資料處理器) 來管理幾張卡的資料。其實在去年,DPU 本身就已經具備了解除安裝/外遷KV 快取 的能力,只是當時模型的發展還沒到那個臨界點,軟體層面的最佳化也還沒像今年 CES 展示的這麼明確。在今年 CES 2026 上,輝達正式推出了基於 BF4 的軟體定義邏輯,將每個 GPU 理論上能支援的最大儲存容量具象化了——即通過 DPU 擴展,單 GPU 可支援高達 16TB 的儲存容量。這個數字的量化非常關鍵。之前關注不多的人可能覺得這是一個新增的東西,但實際上,它只是把大家對儲存需求的估值給具體量化了。這導致這一輪市場對儲存的觀點發生了變化。但從整體上看,無論是架構邏輯還是底層原因,在更長期的路線圖上,它的發展方向其實是一脈相承的,並沒有發生根本性的巨變。2/一些儲存的關鍵問題(1)真實缺口僅 5%-10%,為何漲價預期高達 50%?核心邏輯:恐慌性搶購放大效應供需真相:實際物理缺口並不極端(Global Supply ~12w vs Demand ~12w),缺口約 5-10% 。恐慌傳導:上游原材料漲價 20% + 龍頭(華邦)轉產高利產品(DDR4/NAND)-> 供應端收縮訊號明確 。下游由於庫存極低(疫情後未補庫),恐慌情緒被點燃 -> “怕斷貨”心理導致需求被數倍放大 -> 即使提價也無法滿足需求 。價格指引:2025 Q4 已漲 30%,2026 Q1-Q2 預計再漲 30%-50% 。漲價節奏方面,2025年CQ4為行業漲價起點,但當時漲價未充分落地,2026年CQ1、CQ2漲價趨勢明確,市場信心充足,訂單量較高;不過隨著真實訂單和付款推進,2026年下半年行業或將逐步梳理非緊急需求,需求格局將更清晰。(2)漲價傳導機制:這次不一樣?靈魂拷問:這輪漲價是需求拉動還是因為上游漲價被迫跟進?邏輯鏈條:上游:晶圓代工漲價 ~20% 。競對:台系大廠(華邦等)計畫漲價 50%-100% 。應對:國內順勢跟漲 -> 2025 全年漲 30%,Q4 單季漲 20%+,小客戶漲 40% 。展望:未來一年預期再漲 30%-50% 。隱憂:漲價主要由供給側(產能調整、原材料)驅動,而非單純的需求側爆發,需警惕下游承受力 。(3)為什麼模組廠這次可能會“餓死”?為什麼:以前周期上行時,模組廠都能跟著喝湯,這次為什麼原廠不給貨了?邏輯鏈條:HBM 擠出效應:HBM 需要消耗大量晶圓 + 良率低吃產能 -> 且 HBM 單晶圓毛利遠高於 DDR4/5 。策略逆轉:原廠(美光等)“All in AI” -> 只有把晶圓做成 HBM 或 SSD 才划算 -> 拒絕向模組廠出售晶圓(視為低效產能和潛在競爭對手)。結果:模組廠賴以生存的“低買高賣”模式失效,未來 3-5 年面臨持續的晶圓短缺。3/3D DRAM及封裝技術相關上周和一家Fabless晶片供應商交流,他說目前唯一能量產的3D dram之後國內的那家頂流,下一步就是期待手機26年能量產。今天的專家說未來幾年預計不會落地什麼新的技術,像3D dram等先進封裝技術被定義十年以上的長期研發計畫...短期沒有什麼儲存新技術,僅能通過軟體層面最佳化現有SSD產品 (北向牧風)
頻寬戰爭前夜,“中國版Groq”浮出水面
在AI算力賽道,輝達憑藉Hopper、Blackwell、Rubin等架構GPU,早已在AI訓練領域建立起了難以撼動的技術壁壘與行業地位。但隨著即時AI場景需求爆發,傳統GPU在面對低批處理、高頻互動推理任務中的延遲短板愈發凸顯。為破解這一痛點,輝達重磅出擊,斥資200億美元收購Groq核心技術,搶跑AI推理市場。這一金額不僅創下輝達歷史最大手筆交易、刷新了推理晶片領域的估值紀錄,更鮮明地昭示著輝達從“算力霸主”向“推理之王”轉型的意志。緊隨這一動作,據技術博主AGF消息進一步披露,輝達計畫在2028年推出新一代Feynman架構GPU——採用台積電A16先進製程與SoIC 3D堆疊技術,核心目的正是為了在GPU內部深度整合Groq那套專為推理加速而生的LPU(語言處理單元),相當於給GPU加裝了一個專門處理語言類推理任務的專屬引擎,直指AI推理性能中長期存在的“頻寬牆”與“延遲瓶頸”。這些動作表明:AI行業的競爭正從單純的算力比拚,轉向對單位面積頻寬的極致追求——這與輝達此前“大模型推理90%的延遲源於資料搬運,導致算力利用率常低於30%”的結論不謀而合。無獨有偶,AMD通過3D V-Cache持續驗證儲存靠近計算的效能邏輯;d-Matrix、SambaNova等明星AI推理晶片公司,更是聚焦流式執行與片上頻寬建構核心競爭力,用實際行動印證這一行業共識。頻寬戰爭打響,誰是“中國版Groq”?回看中國市場,AI浪潮推動下,國產大模型多點突破、強勢崛起,本土AI晶片企業集體爆發並密集衝擊IPO,資本熱度居高不下。然而,當輝達選擇通過Feynman架構來補齊推理短板時,就意味著誰能率先解決“頻寬牆”問題,誰就握住了下一輪周期的入場券。在這一背景下,國內賽道湧現出前瞻性佈局者。近日,半導體行業觀察注意到,一家源於北京大學物理學院的AI晶片公司——寒序科技(ICY Technology),宣佈完成數千萬元人民幣新一輪融資。這家企業以“超高頻寬推理晶片”為核心產品,被業內視為中國大陸少有的在技術路線層面正面對標Groq的前沿技術團隊。“中國版Groq”的名號,初見端倪。實際上,寒序科技的技術披露並非偶然,而是源於在內部保密原則下的長期的低調深耕。早在2024年9月與2025年11月,寒序科技就已聯合北京大學物理學院、電腦學院、積體電路學院,以及澳門大學模擬與混合訊號積體電路全國重點實驗室,先後承擔、主持兩項北京市科技計畫項目。他們前瞻性地鎖定0.1TB/mm²/s超大頻寬流式推理晶片研發,在省部級重大研發任務中,在北京市科學技術委員會的指導下,在任務書中全面對標Groq的技術路線與頻寬指標。這意味著,當Groq因LPU爆紅被視為“推理新範式”時,中國科研與產業團隊已在國內同步推進一條差異化的實現路徑。據瞭解,寒序科技採用“雙線佈局”建構核心競爭力:一方面,已發佈SpinPU-M系列磁機率計算晶片,推出1024位元全連接伊辛退火求解硬體,覆蓋組合最佳化與量子啟髮式計算市場;另一方面,本輪融資的核心看點——SpinPU-E磁邏輯計算晶片系列,直指大模型推理解碼(Decode)階段加速,以片上MRAM(磁性隨機儲存器)為核心介質,建構超高頻寬磁性流式處理架構。能看到,寒序科技並未跟隨主流GPU的片外DRAM/HBM或Groq的存算一體SRAM方案,而是選擇了片上MRAM這條更底層、更物理本征、更具長期想像力的技術路線。眾所周知,當前主流的AI計算範式面臨多重困境:採用HBM的GPU方案,頻寬受限於昂貴的2.5D/3D先進封裝,核心儲存器件HBM產能被海外巨頭壟斷且面臨出口管制;採用SRAM的Groq方案,則因SRAM單元面積大、成本高,單晶片儲存容量有限,難以規模部署千億參數大模型。面對這些行業普遍的困局,寒序科技源自北大物理學院,從凝聚態物理的角度,從第一性原理進行思考,利用本征功耗更低、速度更快的“電子自旋翻轉”,代替“電子電荷運動”來進行儲存與計算。而這種底層邏輯的革新,正是源於MRAM技術帶來的核心優勢。它兼具SRAM的高速、DRAM的高密度與快閃記憶體的非易失性等優勢,其直立結構的磁性隧道結,通過垂直微型化和CMOS工藝相容性,能夠大幅降低對複雜封裝的依賴,在成本、功耗和可靠性上具有顯著優勢。與SRAM方案相比,MRAM技術的差異化優勢十分突出:儲存密度領先:主流AI推理架構深度依賴片上SRAM以換取高速,但SRAM正面臨嚴峻的微縮困境。傳統SRAM每個儲存單元由6個電晶體(6T)組成,儲存密度低,儲存容量小,儲存典型的DeepSeek-R1-671B大語言模型可能需要數千片Groq LPU晶片,且5nm以下節點尺寸幾乎停止縮減;而MRAM天然採用1T1M(1個電晶體+1個磁隧道結)結構,單個MTJ可以執行SRAM 6個電晶體的儲存功能,同等晶片面積和工藝節點下,儲存密度是SRAM的5-6倍。工藝成本更低:MRAM的物理結構優勢,使其在國產工藝製程即便落後一代的情況下,性能指標也能對標甚至超越採用先進製程的SRAM方案。這意味著MRAM無需追逐極先進製程,大幅降低流片與量產成本(單片成本可降至原來的十分之一以下),同時保障了供應鏈自主可控。非易失性與高能效:MRAM斷電後資料不丟失,無需像SRAM/DRAM那樣持續刷新,待機功耗接近零,具備快速啟動、低待機功耗、高耐用性等優勢;同時避免了SRAM的漏電流損耗,為邊緣端和雲端的大規模部署提供極佳能效優勢,大幅降低運行成本。通過自研的磁性存算一體流式架構,寒序科技將MRAM的器件優勢轉化為晶片級系統性能。據悉,SpinPU-E晶片架構的目標是將訪存頻寬密度提升至0.1-0.3TB/mm²·s,不僅能比肩以“快”成名的Groq LPU(0.11 TB/mm²·s),更是輝達H100(0.002-0.003 TB/mm²·s)的數十倍。據瞭解,輝達GPU的架構最初面向大規模訓練與圖形渲染場景設計,強調峰值算力與吞吐能力,並通過多級快取、動態調度和共享儲存來適配高度平行但相對粗粒度的工作負載。在大模型推理的Decode階段,GPU性能瓶頸主要來自對外部儲存(HBM)和複雜記憶體層級的高度依賴。該計算過程呈現出強序列性、小批次和頻寬主導等特徵,與GPU設計初衷明顯錯配。在實際執行中,GPU仍需要通過多級快取和共享儲存來訪問,資料到達計算單元的時間並不固定,不同計算單元之間也需要反覆等待和協調。這使得訪存延遲和執行順序經常波動,矩陣加乘單元很難按照固定節拍持續運行,算力難以穩定發揮。而寒序科技採用確定性的“磁性流式處理(MSA)架構”,將大規模MRAM Banks緊鄰矩陣加乘單元部署,並圍繞推理資料流建構多級流水執行路徑,使權重和中間啟動在局部高頻寬範圍內按固定順序流動。通過在硬體層面同時約束儲存位置、訪存頻寬、通訊路徑與執行節拍,該架構在Decode階段顯著降低了延遲抖動與外部儲存訪問依賴,實現更高的頻寬與更快、更穩定的推理性能。值得關注的是,MSA架構並非簡單的存內計算概念,而是圍繞推理場景,對資料流組織、儲存-計算耦合方式以及執行節拍進行重新設計,在保證超高頻寬的同時,顯著降低對先進製程與複雜封裝的依賴。有業內人士指出,這一路線與NVIDIA在Feynman架構中所釋放的訊號高度一致:未來推理性能的競爭核心,不再是算力規模,而是單位面積頻寬與執行範式。走出北大實驗室的秘密武器——“天時地利人和”SpinPU-E展現出的性能優勢,並非偶然的技術選擇,而是核心團隊跨學科積澱、全鏈條技術把控與前瞻性路線佈局的成果。據報導,寒序科技是國內首個有能力跑通從物理、材料、器件到異質整合、晶片設計、演算法的交叉團隊,核心成員源自北京大學物理學院應用磁學中心——國內磁學研究的頂尖高地,擁有近70年的磁學積澱,核心成員橫跨凝聚態物理、電子科學、電腦技術、人工智慧等多領域:首席執行長朱欣岳兼具凝聚態物理、人工智慧演算法與積體電路的交叉背景,曾主導多模態AI演算法開發、多顆高性能專用晶片研發,帶領團隊完成四輪市場化財務融資與產品化;首席科學家羅昭初作為MIT TR35入選者,曾於清華大學、蘇黎世聯邦理工學院完成自旋電子學、磁性計算的科研工作,深耕微納磁電子學與磁儲存/計算,擁有深厚的學術積累與Nature、Science正刊成果,團隊歷經多次流片驗證,既保有前沿技術探索的銳氣,又具備工程化落地的能力。相比純粹的架構創新,寒序科技這種“材料-器件-晶片-系統-演算法”的全鏈條視野和全端攻關能力,讓MRAM技術得以從底層原理到上層系統實現協同最佳化與突破,而非僅停留在邏輯和架構層面的修補。這也是寒序科技被視為精準踩中2030年行業時間軸的前瞻性下注的核心原因。這種對行業趨勢的精準踩點,不僅體現在技術路線的選擇上,或許也蘊含在對商業化路徑的思考中。回溯Groq的成長軌跡來看,其業務從核心的GroqChip LPU推理晶片起步,逐步延伸至加速卡、伺服器系統、資料中心叢集,最終建構了雲服務平台,形成了“晶片-硬體-系統-雲服務”的全端佈局。沿著Groq被驗證的商業邏輯向前推演,寒序科技大概也會沿著相似的路徑開展自己的業務版圖——以SpinPU-E磁邏輯晶片為起點,向上建構硬體產品矩陣,最終通過雲服務觸達更廣泛市場的全端路徑,以建構更強的技術壁壘和產業競爭力。更關鍵的是,這條路徑並非簡單的模式復刻,而是基於本土產業現狀的創新破局——當行業苦於HBM成本高企、SRAM微縮放緩之時,寒序科技沒有陷入“算力堆砌”的內卷,而是利用MRAM磁性計算新範式,在中國本土成熟供應鏈基礎上,築起了一座對標全球頂尖推理性能的頻寬高地。這種從底層物理原理出發的差異化競爭策略,或許正是其作為“中國版Groq”浮出水面的核心底氣。MRAM開啟新型儲存“黃金時代”破局“頻寬封鎖”寒序科技對MRAM技術的探索並非孤例,背後是一場從“備選”走向“必選”的新型儲存技術浪潮。尤其是在全球半導體產業的演進與地緣政治激盪背景下,為MRAM在內的新型儲存鋪就了一條通往AI算力核心舞台的“黃金賽道”。2024年12月,美國商務部工業與安全域(BIS)發佈新出口管制規則,明確限制向中國出口記憶體頻寬密度超過2GB/s/mm²的尖端儲存器。這一封鎖點,直指AI推理晶片的命門——頻寬。目前,輝達、AMD等巨頭極度依賴HBM,而HBM產能幾乎被SK海力士、三星、美光等海外儲存原廠壟斷,且受限於複雜的2.5D/3D先進封裝。同時,Groq所代表的SRAM路線價格極高(Groq 230MB片上SRAM記憶體的單卡售價2萬美金),在先進製程微縮上也已近極限。在此背景下,MRAM路線的戰略價值陡增。它不僅在物理特性上具備跨代超越SRAM的潛力,更重要的是,它能基於國產28nm/22nm等成熟製程實現超高頻寬,徹底規避對尖端工藝和海外HBM供應鏈的依賴。這不僅是技術路線的“備選”,更是中國半導體產業在算力領域破除卡脖子困境、實現差異化突圍的“必選”。有業內專家表示,這一戰略意義迫切需要國家有關部門給予更高重視與政策傾斜。MRAM不僅是單一儲存技術的革新,更能帶動磁性材料、磁電子器件、存算一體架構等全產業鏈突破,有望徹底改變國內在HBM領域的落後局面和SRAM對先進製程的依賴,為AI算力產業打造自主可控的“第二曲線”。全球共振,商業化拐點已至?當前,產業界正在用實際行動表明,MRAM不再只是實驗室裡的美好構想,而是憑藉獨特優勢正成為全球半導體產業佈局的重點。其中,晶圓代工龍頭與晶片大廠均在積極佈局:台積電、三星、英特爾、SK海力士、IMEC等憑藉其先進的技術研發和大規模生產製造能力,已明確將嵌入式MRAM推進到22nm、16nm甚至更先進節點,持續提升MRAM的性能和整合度。恩智浦與台積電合作推出16nm FinFET車規級eMRAM,應用於其S32系列高端MCU,實現寫入速度比傳統快閃記憶體快10-15倍、耐久性超百萬次;瑞薩電子也推出了基於22nm工藝的STT-MRAM技術,瞄準汽車MCU市場;GlobalFoundries、Everspin在12nm和22nm工藝上緊密合作,將MRAM納入工業級和車規級量產方案;Avalanche與聯電攜手合作推出22nm STT-MRAM,在工業級和航天級市場擁有深厚積澱。據LexisNexis資料統計,2004-2013年間,MRAM市場的專利申請量保持穩定,每年約有300至400項專利申請。需要注意的是,圖表末尾的下降並不代表興趣的下降,而是專利申請和公開之間的時間存在滯後。這些頭部廠商的集體行動,清晰印證著MRAM正從“備選技術”升級為“主流方案”,在汽車電子、邊緣AI、高端計算等領域的商業化落地進入爆發前夜。回看國內市場,本土半導體廠商同樣敏銳捕捉到了新型儲存技術的發展機遇,積極佈局相關領域。RRAM領域湧現出昕原半導體、銘芯啟睿、燕芯微等玩家;MRAM賽道,寒序科技、致真儲存、馳拓科技、凌存科技、亙存科技等紛紛嶄露頭角,為國內MRAM的發展奠定了產業基礎。相對於RRAM基於電子電荷遷移,是一種統計物理範疇下的阻變器件;MRAM的存取機理是基於自旋的確定性兩態翻轉,更加可控、精準,大規模製造下器件一致性、器件壽命極限都更有優勢與潛力。兩者均被台積電等半導體巨頭作為下一代面向AI的儲存技術重點押注。具體來看,本土MRAM廠商各有側重,多數主要集中於儲存、加密、嵌入式控制等傳統領域,例如:致真儲存專注於磁性隧道結(MTJ)的核心器件研發與製造工藝,掌握從材料研發到器件製造的全鏈路技術,擁有國內唯一的8英吋磁儲存晶片專用後道微納加工工藝中試線。近期與北京航空航天大學聯合攻關,研製出全球首顆8Mb容量自旋軌道力矩磁隨機儲存器晶片(SOT-MRAM),實現SOT-MRAM容量規模化突破。馳拓科技專注於MRAM儲存晶片的技術研發與生產製造,建有12英吋MRAM量產中試線,是國內首家實現MRAM量產的企業。近期成功突破垂直磁化體系技術瓶頸,儲存器件TMR關鍵指標比肩國際頭部代工廠量產的STT-MRAM。凌存科技專注於儲存模組開發,致力於將MRAM技術從核心器件層面推向終端應用,成功開發了世界首款高速、高密度、低功耗的儲存器MeRAM原型機及基於MeRAM的真隨機數發生器晶片,產品廣泛應用於車載電子、高性能運算、安全等領域。寒序科技則獨闢蹊徑,與多數國內MRAM企業不同,其以MRAM為核心介質建構計算晶片,將MRAM的物理優勢轉化為算力與頻寬優勢,開闢了“磁性計算”這一全新賽道,致力於從計算層面引領國內MRAM技術從利基低毛利領域向高端市場跨越,成為國內MRAM技術從儲存替代向計算革新跨越的關鍵力量,舉起大旗與國內磁學領域全面擁抱合作,力爭一同搶佔全球“磁計算”的戰略高地。綜合來看,從器件、裝置、製造到系統應用,國內產業鏈的前期佈局已具備支撐本土MRAM技術產業化與生態發展的基礎。尤其是寒序科技的差異化定位,進一步填補了國內MRAM從儲存到計算的關鍵空白,為後續誕生更多行業廠商提供了土壤和必然性。生態共建:國產MRAM的“磁計算”革命根據市場研究機構Precedence Research資料顯示,2024年全球MRAM市場規模估計為42.2億美元,預計從2025年的57.6億美元增長到2034年的約847.7億美元,復合年增長率高達34.99%。雖然前景廣闊,但MRAM的大規模爆發和商業化落地仍需產業合力,需要產業鏈上下游凝聚共識,共同建構生態。結合國際經驗和國內產業的發展現狀來看,更深度的產業合作與資源傾斜或許是推動MRAM技術發展的有力舉措。例如,國家有關部門可以給予MRAM技術更多重視,加大資金與政策支援,積極推動MRAM這一有希望在頻寬領域實現“變道超車”的關鍵技術。同時,借鑑台積電、三星、GlobalFoundries等頭部廠商對MRAM的關注與投入力度,國內代工廠或許也應加強對MRAM的工藝研發與資源投入,積極與國內廠商共同開展技術研發與工藝最佳化,爭取儘早打通“設計-製造-封測”的本土化鏈路,形成協同創新的合力,降低MRAM晶片的流片成本與量產門檻。還有一點不可忽視。輝達收購 Groq核心技術,計畫在Feynman架構中整合LPU單元的案例,充分證明了“通用算力+專用引擎”的協同優勢和行業趨勢。這一案例極具啟示價值。筆者認為,在未來提升AI推理效率的行業共識下,國內AI晶片廠商應抓住這一變革機遇,加強與在新型介質與架構上具備底層創新能力的團隊的合作力度,打造兼具通用算力與專用推理性能的新技術路徑,快速補強技術短板,建構差異化競爭力。產業界正釋放清晰訊號:以MRAM為代表的新型儲存,已成為後摩爾時代的核心焦點。地緣政治的戰略訴求、國際大廠的技術押注、國內產業鏈的長期積澱,再加上寒序科技的差異化突破,多重力量共振之下,MRAM正逐漸邁入產業化的“黃金時代”,有望成為中國AI晶片產業實現換道超車的關鍵抓手。五年後,誰將主導下一代推理晶片?當摩爾線程、沐曦、天數、壁仞等國產AI晶片公司接連叩響資本市場的大門,一個時代的答卷已然清晰。它們的密集上市,標誌著中國在基於傳統GPU架構的算力競賽中,完成了從無到有的突圍,進入了國產替代的收穫期。如果說上一代AI晶片的競爭是“算力競賽”,那麼下一代的分水嶺將是“誰能率先跨過頻寬牆”。在這個關鍵轉折點上,兩條路徑清晰呈現:一條是Groq選擇的極致SRAM片上整合路徑,用極高成本將頻寬推向極限,並因此獲得了行業霸主輝達以數百億美元估值的戰略整合;另一條,則是以MRAM為代表的新型儲存介質路線,為突破頻寬瓶頸提供了一種更具根本性,也更符合長期成本與供應鏈安全需求的方案。數年後,當AI推理進入“頻寬決勝”的新時代,晶片市場或許不再僅有算力的巨獸,主導市場的佼佼者還將屬於那些能夠率先在“頻寬戰爭”中沉澱出護城河的先行者。正如Groq在矽谷用SRAM驚豔了世界,行業演進的邏輯暗示:“中國版Groq”的出現也將不再是懸念。在這個征程中,中國半導體產業各方也都在積極擁抱AI,拓展產品品類,謀劃新的增長曲線。而寒序科技正依託MRAM磁性計算的新範式,給出“中國版”的實現路徑——並且,這條路,他們早在多年前,就已開始默默鋪設。 (半導體行業觀察)
Google TPU與輝達GPU對比分析
市面上有兩類比較典型的GoogleTPU和輝達GPU對比分析,一類是純技術層面討論,晦澀難懂,另一類會講得斬釘截鐵,但可信度難以判斷。今天我分享一篇通俗易懂,且信源可靠的TPU和GPU對比分析文章,信源來自於The Information對Google、輝達、蘋果等公司員工的訪談。租用最先進的GPU與最先進的TPU,那個性價比更優?這取決於雲服務提供商(註:AWS、Azure、Google雲)對GPU的收費標準,該標準可能會根據開發者對該晶片系統的承諾(使用)期限而有所不同。不過,由於在這些系統上運行應用程式涉及到軟體問題,因此很難對它們進行直接比較。對於已經使用輝達的CUDA程式語言在伺服器晶片上運行人工智慧的客戶來說,租用輝達晶片更具成本效益,而有時間和資源重寫程序的開發者則可以通過使用TPU來節省資金。不過,對於大多數開發者而言,輝達的軟體能讓他們快速且輕鬆地開始在GPU上運行人工智慧應用程式。像Anthropic、蘋果和Meta這樣經驗豐富公司在使用TPU時可能面臨的挑戰更少,因為他們更擅長編寫在伺服器晶片上運行人工智慧的軟體。根據對Google和輝達前員工的採訪,TPU相比GPU具有潛在的成本優勢,這取決於客戶運行的AI計算工作負載數量及其類型。對於使用GoogleGemini模型的客戶來說,TPU的成本效益可能尤為顯著,因為這些模型是基於TPU開發的。卓哥理解:1.價格不能直接比, 看合同期限,租1年和租3年價格肯定不同。2.絕大部分開發人員已經用慣了輝達CUDA軟體系統,用TPU會有遷移成本。3.基於TPU開發的大模型更具成本效應。我已經在不少於3處靠譜信源看到,基於TPU開發的Gemini相比於基於GPU開發的ChatGPT更具成本優勢。輝達首席執行長黃仁勳曾表示,即便競爭對手的晶片定價為零,企業們仍會更青睞輝達的晶片。這種說法精準嗎?事情並非如此簡單。生產輝達晶片的台積電會謹慎地避免將過多的晶片製造和封裝產能投入到單一公司,因此輝達不太可能獲得其滿足客戶需求所需的全部產能。由於輝達通常無法獲得足夠的產能來滿足整體需求,市場對其競爭對手的晶片將會有需求。卓哥理解:台積電不希望輝達一家獨大。其實下游晶片代工廠產能給誰很重要的,不是說晶片設計公司想要多少產能就有多少產能。大摩不是說GoogleTPU 2026年要產300萬顆(利用博通與台積電良好關係)嗎?最近又傳出消息說今年不一定能產300萬顆,台積電可能沒這麼多產能給Google。最先進的TPU(Ironwood)和最先進的GPU(Blackwell)在計算能力或其他關鍵指標(如能效)方面有什麼區別?一位行業高管表示,以每秒兆次浮點運算(FLOPS)來衡量(卓哥註:這是AI開發人員衡量晶片計算能力的常用方式。),Google最先進的TPU在單晶片基礎上的性能是輝達最先進GPU的一半。Google可以將搭載數千個TPU的伺服器整合到一個計算單元中,這使得它們在開發新的人工智慧模型時特別有用且具有成本效益,而輝達最多隻能連接256個GPU。當然輝達的晶片客戶可以通過使用額外的網路電纜連接其資料中心的伺服器來克服這一限制。卓哥理解:單兵作戰,TPU性能只有GPU一半,但TPU可以用人海戰術堆料。TPU運行AI的方式與GPU有何不同?GPU能夠處理各種各樣的計算任務,從渲染視訊遊戲圖形到訓練大型語言模型。這種晶片在機器學習模型所需的重複性數學運算方面表現出色,特別是將數字網格相乘的過程,也就是所謂的矩陣乘法。Google的TPU更加專門化,能夠比GPU更快地處理矩陣乘法和運行某些AI模型。TPU之所以能做到這一點,是借助了脈動陣列——一種由簡單計算器組成的網格,這些計算器以有節奏的模式相互傳遞資料。這種設計使數字能在計算過程中持續流動,無需不斷從晶片記憶體中調取資料,從而避免了時間和能量的浪費。TPU效率更高,因為它只做一件事,但這也意味著它們只在特定軟體上運行良好。GPU可以被用來完成更多種類的任務。卓哥理解:之前還看過一個訪談,說TPU的風險之一就是通用性不好,中途切換做其他(非初始設定)任務的效果遠不如GPU。在處理大語言模型或大型視覺、視訊模型方面,TPU與GPU相比有那些優缺點?TPU為Google的人工智慧開發者提供了相較於GPU的成本優勢,因為該公司的人工智慧模型、應用程式和資料中心在設計時就考慮到了TPU。但TPU僅能與某些人工智慧軟體工具(如TensorFlow)順暢協作。然而,大多數人工智慧研究人員使用PyTorch,該工具在GPU上運行得更好。TensorFlow和PyTorch使開發者無需從頭編寫特定的軟體程式碼,就能訓練和運行人工智慧模型。對於視訊和視覺模型,TPU擅長執行圖像識別所需的重複性數學運算。它們通過將摺積(圖像模型中的核心計算)轉換為矩陣乘法來處理這些運算。但一些工程師表示,在開發視覺模型方面,GPU優於TPU,因為這一過程通常涉及對複雜圖像變換的試驗,例如旋轉、裁剪或調整顏色。那些公司使用TPU?據蘋果前員工及其人工智慧團隊發表的研究論文稱,蘋果長期以來一直使用TPU來訓練其最大的語言模型。人工智慧圖像公司Midjourney在2023年表示,它正在使用TPU來開發自己的模型。據一位瞭解這一轉變的人士透露,人工智慧開發商Cohere此前使用TPU開發模型,但去年由於在早期版本的TPU上遇到技術問題,轉而使用GPU。卓哥補充:還有其他案例是,一直用GPU然後切換去用TPU的公司。Google要在Google雲之外大量銷售TPU,需要具備那些條件?Google需要徹底改革其整個供應鏈,效仿輝達的商業模式,不僅要從代工廠獲得足夠的晶片,還要確保客戶能夠安裝這些晶片並可靠地使用它們。這意味著Google必須投入大量資金來發展銷售分銷網路,包括聘請生產晶片容納裝置的伺服器設計師,以及僱傭眾多工程師為TPU買家提供客戶支援和其他服務。卓哥理解:如果Google要外租或者賣TPU,先得到台積電拿到足夠產能配額,此外還得組建銷售和工程師支援團隊。生產最先進的TPU與生產最先進的GPU的生產成本相比如何?潛在成本可能相近。Google為Ironwood在台積電採用了比輝達為Blackwell所使用的更昂貴、更先進的晶片製造技術。但Ironwood晶片體積更小,這意味著台積電可以從一片晶圓上切割出更多晶片。這彌補了與昂貴矽片相關的額外成本。瞭解生產情況的人士表示,這兩款晶片都使用了相同類型的高頻寬記憶體。Google生產多少個TPU?這與其他人工智慧晶片相比如何?據摩根士丹利的最新估計,Google計畫在2026年生產超過300萬個TPU,2027年生產約500萬個。一位瞭解TPU項目的Google員工表示,公司已告知部分TPU客戶,其計畫在2027年生產更高數量的TPU,但目前尚不清楚台積電是否會同意在該年度生產這麼多TPU。Google通過博通公司訂購其最強大的TPU,博通與台積電有合作,同時也為TPU晶片本身提供一些輔助技術。據兩位瞭解生產情況的人士透露,輝達目前生產的GPU數量大約是Google生產的TPU的三倍。卓哥補充:除了博通,Google也已在與聯發科合作。博通在TPU的研發中扮演什麼角色?Google通過博通在台積電生產最強大的TPU,而且博通還負責TPU的物理設計,包括至關重要的晶片封裝,並且實質上是根據Google建立的藍圖來開發這款晶片。晶片封裝指的是晶片的組裝,隨著晶片上電晶體的縮小變得愈發困難,這一環節已成為整個流程中更為重要的部分。博通還為Google提供了設計TPU的一項關鍵智慧財產權:序列器/解串器,業內稱之為SerDes。這是實現高速資料在TPU之間傳輸以支援平行計算的最佳技術,通過這種技術,多個晶片可以協同工作——這是開發大語言模型的重要一步。Google和博通有時會因博通的TPU價格而產生分歧,這促使Google尋求聯發科等其他合作夥伴。聯發科即將生產一款性能稍弱的TPU,旨在幫助Google降低其人工智慧運行成本。博通從開發TPU中獲得的分成是多少?據分析師稱,這至少有80億美元。如果Google出售或出租TPU,讓它們進入其他公司的資料中心,這在經濟層面可能會產生什麼影響?目前尚不清楚Google向其雲客戶出租TPU能產生多少毛利率。除了伺服器晶片租賃業務外,它還可以向雲客戶銷售許多其他服務。這位前TPU高管表示,如果Google將TPU出售或出租給其他公司的資料中心,那麼這些設施需要按照高度特定的方式設計,類似於Google的資料中心,才能像Google在自身人工智慧應用中那樣,充分利用TPU帶來的成本優勢。此外,這樣做意味著Google將放棄從雲客戶那裡獲得的其他類型收入,比如儲存和資料庫相關收入,因此它可能會向TPU買家額外收費,以彌補這部分潛在的收入損失。.Google為何要追求一種更接近輝達的商業模式?Google已向潛在的TPU客戶表示,一些科技和金融服務公司出於安全等原因,希望將TPU安置在自己的資料中心——即非Google的資料中心。Google一直在與競爭對手雲服務提供商洽談為部分客戶託管TPU事宜。(卓哥註:典型如甲骨文)讓TPU得到更廣泛的應用,也有助於Google說服更多客戶使用其Gemini人工智慧模型,這些模型是針對TPU進行最佳化的。與運行TPU的軟體相比,開發者更熟悉輝達晶片及其運行的軟體。像JAX、PyTorch XLA這樣的新解決方案是否正在縮小這一差距?簡而言之,答案是否定的,不過Google正努力改變這一現狀。而且,Google還向潛在的TPU客戶推介將這些晶片與特製的Google軟體配合使用,這樣能讓晶片的運行更為便捷。 (卓哥投研筆記)
美銀分析:輝達GPU技術超前,H200未來收入仍存不確定性
美銀本周舉辦了輝達(NVDA)投資者關係部門的 Toshiya Hari 線上投資者會議,核心要點如下:1)輝達 GPU 仍領先競爭對手整整一代 —— 目前已推出的基於 GPU 的大語言模型(LLM)均採用舊款 Hopper 架構訓練,而非 Blackwell 架構(基於該架構的大語言模型將於 2026 年初推出),後者相較前代性能提升 10-15 倍;2)下一代 Vera Rubin 架構按計畫將於 2026 年下半年推出,路線圖未發生變化;預填充推理 CPX 版本同樣按計畫推進,預計 2026 年第四季度發佈;3)Google仍是輝達的核心客戶,且合作規模持續擴大,所有模型開發者仍在使用輝達的產品;4)輝達對 2025-2026 年(日歷年)至少 5000 億美元的銷售額展望具備供需端可見性,與 OpenAI、Anthropic 的合作將帶來額外增量;5)已推出 5 年的 Ampere 架構 GPU 在客戶端仍保持近 100% 的利用率,GPU 5-6 年的折舊 / 使用壽命設定合理;6)輝達的核心競爭優勢在於與客戶的協同設計能力,其打造的端到端平台涵蓋 CPU、GPU、縱向擴展、橫向擴展、跨場景擴展及軟體(CUDA 庫)—— 這一優勢無人能複製;7)中國市場及 H200 GPU 相關影響目前尚難以評估;8)儘管儲存成本上漲,公司仍維持 70% 左右的毛利率展望不變。與此同時,美銀仍認為,輝達 2026/2027 年(日歷年)預期市盈率分別為 25 倍 / 19 倍,這一估值具備較強吸引力 —— 其市盈率相對盈利增長率(PEG 比率)僅約 0.5 倍,而同期 Mag-7 成分股及其他成長型同行的 PEG 比率約為 2 倍。美銀維持對輝達的 “買入” 評級,將其列為首選標的,目標價 275 美元。輝達仍領先競爭對手整整一代儘管GoogleGemini3 是目前頂尖的大語言模型且基於 TPU 訓練,但輝達認為目前判定勝負為時尚早。關鍵在於,當前已推出的基於 GPU 的大語言模型均採用 2022 年發佈的舊款 Hopper 架構產品訓練,與即將推出的基於 2024 年 Blackwell 架構 GPU 訓練的大語言模型無可比性。基於 Blackwell 架構的模型將於 2026 年初開始逐步推出,輝達認為屆時其至少領先競爭對手整整一代的優勢將明確顯現。此外,MLPerf、InferenceMAX 等多數外部基準測試顯示,Blackwell 架構在訓練和推理領域均處於絕對領先地位,輝達在每瓦令牌數和每令牌收入兩項關鍵指標上均保持領先。2026 年前至少 5000 億美元銷售額具備可見性輝達重申,公司對 2025-2026 年(日歷年)Blackwell/Rubin/ 網路業務類股至少 5000 億美元的銷售額展望具備供需端可見性。輝達近期與 OpenAI 及 Anthropic /微軟達成的合作(每採購 / 部署 1GW 算力,輝達將投入 100 億美元資金)將為這 5000 億美元銷售額帶來額外增量 —— 這些合作目前為意向書(LOI)形式,有望成為業績上行的潛在驅動力。需注意的是,Blackwell 世代資料中心基礎設施的輝達相關產品價值約為 300 億美元 / GW,Rubin 世代這一數值將更高。中國市場及 H200 GPU 影響尚難量化關於川普政府近期擬重新允許向中國出售 H200 GPU 的立場,輝達認為目前評估或量化其影響為時尚早。輝達尚未獲得正式許可,後續還需明確三大問題:中國客戶的實際需求、公司供應鏈端的產能建設速度及規模、監管機構的相關許可情況。美國政府要求的 25% 相關削減比例具體計算方式尚不明確,但美銀認為,此舉更可能導致公司銷貨成本(COGS)上升,而非收入下滑。 (騰訊自選股)
H200獲批出口中國,輝達GPU:迎來新爭議
據川普最新社交媒體消息透露,美國政府計畫允許輝達(Nvidia)對華出口其H200晶片,這是這家AI晶片設計公司為維持其在世界第二大經濟體的市場准入所做努力的最新轉折。美國商務部計畫批准許可,允許輝達向中國出售其H200。其中一位知情人士稱,該晶片的性能高於此前獲准銷售的H20,但不如該公司今年發佈的頂級Blackwell產品,也不如明年將推出的Rubin系列晶片。值得一提的是,後面這兩款產品還是在限製出售名單裡。知情人士稱,此舉是在美國總統川普與輝達首席執行長黃仁勳(Jensen Huang)上周會晤之後做出的,兩人在會晤中討論了H200的出口問題。熟悉相關討論的知情人士稱,包括AI總監大衛·薩克斯(David Sacks)和商務部長霍華德·盧特尼克(Howard Lutnick)在內的一些官員支援出口H200,因為這可能是一個很好的折衷方案,既能讓輝達與中國公司競爭,又不會讓中國在AI領域超越美國。今年早些時候,川普政府批准對華出口H20,作為交換,銷售額的15%將上繳美國政府,但中國方面卻以所謂的安全擔憂為由,告知本國公司不要使用這些晶片。一些分析師認為,中方的這一資訊是一種談判策略,目的是為了獲得像H200這樣更好的晶片。目前尚不清楚這項15%的協議是否會適用於H200的銷售。智庫Institute for Progress估計,H200的性能幾乎是H20的六倍。輝達新一代產品的性能通常會有巨大提升。拜登政府對關鍵晶片實施了出口限制,許多分析師認為這些限制措施限制了中國國內半導體和AI能力的發展。投資者將關注中國對H200預期獲批的反應,以及美國能獲得什麼回報(如果有的話)。此舉可能為輝達帶來數以十億美元計的銷售額,並幫助那些一直難以獲得頂級晶片來訓練其模型的中國科技巨頭。黃仁勳稱,應允許輝達在中國市場競爭,因為中國擁有許多世界頂尖的AI研究人員,而美國應該希望他們使用美國技術。黃仁勳也明確表示,中國的AI需求規模使該國對輝達的未來至關重要。黃仁勳上周在智庫戰略與國際問題研究中心(CSIS)的一場活動上說:“你無法取代中國。”毫無疑問,在H200出口中國的問題上,黃仁勳獲得了勝利。但對輝達來說,還有另外的問題需要應對。一位博主質疑GPU出貨量在社交媒體上,有一位自稱律師的博主Kakashii一直對輝達的GPU有很多的質疑。最近,他在論壇上發表了一篇詳細的帖子,引發了人們對輝達最新一代 GPU 的重新審視。在文章中,Kakashii質疑了黃仁勳關於 Blackwell GPU 已出貨 600 萬塊的說法。據CNBC報導,黃仁勳在 2025 年 10 月表示,對輝達晶片的需求仍在激增,並指出該公司在過去四個季度中已出貨 600 萬塊 Blackwell GPU 。當時,他還表示,輝達預計Blackwell 系列和明年的Rubin系列GPU 的總銷售額將達到 5000 億美元。根據 Kakashii 在 X 上分享的分析,自 Blackwell 發佈以來,輝達報告的 1110 億美中繼資料中心收入似乎與該出貨量不符。即使考慮到輝達在 2024 年第四季度 Blackwell 營收中披露的超過 100 億美元的收入,該帖子認為這些數字僅代表大約 400 萬台裝置,留下了數十萬到數百萬台 GPU 的潛在缺口。以下為該博主的原文摘譯:由於 Blackwell 推出,輝達報告 GPU 資料中心收入達到 1110億美元。如果簡單計算,自 Blackwell 開始出貨以來,資料中心報告的 1110 億美元收入中 600 萬塊 Blackwell GPU 並不匹配,因為這只代表 250 萬到 350 萬顆 Blackwell 晶片。讓我們試著幫輝達,把他們 2024 年第四季度報告的“Blackwell 收入超過 100 億”加起來。這使得總收入超過 1210 億美元。超過 100億 的晶片數量大約是 25 萬到 33 萬,理想情況下,這讓我們擁有近 400 萬塊 Blackwell GPU,但還是不匹配。好,我們再試一次計算。我們再假設黃仁勳說的是實話,他指的是所有細分市場中Blackwell 晶片的總銷量。這意味著 250 萬到 350 萬塊 Blackwell 晶片收入歸入 1110億,而剩餘的 350 萬到 250 萬塊則用於遊戲及其他細分領域。因為我們相信 Jensen,並且試圖找出我的計算不符的地方,我假設他指的是所有細分市場,也就是所有出貨 GPU 的 20%,而另外 80%用於資料中心。這意味著即使我們把輝達在 Blackwell 的第四季度收入算進去,假設 80%流向資料中心,我們還有 50 萬到 80 萬塊 GPU 的差距。但還是不匹配。為了印證這個說法,Kakashii又從能源方面進行了說明。如他所說,黃仁勳曾表示,自 2025 年 1 月以來,輝達已經出貨了 600 萬塊 Blackwell GPU。大約 65%到 70%的 GPU 會送到美國的資料中心。要為這 600 萬 GPU 中 65%到 70%(約 390 萬到 420 萬 GPU)供電,你需要大約 85吉瓦(gigawatts :GW)) 到 11 吉瓦的資料中心容量。(供參考,這個發電量大致相當於新加坡的總發電能力,或大約十座標準核反應堆。)2024年至2025年間,美國在2024年建成了3.8至4.2吉瓦,2025年估計為4.5至5.0吉瓦,合計8.5吉瓦(先不考慮因電力延遲,實際交付的約一半在日歷年內完成)。所以我們充其量只有 8.5 GW的大量,這大致是為美國所有 Blackwell 晶片供電的最低限度。只有當我們假設美國只有配備 Nvidia 晶片的資料中心(不包括 AMD、TPU 及其他沒有 Nvidia 的資料中心),並且只有 Blackwell 在 2024 年建成的資料中心中安裝過,並且他們是在等待 2025 年 Blackwell 晶片執行階段,數學才是相符的。根據聯邦能源監管委員會(FERC)的資料,美國在 2025 年 1 月至 8 月間安裝了近 26 吉瓦的新發電容量,略高於去年同期的約 23 吉瓦。在26吉瓦中,3吉瓦為風能,3.7吉瓦天然氣,20吉瓦太陽能,0吉瓦核能。我會相信Jensen,因為在這篇文章裡,我們只是相信Jensen的話:未來6到7年,我們將看到一堆小型核反應堆,我們都會成為發電廠,就像某個人的農場一樣。所以我假設他指的是從2026年1月開始,因為到目前為止,美國在2025年部署的核能是0吉瓦的。這意味著,如果所有已建成、部署並計畫今年年底完工的資料中心都按時完工,那麼僅從數字上(簡單計算,我不清楚實際分配情況)來看,今年所有建成的天然氣都分配給了資料中心消費,其中約80%的風能或約25%的太陽能。大空頭Burry 的出擊上周末,因預測 2008 年房地產崩盤而名聲大噪的投資者麥可·貝瑞(Michael Burry)要求提供輝達公司囤積GPU 的證據。其實早在2023年和2024年,貝瑞就曾警告投資者不要對科技行業過度樂觀。這些警告並未點名批評輝達,而是以評論估值、利率和投機等話題的形式在市場上廣泛傳播。公眾仍然將他與宏觀經濟的悲觀論調聯絡在一起,而不是與人工智慧經濟學聯絡起來。到2024年底,形勢開始轉變。海外監管檔案顯示,Michael Burry主導的Scion Asset Management買入了大量與輝達和Palantir掛鉤的看跌期權。這筆交易低調、規模異常,而且出手較早。他當時並未與輝達發生衝突,而是押注人工智慧的發展將會遭遇阻力。2025年11月,貝瑞詳細闡述了他認為目前對人工智慧熱潮理解方式存在的根本性缺陷。他的論點涵蓋了會計選擇、成本假設、企業激勵機制以及高資本支出技術周期的心理因素。這些缺陷並非僅限於輝達,但該公司處於風口浪尖,因為它提供了推動這場競賽的硬體。他的擔憂很快引起了輝達的重視並做出了回應。貝瑞觀點的核心在於人工智慧硬體的使用壽命。購買先進GPU的公司通常會將這些資產按年折舊。這種折舊方式可以將成本分攤到不同時期,從而降低短期支出並提高帳面收益。貝瑞認為這種做法掩蓋了經濟真相。他認為人工智慧硬體的更新換代速度太快,不值得採用如此長的折舊周期。他估計,更合理的使用壽命可能接近三年。這種差異至關重要,因為這些晶片價格昂貴。較長的折舊期會降低每個季度的帳面成本。較短的折舊期則會降低許多人工智慧採用者的收益,並縮小其人工智慧投資的表面回報。如果這些公司指望使用壽命只有一半的資產來獲得六年的生產力,那麼它們的實際利潤率可能遠低於表面值。這並非欺詐指控,而是關於發展速度的爭論。人工智慧硬體發展日新月異,今天發佈的晶片很快就會與後續產品展開競爭。如果折舊計畫與這一現實不符,最終會導致資產減值或新採購熱情下降。貝瑞的分析認為,這種差距可能在2026年至2028年期間顯現。對於一家依賴客戶快速積極採購的公司而言,增長放緩的影響可能非常顯著。一些最具爭議的評論涉及供應商融資或循環融資的概念。像吉姆·查諾斯這樣的分析師也表達了類似的擔憂,即人工智慧生態系統中可能存在一些激勵機制或融資結構,會人為地製造需求。在這種觀點看來,受益於人工智慧基礎設施增長的公司可能以某種方式幫助買家抬高了當前的銷售額。輝達對此予以堅決否認。該公司聲明,它不會參與此類行為,其需求源於真實、獨立的購買決策。這場爭論持續不斷,是因為供應商融資模式在其他行業早已存在。當需求激增時,一些公司會為客戶提供支援以維持增長勢頭。人工智慧領域是否存在類似模式仍不確定。在沒有證據的情況下,這場爭論仍然停留在懷疑與否認的層面。未來任何證實都將產生重大影響。目前,這仍然是更廣泛討論中一個懸而未決的問題。投資者現在都在密切關注各種跡象。超大規模資料中心營運商在裝置使用壽命和減值方面的決策至關重要。人工智慧資本支出的速度至關重要。是否存在任何融資安排也至關重要。問題不在於人工智慧是否會繼續成為技術領域的核心,而在於當前的支出速度是否與長期價值創造相匹配。人工智慧晶片折舊速度引發的會計風波在今天,華爾街日報也發佈了一個文章,探討了人工智慧晶片折舊速度引發的會計風波。WSJ表示,關於輝達的會計處理方式,一場爭論正在激烈進行。他們指出,科技公司正在斥巨資研發晶片和其他裝置。這一次,一些人工智慧公司的批評者可能有些言過其實了。投資者很少會對固定資產的合理折舊時間表這樣看似平淡無奇的話題如此關注。但當少數幾家全球最大的公司在人工智慧基礎設施上的投入高達數千億美元時,市場自然會密切關注。在2015年電影《大空頭》中由克里斯蒂安·貝爾飾演的著名投資經理麥可·貝瑞,最近又火上澆油。他在上個月的一篇文章中寫道:“延長資產使用壽命可以減少折舊費用,增加表面利潤。這是現代最常見的欺詐手段之一,會導致資產估值過高和利潤虛增。”“無論這種批評是否合理,我們都需要從不同的角度看待它。”WSJ表示。例如,今年Meta Platforms公司將其大部分伺服器和網路資產的預計使用壽命延長至5.5年。此前,該公司曾表示其預計使用壽命為4至5年。而就在2020年,Meta還表示其預計使用壽命最短僅為3年。Meta公司表示,最新延期使其2025年前九個月的折舊費用減少了23億美元。這筆金額不小。但為了更直觀地理解其規模,該公司此前的折舊總費用接近130億美元,而稅前利潤則超過600億美元。Alphabet、微軟以及亞馬遜等公司對類似資產的使用壽命也比五年前更長。Alphabet 和微軟的使用壽命均為六年,高於 2020 年的三年。亞馬遜在 2020 年採用的是四年,並計畫到 2024 年延長至六年,但今年將部分伺服器和網路裝置的使用壽命縮短至五年。華爾街日報指出,公司將折舊費用計入損益,是因為其固定資產最終會損耗或過時。這種做法確保資本投資成本能夠隨著時間的推移在財務報表中得到確認。管理層的任務是選擇一個年限,逐步將這些折舊費用攤銷出去。多年來,大型科技公司延長其正在折舊的資產的使用壽命,一直備受投資者關注。這不難理解,因為這樣做可以將費用轉移到未來,從而提高當期收益。管理層僅僅通過修改會計估算,就能輕而易舉地將年度收益增加數十億美元,這種做法即便稱得上大膽,也顯得過於激進。但歸根結底,更重要的問題或許不在於合適的折舊年限,而在於合適的折舊方法。目前普遍採用的是直線法,即對同一筆購置的資產,每年的折舊費用都相同。然而,某些類型的資產價值在早期會急劇下降,然後趨於穩定,並沿著可預測的曲線緩慢下降。例如,據追蹤輝達晶片價格的Silicon Data公司稱,最近一台使用三年的H100系統的平均轉售價格約為全新H100價格的45%。在這種情況下,所謂的加速折舊法可能比直線折舊法更能反映經濟現實。採用六年折舊期,折舊費用在經濟效益消耗較快的初期會較高,而在後期則會較低。不過,在這種情況下,差別不會太大。如果採用直線折舊法,第三年的累計折舊額將不到購買價格的一半。如果採用加速折舊法,累計折舊額會略高於一半。而大型人工智慧超大規模資料中心的投資者們也深知,任何對當前投資高回報的預期都需數年之後才能實現。從根本上講,公司財務報表中的大多數數字都是基於估計、猜測和假設。折舊這項費用也是一種人為建構的概念,就像會計中的許多其他概念一樣。精確性是罕見的。沒有人能夠確切地知道一家公司的固定資產每年貶值多少。公司管理層可能並不清楚特定資產的使用壽命,尤其是一些高需求的技術裝置。如果資產價值嚴重受損,管理層理應計提更大額的減值準備。但通常情況下,減值準備只有在公司股價暴跌之後才會進行,而“七俠蕩寇志”顯然並非如此。如果投資者將來認為大量人工智慧投資被浪費了,那並非因為企業選擇的折舊方法。儘管人們有充分的理由質疑科技巨頭如何為其人工智慧投資進行會計核算,但折舊之爭並不會改變最終結果。 (半導體行業觀察)
算力帝國的裂痕:Google TPU 戰略如何重構輝達的“兆護城河”
引言:從“房中大象”到“門口野蠻人”過去十年,AI 算力幾乎等於“輝達 + CUDA”。從深度學習興起到大模型時代,H100/H200 乃至 Blackwell B200/B300 已經成為行業默認標準,訓練與推理基準幾乎都圍繞輝達的 GPU 來定義。資本市場也早就給了輝達“帝國級”的定價:市值長期錨定全球 AI 投資預期,下圖是 NVIDIA 的股價走勢,可以直觀看到這家公司的戰略地位——反觀Google,在很長的一段時間裡,Google的 TPU 就像房間裡的大象,雖然體量巨大,但因為僅供內部使用,並未直接在公開市場與輝達拼刺刀。然而,2024 年至 2025 年的種種跡象表明,Google的戰略發生了根本性轉變:TPU 不再僅僅是Google的成本控制工具,而是正在變成一種攻擊性的商業武器。Google基於 TPU 的“AI Hypercomputer”體系,從內部支撐 Gemini、Search、Maps 等上億使用者級產品,逐步走向對外商用,甚至推出第七代 Ironwood TPU,單 pod 算力已公開對標並宣稱超過輝達 GB300 平台。近年來TPU發展的幾個關鍵節點是:TPUv5e:面向中等規模訓練與大規模推理的“性價比版本”,Google 在 2023 年 Cloud Next 上宣佈 GA,被產業研究普遍認為在 <200B 參數模型區間具有顯著的性價比優勢。TPUv5p + AI Hypercomputer:v5p 作為高性能版本,構成 Google “AI Hypercomputer” 的核心,強調網路、儲存、調度的端到端最佳化,而不是只賣單塊晶片。Ironwood(第 7 代 TPU):最新一代 Ironwood TPU 單晶片提供約 4,614 FP8 TFLOPS,192GB HBM3E,並可在一個 pod 中擴展到 9,216 顆 TPU,總計 42.5 FP8 ExaFLOPS,Google 甚至公開聲稱其訓練與推理 pod 性能超越輝達 GB300 NVL72 平台。TPU 已經從“能用的專用加速器”演進為“面向大模型時代的完整算力平台”,並且開始出現與輝達在同一維度,比如ExaFLOPS、FP8、HBM 容量等指標直接對標的宣傳。一、 商業模式的降維打擊:垂直整合 vs. 水平分發輝達的商業模式雖然暴利,但目前來看本質上仍是硬體銷售商。它依賴台積電代工,通過高昂的毛利率(75%+)賺取利潤,再通過 CUDA 鎖定客戶。而Google的 TPU 業務並不是為了賣晶片賺錢,它是為了降低整個Google生態的單位計算成本(Unit Compute Cost)。1. 利潤中心的轉移輝達的邏輯: 晶片本身就是利潤來源。因此,它必須不斷推高單卡性能和價格,以維持高股價。Google的邏輯: 一開始,Google認為晶片是成本中心,而非利潤中心。TPU 越便宜、越高效,Google的搜尋、廣告和雲服務利潤就越高。這種“羊毛出在豬身上”的打擊是致命的——Google可以用接近成本價的算力來支撐其 AI 服務,而輝達的客戶必須支付高昂的硬體溢價。2. 系統級效率的碾壓輝達必須設計通用的 GPU 來適應戴爾、惠普、聯想等成千上萬種伺服器環境。而Google的 TPU 從設計之初就是為了插在Google自訂的資料中心機架上,配合Google自研的光路交換機(OCS)和液冷系統。洞察: 這種“量身定製”帶來了極致的系統級 TCO——總擁有成本。據分析,在同等算力規模下,TPU 叢集的建設成本和電力消耗往往比輝達方案低 30%-50%。這不僅僅是省錢,更是Google雲(GCP)在 AI 基礎設施定價戰中的核武器。在大模型時代,真正的戰場已經從“誰的單卡更快”轉向“誰能在同樣電費和機房成本下提供更多 token/s 與更低延時”。在這一點上,TPU 對輝達的威脅是真實存在的。二、 生態戰:瓦解 CUDA 的“軟”圍剿輝達最堅固的堡壘不是 GPU,而是 CUDA。Google深知直接再造一個 CUDA 是不可能的,因此它選擇了“升維攻擊”。1. 軟體抽象層的去特定化Google大力推廣 JAX 框架和 XLA (Accelerated Linear Algebra) 編譯器。它們的戰略意圖非常明確:將底層硬體商品化。在 PyTorch/XLA 的架構下,開發者只需寫一次程式碼,編譯器就會自動將其翻譯成適合 GPU 或 TPU 的指令。後果: 一旦程式碼與硬體解耦,輝達 GPU 就從“不可替代品”變成了“可替換的算力通貨”。這對輝達的高溢價定價權是釜底抽薪。2. 建立反輝達聯盟Google正在將其 TPU 算力變為一種戰略資源,與其投資的 AI 獨角獸進行繫結。案例: Google重注Anthropic,目前來看,Anthropic、Lightricks 等第三方公司已經在新一代 TPU/AI Hypercomputer 平台上訓練和部署模型,並公開反饋成本與性能收益。有分析指出,大規模推理場景下,某些工作負載從輝達 GPU 遷移到 TPU,可獲得約 4.7 倍的性價比提升和約 67% 的功耗降低。傳聞中的 Meta 合作: 近期有市場傳聞稱,Meta 正在考慮引入 TPU 算力作為其自研晶片(MTIA)之外的補充。如果連輝達的大的客戶(Meta)都開始擁抱 TPU,輝達的營收基本盤將產生裂痕。這意味著 TPU 不再只是Google內部“吃自家狗糧”的項目,而是被越來越多雲端客戶視作對標輝達的現實選項。不過也受限於其只能在 Google Cloud 上“租”,不能隨處“買”,以及GPU 的通用性仍然難以撼動,TPU 可以在“頭部大模型算力”這塊蛋糕上搶份額,但在整個 AI+HPC 大盤裡,輝達通用 GPU 的剛性需求仍然存在。三、 市場周期的逆轉:推理時代的王牌過去五年是“大模型訓練”的時代,通用性極強的 GPU 是絕對王者。但未來五年將是“大模型推理”的時代,這正是專用晶片(ASIC)的主場。訓練(Training): 需要極高的靈活性,不斷嘗試新演算法。輝達佔優。推理(Inference): 演算法已定型,需要極致的能效比和低延遲。TPU 佔優。隨著 ChatGPT、Gemini 等應用的大規模普及,推理算力的需求將遠超訓練。Google TPU 憑藉專為 Transformer 架構最佳化的脈動陣列設計,在處理大規模並行推理時,擁有比 GPU 更高的“每瓦特性能(Performance per Watt)”。這意味著,全球 AI 算力需求越是爆發,Google相對於輝達的成本優勢就越明顯。四、 對輝達帶來的深層挑戰TPU 對輝達的衝擊,遠不止市場份額的蠶食。定價權的喪失: 過去,輝達擁有絕對的定價權,比如H100 即使賣 3 萬美元也有人搶。但現在,TPU v5p/v6/Ironwood 的存在為市場提供了一個“價格錨點”。如果輝達溢價過高,雲廠商和巨頭就會倒向自研或租用 TPU。TPU 實質上成為了 AI 算力市場的“調節閥”,限制了輝達無休止漲價的能力。客戶關係的異化: 輝達正在推出 DGX Cloud,直接向終端企業出售算力服務。這讓輝達從Google、亞馬遜的供應商,變成了它們的直接競爭對手。這種“既當裁判又當運動員”的行為,迫使Google更堅定地通過 TPU 建構自己的獨立王國,加速了雙方的分道揚鑣。人才與創新的分流: TPU 的成功證明了 ASIC 路線的可行性,這激勵了微軟(Maia)、亞馬遜(Trainium)甚至 OpenAI 都在招募晶片團隊。Google作為“黃埔軍校”,培養的大量定製晶片人才正在向全行業擴散,最終形成一個龐大的“非輝達晶片聯盟”。五、 未來的展望:雙寡頭格局的形成我們不會看到 TPU 徹底消滅 GPU,正如 iOS 沒有消滅 Android。TPU 更深層的影響,是加速整個行業走向“多極算力秩序”,未來大機率會形成一種“二元算力的結構”:輝達的領地: 前沿探索、科學計算、中小企業市場、以及對靈活性要求極高的初創訓練任務。它依然是 AI 界的“軍火商”。Google TPU 的領地: 超大規模模型的訓練與推理、全球性 AI 服務的基礎設施。它將成為 AI 界的“水電站”。結論: Google TPU 對輝達的最大衝擊,在於它打破了“AI 發展必須向輝達交稅”的鐵律。通過將晶片、系統、軟體和業務深度捆綁,Google證明了在兆級算力時代統級的垂直整合才能產生極致的效益。如果說輝達過去幾年收的是“帝國稅”,那麼 TPU 和一眾專用加速器的崛起,本質上是一場關於電費、能效與議價權的革命。在這場革命裡,TPU 未必是最後的贏家,卻幾乎註定會是最重要的“攪局者”之一。 (AI Xploring)