#算力晶片
中國算力晶片的“新十年” 圖片
軟體定義一切,也包括“成敗”。過去40年,處理器晶片呈現出“否定之否定”的螺旋式發展道路:自研-放棄自研-自研。最近5年,越來越多的整機和平台廠商,重新加入自研的“晶片戰爭”,並且顯現出一個新趨勢——以CPU為中心的同構計算系統,轉變成CPU聯合xPU的異構計算。“晶片戰爭”中的選手要直面幾個問題:其xPU架構創新有多少,持續創新空間有多大、應用規模能否攤薄硬體、生態的創新成本。剛剛公布的“十五五”規劃建議稿也提到,加快科技高水平自立自強,全面增強自主創新能力,大力實施“卡脖子”迭代攻關,聚焦半導體等關鍵技術環節。那麼,接下來的五年、十年,對於國產“算力晶片”來說,突破口在那裡?我們認為是指令系統結構(指令集架構)的統一。系統結構的一致性,更能推動架構層面的創新,比如把RISC-V作為統一指令系統,所有CPU/GPU/xPU都基於RISC-V及其擴展來開發,在擴大規模效應的同時,高效利用研發資源。指令集相當於軟硬體“連接器”,按標準編寫軟體,即可向硬體發出計算指令。經濟規模與生態成本,決定架構的“生與死”電腦差不多經歷了八十多年的歷史,早期特點是集中式處理,少數專業人員通過終端裝置才能訪問到昂貴的計算資源。20世紀80年代後以微處理器為基礎的PC和電腦網路出現,計算模式從集中式轉化為分佈式。後來又有了智慧型手機和雲端運算系統,計算模式進化為集中式的雲中心和“泛在分佈”的智能終端構成的複雜體系,且雲中心本身又是一個巨大的分佈式系統。計算進化到今天,最為核心的CPU,以兩種主導式的指令集為代表:PC和伺服器領域是x86架構,智慧型手機領域是ARM架構。x86等架構及相應特徵x86和ARM佔主導,是市場洗牌的結果。時間往回倒退,過去40年業內出現了許多有特色的架構和產品,但大部分都逐漸凋零了。例如:英特爾開發的RISC架構i860/i960、摩托羅推出的68000以及跟IBM、Apple聯合開發的PowerPC架構等等。指令集架構,從幾十款到幾款,快速收斂的原因各有不同。x86戰勝RISC,靠的是不斷向高端RISC“抄作業”,同時根據新應用需求不斷增加指令子集,拓展新功能;PC與伺服器的CPU同為x86架構,晶片出貨量大,分攤了伺服器CPU的研發成本,也是x86從競爭中脫穎而出的客觀條件。RISC CPU的失意,表面上是巨額的軟硬體投入成本,根源則是無法顛覆已有軟硬體生態系統——大量已存在的標準或事實標準的介面,如指令架構系統,這種生態的統治力,英特爾、惠普曾這類聯合體也無法撼動。回想起1990年代超算領域,如nCUBE,KSR、Thinking Machine等創業公司,既自研CPU,又開發MPP超算系統,在系統架構上提出了很多引人入勝的新方案。尤其是KSR,提出了名為Allcache的純快取儲存架構(COMA),實現了第一個基於純快取的平行超算系統,其CPU只跑20MHz,功耗、散熱等效率遠遠高於同期的英特爾486,後者主頻達到了50MHz。最終,各種創新性的架構都“輸給了”x86。不是說這些架構沒有創新性,根本上在於架構創新敵不過經濟規律。所以,在文章開頭,我們就呼籲,未來五年、十年,中國的算力晶片應該統一指令集架構。架構創新難,生態建構更難:壁壘在軟體與協同英特爾於2000年左右推出Pentium 4處理器,時脈頻率已達到4GHz。25年後的今天,很多產品時脈頻率還停留在這個水平。這是因為進入奈米工藝後,摩爾定律逐漸失效,電晶體開關速度放緩。現在,業界依賴電晶體數量的累積來提升性能,其基本的思路是平行,如增加資料位寬、增加功能部件、增加處理器核的數量等等。但增加了這麼多的部件,如何控制與管理?就要看電腦體系結構。電腦體系結構既是硬體與軟體的介面介面,也決定了硬體與軟體的分工,根據硬體與軟體分工的不同邏輯,大致可分為三種類型:激進的結構(完全動態最佳化):類似上文提到的純快取儲存架構,強調軟體在動態分析和最佳化方面能力有限,因此在硬體上做儘可能多的動態最佳化, 但這樣往往導致硬體過分複雜、功耗過高;保守的結構(靜態最佳化):硬體僅提供必需的設施, 如大量的暫存器或SRAM,依賴軟體來實現高性能,這種方案的好處是硬體簡化了,缺點是程式設計不便、性能沒有保障;折中的結構(動靜態相結合的最佳化):硬體做一些動態的最佳化, 如快取記憶體,軟體也仍有最佳化的餘地,通過軟硬體協同解決性能和程式設計問題。由於需要運行作業系統、編譯器及各種複雜控制應用,涉及的序列因素比較多,高端CPU經常採用激進的結構,但由於結構異常複雜,導致正確性難以驗證,研發工作量極大。隨著熔斷、幽靈等硬體漏洞的出現,這類結構也易受瞬態執行攻擊的問題也暴露出來。目前業界更傾向於基於這種結構——增加處理器核的數量,來提升性能,比如代表算力的xPU晶片,就是典型的眾核(Many Core)結構。這種架構可以匹配圖像處理、神經網路等天然依賴平行計算的特點,只要硬體提供足夠的運算部件、儲存單元、互連機制,並由軟體程序把平行性表達出來,就可以在平行硬體上高速地執行。輝達PASCAL和TURING架構GPU,擁有大量CUDA計算核心英特爾Xeon Phi,Google TPU等,都是專門設計的眾核加速器,而更流行的GPGPU則陰差陽錯的成為眾核加速器——一開始只用於圖形渲染,非專門為AI設計。不管是TPU還是GPGPU,眾核結構xPU的“算力晶片”大規模應用,首先要解決的還是生態系統問題——在處理器上運行的各類軟體的總和,包括各種應用軟體,及支撐應用軟體開發運行的系統軟體、中介軟體、庫函數等。在這方面,使用者之所以喜歡使用輝達的產品,就是因為CUDA擁有成熟的平行軟體生態。前面提到英特爾和惠普的合作項目。雙方於1994年,聯合開發了不與x86相容的EPIC架構的IA-64安騰處理器,前後花了十餘年時間,耗資巨大,終究未能成功。關鍵就在於經過40多年演進的x86架構,形成了任何處理器架構都無法比擬和複製的產業生態環境。英特爾、惠普的新架構、新產品,解決不了新的生態問題。這裡面還有一個洞察——Gartner分析了從2009到2018年的企業軟體市場,十年間,x86軟體的市場份額持續上升,到2018年,全球投入在x86軟體(含企業應用軟體、基礎設施軟體、垂直專用軟體)開發上的費用高達600億美元,IDC 2019年同期的資料表明,全球伺服器硬體的總收入也就800億美元。也就是說,軟體開發的費用遠遠高於硬體,新搞一個處理器架構已經很費錢了,基本不會有人給更多投資去開發配套的軟體。基於這一點,可以預判,未來很長一段時間,伺服器市場上x86 CPU仍居主導地位。有人也許要問,ARM-64的機會在那裡?它的核心看點在於打破英特爾在x86伺服器市場一家獨大的格局,因為英特爾的CPU毛利太高了,誰都想去分一杯羹,正如AI晶片廠商想去分輝達的蛋糕一樣。最終,ARM伺服器未來能夠取得成功,幾個原因可能是決定性的:一是掌控了全端技術(應用)的大廠放棄x86,如蘋果、亞馬遜,它們的生態遷移完全可控,產量或毛利率也是可控的二是端雲融合,ARM在終端的優勢瀰漫到雲端,如Android Cloud,ARM伺服器更適合支援Android Apps,應用可在雲和端間隨便遷移。還有雲遊戲在雲端也不需要依賴虛擬機器。x86的故事仍在繼續,ARM攻勢迅猛,開放原始碼的RISC-V則還需要努力。關於RISC-V,業內有很多討論,既有ARM“價格貴”的問題,也有開放性、可研究性的問題,但主要還是商業化的困境。近年來,RISC-V應用較多且相對成功的,都是軟體比較簡單的場景,即以微控製器(MCU)為代表的嵌入式領域,如希捷、西數等企業的儲存類產品。而以物聯網為代表的嵌入式場景,其需求非常碎片化,RISC-V雖然可以針對應用特點自訂對指令集的擴展,但這樣分門別類地定製晶片,就失去了積體電路產業的規模效應。軟體、應用之外,RISC-V的硬體生態也還不成熟——有競爭優勢的高性價比處理器核的種類少,也缺乏支援多核互連的高性能片上網路(NOC),尤其是片上網路,業內都還在用ARM方案,不過ARM不會單獨向RISC-V項目授權片上網路IP,而要搭售ARM CPU核心,成本又被拉上來了。一些觀點認為,隨著JAVA、Python等跨平台的語言/工具越來越流行,通過虛擬機器技術實現應用的跨平台遷移,還可以用模擬的方法用一種指令集模擬另一種指令集,寄希望於指令集架構重要性變低,進而重構x86、ARM的“壟斷”格局。不過,這也存在另一些相反的事實,例如英特爾一直在持續地擴展其指令集,增加新指令(子集),如近年看到的SGX、AVX512、AI擴展指令集等,說明硬體指令的直接支援對性能、能效比至關重要。又如,由於業界的各類基礎軟體和應用軟體,主要都是針對英特爾CPU最佳化的,即使同樣是x86的AMD CPU,能流暢支援的軟體配置種類就少得多。所以,阿里的公有雲平台只用英特爾的CPU產品,它們可以自如地支援各種老舊的OS類型、版本、配置。從這個角度來看,RISC-V進入以電腦為代表的通用平台,還有一段曠日持久的路程要走。統一指令集:中國算力晶片規模化的關鍵路徑近年來,系統和平台廠商又開始研發計算晶片了:美國有蘋果公司、Google、亞馬遜、微軟,中國公司也很多。所有自研的場景當中,雲廠自研晶片的模式是行得通的,因為企業盈利的基礎在於增值服務,不在硬體。雲廠商由於掌控全端軟硬體,生態移植的困難也較小,且因為自身規模大,可以負擔晶片研發的費用。不過,現階段多數企業自研還是用於內部,因此外部客戶仍然需要獨立的晶片供應商。眾多自研晶片的系統廠商當中,蘋果公司是一個非常成功的案例,基本實現了核心產品線處理器的全線自研——手機為A系列、平板和PC為M系列、手錶為W系列、耳機為H系列。蘋果自研晶片矩陣,資料更新至2025年9月“產品定價高”可以作為評判蘋果自研成功與否的一個表面指標。和公版的ARM CPU核相比,蘋果公司自研的CPU性能高、成本也高,但配合自研的系統軟體,整體達到最佳化的使用者體驗,同時加上行銷體系的助力,形成“高大上”的形象,就可以賣出高價錢。只不過,很多失敗的項目,只看到了蘋果公司“自研晶片”的表面指標,“自研晶片”,如果只是為了“使用晶片”,或者只是聚焦在紙面參數上,而忽略掉軟體的差異化、生態能力提升,進而共同推動使用者體驗的最佳化,未必有價值。軟體定義一切,也包括“成敗”。無論CPU還是GPGPU,都需要在軟體生態上,與現有成熟產品形成差異化,實現附加值提升,但這不等於一切都需要重構和創新,比如指令系統——指令系統越多,軟體生態方面就需要投入越多,“統一”起來困難重重。前面提過,軟體方面的投入比硬體研發的投入還要大,而軟體掉隊的負面現象,目前大量出現在當前的領域專用架構(DSA)和其它xPU研發領域。比如很多國產智算中心,投資規模很大,但受配套軟體不全等問題限制,實際利用率並不高,這其實就是軟體跟不上硬體“步伐”帶來的後遺症。回想架構之爭的年代,諸神混戰,最後也只有少數幾個架構活了下來。實際上,體系結構創新,未必一定要新架構,也可以在現有的指令系統框架內實現,RISC-V恰好在這方面具備很好的支撐。例如,國外Tenstorrent等企業基於RISC-V指令集,擴展支援AI的子指令集,進而開發了基於RISC-V的AI加速計算方案。又如,國內外不少大學和科研機構都在RISC-V上擴展了密碼學相關的子指令集,並在此基礎上實現了對後量子密碼的支援等等。所以,我們呼籲:把RISC-V作為統一指令系統,所有CPU/GPU/xPU都基於RISC-V及其擴展來開發,避免重複勞動和研發資源的無謂浪費。 (半導體產業縱橫)
重磅深度:引爆中國國產算力晶片的UE8M0 FP8是什麼?
隨著深度學習模型(尤其是大規模生成模型)參數規模的擴張,對更高效的計算與儲存方案的需求愈發強烈。降低資料類型位寬(精度)是一條行之有效的途徑,但如何在降低位寬的同時保持精準度是一大挑戰。在預訓練過程中,用更少的位元來表示模型參數以及相關張量,已成為在不犧牲精準度的前提下提升 GPU 效率的必備技術。NVIDIA Blackwell 代 GPU 中引入的 Microscaling(MX)格式,將窄位寬浮點類型與更細粒度的按塊縮放因子相結合,是這一方向的重要進展;它讓更多張量可以被量化,並讓對這些張量的運算更高效。deepseek一句話引爆國產算力晶片,國產晶片迎來突圍質變關鍵點?從產業角度來看,未來的工作遠不如看起來這麼簡單,前路依然慢慢修遠!DeepSeek V3.1 公開點名用了 UE8M0 FP8 scale 並暗示“下一代國產晶片”協同,媒體集中報導後,A 股/港股裡“國產晶片、FP8 概念”短線大漲,話題瞬間出圈。同期,部分國產 GPU/NPU 宣稱“原生 FP8 / Block FP8”或工具棧可支援 FP8/MX,進一步強化了“軟硬協同 → 釋放頻寬/功耗紅利”的敘事。UE8M0/FP8(MX)不是新概念,早在2023 年 OCP 就發佈了Microscaling(MX)v1.0(塊大小 K=32、共享尺度 UE8M0 等),把“塊級縮放 + 窄位寬浮點”寫成了行業規範。而到了2025 年,AI晶片之王NVIDIABlackwell 把 MXFP8/6/4 做成張量核原生資料類型,硬體裡直接處理“每 32 個數一個 2^k 尺度”的邏輯(UE8M0),不再靠軟體拼。官方資料與開發者部落格都強調了這點。有了原生支援後,MXFP8 訓練端到端吞吐≈BF16 的 2×,而不是只在核心裡“紙面提速”。(論文與官方文件均有說明。)特意把相關論文翻出來看了一下,內容不多,10多頁,最新論文把能穩定預訓練的大模型的可復現做法講清了:所有張量(含啟動梯度)統一用 E4M3;尺度用 UE8M0,且對 log2(amax/destmax) 取“向上整”,避免因溢出導致的發散——這點明確區別於 OCP v1.0 的默認取整建議。並給出 8B/15T tokens 與 BF16 等精度的實證。而其實最為關鍵的依然在底層的軟體與算子生態,Transformer Engine、cuDNN/cuBLAS 落地了 FP8/MX 的算子與資料流;NVIDIA NeMo、TE 使用者手冊給出了工程路徑。大模型側的真實案例越來越多:Nemotron-H、Llama 系列等公開材料都提到用 FP8 路線(早期多為按張量縮放,如今轉向更細的塊縮放/MX)。甚至有 vLLM 線上 FP8 生成的路徑。這些都把“訓練—推理—部署”的鏈條打通了。生態也在跨廠蔓延(例如 ROCm 側的 Transformer Engine),進一步提升“通用感知”。它具體解決了什麼?動態範圍不過載:整張量一次縮放常照顧不了“大值/小值”同時存在,容易溢出或壓成 0;按塊縮放能“就近對齊”,資訊損失更小。頻寬/視訊記憶體壓力小:元素 8 bit,每 32 個只加 1 字節尺度中繼資料;相比“每塊存 FP32 尺度”,中繼資料流量省 75%。硬體代價低:UE8M0 隻編碼 2^k,移位即可,關鍵路徑短、功耗低;對沒有完整 FP8 乘加單元的晶片,落地門檻更低。為什麼會給國產晶片帶來利多?在國產晶片多數仍以 FP16/BF16+INT8 通路為主的階段,引入塊級縮放 + 原生/近原生 FP8的存取與算子,可以在不犧牲精度的前提下顯著降頻寬、提吞吐,而UE8M0“冪次縮放”的硬體代價最低,因此是合適的過渡/長期方案,雖然遠達不到輝達那樣的效果,只能退而求其次,在某些端側小場景尤其適用?1)UE8M0 / FP8 / MXFP8 各自是什麼?UE8M0不是“另一種FP8”,而是MX(Microscaling)格式裡的“塊級縮放因子”——8 bit 全給指數(E8M0),只編碼2的冪,用於給同一小塊(典型 K=32)裡的FP8元素統一定標;這樣解碼只需指數移位(shift),不必做浮點乘法,硬體關鍵路徑更短,頻寬/能耗也更友好。常見誤區有那些?把 UE8M0 當成“第三種FP8”?不對。它是“縮放因子”的格式,元素依舊是 E4M3/E5M2。認為“有了UE8M0就必然大幅提速”,收益取決於硬體是否原生MX、模型是否頻寬受限、以及通訊/記憶體是否成為新瓶頸。把“75%節省”理解為“總流量減少75%”,精準說是把“每塊的縮放中繼資料”從 32b(FP32)降為 8b(UE8M0)→ 中繼資料部分下降 75%;對“整體塊資料”的降幅更小,但仍有利多。使用 UE8M0 FP8 scale,目的是與“微縮塊格式(MX)”生態相容;官方在外媒與社區頁也提到與“新一代國產晶片”適配的取向。一個 MX 格式由:塊大小 K、每塊共享的縮放因子 X、塊內元素的資料類型共同指定。K=32(適用於所有 MX 類型)。X 的類型是 UE8M0(8 位指數、無尾數、無符號),表示 NaN 或 2 的冪(範圍 2^(−127) 到 2^127)。給定源格式(通常 FP32)的 K 個資料 V_i,轉換到 MX 格式時,需要計算 X 與 Q_i,使得 Q_i×X ≈ V_i。儲存時寫入 X 與 Q_i。Blackwell 的張量核心會消費 X 與兩側塊的 Q_i 來做點積;若累加輸出為 FP32,則在後續算子需要 MX 格式時再將其回量化為 MX。FP8(E4M3 / E5M2)8位浮點的兩種常用編碼(1符號 + 指數 + 尾數),業界已廣泛用於訓練/推理。E4M3精度更高、E5M2動態範圍更大。MX(Microscaling)把一個張量按固定小塊(典型 K=32)切分;每塊共享一個“縮放因子 X”(以冪次形式存放),塊內元素用低位寬格式(如FP8)儲存。這樣既保留8位元的低頻寬優勢,又靠更細顆粒的定標獲得更大的可用動態範圍與更穩的數值。MX 的塊尺度與元素格式相互獨立。UE8M0縮放因子的具體格式——無符號(U)、8位指數(E8)、0位尾數(M0),即只有指數,沒有符號/尾數;“ExMy”記法在 OCP 規格里明確:當 y=0(如E8M0)就不含符號位。它僅表示 2 的整數冪,因此硬體解碼是移位,不需浮點乘法。MXFP8指“元素為FP8”的MX格式集合;所有MX具體格式的共享縮放,統一採用 E8M0。常用的就是“UE8M0 + FP8(E4M3/E5M2),塊大小K=32”。Blackwell 支援的 MX 格式MXFP8:E4M3(最大約 1.75×2^8,最小約 2^(−9),可覆蓋約 17.8 個 log2 桶),張量核相對 BF16 ~2× 吞吐。MXFP8:E5M2(更大動態範圍,約 31.8 桶),張量核相對 BF16 ~2× 吞吐。MXFP6:E2M3/E3M2(~2× 吞吐)。MXFP4:E2M1(~4× 吞吐)。註:E4M3 僅有一個 NaN 位元模式;E5M2 遵循 IEEE-754 特殊值語義。指數位越多→範圍越大;尾數位越多→給定範圍內的精度越高。論文顯示在80 億參數、15T 詞元的預訓練中,觀察到 MXFP8 的驗證困惑度與 BF16 匹配(全程差異 <0.5%)。下游任務(MMLU、9 項推理基準)分數也相當。類似等價性在更小模型/資料上同樣成立,從而使 MXFP8 成為更高效的預訓練選項。模型配置:32 層 Transformer,32 頭,隱藏 4096,GQA 組 8,KV 通道 128,預訓練序列長 8192。學習率 6e-4 餘弦衰減至 6e-6;資料混合兩階段(先多樣性、後高品質),60% 處切換。訓練平台:Megatron-LM;3072 張 Hopper GPU;批次 768。MX 運算通過將 BF16 輸入在 GEMM 前轉換為 MXFP8、GEMM 後再轉回 BF16 來模擬。評測:MMLU(5-shot)、9 項通用推理(1-shot)平均分。MXFP8 維持 BF16/FP8 級精準度;在 Blackwell 上,MXFP8 張量核吞吐 ~2×BF16,端到端預訓練更快;與傳統 FP8 相比,MXFP8 配方更簡單(所有層均可量化,縮放由硬體處理),吞吐相當或更佳。2)它究竟解決了什麼數值&硬體問題?數值層面,傳統“整張量縮放”在子8位(<8b)或極端值分佈下容易溢出/壓成0;按塊縮放能“就近”匹配每塊的幅度分佈,更好覆蓋大/小值,減少飽和與下溢。實證表明在多項任務裡,MX 直接替代 FP32 推理、甚至用於低位元訓練,也能接近/對齊 FP32/BF16 的精度。E4M3 vs E5M2 的選型:在有了細顆粒塊縮放的前提下,實踐上經常統一用 E4M3(更高“採樣精度”)能得到更穩的訓練/下游表現;Blackwell 的 MX 訓練配方也給出類似建議。硬體/系統層面UE8M0 = 2^k→ 解碼只需移位;不必做浮點乘法、規格化或舍入,縮短關鍵路徑、利於高頻設計與能耗控制。縮放中繼資料更輕:每塊只多 8 bit 的 scale。相較“每塊存一個 FP32 縮放”(32 bit),縮放中繼資料流量減少 75%;(整體塊資料從 256b→264b 對比 256b→288b,總流量也更低)。生態對齊:NVIDIA Blackwell 已將 MXFP8/6/4 做成張量核原生資料類型(K=32、X=UE8M0),在其平台上 MXFP8 相比 BF16 的矩陣核吞吐標稱 ~2×。這為上游模型與下游硬體的“共同語言”定了規。3)為什麼說它“貼合下一代國產晶片”?大多數已量產國產AI加速器仍以 FP16/BF16 + INT8 通路為主,對完整 FP8 FMA 的硬體棧支援不一;而 UE8M0 的移位解碼 + 塊級FP8存算,實現難度和代價更低,更符合階段性演進路徑。頻寬/容量制約,更敏感的環境裡,FP8+塊縮放能顯著降低 HBM/DDR 壓力;這正是國產晶片在功耗/能效/頻寬方面最希望“用演算法/格式把水再擠出來”的方向。國內媒體與機構報導裡,摩爾執行緒 MUSA 架構宣稱原生 FP8 張量加速,並點名能很好支援 UE8M0 FP8 Scale;芯原 VIP9000 NPU 亦被多家產業媒體與高管採訪稿提到增加 FP8(E4M3/E5M2)支援,強調與主流框架/工具鏈的易部署性。DeepSeek 明確採用 UE8M0 FP8 scale,把軟體側配方與國產硬體的“最佳工作點”對齊,實際上是在建構軟硬協同的一致坐標系,降低生態碎片化成本。註:具體廠商/型號是否“原生 FP8 張量核”或“Block FP8”要以官方規格書/驅動版本說明為準;媒體稿件與三方文章的口徑可能滯後或存在表述差異。上文引用為公開報導與產業採訪。4)它與“常規 FP8”的關係(怎麼搭配用)?仍用 E4M3/E5M2(通常 E4M3 全程更穩),共享縮放用 UE8M0;典型塊大小 K=32。這就是MXFP8。訓練/推理常見做法:權重/啟動/梯度在 GEMM/CONV 裡用 MXFP8,歸一化/softmax/殘差等用 BF16/FP32;累加一般在 FP32,主權重常保一份 FP32 “母本”。縮放演算法按塊取 amax 決定指數,向上取整以避免溢出,再做飽和式量化(超過上限則鉗位)。這類配方在 Blackwell 的 MX 論文裡給了具體步驟與對比。5)對模型精度與吞吐的“量化預期”精度,在分類/語音/LLM 上,MX 直接投產/微調後能接近/對齊 FP32/BF16;對大模型的預訓練,MXFP8 在合適配方下可與 BF16 等價的困惑度/下游得分。吞吐/成本,在原生支援 MX 的硬體上,矩陣核吞吐~2×BF16,端到端訓練/推理時間和視訊記憶體佔用相應下降(真實收益取決於是否算子/頻寬/通訊受限)。對國內生態的實質意義有那些?UE8M0 FP8(MX)把模型數值配方和硬體實現成本一起最佳化到了“相容 & 高效”的均衡點:更穩的精度、更低的頻寬、更短的關鍵路徑。DeepSeek 把訓練/權重格式對齊到 MX 標準,等於在國產硬體側“放下對接道釘”。隨著更多晶片把 MXFP8 做成“一等公民”,軟硬協同的性價比才會真正體現出來。所以,我們可以看到,UE8M0 FP8(MX)是好“格式”,能顯著降低頻寬/功耗、擴大可量化範圍;但“效果”取決於系統工程:是否有原生 MX 張量核、是否搞定轉置重量化和雙副本開銷、是否站在 NVLink 級互聯上擴展、以及工具鏈是否把配方一把梭。在這些方面,NVIDIA 目前端到端更完整,所以你看到的“明顯差距”本質上是平台差距,而不是“UE8M0/MX 這條路線不行”。所以,國產晶片再一次沸騰,但是我們依然需要冷靜!“有了 UE8M0 FP8(MX)格式是不是就等於立刻得到輝達那樣的實際效果”?答案是不能!差距往往不在“格式本身”,而在算子/核心、記憶體與互聯、框架與工具鏈、以及標準細節的一致性。從工程角度拆開講,可以看到那些短板會直接吃掉我們在論文或宣傳裡看到的收益。1)數值與演算法:標準一致性還沒“完全對齊”MX 的定義(K=32、每塊共享 UE8M0 尺度、塊內元素用 FP8/FP6/FP4 等)是 OCP 標準的一部分;UE8M0 隻編碼 2 的冪(−127…127),本身很輕量。問題是:“如何取整到 2 的冪”這件事,不同實現不完全一致。NVIDIA 的 MXFP8 訓練配方裡明確把尺度取整改為向上取整(ceil(log2)),並給出消融:按 OCP v1.0 建議的“向下取整”在大規模預訓練裡會更易溢出/發散。若硬體/軟體仍按 v1.0 來做,訓練穩定性就可能對不上。E4M3 “全量化”選擇:NVIDIA 的結論是權重/啟動/啟動梯度都用 E4M3(塊縮放後需要的是精度而不是更大的指數範圍),這和很多“FP8=梯度用 E5M2”的老經驗不一樣。配方差一口氣,效果就會“看著像 MX,跑起來不像”。2)算子與核心:沒“原生 MX”就有隱性開銷MX 需要在張量核裡處理很多“每塊一次”的尺度。在軟體裡頻繁處理這些縮放,非常貴;Blackwell 在硬體層把尺度取整與量化塞進張量核指令路徑,才把這筆開銷吃掉。沒有這條硬體“捷徑”,你在別家晶片上用 MX,核心層面的額外讀改寫/重量化會吞掉收益。轉置問題:Blackwell 的 MX 要求“沿歸約維的塊資料連續”,訓練時前後/反傳會頻繁換歸約維;普通 FP8 轉置是重排,MX 的轉置要“重量化”,這在沒做專門硬體/核心最佳化時會非常痛。雙軸兩份量化副本:為了同時服務行/列兩條歸約軸,訓練框架通常需要給每個張量保兩份 MX 量化版本;這既吃視訊記憶體也增加資料搬運。NVIDIA 的論文和 TE 的工程 issue 都點名了這一點。3)記憶體與互聯:系統“地基”差異放大效果差距NVLink / NVSwitch 的規模化優勢:Blackwell 代把 NVLink 頻寬拉到每 GPU 1.8 TB/s,並通過 NVLink Switch 把 72 GPU 拉進一個1.8 TB/s 保持的 NVLink 域,還能跨機櫃擴展;這直接決定了FP8/MX 的頻寬紅利能否真正轉化成叢集吞吐。如果替代平台只有 PCIe 或傳統以太/IB,通訊相對吃緊,同樣的 MX/FP8 算力優勢會被All-Reduce/張量平行通訊抵消。4)生態與通用性:工具鏈還在“接入期”框架 dtype 與編譯工具支援未完全成熟:PyTorch 核心層面對 MX 的基礎類型(比如 E8M0、FP4)仍在推進中;Triton 也有“如何在語言裡暴露 MX/轉置模式”的開放問題。沒有一線框架的原生一等支援,通用性就會打折。跨廠商 FP8 的“細節不一致”:比如 AMD 文件就明確寫到 MI300 的 FP8 編碼與 H100 不同;再疊加 MX 的尺度取整差異,你在多家硬體之間遷移“同名 FP8/MX”模型,可能需要重轉換/重校準才能穩定。非輝達平台的 MX 現狀:AMD:公開資料已在教學/白皮書層面引入 OCP MX 概念與 FP8 支援,但是否有“原生 MX 塊縮放硬體管線”尚非標配,多為軟體路徑實驗/過渡。Intel Gaudi:官方強調 FP8 訓練/推理算力與推理教學,但並未宣稱 MX 原生塊縮放;若只是常規 FP8(按張量/軸縮放),與 MX 的落地複雜度與收益曲線不同。5)結果差距通常來自那幾件“最傷”的事?數值細節不一致(尺度取整、梯度格式):訓練不穩或需要更保守的超參 → 有效吞吐下降。沒有“內建 MX”的張量核:尺度處理/轉置重量化落在軟體 → GEMM 旁路開銷變大。儲存/通訊瓶頸:雙副本視訊記憶體 + 邊帶尺度 + 跨卡通訊不足 → MX 的頻寬節省兌現不了。工具鏈與 op 覆蓋不全:某些層(嵌入/最終投影、BMM/softmax 等)仍高精度,若沒對齊好執行計畫,端到端收益會被“非 MX 區段”稀釋。但對於夾縫中求存的國內晶片來說,這也是算是一種不多的求變模式,未來任重而道遠。那怕沒有“原生 FP8 張量核”,也能通過“FP8 存取 + 快速移位解碼 → 進 FP16/BF16 乘加”這條混合路徑拿到頻寬/視訊記憶體層面的實效;硬體只需加輕量的尺度表處理與移位單元。同樣的記憶體頻寬、同樣的功耗預算下,模型可以更大、批次可以更足,單位 TCO 的吞吐更好看。DeepSeek 等模型側明確用 UE8M0 的塊縮放範式,軟體棧(量化、校準、推理引擎)更容易在國產晶片上做統一適配,減少“各玩各的”的碎片化成本。相比“一步到位做全功能 FP8 FMA 核”,先把 MX(按塊縮放 + 移位解碼)打通更現實,屬於漸進式演進:第一步:推理先行(權重 FP8 + 啟動 BF16/FP16,累加 FP32);第二步:部分訓練鏈路 FP8 化(GEMM 主幹 FP8,歸一化/Softmax 等保高精度);第三步:硬體代際升級,再做原生 MX/FP8 張量核。“達不到輝達效果,所以只是退而求其次、更適合端側小場景?”U1S1,當前確實存在差距:沒有“原生 MX”張量核、沒有高頻寬互聯(NVLink/NVSwitch 同級)、算子/框架支援不全時,UE8M0/FP8 的紙面優勢會被核心開銷和通訊瓶頸吃掉。這是當下不少平台的現實。但不等於“只能端側”:資料中心也能受益,前提是把塊縮放和尺度處理放進核心,減少“量化—反量化”的來回;很多國產方案在推理端已能落地這條混合路徑。端側/邊緣當然更“對味”——記憶體窄、功耗緊的地方,UE8M0+FP8 的頻寬/能耗收益會更直接、更穩定;比如嵌入式大語言模型、語音/視覺邊端模型、AI PC 的本地推理。策略不是“退而求其次”,而是“先吃確定性紅利”:先把存取與頻寬這半邊紅利吃乾淨,再逐步把計算路徑FP8 化。什麼時候用它“最划算”?推理優先:LLM、ASR、CV 大模型的權重 FP8(塊縮放)+ 啟動 16bit + FP32 累加;大幅降視訊記憶體與權重頻寬,延遲/吞吐普遍可見改善。訓練試點:中小規模預訓練/繼續訓練(SFT/蒸餾/LoRA),GEMM 主幹用 MXFP8,歸一化/Softmax 等保高精度,先跑穩定再擴規模。頻寬/功耗受限:AI PC/邊緣盒子/嵌入式 SoC,壓住功耗同時把模型體量拉上去。所以,UE8M0 FP8(MX)= 低頻寬 + 低實現門檻 + 足夠穩的數值,對當下仍以 FP16/BF16+INT8 為主的國產晶片,是一條現實且漸進的增量路線。不是只能端側,但端側/功耗敏感場景的“性價比提升”最立竿見影;資料中心要想接近頭部效果,需要算子級融合、塊縮放下沉到核心、以及更好的互聯頻寬。先把權重/存取的紅利吃到,再推進計算路徑與互聯,這條路能走通,而且短期就有肉吃。 (貝葉斯之美)
輝達鏈和中國算力晶片5個大家關心的問題
聊5個話題。1,關於Rubin推遲的消息,輝達已經第一時間否認。事情起因是Fubon的分析師說Rubin可能推遲,因為重新設計,為了比MI 450更有競爭力…另外AMD和博通將是台積電CoWoS產能分配增速最快的企業,AMD增長90%,博通增長72%。結果就是,AMD大漲5%,輝達有點頂不住了。但臨近收盤,輝達直接否認了這個消息。這件事不值得多講。在大規模量產前有設計迭代再正常不過,即使大規模量產,都可能會有升級,這在晶片生命周期裡非常常見。比如2006年11月,輝達發佈了第一代統一構架DirectX 10構架的GPU G80。而G80晶片在量產後期進化到了A3版本,迭代了2版(A2和A3)。雖然工藝都是90nm,但A3通過電路改進、修復邏輯錯誤(Bug Fix),同時提升良品率,另外顯著提高頻率上限和超頻潛力。 所以我剛開始看到Rubin改進設計推遲的消息以為是假消息,後來仔細看了以後也沒覺得有什麼實質影響。2,假如輝達還有20%空間,達鏈空間是不是很小了?有朋友問了個很好的問題:如果輝達不漲了,達鏈漲不太現實吧?好像確實如此,但大家有沒有隱約覺得很奇怪。因為這種想法忽視了最基本、最簡單的問題:市值規模的本質差異。輝達目前市值波動1%,相當於波動了一個多中際旭創、新易盛、勝宏科技…市值規模的本質差異有2個討論角度:(1)如果從估值角度看,輝達去到了40X PE,從競爭力、關鍵地位以及護城河角度,輝達PE應該高於一切達鏈,但實際情況並不是如此。處在關鍵位置且未來技術將明顯升級的達鏈供應商享受了比輝達更好的毛利和估值,當然,這對應著他們更高的業績增速。比如ALAB…(2)如果按價值量的市值比例計算,那麼國內達鏈的空間同樣巨大。這個邏輯基礎在於價值量在AI伺服器中的比例。這個邏輯在於:以勝宏科技為例(為什麼拿他舉例最後講),假如勝宏科技的潛在合理市值規模就是輝達市值的1%(距離現在60%空間)。但這1%只是個模糊比例,0.8%、1.2%甚至1.5%在一個周期(比如技術升級周期)都是合理的。但因為輝達市值規模太大,勝宏/輝達市值比1.2%的比例,又為勝宏增加了40%甚至更多的空間…對於現在“達鏈巨頭”來說,他們相對於輝達還是太小了,更何況這裡還應該加上明年ASIC的潛在市值預期。也就是說,輝達不漲了,但某些達鏈巨頭再增長1-2倍的市值都不離譜,潛在空間並不會因為輝達不漲而消失,因為現在就是依然低估。當然,10倍之類的斷然不可能,就需要輝達整到6w、7w億美金市值去了。以上不要對號入座,僅僅是在說明空間的問題。更直白的表達是:在輝達龐大的產業價值鏈裡,1%->2%價值量的變化司空見慣,但對於具體細分產業以及那個細分的龍頭公司,這個影響就是翻倍甚至幾倍等級。3,CoreWeave和Coherent分別暴跌-10%和-20%對達鏈影響總結說,實際上沒什麼影響…CoreWeave的業績不能算很爛,營收還超預期。但花街開始擔心一件事兒,就是CoreWeave的增長是以虧損擴大為代價…與上一季度相比,本季度營運支出增加了近300%。但是如果積壓訂單的增長能夠保持同步,其實花街並不介意營運成本的增加。CoreWeave目前的積壓訂單同比增長86%且環比增長16%達到了301億美元,疊加83%的IPO解禁,CoreWeave面臨重大分歧,但實際上這裡的風險回報比非常好。另外就是Coherent,2個點:(1)Coherent和國內光模組企業還是有不小的差別,這次指引裡工業業務下降趨勢明顯;(2)明確指出800G->1.6T的趨勢,已經正常放量的事實。我給大家看一下花街的牛市觀點(牛市就只看牛觀點…)ps:按住、翻譯實際上,Coherent說明了AI業務產業的繼續爆炸,但因為各種其他業務它自己暴跌自己的…4,以寒武紀為代表的國產卡在當前時間點將承載亢奮的市場情緒在848.88歷史新高,滿屏儘是寒武紀 裡,實際上最後一條才是核心。國產算力卡相關公司被壓制許久,因為一些大家都知道的原因,已經到了一個火星就熊熊烈火的狀態,那管公司是否闢謠?公司的闢謠,甚至間接的默認了另外的一些資訊。這裡就不寫了,發不出去。總之,國產算力卡在當下的市場環境裡是一等一的大資金烘托情緒進而大口吃肉的類股。晚上又有一些東西,非常應景。比如FT報導的R2在某國內最大AI卡公司訓練的事兒,總之就是國產這邊必須要有行情,壓不住的。5,最離譜的來了:今天杭州天際線安琪同學發了達鏈的內容,提到了勝宏…很多朋友從傳播學的角度開始發散思路:不是說買菜大媽都在談論一個標的的時候就見頂了麼?這次更加的抽象,於是真心慌了…我為什麼前面用勝宏舉例子?因為各位讀者肯定都知道,最不濟因為安琪,今天也知道了。但這裡弔詭的是:很多人,尤其是男同胞,你們到底知道了杭州天際線,還是勝宏?別鬧了,天際線明顯比勝宏有意思,另一個標的你們還記得是什麼麼?不知道吧…那裡消費不便宜的…這其實是一次非常新鮮的精準的新式流量行銷,我不小心也知道了杭州的高檔場所…她們找對了人群、利用了一切可以利用的市場情緒,天際線的股東們實在是6…這件事兒應該不會有人當真吧?最後寫寫就是圖個話題感強,其他沒啥。(橙子不糊塗)
黃仁勳高調訪華後,輝達被約談
日前,輝達算力晶片被曝出有嚴重安全問題。此前,美議員呼籲要求美出口的先進晶片必須配備「追蹤定位」功能。美人工智慧領域專家透露,輝達算力晶片「追蹤定位」「遠端關閉」技術已成熟。為維護中國使用者網路安全、資料安全,依據《網路安全法》《資料安全法》《個人資訊保護法有關》規定,網信辦約談輝達公司,要求其就對華銷售的H20算力晶片漏洞後門安全風險問題進行說明並提交相關證明資料。01. H20晶片的庫存困境本次事件的H20晶片,是2023年底美國對輝達其他AI晶片組實施出口限制後,其專為中國市場開發的晶片。據《路透社》報導,輝達在設計該晶片時,故意降低記憶體容量和計算能力,以符合美國出口要求。《富比士》則指出,H20晶片計算能力明顯低於H10和Blackwell系列。但H20晶片的出貨量表現亮眼:SemiAnalysis資料顯示,2024年輝達售出約100萬片H20晶片,累計收入超百億美元;Jefferies 指出,2025年Q1,輝達向中國市場出貨約30萬片。其高出貨量的原因是:其一,性能受限的H20晶片並非全無性能優勢。業內專家稱,H20晶片在推理專用工作負載中的表現,甚至常常超越H100晶片,這在一定程度上得益於DeepSeek等中國企業的技術適配——將晶片與成本最佳化的AI模型相結合,進一步釋放硬體性能。其二,輝達的生態優勢短期內難以被國產晶片撼動。例如,其CUDA軟體平台擁有龐大的開發者社區,全球超400萬開發者依賴該生態,大量AI大模型都在CUDA上訓練而成。相較之下,企業若想讓AI模型在華為晶片上運行,需投入大量人力、財力和時間成本去適配華為的CANN系統,並不划算。其三,2024年大模型熱潮下,算力需求激增與國產晶片替代能力不足的矛盾日益凸顯,加上大型科技企業對美國後續出口管制政策的擔憂,“囤貨”成為行業普遍選擇。在輝達其他晶片供應受阻的情況下,H20晶片成為不少企業的「無奈之選」。圖源:埃森哲但隨著中美科技戰賽局持續升級,出口管制讓H20晶片庫存激增。 《Wccftech》報導稱,截至2025年4月,H20晶片庫存已達60萬至70萬顆。輝達警告稱,這可能造成55億美元的庫存減記,以及高達150億美元的收入損失。為緩解庫存消化壓力、降低客戶取消訂單帶來的損失並爭取維持中國市場份額,輝達CEO黃仁勳充當「說客」。一方面,他遊說美國放開對H20晶片的出口管制,試圖拿到出口申請,其在接受《CNBC》採訪時表示:「這可能是進入中國市場的最重要的戰略原因,因為那裡有很多開發人員… 我們更喜歡美國的技術堆疊。」另一方面,近期黃仁勳高調訪華,國內多家大型科技企業高管從各地專程赴會。黃仁勳訪華後,《The Information》報導,輝達已向客戶透露H20 晶片庫存告急,原本無重啟GPU晶圓生產的計畫。這與上游台積電將原用於生產H20晶片的產線轉作他用有關,這也是黃仁勳先前表示「將根據H20晶片訂單量決定是否恢復生產,且重啟供應鏈需耗時9 個月」的原因。但訂單激增導致庫存快速消耗,甚至需要緊急追加訂單,讓輝達態度發生轉變。 《路透》報導,因騰訊、字節和阿里等中國科技巨頭的龐大需求推動,輝達已向台積電下達30萬塊H20晶片的新訂單,相當於2024年銷量的約1/3。《Trend Force》分析師估計,中國市場補充採購的H20晶片銷量,預計將帶來100億至150億美元的收入,並可能將輝達的市值從目前的4.16兆美元推升至5.7兆美元。對於已成為先進AI晶片代名詞的輝達而言,重新進入中國市場不僅意味著即時的現金流,也意味著長期戰略定位的機會。本輪訂單激增背後有多重因素:一是中國對關鍵原料的管控,可能迫使美國在晶片出口管制上做出讓步。《Source Ability》報導,鎵是半導體關鍵原料,中國佔據全球98%的市場份額,中國試圖提升對鎵出口的管制,將對美國半導體產業帶來衝擊。《路透》稱,稀土礦作為製造一系列高科技產品的必需原料,中國對美國、印度等國實行的稀土出口管控措施,讓美國逐漸陷入被動。但《Wccftech》稱,H20 晶片仍需獲得出口許可證,輝達目前正在等待美國相關部門批准,預計許可證很快就會發放,但具體時間尚未確定。二是國內大量企業加入AI大模型競爭賽,算力緊張問題愈發突出。以DeepSeek為例,Semianalysis資料顯示,DeepSeek使用率由2025年初時7.5%的高點下滑到7月份的3%。此外,新版DeepSeek R2也遲遲未能上線,市場猜測或與算力不足有關。DeepSeek 算力緊張並非個例,《Wccftech》報導,中國市場對H20 晶片的需求量高達180萬台,這也是輝達重啟並增加30萬顆H20晶片訂單的重要原因。更關鍵的是,目前國內晶片雖然在加速AI晶片研發處理程序,性能有所提升,但仍存在諸多問題。根據《Wccftech》報導,瑞穗證券分析師Vijay Rakesh在報告中預測,華為昇騰AI晶片(包括昇騰910a、910b、910c)到2025年的出貨量可望達到70萬片,但良品率問題是關鍵限制因素。報告指出,昇騰910c整合了兩顆舊款昇騰910b晶片,在FP16模式下可提供高達80TFLOP/s的算力,內存帶寬為3.2 TB/s,性能水準與輝達H100 GPU相當,目前已由中芯國際量產,預計將很快在中國上市銷售。但由於採用基於深紫外光刻的7nm工藝,瑞穗估計,昇騰910c的良品率約為30%。作為對比,2019年台積電在相關報告中提到,其7nm晶片的試生產良品率超過70%。granitefirm資料顯示,2023年三星7nm晶片良品率約為50%。除產能受限及生態優勢不如輝達外,華為昇騰AI晶片還面臨下遊客戶的問題。一方面,業務線眾多的華為與其他大廠存在不少競爭,例如,華為的汽車業務和智能手機業務與小米存在強競爭,雲業務與阿里、字節、騰訊、百度等大量雲廠商存在競爭。這讓不少大廠擔憂,華為可能利用其在晶片供應鏈上的優勢地位,獲取競爭性資訊或在供應上設定障礙。另一方面,AI大模型投入成本高,企業更關注AI晶片的穩定性。先前美國對華為的管控,讓不少大廠擔憂類似情況是否會繼續上演,一旦出現,大廠投資的轉換成本極高。02. H20或面臨削減訂單風險雖然輝達H20晶片短期訂單激增,但「遠端關閉」和「追蹤定位」技術帶來的安全風險,讓輝達隨時面臨下遊客戶砍單的可能。「追蹤定位」的技術原理為:每顆先進晶片在製造環節會寫入獨一無二的硬體ID。例如,透過雷射刻蝕形成的序列號,或藉助晶片熔絲進行專屬配置。晶片ID認證後,雲根據裝置連接到網路時暴露的IP位址、基地台資訊等推斷位置。晶片運作過程中,會透過TLS/SSL等加密協議建構的安全通道與雲端伺服器完成認證;雲端能依據晶片所在裝置的公網IP、蜂窩基地台資訊、GPS模組資料等多維度資訊,精確推斷其地理位置。尤其是當這類晶片應用於超算叢集或AI訓練場景時,相關裝置往往處於持續聯網狀態。這種特性使晶片供應商能夠周期性收集其運行環境的網路資訊,進而為地理位置的判斷提供持續、可靠的數據支援。「遠端關閉」的技術原理為:晶片韌體中預先設定了安全管理介面,供應商可透過雲向晶片下發指令,實現對其計算功能的鎖定或停用。當晶片偵測到來自廠商的「停用令牌」時,會立即停止載入驅動,或直接鎖定關鍵計算單元。關閉機制分為臨時停用和永久熔斷兩大類,尤其是在永久熔斷機制下,一旦觸發通常無法或極難恢復。「遠端關閉」和「追蹤定位」的技術原理以及晶片的特殊地位,帶來安全、主權、隱私、供應鏈依賴等多重風險。例如,在隱私與資料合規方面,晶片可能會周期性地向廠商匯報IP位址、地理位置、硬體ID等資訊,這不僅可能導致用戶或企業的行蹤資訊洩露,更直接侵犯了其隱私權。AI訓練群中往往包含大量企業、政府的敏感資料,若被晶片廠商監控,存在極大的洩密風險;更重要的是,這種強制性的遠端跟蹤,可能不符合部分國家的數據主權法規,如中國的《數據安全法》、歐盟的GDPR等,引發合規問題。圖源:基於公開資訊整理DoNews製圖上述風險的存在,不僅讓使用H20晶片的大廠同時面臨業務風險、監管稽核風險,更會引發大量輿論風險。在當前社群媒體平台上,大量網友紛紛討論那些廠商使用H20晶片:既然H20晶片有這些風險,為何大廠還要依賴存在安全漏洞與潛在控制隱患的晶片?是否在資料安全與業務穩定性上存在僥倖心理?這種質疑極易發酵為對企業責任感的拷問,讓大廠陷入「重利益輕安全」的輿論漩渦。當市場擔憂晶片風險可能威脅用戶資料安全、業務連續性時,社交媒體上的討論極易從對單一企業的批評,擴散為對整個行業技術依賴現狀的擔憂,引發用戶對相關企業產品與服務的信任危機,導致用戶流失與市場聲譽受損。輿論反噬的力度,往往比業務風險本身更具破壞性,這給H20晶片在華銷售蒙上更多陰影。Forrester首席分析師Charlie Dai表示:「在國內競爭日益激烈的背景下,網信辦對H20晶片安全風險的審查,可能會進一步削弱輝達在中國的市場份額。且由於監管不確定性,H20的即時銷售恢復也可能面臨延遲。這契合了在美國出口管制背景下,中國加速推進國內半導體替代方案、力求實現自給自足、自給自足技術自給自足的發展趨勢」。03. 輝達在華市場面臨多重考驗如Charlie Dai所言,輝達在華市場的起伏,始終與中美全球AI主導權的爭奪深度繫結。黃仁勳訪華後H20晶片訂單激增與因安全問題遭約談的看似矛盾的局面,實則是這場博弈的縮影——中國既需短期算力支撐AI發展,又要通過監管推動技術自主;美國則想藉晶片出口維持技術霸權,卻受制於中國市場的戰略價值與供應鏈反制力。儘管美國目前在尖端硬體設計、基礎模型及人工智慧研究領域處於領先地位,且透過輝達、AMD和英特爾等企業掌控著超70%的高階AI晶片IP。例如,先前面對黃仁勳的相關訴求,美國高層曾明確表示,H20晶片「是中國前沿人工智慧能力的強大加速器」。但在國家資金的大力扶持和龐大人才庫的支撐下,中國正快速追趕。當前,中國擁有全球60%以上的人工智慧相關專利,已啟動多項國家計畫,力爭2030年在人工智慧領域佔據領先地位。另據《史丹佛人工智慧指數2024》資料顯示,中國發表的人工智慧研究論文數量超過其他國家,在AI論文高被引數量方面也位居全球第二。黃仁勳同樣坦言,中國擁有價值500億美元的AI市場規模,失去這一市場份額可能會重塑整個GPU格局。但輝達在華市場,未來將同時面臨合規驗證、能否順利取得H20晶片的全部出口許可證、國內市場需求如何演變,以及晶片製造商是否能獲得足夠的發展動力等多重考驗。商業化處理程序嚴重滯後於技術發展,是當前國內AI大模型市場面臨的最大考驗。對標C端移動APP,每日活躍使用者數(DAU)、使用者基數以及使用者使用時長的佔據,是各類移動APP實現商業化的核心基礎。但C端AI大模型的發展卻面臨多重限制:一方面,同質化競爭態勢顯著,眾多產品在功能與體驗上差異甚微;另一方面,資料幻覺問題突出,影響使用者對模型輸出結果的信任度。同時,高昂的獲客成本持續消耗著企業資源,而缺乏差異化的功能設計又導致使用者使用時長難以提升,這些因素共同掣肘著C端AI大模型的商業化處理程序。相較C端,B端大模型面臨的問題更為複雜:低程式碼/無程式碼平台雖能助力企業實現降本增效,但受限於能力不足、資料介面不暢、隱私安全隱患,以及企業業務場景的複雜化與低程式碼/無程式碼平台僅能支援簡單場景之間形成的尖銳矛盾,使其在打開更多中大型企業市場時,面臨著嚴峻考驗。定製化雖是B端大模型的重要獲利方式,但定製大模型的高昂成本與當前企業普遍追求「降本增效」的現實需求形成衝突,這讓AI大模型在拓展中小企業市場時,同樣遭遇不小的難題。商業化處理程序的遲緩,讓不少大模型企業陷入困境:部分企業不堪負荷選擇離場,另一部分則被迫調整戰略方向。這同樣對H20晶片的市場表現產生著不容忽視的影響——對依賴H20晶片支撐業務的大模型企業而言,若因商業化受阻而縮減規模甚至退出市場,無疑會直接削弱對H20晶片的需求;即便那些選擇收縮大模型投入或轉向更經濟替代方案的企業,也可能會在成本考慮下減少對H20晶片的採購價,轉而尋求更經濟替代方案的替代方案。如此一來,H20晶片原本在B端市場的拓展節奏難免受到波及,進一步加劇其在市場中的不確定性。在更廣泛的地緣競爭中,未來圍繞先進技術的競爭愈演愈烈,H20已不僅僅是一款晶片,更是一場高風險博弈中精心策劃的一步棋。對投資者而言,這凸顯了政策變化、貿易緊張局勢和供應鏈壓力如何迅速波及獲利預測和全球市場信心。對輝達來說,既要遊說美國放寬限制以維持份額,也要應對中國的安全審查以修覆信任。更重要的是,其穩定在華市場信心的關鍵在於,中美整體科技戰的緩和程度緊密相關。 (DoNews)