#晶片H200
輝達能攔住李廠長嗎?
“最佳銷售”黃仁勳終於看到了冰山消融的可能:就在昨天,美國總統川普通過其社交媒體宣佈,經過與中方的溝通,美國將允許晶片巨頭輝達向中國的“經過批准的客戶”出口其先進的AI晶片H200。川普在文章中提到,此舉將為美國帶來就業和製造業的增強,並提及中方將為此支付25%的額外費用。A輝達CEO黃仁勳曾在10月公開表示,在美國實施嚴格的出口管制之前,輝達的高端AI晶片在中國市場佔據主導地位,市場份額超過95%。從A100到H100,這些晶片是中國各大網際網路公司、科研機構訓練大模型的核心引擎。然而出口管制政策實施後,輝達在華市場份額從95%驟降至接近0%。2025年三季度,其在華AI晶片銷售額佔總營收不足0.1%。崑崙芯等國產廠商開始迅速填補這個空缺。IDC資料顯示,2024年中國自主研發的AI晶片在國內市場的份額已攀升至30%,2025年預計將突破50%。H200獲准進入中國市場的消息,給市場帶來了震動。雖然輝達最新的旗艦產品是基於Blackwell架構的B200系列,但H200依然是一款高性能晶片。它基於成熟的Hopper架構,擁有與旗艦H100相同的989 TFLOPS的FP16/BF16半精度浮點算力,整合了約16896個CUDA核心和528個第四代Tensor Core。其最大的亮點是配備了高達141GB的HBM3e高頻寬記憶體,記憶體頻寬達到驚人的每秒4.8TB,這甚至超過了H100的80GB HBM3記憶體和3.35TB/s的頻寬。對於需要處理兆參數、消耗海量視訊記憶體的大模型訓練任務而言,更大的記憶體容量和頻寬意味著可以容納更大的模型、使用更大的批次進行訓練,從而顯著提升效率。事實上,H200的回歸並非意味著輝達能完全重奪中國市場。第一個難題就是高昂的價格。按照單顆H200售價約4萬美元計算,25%的抽成意味著每顆晶片需要額外支付1萬美元。這使得H200的實際採購成本遠高於此前的H100,也高於國產同類產品。其次是配額限制。銷售僅限於“經批准的客戶”,並由美國商務部進行審查。這意味著大量中小企業和被列入實體清單的機構無法獲得採購資格,而這恰恰是國產晶片的主要市場空間。更重要的是市場分化的趨勢。輝達的優勢在於極致性能和成熟的CUDA生態,這對追求尖端算力的頭部網際網路公司具有吸引力。但在強調安全可控的政務、金融、能源等關鍵領域,國產替代已成為剛性需求,H200難以進入。然而需要強調的是,H200的性能與此前輝達專為中國市場推出的“閹割版”H20形成了鮮明對比。儘管H20擁有看似不錯的96GB視訊記憶體,但其算力被大幅削減至僅148 TFLOPS。據美國智庫進步研究所的報告評估,H200的性能是H20的6倍左右,這使其成為一個完全不同量級的競爭者。這種性能上的巨大落差導致H20在市場上反應平平。騰訊控股總裁劉熾平在財報電話會議上明確表態,公司已儲備足夠的GPU庫存以支撐未來的模型訓練工作,無需採購H20。阿里雲在2026財年第一季度財報中也表示,H20的實際算力表現“無法滿足大模型迭代需求”。當前國產AI晶片主流算力多處於輝達A100階段。比如寒武紀的旗艦產品思元590,明確對標輝達A100;剛剛登陸科創板的摩爾線程,其AI晶片MTT S3000同樣對標A100。少數廠商產品僅接近H100水平,像沐曦計畫2026年下半年才對流片對標H100的產品進行研發,與H200存在明顯代差。H200的回歸還給國內帶來了輝達引以為傲的CUDA生態。CUDA是一個包含了編譯器、庫、開發工具和開發者社區的完整生態系統。深度學習框架本身不具備直接呼叫GPU的能力,必須通過“中間適配層”才能讓GPU幹活,而CUDA就是輝達GPU的“專屬中間適配層”。過去十幾年,全球絕大多數AI研究和商業應用都在CUDA上建構。百度飛槳可以適配崑崙芯,此時它不依賴CUDA,而是依賴崑崙芯的“專屬中間層”(XPU SDK)。但如果開發者的模型是建構在CUDA上的,那麼想要使用崑崙芯去運行它,就必須得“翻譯”成飛槳能聽懂的程式碼。百度飛槳雖推出了外掛式CUDA相容類硬體接入方案,能讓硬體廠商復用部分CUDA算子,kernel復用率最高可達92.6%,但這只是針對硬體廠商的適配最佳化,在一些關鍵任務上,仍然需要開發者重新使用飛槳平台編寫。出於對開發效率、穩定性和生態成熟度的考量,部分追求極致性能且預算充足的商業客戶,可能會選擇繼續採用輝達方案。但這並不意味著國產晶片會失去市場——兩者的目標客戶群體正在分化,輝達吃高端市場,國產晶片則在中低端市場和安全可控領域站穩腳跟。它基於成熟的Hopper架構,擁有與旗艦H100相同的989 TFLOPS的FP16/BF16半精度浮點算力,整合了約16896個CUDA核心和528個第四代Tensor Core。其最大的亮點是配備了高達141GB的HBM3e高頻寬記憶體,記憶體頻寬達到驚人的每秒4.8TB,這甚至超過了H100的80GB HBM3記憶體和3.35TB/s的頻寬。對於需要處理兆參數、消耗海量視訊記憶體的大模型訓練任務而言,更大的記憶體容量和頻寬意味著可以容納更大的模型、使用更大的批次進行訓練,從而顯著提升效率。B與其他國產AI晶片廠商不同,崑崙芯並非孤立的硬體產品,而是百度AI生態中的關鍵一環。2021年,百度的智能晶片及架構部門完成了獨立融資,正式成立了崑崙芯(北京)科技有限公司。儘管已經成為一家獨立公司,百度依然是其控股股東,持有約59.45%的股份。崑崙芯第一代產品在2020年量產,採用14nm工藝和自研的XPU架構,INT8算力為260TOPS,功耗控制在100瓦等級。到目前量產的第三代P800晶片,工藝已升級至7nm,FP16算力達345TFLOPS——這個數字是輝達中國特供版H20晶片的2.3倍。更值得關注的是崑崙芯背後的全端技術整合能力。在百度建構的AI技術體系中,崑崙芯提供底層算力,飛槳(Paddle)深度學習框架負責中間調度,文心繫列大模型則是最終應用。這種"晶片-框架-模型"的垂直整合模式,與Google的TPU晶片、TensorFlow框架和Gemini模型的組合如出一轍。這種閉環帶來的好處是顯而易見的。飛槳可以針對崑崙芯的硬體特性進行深度最佳化,文心大模型的訓練和推理效率因此得到提升;反過來,大模型的實際需求又為崑崙芯的迭代指明方向。相比之下,其他國產晶片廠商往往需要適配多個主流框架,這在開發效率和性能最佳化上都面臨更大挑戰。獨立營運後的崑崙芯,商業化進展超出了不少人的預期。2024年營收突破10億元,市場預期2025年將增長至35億元以上,並有望實現盈虧平衡。更重要的是客戶結構的變化——最初更多依賴百度內部需求的崑崙芯,外部客戶佔比正在快速擴大,覆蓋網際網路、電信營運商、大型央國企等關鍵領域。2025年8月的一次中標頗具標誌性意義:崑崙芯在中國移動10億等級的AI算力採購項目中,在三個標包中均排名第一。但崑崙芯還不能高枕無憂,單從業務上看,崑崙芯採用Fabless模式,生產環節依賴外部代工。2024年上半年其還能較容易地從台積電獲取7nm晶圓代工產能,但隨著境外新規落地,先進製程晶圓代工和HBM供應等方面均受到不利限制。同時,崑崙芯團隊的軟體最佳化和框架支援長期優先圍繞百度生態展開,對外部開源模型和小眾框架的支援度還不夠。相較於其他AI晶片,崑崙芯的泛化能力還有提高的空間。12月5日,崑崙芯完成新一輪融資,投後估值約210億元人民幣。兩天后百度發佈公告稱,正就擬議分拆及上市進行評估。據外媒報導,崑崙芯最初考慮科創板上市,但後來轉向香港證券交易所,計畫最早在2026年第一季度提交上市申請,目標是2027年初完成IPO。受此消息影響,百度港股股價在12月5日收盤時上漲5.01%。對崑崙芯而言,獨立上市的意義不僅在於融資。更重要的是,它能讓崑崙芯的估值獨立於百度的傳統業務,避免廣告、搜尋業務波動對其的影響,資本市場會按照AI晶片行業的邏輯對其進行估值。在產品佈局上,崑崙芯也在加速推進下一代產品。沈抖透露,針對大規模推理場景的M100晶片已完成回片,主打極致性價比,將於2026年上市。字節、阿里、騰訊等頭部網際網路客戶已拿到小規模樣片測試並小範圍部署,百度也規劃了M100晶片的大型叢集部署場景。這種“內部驗證+外部拓展”的商業化路徑,既降低了市場風險,又為產品迭代提供了真實的應用反饋。在輝達H200可能回歸的背景下,崑崙芯或多或少也有底氣。C在H200回歸的新聞引發熱議的同時,更值得關注的是這次“解禁”背後的政策邏輯,以及它對國產AI晶片帶來的實際影響。從政策細節看,這次調整併非一次徹底的“放開”,而是一種“有管理的開放”。美國政府明確表示,基於Blackwell架構的晶片以及下一代Rubin架構晶片,仍然被嚴格禁止出口到中國。允許出口的H200,本質上是輝達的上一代產品。換句話說,美國的核心策略並未改變——在最頂尖的AI技術上對中國保持代差優勢,同時通過出售"次旗艦"產品獲取經濟利益。外媒分析認為,這種模式很可能成為未來美國對華科技出口管制的新常態:在不放棄技術霸權的前提下,有選擇性地通過出售非尖端但足夠強大的技術來平衡經濟利益與戰略考量,同時以此作為影響中國科技產業發展的籌碼。然而,H200的回歸之路遠比表面看起來更加曲折。在美國內部,圍繞是否向中國放行高端晶片的爭議極大,這使得該政策的長期穩定性存在巨大疑問。這其中最具代表性的是《SAFE CHIPS Act》(《安全晶片法案》)。該法案要求美國商務部在30個月以上時間內拒絕向中國出口尖端半導體的申請。一旦這項法案獲得通過,川普將失去晶片出口的決策權。外媒認為,川普政府火速審批H200放行,可能是在法案進入審議前搶佔先手,通過行政批准製造既定事實。同時,這種政策層面的不確定性,也讓中國企業開始擔憂GPU供應鏈。即便現在可以採購H200以緩解短期算力需求,中國的頭部大廠和關鍵行業客戶也大機率不會完全放棄國產晶片的適配和應用。目前國內AI企業普遍採用“雙備份”(Dual Sourcing)策略——百度自己就是如此,之前百度百舸採用的就是混合算力架構,既用自研崑崙芯,也用輝達等晶片。誠然,這種策略會增加短期的研發成本和系統複雜度,但從長遠來看,這是應對地緣政治不確定性的明智選擇。當供應鏈隨時可能因為政策變動而中斷時,技術自主權的價值遠超短期的成本增加。在中國一側,國家層面對國產替代的政策支援力度也在持續加大。國家積體電路產業投資基金二期募集金額已達2000億元以上,為晶片企業提供了強有力的資金保障。稅收優惠、研發補貼、政府採購傾斜等一攬子政策正在形成合力。國資委79號文更是明確要求,2027年底前實現所有中央企業資訊化系統的國產替代。這些政策訊號清晰地表明,在關鍵技術領域,中國不會因為外部環境的短期變化而動搖自主研發的決心。對崑崙芯等國產AI晶片廠商而言,這意味著一個長期穩定且不斷擴大的市場空間。一位接近百度的人士向字母榜透露,晶片本就是長周期規劃的產業,長期競爭因素始終存在,崑崙芯在產品迭代時就已考慮過相關變化,因此不需要做大的調整。崑崙芯在今年11月公佈的未來5年發展方向中,已經規劃了M300以及超節點裝置等產品線。另一方面,H200允許進口後,可能也會改變百度的採購政策。不過百度方面並未向字母榜透露相關內容。從更宏觀的視角看,H200的放行與崑崙芯的上市計畫,本質上是同一場技術博弈在不同維度的對應。前者代表著美國試圖在保持技術優勢的同時獲取經濟利益,後者則體現了中國在關鍵技術領域尋求自主可控的戰略定力。在這場長期博弈中,短期的政策變動或許會帶來市場波動,但真正決定格局的,仍然是技術積累、生態建設和戰略耐心。對崑崙芯等國產AI晶片而言,挑戰依然嚴峻,但機遇同樣清晰——在一個註定分化的市場中,找到自己的立足點,並不斷向上突破。而且,輝達H200究竟能不能進入中國,目前來看,仍然是個未知數。 (字母榜)
輝達H200獲批 未來中國AI晶片格局分析
先說下結論,H200的短期解禁對中國AI晶片產業的直接影響有限,但長期將嚴重拖慢中國建立獨立、有競爭力的AI晶片生態系統的處理程序。此舉本質是美國在確保代差優勢的前提下,通過輸出上一代高性能產品,既滿足中國經濟需求以獲取高額利潤,又維持中國對其技術生態的依賴,從而遏制中國在AI基礎架構領域的自主突破。從H20到H200:性能的代際飛躍與法規背景的嬗變讓我們先來回顧一下當H20誕生的背景。2023年10月17日,美國商務部工業與安全域(BIS)更新了針對中國的先進計算出口管制規則(即“1017規則”)。該規則設定了兩個關鍵的性能密度閾值,以決定晶片是否需要許可證且“推定拒絕”:性能密度閾值一:晶片的總算力(TPP)除以晶片面積(die size)必須低於一個特定值。性能密度閾值二:晶片的總算力(TPP)除以晶片尺寸的平方(即TPP/(晶片尺寸)^2)必須低於另一個特定值。輝達最初為中國市場設計的合規晶片H800(基於Hopper架構的H100降規版),因在互連頻寬上受限,但計算核心未做大改動,其性能密度仍可能觸及或超過BIS設定的閾值。因此,為了完全合規並獲得出口許可,輝達被迫推出了性能進一步大幅閹割的H20。H20不僅在互連上受限,更在核心計算單元(SM)數量、核心頻率、記憶體頻寬上進行了深度削減,使其總算力(TPP)大幅降低至約2,368,確保其性能密度落在BIS允許的範圍內。一定得瞭解美國到底是怎麼做的限制,我們才能有分析的基礎,連怎禁怎算性能密度都搞不明白,分析出來的東西必然也會有所缺失。H200的性能躍升:對“1017規則”事實上的突破本次獲批的H200是Hopper架構的滿血版資料中心GPU。關鍵參數對比如下:顯然,H200的性能(尤其是TPP)已遠超為符合“1017規則”而生的H20。其獲批出口,並非因為“1017規則”被修改,而是BIS在執法上採取了更靈活的方式,通過發放特別許可證的方式,為超出限制的硬體開了綠燈。這標誌著美國對華晶片管制策略從“嚴格禁止”轉向“管制性開放”,即在確保對華保持至少一代(對比Blackwell)技術代差的前提下,允許上一代旗艦產品進入中國市場。與Blackwell的差距作為參照,輝達當前最新的Blackwell架構旗艦晶片(如B200/B300)性能更為恐怖。美國允許對中國出口H200而非Blackwell,清晰表明了其“放行舊款,鎖死新款”的核心策略,旨在維持至少18-24個月的技術代差。H200與中國國產AI晶片的參數與技術對比根據Bernstein報告的資料對比,中國國產最強AI晶片與H200仍存在全方位差距:中國國產晶片在單卡峰值算力上正在快速追趕,但在決定實際可用性的製程、封裝、尤其是軟體生態和叢集解決方案上,與H200代表的國際主流水平存在代際差距。Bernstein報告的輝達與中國國產各家AI晶片的性能天梯圖,筆者認為相對合理,因為從製程,晶片面積的物理層面,他們的TPP差距是完全合邏輯的。2024-2025年中國AI晶片市場格局2024-2025年:“多種途徑滿足算力”的過渡期,2024-2025年中國AI算力需求並未因管制而停滯,而是通過 “六條腿走路”的混合模式得以滿足:1.採購合規的輝達H20(2024年約百萬張,25年上半年交付約40~50萬,下半年為零)。2.通過特殊管道獲取受限的H100/H200(2024年約40-50萬張)。3.在海外(如新加坡、中東)建設或租賃資料中心。4.採購中國國產GPU(升騰、寒武紀、崑崙芯等,2024年合計約30-45萬張)。5.CSP(雲服務商)自研ASIC晶片(如阿里平頭哥、百度崑崙)。6.軟體最佳化(如模型小型化、低精度訓練)。關鍵特徵:中國國產晶片基數低但增長快:2024年本土AI晶片出貨約190-210萬張,其中中國國產佔比仍低,但寒武紀、升騰等廠商出貨量在2025年均預計實現翻倍以上增長。H20不受歡迎:由於性能差且存在“後門”安全疑慮,中國CSP採購H20意願低,其庫存積壓嚴重。總量受限,結構變化:2025年本土部署的AI晶片總數預計與2024年持平(約200萬張),但中國國產佔比將顯著提升,增量算力需求主要由海外資料中心承接。2026年市場格局預測H200入局後的新博弈隨著H200在2025年底獲准進入,2026年中國AI晶片市場將呈現以下新局面:輝達份額強勢回升:H200預計將在2026年實現 “百萬張等級”的出貨,迅速奪回其在華高端訓練市場的份額。其成熟的即插即用特性將深受大廠青睞。中國國產晶片繼續高增長,但路徑分化:○ 華為升騰:憑藉信創市場基本盤和持續技術迭代,預計出貨量將達到140-160萬張,成為中國國產絕對主力,但主要市場可能仍集中在政務、國企及部分推理場景,但隨著升騰NPU的架構調整,2026年CSP業務將有所斬獲,預計25~35萬張。○ 其他中國國產GPU:如寒武紀(預計14-17萬張)、沐曦、摩爾線程等,將繼續在 “性能-生態-成本”的夾縫中求生存,重點拓展對CUDA生態依賴較低、或對中國國產化有強制要求的細分市場。○ CSP自研ASIC:預計達到30萬張規模,主要用於自身業務的特定推理或部分訓練負載,是巨頭實現供應鏈自主的關鍵一環。總體格局: 2026年中國國產晶片總出貨(按單Die計)有望達到 200萬顆左右,實現高速增長。然而,H200的百萬級出貨將牢牢卡住AI產業皇冠上的明珠——高端智能訓練市場。中國國產晶片的“高增長”更多是源於基數低和在非核心賽道的替代,而非在核心戰場戰勝了輝達,雙方的差距還是在擴大中。核心影響與戰略結論1.短期影響有限,長期拖累生態建立:短期內,H200解決了中國高端AI算力的燃眉之急,利多中國AI應用層發展。中國國產晶片因基數低,在政策保護和特定市場驅動下,仍將保持增速。但長期看,H200的**“溫水池效應”** 將極大緩解中國廠商和開發者逃離CUDA生態的緊迫感,顯著拖慢中國自主AI晶片軟硬體生態的成熟速度。2.美國實現“一石三鳥”:l經濟上:清理舊款庫存,獲取巨額利潤及25%分成。l技術上:維持代差,用舊款產品抑制中國自主技術迭代。l戰略上:延續中國對其技術體系的依賴,將中國鎖定在產業鏈的應用層,而非基礎架構層。3.對中中國國產業的警示:H200的放行是一次清晰的戰略訊號。它意味著,依靠外部提供“次優解”來滿足發展需求,將永遠無法實現真正的科技自主。中國AI晶片產業的最終破局,不在於造出與H200參數接近的晶片,而在於能否建構一個足以讓開發者心甘情願離開CUDA的、有生命力的完整生態。這需要政策、市場、技術研發前所未有的協同與定力。而且這一次H200的解禁,筆者推演過程看到的是,雖然2026年中國國產AI晶片的高增長不受影響,但2027年中國國產AI晶片有可能不再高速增長。主要生態建立不足,且晶片製程的受限,軟硬體的差距都在擴大中,即便中國國產晶片在系統的提升是下了很大功夫,但也無法逃脫製程落後的物理定律。輝達H200獲准對華銷售,是一場精心計算的戰略妥協。它為中國AI產業提供了短期的算力緩解,但同時也套上了一副更為精緻的生態枷鎖。中國若滿足於此“溫水”,則自主生態的建立將前路漫漫;唯有保持戰略清醒,堅持對基礎生態的投入,方能在長遠的競爭中贏得主動。 (Techcoffee)