中美AI晶片殺瘋了!AMD叫板輝達,寒武紀華為繫結DeepSeek絕地反擊

AI晶片已經成為中美科技競爭中的重要“王牌”。

過去半個多月,高達4.5兆美元市值的輝達宣佈,未來十年將向OpenAI投資至多1000億美元,後者將購買和部署400萬-500萬塊輝達GPU晶片;同時,10月7日,AMD宣佈與OpenAI達成了一項為期四年、價值數百億美元的算力晶片供應協議,OpenAI將認購AMD最高10%的股份;甲骨文也和OpenAI達成兆美元的合作協議。

AMD和OpenAI雙方合作公佈後,AMD股價一度暴漲,創下近十年來的最大漲幅,也讓這家資料中心AI晶片市場的“千年老二”,首次與輝達展開正面對戰,並且讓OpenAI形成了一場兆“循環交易”。

中國方面,10月初,DeepSeek發佈DeepSeek-V3.2-Exp模型,隨後寒武紀、華為昇騰等中國國產晶片紛紛宣佈適配,甚至華為還公佈昇騰910系列晶片量產計畫,2026年第一季度將推出昇騰950PR,採用華為自研HBM,到2028年第四季度推出將昇騰970。

另外,寒武紀股價不斷升高,7-9月之間股價漲幅高達124%,最新市值達5210億元,一度超過日本最大的晶片製造裝置廠商東京電子,也成為中國A股市值最高的半導體設計公司之一。

輝達CEO黃仁勳最新表示,中國在晶片領域僅落後美國“幾納秒”,晶片研發和製造方面具有極強的潛力。他呼籲美國政府允許美國科技企業在中國等市場競爭,以“提高美國的影響力”。

很顯然,雖然美國不斷加大對華AI晶片出口管制,卻反而加速了中國國產AI晶片的迭代,也導致H20晶片在華遇冷。如今,儘管2024年輝達產品佔中國AI晶片銷量三分之一以上,但黃仁勳團隊仍陷入中美AI晶片競爭當中。

一方面,美國持續擴大對華 AI 晶片出口管制,例如最新的《GAIN AI》法案要求,輝達 AI 晶片必須優先供應美國企業,之後才能向中國出口先進 AI 晶片,這可能導致輝達錯失價值 500 億美元的中國 AI 算力市場 “大蛋糕”。

另一方面,市場競爭也在加劇:AMD、Google、微軟、博通等國外企業,以及華為、寒武紀、摩爾執行緒等中國企業,紛紛研發出性價比更高的 AI 算力晶片產品,且中國國產AI算力晶片已逐步獲得部署訂單。此外,阿里、騰訊、百度、字節跳動等網際網路大廠,也在加大晶片研發與設計投入,力求在供應鏈中掌握更強大的自主可控能力。

Epoch Al資料顯示,過去一年,OpenAI在算力上斥資70億美元,AI大模型訓練佔50億美元。

摩根士丹利預測,未來三年,全球AI基礎設施建設總成本可能高達3兆美元(約合21兆元人民幣)。另據德勤報告,隨著AI、5G等新技術蓬勃發展,2025年全球半導體產業銷售收入將達到創紀錄的6970億美元,預計2030年銷售規模將超過1兆美元。

晨星公司分析師布萊恩·科萊洛 (Brian Colello) 表示,“如果一年後我們經歷了AI泡沫並最終破裂,(輝達投資OpenAI)這筆交易或許會成為早期線索之一。”

輝達發言人在回應有關中國晶片公司近期進展的詢問時表示,競爭無疑已經到來。

清華系AI晶片公司清微智能CEO王博對筆者表示,可重構等新架構AI晶片可以讓中國國產AI算力擁有非輝達GPU的發展之路。中國AI晶片市場需要在產品上具備比競品5倍的性價比優勢,才能分得更多的蛋糕。“行業現在有一個絕對佔據市場份額的競品,比如輝達或英特爾,你是絕對不能按照它的路徑走的,那會被碾壓得渣都不剩。”

DeepSeek熱潮帶來中國國產AI晶片“超車”

自2022年10月以來,美國針對中國半導體行業發起多輪出口管制,企圖讓中國無法製造先進AI晶片,也無法使用美國晶片訓練先進模型。

2024年12月,美國拜登政府任內最後一次擴大對華出口限制,包括限制對華出口先進AI晶片所需的HBM(高頻寬儲存),以及降低算力密度的紅線,劍指限制中國AI大模型的發展能力。因此,此前還對輝達晶片有較大依賴的中國網際網路雲公司,也都開始考慮部署中國國產AI晶片。

而與此同時,2025年的DeepSeek熱潮,也加速了中國AI晶片和應用的落地。

今年8月,DeepSeek推出V3.1版本之時,官方寫的一段話引起市場關注——“UE8M0 FP8是針對即將發佈的下一代中國國產晶片設計”,使得市場不斷關注中國國產AI晶片最新進展,同時也讓輝達股價應聲下跌。

當前,DeepSeek訓練成本遠低於美國領先的AI模型。9月18日梁文鋒擔任通訊作者的權威期刊《自然》(Nature)封面論文顯示,DeepSeek-R1模型訓練成本僅為29.4萬美元,即便加上約600萬美元的基礎模型成本,也遠低於OpenAI、Google訓練AI的成本。

黃仁勳今年7月對筆者表示,DeepSeek-R1既是一種革命性的模型,也是第一個開放原始碼的推理模型,而且非常創新。對於應用場景而言,中國AI模型非常高效且開放,可以根據任何應用場景來調整,甚至可以在這些開放模型基礎上建立一家公司、一款產品或一項業務。

“四年前,輝達在中國的市場份額高達95%,如今只有50%。如果我們不在中國競爭,而是讓中國開發出新的平台,建立一個豐富的生態系統,並且它們不是美國的,在世界推廣AI技術的時候,他們的技術和領導力將會傳播到世界各地。”黃仁勳表示。

輝達CEO黃仁勳

截至2024年底,輝達佔全球所有AI加速晶片銷售規模的90%以上。據2025年8月最新季度財報顯示,輝達資料中心營收411億美元,同比增長56%,成為輝達營收佔比最高的業務。

黃仁勳今年8月表示,輝達Blackwell Ultra架構晶片的生產正在全速推進,需求很旺盛,恰逢推理型AI模型推動模型性能迅速增長。AI競賽已經拉開帷幕,Blackwell是這場競賽的核心。

他認為,每年與資料中心基礎設施建設相關的6000億美元資本開支,只計入了投入最大的四個廠商,此外還有大量公司會對AI進行相應投資,接下來5年,輝達將通過Blackwell、Rubin等架構的晶片,抓住價值3兆到4兆美元的AI基礎設施建設機會。隨著時間推移,AI將會加速GDP增長。

然而,DeepSeek並非唯一一家不依賴美國技術的中國AI公司。隨著美國對華限制不斷加劇,阿里、騰訊、字節火山引擎等中國雲廠商開始一邊囤貨輝達GPU,一邊嘗試中國國產替代。

財報顯示,由於美國限制對華銷售H20,輝達2026財年第一財季產生的H20庫存支出高達45億美元,第二財季銷售額更是減少了40億美元。

但同時,中國國產AI晶片市場卻處於供不應求的狀態。據悉,阿里、寒武紀、清微智能、摩爾執行緒、壁仞科技等多家中國國產AI晶片的目標是挑戰輝達,成為中國核心的AI算力晶片廠商之一。

近期,央視報導“中國聯通三江源綠電智算中心項目建設成效”,其中就披露阿里旗下平頭哥最新研發麵向AI資料中心的PPU晶片,其各項主要參數指標均超過輝達A800,與H20相當,同時消耗更少的能源。

據筆者瞭解,寒武紀目前最大的網際網路客戶為字節跳動,晶片預購訂單超20萬片;阿里和百度自研晶片已經量產;騰訊目前正在逐步上架此前囤積的晶片,同時還購買燧原產品。

今年9月,華為推出有史以來最強大的AI晶片。華為表示,2026年第一季度推出昇騰950PR,該晶片採用華為自研HBM;2026年第四季度推出昇騰950DT;2027年第四季度推出昇騰960晶片;2028年第四季度推出昇騰970,挑戰輝達在AI市場主導地位。

據財新,有半導體行業人士估算,2024年,華為昇騰AI晶片出貨量約為30萬-40萬顆,寒武紀超1萬顆;2025年,華為昇騰出貨量或略低於100萬顆,而寒武紀出貨量將增至8萬顆左右,預計2026年寒武紀出貨量還能翻倍。

然而,華為副董事長、輪值董事長徐直軍表示,由於受美國的制裁,華為不能到台積電去投片,單顆晶片的算力相比輝達存在差距,但華為在超節點互聯技術上強力投資、實現突破,能夠做到萬卡級的超節點,從而做到世界上算力最強。

華為公司創始人任正非今年6月表示,儘管華為昇騰晶片比美國同類產品“落後一代”,但它可以通過堆疊和叢集等技術達到最先進的性能。

無論面臨何種挑戰,我們顯然不能低估中國 AI 晶片的追趕能力。

摩爾執行緒創始人兼CEO張建中近期表示,當前GPU晶片的製造端困境主要有三方面——國際高端晶片禁運、高端HBM儲存限售、先進工藝製程限制。今天市場大概有超過700萬張GPU計算卡的需求,來支撐生成式AI和AI智能體技術能力。而未來5年,AI算力需求仍將保持100倍增長,以每一片晶圓大概產出20-30片有效算力來計算,中國還有300萬張GPU卡的產能缺口,從中短期看,中國算力市場面臨智能算力短缺,產能不太可能滿足需求。

今年9月26日,摩爾執行緒提交招股書僅88天,就順利過會,成為科創板最快稽核的AI晶片公司,有望成為“中國國產GPU第一股”。此次IPO,摩爾執行緒計畫募資80億元人民幣,是年內A股過會項目中募資規模最大的項目,同時也是年內半導體設計領域最大規模的IPO。公司表示,募集資金將主要投向新一代AI訓練與推理晶片、圖形晶片及AI SoC晶片的研發,以鞏固其在高性能計算領域的領先地位。

財報顯示,摩爾執行緒2025年上半年營業收入達7.02億元,已超過前三年營收總和,近三年複合增長率超208%。公司毛利率從2022年的-70.08%大幅提升至2024年的70.71%。截至2025年6月30日,公司正在洽談的客戶預計訂單合計將超過20億元。公司管理層預計最早於2027年實現合併報表盈利。

當前,主流Al智能體一次簡單任務呼叫大約消耗10萬tokens,複雜任務呼叫可達100萬tokens以上。截至2025年6月底,中國日均tokens消耗量已經突破30兆,一年半時間增長300倍。

張建中強調,AI正邁入智能體時代,算力需求將迎來爆發式增長。

黃仁勳曾表示,AI是一個充滿活力的創業、高科技、現代化產業。美國企業應該與中國自由貿易,否則就有可能在AI競賽中將優勢拱手讓給中國。

研究機構IDC最新資料顯示,2025上半年,中國AI加速伺服器市場規模達到160億美元,同比2024上半年增長超一倍;中國加速晶片已擁有超過190萬張。預計到2029年,中國加速伺服器市場規模將超過1400億美元。

IDC認為,從加速技術角度來看,2025年上半年,NPU、CPU等非GPU卡的需求持續增長,增長速度遠超GPU,佔據30%的市場份額;而從品牌角度來看,中國國產AI晶片已進一步得到普及,約佔整個市場份額的35%。

計算瓶頸已來

伺服器晶片急需新架構新儲存新通訊

對於一台放置資料中心的伺服器來說,計算(晶片算力)、通訊(超節點、NVLink)、儲存(HBM、DDR等)是三個最核心的要素。

隨著行業進入後摩爾時代,如果你想迭代一款AI晶片,就需要提升PPA——提升性能、降低功耗、縮小面積。

本質上,PPA的提升需要從架構設計、工藝選型、軟體最佳化等多維度協同發力,核心思路是通過硬體創新與軟硬協同,加快AI任務(如矩陣運算、特徵提取)的處理速度、最佳化計算效率與資料流轉效率,並且在滿足 AI 計算需求的同時,實現PPA三者的平衡與突破。

然而當前,從製程上看,“摩爾定律”已處於放緩階段。從成熟製程(如14nm)升級至先進製程(如7nm、4nm、3nm),AI算力性能提升幅度不及預期,而且晶片成本也陡然上升。

國際商業戰略公司 (IBS) 首席執行官Handel Jones曾表示,設計28nm晶片的平均成本為4000萬美元;而7nm晶片的成本高達2.17億美元,5nm為4.16億美元,3nm更是將耗資高達5.9億美元。另據多個公開資料顯示,預計3nm晶片整體設計和開發費用可能接近10億美元(約合人民幣72億元),高價格背後主要體現在晶圓代工成本、研發投入、裝置採購(尤其是EUV光刻機)和良率等多個方面。

同時,高通最新發佈基於4nm製程的第四代驍龍8s,相比之前高通驍龍產品,通用計算(CPU)性能僅提升31%;最新製程和Chiplet技術的英特爾酷睿Ultra7 165H,相比前代10nm製程的酷睿i7-1370P,每瓦性能僅增長8%左右;而台積電最新N2製程的性能相比前代僅提升10%-15%。

顯然,未來先進製程的發展並不會給AI晶片性能和性價比層面帶來更大提升。今年GTC大會上,黃仁勳開始宣傳大模型Token需求的激增來體現B200對於AI晶片市場重要性,而非晶片性能。

一位半導體行業人士在私下和筆者交流時也提到,中國不做先進製程是明智的,本身到12nm之後,製程對於性能提升沒有那麼明顯了。因此,中國製造工藝可能在相當長的時間內仍會嚴重受限,如何解決在工藝受限情況下,持續發展晶片算力,是當前一個非常關鍵的課題。

所以,計算的瓶頸已來,伺服器AI晶片急需新的架構、新的儲存方案、新的通訊網路手段,從而讓AI晶片能力更強。

清華大學教授、中國半導體行業協會積體電路設計分會理事長魏少軍曾直言,伴隨外部禁止中國進行先進製程晶片研發,中國所能使用的製造技術不再像之前那樣豐富。如今,中國晶片產業需要在技術創新上更為關注不依賴先進工藝的設計技術,包括架構的創新、微系統整合等。晶片企業需摒棄“路徑依賴”,打造中國自己的產品技術體系,否則將永遠無法擺脫跟在別人後面亦步亦趨的被動局面。

“如果只是沿用現有的晶片架構,大機率只能跟在別人後面,難以實現超越。”魏少軍認為,包括中國在內的亞洲國家應放棄將輝達GPU架構用於AI晶片開發,以減少對輝達的技術依賴。他認為,亞洲國家在開發演算法和大模型方面,仍在效仿美國,但這種模式限制了自主性,或將帶來對美國技術產生依賴的風險,亞洲的戰略必須與美國模式有所區別,尤其是在演算法設計和計算基礎設施等基礎領域。

清華大學積體電路學院院長尹首一在AICC2025人工智慧計算大會上表示,每一個電晶體能提供多少算力,本質上是計算架構的問題。採用新的計算架構,有機會去提高每個電晶體的利用率、解決制約中國國產晶片性能的儲存牆,以及降低晶片功耗,帶給晶片更多新的可能性,計算架構的破局有助於AI晶片算力提升。同時,用可重構計算架構去做AI計算,用軟硬體程式設計方式,動態構造一個最適配的計算架構,有機會通過硬體自動化程式設計去逼近專用積體電路的性能。

“創新架構能夠突破傳統的設計思維,能夠解決我們基礎算力問題,但我們還需要有效的生態支撐。智源研究院的FlagOS是中國國產架構創新的生態後盾,我們的軟硬協同共同努力兩方面互補,從而能夠突破中國算力‘卡脖子’挑戰。”尹首一表示。

除了新架構,儲存和通訊的提升也至關重要。

其中,儲存方面,HBM、DDR等AI儲存晶片需求規模正呈現指數級擴張,一個GPU節點就可能消耗數百甚至數TB儲存。據美光資料顯示,AI伺服器的DRAM容量需求是普通伺服器的8倍,NAND快閃記憶體容量需求則達到3倍,單台AI伺服器儲存需求更是高達2TB,遠超傳統伺服器的配置標準。

因此,需求激增直接推高儲存晶片在AI基建中的成本佔比。近期,OpenAI的“星際之門”(Stargate)項目與三星、SK海力士達成合作,每月需採購90萬片DRAM晶圓,這一數字相當於全球DRAM總產量的近40%。

目前,HBM單顆價格超過5000美元,是傳統DDR5記憶體的20倍,而毛利率卻高達50%-60%,遠超傳統DRAM 30%左右的水平。

快閃記憶體市場總經理邰煒今年3月表示,AI浪潮下,計算平台正從CPU轉移到以GPU/NPU為中心,儲存晶片需求也將增長,因此HBM高頻寬儲存在AI時代中得到廣泛應用,目前HBM在DRAM儲存行業佔比已接近30%,2026年HBM4將會推動行業更多定製化需求。

通訊網路方面,輝達的網路佈局涵蓋了三種主要技術NVLink、InfiniBand 和Ethernet,其中,NVLink是將GPU彼此連接在一台伺服器內,或者在機櫃狀的伺服器機架中連接多台伺服器;而華為提出昇騰CLoudMatrix 384超節點,在高速互聯匯流排聯接下,共由12個計算櫃和4個匯流排櫃構成,算力總規模達300Pflops,是輝達NVL72的1.7倍,網路互聯總頻寬達269TB/s,比輝達NVL72提升107%,記憶體總頻寬達1229TB/s,比輝達NVL72提升113%,未來將進一步擴展為包含數萬卡的Atlas 900 SuperCluster超節點叢集,未來可以支撐更大規模的模型演進。

此外,很多AI晶片公司也在探索共封裝光學(CPO)、Chiplet、光通訊網路、DPU等新的通訊網路技術,通過互相通訊更快提升整個AI算力性能。

北京智源人工智慧研究院副院長兼總工程師林詠華表示,未來,我們需要推動更好的性價比、更低能耗、新的計算架構,持續性投入創新,讓更多創新硬體有機會大範圍使用,實現更大的商業價值。據悉,智源研究院近期聯合全球生態夥伴推出“眾智FlagOS v1.5”系統,清微智能與寒武紀、摩爾執行緒、崑崙芯、華為昇騰、中科海光共同成為中國唯六的“FlagOS卓越適配單位”。

然而當前,中國國產AI晶片生態尚不完善,產能嚴重不足,而且中國仍在囤積大量海外晶片。根據海關總署今年1月發佈的資料,2024年中國積體電路進口總量將達到5492億塊,同比增長14.6%;全年積體電路(即晶片)進口總額為3850億美元,同比增長10.4%,這一數字佔全球晶片總產量的62%。相比之下,2024年中國原油進口額為3250億美元。

IDC中國AI基礎架構分析師杜昀龍認為,中國AI加速伺服器市場正在經歷規模擴張和本土替代的階段。在高端算力效能與生態成熟度上仍需突破。未來競爭焦點將從單晶片性能轉向系統能效比、開放生態協同和綠色算力成本控制。行業需避免低水平重複建設,通過技術協同與標準最佳化提升國際競爭力。 (鈦媒體AGI)