一、發展歷史:兩種基因,兩條路
1、輝達:賭出來的王者
輝達的起點和"GPU"這個名字一樣——做遊戲顯示卡。1993年黃仁勳帶著"為PC增加真實感"的想法創立,最初連正經辦公室都沒有,靠著給世嘉做遊戲晶片的副業活了下來。
轉折點在2006年——輝達推出CUDA架構,把GPU從"遊戲專用"變成了"通用計算"。當時沒人看好這個決定,因為GPU處理平行計算的能力雖強,但根本沒人在CPU之外寫程序。輝達硬是砸了多年錢,補貼學術圈,培養了最早一批在GPU上跑AI研究的人。
2012年是歷史性時刻:多倫多大學的AlexNet用兩塊輝達GTX 580在ImageNet競賽中碾壓傳統演算法,深度學習時代開啟。從那以後,輝達的所有投入——CUDA生態、NVLink、TensorCore——全部被驗證是對的。
2、華為:被迫長大的海思
華為進入晶片領域是被逼的。2004年海思成立,最初做的是視訊解碼晶片和基帶晶片,沒有人會把它和GPU聯絡在一起。
真正的GPU故事要從2019年說起——美國實體清單把華為逼到了必須自研晶片的死角。昇騰910在2019年8月發佈,被宣傳為"全球算力最強AI晶片",對標輝達A100。雖然事後被證明良率和生態差距巨大,但在極限封鎖下能拿出可用產品,已經說明華為的晶片工程能力不容低估。
二、投入強度:錢不是問題,問題是買不到
1、輝達
輝達2025財年研發投入超過350億美元,佔營收的20%左右。這個數字什麼概念?相當於中國頭部AI晶片公司投入的10倍以上。而且輝達的研發投入是"系統性"的——晶片設計、封裝工藝、EDA軟體、CUDA生態、InfiniBand網路,每一塊都在砸錢。
2、華為
華為沒有單獨披露海思的研發投入,但整體研發費用率常年維持在20%以上,2023年研發總投入超過1600億人民幣。分到海思身上大約在200-300億人民幣量級。
3、關鍵差距不在錢,在於工具鏈
輝達用的是全球最領先的EDA工具(Synopsys、Cadence)和最先進的製造工藝。華為被封鎖之後,EDA工具斷供(Synopsys/Cadence均已停止服務華為),製造被卡在7nm(台積電斷供,中芯國際14nm勉強能用)。這意味著華為每往前走一步,都要比輝達多付出幾倍的工程代價。
三、製程限制:華為的七吋
這是華為最現實的困境。
輝達H100/H200用的是台積電4nm工藝,B200用的是3nm。晶片製程不是單純"越先進越好",而是直接決定了:
-電晶體密度:同樣面積能放多少計算單元
-功耗效率:每度電能跑多少算力
-發熱密度:散熱設計難度
華為昇騰910C據報導用的是中芯國際7nm N+2工藝,實際良率和性能都存在較大不確定性。一位國內晶片工程師私下說:"7nm做出來的和台積電7nm做出來的,性能可能差30%,功耗可能差50%。"
輝達的Blackwell B200單晶片算力達到20PFLOPS(FP4),華為昇騰910據官方說法是256TFLOPS(FP16),差距大約80倍——當然這個數字要打個折扣,因為測試標準不同,但數量級差距是客觀存在的。
但有一種觀點值得注意:封鎖讓華為無法追逐最先進製程,反而倒逼了"系統級創新"。昇騰通過"達文西架構"的3D Cube技術,在特定AI算子上的效率比輝達A100高;通過最佳化記憶體頻寬和互聯頻寬,部分場景可以彌補製程劣勢。
四、開發者生態:這是最難跨越的護城河
如果說晶片是硬體,生態就是空氣——看不見摸不著,但一刻也離不開。
1、輝達:CUDA就是壁壘
全球有超過600萬開發者熟悉CUDA程式設計。所有主流AI框架(PyTorch、TensorFlow、JAX)都以CUDA為第一優先順序支援目標。全球幾十萬家AI創業公司,從第一天寫程式碼就是在輝達的生態裡。
這個生態的壁壘有多深?不是靠"性能更好"就能打破的。假設華為明天發佈一顆晶片,理論性能比H100強50%,但PyTorch不支援、C++編譯器不支援、所有開源模型沒針對華為NPU最佳化——沒有開發者會用的。
2、華為:正在建,但差距是數量級的
華為有MindSpore框架,有CANN計算架構,有昇騰社區。但和CUDA比,MindSpore的開發者數量差了至少兩個數量級。更致命的是,全球AI開源生態幾乎全部建構在CUDA之上,華為要推動生態遷移,估計需要付出十年以上的時間和幾千億元的投入。
五、產業應用:輝達吃肉,華為喝湯
1、全球AI算力市場現狀
輝達在全球資料中心GPU市場的份額超過88%。全球四大雲廠商(AWS、Azure、GCP、阿里雲)都在大量採購輝達的H100/H200。訓練一個GPT-4量級的大模型,需要大約1萬到10萬塊H100,這個門檻已經把絕大多數玩家攔在門外。
2、華為:中國市場的"替代陷阱"
在中國市場,華為是政策推動下的"正確選擇"。由於美國對中國的出口管制,中國企業無法獲取A100/H100,昇騰成了唯一的替代方案。百度、科大訊飛、商湯等公司都宣佈接入華為昇騰生態。
但"替代"和"能用"是兩回事。一位國內大模型公司的技術負責人說:"用昇騰訓練一個百億參數模型,要比用A100多花3到5倍時間。開源模型遷移到昇騰,偵錯適配的工作量大約是6到12個月。"
這不是華為的問題,是整個中國AI算力生態的短板。
六、未來走向:兩個平行宇宙
1、輝達的劇本
輝達正在推進"全端AI公司"的戰略——從晶片到伺服器(DGX),從網路到軟體(CUDA、X86上的AI企業套件)。Blackwell之後是Rubin架構,每年一代的速度在迭代。輝達的終極目標不是賣晶片,而是賣算力即服務——通過DGX Cloud,讓企業直接租用算力,不需要買硬體。
這個模式下,輝達的護城河會從"晶片性能"延伸到"維運能力"和"軟體生態"。
2、華為的劇本
華為的算力戰略高度依賴政策保護和市場壁壘。如果輝達中低端晶片繼續實施限制,華為昇騰在中國的市場份額會繼續擴大。但如果封鎖持續,華為的晶片迭代速度會逐漸放緩(因為7nm之後往5nm/3nm走會越來越難)。
華為另外一個籌碼是"軟硬一體"——鴻蒙作業系統、昇騰晶片、MindSpore框架、盤古大模型,這是中國唯一具備端到端能力的AI全端。但這整套東西的競爭力,目前主要體現在中國市場。
七、結論:誰贏了這個回合?
輝達贏了嗎? 贏了,而且贏得毫無懸念。在全球市場,華為短期內沒有挑戰輝達的可能性——製程、生態、應用,一個都打不過。
華為輸了嗎? 沒有。在中國市場,華為是唯一現實的大規模AI算力供應方。沒有華為,中國的AI大模型訓練會不會停擺不知道,但至少token經營無從談起。這本身就是一種價值。
真正的博弈在別處:算力競爭從來不只是晶片競爭,而是標準競爭、生態競爭、人才競爭。美國有輝達CUDA,有台積電製造,有PyTorch生態;中國有華為,有中芯國際,有MindSpore。前者開放但可封鎖,後者自主但封閉。
兩個體系未來大機率會長期並存,形成事實上的"算力兩極格局"。 (大饒不老)
