老黃喝豆汁「破防」背後，中國GPU正在填上CUDA護城河

2026/05/20

•

老黃在北京喝豆汁「翻車」，全網笑瘋了。但真正值得警惕的，是他背後那個正在長出來的「中國版CUDA生態」。從萬卡叢集到機器狗，從SGLang主線到AI Agent自動遷移，這家公司這次不只是秀晶片，而是在重寫國產GPU的遊戲規則！

這幾天，老黃喝豆汁的表情包，已經在全網刷屏了。

他穿著黑色皮衣，端著炸醬麵，站在方磚廠69號門口邊拌邊吃。

有人遞過來一碗豆汁，他喝了一大口，眉頭瞬間擰成一團，周圍一片哄笑。

但他這次來北京，顯然不只是來吃麵的。

老黃自己說過一句話，「不要低估中國的實力和競爭力，那是愚蠢的。」

5月18日晚，炸醬麵熱搜還沒涼，摩爾線程在北京開了年度產品發佈會。

但所有這些硬體背後，有一條貫穿全場的主線——MUSA生態。

CUDA最硬的地方，是開發者的肌肉記憶

CUDA統治AI算力十五年，靠的不是晶片快，靠的是生態鎖定。

幾百萬開發者的程式碼、習慣、工具鏈，甚至手指敲鍵盤的肌肉記憶，都長在CUDA上面。

換平台？重寫程式碼、重學工具、重新踩坑。硬體採購只是一張訂單，工程遷移是一場組織動員。

你能造出神兵利器，但很難改變幾百萬人的生活習慣——這才是卡脖子卡得最見血的地方。

所以國產GPU的競爭，到了今天，已經從「硬體替代」推進到「生態替代」。

硬體替代解決的是有沒有卡，生態替代解決的是開發者願不願意來、模型能不能跑、行業敢不敢規模化採購。

如今，MUSA已經實現了晶片架構、指令集、程式設計模型、軟體運行庫、驅動框架和上層應用工具鏈的全面覆蓋。

從雲端萬卡叢集到個人算力本再到邊緣SoC模組，跑的都是同一套MUSA。大模型訓練、推理服務、智能體、機器人模擬，全部長在這同一個底座上。

這意味著他們賣的不是某一顆晶片、某一張卡，而是一整套國產全功能GPU的底層生態。

四級躍遷，MUSA開始從相容走自進化

具體來說，MUSA生態的進展可以拆成四個台階。

相容，原生，開放，自進化。

每往上一層，MUSA的角色就發生一次變化。

前兩層解決遷移和性能，第三層解決開發者入口，第四層開始改變生態建設的成本結構。

第一層是相容：先把開發者的舊程式碼吃下來

國產GPU應用最大的障礙之一，是遷移成本。

開發者已經習慣CUDA、PyTorch、cuDNN、Triton、vLLM、SGLang這一整套工具鏈。如果換一張卡就要重寫工程、重新偵錯、重新踩坑，再漂亮的硬體指標也很難變成採購決策。

MUSA SDK 5.1.0直接對標CUDA 12.8，驅動及執行階段API相容數幹到761個。

核心數學庫Blas、Sparse、Rand、FFT，100%功能相容。

AI算子庫muDNN覆蓋55類核心AI算子，額外擴展230多個。

PyTorch全量3194個算子，100%相容，不是「大部分能湊合跑」，是全量。

絕大多數CUDA程序不改一行程式碼，直接在摩爾線程的卡上跑通。開發者憑肌肉記憶寫出來的程式碼，MUSA全吃下了。

遷移成本越低，試用意願越強。原有程式碼越能復用，組織內部推進國產算力，出錯的風險和投入的成本都會大大降低。

第二層是原生：光能跑還不夠，關鍵路徑必須跑得快

相容解決的是「能不能遷」，原生性能解決的是「遷過來值不值」。如果關鍵路徑上性能拉胯，客戶最後還是會把你放在備用方案的位置。

MATE加速庫直接對著大模型最吃算力的幾個算子開刀。FlashAttention3、Sage Attention、DSA、GDN、DeepGEMM，全是硬骨頭。

FA3在摩爾線程GPU上效率飆到95%，熱點算子覆蓋率突破90%，Attention類算子全場景覆蓋。

大模型訓推的瓶頸從來不在「所有功能都支援」，而在Attention、GEMM、MoE通訊、KV Cache這幾條高頻路徑上。這幾條路卡住，整套系統就被拖住。FA3到95%，意味著MUSA在最要命的環節上跟CUDA的差距已經是個位數。

此外，MUSA還新增了Fortran編譯器，VASP等科學計算軟體可以直接遷移。

TileLang-MUSA已經合入開源主線，GEMM類算子實現95%以上的彙編級性能效率，Attention類算子達到90%以上。

Triton-MUSA升級支援到Triton 3.6最新版本。

這些工具看起來離普通讀者很遠，但它們決定了硬核開發者願不願意在這個平台上寫底層算子。

客戶不會為情懷長期付費，只會為效率、穩定性和確定性付費。MUSA如果能在關鍵路徑上持續接近原生效率，它的身份就會從「相容層」變成「高性能開發平台」。

第三層是開放：進主線，才算真正上桌

整場發佈會裡，這一層的戰略份量可能最重。

全球頂級推理引擎SGLang，已經將MUSA合入官方主線，並列入2026 Q2官方硬體支援矩陣，和GB200/GB300、AMD、TPU並列。

截至5月12日，摩爾線程在SGLang上提交47個PR，合併41個。

在vLLM那邊，MUSA同樣拿到官方後端身份。TileLang-MUSA也已經合入開源主線。

開發者在使用時，直接呼叫的就是框架。

框架支援誰，程式碼就能跑在誰的卡上。框架不支援，晶片再猛也是孤島。

現在程式碼進入SGLang和vLLM主線，開發者在官方文件裡就能看到MUSA後端。後續新模型、新工具、新推理策略的適配成本，會明顯下降。

模型適配層也是同一個邏輯。

摩爾線程MTT S5000目前已完成DeepSeek V4、GLM-5.1、Qwen3.5、MiniMax M2.7、Kimi K2.6等大語言模型的深度適配。視覺理解和多模態模型也覆蓋了Qwen3-VL-235B/8B和Wan 2.2。

重點在於Day-0。模型發佈當天，MUSA算力就已經就位。

在大模型一個月一迭代的今天，客戶關心的不只是某個歷史模型能不能跑，而是下一個熱門模型出來時，自己的算力底座能不能及時變成可用服務。

Day-0適配能力，本質上是在爭奪模型時代的時間窗口。

更深一層看，中國最頭部的大模型和國產算力底座同步就位，意味著從演算法到硬體的完整鏈路正在變厚。

這條內循環一旦跑起來，每一次模型迭代都會給生態添一層土，而不是把已有系統再衝散一次。

第四層是自進化：讓Agent替生態搬磚

前三層講的都是「MUSA能做什麼」。這一層講的是「MUSA怎麼越滾越快」。

如果生態建設一直靠工程師手工適配，摩爾線程永遠會被全球開源社區的版本節奏推著跑。CUDA的護城河本質上是十五年的時間積累，手工追趕註定辛苦，而且很難越追越輕鬆。

要擊穿這道時間壁壘，得改變積累速度本身。

MUSACODE是摩爾線程給出來的答案。自研AI程式設計工具，自然語言直接生成MUSA程式碼，覆蓋Python、C++、Rust、Go，程式碼完全本地運行。

30天，自動生成並測試PP庫12015個算子。基於TileLang自動調優Group GEMM算子實現60%性能提升。

Automusify Skill則是一個零人工干預的AI Agent，它的任務就是全自動程式碼搬家。Top 100人工智慧加速庫、Top 100科學計算加速庫，100%自動平移到MUSA上。

過去建生態靠刀耕火種，工程師熬夜一行行手寫適配。現在直接跨入工業革命，AI Agent、編譯器、自動測試、線上倉庫串成流水線，別人每多發佈一個框架、一個庫、一個模型，MUSA就能更快完成遷移和最佳化。

這才是真正改變遊戲規則的地方。生態建設不再是人海戰術，而是一台自帶加速度的飛輪。

MUSA服務AI，AI反向加速MUSA。飛輪一旦轉起來，十幾年的時間差可以被壓到一個完全不同的量級。

從萬卡叢集到機器狗

發佈會後半段，MUSA開始見真章。

雲端，誇娥萬卡叢集商業化落地，Dense模型MFU幹到60%，MoE達到40%，有效訓練時長超過90%。

根據官方介紹，S5000叢集訓出來的模型精度能跟國際先進水平對齊，大模型公司不用再擔心國產叢集訓練質量。

一段兩分鐘的AI短片「地球最後一朵算力花朵」在大螢幕上播出來，用Wan模型跑在誇娥上，一個人短時間搞定，台上說以前這是好萊塢導演花大價錢才能拍的東西。

端側，AICUBE把智能體、AI PC和AI NAS塞進一個巴掌大的鋁合金立方體，6月18日京東預售。

AIBOOK預裝OpenClaw，可以同時跑12個智能體。

現場，研究員直接拉起5個數字員工，幾分鐘就交出了一整套新品企劃。

用摩爾線程創始人、董事長兼CEO張建中的話說就是，「任何一個年輕人創業，有一台AIBOOK就可以開一人公司。」

壓軸的是一隻叫「小飛」的機器狗，只見它一個干拔，做了個側空翻，然後穩穩落地，紋絲不動。

別小看這個觔斗——它背後藏著MUSA在具身智能場景裡真正的殺手鐧。

具身智能跟大模型訓推不一樣。

它需要物理模擬、圖形渲染、AI推理、端側部署同時跑。傳統方案把這些任務扔給不同硬體，資料反覆搬運，延遲拉滿。

摩爾線程的全功能GPU在MT Lambda模擬平台裡，把物理引擎AlphaCore、光子引擎MT Photon、3DGS渲染和Torch-MUSA放在同一套鏈路里。

「物理+渲染+AI」三大引擎同一顆晶片，資料零複製。

今年3月摩爾線程開源了MuJoCo Warp MUSA，首個國產GPU加速的物理模擬後端。

和智源研究院合作的RoboBrain 2.5端到端訓練，結果跟H100叢集誤差小於0.62%。機器狗訓練任務中，MT Lambda比CPU方案快40倍。

小飛身上跑的運動策略，在Lambda平台訓好後，零調參直接下發到「長江」SoC執行。

所有這些，不管是拍短片、開一人公司，還是訓模型或機器狗，雖然跑在不同規模的硬體上，但用的是同一條技術脊柱。

當生態開始自我加固

一套從底到頂跑通了的生態，和一堆零散的相容能力，是完全不同的東西。

前者會產生網路效應。開發者越多，生態越厚；用得越久，遷回去的成本也越高。口子一旦撕開，就合不上了。

從100%相容到SGLang官方合入，從Day-0模型適配到Agent自動搬家，從全功能GPU三引擎合一到機器狗零調參落地，摩爾線程這場發佈會展示的是從軟體棧、開發者生態到物理世界應用的全鏈路貫通。

更關鍵的是，這套生態跑通全鏈路，依託的還是當前第四代「平湖」架構。

去年12月，摩爾線程已經發佈第五代「花港」架構，算力密度再升50%，能效提升10倍，支援FP4到FP64全精度，可撐起十萬卡互聯。基於花港的AI晶片「華山」，在有序推進中。

換句話說，MUSA生態打通全鏈路時，還沒用上摩爾線程最強的那張牌。

方磚廠69號店門口，現在掛著「皮衣戰神同款套餐」的招牌。

但CUDA同款生態的招牌，已經不再是唯一選擇。 (新智元)