摩爾線程聯合創始人張鈺勃：中國國產AI算力的商業真相

2026/05/18

•

4月22至23日，由基石資本主辦的“2026中國深圳企業家峰會”在深圳成功舉行。本次峰會以“開啟AI紀元，共赴星際征程”為主題，聚焦人工智慧、算力、自動駕駛、具身智能、商業航天、量子科技、可控核聚變等關鍵前沿領域，摩爾線程聯合創始人兼CTO張鈺勃發表了“中國國產AI算力技術演進與未來”的主題演講。以下為詳細內容。

各位嘉賓，大家好。首先感謝基石資本的邀請。基石資本是摩爾線程的早期投資方，曾在我們的創業過程中給予了很大支援。

我今天代表摩爾線程，和大家分享我們在AI算力方面的關注點，尤其是為什麼我們堅持聚焦大模型訓練的價值。

首先分享我的核心觀點:

第一，關於AI算力。在早期的認知中，晶片設計公司交付的是單一晶片，但我們逐漸發現僅靠晶片是不夠的，必須向系統化邁進。為什麼要強調系統？因為隨著大模型的爆發，模型參數規模越來越大，單顆晶片已無法容納，系統化部署成為必然。然而，單一伺服器系統主要解決的是分佈式推理問題，真正的技術門檻在於大規模訓練。因此，我們必須從系統進一步走向叢集，且叢集需達到數萬卡的規模，才能滿足研發優質大模型的需求。雖然訓練與推理都很重要，但從技術壁壘來看，訓練具備更高的戰略價值。

第二，從產業上下游的投資視角來看，我們將持續聚焦訓練的能力。

01 中國國產AI算力技術演進的三個時期

第一時期：萌芽期。里程碑事件應首推Google AlphaGo 戰勝圍棋世界冠軍李世石，這一事件引發了業界對人工智慧的深度思考。同期，中國算力產業也開始發力：2016 年寒武紀發佈了首款商用晶片；2018 年，華為隨後推出了達文西架構。然而在那個時期，晶片架構普遍以 ASIC 和 NPU 為主，且主要應用於推理場景，模型訓練領域依然由輝達主導。這一階段整體以小規模驗證為主，在綜合實力上與國際頂尖算力企業仍存在差距。

第二時期：發展期（2019年之後到2023年）。業界逐漸察覺到ASIC與NPU架構在實際應用中的侷限性。由於通用性不足，此類單一架構難以適應幾乎每個月甚至每周都在變化的AI演算法迭代。在此背景下，出現了多家GPU創業公司，其中包括摩爾線程、天數、沐曦、壁仞等。儘管中國國產推理晶片的出貨量也在逐步攀升，但從市場應用來看，晶片用途仍主要集中在推理場景。

第三時期：成熟期。我將大模型出現後的階段定義為“成熟期”或“突破期”。這一時期的突破並非指全面趕超輝達，而是體現在諸多單點技術上的點狀突破。尤其是 ChatGPT 問世後，行業開始集體關注並攻堅大規模訓練能力。以摩爾線程為例，我們在2024 年推出的 MTT S5000 晶片，真正具備了大模型訓練能力。與此同時，異構計算逐漸成為推理架構的主流，軟硬體協同最佳化也邁入了深水區。

現階段，摩爾線程的自身定位是在萬卡等級的大規模訓練上實現突破。

從第二個維度看，產品的交付形態發生了顯著變化。早期的 AI 算力交付多以加速卡為主；2022 年以後，隨著模型規模不斷擴張，伺服器逐漸成為主流交付模式。晶片廠商之所以開始做定製化伺服器架構，是因為當模型規模突破單晶片的承載極限時，就要依靠單機內8顆甚至16 顆晶片的協同操作。這就像執行一項任務：簡單的任務單人即可勝任，而複雜的任務則需要團隊協作。即便團隊成員個人能力出眾，如果缺乏高效的協同機制，依然難以達成團隊目標。因此，為了實現極致的協同，卡間通訊技術顯得尤為關鍵，正如輝達 GPU 改採用的 NVLink 技術。

摩爾線程自研了 MTLink 技術，旨在實現我們晶片間的高速互聯，因為傳統的 PCIe 協議已難以滿足算力爆發式增長的需求。實現數張至十幾張卡之間的通訊相對容易，真正的技術門檻在於大規模訓練。在訓練場景下，算力需求已不再侷限於單機規模，核心挑戰在於如何驅動上萬張晶片高度協同，從而生產出高品質的大模型。萬卡叢集的訓練難度比推理高出兩到三個數量級；要確保數萬顆晶片在通訊過程中保持步調一致，並最大化算力利用率、避免有效算力損耗，是一項極具挑戰性的系統工程。

2024年至今，我們一直在反覆打磨的一件事情，就是實踐怎樣端到端地交付一個智算叢集。這一叢集系統不僅涵蓋計算核心，更深度整合了高速互聯、網路架構與分佈式儲存等要素。我們始終關注的核心挑戰在於：在交付萬P級算力資源的基礎上，如何通過系統級的協同最佳化，將算力效率發揮到極致。

02 AI市場發展迅速，但使用者願意付費的是優質模型

當前，AI市場快速增長，具體資料不再展開。我想強調的是：下游需求才是產業發展的根本動力。AI市場若要維持良好的增長態勢，根源在於必須不斷湧現高品質的AI應用。使用者只會為真正創造價值的AI服務買單，而應用體驗好不好，本質上取決於底層模型訓練的質量。

可以說，是終端使用者的選擇在推動整個行業發展，使用者只願意為優質模型付費，以當前火熱的Claude模型為例，使用者可能願意每個月花200美金包月使用，但如果是一個免費的模型，體驗不好的話，使用者最終也不會去使用。

那麼，如何才能訓練出優質模型？這高度依賴於高品質的訓練平台，從而打造出性能卓越、能切實解決實際問題的頂尖大模型。當前，模型訓練成本正呈指數級增長，同時伴隨著極高的資本投入與技術壁壘。只有有訓練出最先進的模型，才能驅動市場的高溢價。歸根結底，使用者真正願意付費的，是模型的聰明程度。

現在業界都在討論AI是否能取代人類，在我看來，AI或許會逐步取代一些基礎性、重複性的工作，但涉及高認知、尤其是決策性的核心環節，依然具有不可替代性。因此，AI真正的價值體現在能力，而不是簡單的數量。

如果把訓練比作高利潤的軍火商，推理就像是薄利的快消品。我們的預判是，未來推理的市場會非常龐大，但前提是體驗要好，而好體驗的前提是高品質模型訓練質量。因此，從投資邏輯看，不應只看到推理市場體量本身，更要關注訓練這一技術與價值的制高點。

摩爾線程始終認為，我們要做真正困難但有價值的事。創業過程中我們持續在思考，作為AI算力基礎設施企業，能在什麼地方發揮最大價值？現在我們堅信，打造一個能實現高品質訓練的算力設施平台，就能真正創造價值。

（1）路線：堅持以全功能GPU統一系統架構為基礎，支援AI訓推、物理模擬、圖形渲染、科學計算等全端GPU能力，目標是全方位替代CUDA生態。

（2）能力：摩爾線程2024年發佈的晶片產品，首次在單晶片上突破1P浮點算力，這在中國應該是首創。同時，Attention這類算子的利用率最高能達到95%，作為比較，H系列的利用率是75%左右。這充分說明我們在架構上的先進性。

（3）叢集落地：摩爾線程去年已成功落地萬卡智算叢集，並驗證了兆規模參數模型的訓練精度。目前整體訓練還在持續進行調優和最佳化中。

（4）壁壘建構：摩爾線程首先驗證了萬卡叢集的技術與工程化能力；其次，我們還完成了兆參數大模型的精度驗證；再者，我們會堅持全功能GPU路線，做到全精度、無功能缺失，這樣才能全方位承接CUDA生態。最後，我們整個軟體都採用開源形式，致力於為開發者提供最好的中國工具平台。

過去兩年，摩爾線程在訓練上端到端完成了34項模型的訓練和精度驗證，覆蓋了多維度的合作方，包括雲廠商、新能源車企和科研機構，領域涵蓋大模型、多模態、智駕和視覺模型。舉個例子，我們基於7680張卡訓練8TB資料，MMLU評測可以和H系列持平，整個過程中Loss曲線誤差最高為0.6%，叢集擴展效率達到95%，有效訓練時間佔比超過95%。這相當於管理一個近萬人的團隊，並且高效協同地達成一個重要目標。

03 關於未來技術趨勢的五點共識

第一，先進封裝。包括2.5D、3D封裝技術在內，目前已在普遍應用階段。另外就是大家關注的HBM（高頻寬記憶體）、CoWoS封裝和Chiplet（芯粒）技術。此外，CPO技術的發展，也將進一步提升算力整合度，通過光互聯實現更高密度的通訊頻寬。

第二，異構計算。通過CPU、GPU、網路以及ASIC、LPU等多種處理器的深度協同，實現針對不同任務負載的最優性價比。

第三，存算一體：讓儲存與計算靠得更近，並且通過三維堆疊等晶片工藝，可以實現更高的計算效率。

第四，綠色算力。涵蓋了從液冷技術、電源使用效率（PUE）最佳化到高壓直流供電等全鏈路創新，從而提升整個能源系統的轉化率。

第五，算力即服務。算力即服務正成為行業新常態：當大模型公司通過輸出Token來創造價值時，背後需要的是龐大的GPU雲基礎設施。算力服務商正是這一生產流程中的核心工廠。

回顧一下核心結論。

第一，AI算力的交付已經走向系統化、叢集化。AI算力廠商的真正價值，在於能否實現萬卡乃至十萬卡規模叢集的交付。這種交付並非簡單的硬體堆疊，其核心門檻在於如何讓海量算力卡實現深度協同，將碎片化的計算資源轉化為高效、穩定的訓練能力，從而在系統級層面提升算力利用率。

第二，訓練與推理正走向價值分化。訓練會是一個高利潤的行業，但推理會是一個利潤微薄的紅海，量非常大，但不一定賺得到錢。在AI算力領域，訓練與推理正展現出截然不同的商業邏輯：大模型訓練憑藉其極高的技術門檻與資源稀缺性，將長期處於價值鏈頂端，維持高利潤屬性；而推理側儘管擁有極其龐大的市場容量，但隨著競爭加劇，正迅速演變為低毛利的“紅海”市場，呈現出“規模巨大卻盈利艱難”的特徵。

第三，訓練能力是AI體驗的關鍵指標。因為訓練能力決定了AI應用的質量，而使用者真正願意花錢的，是高品質的AI應用。底層訓練能力直接決定了AI應用的質量上限。在真實的市場環境中，使用者真正願意花錢的，是高品質的AI應用。因此，訓練端不僅是技術的起點，更是商業價值的源頭。 (華夏基石e洞察)