摩爾線程聯合創始人張鈺勃:中國國產AI算力的商業真相

4月22至23日,由基石資本主辦的“2026中國深圳企業家峰會”在深圳成功舉行。本次峰會以“開啟AI紀元,共赴星際征程”為主題,聚焦人工智慧、算力、自動駕駛、具身智能、商業航天、量子科技、可控核聚變等關鍵前沿領域,摩爾線程聯合創始人兼CTO張鈺勃發表了“中國國產AI算力技術演進與未來”的主題演講。以下為詳細內容。

各位嘉賓,大家好。首先感謝基石資本的邀請。基石資本是摩爾線程的早期投資方,曾在我們的創業過程中給予了很大支援。

我今天代表摩爾線程,和大家分享我們在AI算力方面的關注點,尤其是為什麼我們堅持聚焦大模型訓練的價值。

首先分享我的核心觀點:

第一,關於AI算力。在早期的認知中,晶片設計公司交付的是單一晶片,但我們逐漸發現僅靠晶片是不夠的,必須向系統化邁進。為什麼要強調系統?因為隨著大模型的爆發,模型參數規模越來越大,單顆晶片已無法容納,系統化部署成為必然。然而,單一伺服器系統主要解決的是分佈式推理問題,真正的技術門檻在於大規模訓練。因此,我們必須從系統進一步走向叢集,且叢集需達到數萬卡的規模,才能滿足研發優質大模型的需求。雖然訓練與推理都很重要,但從技術壁壘來看,訓練具備更高的戰略價值。

第二,從產業上下游的投資視角來看,我們將持續聚焦訓練的能力。

01 中國國產AI算力技術演進的三個時期

第一時期:萌芽期。里程碑事件應首推Google AlphaGo 戰勝圍棋世界冠軍李世石,這一事件引發了業界對人工智慧的深度思考。同期,中國算力產業也開始發力:2016 年寒武紀發佈了首款商用晶片;2018 年,華為隨後推出了達文西架構。然而在那個時期,晶片架構普遍以 ASIC 和 NPU 為主,且主要應用於推理場景,模型訓練領域依然由輝達主導。這一階段整體以小規模驗證為主,在綜合實力上與國際頂尖算力企業仍存在差距。

第二時期:發展期(2019年之後到2023年)。業界逐漸察覺到ASIC與NPU架構在實際應用中的侷限性。由於通用性不足,此類單一架構難以適應幾乎每個月甚至每周都在變化的AI演算法迭代。在此背景下,出現了多家GPU創業公司,其中包括摩爾線程、天數、沐曦、壁仞等。儘管中國國產推理晶片的出貨量也在逐步攀升,但從市場應用來看,晶片用途仍主要集中在推理場景。

第三時期:成熟期。我將大模型出現後的階段定義為“成熟期”或“突破期”。這一時期的突破並非指全面趕超輝達,而是體現在諸多單點技術上的點狀突破。尤其是 ChatGPT 問世後,行業開始集體關注並攻堅大規模訓練能力。以摩爾線程為例,我們在2024 年推出的 MTT S5000 晶片,真正具備了大模型訓練能力。與此同時,異構計算逐漸成為推理架構的主流,軟硬體協同最佳化也邁入了深水區。

現階段,摩爾線程的自身定位是在萬卡等級的大規模訓練上實現突破。

從第二個維度看,產品的交付形態發生了顯著變化。早期的 AI 算力交付多以加速卡為主;2022 年以後,隨著模型規模不斷擴張,伺服器逐漸成為主流交付模式。晶片廠商之所以開始做定製化伺服器架構,是因為當模型規模突破單晶片的承載極限時,就要依靠單機內8顆甚至16 顆晶片的協同操作。這就像執行一項任務:簡單的任務單人即可勝任,而複雜的任務則需要團隊協作。即便團隊成員個人能力出眾,如果缺乏高效的協同機制,依然難以達成團隊目標。因此,為了實現極致的協同,卡間通訊技術顯得尤為關鍵,正如輝達 GPU 改採用的 NVLink 技術。

摩爾線程自研了 MTLink 技術,旨在實現我們晶片間的高速互聯,因為傳統的 PCIe 協議已難以滿足算力爆發式增長的需求。實現數張至十幾張卡之間的通訊相對容易,真正的技術門檻在於大規模訓練。在訓練場景下,算力需求已不再侷限於單機規模,核心挑戰在於如何驅動上萬張晶片高度協同,從而生產出高品質的大模型。萬卡叢集的訓練難度比推理高出兩到三個數量級;要確保數萬顆晶片在通訊過程中保持步調一致,並最大化算力利用率、避免有效算力損耗,是一項極具挑戰性的系統工程。

2024年至今,我們一直在反覆打磨的一件事情,就是實踐怎樣端到端地交付一個智算叢集。這一叢集系統不僅涵蓋計算核心,更深度整合了高速互聯、網路架構與分佈式儲存等要素。我們始終關注的核心挑戰在於:在交付萬P級算力資源的基礎上,如何通過系統級的協同最佳化,將算力效率發揮到極致。

02 AI市場發展迅速,但使用者願意付費的是優質模型

當前,AI市場快速增長,具體資料不再展開。我想強調的是:下游需求才是產業發展的根本動力。AI市場若要維持良好的增長態勢,根源在於必須不斷湧現高品質的AI應用。使用者只會為真正創造價值的AI服務買單,而應用體驗好不好,本質上取決於底層模型訓練的質量。

可以說,是終端使用者的選擇在推動整個行業發展,使用者只願意為優質模型付費,以當前火熱的Claude模型為例,使用者可能願意每個月花200美金包月使用,但如果是一個免費的模型,體驗不好的話,使用者最終也不會去使用。

那麼,如何才能訓練出優質模型?這高度依賴於高品質的訓練平台,從而打造出性能卓越、能切實解決實際問題的頂尖大模型。當前,模型訓練成本正呈指數級增長,同時伴隨著極高的資本投入與技術壁壘。只有有訓練出最先進的模型,才能驅動市場的高溢價。歸根結底,使用者真正願意付費的,是模型的聰明程度。

現在業界都在討論AI是否能取代人類,在我看來,AI或許會逐步取代一些基礎性、重複性的工作,但涉及高認知、尤其是決策性的核心環節,依然具有不可替代性。因此,AI真正的價值體現在能力,而不是簡單的數量。

如果把訓練比作高利潤的軍火商,推理就像是薄利的快消品。我們的預判是,未來推理的市場會非常龐大,但前提是體驗要好,而好體驗的前提是高品質模型訓練質量。因此,從投資邏輯看,不應只看到推理市場體量本身,更要關注訓練這一技術與價值的制高點。

摩爾線程始終認為,我們要做真正困難但有價值的事。創業過程中我們持續在思考,作為AI算力基礎設施企業,能在什麼地方發揮最大價值?現在我們堅信,打造一個能實現高品質訓練的算力設施平台,就能真正創造價值。

(1)路線:堅持以全功能GPU統一系統架構為基礎,支援AI訓推、物理模擬、圖形渲染、科學計算等全端GPU能力,目標是全方位替代CUDA生態。

(2)能力:摩爾線程2024年發佈的晶片產品,首次在單晶片上突破1P浮點算力,這在中國應該是首創。同時,Attention這類算子的利用率最高能達到95%,作為比較,H系列的利用率是75%左右。這充分說明我們在架構上的先進性。

(3)叢集落地:摩爾線程去年已成功落地萬卡智算叢集,並驗證了兆規模參數模型的訓練精度。目前整體訓練還在持續進行調優和最佳化中。

(4)壁壘建構:摩爾線程首先驗證了萬卡叢集的技術與工程化能力;其次,我們還完成了兆參數大模型的精度驗證;再者,我們會堅持全功能GPU路線,做到全精度、無功能缺失,這樣才能全方位承接CUDA生態。最後,我們整個軟體都採用開源形式,致力於為開發者提供最好的中國工具平台。

過去兩年,摩爾線程在訓練上端到端完成了34項模型的訓練和精度驗證,覆蓋了多維度的合作方,包括雲廠商、新能源車企和科研機構,領域涵蓋大模型、多模態、智駕和視覺模型。舉個例子,我們基於7680張卡訓練8TB資料,MMLU評測可以和H系列持平,整個過程中Loss曲線誤差最高為0.6%,叢集擴展效率達到95%,有效訓練時間佔比超過95%。這相當於管理一個近萬人的團隊,並且高效協同地達成一個重要目標。

03 關於未來技術趨勢的五點共識

第一,先進封裝。包括2.5D、3D封裝技術在內,目前已在普遍應用階段。另外就是大家關注的HBM(高頻寬記憶體)、CoWoS封裝和Chiplet(芯粒)技術。此外,CPO技術的發展,也將進一步提升算力整合度,通過光互聯實現更高密度的通訊頻寬。

第二,異構計算。通過CPU、GPU、網路以及ASIC、LPU等多種處理器的深度協同,實現針對不同任務負載的最優性價比。

第三,存算一體:讓儲存與計算靠得更近,並且通過三維堆疊等晶片工藝,可以實現更高的計算效率。

第四,綠色算力。涵蓋了從液冷技術、電源使用效率(PUE)最佳化到高壓直流供電等全鏈路創新,從而提升整個能源系統的轉化率。

第五,算力即服務。算力即服務正成為行業新常態:當大模型公司通過輸出Token來創造價值時,背後需要的是龐大的GPU雲基礎設施。算力服務商正是這一生產流程中的核心工廠。

回顧一下核心結論。

第一,AI算力的交付已經走向系統化、叢集化。AI算力廠商的真正價值,在於能否實現萬卡乃至十萬卡規模叢集的交付。這種交付並非簡單的硬體堆疊,其核心門檻在於如何讓海量算力卡實現深度協同,將碎片化的計算資源轉化為高效、穩定的訓練能力,從而在系統級層面提升算力利用率。

第二,訓練與推理正走向價值分化。訓練會是一個高利潤的行業,但推理會是一個利潤微薄的紅海,量非常大,但不一定賺得到錢。在AI算力領域,訓練與推理正展現出截然不同的商業邏輯:大模型訓練憑藉其極高的技術門檻與資源稀缺性,將長期處於價值鏈頂端,維持高利潤屬性;而推理側儘管擁有極其龐大的市場容量,但隨著競爭加劇,正迅速演變為低毛利的“紅海”市場,呈現出“規模巨大卻盈利艱難”的特徵。

第三,訓練能力是AI體驗的關鍵指標。因為訓練能力決定了AI應用的質量,而使用者真正願意花錢的,是高品質的AI應用。底層訓練能力直接決定了AI應用的質量上限。在真實的市場環境中,使用者真正願意花錢的,是高品質的AI應用。因此,訓練端不僅是技術的起點,更是商業價值的源頭。 (華夏基石e洞察)