輝達平替？中國GPU萬卡叢集來了

2024/07/04

•

最近兩年，大語言模型發展迅猛，對算力需求激增。然而，輝達A100等高端GPU一卡難求，是挑戰還是機遇？眾多中國算力廠商開始尋找新的替代方案。

作為中國僅有的可以在功能上對標輝達的GPU企業，摩爾執行緒試圖用“叢集化”的解決方案，助力國產GPU突破算力瓶頸。

7月3日，在2024世界人工智慧大會召開前夕，摩爾執行緒宣佈其誇娥（KUAE）智算叢集解決方案實現重大升級，從當前的千卡等級大幅擴展至萬卡規模，以此來完成對大模型的托舉，為兆參數等級的大模型訓練提供持續高效、穩定、且廣泛適用的通用算力支援。

AI主戰場，萬卡是標配

AI大模型時代，巨頭們都捲入一場算力軍備賽。

2023年5月10日，Google推出的超級電腦A3 Virtual Machines擁有26,000塊Nvidia H100 GPU，同時基於自研晶片搭建TPUv5p 8960卡叢集；

2024年3月，Meta分享了其兩個新的AI訓練叢集，新發佈的兩個叢集均包含24,576個Nvidia Tensor Core H100 GPU，比上一代的16,000塊增長了不少；

而OpenAI開發的ChatGPT-4擁有16個專家模型共1.8兆參數，一次訓練需要在大約25,000個A100上訓練90到100天。

事實證明，AI大模型的主戰場，萬卡已是標配。

那麼，AI大模型時代，究竟需要怎樣的算力？從大模型的發展趨勢，我們可以窺得一二。

在2020年推出的Scaling Law（尺度規律）持續作用之下，推動了大模型的“暴力美學”趨勢。以OpenAI的ChatGPT的發展為例，大模型訓練的方向是參數規模從百億增長到兆，至少增長了100多倍；所需處理的資料量從TB等級增長到10+TB，至少增長了10多倍；計算量至少增加了1000多倍。這樣的大模型必須要有規模足夠大的算力，才能快速跟上技術演進。

不只是規模夠大，AI算力還必須具有通用性。這是因為，目前大模型背後所基於的是Transformer架構，它雖然是當下的主流架構，但並不能大一統，它自身仍在加速融合演進，從稠密到MoE，從單模態到多模態，從擴散到自回歸。同時，除了Transformer架構之外，也不斷有其他創新架構出現，如Mamba、RWKV和RetNet等。因而，Transformer架構並不等於最終答案。

此外，AI、3D、HPC跨技術與跨領域融合不斷加速，比如利用AI+3D實現空間智能、AI+模擬計算實現物理智能、AI+科學計算實現4Science等。計算範式的演進，以及更多場景對多元算力需求的變化，都催生了對一個通用加速計算平台的渴望。

隨著模型參數量從千億邁向兆，大模型亟需一個超級訓練工廠，即一個“大且通用”的加速計算平台，來極大地縮短訓練時間，以實現模型能力的快速迭代。“只有在規模足夠大、計算更通用且生態相容好的情況下，才能真正實現好用。”摩爾執行緒創始人兼CEO張建中指出。

超萬卡叢集已成為大模型預訓練的標配，對於基礎設施廠商而言，有沒有萬卡叢集將是贏取AI主戰場勝負的關鍵。

然而，建設萬卡叢集並非易事。

萬卡叢集並不是一萬張GPU卡的簡單堆疊，而是一個超級複雜的系統工程。

首先，它涉及到超大規模組網互聯問題，以及如何提高叢集有效計算效率，大量實踐表明，叢集規模的線性提升無法直接帶來叢集有效算力的線性提升。

此外，訓練高穩定與高可用、故障快速定位與可診斷工具等也很關鍵，超萬卡叢集是由數千台GPU伺服器、數千台交換機、數萬根光纖/數萬顆光模組構成，訓練任務涉及上千萬器件的共同作業，任何一個部件的故障，可能都會導致訓練中斷。

再者，大模型的迭代和創新層出不窮，各種新類型的模型及模型架構的創新，要求萬卡叢集具備生態Day0級的快速遷移能力，以適應不斷變化的技術需求。同時，我們也不能侷限於當下的大模型計算加速場景，還需要考慮未來通用計算的需求。

建設萬卡叢集的道路難如登山，挑戰巨大，但這卻是一條難而正確的道路。

打造大模型訓練超級工廠

經過近四年的積累，摩爾執行緒在千卡叢集已獲得成功驗證的基礎上，重磅發佈了誇娥（KUAE）萬卡智算叢集方案，可以滿足大模型時代對於算力“規模夠大+計算通用+生態相容”的核心需求，實現國產叢集計算能力再升級。

摩爾執行緒誇娥萬卡叢集以全功能GPU為底座，軟硬一體化、完整的系統級算力解決方案，包括以誇娥計算叢集為核心的基礎設施、誇娥叢集管理平台（KUAE Platform）以及誇娥大模型服務平台（KUAE ModelStudio），旨在以一體化交付的方式解決大規模GPU算力的建設和營運管理問題。該方案可實現開箱即用，大大降低傳統算力建設、應用開發和維運營運平台搭建的時間成本，實現快速投放市場開展商業化營運。

誇娥萬卡智算方案具備五大特點：

單一叢集規模突破萬卡，總算力超萬P；

叢集有效計算效率，目標最高可超過60%；

穩定性卓越，周均訓練有效率最高可達99%以上，平均無故障運行15天以上，最長穩定訓練30天以上；

具備強大的計算通用性，專為通用計算而設計，可以加速一切大模型；

擁有良好的CUDA相容能力，生態適配Instant On，加速新模型Day0級遷移。

“我們希望，我們的產品可以為客戶提供一個更好的、可選擇的國產化工具，在國外產品無法使用的時候，可以很容易在國產平台上快速使用起來。”張建中表示，“對於目前國內的大模型使用者來說，我們的最大優勢在於生態相容性極佳。開發者移植到我們的誇娥叢集上，幾乎是不需要修改程式碼，遷移成本接近0，可以在數小時之內就完成遷移工作。”

要讓這個大模型訓練工廠真正運轉起來，還需要一眾朋友圈的支援：

智譜 AI、智源研究院、北大兔展、滴普科技、師者AI、羽人科技、樂創能源、瑞萊智慧、實在智能、積沙成塔（Reportify）、憨猴集團、億景智聯等國內大模型企業，都成功運行在摩爾執行緒的誇娥叢集上。值得一提的是，摩爾執行緒是第一家接入無問芯穹並進行大模型訓練的國產GPU公司，誇娥也是業內首個成功跑通並完整運行國產大模型的叢集。

讓國產GPU算力叢集真正用起來

萬卡叢集是個超級工程，需要產業界齊心協力參與建設。在發佈會上，摩爾執行緒與青海移動、青海聯通等頭部央企進行了萬卡叢集項目的戰略簽約。這些合作將進一步推動摩爾執行緒萬卡叢集在各地方的應用落地。

憑藉高相容性、高穩定性、高擴展性及高算力利用率等優勢，摩爾執行緒誇娥智算叢集已成功斬獲多家大模型企業的認可，成為國內大模型訓練和應用的重要力量。“幾年前對於客戶來說，國產算力只是備胎，而現在已經成為客戶的首選，因為要保證長期供應、本地服務。”張建中介紹到。

雖然建構萬卡叢集是一項艱巨的任務，但摩爾執行緒展示出了攀登的決心，這是一條難而正確的道路。但這不僅是為瞭解決某一家企業的算力需求，更是為了應對全行業的算力短缺問題。雖難但很有必要！

結語

摩爾執行緒萬卡級誇娥智算中心全端解決方案的發佈，標誌著國產GPU在算力水平上取得了重大突破，將優先解決複雜兆參數大模型訓練的難題。而摩爾執行緒的定位早已經不是一家GPU公司，而是一家專注AI的加速計算平台企業。 (半導體行業觀察)