輝達平替?中國GPU萬卡叢集來了
最近兩年,大語言模型發展迅猛,對算力需求激增。然而,輝達A100等高端GPU一卡難求,是挑戰還是機遇?眾多中國算力廠商開始尋找新的替代方案。
作為中國僅有的可以在功能上對標輝達的GPU企業,摩爾執行緒試圖用“叢集化”的解決方案,助力國產GPU突破算力瓶頸。
7月3日,在2024世界人工智慧大會召開前夕,摩爾執行緒宣佈其誇娥(KUAE)智算叢集解決方案實現重大升級,從當前的千卡等級大幅擴展至萬卡規模,以此來完成對大模型的托舉,為兆參數等級的大模型訓練提供持續高效、穩定、且廣泛適用的通用算力支援。


AI主戰場,萬卡是標配

AI大模型時代,巨頭們都捲入一場算力軍備賽。

2023年5月10日,Google推出的超級電腦A3 Virtual Machines擁有26,000塊Nvidia H100 GPU,同時基於自研晶片搭建TPUv5p 8960卡叢集;

2024年3月,Meta分享了其兩個新的AI訓練叢集,新發佈的兩個叢集均包含24,576個Nvidia Tensor Core H100 GPU,比上一代的16,000塊增長了不少;

而OpenAI開發的ChatGPT-4擁有16個專家模型共1.8兆參數,一次訓練需要在大約25,000個A100上訓練90到100天。

事實證明,AI大模型的主戰場,萬卡已是標配。



那麼,AI大模型時代,究竟需要怎樣的算力?從大模型的發展趨勢,我們可以窺得一二。

在2020年推出的Scaling Law(尺度規律)持續作用之下,推動了大模型的“暴力美學”趨勢。以OpenAI的ChatGPT的發展為例,大模型訓練的方向是參數規模從百億增長到兆,至少增長了100多倍;所需處理的資料量從TB等級增長到10+TB,至少增長了10多倍;計算量至少增加了1000多倍。這樣的大模型必須要有規模足夠大的算力,才能快速跟上技術演進。

不只是規模夠大,AI算力還必須具有通用性。這是因為,目前大模型背後所基於的是Transformer架構,它雖然是當下的主流架構,但並不能大一統,它自身仍在加速融合演進,從稠密到MoE,從單模態到多模態,從擴散到自回歸。同時,除了Transformer架構之外,也不斷有其他創新架構出現,如Mamba、RWKV和RetNet等。因而,Transformer架構並不等於最終答案。

此外,AI、3D、HPC跨技術與跨領域融合不斷加速,比如利用AI+3D實現空間智能、AI+模擬計算實現物理智能、AI+科學計算實現4Science等。計算範式的演進,以及更多場景對多元算力需求的變化,都催生了對一個通用加速計算平台的渴望。



隨著模型參數量從千億邁向兆,大模型亟需一個超級訓練工廠,即一個“大且通用”的加速計算平台,來極大地縮短訓練時間,以實現模型能力的快速迭代。“只有在規模足夠大、計算更通用且生態相容好的情況下,才能真正實現好用。”摩爾執行緒創始人兼CEO張建中指出。

超萬卡叢集已成為大模型預訓練的標配,對於基礎設施廠商而言,有沒有萬卡叢集將是贏取AI主戰場勝負的關鍵。

然而,建設萬卡叢集並非易事。

萬卡叢集並不是一萬張GPU卡的簡單堆疊,而是一個超級複雜的系統工程。



首先,它涉及到超大規模組網互聯問題,以及如何提高叢集有效計算效率,大量實踐表明,叢集規模的線性提升無法直接帶來叢集有效算力的線性提升。

此外,訓練高穩定與高可用、故障快速定位與可診斷工具等也很關鍵,超萬卡叢集是由數千台GPU伺服器、數千台交換機、數萬根光纖/數萬顆光模組構成,訓練任務涉及上千萬器件的共同作業,任何一個部件的故障,可能都會導致訓練中斷。

再者,大模型的迭代和創新層出不窮,各種新類型的模型及模型架構的創新,要求萬卡叢集具備生態Day0級的快速遷移能力,以適應不斷變化的技術需求。同時,我們也不能侷限於當下的大模型計算加速場景,還需要考慮未來通用計算的需求。

建設萬卡叢集的道路難如登山,挑戰巨大,但這卻是一條難而正確的道路。


打造大模型訓練超級工廠

經過近四年的積累,摩爾執行緒在千卡叢集已獲得成功驗證的基礎上,重磅發佈了誇娥(KUAE)萬卡智算叢集方案,可以滿足大模型時代對於算力“規模夠大+計算通用+生態相容”的核心需求,實現國產叢集計算能力再升級。



摩爾執行緒誇娥萬卡叢集以全功能GPU為底座,軟硬一體化、完整的系統級算力解決方案,包括以誇娥計算叢集為核心的基礎設施、誇娥叢集管理平台(KUAE Platform)以及誇娥大模型服務平台(KUAE ModelStudio),旨在以一體化交付的方式解決大規模GPU算力的建設和營運管理問題。該方案可實現開箱即用,大大降低傳統算力建設、應用開發和維運營運平台搭建的時間成本,實現快速投放市場開展商業化營運。



誇娥萬卡智算方案具備五大特點:

單一叢集規模突破萬卡,總算力超萬P;

叢集有效計算效率,目標最高可超過60%;

穩定性卓越,周均訓練有效率最高可達99%以上,平均無故障運行15天以上,最長穩定訓練30天以上;

具備強大的計算通用性,專為通用計算而設計,可以加速一切大模型;

擁有良好的CUDA相容能力,生態適配Instant On,加速新模型Day0級遷移。

“我們希望,我們的產品可以為客戶提供一個更好的、可選擇的國產化工具,在國外產品無法使用的時候,可以很容易在國產平台上快速使用起來。”張建中表示,“對於目前國內的大模型使用者來說,我們的最大優勢在於生態相容性極佳。開發者移植到我們的誇娥叢集上,幾乎是不需要修改程式碼,遷移成本接近0,可以在數小時之內就完成遷移工作。”

要讓這個大模型訓練工廠真正運轉起來,還需要一眾朋友圈的支援:

智譜 AI、智源研究院、北大兔展、滴普科技、師者AI、羽人科技、樂創能源、瑞萊智慧、實在智能、積沙成塔(Reportify)、憨猴集團、億景智聯等國內大模型企業,都成功運行在摩爾執行緒的誇娥叢集上。值得一提的是,摩爾執行緒是第一家接入無問芯穹並進行大模型訓練的國產GPU公司,誇娥也是業內首個成功跑通並完整運行國產大模型的叢集。


讓國產GPU算力叢集真正用起來

萬卡叢集是個超級工程,需要產業界齊心協力參與建設。在發佈會上,摩爾執行緒與青海移動、青海聯通等頭部央企進行了萬卡叢集項目的戰略簽約。這些合作將進一步推動摩爾執行緒萬卡叢集在各地方的應用落地。




憑藉高相容性、高穩定性、高擴展性及高算力利用率等優勢,摩爾執行緒誇娥智算叢集已成功斬獲多家大模型企業的認可,成為國內大模型訓練和應用的重要力量。“幾年前對於客戶來說,國產算力只是備胎,而現在已經成為客戶的首選,因為要保證長期供應、本地服務。”張建中介紹到。

雖然建構萬卡叢集是一項艱巨的任務,但摩爾執行緒展示出了攀登的決心,這是一條難而正確的道路。但這不僅是為瞭解決某一家企業的算力需求,更是為了應對全行業的算力短缺問題。雖難但很有必要!


結語

摩爾執行緒萬卡級誇娥智算中心全端解決方案的發佈,標誌著國產GPU在算力水平上取得了重大突破,將優先解決複雜兆參數大模型訓練的難題。而摩爾執行緒的定位早已經不是一家GPU公司,而是一家專注AI的加速計算平台企業。 (半導體行業觀察)