通訊效率超98%!壁仞科技實現中國首個三種異構晶片混訓技術



中國 AI 晶片公司壁仞科技(Biren)近一年內見發聲,公佈其在算力架構層面的最新技術進展。

9月5日,鈦媒體AGI獨家獲悉,即將在2024全球AI晶片峰會上,壁仞科技將首次公佈壁仞自主原創的異構GPU協同訓練方案HGCT,業界首次支援3種及以上異構GPU混合訓練同一個大模型,用一套統一方案支援多種不同型號、不同廠商的GPU,而且一行程式碼適配多種框架。

壁仞HGCT的異構協同通訊效率大於98%、端到端訓練效率90-95%,從而突破了大模型異構算力孤島難題。

壁仞科技副總裁、AI軟體首席架構師丁雲帆向鈦媒體AGI獨家表示,這是業界首次支援3種及以上(壁仞GPU+輝達GPU+其他中國國產晶片)異構GPU同時訓練一個大模型。同時,目前壁仞科技打造的軟硬一體、全端最佳化、異構協同、開源開放的大模型整體解決方案可以實現千卡叢集、千億參數的自動斷點續訓小於10分鐘,15天連續訓練不中斷,4天連續訓練無故障。

壁仞科技還透露,其正聯合客戶、合作夥伴、科研機構共同推動異構GPU協同訓練生態,具體包括:中國移動、中國電信、商湯科技、國網智能電網研究院有限公司、上海智能算力科技有限公司、上海人工智慧實驗室、中國資訊通訊研究院等。



據悉,在此之前,AI Infra公司無問芯穹的4+2晶片,最多支援2種GPU同時訓練。

壁仞科技成立於2019年,主要研發高性能通用GPU(AI 晶片),致力於做自主原創的高性能GPU軟硬體體系,打造中國國產自主智能計算產業生態。

壁仞科技創始人、董事長、CEO張文曾表示,“晶片行業特別是通用智能晶片行業,是典型的資本密集和人才密集型的行業,加上大規模場景應用,構成了推動企業邁向成功的三大要素。”

投融資層面,鈦媒體App瞭解到,截至目前,壁仞科技共完成總額超過50億元人民幣的融資,投資方包括啟明創投、IDG資本、華登中國,平安集團、高瓴創投、格力創投、松禾資本、雲暉資本、國盛資本、招商局資本等機構,是中國GPU晶片領域重要的“獨角獸”企業。



實際上,算力作為數字經濟的核心生產力,是當前推動AI、巨量資料、物聯網等技術創新與應用的基礎支撐,而GPU和 AI 晶片則是算力中的核心要素。

隨著ChatGPT引發全球 AI 大模型熱潮,算力需求不斷增長,研發成本不斷提升,同時各國面臨“主權AI”的爭奪。那麼,如何在有限的大模型算力和叢集規模下,利用軟體最佳化效率和異構整合方法,從而提高晶片性能,以及增長算力規模,就變得異常重要了。

但當前,輝達和中國國產晶片之間的異構協同,即不同的GPU軟體棧如何相互融合,是當前圍繞中國國產算力如何變得好用的重要課題之一。

以上海臨港的一個叢集為例,其使用了22家中國國產晶片公司的58款 AI 晶片產品,通過多樣晶片擴大算力供給,使得適配訓練框架消耗較長,總投入成本達到約10000人天。其中,適配成本約為3人天/算子,模型適配成本約為10人天/模型,通訊庫和執行階段適配成本約為500人天。同時大量的異構晶片形成了算力孤島,無法有效聚合支援更大模型訓練的算力需求。

丁雲帆坦言,當前異構GPU協同訓練仍然存在諸多挑戰,如異構GPU互聯互通難、異構GPU通訊效率低、異構GPU協同訓練木桶效益、異構GPU協同調度難、如何相容不同硬體(輝達、多種中國國產晶片)等。

為瞭解決使用者需求和技術挑戰,壁仞科技團隊攻堅異構GPU訓練難點,自主研發出原創異構GPU協同訓練方案HGCT,通過異構調度、異構通訊、異構拆分三層架構,實現了一套統一方案支援多種不同型號、不同廠商的GPU,業界首次支援3種及以上異構GPU混合訓練同一個大模型。

壁仞科技表示,這一異構GPU協同訓練方案對於行業端有兩個意義:1、該方案最終價值實現了中國國產GPU和輝達GPU的異構共存,突破異構算力孤島難題,加快中國國產GPU的落地遷移,助力中國國產大模型落地;2、該方案賦能整個算力產業發展,壁仞HGCT方案具備普適性、易用性、相容性,助力最終客戶實現多種異構算力聚合,最大化異構GPU叢集利用效率。

另外,基於已落地的千卡算力叢集和技術能力,壁仞科技還推出BIRENSUPA生態方案,基於開放的 AI 算力軟體生態體系,賦能營運商、智算中心、大模型、能源、金融等領域的客戶和開發者。

“AI 晶片是一個技術密集型的產業,首先要有足夠強的技術,這不是‘紙上談兵’,而是需要人才、資金和產業領域的認知度,晶片不能犯錯,只要有一處錯誤,有可能就是致命錯誤。因此,企業需跨過很多障礙,市場也需要給 AI 晶片企業更多的耐心。”丁雲帆表示。 (鈦媒體AGI)