通訊效率超98%！壁仞科技實現中國首個三種異構晶片混訓技術

2024/09/05

•

中國 AI 晶片公司壁仞科技（Biren）近一年內見發聲，公佈其在算力架構層面的最新技術進展。

9月5日，鈦媒體AGI獨家獲悉，即將在2024全球AI晶片峰會上，壁仞科技將首次公佈壁仞自主原創的異構GPU協同訓練方案HGCT，業界首次支援3種及以上異構GPU混合訓練同一個大模型，用一套統一方案支援多種不同型號、不同廠商的GPU，而且一行程式碼適配多種框架。

壁仞HGCT的異構協同通訊效率大於98%、端到端訓練效率90-95%，從而突破了大模型異構算力孤島難題。

壁仞科技副總裁、AI軟體首席架構師丁雲帆向鈦媒體AGI獨家表示，這是業界首次支援3種及以上（壁仞GPU+輝達GPU+其他中國國產晶片）異構GPU同時訓練一個大模型。同時，目前壁仞科技打造的軟硬一體、全端最佳化、異構協同、開源開放的大模型整體解決方案可以實現千卡叢集、千億參數的自動斷點續訓小於10分鐘，15天連續訓練不中斷，4天連續訓練無故障。

壁仞科技還透露，其正聯合客戶、合作夥伴、科研機構共同推動異構GPU協同訓練生態，具體包括：中國移動、中國電信、商湯科技、國網智能電網研究院有限公司、上海智能算力科技有限公司、上海人工智慧實驗室、中國資訊通訊研究院等。

據悉，在此之前，AI Infra公司無問芯穹的4+2晶片，最多支援2種GPU同時訓練。

壁仞科技成立於2019年，主要研發高性能通用GPU（AI 晶片），致力於做自主原創的高性能GPU軟硬體體系，打造中國國產自主智能計算產業生態。

壁仞科技創始人、董事長、CEO張文曾表示，“晶片行業特別是通用智能晶片行業，是典型的資本密集和人才密集型的行業，加上大規模場景應用，構成了推動企業邁向成功的三大要素。”

投融資層面，鈦媒體App瞭解到，截至目前，壁仞科技共完成總額超過50億元人民幣的融資，投資方包括啟明創投、IDG資本、華登中國，平安集團、高瓴創投、格力創投、松禾資本、雲暉資本、國盛資本、招商局資本等機構，是中國GPU晶片領域重要的“獨角獸”企業。

實際上，算力作為數字經濟的核心生產力，是當前推動AI、巨量資料、物聯網等技術創新與應用的基礎支撐，而GPU和 AI 晶片則是算力中的核心要素。

隨著ChatGPT引發全球 AI 大模型熱潮，算力需求不斷增長，研發成本不斷提升，同時各國面臨“主權AI”的爭奪。那麼，如何在有限的大模型算力和叢集規模下，利用軟體最佳化效率和異構整合方法，從而提高晶片性能，以及增長算力規模，就變得異常重要了。

但當前，輝達和中國國產晶片之間的異構協同，即不同的GPU軟體棧如何相互融合，是當前圍繞中國國產算力如何變得好用的重要課題之一。

以上海臨港的一個叢集為例，其使用了22家中國國產晶片公司的58款 AI 晶片產品，通過多樣晶片擴大算力供給，使得適配訓練框架消耗較長，總投入成本達到約10000人天。其中，適配成本約為3人天/算子，模型適配成本約為10人天/模型，通訊庫和執行階段適配成本約為500人天。同時大量的異構晶片形成了算力孤島，無法有效聚合支援更大模型訓練的算力需求。

丁雲帆坦言，當前異構GPU協同訓練仍然存在諸多挑戰，如異構GPU互聯互通難、異構GPU通訊效率低、異構GPU協同訓練木桶效益、異構GPU協同調度難、如何相容不同硬體(輝達、多種中國國產晶片)等。

為瞭解決使用者需求和技術挑戰，壁仞科技團隊攻堅異構GPU訓練難點，自主研發出原創異構GPU協同訓練方案HGCT，通過異構調度、異構通訊、異構拆分三層架構，實現了一套統一方案支援多種不同型號、不同廠商的GPU，業界首次支援3種及以上異構GPU混合訓練同一個大模型。

壁仞科技表示，這一異構GPU協同訓練方案對於行業端有兩個意義：1、該方案最終價值實現了中國國產GPU和輝達GPU的異構共存，突破異構算力孤島難題，加快中國國產GPU的落地遷移，助力中國國產大模型落地；2、該方案賦能整個算力產業發展，壁仞HGCT方案具備普適性、易用性、相容性，助力最終客戶實現多種異構算力聚合，最大化異構GPU叢集利用效率。

另外，基於已落地的千卡算力叢集和技術能力，壁仞科技還推出BIRENSUPA生態方案，基於開放的 AI 算力軟體生態體系，賦能營運商、智算中心、大模型、能源、金融等領域的客戶和開發者。

“AI 晶片是一個技術密集型的產業，首先要有足夠強的技術，這不是‘紙上談兵’，而是需要人才、資金和產業領域的認知度，晶片不能犯錯，只要有一處錯誤，有可能就是致命錯誤。因此，企業需跨過很多障礙，市場也需要給 AI 晶片企業更多的耐心。”丁雲帆表示。 (鈦媒體AGI)