清華超算“冠軍隊”最佳化國產晶片,想把Token服務做到全球第一

這是一支自帶“冠軍基因”的團隊。

翟季冬是帶領清華大學學生超算隊十餘次站上世界冠軍領獎台的“總教頭”,但他心裡一直有個聲音:能否改變所有參賽隊伍都使用輝達圖形處理器(GPU)的境況,讓國產算力走到“台前”。

2023年12月,一群來自清華大學電腦系高性能計算研究所的年輕人聯手創立了北京清程極智科技有限公司(以下簡稱清程極智),清華大學教授翟季冬擔任首席科學家。他們選擇從軟體層面切入創新,為中國晶片量身打造系統軟體,讓國產算力也能高效運行最前沿的大模型。

翟季冬  受訪者供圖

隨後兩年半的時間裡,這支團隊便打造出覆蓋“訓練—推理—流通”全鏈路的產品矩陣:“八卦爐”智能軟體棧、“赤兔”推理引擎、“AI Ping”評測路由平台。他們還完成了三輪融資,獲得中科創星、中金資本、中關村科學城公司等多家機構投資。

清程極智聯合創始人師天麾告訴《中國科學報》,公司高水平研發人員佔比超過80%,平均年齡不到30歲。

01. “八卦爐”內煉“真金”

“清華的程式設計師很聰明!”這是“清程極智”名稱的由來,也是創始團隊的自勉。

隨著全球人工智慧(AI)大模型參數持續突破、應用場景全面爆發,國內高端算力供給受限、算力結構性短缺、晶片利用率低、軟硬體適配壁壘高等四大瓶頸,已成為制約大模型訓練與產業規模化落地的核心堵點。

2025年初,隨著深度求索(DeepSeek)公司的出圈,清程極智接到了大批為企業做DeepSeek私有化部署的訂單。這背後,是團隊十餘年在智能算力最佳化方向的積累。

從2014年起,翟季冬就帶領清華學生參加全球超算比賽,雖然拿到過十幾次世界冠軍,但使用的都是輝達最好的GPU。他一直在思考,如何把實驗室的技術搬到貨架,助力國產晶片發展。

在超算上驗證過的“八卦爐”系統就是研究團隊的核心技術之一。該系統提供針對晶片體系架構的算子編譯最佳化,以及面向超大規模叢集的平行計算解決方案,在國際上首次開源了支援深度學習框架PyTorch的大規模混合專家模型訓練,在國產超算系統上實現了百兆參數量的大模型訓練加速。

“八卦爐”系統的研發可以追溯到2021年。彼時大語言模型ChatGPT還沒有引爆全球,翟季冬帶領的清華學生團隊便開始在國產超算上進行大規模訓練探索,使用了超過10萬台純國產伺服器。這種超大規模實踐,練就了這支國內極少數真正具備國產算力叢集使用和調優經驗的團隊。

這支團隊中不乏全國奧林匹克競賽(奧賽)金牌得主、世界大學生超算比賽冠軍、中高考狀元。清程極智聯合創始人唐適之曾是清華超算隊的主力隊員;師天麾曾獲全國資訊學奧賽金牌;首席執行長湯雄超畢業於清華大學電腦系,博士畢業後先後供職於深信服和字節跳動。

從小喜歡玩遊戲的師天麾對程式設計和演算法有著天然的敏銳。2014年,他憑藉全國資訊學奧賽金牌保送清華大學電腦系,讀博期間跟隨翟季冬研究高性能計算。當多家大廠向他伸出高薪橄欖枝時,他卻選擇踏上一條最不好走的路——創業。

“創業是我見過最難的事。”師天麾坦言,研發、產品、管理、融資……每一個環節都要做好。但比起賺錢,他更想做些有價值的事——讓程式碼落地成產品,對國產算力起到實實在在的作用。

師天麾

師天麾解釋,大模型的訓練就像煉丹,大量語料投入訓練系統,要煉得有模有樣。“在大規模算力叢集上,‘八卦爐’已實現比肩DeepSeek的混合專家模型訓練效率,為國產大模型研發提供了有力的系統支撐。”

02. 讓國產晶片“跑起來”

訓練之後是推理。

DeepSeek“火”了,同時伴隨著尷尬的市場局面:大多數國產晶片和輝達舊卡無法原生支援DeepSeek採用的FP8資料格式。

“如果在國產卡上運行,傳統方案要麼把FP8轉成BF16,佔用兩倍視訊記憶體,要麼轉成INT8,犧牲模型精度。”唐適之解釋。

隨著AI的發展進入產業“深水區”,自主可控成為國內AI基礎設施建設的重要方向。與此同時,海外廠商正加速通過資本併購和技術整合佈局推理市場。

在唐適之看來,過度依賴國外開放原始碼軟體不僅會導致國內推理技術發展陷入被動,更會擠壓國產推理引擎的生存空間,破壞國內AI產業自主可控的生態根基。

於是,他們選擇自主研發赤兔推理引擎,打破海外技術壟斷,建構“國產算力+國產引擎+國產模型”全國產化閉環。“從最開始的第一行程式碼起,都是我們自己寫的,完全自主可控。”唐適之表示,赤兔不僅做到了適配,而且針對昇騰、海光、沐曦、摩爾線程等國產晶片的標量向量計算、資料表達、硬體調度、卡間互聯等硬體特性做了深度最佳化,以解決國產算力“能用不好用”的難題。

在性能與成本上,赤兔推理引擎實現突破性提升:通過軟體方案在不具備FP4/FP8硬體能力的算力裝置上支援FP4/FP8低位寬量化,使用FP8量化可降低50%算力門檻,FP4量化可降低75%算力門檻。

唐適之介紹,部署DeepSeek-V3滿血版模型時,僅需1台8卡910B伺服器即可替代傳統4台8卡機,硬體成本從600萬元降至150萬元。

目前,赤兔已在券商、能源企業等場景落地應用。某能源央企實現超3500名員工全國產化算力穩定使用,算力效率提升近40%,相關案例獲2025人工智慧應用大賽銅獎。

03. 評測倒逼行業“向上卷”

如果說赤兔解決的是“產得出”的問題,AI Ping解決的則是“選得準、省得好”的問題。

當詞元(Token)成為AI時代的“水電煤”,這群年輕人還要解決一個根本問題:讓Token像電流一樣穩定、高效、低成本地流入千行百業。

師天麾直言,Token猶如一個黑盒,你放進去問題,它吐出答案,中間發生了什麼卻不知道。同樣的模型、同樣的價格,不同服務商的性能可以差四五倍。

AI Ping平台正是為此而生。目前,該平台已接入30余家主流服務商、600余個大模型服務,通過7×24小時多地域分佈式監測,從真實使用者視角進行端到端評測,即時輸出延遲、吞吐、可靠性等指標。

“AI Ping的核心功能是智能路由。”師天麾介紹,實測顯示,使用AI Ping後使用者平均成本降低超37%,吞吐提升超90%,延遲降低超20%。

2025年9月,清華大學與中國軟體評測中心聯合發佈《2025大模型服務性能排行榜》,AI Ping提供了評測工具和資料展示平台。這也讓不少業內的使用者將AI Ping比作大模型API(應用程式程式設計介面)服務的“大眾點評”,這種榜單還成為倒逼這些榜上企業持續最佳化的動力。

隨著產品矩陣成型、商業化落地加速,資本的目光也悄然聚焦。從創業初期,需要花費大量精力向投資人和客戶解釋什麼是AI Infra(人工智慧基礎設施),到Token經濟爆發後,投資人主動諮詢並表示投資意願,這種變化讓師天麾感觸頗深。

在融資策略上,湯雄超解釋,AI Infra行業發展變化極快,“小步快跑”的融資節奏是為了持續儲備現金流,加大產品研發投入,同時也是因為行業熱度較高,持續有投資方表達投資意願。

作為清程極智的投資方之一,奇績創投的相關負責人認為,這支團隊有著建構高性能計算系統的罕見基因,能深入國產晶片的“毛細血管”進行最佳化,真正推動了國產算力從“能用”到“好用”。

在最近一輪融資中,清華大學資產管理公司戰略入股了清程極智,這也標誌著產學研協同進入新階段。

面對日益激烈的國際競爭,翟季冬提出了一個更為高遠的目標:“中國電力系統在全世界是第一的。我們希望把Token服務的質量和性能也做到全世界第一。” (中國科學報)