智譜GLM-5技術全公開！完全適配華為等中國國產晶片，美國網友酸了

2026/02/24

•

GLM-5是怎麼煉成的？

現在，它背後的論文終於完全公開了。

論文的名字也很直接：告別Vibe Coding，邁入智能體工程（Agentic Engineering）。

也正如我們之前實測的那般，它可以自己連續跑程式碼超過24小時、700次工具呼叫、800次上下文切換，從零直接手搓一個Game Boy Advance（GBA）模擬器。

一言蔽之，GLM-5把開源AI拽進了長任務時代。

外國網友直呼“GLM-5是最好的開源模型”：

並且還認為“極大拉小了和Claude Opus 4.6之間的距離”

除此之外，資本市場的表現也是可以從側面印證一家大模型公司的實力。

畢竟春節期間，智譜股價飆升的程度，毋庸置疑，大家有目共睹。

現如今，這份長達40頁的論文，徹底揭開了它背後的一切技術秘密。亮點如下：

架構方面：在上一代經過驗證的ARC（智能體、推理與程式設計）能力和MoE之上，引入DeepSeek同款稀疏注意力（DSA）；成本大幅打下來了的同時，長上下文能力卻一點沒丟。
後訓練方面：全新建構的非同步強化學習基礎設施，把生成和訓練解耦，加上獨創的非同步智能體RL演算法，讓效率大幅提升。
晶片適配方面：GLM-5完成了與華為昇騰、摩爾線程、海光、寒武紀、崑崙芯、沐曦以及燧原等國產晶片的全端適配。

這也讓不少網友在看完論文之後直呼：

在成本效率方面，美國的AI趕不上中國。

接下來，就讓我們一起深入扒一扒這篇讓外國網友羨慕的技術論文。

GLM-5的三大關鍵技術

在深入技術之前，我們需要先理解GLM-5在技術發展當下所面臨的難題，即大模型需要真正開始干複雜的難活兒了。

因為在GLM-4.5時代，智譜已經證明了將ARC能力融合進單一MoE架構是完全可行的。

但當模型真正投入到複雜的軟體工程、長周期多輪對話的真實業務中時，算力成本和真實環境適應性成為了老大難的問題。

GLM-5要解決的就是這些瓶頸。因此，它在核心技術方面祭出了三把板斧。

第一板斧：引入DeepSeek同款稀疏注意力機制

在Transformer架構中，傳統的密集注意力計算複雜度是隨著上下文長度呈平方級（O(N2)）增長的。

當上下文窗口擴展至200K甚至更長時，計算成本將變得極其昂貴，這成為限制智能體處理複雜任務的主要瓶頸。

GLM-5的解法是引入DSA這個動態稀疏注意力機制，它的核心理念是用動態的細粒度選擇機制替換傳統的密集注意力。與固定的滑動窗口模式不同，DSA 會“審視”內容，動態決定那些Token是重要的。

然而，直接訓練一個基於DSA的超大模型無異於走鋼絲，很容易因為稀疏化帶來的資訊丟失而導致梯度爆炸或模型崩塌。

因此，GLM-5團隊採取了一種極其巧妙的繼續預訓練策略，主要包含兩個步驟：

稠密預熱（Dense Warm-up）：模型並非一上來就搞稀疏。在預訓練的初始階段，模型依然使用相對稠密的注意力機制（類似於MLA的變體），讓模型先看全所有的資訊，建立起全域的、穩固的語義表徵能力。這就好比一個人在學習速讀之前，必須先紮紮實實地精讀。
平滑過渡與稀疏訓練（Sparse Training）：當模型具備了良好的基礎後，開始逐步提高稀疏度。DSA的核心邏輯是：在計算當前Token的注意力時，不再關注歷史上的所有Token，而是通過一個動態的路由機制（Routing Mechanism），只挑選出與之最相關的Top-K個Token進行計算。

根據技術報告披露的資料，這一板斧砍下去，效果是立竿見影的：

KV Cache開銷驟降75%：這意味著同樣的顯示卡，現在可以支撐4倍以上的並行請求，或者處理長達4倍的上下文。
推理速度提升3倍：注意力計算的FLOPS被大幅削減，首字響應時間（TTFT）和每秒生成Token數（TPS）都達到了行業頂尖水平。
長文字能力幾乎無損：這是最令人不可思議的一點。在著名的大海撈針以及諸如RULER等長文字複雜推理評測中，引入DSA的GLM-5與全稠密模型相比，性能下降微乎其微（小於0.5%）。

第二板斧：非同步多工強化學習

如果說DSA解決的是推理成本問題，那麼GLM-5的第二板斧，解決的就是訓練效率問題，尤其是決定模型最終智商的後訓練階段。

當前業界主流的強化學習對齊演算法依然是PPO（近端策略最佳化）。

標準的PPO是一個高度同步的過程，涉及到四個模型，即Actor生成模型、Reference參考模型、Critic評論家模型、Reward獎勵模型在多台GPU上的協同。

這種“走一步，停一下”的同步機制，導致整個叢集的GPU利用率經常徘徊在20%-30%左右，大部分算力都浪費在等待網路通訊和處理程序同步上了。

為了打破這個瓶頸，智譜基於4.5時代的Slime框架，為GLM-5從底層重寫了一套非同步強化學習基礎設施（Asynchronous RL Infrastructure）。

它的核心設計是將訓練引擎和推理引擎解耦到不同的GPU裝置上。推理引擎持續生成軌跡，一旦生成數量達到預定閾值，這批資料就被傳送到訓練引擎更新模型。為減少策略滯後並保持訓練的近似同策略性，推理引擎的模型權重會定期與訓練側同步。

這種完全非同步的訓練範式，通過減少Agent rollout期間的“氣泡”時間，顯著提升了GPU利用率和訓練效率。

但要支撐這種非同步架構，還有幾個關鍵技術難題需要解決：

第一，Token-in-Token-out（TITO）代替Text-in-Text-out。

在RL rollout設定中，TITO意味著訓練流程直接消費推理引擎生成的精確tokenization和解碼token流來建構學習軌跡。相比之下，Text-in-Text-out將rollout引擎視為返回最終文字的黑箱，訓練器需要重新tokenization重建軌跡。

這個看似微小的選擇實際上影響巨大：重新tokenization可能在token邊界、空白處理、截斷或特殊token放置上引入細微不匹配，從而影響對單個token採樣機率的估計。GLM-5實現了一個TITO閘道器，攔截rollout任務的所有生成請求並記錄每個軌跡的tokenID和中繼資料，將繁瑣的tokenID處理從下游Agent rollout邏輯中隔離出來。

第二，直接雙側重要性採樣解決離策略偏差。

在非同步設定中，rollout引擎可能在單個軌跡生成過程中經歷多次更新，這使得追蹤歷史訓練側模型的精確行為機率在計算上不可行——維護多個歷史模型權重顯然不現實。

研究團隊採用簡化方案：將rollout期間生成的對數機率作為直接行為代理，通過計算重要性採樣比rt(θ) = πθ/πrollout，丟棄傳統的πθ_old，消除單獨舊策略推理的計算開銷。同時採用雙側校準token級掩碼策略，將信任域限制在[1-ε_l, 1+ε_h]，對落在此區間之外的token完全螢幕蔽梯度計算。

第三，DP感知路由加速長上下文推理。

在多輪Agent工作負載中，來自相同rollout的順序請求共享相同前綴。研究團隊提出通過一致性雜湊將每個rollout ID對應到固定資料平行（DP）rank，並結合雜湊空間上的輕量級動態負載重新平衡。這避免了冗餘的預填充計算，無需跨DP rank的KV同步，隨著rollout長度增加，預填充成本仍與增量token成正比。

這套非同步RL基礎設施支撐了GLM-5在多領域的混合RL訓練：數學、科學、程式碼和工具整合推理（TIR）。資料來源包括開源資料集、與外部標註供應商共同建構的STEM問題、Codeforces及TACO等代表性資料集。訓練中為各領域分配專屬裁判模型或評估系統生成二元結果獎勵，四個領域的整體混合大致保持平衡。

第三板斧：投喂真實世界資料

傳統SFT資料往往依賴標準答案，但真實世界是複雜多變的。

為了讓模型具備真正的工程能力，GLM-5的第三板斧，就是建構大量可驗證的真實世界環境資料。

整個SFT語料庫涵蓋三大類別：通用對話、推理、程式設計與Agent。

值得注意的是，GLM-5在SFT階段將最大上下文長度擴展至202752個token，並支援三種不同的思考特徵：

交錯思考：模型在每次響應和工具呼叫前進行思考，提升指令遵循和生成質量；
保留思考：在Coding Agent場景中，模型自動在多輪對話中保留所有思考塊，復用已有推理而非重新推導，減少資訊丟失和不一致性；
輪級思考：支援在會話中對每輪推理進行精細控制，輕量級請求可停用思考降低延遲，複雜任務可啟用思考提升精度和穩定性。

為了支援Agent RL，研究團隊還建構了大規模的、可驗證的可執行環境：

軟體工程環境：基於真實世界的Issue-PR對，採用RepoLaunch框架自動分析倉庫安裝和依賴設定，建構可執行環境並生成測試命令。最終跨數千個倉庫、涵蓋9種程式語言（Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby），建構了超過10000個可驗證環境。
終端環境：採用三階段Agent資料合成流程——任務草稿生成、具體任務實現、迭代任務最佳化。從種子任務出發，利用LLM生成可驗證的終端任務草稿，由建構Agent在Harbor格式中實例化為具體任務（結構化任務描述、Docker化執行環境、測試指令碼），再由精煉Agent迭代最佳化。整體流程產出數千個多樣化終端環境，Docker建構精度超過90%。
搜尋任務：建構Web知識圖譜，以低至中頻實體為種子節點擴展多跳鄰域，將每個子圖轉化為隱式編碼多實體關係鏈的問題。再經過三階段過濾（刪除無工具推理模型能答對的、過濾早期Agent能幾步解決的、雙向驗證拒絕非唯一答案或不一致證據的），最終獲得高品質、高難度的多跳問答對。