GLM-5是怎麼煉成的?
現在,它背後的論文終於完全公開了。
論文的名字也很直接:告別Vibe Coding,邁入智能體工程(Agentic Engineering)。
也正如我們之前實測的那般,它可以自己連續跑程式碼超過24小時、700次工具呼叫、800次上下文切換,從零直接手搓一個Game Boy Advance(GBA)模擬器。
一言蔽之,GLM-5把開源AI拽進了長任務時代。
外國網友直呼“GLM-5是最好的開源模型”:
並且還認為“極大拉小了和Claude Opus 4.6之間的距離”
除此之外,資本市場的表現也是可以從側面印證一家大模型公司的實力。
畢竟春節期間,智譜股價飆升的程度,毋庸置疑,大家有目共睹。
現如今,這份長達40頁的論文,徹底揭開了它背後的一切技術秘密。亮點如下:
這也讓不少網友在看完論文之後直呼:
在成本效率方面,美國的AI趕不上中國。
接下來,就讓我們一起深入扒一扒這篇讓外國網友羨慕的技術論文。
在深入技術之前,我們需要先理解GLM-5在技術發展當下所面臨的難題,即大模型需要真正開始干複雜的難活兒了。
因為在GLM-4.5時代,智譜已經證明了將ARC能力融合進單一MoE架構是完全可行的。
但當模型真正投入到複雜的軟體工程、長周期多輪對話的真實業務中時,算力成本和真實環境適應性成為了老大難的問題。
GLM-5要解決的就是這些瓶頸。因此,它在核心技術方面祭出了三把板斧。
在Transformer架構中,傳統的密集注意力計算複雜度是隨著上下文長度呈平方級(O(N2))增長的。
當上下文窗口擴展至200K甚至更長時,計算成本將變得極其昂貴,這成為限制智能體處理複雜任務的主要瓶頸。
GLM-5的解法是引入DSA這個動態稀疏注意力機制,它的核心理念是用動態的細粒度選擇機制替換傳統的密集注意力。與固定的滑動窗口模式不同,DSA 會“審視”內容,動態決定那些Token是重要的。
然而,直接訓練一個基於DSA的超大模型無異於走鋼絲,很容易因為稀疏化帶來的資訊丟失而導致梯度爆炸或模型崩塌。
因此,GLM-5團隊採取了一種極其巧妙的繼續預訓練策略,主要包含兩個步驟:
根據技術報告披露的資料,這一板斧砍下去,效果是立竿見影的:
如果說DSA解決的是推理成本問題,那麼GLM-5的第二板斧,解決的就是訓練效率問題,尤其是決定模型最終智商的後訓練階段。
當前業界主流的強化學習對齊演算法依然是PPO(近端策略最佳化)。
標準的PPO是一個高度同步的過程,涉及到四個模型,即Actor生成模型、Reference參考模型、Critic評論家模型、Reward獎勵模型在多台GPU上的協同。
這種“走一步,停一下”的同步機制,導致整個叢集的GPU利用率經常徘徊在20%-30%左右,大部分算力都浪費在等待網路通訊和處理程序同步上了。
為了打破這個瓶頸,智譜基於4.5時代的Slime框架,為GLM-5從底層重寫了一套非同步強化學習基礎設施(Asynchronous RL Infrastructure)。
它的核心設計是將訓練引擎和推理引擎解耦到不同的GPU裝置上。推理引擎持續生成軌跡,一旦生成數量達到預定閾值,這批資料就被傳送到訓練引擎更新模型。為減少策略滯後並保持訓練的近似同策略性,推理引擎的模型權重會定期與訓練側同步。
這種完全非同步的訓練範式,通過減少Agent rollout期間的“氣泡”時間,顯著提升了GPU利用率和訓練效率。
但要支撐這種非同步架構,還有幾個關鍵技術難題需要解決:
第一,Token-in-Token-out(TITO)代替Text-in-Text-out。
在RL rollout設定中,TITO意味著訓練流程直接消費推理引擎生成的精確tokenization和解碼token流來建構學習軌跡。相比之下,Text-in-Text-out將rollout引擎視為返回最終文字的黑箱,訓練器需要重新tokenization重建軌跡。
這個看似微小的選擇實際上影響巨大:重新tokenization可能在token邊界、空白處理、截斷或特殊token放置上引入細微不匹配,從而影響對單個token採樣機率的估計。GLM-5實現了一個TITO閘道器,攔截rollout任務的所有生成請求並記錄每個軌跡的tokenID和中繼資料,將繁瑣的tokenID處理從下游Agent rollout邏輯中隔離出來。
第二,直接雙側重要性採樣解決離策略偏差。
在非同步設定中,rollout引擎可能在單個軌跡生成過程中經歷多次更新,這使得追蹤歷史訓練側模型的精確行為機率在計算上不可行——維護多個歷史模型權重顯然不現實。
研究團隊採用簡化方案:將rollout期間生成的對數機率作為直接行為代理,通過計算重要性採樣比rt(θ) = πθ/πrollout,丟棄傳統的πθ_old,消除單獨舊策略推理的計算開銷。同時採用雙側校準token級掩碼策略,將信任域限制在[1-ε_l, 1+ε_h],對落在此區間之外的token完全螢幕蔽梯度計算。
第三,DP感知路由加速長上下文推理。
在多輪Agent工作負載中,來自相同rollout的順序請求共享相同前綴。研究團隊提出通過一致性雜湊將每個rollout ID對應到固定資料平行(DP)rank,並結合雜湊空間上的輕量級動態負載重新平衡。這避免了冗餘的預填充計算,無需跨DP rank的KV同步,隨著rollout長度增加,預填充成本仍與增量token成正比。
這套非同步RL基礎設施支撐了GLM-5在多領域的混合RL訓練:數學、科學、程式碼和工具整合推理(TIR)。資料來源包括開源資料集、與外部標註供應商共同建構的STEM問題、Codeforces及TACO等代表性資料集。訓練中為各領域分配專屬裁判模型或評估系統生成二元結果獎勵,四個領域的整體混合大致保持平衡。
傳統SFT資料往往依賴標準答案,但真實世界是複雜多變的。
為了讓模型具備真正的工程能力,GLM-5的第三板斧,就是建構大量可驗證的真實世界環境資料。
整個SFT語料庫涵蓋三大類別:通用對話、推理、程式設計與Agent。
值得注意的是,GLM-5在SFT階段將最大上下文長度擴展至202752個token,並支援三種不同的思考特徵:
為了支援Agent RL,研究團隊還建構了大規模的、可驗證的可執行環境:
技術的進步最終需要經受評測的檢驗。
GLM-5的論文不僅展示了其在傳統榜單上的成績,更揭示了一個趨勢:大模型的測試正在變得更難、更貼近真實。
在Humanity’s Last Exam(HLE)、SWE-bench Verified、BrowseComp等關鍵榜單上,資料顯示,GLM-5在SWE-bench Verified上得分77.8%,在開源模型中達到SOTA,優於Gemini 3 Pro,並與Claude Opus 4.5相當。
在HLE(含工具)測試中,GLM-5得分50.4,優於Claude Opus 4.5和Gemini 3 Pro。
在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成為新的開源SOTA模型,這是開放權重模型首次在該指數中達到50分。
然而,智譜團隊認為,傳統的SWE-bench已經不夠看了。
因為它是一個靜態、公開且發佈超過2年的測試集,模型可能存在記憶效應。
為此,GLM-5團隊推出了CC-Bench-V2,一個完全自動化的、模擬真實軟體開發的評測集,涵蓋前端、後端和長程任務。
在前端評估中,團隊引入了Agent-as-a-Judge技術,通過GUI Agent模擬使用者互動,驗證生成項目的功能正確性。
結果顯示,GLM-5的建構成功率(BSR)達到98.0%,在檢查項成功率(CSR)上與Claude Opus 4.5具備競爭力。
在後端評估中,GLM-5在真實開放原始碼專案上的Pass@1達到25.8%,與Claude Opus 4.5相當,顯著領先於GLM-4.7。
更值得一提的是長程任務評估。CC-Bench-V2通過挖掘已合併的Pull Request建構多步鏈式任務,評估模型在增量開發中的上下文跟蹤與規劃能力。
雖然GLM-5在此項上較GLM-4.7有顯著提升,但與Claude Opus 4.5仍有差距。團隊坦言,這是因為鏈式任務中錯誤會累積放大,縮小這一差距需要在長上下文一致性和長程自糾錯方面繼續突破。
這一系列評測結果釋放了兩個明確訊號:
One More Thing
在論文的最後,團隊透露了一個有趣的彩蛋——Pony Alpha實驗。
在論文公開前,GLM-5曾以Pony Alpha為代號,匿名發佈在OpenRouter平台上。隱去品牌資訊後,模型憑藉卓越的性能在社區引發轟動。
初步統計顯示,25%的使用者推測它是Claude Sonnet 5,20%認為是Grok的新版本,僅有部分使用者猜中了GLM-5。
這次匿名測試打破了先入為主的地緣偏見,讓社區的認可回歸到了“好用與否”這一最純粹的技術本質。
最終確認Pony Alpha真身即是GLM-5,這對團隊是一次巨大的鼓舞,也有力回擊了長期以來外界對中國本土模型技術水準的質疑。
不僅如此,這次GLM-5論文公佈之後,在海外已經有不少人當教學來學習了。
若是你也對此感興趣,論文放下面了,一起學習一下吧~
GLM-5論文地址:
https://arxiv.org/abs/2602.15763 (量子位)