10倍速的一夜：智譜GLM-5官宣，MiniMax與DeepSeek的暗戰

2026/02/12

•

2 月 11 日深夜到 12 日清晨，短短幾個小時內，中國三家最知名的大模型公司幾乎同時完成了一輪關鍵更新：

智譜正式發佈 GLM-5，MiniMax M2.5 在產品中悄然上線體驗，DeepSeek 也啟動新一輪能力升級。

智譜 GLM-5：從“寫程式碼”到“搞工程”

2 月 12 日，智譜正式官宣上線並開源新模型 GLM-5。同時確認：此前在 OpenRouter 上爆火的匿名模型 Pony Alpha，正是 GLM-5。

在匿名測試階段，這個模型已經被全球開發者當作真實生產工具使用。有人用它做橫版解謎遊戲，有人搭建 Agent 互動世界，也有人直接基於它開發出論文版“抖音”等完整應用形態。模型在沒有品牌背書的情況下完成真實市場驗證，本身已經說明了能力層級的變化。

智譜對 GLM-5 的定位非常明確：它不是一個聊天模型，而是一個 Agentic Engineering 基座模型。

過去兩年，大模型的主流敘事是“寫程式碼”“寫前端”；而現在，行業共識正在轉向：模型需要完成完整工程與複雜任務，即從「Vibe Coding」走向「Agentic Engineering」。GLM-5 正是這一階段的代表產物。

與上一代相比，GLM-5 不再滿足於生成一個漂亮 demo 或一段 Python 指令碼，而是為穩定交付生產級結果而生。在真實程式設計場景的使用體感上，GLM-5 已經被認為逼近當前行業天花板 Claude Opus 4.5。

在底層能力上，GLM-5 進行了全面擴展：

參數規模：從上一代的 355B（啟動 32B）擴展至 744B（啟動 40B）。
資料量級：預訓練資料從 23T 提升至 28.5T。
架構創新：首次整合了 DeepSeek Sparse Attention 機制。這一技術在維持長文字效果無損的同時，大幅降低了模型部署成本，提升了 Token 的生成效率。
非同步強化學習：建構了全新的“Slime”框架，讓模型能夠在長程互動中持續學習，不再是“聊幾句就忘”。

在全球權威的 Artificial Analysis 榜單中，GLM-5 位居全球第四、開源第一。

GLM-5 在程式設計能力上實現了對 Claude Opus 4.5 的對齊，在工程師最看重的 SWE-bench-Verified（軟體工程基準測試）中，GLM-5 拿下了 77.8 的高分；在 Terminal Bench 2.0（終端操作能力）中達到了 56.2。這兩個分數不僅是開源模型的 SOTA（State Of The Art），更直接超越了 Google 的 Gemini 3 Pro。

在智譜內部的 Claude Code 評估集合中，GLM-5 在後端重構和深度偵錯等“硬骨頭”任務上，比 GLM-4.7 平均提升了超過 20%。