2 月 11 日深夜到 12 日清晨,短短幾個小時內,中國三家最知名的大模型公司幾乎同時完成了一輪關鍵更新:
智譜正式發佈 GLM-5,MiniMax M2.5 在產品中悄然上線體驗,DeepSeek 也啟動新一輪能力升級。
2 月 12 日,智譜正式官宣上線並開源新模型 GLM-5。同時確認:此前在 OpenRouter 上爆火的匿名模型 Pony Alpha,正是 GLM-5。
在匿名測試階段,這個模型已經被全球開發者當作真實生產工具使用。有人用它做橫版解謎遊戲,有人搭建 Agent 互動世界,也有人直接基於它開發出論文版“抖音”等完整應用形態。模型在沒有品牌背書的情況下完成真實市場驗證,本身已經說明了能力層級的變化。
智譜對 GLM-5 的定位非常明確:它不是一個聊天模型,而是一個 Agentic Engineering 基座模型。
過去兩年,大模型的主流敘事是“寫程式碼”“寫前端”;而現在,行業共識正在轉向:模型需要完成完整工程與複雜任務,即從「Vibe Coding」走向「Agentic Engineering」。GLM-5 正是這一階段的代表產物。
與上一代相比,GLM-5 不再滿足於生成一個漂亮 demo 或一段 Python 指令碼,而是為穩定交付生產級結果而生。在真實程式設計場景的使用體感上,GLM-5 已經被認為逼近當前行業天花板 Claude Opus 4.5。
在底層能力上,GLM-5 進行了全面擴展:
在全球權威的 Artificial Analysis 榜單中,GLM-5 位居全球第四、開源第一。
GLM-5 在程式設計能力上實現了對 Claude Opus 4.5 的對齊,在工程師最看重的 SWE-bench-Verified(軟體工程基準測試)中,GLM-5 拿下了 77.8 的高分;在 Terminal Bench 2.0(終端操作能力)中達到了 56.2。這兩個分數不僅是開源模型的 SOTA(State Of The Art),更直接超越了 Google 的 Gemini 3 Pro。
在智譜內部的 Claude Code 評估集合中,GLM-5 在後端重構和深度偵錯等“硬骨頭”任務上,比 GLM-4.7 平均提升了超過 20%。
GLM-5 在 Agent 能力上實現開源 SOTA,在多個評測基準中取得開源第一。
更有意思的是Vending Bench 2 的測試結果。這個測試要求模型在一年期內經營一個模擬的自動售貨機業務。GLM-5 最終的帳戶餘額達到了 4432 美元。這意味著它不僅會寫程式碼,還懂得資源管理和長期規劃,這種“經營能力”是邁向 AGI 的關鍵一步。
就在智譜官宣的同時,另外兩家巨頭的佈局也在進行。
昨晚,細心的使用者發現,在 MiniMax Agent 產品中,底層模型選項裡悄然出現了一個新名字——MiniMax M2.5。
雖然公司尚未正式官宣,但這顯然是一次在產品端的“實彈演習”。據早期測試使用者反饋,“M2.5 Agent能力炸裂”,“程式設計和工具呼叫又強又便宜”。
此外,就在眾人還在猜測DeepSeek V4何時到來時,DeepSeek也在悄然更新。
我們在昨晚嘗試詢問 DeepSeek 的最新狀態,在關閉“深度思考”和“聯網搜尋”後查詢模型資訊時發現,其上下文長度已提升至1M Token(此前為128K),知識庫截止日期更新至2025年5月。
2026 年,註定不會平靜。
智譜用 GLM-5 證明了中國模型在複雜工程能力上已能與世界最強掰手腕;MiniMax 在產品端極速狂奔,搶佔使用者心智;而所有人依舊在等待 DeepSeek 出招。
對於此時此刻的身處浪潮中的我們來說,唯一的選擇就是——跟上速度。畢竟,在這個 10 倍速的夜晚過後,掉隊可能只是一瞬間的事。 (網易科技)