#GLM-5
中國AI大模型霸榜!
春節期間國產大模型的使用情況可謂如火如荼。OpenRouter最新周度資料顯示,平台前十模型總token量約8.7兆,中國模型獨佔5.3兆,佔比61%。當周token呼叫量前三模型均為國產大模型,分別為Minimax M2.5、Kimi K2.5、GLM-5,呼叫量環比上周分別變動增加197%、下降20%、增加158%。其中,MiniMax M2.5以2.45兆token空降榜首,Kimi K2.5以1.21兆緊隨其後,智譜GLM 5和DeepSeek V3.2分列第三、第五。OpenRouter是全球最大的大模型API聚合平台,可為開發者提供統一API介面,以訪問全球數百種大語言模型。其核心功能包括多模型呼叫、智能路由最佳化和透明的性能排行榜,旨在解決多模型整合複雜和廠商封鎖問題。從該平台提供的資料看,程式設計(Coding)和智能體(Agent)正成為大模型的兩大核心比拚點。OpenRouter整體呼叫量近期大幅攀升。官方確認,M2.5帶動了100K至1M長文字區間的增量呼叫需求,這個區間正是智能體工作流的典型消耗場景。論token呼叫量,在此平台排名前三的國產大模型都聚焦於提升程式設計能力和智能體(Agent)任務的自動化水平,是2026年初國產大模型在應用層面的重要突破。稀宇科技(MiniMax)於2月13日發佈MiniMax M2.5,稱該模型為全球首個為智能體場景原生設計的生產級旗艦模型。其發佈後七天的呼叫量即突破3.07T tokens,憑藉在程式設計和Agent工作流中的卓越性能與極低的成本,成為開發者首選。月之暗面(Moonshot AI)於1月27日發佈KimiK2.5,該模型採用原生多模態架構,能通過調度多達100個“Agent分身”平行工作,將複雜任務效率提升3到10倍。該模型在多個細分榜單(如程式設計、工具呼叫)中均排名第一,其呼叫量遠超Gemini 3和Claude模型。據澎湃新聞報導,該大模型發佈不到一個月,Kimi近20天累計收入已超過2025年全年總收入,增長主要受全球付費使用者及API呼叫量大漲共同推動,其中海外付費使用者數快速增長。智譜於2月12日發佈GLM-5,該模型參數規模進一步擴展,採用了稀疏注意力機制,是其專為複雜系統工程與長程Agent任務設計的旗艦模型。憑藉免費、200K上下文窗口等優勢,該模型發佈後使用者迎來高速增長,智譜對Coding Plan先後進行了限售、漲價等動作,除夕當天官宣全網尋找“算力合夥人”。隨著AI模型應用場景深化,使用者從簡單問答轉向複雜工作流,如讓模型重構程式碼、改寫檔案、生成文件等,以及智能體模式普及,當前token消耗呈現明顯的“通膨”趨勢。性能提升的同時,國產模型仍以性價比優勢出圈。如MiniMax M2.5和智譜GLM-5相比Claude Opus 4.6具備顯著的成本優勢:在輸入環節,MiniMax M2.5與GLM-5的價格均為0.3美元/百萬token,而Claude Opus 4.6則高達5美元/百萬token,是前兩者的約16.7倍;在輸出環節,MiniMax M2.5的價格為1.1美元/百萬token,GLM-5為2.55美元/百萬token,而Claude Opus 4.6的輸出價格達25美元/百萬token,分別是MiniMax M2.5的約22.7倍和GLM-5的約9.8倍。上述國產模型並不能完全反映國內模型廠商的token呼叫量情況。據海通國際證券,資料顯示,火山引擎的大模型日均token呼叫量已從2024年底的2兆增長至2025年底的63兆;阿里雲外部客戶2025年日均token呼叫也已接近5兆,2026年目標至少15-20兆,內部業務日均呼叫則計畫從16-17兆拉到100兆。從全行業看,中國整體日均token消耗2024年初為1000億,2025年中突破30兆,2026年2月主流大模型合計日均token消耗已到180兆等級。東莞證券最新研報表示,隨著國產模型的程式設計、智能體能力提升,其呼叫量大幅增加,國產大模型在程式設計、智能體領域對標全球頭部模型,有望進一步加快應用落地,加速token消耗量上漲。長江證券此前表示,隨著程式設計和多模態模型和產品的逐步成熟,下游應用場景有望被真正打開,帶來大量的高品質token需求。參照海外AI產業發展規律,從資本開支投入到token需求爆發存在約兩年的滯後期。國內大廠的AI資本開支周期較海外滯後約一年,於2024年下半年開啟。因此,國內雲廠商收入已開始兌現增長,而token數量的真正爆發預計將在2026年到來。 (科創板日報)
智譜GLM-5技術全公開!完全適配華為等中國國產晶片,美國網友酸了
GLM-5是怎麼煉成的?現在,它背後的論文終於完全公開了。論文的名字也很直接:告別Vibe Coding,邁入智能體工程(Agentic Engineering)。也正如我們之前實測的那般,它可以自己連續跑程式碼超過24小時、700次工具呼叫、800次上下文切換,從零直接手搓一個Game Boy Advance(GBA)模擬器。一言蔽之,GLM-5把開源AI拽進了長任務時代。外國網友直呼“GLM-5是最好的開源模型”:並且還認為“極大拉小了和Claude Opus 4.6之間的距離”除此之外,資本市場的表現也是可以從側面印證一家大模型公司的實力。畢竟春節期間,智譜股價飆升的程度,毋庸置疑,大家有目共睹。現如今,這份長達40頁的論文,徹底揭開了它背後的一切技術秘密。亮點如下:架構方面:在上一代經過驗證的ARC(智能體、推理與程式設計)能力和MoE之上,引入DeepSeek同款稀疏注意力(DSA);成本大幅打下來了的同時,長上下文能力卻一點沒丟。後訓練方面:全新建構的非同步強化學習基礎設施,把生成和訓練解耦,加上獨創的非同步智能體RL演算法,讓效率大幅提升。晶片適配方面:GLM-5完成了與華為昇騰、摩爾線程、海光、寒武紀、崑崙芯、沐曦以及燧原等國產晶片的全端適配。這也讓不少網友在看完論文之後直呼:在成本效率方面,美國的AI趕不上中國。接下來,就讓我們一起深入扒一扒這篇讓外國網友羨慕的技術論文。GLM-5的三大關鍵技術在深入技術之前,我們需要先理解GLM-5在技術發展當下所面臨的難題,即大模型需要真正開始干複雜的難活兒了。因為在GLM-4.5時代,智譜已經證明了將ARC能力融合進單一MoE架構是完全可行的。但當模型真正投入到複雜的軟體工程、長周期多輪對話的真實業務中時,算力成本和真實環境適應性成為了老大難的問題。△GLM-5 的整體訓練流程GLM-5要解決的就是這些瓶頸。因此,它在核心技術方面祭出了三把板斧。第一板斧:引入DeepSeek同款稀疏注意力機制在Transformer架構中,傳統的密集注意力計算複雜度是隨著上下文長度呈平方級(O(N2))增長的。當上下文窗口擴展至200K甚至更長時,計算成本將變得極其昂貴,這成為限制智能體處理複雜任務的主要瓶頸。GLM-5的解法是引入DSA這個動態稀疏注意力機制,它的核心理念是用動態的細粒度選擇機制替換傳統的密集注意力。與固定的滑動窗口模式不同,DSA 會“審視”內容,動態決定那些Token是重要的。然而,直接訓練一個基於DSA的超大模型無異於走鋼絲,很容易因為稀疏化帶來的資訊丟失而導致梯度爆炸或模型崩塌。因此,GLM-5團隊採取了一種極其巧妙的繼續預訓練策略,主要包含兩個步驟:稠密預熱(Dense Warm-up):模型並非一上來就搞稀疏。在預訓練的初始階段,模型依然使用相對稠密的注意力機制(類似於MLA的變體),讓模型先看全所有的資訊,建立起全域的、穩固的語義表徵能力。這就好比一個人在學習速讀之前,必須先紮紮實實地精讀。平滑過渡與稀疏訓練(Sparse Training):當模型具備了良好的基礎後,開始逐步提高稀疏度。DSA的核心邏輯是:在計算當前Token的注意力時,不再關注歷史上的所有Token,而是通過一個動態的路由機制(Routing Mechanism),只挑選出與之最相關的Top-K個Token進行計算。△MLA與DSA訓練的SFT損失曲線對比根據技術報告披露的資料,這一板斧砍下去,效果是立竿見影的:KV Cache開銷驟降75%:這意味著同樣的顯示卡,現在可以支撐4倍以上的並行請求,或者處理長達4倍的上下文。推理速度提升3倍:注意力計算的FLOPS被大幅削減,首字響應時間(TTFT)和每秒生成Token數(TPS)都達到了行業頂尖水平。長文字能力幾乎無損:這是最令人不可思議的一點。在著名的大海撈針以及諸如RULER等長文字複雜推理評測中,引入DSA的GLM-5與全稠密模型相比,性能下降微乎其微(小於0.5%)。第二板斧:非同步多工強化學習如果說DSA解決的是推理成本問題,那麼GLM-5的第二板斧,解決的就是訓練效率問題,尤其是決定模型最終智商的後訓練階段。當前業界主流的強化學習對齊演算法依然是PPO(近端策略最佳化)。標準的PPO是一個高度同步的過程,涉及到四個模型,即Actor生成模型、Reference參考模型、Critic評論家模型、Reward獎勵模型在多台GPU上的協同。這種“走一步,停一下”的同步機制,導致整個叢集的GPU利用率經常徘徊在20%-30%左右,大部分算力都浪費在等待網路通訊和處理程序同步上了。為了打破這個瓶頸,智譜基於4.5時代的Slime框架,為GLM-5從底層重寫了一套非同步強化學習基礎設施(Asynchronous RL Infrastructure)。它的核心設計是將訓練引擎和推理引擎解耦到不同的GPU裝置上。推理引擎持續生成軌跡,一旦生成數量達到預定閾值,這批資料就被傳送到訓練引擎更新模型。為減少策略滯後並保持訓練的近似同策略性,推理引擎的模型權重會定期與訓練側同步。這種完全非同步的訓練範式,通過減少Agent rollout期間的“氣泡”時間,顯著提升了GPU利用率和訓練效率。但要支撐這種非同步架構,還有幾個關鍵技術難題需要解決:第一,Token-in-Token-out(TITO)代替Text-in-Text-out。在RL rollout設定中,TITO意味著訓練流程直接消費推理引擎生成的精確tokenization和解碼token流來建構學習軌跡。相比之下,Text-in-Text-out將rollout引擎視為返回最終文字的黑箱,訓練器需要重新tokenization重建軌跡。這個看似微小的選擇實際上影響巨大:重新tokenization可能在token邊界、空白處理、截斷或特殊token放置上引入細微不匹配,從而影響對單個token採樣機率的估計。GLM-5實現了一個TITO閘道器,攔截rollout任務的所有生成請求並記錄每個軌跡的tokenID和中繼資料,將繁瑣的tokenID處理從下游Agent rollout邏輯中隔離出來。第二,直接雙側重要性採樣解決離策略偏差。在非同步設定中,rollout引擎可能在單個軌跡生成過程中經歷多次更新,這使得追蹤歷史訓練側模型的精確行為機率在計算上不可行——維護多個歷史模型權重顯然不現實。研究團隊採用簡化方案:將rollout期間生成的對數機率作為直接行為代理,通過計算重要性採樣比rt(θ) = πθ/πrollout,丟棄傳統的πθ_old,消除單獨舊策略推理的計算開銷。同時採用雙側校準token級掩碼策略,將信任域限制在[1-ε_l, 1+ε_h],對落在此區間之外的token完全螢幕蔽梯度計算。第三,DP感知路由加速長上下文推理。在多輪Agent工作負載中,來自相同rollout的順序請求共享相同前綴。研究團隊提出通過一致性雜湊將每個rollout ID對應到固定資料平行(DP)rank,並結合雜湊空間上的輕量級動態負載重新平衡。這避免了冗餘的預填充計算,無需跨DP rank的KV同步,隨著rollout長度增加,預填充成本仍與增量token成正比。這套非同步RL基礎設施支撐了GLM-5在多領域的混合RL訓練:數學、科學、程式碼和工具整合推理(TIR)。資料來源包括開源資料集、與外部標註供應商共同建構的STEM問題、Codeforces及TACO等代表性資料集。訓練中為各領域分配專屬裁判模型或評估系統生成二元結果獎勵,四個領域的整體混合大致保持平衡。第三板斧:投喂真實世界資料傳統SFT資料往往依賴標準答案,但真實世界是複雜多變的。為了讓模型具備真正的工程能力,GLM-5的第三板斧,就是建構大量可驗證的真實世界環境資料。整個SFT語料庫涵蓋三大類別:通用對話、推理、程式設計與Agent。值得注意的是,GLM-5在SFT階段將最大上下文長度擴展至202752個token,並支援三種不同的思考特徵:交錯思考:模型在每次響應和工具呼叫前進行思考,提升指令遵循和生成質量;保留思考:在Coding Agent場景中,模型自動在多輪對話中保留所有思考塊,復用已有推理而非重新推導,減少資訊丟失和不一致性;輪級思考:支援在會話中對每輪推理進行精細控制,輕量級請求可停用思考降低延遲,複雜任務可啟用思考提升精度和穩定性。為了支援Agent RL,研究團隊還建構了大規模的、可驗證的可執行環境:軟體工程環境:基於真實世界的Issue-PR對,採用RepoLaunch框架自動分析倉庫安裝和依賴設定,建構可執行環境並生成測試命令。最終跨數千個倉庫、涵蓋9種程式語言(Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby),建構了超過10000個可驗證環境。終端環境:採用三階段Agent資料合成流程——任務草稿生成、具體任務實現、迭代任務最佳化。從種子任務出發,利用LLM生成可驗證的終端任務草稿,由建構Agent在Harbor格式中實例化為具體任務(結構化任務描述、Docker化執行環境、測試指令碼),再由精煉Agent迭代最佳化。整體流程產出數千個多樣化終端環境,Docker建構精度超過90%。搜尋任務:建構Web知識圖譜,以低至中頻實體為種子節點擴展多跳鄰域,將每個子圖轉化為隱式編碼多實體關係鏈的問題。再經過三階段過濾(刪除無工具推理模型能答對的、過濾早期Agent能幾步解決的、雙向驗證拒絕非唯一答案或不一致證據的),最終獲得高品質、高難度的多跳問答對。PPT生成:採用多層級獎勵機制——第1級關注靜態標記屬性(定位、間距、顏色、字型等),第2級評估執行階段渲染屬性(元素寬高、邊界框等),第3級引入視覺感知特徵(異常空白模式等)。最終生成的頁面中嚴格符合16:9寬高比的比例從40%提升至92%,頁面溢出顯著減少。大模型的測試也更難了技術的進步最終需要經受評測的檢驗。GLM-5的論文不僅展示了其在傳統榜單上的成績,更揭示了一個趨勢:大模型的測試正在變得更難、更貼近真實。在Humanity’s Last Exam(HLE)、SWE-bench Verified、BrowseComp等關鍵榜單上,資料顯示,GLM-5在SWE-bench Verified上得分77.8%,在開源模型中達到SOTA,優於Gemini 3 Pro,並與Claude Opus 4.5相當。在HLE(含工具)測試中,GLM-5得分50.4,優於Claude Opus 4.5和Gemini 3 Pro。在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成為新的開源SOTA模型,這是開放權重模型首次在該指數中達到50分。然而,智譜團隊認為,傳統的SWE-bench已經不夠看了。因為它是一個靜態、公開且發佈超過2年的測試集,模型可能存在記憶效應。為此,GLM-5團隊推出了CC-Bench-V2,一個完全自動化的、模擬真實軟體開發的評測集,涵蓋前端、後端和長程任務。在前端評估中,團隊引入了Agent-as-a-Judge技術,通過GUI Agent模擬使用者互動,驗證生成項目的功能正確性。結果顯示,GLM-5的建構成功率(BSR)達到98.0%,在檢查項成功率(CSR)上與Claude Opus 4.5具備競爭力。在後端評估中,GLM-5在真實開放原始碼專案上的Pass@1達到25.8%,與Claude Opus 4.5相當,顯著領先於GLM-4.7。更值得一提的是長程任務評估。CC-Bench-V2通過挖掘已合併的Pull Request建構多步鏈式任務,評估模型在增量開發中的上下文跟蹤與規劃能力。雖然GLM-5在此項上較GLM-4.7有顯著提升,但與Claude Opus 4.5仍有差距。團隊坦言,這是因為鏈式任務中錯誤會累積放大,縮小這一差距需要在長上下文一致性和長程自糾錯方面繼續突破。這一系列評測結果釋放了兩個明確訊號:第一,GLM-5 是開源界的第一個“全站工程師”,讓 AI 能自主執行超長、超複雜的任務;第二,通過單體MoE架構統一Agent、推理與程式碼能力的可行性得到了驗證,同時證明了RL在複雜程式碼生成中的巨大潛力。這對閉源模型而言,無疑是一種巨大的衝擊。One More Thing在論文的最後,團隊透露了一個有趣的彩蛋——Pony Alpha實驗。在論文公開前,GLM-5曾以Pony Alpha為代號,匿名發佈在OpenRouter平台上。隱去品牌資訊後,模型憑藉卓越的性能在社區引發轟動。初步統計顯示,25%的使用者推測它是Claude Sonnet 5,20%認為是Grok的新版本,僅有部分使用者猜中了GLM-5。這次匿名測試打破了先入為主的地緣偏見,讓社區的認可回歸到了“好用與否”這一最純粹的技術本質。最終確認Pony Alpha真身即是GLM-5,這對團隊是一次巨大的鼓舞,也有力回擊了長期以來外界對中國本土模型技術水準的質疑。不僅如此,這次GLM-5論文公佈之後,在海外已經有不少人當教學來學習了。若是你也對此感興趣,論文放下面了,一起學習一下吧~GLM-5論文地址:https://arxiv.org/abs/2602.15763 (量子位)
GLM-5 漲價背後的真相:算力稀缺才剛剛開始
一個意料之中的訊號昨天上午,智譜 GLM-5 的 Coding Plan 漲價 30%。這個事情引起了很大的討論,我也非常理解,畢竟價格是最敏感的話題。當時我的第一反應是:終於還是漲了。雖然很反共識,但我一直預期 Token 會漲價,這個訊號是對我預期的一個確認。模型越強,Token 越稀缺,價格越貴。智譜在商業化上確實顯得不夠成熟,他們最大的失誤就是低估了模型能力進步帶來的指數級增長,一開始給的 plan 太大方,現在模型更大了,算力不夠,要麼砍用量,要麼漲價,沒有商業模式支撐的服務無法健康長久。昨晚一個朋友因為沒買到 Coding Plan,來借我的 API key。這時候我才意識到,這次漲價之後,依然是限購狀態。漲價+限購,一代人有一代人的茅台?漲價背後的真相要理解這次漲價,只需要看清一個結構性矛盾:供給是線性的,需求是指數的。先看供給側。Google 2026 年的資本開支相比2025年,差不多翻倍。這已經是全球最有錢的科技公司之一,傾盡全力在砸算力基礎設施了。你不可能讓台積電明天就多造出十倍的晶片。供給側的增長曲線,是一條緩慢爬升的直線。再看需求側。需求不是一重指數,是三重指數疊加。第一重指數:Coding 模型能力提升解鎖新場景。特別是從 Vibe Coding 到嚴肅的 Agentic Engineering 這一躍升。每一次能力提升,都打開一片10倍的 Token 消耗場景。第二重指數:Agent 數量本身在爆發式增長。在未來一個人背後可能有 10 個、100 個 Agent 在 7×24 小時不間斷地呼叫模型。人會睡覺,Agent 不會。人一天工作 8 小時,Agent 一天工作 24 小時。Agent 的數量乘以 Agent 的工作時長,這個數字的增長速度遠超任何人類使用者的增長。第三重指數:Seedance 2.0,Nano Banana Pro 這樣的多模態模型的 Token 消耗量遠超純文字。視訊生成、圖像理解、程式碼工程,每一個場景的單次消耗都是純文字對話的幾十倍甚至上百倍。當這些場景被模型能力解鎖之後,Token 的消耗量會出現斷崖式的躍升。三重指數疊加在一起,面對的是一條線性增長的供給曲線。供給翻 2 倍,需求翻 10 倍甚至 100 倍。這種結構性的失衡,在可預見的未來一年內,只會增強不會逆轉。所以漲價不是智譜的選擇,是物理定律的選擇。有人天真地說,不用擔心,大廠會打價格戰的。你見過賣金鋪打價格戰嗎?稀缺的東西,不存在價格戰。GLM-5 憑什麼值這個價漲價 30% 需要底氣,這種底氣憑什麼?看三件事就夠了。第一,Coding 能力逼近 Claude Opus 4.5。GLM-5 幾個 Coding 能力的跑分上,已經追上了 Sonnet 4.5,開始朝著 Opus 4.5 逼近。在多個權威指標上都是開源模型的 SOTA。跟自己比,從 GLM-4.7 到 GLM-5,內部評估的程式設計任務平均增幅超過 20%。除了指標的提升外,GLM-5 不只是"寫程式碼更好了",而是從寫程式碼進化到了寫工程。它能自主完成後端重構、深度偵錯、長程規劃與執行,已經在朝著資深架構師的方向邁進。第二,Agent 能力是真正的長程任務執行。在 BrowseComp、MCP-Atlas、τ²-Bench 三個 Agent 評測基準上,GLM-5 均為開源第一。在 Vending Bench 2 的模擬經營測試中,GLM-5 經營一年期的自動售貨機業務,最終帳戶餘額達到 4432 美元,接近 Opus 4.5。有些榜是可以刷的,但模擬經營榜,代表模型真的能"做事"。長程任務中的目標一致性、資源管理、多步驟依賴處理,是 Agentic Engineering 時代的核心能力。第三,模型參數翻倍,推理成本也提高了。GLM-5 的參數規模從 355B(啟動 32B)擴展到 744B(啟動 40B),預訓練資料從 23T 提升到 28.5T,以 MIT License 完全開源。在頂級模型中,這種開放程度極為罕見。同時值得注意的是,GLM-5 已經完成了與華為昇騰、寒武紀、摩爾線程等國產算力平台的深度適配。在全球算力稀缺的大背景下,這件事的戰略意義非同小可。總之,使用者付的錢多了 30%,但拿到的能力漲了遠不止 30%。人是為更好的結果買單,所以漲價完全沒毛病。實測體感GLM-5 是第一個國內敢去對標 Claude Opus 的模型我個人測試,目前的水平肯定是達不到 Opus 4.6 水平的但我發現 GLM-5的思維方式和 Opus 4.6 非常像,思考深度非常深,有時候我看著這兩個模型的思考國產,都會非常驚嘆太聰明太全面了。但遺憾的是 GLM-5 還不具備 Opus 4.6 的獨立思考能力,會和 ChatGPT 一樣順著我的意思說。這是我用 GLM-5 寫的一個體感小遊戲,叫《抓馬》能寫出直接可玩的遊戲,還是非常強悍的。我和老婆玩了好幾盤,胳膊都有點累,所以錄視訊的時候已經沒有表情了。。 (AGENT橘)
2026春節:中國AI的“兩彈一星”時刻
2月8日,海外開發者社區OpenRouter上出現了一個代號為“Pony Alpha”的匿名模型。開發者們震驚地發現:這個神秘模型在完全無人干預下,竟能自主修復程式碼、讀取日誌,耗時數天建構出一個可用的C語言編譯器;甚至有人用它從零開發了手機應用,直接打包上架了應用程式商店。矽谷開發者們紛紛猜測,這到底是GPT的最新模型?還是Claude的秘密測試?又或是DeepSeek的又一記重拳?2月11日深夜,謎底揭曉。中國AI公司智譜發佈開源旗艦模型GLM-5。Pony Alpha的身份隨之揭曉——被矽谷追捧的神秘模型,來自中國。關於“智譜新模型全球登頂”的話題更是在這個前有Seedance 2.0刷屏全球,後有DeepSeek新模型,堪稱“神仙打架”的AI春節檔迅速霸佔榜首,隨之而來的,是一場屬於智譜的“現象級共振”。在產品端,GLM Coding Plan上線即售罄,官方不得不啟動限售和緊急擴容——一個國產AI程式設計模型的付費套餐被搶空,這在行業歷史上尚屬首次。在資本端,嗅覺最敏銳的華爾街投行摩根大通首次將智譜納入研究覆蓋,給予“買入”評級,定位為“捕捉下一波全球AI浪潮的首選標的”。市場隨即用真金白銀投出贊成票:GLM-5官宣後,智譜股價單日一度大漲40%,周漲幅高達120%。在政策端,先是總書記考察時智譜創始人唐傑作為大模型企業負責人進行匯報,同一周國務院也舉行專題學習,明確強調“深化拓展‘人工智慧+’全方位賦能千行百業”。技術突破、資本重估、頂層設計,三股力量在2026年的春節完成了歷史性的交匯。如果說2025年的春節是DeepSeek的“孤勇者時刻”,那2026年的春節,中國AI呈現出的是另一種面貌——不再是單一企業的單點突破,而是一場視覺、工程、基座三線齊發的集團突破。中國AI界實質上已經完成了數字時代的“兩彈一星”戰略部署。接管最高航道:中國AI同時定義“感官”與“生產力”這場屬於中國AI的“集體崛起”,絕非建立在資本的炒作上,而是源於核心生產力的實打實躍升。相比美國AI界更多的技術導向,中國AI則一直和產業發展緊密繫結。視覺生成與Agentic Coding(智能體程式設計),正是當下AI領域公認的兩條天花板最高、且能夠直接服務兆量級實體經濟的核心航道。AI視訊不僅重塑人類的感官體驗,也將重新定義內容製作流程和影響消費市場;而智能體程式設計則將重塑軟體產業的生產方式——從“AI輔助寫程式碼”進化到“AI獨立完成系統工程”。而在這兩條賽道上,中國AI都已經實現了新的突破。視覺航道上,Seedance 2.0給出的答卷已經不需要太多論證——全網的刷屏就是最好的背書。這款被字節跳動定位為“可導演的電影級全流程生成引擎”的模型,採用雙分支擴散變換器架構,可以同步生成視訊與音訊。只需要輸入提示詞或上傳一張參考圖,它就能產出帶完整原生音軌的多鏡頭視訊。在海外社交平台,AI影視創作領域最活躍的創作者之一el.cine坦言:“學了7年數字電影製作,現在感覺90%都白學了。”他用Seedance 2.0製作的第一條短片就引爆了關注——畫面中一名男子在人群中狂奔、撞翻水果攤、被警察追逐,運鏡、光影、表情、鏡頭語言近乎無可挑剔。網友的反應很直接:“我甚至不確定這是真的還是假的。”“要是你沒說這是AI,我都要去查演員了。”美國AI資料初創公司Parsewave的聯合創始人在觀看後表示:“我對AI視訊向來極其挑剔,但這個片段,我真的挑不出任何毛病。”另一位在Mac生產力社區小有名氣的獨立開發者更是直言:“中美AI視訊技術的差距已經大到有些難堪。中國這些模型的水平,看起來比美國所有公開可用的同類技術領先了整整兩代。”而在國內,遊戲科學CEO馮驥給出了“當前地表最強的視訊生成模型”的評價。他在微博上寫道:“AI理解多模態資訊並整合的能力完成了一次飛躍,令人驚嘆。”並說了一句被大量截圖轉發的話——“我很慶幸,至少今天的Seedance 2.0,來自中國。”如果說Seedance 2.0回答的是“中國AI能不能重新定義好看”,那麼GLM-5要回答的是另一個更硬核的問題:中國AI能不能造系統?過去兩年,AI程式設計領域最流行的概念叫“Vibe Coding”——用一句話讓AI生成一個網頁、搓一個小遊戲、寫一段能跑的指令碼。效果確實直觀,社交媒體上到處是“我用AI十分鐘做了個APP”的帖子。但做過真實項目的工程師心裡清楚:寫一段能跑的程式碼和造一套能上線的系統,完全是兩件事。真實的軟體工程需要持續數天的架構設計,需要在幾萬行程式碼之間維護邏輯一致性,需要在編譯報錯時自己去讀日誌、定位問題、改了再試,反覆迭代直到系統跑通。簡單說,它需要的不是一個能接話的“副駕駛”,而是一個能獨立扛活的工程師。實際上,矽谷已經在押注這個方向了。Anthropic的Claude Opus 4.6和OpenAI的GPT-5.3 Codex都在最新版本中重點強調同一個詞——“Agentic”,也就是讓AI以智能體的方式長時間自主運行,處理過去需要資深工程師花好幾天才能搞定的系統級任務。兩家公司不再強調“一句話出活”,而是開始展示模型能花幾個小時、呼叫幾百次工具,從零把一個編譯器等級的項目搭起來。這也意味著AI智能體的競爭維度已經悄然升級:不比誰畫的前端頁面更好看,比的是誰在長程系統工程中更靠譜。Pony Alpha在社區引起關注,正是因為它展示的是後一種能力。C編譯器案例之所以被反覆引用,不是因為“AI寫編譯器”這件事多新鮮,而是因為這類任務要求模型在數天跨度內、幾百次工具呼叫和上下文接力中維持邏輯連貫——中間任何一步出錯,後面整條鏈都會崩塌。跑通了,說明模型在長程規劃上的魯棒性過了一個關鍵門檻。開發者們用 GLM-5 製作出了橫版解謎遊戲、Agent 互動世界、論文版“抖音”等應用,這些應用已開放下載,或已提交商店稽核。這些案例的另一面驗證了一個從產品構思、前後端架構、資料抓取邏輯到最終打包上架App Store的完整閉環,全程由模型主導完成。當AI的產出物不再是GitHub上的程式碼片段,而是App Store裡等待真實使用者使用的上架應用,“能幹活”這三個字的含義就不一樣了。第三方AI評測機構Artificial Analysis在GLM-5發佈後更新了榜單。GLM-5已成為開源模型中的新領導者,在綜合智能指數和Agentic能力(即智能體在真實場景中完成經濟價值任務的能力)兩個維度均位列開源第一。在程式設計領域的核心評測SWE-bench Verified上,GLM-5拿到了77.4分,超過了Google的Gemini 3.0 Pro。如果說Seedance 2.0證明了中國AI能夠定義"好看"的標準,那麼GLM-5正在證明中國AI能夠定義“能幹活”的標準。來自中國的AI一個開始接管感官的天花板,另一個則佔領生產力的地基。打通全鏈路底座:中國AI重奪“定價權”與“算力主權”如果只看到Seedance和GLM-5兩個產品,就低估了這個春節真正的含金量。在兩個顯性事件之下,一整套支撐它們的生態正在完成系統性的咬合。先看技術層。2月11日,DeepSeek悄然推送了版本更新,上下文處理能力從128K Token大幅躍升至100萬Token——這意味著它可以一次性處理《三體》三部曲體量的完整文字。社區已經普遍將這次更新解讀為DeepSeek V4的灰度測試前兆。但DeepSeek更值得關注的,可能不是自己的下一步,而是它已經在發揮的作用。GLM-5在架構層面首次整合了DeepSeek的Sparse Attention機制。作為DeepSeek在長文字處理上的一項核心創新,能在維持模型效果的同時大幅降低計算成本。GLM-5將其吸收進了自己的架構,並在此基礎上跑出了逼近Claude Opus 4.5的成績。這意味著DeepSeek的核心技術創新,已經開始以“外溢”的方式被中國AI生態中的其他企業吸收和採用。它的價值不僅僅是“DeepSeek自己有多強”,而是它正在成為整個生態的技術底座——其他企業在這個底座上,各自向不同的方向建高樓。而智譜同樣的開源戰略也正在撼動美國閉源AI的地基。過去兩年,AI程式設計領域存在一條不成文的分工鏈:Claude和GPT這類閉源模型充當“大腦”,負責高品質的規劃和推理,每次呼叫收費不低;開源模型則被放在執行層跑量,便宜好用,但智力上限有限。很多開發團隊的實際工作流就是“Opus出方案,開源模型幹活”——大腦在別人那裡,腿在自己這裡。但當一個開源模型在長程任務規劃和自主糾錯上開始逼近閉源頭部水平,這條分工鏈的邏輯基礎就開始鬆動了。規劃和執行可以由同一個開源模型一站式完成,開發者不再需要為“大腦”單獨向昂貴的閉源API付費。行業變革往往不發生在“超越”的那一刻,而發生在“夠用”的那一刻。當開放原始碼的能力上限摸到了閉源的門檻,閉源一方的定價權就會開始承受壓力。正是因為察覺到了這種底層商業邏輯的鬆動,華爾街的視線開始向東方轉移。全球頂級投行對中國大模型公司給出的史無前例的高估值與核心站位,本質上是在用真金白銀髮出訊號:資本市場正在重新評估中國AI基座企業的價值錨點。而在算力層。GLM-5的推理叢集已大量運行在國產晶片之上——華為昇騰、摩爾線程、寒武紀、崑崙芯、沐曦、燧原、海光,模型完成了與這些國產算力平台的深度適配。面對產品上線後瞬間湧入的數以百萬計的真實流量衝擊,接住這波算力擠兌並完成緊急擴容的,正是這些國產晶片叢集。這也意味著從模型權重到推理算力,GLM-5跑通了一條不依賴輝達的技術全鏈路。一年前,中國AI的敘事集中在“誰是下一個DeepSeek”——一種單一英雄式的期待。而僅僅一年之後,這個生態已經從一枝獨秀進化為一套完整的、自主可控的技術體系,企業之間不再是零和博弈,而是在不同層面上互相支撐、系統性地抬高整體水位。至此,中國AI界在2026年春節的這場技術爆發,已經實質性地完成了數字時代的“兩彈一星”戰略部署:Seedance 2.0是炸開感官天花板的“視覺之彈”。它讓海外從業者感嘆“領先兩代”,讓“AIGC的童年結束了”成為行業共識。GLM-5是砸穿生產力深水區的“工程之彈”。它讓海外開發者將中國開源模型誤認為矽谷閉源頂流,並在國產模型歷史上首次創造了供不應求的“賣方市場”。DeepSeek則是那顆高懸於頂的“生態衛星”。它的核心技術正以外溢的方式為整個中國AI生態提供底層導航,讓企業之間形成了強大的技術互通。中國AI就從一枝獨秀,進化為在最核心賽道上同時出牌、且擁有全生態戰略底座的成建制軍團。而且這支軍團的牌還沒有出完。DeepSeek的旗艦級更新可能才剛剛露出冰山一角,字節跳動旗下的通用大模型豆包2.0已在內測中蓄勢待發,阿里旗下的千問3.5同樣被外界視為即將亮相的重磅選手。當這些牌在未來幾周內陸續打出,這個春節開啟的中國AI故事還遠未寫完。中國AI正在重寫全球規則2025年8月,OpenAI CEO Sam Altman曾警告:“美國可能正在低估中國在人工智慧領域進展的複雜性和嚴重性。”當時,這被很多人理解為向國會爭取撥款的策略性表態。半年後的今天,這場發生在春節的技術交卷證明了:Altman的焦慮正在變成現實。有美國AI觀察人士表示,SeedDance 2.0和智譜GLM-5的發佈代表著中國的技術迭代,帶來的風暴只會愈演愈烈。中國AI展示出來的,已經不再是單點的技術突圍,而是一種成體系的底層輸出。視覺生成、系統工程、開源生態、基座模型、國產算力——五條戰線在同一個時間窗口裡各自交出了世界級的答卷,並且在技術底層實現了深度咬合。當摩根大通開始用“首選標的”來定位中國大模型公司,當矽谷技術圈為“Pony Alpha”徹夜沸騰,華爾街與矽谷顯然都在被迫修正他們對中國科技實力的評估框架。如果2025年春節是DeepSeek的單刀赴會,那2026年春節,AI戰場上站著的已經是一支重塑全球版圖的中國集團軍。中國AI正在從追趕者變成基礎設施的定義者——這個處理程序已經不可逆轉。 (觀察者網)
10倍速的一夜:智譜GLM-5官宣,MiniMax與DeepSeek的暗戰
2 月 11 日深夜到 12 日清晨,短短幾個小時內,中國三家最知名的大模型公司幾乎同時完成了一輪關鍵更新:智譜正式發佈 GLM-5,MiniMax M2.5 在產品中悄然上線體驗,DeepSeek 也啟動新一輪能力升級。智譜 GLM-5:從“寫程式碼”到“搞工程”2 月 12 日,智譜正式官宣上線並開源新模型 GLM-5。同時確認:此前在 OpenRouter 上爆火的匿名模型 Pony Alpha,正是 GLM-5。在匿名測試階段,這個模型已經被全球開發者當作真實生產工具使用。有人用它做橫版解謎遊戲,有人搭建 Agent 互動世界,也有人直接基於它開發出論文版“抖音”等完整應用形態。模型在沒有品牌背書的情況下完成真實市場驗證,本身已經說明了能力層級的變化。智譜對 GLM-5 的定位非常明確:它不是一個聊天模型,而是一個 Agentic Engineering 基座模型。過去兩年,大模型的主流敘事是“寫程式碼”“寫前端”;而現在,行業共識正在轉向:模型需要完成完整工程與複雜任務,即從「Vibe Coding」走向「Agentic Engineering」。GLM-5 正是這一階段的代表產物。與上一代相比,GLM-5 不再滿足於生成一個漂亮 demo 或一段 Python 指令碼,而是為穩定交付生產級結果而生。在真實程式設計場景的使用體感上,GLM-5 已經被認為逼近當前行業天花板 Claude Opus 4.5。在底層能力上,GLM-5 進行了全面擴展:參數規模: 從上一代的 355B(啟動 32B)擴展至 744B(啟動 40B)。資料量級: 預訓練資料從 23T 提升至 28.5T。架構創新: 首次整合了 DeepSeek Sparse Attention 機制。這一技術在維持長文字效果無損的同時,大幅降低了模型部署成本,提升了 Token 的生成效率。非同步強化學習: 建構了全新的“Slime”框架,讓模型能夠在長程互動中持續學習,不再是“聊幾句就忘”。在全球權威的 Artificial Analysis 榜單中,GLM-5 位居全球第四、開源第一。GLM-5 在程式設計能力上實現了對 Claude Opus 4.5 的對齊,在工程師最看重的 SWE-bench-Verified(軟體工程基準測試)中,GLM-5 拿下了 77.8 的高分;在 Terminal Bench 2.0(終端操作能力)中達到了 56.2。這兩個分數不僅是開源模型的 SOTA(State Of The Art),更直接超越了 Google 的 Gemini 3 Pro。在智譜內部的 Claude Code 評估集合中,GLM-5 在後端重構和深度偵錯等“硬骨頭”任務上,比 GLM-4.7 平均提升了超過 20%。GLM-5 在 Agent 能力上實現開源 SOTA,在多個評測基準中取得開源第一。更有意思的是Vending Bench 2 的測試結果。這個測試要求模型在一年期內經營一個模擬的自動售貨機業務。GLM-5 最終的帳戶餘額達到了 4432 美元。這意味著它不僅會寫程式碼,還懂得資源管理和長期規劃,這種“經營能力”是邁向 AGI 的關鍵一步。同一夜:MiniMax 與 DeepSeek就在智譜官宣的同時,另外兩家巨頭的佈局也在進行。昨晚,細心的使用者發現,在 MiniMax Agent 產品中,底層模型選項裡悄然出現了一個新名字——MiniMax M2.5。雖然公司尚未正式官宣,但這顯然是一次在產品端的“實彈演習”。據早期測試使用者反饋,“M2.5 Agent能力炸裂”,“程式設計和工具呼叫又強又便宜”。此外,就在眾人還在猜測DeepSeek V4何時到來時,DeepSeek也在悄然更新。我們在昨晚嘗試詢問 DeepSeek 的最新狀態,在關閉“深度思考”和“聯網搜尋”後查詢模型資訊時發現,其上下文長度已提升至1M Token(此前為128K),知識庫截止日期更新至2025年5月。2026 年,註定不會平靜。智譜用 GLM-5 證明了中國模型在複雜工程能力上已能與世界最強掰手腕;MiniMax 在產品端極速狂奔,搶佔使用者心智;而所有人依舊在等待 DeepSeek 出招。對於此時此刻的身處浪潮中的我們來說,唯一的選擇就是——跟上速度。畢竟,在這個 10 倍速的夜晚過後,掉隊可能只是一瞬間的事。 (網易科技)
股價暴漲32%!GLM-5登頂全球開源第一,25分鐘一鏡到底搓出完整系統
Vibe Coding時代宣告終結!2026年伊始,智譜GLM-5震撼空降,以「智能體工程」重塑遊戲規則。用Claude七分之一的地板價,中國模型正面硬剛Opus 4.5!2月7日深夜,一個代號「Pony Alpha」的神秘模型悄悄上線。隨後,外網炸了。扔進去一段改了一天都沒搞定的「屎山程式碼」,它順手重構了架構;輸入一段簡單的提示,它吐出一個包含35個電台、UI絲滑的完整Web App。這種極致的工程能力,直接印證了 Andrej Karpathy 幾天前的斷言:Vibe Coding已經成為過去,新的遊戲規則只有一個名字——Agentic Engineering(智能體工程)。緊接著,Opus 4.6與GPT-5.3-Codex 次日深夜「撞車」上線,全篇只談「長程任務、系統工程」。就在所有人以為這又是閉源巨頭的獨角戲時,Pony Alpha的謎底揭曉——它是GLM-5。全球第一個站上這條賽道,和矽谷巨頭在系統級工程能力上正面硬剛的開源模型。謎底揭曉後,智譜股價直接暴漲32%!全球開源第一!國產模型的「Opus時刻」在真正上手之後,我們只有一個感受:真的太強了!如果說Claude Opus代表了閉源模型的巔峰,那麼GLM-5的發佈,無疑標誌著國產開源模型迎來了屬於自己的「Opus時刻」。在權威榜單Artificial Analysis中,GLM-5位居全球第四、開源第一就在發佈當日,10餘款由開發者基於GLM-5「手搓」的遊戲和工具已同步展出並提供體驗,後續這些應用也將陸續登陸各大應用程式商店。這意味著,GLM-5正將「AI程式設計」轉化為「AI交付」,真正實現了生產力工具向商業產品的無縫跨越。體驗地址:showcase.z.ai比如這個名為「Pookie World」的項目。就是由GLM-5驅動的數字平行世界,通過多層生物-心理框架賦予自主智能體真實的敘事完整性與生命動機。還有復刻版「我的世界」,這個效果和玩法簡直和Minecraft一模一樣。我們也使用Claude Code作為外殼,直接接入GLM-5的API進行了多維度的實測。無論是Next.js全端項目,還是MacOS/iOS原生應用,它都能實現從需求分析、架構設計到程式碼編寫、端到端偵錯的全流程閉環。做了N個項目,冥冥之中有一種感受:某種程度上,GLM-5或許是一個能改變行業格局的模型。複雜邏輯挑戰:「無限知識宇宙」如果你覺得寫個網頁很簡單,那試著讓AI搞定一個對JSON格式要求極嚴、且涉及動態渲染的「無限流」項目。就拿我們最先測試的「無限知識宇宙」來說。這是一個典型的複雜前後端分離項目,涉及React Flow動態渲染、Next.js API路由設計,以及極其嚴格的JSON格式輸出要求。對此,GLM-5的表現堪稱驚豔。它不僅一次性完成了整個項目檔案結構,更讓人驚喜的是它的debug邏輯。GLM-5立刻定位到是載入時機的問題,並迅速給出了修正方案。完整的提示詞如下:無限流·概念可視化核心概念:這是一個“永遠點不完”的思維導圖。使用者輸入任何一個關鍵詞(比如“量子物理”或“紅樓夢”),系統生成中心節點。點選任意節點,AI即時展開其子節點。驚豔時刻: 使用者會感覺自己在與一個全知的大腦互動。當他們隨意點選一個生僻概念,AI依然能精準展開下一層級時,這種“無限探索”的感覺非常震撼。視覺與傳播:- 使用React Flow或ECharts製作動態的、可拖曳的節點網路。- 配色使用Cyberpunk或極簡風格,非常適合截圖發朋友圈。可行性方案:- 前端:React + React Flow (負責畫圖)。- 後端:Next.js API Route。- Prompt策略:不需要複雜的上下文記憶,只需要讓AI針對“當前節點”生成5-6個關聯子節點並返回JSON格式即可。- 難點攻克:讓模型輸出穩定的JSON格式(這是測試模型指令遵循能力的絕佳場景)。更複雜的中台項目,11分鐘搭建完畢接下來加大難度,讓它開發一個名為「Soul Mirror」的心理分析應用。需求分為兩步:Step 1邏輯設計:扮演榮格心理學專家,輸出包含分析文字和視覺參數的JSON。Step 2前端實現:根據參數動態渲染SVG,生成塔羅牌風格的卡片。提示詞Step1: 邏輯設計我們要開發一個名為"Soul Mirror"的心理分析應用。互動流程:1.引導頁:使用者輸入當前的狀態或困惑。2.分析頁:AI提出2個深度追問,引導使用者探索內心。3.結果頁:基於對話,AI生成一張“心靈卡片”。請設計核心Prompt (System Instruction):要求模型扮演一位榮格心理學專家。在最後一步,模型需要輸出一個JSON,包含:- analysis: 心理分析文字。- visualParams: 一組用於生成抽象藝術圖的參數(如colorPalette(十六進制顏色陣列), shapes(圓形/三角形/波浪), chaosLevel(混亂度數值))。Step2: 前端實現與SVG渲染請編寫Next.js前端程式碼。重點是實現一個ResultCard元件。要求:1.接收Step1中的visualParams參數。2.使用SVG動態繪製圖形。例如:如果chaosLevel高,使用不規則的Path;如果colorPalette是暖色,背景使用漸變橙紅色。3.卡片佈局要精美,像一張塔羅牌:中間是動態SVG圖案,底部是使用者的名字和AI的一句“靈魂箴言”。4.增加一個“保存為圖片”的按鈕(使用html-to-image庫)。整個過程,它展現出的理解力,時常會讓人懷疑是不是在用Opus 4.5。但是看了一眼,確實就是GLM-5。25分鐘一鏡到底,真正的Agentic Coding為了更進一步測試GLM-5的能力,我們要求它不使用API,完全模擬真實使用者,來製作一個X平台的監控系統。結果:25分鐘,一鏡到底。完整錄屏如下:可以看到,GLM-5會在運行中自主呼叫各種工具Agent,規劃任務、拆解步驟、遇到報錯自己查文件修正。這種長時間維持邏輯連貫性的能力,是以前開源模型不敢想像的。完成後,一句話即可讓GLM-5自動運行項目看圖寫APP,這還原度真的服了最後,我們又把一張OpenClaw之父開放原始碼專案的截圖(一個AI額度統計工具),直接丟給GLM-5:照這個給我做一個MacOS App。沒一會,它真的「復刻」了一個同款產品出來。雖然資料是Mock的,但UI佈局、互動邏輯幾乎完美復刻。這不僅是視覺理解能力,更是將視覺轉化為SwiftUI程式碼的工程落地能力。大神手搓:1天復刻「丐版Cursor」為了驗證GLM-5的工程極限,一位資深開發者決定玩把大的:從零手搓一個帶桌面UI的AI程式設計助手——GLMLIFE。這相當於要做一個簡易版的Cursor。任務扔給GLM-5後,它沒有上來就狂寫程式碼,而是先甩出了一份專業的架構設計文件(PLAN.md),並做出了極其成熟的技術選型:直接採用了Monorepo架構,將項目精準拆解為三個核心包。Core:負責Agent核心引擎與LLM適配;CLI:處理命令列互動;Desktop:基於Electron + React 18的桌面主程序。從Zustand狀態管理到Tailwind樣式方案,再到複雜的IPC處理程序通訊,GLM-5像個帶了十年團隊的技術總監,把技術選型安排得明明白白。開發者原本以為要花三天配置環境,結果僅用一天就跑通了從環境搭建、核心邏輯實現到Electron打包的全流程。打開GLMLIFE的那一刻,你很難相信這是AI在一天內「架構」出來的產物。GLMLIFE製作迷你鋼琴實現過程為什麼它能成為「開源界的Opus」?放眼全球,Claude Opus 4.6和GPT-5.3-Codex之所以備受追捧,是因為它們具備極強的「架構」能力。Opus 4.6的暴力美學:16個AI分身自主分工,耗時兩周,從零建構了一個包含10萬行程式碼的Rust編譯器,通過了99%的GCC壓力測試。GPT-5.3的自我創造:它是OpenAI第一個「參與自身創造」的模型,在「出生」前就已介入訓練流程和叢集部署。然而,這一切都有一個致命的前提:它們不僅閉源,而且昂貴。此時此刻,GLM-5的發佈,便是中國開源大模型對Agentic時代的一次暴力破局。它直接盯著閉源巨頭最不想放手的領域——系統級工程能力,做了一次「平替式」的進攻。1. 新晉「後端架構師」智譜團隊非常清楚,開源界不缺能寫Python指令碼的模型,缺的是能處理髒活、累活、大活的模型。GLM-5在訓練中大幅強化了後端架構設計、複雜演算法實現和頑固Bug修復的權重,並且還實現了極強的自我反思機制。在編譯失敗時,它會像一個成熟的工程師一樣,自主分析日誌、定位根因、修改程式碼、重新編譯,直到系統跑通。2. 既然是幹活,就要算帳比肩Opus的性能,和開放原始碼的權重,讓GLM-5從某種程度上撼動了Anthropic和OpenAI建構起的圍牆花園。本地部署:它不僅可以在完全隔離的內部網路中運行,並且還能針對公司的私有框架進行微調,成為最懂自家程式碼的專員。成本可控:使用者可以用消費級顯示卡叢集跑起一個強力的Coding Agent,不必每運行一次測試都要心疼錢。屠榜SOTAGLM-5的這次進化,只能用兩個字形容:暴力。既然是面向複雜系統工程設計的基座模型,那規模肯定要拉滿。參數量從355B(啟動32B)一口氣幹到了744B(啟動40B),預訓練資料也從23T堆到了28.5T。除了「大」,還得「省」。眾所周知,Agent跑起來最燒錢的就是Token。為瞭解決這個痛點,GLM-5首次整合了DeepSeek Sparse Attention(稀疏注意力)機制。這讓它在處理超長上下文時,不僅能保持「無損」的記憶力,還能大幅降低部署成本。還有個更狠的「黑科技」——全新的非同步強化學習框架Slime。配合大規模強化學習,讓模型不再是「一次性工具」,而是能在長跑中越跑越聰明的「長程選手」。至於跑分,更是硬核:程式碼能力SWE-bench Verified直接衝到77.8分,Terminal Bench 2.0一舉拿下56.2分,都是開源第一。這個成績不僅超了Gemini 3.0 Pro,更是直接貼臉Claude Opus 4.5。Agent能力BrowseComp(聯網檢索)、MCP-Atlas(工具呼叫)和τ²-Bench(複雜規劃),全線霸榜開源第一。最有趣的是Vending Bench 2(自動售貨機經營測試)。在這個測試中,模型得完全靠自己經營一年售貨機。您猜怎麼著,GLM-5到年底居然賺了4432美元,這水平都快趕上Opus 4.5了。在開發者最關心的內部Claude Code評估集合中,GLM-5在前端、後端、長程任務等程式設計開發任務上顯著超越上一代的GLM-4.7(平均增幅超過20%)。真實使用體感已經逼近Opus 4.5。用AI造AI當然,GLM-5的野心不止於模型,更在於重構我們手裡的程式設計工具。全球爆火的OpenClaw讓大家看到了AI操作電腦的潛能。這次,智譜也推出了AutoGLM版本的OpenClaw。在用原版時,光環境配置就需要折騰半天,現在官網一鍵部署。想要個7x24小時幫你盯著推特、整理資訊、甚至寫指令碼的「數字實習生」?點一下就有了。同時發佈的還有Z Code——完全基於GLM-5能力誕生的新一代開發工具。在Z Code裡,你只管提需求,模型會自動拆解任務,甚至拉起一堆Agent並行幹活:寫程式碼、跑命令、Debug、預覽,最後連Git提交都幫你搞定。甚至,你還可以用手機遠端指揮桌面端的Agent幹活。值得一提的是,就像OpenAI用Codex寫出了Codex,Z Code本身,也是GLM模型全程參與開發出來的。國產算力的勝利在GLM引爆全球流量、Agent需求激增的背後,一群「無名英雄」正默默支撐著海量的計算負荷。為了確保每一行程式碼、每一次 Agent 規劃都能穩定輸出,GLM-5已經深入國產算力的「腹地」,完成了與華為昇騰、摩爾線程、寒武紀、崑崙芯、沐曦、燧原、海光等主流平台的深度適配。通過底層算子級的精細化最佳化,讓GLM-5在國產晶片叢集上也能跑出「高吞吐、低延遲」的滿血表現。這意味著,我們不僅有了頂級的模型,還不被卡脖子。結語2026年的春天,程式設計大模型終於脫去了稚氣。Karpathy所謂的「Agentic Engineering」,本質上是對AI提出了一種更嚴苛的「面試要求」:以前(Vibe Coding):只要你會寫漂亮的HTML,我就錄用你。現在(Agentic Coding):你需要懂Linux核心,懂500個微服務之間的呼叫關係,懂如何在不炸掉線上的前提下重構程式碼,還要能自己規劃任務、自己修Bug。GLM-5並不完美。但在「建構複雜系統」這一核心命題上,它是目前開源界唯一能接住這波「Agentic浪潮」的選手。Vibe Coding已經結束了。別再問AI「能不能幫我寫個網頁」了。那是2025年的事情。現在,試試問它:「能不能幫我重構這個高並行系統的核心模組?」GLM-5,Ready to Build!彩蛋GLM-5已經納入Max使用者套餐,Pro將盡快在5天內支援!並且剛剛智譜宣佈漲價,今年的Token註定是要漲價的!趕快去體驗吧!官方API接入BigModel開放平台:https://docs.bigmodel.cn/cn/guide/models/text/glm-5Z.ai:https://docs.z.ai/guides/llm/glm-5OpenClaw接入文件:https://docs.bigmodel.cn/cn/coding-plan/tool/openclaw開源連結GitHub:https://github.com/zai-org/GLM-5Hugging Face:https://huggingface.co/zai-org/GLM-5ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5 (新智元)