#GLM
中國國產大模型8小時上班,GLM-5.1實測:程式碼真能硬剛Claude Opus?
當模型能獨立工作8小時,從零建構一套Linux桌面系統,AI還只是“會聊天”嗎?先看參數:744B MoE,純中國國產晶片訓練2026年4月8日,智譜正式開源了新一代旗艦模型GLM-5.1。總參數量744B(混合專家MoE架構),每次推理啟動40-44B參數,256個專家中啟動8個。上下文窗口200K tokens,最大輸出131,072 tokens,訓練資料量達28.5兆tokens。最引人注目的訓練硬體:10萬塊華為昇騰910B晶片,完全沒有使用輝達GPU。這意味著中國AI產業在算力自主上邁出了實質性的一步。模型採用MIT開源協議開放權重,可在Hugging Face和ModelScope下載。三大亮點:8小時上班、登頂SWE-Bench、開源最強亮點一:8小時級長程任務,模型“上班”你睡覺GLM-5.1能在單次任務中持續、自主地工作超過8小時,完成從規劃、執行到迭代最佳化的完整閉環。在METR榜單同等評估標準下,GLM-5.1是唯一達到8小時級持續工作的開源模型,全球範圍內除Claude Opus 4.6外少數具備這一能力的模型。官方給出了三個驗證場景:8小時建構Linux桌面系統:零人工介入,從零交付包含窗口管理器、檔案瀏覽器、終端、文字編輯器、系統監視器、遊戲庫的完整系統,執行超過1200步。向量資料庫655輪最佳化:從零用Rust編寫向量搜尋引擎,自主迭代655輪,完成6次結構性策略躍升,最終將查詢速度從3108 QPS提升至21472 QPS,提高了6.9倍。KernelBench 1000+輪最佳化:在50個真實AI模型上編寫最佳化GPU程式碼,最終達到3.6倍加速,遠超PyTorch自帶最佳化器的1.49倍。這種“實驗→分析→最佳化”的自主閉環,讓模型不再是一次性生成程式碼的工具,而更像一個能持續工作的資深工程師。亮點二:SWE-Bench Pro超越Claude,中國國產模型首次登頂在最接近真實軟體開發的SWE-Bench Pro基準測試中,GLM-5.1得分58.4,超過GPT-5.4(57.7)、Claude Opus 4.6(57.3)和Gemini 3.1 Pro(54.2),刷新全球最佳成績。這是中國國產模型在該基準上首次超越全球最強程式設計模型。三項編碼基準綜合平均分,GLM-5.1取得全球第三、中國國產第一、開源第一。程式設計評測分數從GLM-5的35.4提升至45.3,提升幅度達28%,距離Claude Opus 4.6的47.9僅有2.6分差距。亮點三:開源最強 + MIT協議,性價比碾壓MIT開源協議意味著可商用、可自由修改、可私有化部署。支援vLLM、SGLang等主流推理框架本地運行,同時相容Claude Code、OpenCode等開發工具。價格方面,GLM-5.1輸入$1.00/百萬token、輸出$3.20/百萬token,輸入成本約為Claude Opus 4.6的1/5,輸出成本僅為1/7.8,相比GPT-5.4也便宜一半以上。不過需要注意,Coding Plan高峰期呼叫消耗3倍額度,非高峰期2倍,建議儘量錯峰使用。實測案例:我用GLM-5.1跑了三個真實任務光看跑分沒意義,我用GLM-5.1跑了三個自己工作中的真實場景,下面是完整記錄。測試一:程式碼生成——從零寫一個視訊下載器前端我先讓GLM-5.1幫我寫一個帶介面的視訊下載工具(支援解析某音、B站、油管連結)。提示詞很簡單:“用Python + Tkinter實現,能貼上連結、選擇畫質、顯示下載進度,程式碼要可運行”。結果:第一次生成:程式碼結構完整,但缺少非同步下載(介面會卡死)。我反饋“下載時介面卡住”,模型主動加了threading,並給出了進度條回呼的實現。第二次生成:基本可用,但某音連結解析失敗。模型自己分析可能是介面變化,建議我用yt-dlp庫代替手寫解析,並給出了完整的替換程式碼。最終耗時:約40分鐘,生成了約350行程式碼,功能完整,開箱即用。對比感受:同樣任務用GPT-4.5,第一次生成更“漂亮”,但遇到錯誤後修復能力弱,經常繞圈子。DeepSeek-R1生成速度更快,但程式碼註釋偏少,偵錯起來不如GLM-5.1清晰。GLM-5.1的亮點:遇到報錯會自己讀日誌、主動分析原因、給出多種解決方案並解釋優缺點,像跟一個中級工程師結對程式設計。測試二:長文件處理——10萬字需求文件轉測試用例我拿了一份公司內部真實的系統需求文件(約9.8萬字,含介面定義、狀態機、異常流程),讓GLM-5.1一次性讀完,然後生成三樣東西:測試用例集(Excel格式)、自動化測試指令碼(Pytest)、覆蓋率分析報告。結果:上下文保持:模型確實記住了文件前文提到的“訂單號必填且不可重複”的約束,在生成用例時沒有出現矛盾。輸出質量:生成了127條測試用例,覆蓋了功能、邊界、異常、冪等、超時等維度。自動化指令碼框架合理,但需要替換真實API域名才能跑通。翻車點:當我嘗試讓它在同一個對話裡繼續生成性能測試方案時,模型開始出現“遺忘”——把之前定義的支付狀態碼記混了,把“支付成功”和“支付中”兩個狀態碼弄反了。這說明在超過7萬token後的極限高壓下,它確實會偶爾邏輯漂移。對比感受:GPT-4.5處理同樣文件,上下文一致性更好,幾乎沒出現遺忘,但輸出格式經常“自作主張”換成Markdown表格,不方便匯入工具。DeepSeek-R1長文件理解也不錯,但生成用例的粒度偏粗,漏掉了一些邊界條件。GLM-5.1的強項:輸出格式嚴格遵守指令(我要JSON就JSON,要Excel就Excel),且用例與需求原文的追溯關係做得很清楚。測試三:多輪對話——改一個老項目的bug我從GitHub上找了一個自己以前寫的、有已知bug的Flask部落格項目(約3000行程式碼,包含使用者認證、評論系統),讓GLM-5.1在不看全部程式碼的情況下,通過我描述現象來定位並修復bug。過程:我描述:“使用者登錄後,偶爾會跳轉到404頁面,不是每次都出現。”模型第一輪:讓我檢查session配置和@login_required裝飾器的重新導向邏輯。我貼出相關程式碼段後,模型發現是next參數未做URL校驗,導致惡意或畸形的next參數觸發404。模型給出了修複方案(用urlparse校驗相對路徑),並主動解釋了為什麼“偶爾出現”是因為只有特定構造的請求才會觸發。我按照修復程式碼改了,問題解決。對比感受:同樣的問題描述,GPT-4.5也能定位到next參數問題,但給出的修復程式碼缺少對空值和相對路徑的完整處理,需要我二次追問。DeepSeek-R1的推理過程更詳細,但回覆較長,互動節奏偏慢。GLM-5.1的亮點:多輪對話中保持目標清晰,不跑題,且主動補充“為什麼會有這個bug”的解釋,對理解問題本質有幫助。小結: GLM-5.1在程式碼生成和長文件結構化提取上表現確實強,尤其適合“給一個目標,讓它自己拆解執行”的場景。但在超長上下文(>7萬token)的極限穩定性和通用創意任務上,目前還無法完全替代Claude Opus或GPT-4.5。坦誠侷限:那些場景表現不佳?通用任務與創意寫作大幅回退:GLM-5.1為了極致強化程式碼能力,在通用對話和創意扮演上明顯弱於GLM-5。寫文案、寫行銷軟文、做創意策劃,用它會比用GPT-4.5或DeepSeek-R1體驗差很多。高壓長文字易“發瘋” :雖然標稱200K上下文,但實測灌入5-7萬token的複雜程式碼庫後,偶爾會出現邏輯混亂、狀態漂移甚至幻覺。推理能力仍落後頭部模型:在GPQA Diamond(86.0% vs Claude 91.3%)和Humanity's Last Exam(30.5 vs Claude 53.1%)等推理測試中,與Claude Opus 4.6和GPT-5.2仍有明顯差距。推理速度偏慢:實測約44.3 tokens/秒,意味著長回答需要更多等待時間。定價策略調整:OpenRouter資料顯示GLM-5.1提價10%,編碼場景快取命中Token價格已接近Claude Sonnet 4.6水平。適用人群與侷限性適合誰:AI Agent/長程任務開發者:如果需要模型自主完成複雜工程(全端項目、系統最佳化、持續偵錯),GLM-5.1是目前中國最好的選擇。資料敏感型企業:MIT協議可私有化部署,適合金融、政務、醫療等對資料安全要求嚴格的機構。預算有限的個人開發者:雖然提價,但相比Claude Opus和GPT-5.4,性價比仍然極高。需要中文程式碼生態的使用者:GLM-5.1在中文註釋、中文需求理解、中國國產框架適配方面有明顯優勢。不建議用:寫文案、做創意、日常閒聊:這些場景下表現不如GLM-5甚至大幅退步。超長程式碼庫重構(7萬token+) :需要極穩定上下文保持的場景,Claude Opus 4.6仍是更安全的選擇。對推理速度敏感的應用:44.3 tokens/秒的速度需要提前評估。總結評分(10分制)GLM-5.1不是“全能型”選手,而是一個極度偏科但長板極長的專業模型。它在程式碼生成和長程任務上的表現已經接近世界頂級水平,同時以MIT開源協議和極具競爭力的價格,為開發者提供了一個真正可用、可落地的選擇。如果你每天的工作就是寫程式碼、做項目、建構Agent,GLM-5.1絕對值得一試。但如果你想找個“什麼都懂”的通用助手,建議繼續用GPT-4.5或GLM-5——這個模型的定位,從一開始就是“幹活”而不是“聊天”。 (青木睿思智能)
開源模型首超Opus4.6!智譜GLM-5.1登場,14小時後CUDA專家被沖了
最佳化CUDA Kernel這件事,剛剛被AI狠狠地衝擊了一波。因為現在,給AI十四個小時,它就能幫你把CUDA Kernel最佳化,加速比從2.6×推至35.7×!什麼概念?以前人類資深CUDA工程師要完成這個任務,需要數月反覆測試、調優、推翻重來才行;但現在,AI在你睡覺的時候就能解決掉。而且AI在這個過程中還展現出了專家級的直覺。例如在最佳化初期,它嘗試在現有高層框架內尋找解法,但很快通過自主跑測試發現性能觸及了天花板,然後它便做出了人類專家才有的決策——自主判斷放棄高層框架,直接轉向底層C++進行硬核重寫。整整14個小時裡,這個AI主打一個全自動:AI自己發現瓶頸,自己改變技術堆疊,自己重新編譯,自己測試。那這到底是何許AI是也?不賣關子,正是大家熟悉的,來自智譜的開源模型——GLM-5.1。隨著這次長程任務(Long Horizon Task)能力的提升,智譜官方也宣佈了一個重要的突破:首次解鎖了開源模型與當前全球最頂尖閉源模型Claude Opus 4.6的全面對齊!嗯,是妥妥穩坐全球最強開源模型寶座的感覺了。而且,從更多的權威評測榜單中來看,也是印證了這一點。在被稱為“軟體工程能力試金石”的SWE-bench Pro基準測試中,GLM-5.1刷新了全球最佳成績,直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型,拿下全球第一:甚至在海外網友們的圈子中,已經吹起了棄用Claude Max的風了:它的手感和Opus一模一樣,使用額度是Claude Code的3倍,成本卻只有1/3。HuggingFace CEO也出面站台,稱SWE-Bench Pro中性能最強的模型開源了:而這一切成績的背後,正是智譜面向小時級的長程任務能力。給AI幾個小時,一切都不一樣了當前主流的大模型,可以說大多數還是處於“分鐘級互動”的階段。但到了GLM-5.1這邊,它的交付單位就不同了——一個完整的項目。接下來,我們就通過實測的方式,來看下GLM-5.1的實力到底幾何。呼叫工具1000輪,最佳化真實機器學習模型負載第一個實測,我們順著前面的CUDA的例子,繼續讓GLM-5.1進行一場考驗:KernelBench Level 3最佳化基準,這一基準涵蓋50個真實機器學習計算負載,主打一個還原真實工業場景,考驗的是端到端的完整最佳化能力而非單一算子偵錯。在超過24小時的不間斷迭代中,GLM-5.1全程自主發力,無需人類專家干預,一遍遍完成“編譯—測試—分析—重寫”的閉環循環,最終交出了這樣的結果——3.6倍幾何平均加速比,而作為對比,torch.compile max-autotune模式僅能達到1.49倍,差距直接翻倍不止!從這個過程中可以看到,GLM-5.1能夠自主編寫定製Triton Kernel和CUDA Kernel,運用cuBLASLt epilogue融合併實施shared memory tiling與CUDA Graph最佳化。這些最佳化策略覆蓋了從高層算子融合到微架構級調優的完整技術堆疊,每一步都是模型的自主決策。結果再次表明,在GPU核心最佳化這一傳統上高度依賴專家經驗的領域,AI模型已經展現出從問題分析、方案設計到迭代調優的端到端自主工作能力。1小時從零建構MacOS桌面環境在這個實測中,我們給GLM-5.1扔了一份3000字的PRD,核心要求只有一個:從0開始復刻MacOS核心UI與互動,不僅要前端殼子,還必須包含窗口管理器、Dock欄調度、以及模擬的底層檔案系統。這是一個標準的前端工程團隊至少需要數天才能打磨出原型的任務,但在GLM-5.1這裡,時間被壓縮到了小時等級。瞧,待它分析完任務之後,自己就開始唰唰地程式設計了:1個小時之後,在沒有任何人工參與的情況下,一個MacOS的桌面環境,就這麼水靈靈地誕生了!可以看到,更改桌面背景、放大縮小Docker、終端命令執行、系統自帶的截圖功能等,統統都能實現。而在智譜官方的demo中,展示了GLM-5.1耗時8小時實現的更加複雜的Linux系統:執行了1200多步,完整的桌面、窗口管理器、狀態列、應用程式、VPN管理器、中文字型支援、遊戲庫等……相當於一個4人團隊一周的開發工作量。不得不說,現在GLM-5.1的每一次提交,都是具有實質意義的系統級演進。全自動重寫屎山程式碼寫程式碼的人都知道,比從零寫一個新項目更痛苦的,是重構別人留下的屎山程式碼。但現在有了GLM-5.1,我們可以把這個任務交給它來處理了。例如這段程式碼就堪稱是屎山中的經典:變數名完全無意義、五層巢狀if、重複計算總和三遍、全域變數到處亂改、函數幾百行不拆分……能運行嗎?能運行;噁心嗎?也是真噁心。而在GLM-5.1隻需半小時的自動重寫之後,一份註釋清晰、符合標準的程式碼就誕生了:655次迭代,打破向量資料庫性能瓶頸如果說重構程式碼還只是把已有的東西做好,那向量資料庫最佳化,考驗的就是AI自主迭代、持續突破的能力。這也或許正是人類資深工程師最核心的價值。在這項測試中,GLM-5.1的需求是最佳化現有向量資料庫的查詢性能,儘可能提升QPS。隨後,它開啟了完全自主的“測試-分析-最佳化-再測試”閉環。每一輪最佳化後,它都會主動跑完整的Benchmark,獲取QPS、延遲、記憶體佔用等核心資料,自主分析性能瓶頸。最終,在655輪迭代之後,GLM-5.1把向量資料庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS,提升到初始正式版本的6.9倍。AI能獨立工作多久,成了新標準之所以GLM-5.1這次能夠炸場,本質上是它踩中了AI行業的下一個核心賽點:長程任務(Long Horizon Task)能力。2025年3月,全球頂尖的AI安全研究機構METR(Model Evaluation and Threat Research)便提出了一個徹底改變行業認知的新指標,叫做Task-Completion Time Horizon(任務完成時間線)。這個指標的核心思想是,不再用做題的精準率來衡量模型有多聰明,而是用時間來衡量它能獨立完成多長時間的人類專家任務。研究顯示,前沿模型的時間線每7個月就會翻一倍,這條指數曲線,被MIT Technology Review稱為“AI領域最重要的一張圖”。紅杉資本更是在2026年初直接宣告:“這就是AGI的核心方向”,並直言:2023-2024年的AI,是只會對話的“talker”,而2026-2027年的AI,將成為能真正落地做事的“doer”。而GLM-5.1,是全球第一個在真實工程任務中,驗證了8小時持續工作能力的開源模型。它能在單次任務中,持續、自主地工作長達8小時,過程中自主規劃、自主執行、自主測試,碰壁時主動切換策略,出錯後自行修復,最終交付完整的工程級成果。GLM-5.1之所以能做到這一點,核心源於三個維度的系統性技術突破:第一,更強的長程規劃與目標保持能力。它能把一個複雜的大目標,拆解為可執行的多階段計畫,並且在長達十幾小時、上千步的執行鏈路中,始終圍繞最終交付目標推進。簡單來說,就是幹到第十步,還記得第二步定的規矩。第二,更穩的自適應糾錯與持續執行能力。它實現了程式碼編寫、工具呼叫、環境偵錯、API對接等多個環節的穩定銜接,中途出錯時,不會停下來等人工介入,而是會自主查看錯誤日誌、定位問題根源、修復bug,甚至自己寫回歸測試用例驗證修復效果。第三,更好的狀態延續與上下文整合能力。面對長時間跨度、多輪反饋和百萬級token的上下文資訊,它能穩定追蹤已完成的工作、當前所處的階段和下一步的核心動作,持續整合新的資訊,保持整個執行鏈路的一致性。開源模型看中國,更得看智譜GLM-5.1的出現,不僅是模型能力的升級,更改寫了全球大模型行業的敘事邏輯。長久以來,中國開源模型始終帶著追趕者的標籤,與美國頂尖閉源模型存在差距,而GLM-5.1徹底打破這一局面:它在權威榜單上對齊Claude Opus 4.6,在SWE-bench Pro等核心工程指標上實現反超,讓中國開源AI在核心工程能力上與全球前沿並駕齊驅。更重要的是,它的變革遠超模型本身,正重構兆級IT服務市場的底層邏輯。AI Coding的進化有清晰路徑:從程式設計師提效工具,到降低程式碼門檻,再到能自主做事的初級工程師,而GLM-5.1的Long Horizon能力,直接將AI推向能持續工作數小時、交付完整項目的新階段。當AI的交付單位從一行程式碼變為一個完整項目,便衝擊了整個軟體工程的生產關係——4人團隊一周的工作量、資深工程師數月的最佳化任務,它數小時就能完成,這將重構多個行業的定價與人力配置邏輯。當然,我們不必陷入AI會替代程式設計師的無謂焦慮。就像當年電腦的普及,沒有淘汰會計這個職業,只是淘汰了不會用電腦的會計;AI的到來,也不會淘汰開發者,只會淘汰不會駕馭AI的開發者。GLM-5.1的出現,真正給整個行業拋出的核心問題是:當AI已經能自主完成長達數小時的複雜長程任務,實現從規劃、執行、糾錯到完整項目交付的全閉環時,人類的不可替代性到底在那裡?答案或許就是定義問題、創造價值、做出核心決策的能力,畢竟這是AI暫時無法替代的核心護城河。而對中國AI行業而言,GLM-5.1隻是開始,當開源模型達到全球頂尖工程能力、AI從對話者變為執行者,行業必將迎來更徹底、更深刻的變革。 (量子位)
Day-0支援|摩爾線程完成智譜GLM-5.1極速適配
高效支撐長程任務與程式碼生成今日,摩爾線程在其旗艦級AI訓推一體全功能GPU MTT S5000上,成功實現了對智譜新一代旗艦模型GLM-5.1的Day-0極速適配,提供推理部署和訓練復現全流程支援。依託MUSA軟體棧強大的生態相容性,摩爾線程技術團隊基於高性能 SGLang-MUSA推理引擎及TileLang-MUSA算子程式語言,採用PD分離架構完成深度調優,在 MTT S5000 上實現 GLM-5.1 的高效、高精度推理。這一成果彰顯了國產算力基礎設施對前沿 SOTA 模型的快速響應能力,也為行業樹立了軟硬協同應對複雜 AI 推理場景的新標竿。GLM-5.1是智譜迄今最智能的旗艦模型,也是目前全球最強的開源模型。GLM-5.1大大提高了程式碼能力,在最接近真實軟體開發的SWE-bench Pro基準測試中超過GPT-5.4、Claude Opus 4.6,刷新全球最佳成績。值得一提的是,在模型整體性能大幅提升外,GLM-5.1還在長程任務(Long Horizon Task)處理能力上實現了顯著突破。和當前分鐘級互動的模型不同,GLM-5.1能夠在一次任務中獨立、持續工作超過8小時,期間自主規劃、執行、自我進化,最終交付完整的工程級成果。針對GLM-5.1的長程任務與程式碼生成特性,摩爾線程基於自研MUSA架構與SGLang-MUSA、TileLang-MUSA等關鍵技術,完成了系統性的算子適配與推理性能調優。MTT S5000單卡AI算力(稠密)可達1000 TFLOPS,支援FP8到FP64全精度計算,其原生FP8加速顯著提升推理效率;結合高效KV Cache管理,有效支撐極長上下文的視訊記憶體需求;同時,PD分離架構進一步解耦Prefill與Decode階段,降低長序列生成中的干擾,保障持續任務的高吞吐與低延遲。此外,MTT S5000提供784GB/s的卡間互聯頻寬,為大規模部署帶來彈性擴展能力。通過軟硬協同最佳化,MTT S5000能夠穩定承接GLM-5.1的長程任務吞吐與工程級程式碼推理表現。從GLM-4.7到GLM-5.1,摩爾線程已連續實現發佈當日極速適配。這既體現了MUSA架構對主流AI生態的深度相容,更標誌著國產全功能GPU已具備大模型“從適配到部署”的全鏈路支撐能力。摩爾線程將持續夯實算力底座,助力開發者快速應用前沿模型,共建更成熟的國產AI生態。來源:摩爾線程 (芯榜+)
阿里聯手中山大學放狠話:75%的Agent都在造“屎山”!233天連環大測,程式碼庫全崩了!自研新基準:GLM表現亮眼!網友:程式設計師飯碗保住了!
剛剛,一篇阿里聯合中山大學的研究在 X 上爆火了!今天一早,一位微軟產品故事講述者、前Google負責人級布道師 Priyanka Vergadia 分享了一則 X 帖子迅速走火,短短一天內獲8700+點贊、170萬+瀏覽。這篇高贊帖子描述了一項來自阿里巴巴團隊的研究,它是一場 233 天、總消耗達 100 億 token ,在真實生產環境中對主流的 8 家模型廠商提供的 18 個智能體的“耐力”實驗,最終證明了 AI 不會搶走人類開發者的飯碗!Priyanka 總結說:AI 只是編寫了一些遺留程式碼,未來十年你都得忙著修復它們!而一位業內人士對此表示,該項真正的重點在於:阿里團隊做了一個真正有意義的評分體系!小編這就帶大家看下這篇研究。戳破泡沫:一次性修復不叫“程式設計”,那叫“撞大運”該篇論文的名稱是《SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration》,由阿里巴巴集團與中山大學聯合完成。論文拋出了一個業內都有明顯體感,但沒人著手思考解決的“長期軟體評估”問題:現在的AI Agent,在 HumanEval 或 SWE-bench 這種“單向考試”裡刷分刷得飛起。只要給它一個明確的Bug,它就能咔嚓一下修好。但現實開發的現狀是: 程式碼是“活”的。今天你修了一個Bug,明天產品經理改了需求,後天底層依賴庫升了級。這一過程並不能被靜態、一次性的修復範式所刻畫。阿里和中山大學的研究團隊提出來一種新的性能標準: 衡量一個 AI 牛不牛,不看它能不能修好眼前的Bug,而要看它在長達半年的項目演進中,能不能不把程式碼庫搞崩。SWE-CI:233天、耗費百億token的“極限耐力賽”因此,為了測試AI的真實“抗壓能力”,研究團隊祭出了一種基於持續整合(Continuous Integration)流程建構的倉庫級基準:SWE-CI,首次將軟體工程評估從“一次性快照”轉向“長期演化”。該基準包含 100 個真實程式碼庫任務,每個任務平均對應一個真實程式碼倉庫中長達233天、包含71次連續提交的演進歷史。簡單理解,SWE-CL 就是對是一場極為殘酷的“智能體耐力賽”!真實戰場: 選取的任務跨度平均達 233天,涵蓋 71次連續提交。模擬人類: AI不再是修完就跑,而是要像真正的開發者一樣,在 CI(持續整合) 的死循環裡,應對一輪又一輪的需求變更。殘酷規則: 這是一場總消耗超過 100億 Token 的極限耐力賽。這裡列出一些更詳細設定:每個SWE-CI任務都來自GitHub上68個真實Python倉庫(維護≥3年、≥500星、含單元測試和依賴配置檔案)。任務定義為:從“基線提交”(base commit)演化到“目標提交”(oracle commit),平均跨越233天、71次提交、至少500行原始碼變更(不含測試)。代理必須在 Docker 隔離環境中,通過最多20輪迭代,逐步完成需求變更。值得注意的是,雙Agent架構:架構師Agent:分析失敗測試、定位根因,輸出1-5條高層次增量需求文件。程式設計師Agent:遵循TDD(測試驅動開發)流程,實際修改程式碼。整個過程模擬真實CI/CD流水線,每一次變更都會影響後續狀態,前期決策的後果會逐步累積。這正是傳統基準無法模擬的“長期記憶”與“技術債務放大器”。因此,評估指標也從單一通過率升級為兩個核心維度:1、零回歸率(Zero-Regression Rate):在任務演化過程中,最初通過的測試在後續變更後仍保持通過的比例。2、lEvoScore:一種加權平均指標,公式為 EvoScore = Σ(i=1 to N) γ^i × a(ci) / Σ(i=1 to N) γ^i,其中γ>1對後期迭代賦予更高權重,強調長期穩定性。當γ=1時退化為普通平均歸一化變更得分。戰況慘烈:75% AI正在瘋狂製造“技術債”實驗結果讓所有人脊背發涼。即便是在2026年這樣一個 Vibe Coding 都顯得落伍的時間點,主流智能體的表現依然像個“只會打補丁的實習生”。第一,“零回歸率”之痛:在模擬真實開發的長期測試中,絕大多數大模型的“零回歸率”竟然不到 25%。這意味著它們每改四次程式碼,至少有三次會搞壞原本正常的功能。第二,程式碼庫雪崩: 隨著項目演進,大多數模型產生的技術債呈指數級增長。前期看似高效,後期改動一下,整個系統直接原地爆炸。那麼,這場耐力賽中,誰是最後贏家呢?如果你對程式設計Agent有關注,相信你已經猜到了,自然是 Claude 4.5/4.6。它是唯一能在長周期維護中保持 50%以上零回歸率的選手,展現出了極強的“架構師思維”。GLM-5: 作為國產大模型的代表,在應對長期程式碼演進時表現搶眼,穩居第一梯隊。驚喜發現:GLM、Kimi是救火隊長,DeepSeek、Minimax是架構大師值得注意的是,論文中還發現了智能體也存在明顯的“AI人格”現象。不同模型廠商之間的偏好差異顯著,而同一廠商旗下的程式設計智能體往往表現出一致的傾向。具體而言:“走一步看一步”型(Kimi, GLM): 這些模型在修改程式碼時更激進,追求立刻解決當下的 Bug 或需求,但在長遠看來,它們可能較快地耗盡了程式碼庫的演進空間。“長線規劃”型(GPT, DeepSeek, MiniMax): 這些模型在修改時可能更謹慎,會考慮到程式碼結構對未來的影響,更具有“架構師”潛質。“全能穩健”型(Claude, Doubao,Qwen): 無論你更看重眼前還是長遠,它們的表現都非常均衡。尤其是 Claude,結合之前的排名看,它是在保持穩定的同時,水平上限也最高的選手。具體怎麼做的呢?團隊通過調整參數 γ 的值,來觀察模型排名隨之產生的變化。當 γ<1 時,EvoScore 會給早期迭代分配更高的權重,這有利於那些優先考慮程式碼修改“即時收益”的模型。相反,當 γ>1 時,後期迭代會獲得更多獎勵,從而讓那些為“長期改進”而最佳化(即優先考慮程式碼可維護性)的模型佔據優勢。對於這個現象,研究人員推測,這反映了不同廠商在訓練策略上的差異;而各廠商內部模型的一致性則表明,其內部訓練流水線(Pipelines)在大體上保持了穩定。為什麼智能體如此容易積累技術債務?論文間接給出兩點原因:首先是短期最優決策:模型傾向於“最快通過當前測試”的方案,而非全域最優架構。上下文遺忘:即使多輪迭代,模型對早期變更的深層影響理解不足。其次,模型有依賴與邊界敏感性:真實倉庫的外部依賴、配置漂移、邊緣案例遠超訓練資料覆蓋範圍。這意味著:現實中,一家公司若大規模採用AI生成程式碼,初期交付速度可能翻倍,但6~12個月後維護成本可能指數級上升——bug修復、重構、遷移難度都會放大。未來方向:從“快修”到“可持續”這篇論文可以說用一場真實大規模實驗,驗證了一點:目前的絕大多數 AI Agent 都是“紙牌屋建築師”。它們追求當下的測試通過率,卻對程式碼的長期生命力一無所知。而 SWE-CI 的意義在於,它把 AI 程式設計的門檻從“跑得通”拉高到了“可維護”的實用層面。SWE-CI更多的意義在於提供“診斷工具”:企業可利用類似基準測試自家 AI 工作流,提前識別那些模型適合“長期駐紮”。他們給出了三個 SWE-CI 的最佳化方向:其一,提高γ權重可鼓勵模型追求長期穩定;其二,雙Agent架構可進一步最佳化(例如加入“回顧Agent”反思歷史決策);其三,與現有工具鏈結合(如自動生成維護文件、回歸測試優先順序排序)有望緩解問題。智能體有希望在耐力上獲得成功嗎?但研究者的本意,並不是祛魅智能體,“ SWE-CI 本身就是進步的催化劑”。他們認為,智能體在耐力上是有望突破的。首先,Claude 4.5/4.6的領先或許預示著,更強的推理能力(而非單純生成)是突破關鍵。其次,未來模型若能內建“架構意識”“債務評估模組”,或與靜態分析工具深度融合,維護能力或將迎來質變。項目已開源目前,SWE-CI 開源倉庫和 Hugging Face資料集都已上線,大家都可以自行復現、擴展。這意味著,2026年之後,AI編碼競賽的賽道將從“誰寫得快”轉向“誰寫得穩”。SWE-CI 開源地址:https://github.com/SKYLENAGE-AI/SWE-CIhttps://huggingface.co/datasets/skylenage/SWE-CI網友炸了:1000億美元,就是為了自動化技術債務?正如論文中所說:“Agent 的程式碼維護能力只有通過長期演化才能顯現,過去決策的後果會在連續變更中累積。”對此,不少網友表示無語了:AI Coding 的越快,積累債務的速度也就越快!X 評論區也有人諷刺:“AI自動化了遺留程式碼的生產線”、“我們花1000億美元算力,就是為了完美模擬一個‘快速出貨、8個月後棄坑的初級開發’”。HN 討論區甚至有人提問:“當 SWE-CI 成為新標竿後,AI 編碼工具的估值邏輯是否需要重寫?”所以,這麼看,程式設計師的飯碗總算保住了。但網友卻調侃:“現在安全了?但能撐10年?10個月?還是10天?”“寫程式碼 ≠ 維護系統。” 一位名為 Stephen Collins 的 Medium 作者表示:軟體工程從來不只是“寫程式碼”。它更關乎如何管理複雜性、演進系統架構,以及在成千上萬次變更中保持關鍵不變數的穩定。而 SWE-CI 這一基準表明,這些挑戰對當前的AI智能體來說依然是難點。這也意味著,下一代開發者工具的重心,很可能會從“生成程式碼”,轉向“理解系統”。而與此同時,真正高效的開發者,永遠是那些能夠清晰理解系統的人:知道那些部分最關鍵,風險集中在那裡,以及注意力該放在那。 (51CTO技術堆疊)
中國AI大模型霸榜!
春節期間國產大模型的使用情況可謂如火如荼。OpenRouter最新周度資料顯示,平台前十模型總token量約8.7兆,中國模型獨佔5.3兆,佔比61%。當周token呼叫量前三模型均為國產大模型,分別為Minimax M2.5、Kimi K2.5、GLM-5,呼叫量環比上周分別變動增加197%、下降20%、增加158%。其中,MiniMax M2.5以2.45兆token空降榜首,Kimi K2.5以1.21兆緊隨其後,智譜GLM 5和DeepSeek V3.2分列第三、第五。OpenRouter是全球最大的大模型API聚合平台,可為開發者提供統一API介面,以訪問全球數百種大語言模型。其核心功能包括多模型呼叫、智能路由最佳化和透明的性能排行榜,旨在解決多模型整合複雜和廠商封鎖問題。從該平台提供的資料看,程式設計(Coding)和智能體(Agent)正成為大模型的兩大核心比拚點。OpenRouter整體呼叫量近期大幅攀升。官方確認,M2.5帶動了100K至1M長文字區間的增量呼叫需求,這個區間正是智能體工作流的典型消耗場景。論token呼叫量,在此平台排名前三的國產大模型都聚焦於提升程式設計能力和智能體(Agent)任務的自動化水平,是2026年初國產大模型在應用層面的重要突破。稀宇科技(MiniMax)於2月13日發佈MiniMax M2.5,稱該模型為全球首個為智能體場景原生設計的生產級旗艦模型。其發佈後七天的呼叫量即突破3.07T tokens,憑藉在程式設計和Agent工作流中的卓越性能與極低的成本,成為開發者首選。月之暗面(Moonshot AI)於1月27日發佈KimiK2.5,該模型採用原生多模態架構,能通過調度多達100個“Agent分身”平行工作,將複雜任務效率提升3到10倍。該模型在多個細分榜單(如程式設計、工具呼叫)中均排名第一,其呼叫量遠超Gemini 3和Claude模型。據澎湃新聞報導,該大模型發佈不到一個月,Kimi近20天累計收入已超過2025年全年總收入,增長主要受全球付費使用者及API呼叫量大漲共同推動,其中海外付費使用者數快速增長。智譜於2月12日發佈GLM-5,該模型參數規模進一步擴展,採用了稀疏注意力機制,是其專為複雜系統工程與長程Agent任務設計的旗艦模型。憑藉免費、200K上下文窗口等優勢,該模型發佈後使用者迎來高速增長,智譜對Coding Plan先後進行了限售、漲價等動作,除夕當天官宣全網尋找“算力合夥人”。隨著AI模型應用場景深化,使用者從簡單問答轉向複雜工作流,如讓模型重構程式碼、改寫檔案、生成文件等,以及智能體模式普及,當前token消耗呈現明顯的“通膨”趨勢。性能提升的同時,國產模型仍以性價比優勢出圈。如MiniMax M2.5和智譜GLM-5相比Claude Opus 4.6具備顯著的成本優勢:在輸入環節,MiniMax M2.5與GLM-5的價格均為0.3美元/百萬token,而Claude Opus 4.6則高達5美元/百萬token,是前兩者的約16.7倍;在輸出環節,MiniMax M2.5的價格為1.1美元/百萬token,GLM-5為2.55美元/百萬token,而Claude Opus 4.6的輸出價格達25美元/百萬token,分別是MiniMax M2.5的約22.7倍和GLM-5的約9.8倍。上述國產模型並不能完全反映國內模型廠商的token呼叫量情況。據海通國際證券,資料顯示,火山引擎的大模型日均token呼叫量已從2024年底的2兆增長至2025年底的63兆;阿里雲外部客戶2025年日均token呼叫也已接近5兆,2026年目標至少15-20兆,內部業務日均呼叫則計畫從16-17兆拉到100兆。從全行業看,中國整體日均token消耗2024年初為1000億,2025年中突破30兆,2026年2月主流大模型合計日均token消耗已到180兆等級。東莞證券最新研報表示,隨著國產模型的程式設計、智能體能力提升,其呼叫量大幅增加,國產大模型在程式設計、智能體領域對標全球頭部模型,有望進一步加快應用落地,加速token消耗量上漲。長江證券此前表示,隨著程式設計和多模態模型和產品的逐步成熟,下游應用場景有望被真正打開,帶來大量的高品質token需求。參照海外AI產業發展規律,從資本開支投入到token需求爆發存在約兩年的滯後期。國內大廠的AI資本開支周期較海外滯後約一年,於2024年下半年開啟。因此,國內雲廠商收入已開始兌現增長,而token數量的真正爆發預計將在2026年到來。 (科創板日報)
智譜GLM-5技術全公開!完全適配華為等中國國產晶片,美國網友酸了
GLM-5是怎麼煉成的?現在,它背後的論文終於完全公開了。論文的名字也很直接:告別Vibe Coding,邁入智能體工程(Agentic Engineering)。也正如我們之前實測的那般,它可以自己連續跑程式碼超過24小時、700次工具呼叫、800次上下文切換,從零直接手搓一個Game Boy Advance(GBA)模擬器。一言蔽之,GLM-5把開源AI拽進了長任務時代。外國網友直呼“GLM-5是最好的開源模型”:並且還認為“極大拉小了和Claude Opus 4.6之間的距離”除此之外,資本市場的表現也是可以從側面印證一家大模型公司的實力。畢竟春節期間,智譜股價飆升的程度,毋庸置疑,大家有目共睹。現如今,這份長達40頁的論文,徹底揭開了它背後的一切技術秘密。亮點如下:架構方面:在上一代經過驗證的ARC(智能體、推理與程式設計)能力和MoE之上,引入DeepSeek同款稀疏注意力(DSA);成本大幅打下來了的同時,長上下文能力卻一點沒丟。後訓練方面:全新建構的非同步強化學習基礎設施,把生成和訓練解耦,加上獨創的非同步智能體RL演算法,讓效率大幅提升。晶片適配方面:GLM-5完成了與華為昇騰、摩爾線程、海光、寒武紀、崑崙芯、沐曦以及燧原等國產晶片的全端適配。這也讓不少網友在看完論文之後直呼:在成本效率方面,美國的AI趕不上中國。接下來,就讓我們一起深入扒一扒這篇讓外國網友羨慕的技術論文。GLM-5的三大關鍵技術在深入技術之前,我們需要先理解GLM-5在技術發展當下所面臨的難題,即大模型需要真正開始干複雜的難活兒了。因為在GLM-4.5時代,智譜已經證明了將ARC能力融合進單一MoE架構是完全可行的。但當模型真正投入到複雜的軟體工程、長周期多輪對話的真實業務中時,算力成本和真實環境適應性成為了老大難的問題。△GLM-5 的整體訓練流程GLM-5要解決的就是這些瓶頸。因此,它在核心技術方面祭出了三把板斧。第一板斧:引入DeepSeek同款稀疏注意力機制在Transformer架構中,傳統的密集注意力計算複雜度是隨著上下文長度呈平方級(O(N2))增長的。當上下文窗口擴展至200K甚至更長時,計算成本將變得極其昂貴,這成為限制智能體處理複雜任務的主要瓶頸。GLM-5的解法是引入DSA這個動態稀疏注意力機制,它的核心理念是用動態的細粒度選擇機制替換傳統的密集注意力。與固定的滑動窗口模式不同,DSA 會“審視”內容,動態決定那些Token是重要的。然而,直接訓練一個基於DSA的超大模型無異於走鋼絲,很容易因為稀疏化帶來的資訊丟失而導致梯度爆炸或模型崩塌。因此,GLM-5團隊採取了一種極其巧妙的繼續預訓練策略,主要包含兩個步驟:稠密預熱(Dense Warm-up):模型並非一上來就搞稀疏。在預訓練的初始階段,模型依然使用相對稠密的注意力機制(類似於MLA的變體),讓模型先看全所有的資訊,建立起全域的、穩固的語義表徵能力。這就好比一個人在學習速讀之前,必須先紮紮實實地精讀。平滑過渡與稀疏訓練(Sparse Training):當模型具備了良好的基礎後,開始逐步提高稀疏度。DSA的核心邏輯是:在計算當前Token的注意力時,不再關注歷史上的所有Token,而是通過一個動態的路由機制(Routing Mechanism),只挑選出與之最相關的Top-K個Token進行計算。△MLA與DSA訓練的SFT損失曲線對比根據技術報告披露的資料,這一板斧砍下去,效果是立竿見影的:KV Cache開銷驟降75%:這意味著同樣的顯示卡,現在可以支撐4倍以上的並行請求,或者處理長達4倍的上下文。推理速度提升3倍:注意力計算的FLOPS被大幅削減,首字響應時間(TTFT)和每秒生成Token數(TPS)都達到了行業頂尖水平。長文字能力幾乎無損:這是最令人不可思議的一點。在著名的大海撈針以及諸如RULER等長文字複雜推理評測中,引入DSA的GLM-5與全稠密模型相比,性能下降微乎其微(小於0.5%)。第二板斧:非同步多工強化學習如果說DSA解決的是推理成本問題,那麼GLM-5的第二板斧,解決的就是訓練效率問題,尤其是決定模型最終智商的後訓練階段。當前業界主流的強化學習對齊演算法依然是PPO(近端策略最佳化)。標準的PPO是一個高度同步的過程,涉及到四個模型,即Actor生成模型、Reference參考模型、Critic評論家模型、Reward獎勵模型在多台GPU上的協同。這種“走一步,停一下”的同步機制,導致整個叢集的GPU利用率經常徘徊在20%-30%左右,大部分算力都浪費在等待網路通訊和處理程序同步上了。為了打破這個瓶頸,智譜基於4.5時代的Slime框架,為GLM-5從底層重寫了一套非同步強化學習基礎設施(Asynchronous RL Infrastructure)。它的核心設計是將訓練引擎和推理引擎解耦到不同的GPU裝置上。推理引擎持續生成軌跡,一旦生成數量達到預定閾值,這批資料就被傳送到訓練引擎更新模型。為減少策略滯後並保持訓練的近似同策略性,推理引擎的模型權重會定期與訓練側同步。這種完全非同步的訓練範式,通過減少Agent rollout期間的“氣泡”時間,顯著提升了GPU利用率和訓練效率。但要支撐這種非同步架構,還有幾個關鍵技術難題需要解決:第一,Token-in-Token-out(TITO)代替Text-in-Text-out。在RL rollout設定中,TITO意味著訓練流程直接消費推理引擎生成的精確tokenization和解碼token流來建構學習軌跡。相比之下,Text-in-Text-out將rollout引擎視為返回最終文字的黑箱,訓練器需要重新tokenization重建軌跡。這個看似微小的選擇實際上影響巨大:重新tokenization可能在token邊界、空白處理、截斷或特殊token放置上引入細微不匹配,從而影響對單個token採樣機率的估計。GLM-5實現了一個TITO閘道器,攔截rollout任務的所有生成請求並記錄每個軌跡的tokenID和中繼資料,將繁瑣的tokenID處理從下游Agent rollout邏輯中隔離出來。第二,直接雙側重要性採樣解決離策略偏差。在非同步設定中,rollout引擎可能在單個軌跡生成過程中經歷多次更新,這使得追蹤歷史訓練側模型的精確行為機率在計算上不可行——維護多個歷史模型權重顯然不現實。研究團隊採用簡化方案:將rollout期間生成的對數機率作為直接行為代理,通過計算重要性採樣比rt(θ) = πθ/πrollout,丟棄傳統的πθ_old,消除單獨舊策略推理的計算開銷。同時採用雙側校準token級掩碼策略,將信任域限制在[1-ε_l, 1+ε_h],對落在此區間之外的token完全螢幕蔽梯度計算。第三,DP感知路由加速長上下文推理。在多輪Agent工作負載中,來自相同rollout的順序請求共享相同前綴。研究團隊提出通過一致性雜湊將每個rollout ID對應到固定資料平行(DP)rank,並結合雜湊空間上的輕量級動態負載重新平衡。這避免了冗餘的預填充計算,無需跨DP rank的KV同步,隨著rollout長度增加,預填充成本仍與增量token成正比。這套非同步RL基礎設施支撐了GLM-5在多領域的混合RL訓練:數學、科學、程式碼和工具整合推理(TIR)。資料來源包括開源資料集、與外部標註供應商共同建構的STEM問題、Codeforces及TACO等代表性資料集。訓練中為各領域分配專屬裁判模型或評估系統生成二元結果獎勵,四個領域的整體混合大致保持平衡。第三板斧:投喂真實世界資料傳統SFT資料往往依賴標準答案,但真實世界是複雜多變的。為了讓模型具備真正的工程能力,GLM-5的第三板斧,就是建構大量可驗證的真實世界環境資料。整個SFT語料庫涵蓋三大類別:通用對話、推理、程式設計與Agent。值得注意的是,GLM-5在SFT階段將最大上下文長度擴展至202752個token,並支援三種不同的思考特徵:交錯思考:模型在每次響應和工具呼叫前進行思考,提升指令遵循和生成質量;保留思考:在Coding Agent場景中,模型自動在多輪對話中保留所有思考塊,復用已有推理而非重新推導,減少資訊丟失和不一致性;輪級思考:支援在會話中對每輪推理進行精細控制,輕量級請求可停用思考降低延遲,複雜任務可啟用思考提升精度和穩定性。為了支援Agent RL,研究團隊還建構了大規模的、可驗證的可執行環境:軟體工程環境:基於真實世界的Issue-PR對,採用RepoLaunch框架自動分析倉庫安裝和依賴設定,建構可執行環境並生成測試命令。最終跨數千個倉庫、涵蓋9種程式語言(Python、Java、Go、C、C++、JavaScript、TypeScript、PHP、Ruby),建構了超過10000個可驗證環境。終端環境:採用三階段Agent資料合成流程——任務草稿生成、具體任務實現、迭代任務最佳化。從種子任務出發,利用LLM生成可驗證的終端任務草稿,由建構Agent在Harbor格式中實例化為具體任務(結構化任務描述、Docker化執行環境、測試指令碼),再由精煉Agent迭代最佳化。整體流程產出數千個多樣化終端環境,Docker建構精度超過90%。搜尋任務:建構Web知識圖譜,以低至中頻實體為種子節點擴展多跳鄰域,將每個子圖轉化為隱式編碼多實體關係鏈的問題。再經過三階段過濾(刪除無工具推理模型能答對的、過濾早期Agent能幾步解決的、雙向驗證拒絕非唯一答案或不一致證據的),最終獲得高品質、高難度的多跳問答對。PPT生成:採用多層級獎勵機制——第1級關注靜態標記屬性(定位、間距、顏色、字型等),第2級評估執行階段渲染屬性(元素寬高、邊界框等),第3級引入視覺感知特徵(異常空白模式等)。最終生成的頁面中嚴格符合16:9寬高比的比例從40%提升至92%,頁面溢出顯著減少。大模型的測試也更難了技術的進步最終需要經受評測的檢驗。GLM-5的論文不僅展示了其在傳統榜單上的成績,更揭示了一個趨勢:大模型的測試正在變得更難、更貼近真實。在Humanity’s Last Exam(HLE)、SWE-bench Verified、BrowseComp等關鍵榜單上,資料顯示,GLM-5在SWE-bench Verified上得分77.8%,在開源模型中達到SOTA,優於Gemini 3 Pro,並與Claude Opus 4.5相當。在HLE(含工具)測試中,GLM-5得分50.4,優於Claude Opus 4.5和Gemini 3 Pro。在Artificial Analysis Intelligence Index v4.0中,GLM-5得到50分,成為新的開源SOTA模型,這是開放權重模型首次在該指數中達到50分。然而,智譜團隊認為,傳統的SWE-bench已經不夠看了。因為它是一個靜態、公開且發佈超過2年的測試集,模型可能存在記憶效應。為此,GLM-5團隊推出了CC-Bench-V2,一個完全自動化的、模擬真實軟體開發的評測集,涵蓋前端、後端和長程任務。在前端評估中,團隊引入了Agent-as-a-Judge技術,通過GUI Agent模擬使用者互動,驗證生成項目的功能正確性。結果顯示,GLM-5的建構成功率(BSR)達到98.0%,在檢查項成功率(CSR)上與Claude Opus 4.5具備競爭力。在後端評估中,GLM-5在真實開放原始碼專案上的Pass@1達到25.8%,與Claude Opus 4.5相當,顯著領先於GLM-4.7。更值得一提的是長程任務評估。CC-Bench-V2通過挖掘已合併的Pull Request建構多步鏈式任務,評估模型在增量開發中的上下文跟蹤與規劃能力。雖然GLM-5在此項上較GLM-4.7有顯著提升,但與Claude Opus 4.5仍有差距。團隊坦言,這是因為鏈式任務中錯誤會累積放大,縮小這一差距需要在長上下文一致性和長程自糾錯方面繼續突破。這一系列評測結果釋放了兩個明確訊號:第一,GLM-5 是開源界的第一個“全站工程師”,讓 AI 能自主執行超長、超複雜的任務;第二,通過單體MoE架構統一Agent、推理與程式碼能力的可行性得到了驗證,同時證明了RL在複雜程式碼生成中的巨大潛力。這對閉源模型而言,無疑是一種巨大的衝擊。One More Thing在論文的最後,團隊透露了一個有趣的彩蛋——Pony Alpha實驗。在論文公開前,GLM-5曾以Pony Alpha為代號,匿名發佈在OpenRouter平台上。隱去品牌資訊後,模型憑藉卓越的性能在社區引發轟動。初步統計顯示,25%的使用者推測它是Claude Sonnet 5,20%認為是Grok的新版本,僅有部分使用者猜中了GLM-5。這次匿名測試打破了先入為主的地緣偏見,讓社區的認可回歸到了“好用與否”這一最純粹的技術本質。最終確認Pony Alpha真身即是GLM-5,這對團隊是一次巨大的鼓舞,也有力回擊了長期以來外界對中國本土模型技術水準的質疑。不僅如此,這次GLM-5論文公佈之後,在海外已經有不少人當教學來學習了。若是你也對此感興趣,論文放下面了,一起學習一下吧~GLM-5論文地址:https://arxiv.org/abs/2602.15763 (量子位)
GLM-5 漲價背後的真相:算力稀缺才剛剛開始
一個意料之中的訊號昨天上午,智譜 GLM-5 的 Coding Plan 漲價 30%。這個事情引起了很大的討論,我也非常理解,畢竟價格是最敏感的話題。當時我的第一反應是:終於還是漲了。雖然很反共識,但我一直預期 Token 會漲價,這個訊號是對我預期的一個確認。模型越強,Token 越稀缺,價格越貴。智譜在商業化上確實顯得不夠成熟,他們最大的失誤就是低估了模型能力進步帶來的指數級增長,一開始給的 plan 太大方,現在模型更大了,算力不夠,要麼砍用量,要麼漲價,沒有商業模式支撐的服務無法健康長久。昨晚一個朋友因為沒買到 Coding Plan,來借我的 API key。這時候我才意識到,這次漲價之後,依然是限購狀態。漲價+限購,一代人有一代人的茅台?漲價背後的真相要理解這次漲價,只需要看清一個結構性矛盾:供給是線性的,需求是指數的。先看供給側。Google 2026 年的資本開支相比2025年,差不多翻倍。這已經是全球最有錢的科技公司之一,傾盡全力在砸算力基礎設施了。你不可能讓台積電明天就多造出十倍的晶片。供給側的增長曲線,是一條緩慢爬升的直線。再看需求側。需求不是一重指數,是三重指數疊加。第一重指數:Coding 模型能力提升解鎖新場景。特別是從 Vibe Coding 到嚴肅的 Agentic Engineering 這一躍升。每一次能力提升,都打開一片10倍的 Token 消耗場景。第二重指數:Agent 數量本身在爆發式增長。在未來一個人背後可能有 10 個、100 個 Agent 在 7×24 小時不間斷地呼叫模型。人會睡覺,Agent 不會。人一天工作 8 小時,Agent 一天工作 24 小時。Agent 的數量乘以 Agent 的工作時長,這個數字的增長速度遠超任何人類使用者的增長。第三重指數:Seedance 2.0,Nano Banana Pro 這樣的多模態模型的 Token 消耗量遠超純文字。視訊生成、圖像理解、程式碼工程,每一個場景的單次消耗都是純文字對話的幾十倍甚至上百倍。當這些場景被模型能力解鎖之後,Token 的消耗量會出現斷崖式的躍升。三重指數疊加在一起,面對的是一條線性增長的供給曲線。供給翻 2 倍,需求翻 10 倍甚至 100 倍。這種結構性的失衡,在可預見的未來一年內,只會增強不會逆轉。所以漲價不是智譜的選擇,是物理定律的選擇。有人天真地說,不用擔心,大廠會打價格戰的。你見過賣金鋪打價格戰嗎?稀缺的東西,不存在價格戰。GLM-5 憑什麼值這個價漲價 30% 需要底氣,這種底氣憑什麼?看三件事就夠了。第一,Coding 能力逼近 Claude Opus 4.5。GLM-5 幾個 Coding 能力的跑分上,已經追上了 Sonnet 4.5,開始朝著 Opus 4.5 逼近。在多個權威指標上都是開源模型的 SOTA。跟自己比,從 GLM-4.7 到 GLM-5,內部評估的程式設計任務平均增幅超過 20%。除了指標的提升外,GLM-5 不只是"寫程式碼更好了",而是從寫程式碼進化到了寫工程。它能自主完成後端重構、深度偵錯、長程規劃與執行,已經在朝著資深架構師的方向邁進。第二,Agent 能力是真正的長程任務執行。在 BrowseComp、MCP-Atlas、τ²-Bench 三個 Agent 評測基準上,GLM-5 均為開源第一。在 Vending Bench 2 的模擬經營測試中,GLM-5 經營一年期的自動售貨機業務,最終帳戶餘額達到 4432 美元,接近 Opus 4.5。有些榜是可以刷的,但模擬經營榜,代表模型真的能"做事"。長程任務中的目標一致性、資源管理、多步驟依賴處理,是 Agentic Engineering 時代的核心能力。第三,模型參數翻倍,推理成本也提高了。GLM-5 的參數規模從 355B(啟動 32B)擴展到 744B(啟動 40B),預訓練資料從 23T 提升到 28.5T,以 MIT License 完全開源。在頂級模型中,這種開放程度極為罕見。同時值得注意的是,GLM-5 已經完成了與華為昇騰、寒武紀、摩爾線程等國產算力平台的深度適配。在全球算力稀缺的大背景下,這件事的戰略意義非同小可。總之,使用者付的錢多了 30%,但拿到的能力漲了遠不止 30%。人是為更好的結果買單,所以漲價完全沒毛病。實測體感GLM-5 是第一個國內敢去對標 Claude Opus 的模型我個人測試,目前的水平肯定是達不到 Opus 4.6 水平的但我發現 GLM-5的思維方式和 Opus 4.6 非常像,思考深度非常深,有時候我看著這兩個模型的思考國產,都會非常驚嘆太聰明太全面了。但遺憾的是 GLM-5 還不具備 Opus 4.6 的獨立思考能力,會和 ChatGPT 一樣順著我的意思說。這是我用 GLM-5 寫的一個體感小遊戲,叫《抓馬》能寫出直接可玩的遊戲,還是非常強悍的。我和老婆玩了好幾盤,胳膊都有點累,所以錄視訊的時候已經沒有表情了。。 (AGENT橘)
2026春節:中國AI的“兩彈一星”時刻
2月8日,海外開發者社區OpenRouter上出現了一個代號為“Pony Alpha”的匿名模型。開發者們震驚地發現:這個神秘模型在完全無人干預下,竟能自主修復程式碼、讀取日誌,耗時數天建構出一個可用的C語言編譯器;甚至有人用它從零開發了手機應用,直接打包上架了應用程式商店。矽谷開發者們紛紛猜測,這到底是GPT的最新模型?還是Claude的秘密測試?又或是DeepSeek的又一記重拳?2月11日深夜,謎底揭曉。中國AI公司智譜發佈開源旗艦模型GLM-5。Pony Alpha的身份隨之揭曉——被矽谷追捧的神秘模型,來自中國。關於“智譜新模型全球登頂”的話題更是在這個前有Seedance 2.0刷屏全球,後有DeepSeek新模型,堪稱“神仙打架”的AI春節檔迅速霸佔榜首,隨之而來的,是一場屬於智譜的“現象級共振”。在產品端,GLM Coding Plan上線即售罄,官方不得不啟動限售和緊急擴容——一個國產AI程式設計模型的付費套餐被搶空,這在行業歷史上尚屬首次。在資本端,嗅覺最敏銳的華爾街投行摩根大通首次將智譜納入研究覆蓋,給予“買入”評級,定位為“捕捉下一波全球AI浪潮的首選標的”。市場隨即用真金白銀投出贊成票:GLM-5官宣後,智譜股價單日一度大漲40%,周漲幅高達120%。在政策端,先是總書記考察時智譜創始人唐傑作為大模型企業負責人進行匯報,同一周國務院也舉行專題學習,明確強調“深化拓展‘人工智慧+’全方位賦能千行百業”。技術突破、資本重估、頂層設計,三股力量在2026年的春節完成了歷史性的交匯。如果說2025年的春節是DeepSeek的“孤勇者時刻”,那2026年的春節,中國AI呈現出的是另一種面貌——不再是單一企業的單點突破,而是一場視覺、工程、基座三線齊發的集團突破。中國AI界實質上已經完成了數字時代的“兩彈一星”戰略部署。接管最高航道:中國AI同時定義“感官”與“生產力”這場屬於中國AI的“集體崛起”,絕非建立在資本的炒作上,而是源於核心生產力的實打實躍升。相比美國AI界更多的技術導向,中國AI則一直和產業發展緊密繫結。視覺生成與Agentic Coding(智能體程式設計),正是當下AI領域公認的兩條天花板最高、且能夠直接服務兆量級實體經濟的核心航道。AI視訊不僅重塑人類的感官體驗,也將重新定義內容製作流程和影響消費市場;而智能體程式設計則將重塑軟體產業的生產方式——從“AI輔助寫程式碼”進化到“AI獨立完成系統工程”。而在這兩條賽道上,中國AI都已經實現了新的突破。視覺航道上,Seedance 2.0給出的答卷已經不需要太多論證——全網的刷屏就是最好的背書。這款被字節跳動定位為“可導演的電影級全流程生成引擎”的模型,採用雙分支擴散變換器架構,可以同步生成視訊與音訊。只需要輸入提示詞或上傳一張參考圖,它就能產出帶完整原生音軌的多鏡頭視訊。在海外社交平台,AI影視創作領域最活躍的創作者之一el.cine坦言:“學了7年數字電影製作,現在感覺90%都白學了。”他用Seedance 2.0製作的第一條短片就引爆了關注——畫面中一名男子在人群中狂奔、撞翻水果攤、被警察追逐,運鏡、光影、表情、鏡頭語言近乎無可挑剔。網友的反應很直接:“我甚至不確定這是真的還是假的。”“要是你沒說這是AI,我都要去查演員了。”美國AI資料初創公司Parsewave的聯合創始人在觀看後表示:“我對AI視訊向來極其挑剔,但這個片段,我真的挑不出任何毛病。”另一位在Mac生產力社區小有名氣的獨立開發者更是直言:“中美AI視訊技術的差距已經大到有些難堪。中國這些模型的水平,看起來比美國所有公開可用的同類技術領先了整整兩代。”而在國內,遊戲科學CEO馮驥給出了“當前地表最強的視訊生成模型”的評價。他在微博上寫道:“AI理解多模態資訊並整合的能力完成了一次飛躍,令人驚嘆。”並說了一句被大量截圖轉發的話——“我很慶幸,至少今天的Seedance 2.0,來自中國。”如果說Seedance 2.0回答的是“中國AI能不能重新定義好看”,那麼GLM-5要回答的是另一個更硬核的問題:中國AI能不能造系統?過去兩年,AI程式設計領域最流行的概念叫“Vibe Coding”——用一句話讓AI生成一個網頁、搓一個小遊戲、寫一段能跑的指令碼。效果確實直觀,社交媒體上到處是“我用AI十分鐘做了個APP”的帖子。但做過真實項目的工程師心裡清楚:寫一段能跑的程式碼和造一套能上線的系統,完全是兩件事。真實的軟體工程需要持續數天的架構設計,需要在幾萬行程式碼之間維護邏輯一致性,需要在編譯報錯時自己去讀日誌、定位問題、改了再試,反覆迭代直到系統跑通。簡單說,它需要的不是一個能接話的“副駕駛”,而是一個能獨立扛活的工程師。實際上,矽谷已經在押注這個方向了。Anthropic的Claude Opus 4.6和OpenAI的GPT-5.3 Codex都在最新版本中重點強調同一個詞——“Agentic”,也就是讓AI以智能體的方式長時間自主運行,處理過去需要資深工程師花好幾天才能搞定的系統級任務。兩家公司不再強調“一句話出活”,而是開始展示模型能花幾個小時、呼叫幾百次工具,從零把一個編譯器等級的項目搭起來。這也意味著AI智能體的競爭維度已經悄然升級:不比誰畫的前端頁面更好看,比的是誰在長程系統工程中更靠譜。Pony Alpha在社區引起關注,正是因為它展示的是後一種能力。C編譯器案例之所以被反覆引用,不是因為“AI寫編譯器”這件事多新鮮,而是因為這類任務要求模型在數天跨度內、幾百次工具呼叫和上下文接力中維持邏輯連貫——中間任何一步出錯,後面整條鏈都會崩塌。跑通了,說明模型在長程規劃上的魯棒性過了一個關鍵門檻。開發者們用 GLM-5 製作出了橫版解謎遊戲、Agent 互動世界、論文版“抖音”等應用,這些應用已開放下載,或已提交商店稽核。這些案例的另一面驗證了一個從產品構思、前後端架構、資料抓取邏輯到最終打包上架App Store的完整閉環,全程由模型主導完成。當AI的產出物不再是GitHub上的程式碼片段,而是App Store裡等待真實使用者使用的上架應用,“能幹活”這三個字的含義就不一樣了。第三方AI評測機構Artificial Analysis在GLM-5發佈後更新了榜單。GLM-5已成為開源模型中的新領導者,在綜合智能指數和Agentic能力(即智能體在真實場景中完成經濟價值任務的能力)兩個維度均位列開源第一。在程式設計領域的核心評測SWE-bench Verified上,GLM-5拿到了77.4分,超過了Google的Gemini 3.0 Pro。如果說Seedance 2.0證明了中國AI能夠定義"好看"的標準,那麼GLM-5正在證明中國AI能夠定義“能幹活”的標準。來自中國的AI一個開始接管感官的天花板,另一個則佔領生產力的地基。打通全鏈路底座:中國AI重奪“定價權”與“算力主權”如果只看到Seedance和GLM-5兩個產品,就低估了這個春節真正的含金量。在兩個顯性事件之下,一整套支撐它們的生態正在完成系統性的咬合。先看技術層。2月11日,DeepSeek悄然推送了版本更新,上下文處理能力從128K Token大幅躍升至100萬Token——這意味著它可以一次性處理《三體》三部曲體量的完整文字。社區已經普遍將這次更新解讀為DeepSeek V4的灰度測試前兆。但DeepSeek更值得關注的,可能不是自己的下一步,而是它已經在發揮的作用。GLM-5在架構層面首次整合了DeepSeek的Sparse Attention機制。作為DeepSeek在長文字處理上的一項核心創新,能在維持模型效果的同時大幅降低計算成本。GLM-5將其吸收進了自己的架構,並在此基礎上跑出了逼近Claude Opus 4.5的成績。這意味著DeepSeek的核心技術創新,已經開始以“外溢”的方式被中國AI生態中的其他企業吸收和採用。它的價值不僅僅是“DeepSeek自己有多強”,而是它正在成為整個生態的技術底座——其他企業在這個底座上,各自向不同的方向建高樓。而智譜同樣的開源戰略也正在撼動美國閉源AI的地基。過去兩年,AI程式設計領域存在一條不成文的分工鏈:Claude和GPT這類閉源模型充當“大腦”,負責高品質的規劃和推理,每次呼叫收費不低;開源模型則被放在執行層跑量,便宜好用,但智力上限有限。很多開發團隊的實際工作流就是“Opus出方案,開源模型幹活”——大腦在別人那裡,腿在自己這裡。但當一個開源模型在長程任務規劃和自主糾錯上開始逼近閉源頭部水平,這條分工鏈的邏輯基礎就開始鬆動了。規劃和執行可以由同一個開源模型一站式完成,開發者不再需要為“大腦”單獨向昂貴的閉源API付費。行業變革往往不發生在“超越”的那一刻,而發生在“夠用”的那一刻。當開放原始碼的能力上限摸到了閉源的門檻,閉源一方的定價權就會開始承受壓力。正是因為察覺到了這種底層商業邏輯的鬆動,華爾街的視線開始向東方轉移。全球頂級投行對中國大模型公司給出的史無前例的高估值與核心站位,本質上是在用真金白銀髮出訊號:資本市場正在重新評估中國AI基座企業的價值錨點。而在算力層。GLM-5的推理叢集已大量運行在國產晶片之上——華為昇騰、摩爾線程、寒武紀、崑崙芯、沐曦、燧原、海光,模型完成了與這些國產算力平台的深度適配。面對產品上線後瞬間湧入的數以百萬計的真實流量衝擊,接住這波算力擠兌並完成緊急擴容的,正是這些國產晶片叢集。這也意味著從模型權重到推理算力,GLM-5跑通了一條不依賴輝達的技術全鏈路。一年前,中國AI的敘事集中在“誰是下一個DeepSeek”——一種單一英雄式的期待。而僅僅一年之後,這個生態已經從一枝獨秀進化為一套完整的、自主可控的技術體系,企業之間不再是零和博弈,而是在不同層面上互相支撐、系統性地抬高整體水位。至此,中國AI界在2026年春節的這場技術爆發,已經實質性地完成了數字時代的“兩彈一星”戰略部署:Seedance 2.0是炸開感官天花板的“視覺之彈”。它讓海外從業者感嘆“領先兩代”,讓“AIGC的童年結束了”成為行業共識。GLM-5是砸穿生產力深水區的“工程之彈”。它讓海外開發者將中國開源模型誤認為矽谷閉源頂流,並在國產模型歷史上首次創造了供不應求的“賣方市場”。DeepSeek則是那顆高懸於頂的“生態衛星”。它的核心技術正以外溢的方式為整個中國AI生態提供底層導航,讓企業之間形成了強大的技術互通。中國AI就從一枝獨秀,進化為在最核心賽道上同時出牌、且擁有全生態戰略底座的成建制軍團。而且這支軍團的牌還沒有出完。DeepSeek的旗艦級更新可能才剛剛露出冰山一角,字節跳動旗下的通用大模型豆包2.0已在內測中蓄勢待發,阿里旗下的千問3.5同樣被外界視為即將亮相的重磅選手。當這些牌在未來幾周內陸續打出,這個春節開啟的中國AI故事還遠未寫完。中國AI正在重寫全球規則2025年8月,OpenAI CEO Sam Altman曾警告:“美國可能正在低估中國在人工智慧領域進展的複雜性和嚴重性。”當時,這被很多人理解為向國會爭取撥款的策略性表態。半年後的今天,這場發生在春節的技術交卷證明了:Altman的焦慮正在變成現實。有美國AI觀察人士表示,SeedDance 2.0和智譜GLM-5的發佈代表著中國的技術迭代,帶來的風暴只會愈演愈烈。中國AI展示出來的,已經不再是單點的技術突圍,而是一種成體系的底層輸出。視覺生成、系統工程、開源生態、基座模型、國產算力——五條戰線在同一個時間窗口裡各自交出了世界級的答卷,並且在技術底層實現了深度咬合。當摩根大通開始用“首選標的”來定位中國大模型公司,當矽谷技術圈為“Pony Alpha”徹夜沸騰,華爾街與矽谷顯然都在被迫修正他們對中國科技實力的評估框架。如果2025年春節是DeepSeek的單刀赴會,那2026年春節,AI戰場上站著的已經是一支重塑全球版圖的中國集團軍。中國AI正在從追趕者變成基礎設施的定義者——這個處理程序已經不可逆轉。 (觀察者網)