#GLM-5.1 | 熱門關鍵字 | 鉅亨號

最佳化CUDA Kernel這件事，剛剛被AI狠狠地衝擊了一波。因為現在，給AI十四個小時，它就能幫你把CUDA Kernel最佳化，加速比從2.6×推至35.7×！什麼概念？以前人類資深CUDA工程師要完成這個任務，需要數月反覆測試、調優、推翻重來才行；但現在，AI在你睡覺的時候就能解決掉。而且AI在這個過程中還展現出了專家級的直覺。例如在最佳化初期，它嘗試在現有高層框架內尋找解法，但很快通過自主跑測試發現性能觸及了天花板，然後它便做出了人類專家才有的決策——自主判斷放棄高層框架，直接轉向底層C++進行硬核重寫。整整14個小時裡，這個AI主打一個全自動：AI自己發現瓶頸，自己改變技術堆疊，自己重新編譯，自己測試。那這到底是何許AI是也？不賣關子，正是大家熟悉的，來自智譜的開源模型——GLM-5.1。隨著這次長程任務（Long Horizon Task）能力的提升，智譜官方也宣佈了一個重要的突破：首次解鎖了開源模型與當前全球最頂尖閉源模型Claude Opus 4.6的全面對齊！嗯，是妥妥穩坐全球最強開源模型寶座的感覺了。而且，從更多的權威評測榜單中來看，也是印證了這一點。在被稱為“軟體工程能力試金石”的SWE-bench Pro基準測試中，GLM-5.1刷新了全球最佳成績，直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型，拿下全球第一：甚至在海外網友們的圈子中，已經吹起了棄用Claude Max的風了：它的手感和Opus一模一樣，使用額度是Claude Code的3倍，成本卻只有1/3。HuggingFace CEO也出面站台，稱SWE-Bench Pro中性能最強的模型開源了：而這一切成績的背後，正是智譜面向小時級的長程任務能力。給AI幾個小時，一切都不一樣了當前主流的大模型，可以說大多數還是處於“分鐘級互動”的階段。但到了GLM-5.1這邊，它的交付單位就不同了——一個完整的項目。接下來，我們就通過實測的方式，來看下GLM-5.1的實力到底幾何。呼叫工具1000輪，最佳化真實機器學習模型負載第一個實測，我們順著前面的CUDA的例子，繼續讓GLM-5.1進行一場考驗：KernelBench Level 3最佳化基準，這一基準涵蓋50個真實機器學習計算負載，主打一個還原真實工業場景，考驗的是端到端的完整最佳化能力而非單一算子偵錯。在超過24小時的不間斷迭代中，GLM-5.1全程自主發力，無需人類專家干預，一遍遍完成“編譯—測試—分析—重寫”的閉環循環，最終交出了這樣的結果——3.6倍幾何平均加速比，而作為對比，torch.compile max-autotune模式僅能達到1.49倍，差距直接翻倍不止！從這個過程中可以看到，GLM-5.1能夠自主編寫定製Triton Kernel和CUDA Kernel，運用cuBLASLt epilogue融合併實施shared memory tiling與CUDA Graph最佳化。這些最佳化策略覆蓋了從高層算子融合到微架構級調優的完整技術堆疊，每一步都是模型的自主決策。結果再次表明，在GPU核心最佳化這一傳統上高度依賴專家經驗的領域，AI模型已經展現出從問題分析、方案設計到迭代調優的端到端自主工作能力。1小時從零建構MacOS桌面環境在這個實測中，我們給GLM-5.1扔了一份3000字的PRD，核心要求只有一個：從0開始復刻MacOS核心UI與互動，不僅要前端殼子，還必須包含窗口管理器、Dock欄調度、以及模擬的底層檔案系統。這是一個標準的前端工程團隊至少需要數天才能打磨出原型的任務，但在GLM-5.1這裡，時間被壓縮到了小時等級。瞧，待它分析完任務之後，自己就開始唰唰地程式設計了：1個小時之後，在沒有任何人工參與的情況下，一個MacOS的桌面環境，就這麼水靈靈地誕生了！可以看到，更改桌面背景、放大縮小Docker、終端命令執行、系統自帶的截圖功能等，統統都能實現。而在智譜官方的demo中，展示了GLM-5.1耗時8小時實現的更加複雜的Linux系統：執行了1200多步，完整的桌面、窗口管理器、狀態列、應用程式、VPN管理器、中文字型支援、遊戲庫等……相當於一個4人團隊一周的開發工作量。不得不說，現在GLM-5.1的每一次提交，都是具有實質意義的系統級演進。全自動重寫屎山程式碼寫程式碼的人都知道，比從零寫一個新項目更痛苦的，是重構別人留下的屎山程式碼。但現在有了GLM-5.1，我們可以把這個任務交給它來處理了。例如這段程式碼就堪稱是屎山中的經典：變數名完全無意義、五層巢狀if、重複計算總和三遍、全域變數到處亂改、函數幾百行不拆分……能運行嗎？能運行；噁心嗎？也是真噁心。而在GLM-5.1隻需半小時的自動重寫之後，一份註釋清晰、符合標準的程式碼就誕生了：655次迭代，打破向量資料庫性能瓶頸如果說重構程式碼還只是把已有的東西做好，那向量資料庫最佳化，考驗的就是AI自主迭代、持續突破的能力。這也或許正是人類資深工程師最核心的價值。在這項測試中，GLM-5.1的需求是最佳化現有向量資料庫的查詢性能，儘可能提升QPS。隨後，它開啟了完全自主的“測試-分析-最佳化-再測試”閉環。每一輪最佳化後，它都會主動跑完整的Benchmark，獲取QPS、延遲、記憶體佔用等核心資料，自主分析性能瓶頸。最終，在655輪迭代之後，GLM-5.1把向量資料庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS，提升到初始正式版本的6.9倍。AI能獨立工作多久，成了新標準之所以GLM-5.1這次能夠炸場，本質上是它踩中了AI行業的下一個核心賽點：長程任務（Long Horizon Task）能力。2025年3月，全球頂尖的AI安全研究機構METR（Model Evaluation and Threat Research）便提出了一個徹底改變行業認知的新指標，叫做Task-Completion Time Horizon（任務完成時間線）。這個指標的核心思想是，不再用做題的精準率來衡量模型有多聰明，而是用時間來衡量它能獨立完成多長時間的人類專家任務。研究顯示，前沿模型的時間線每7個月就會翻一倍，這條指數曲線，被MIT Technology Review稱為“AI領域最重要的一張圖”。紅杉資本更是在2026年初直接宣告：“這就是AGI的核心方向”，並直言：2023-2024年的AI，是只會對話的“talker”，而2026-2027年的AI，將成為能真正落地做事的“doer”。而GLM-5.1，是全球第一個在真實工程任務中，驗證了8小時持續工作能力的開源模型。它能在單次任務中，持續、自主地工作長達8小時，過程中自主規劃、自主執行、自主測試，碰壁時主動切換策略，出錯後自行修復，最終交付完整的工程級成果。GLM-5.1之所以能做到這一點，核心源於三個維度的系統性技術突破：第一，更強的長程規劃與目標保持能力。它能把一個複雜的大目標，拆解為可執行的多階段計畫，並且在長達十幾小時、上千步的執行鏈路中，始終圍繞最終交付目標推進。簡單來說，就是幹到第十步，還記得第二步定的規矩。第二，更穩的自適應糾錯與持續執行能力。它實現了程式碼編寫、工具呼叫、環境偵錯、API對接等多個環節的穩定銜接，中途出錯時，不會停下來等人工介入，而是會自主查看錯誤日誌、定位問題根源、修復bug，甚至自己寫回歸測試用例驗證修復效果。第三，更好的狀態延續與上下文整合能力。面對長時間跨度、多輪反饋和百萬級token的上下文資訊，它能穩定追蹤已完成的工作、當前所處的階段和下一步的核心動作，持續整合新的資訊，保持整個執行鏈路的一致性。開源模型看中國，更得看智譜GLM-5.1的出現，不僅是模型能力的升級，更改寫了全球大模型行業的敘事邏輯。長久以來，中國開源模型始終帶著追趕者的標籤，與美國頂尖閉源模型存在差距，而GLM-5.1徹底打破這一局面：它在權威榜單上對齊Claude Opus 4.6，在SWE-bench Pro等核心工程指標上實現反超，讓中國開源AI在核心工程能力上與全球前沿並駕齊驅。更重要的是，它的變革遠超模型本身，正重構兆級IT服務市場的底層邏輯。AI Coding的進化有清晰路徑：從程式設計師提效工具，到降低程式碼門檻，再到能自主做事的初級工程師，而GLM-5.1的Long Horizon能力，直接將AI推向能持續工作數小時、交付完整項目的新階段。當AI的交付單位從一行程式碼變為一個完整項目，便衝擊了整個軟體工程的生產關係——4人團隊一周的工作量、資深工程師數月的最佳化任務，它數小時就能完成，這將重構多個行業的定價與人力配置邏輯。當然，我們不必陷入AI會替代程式設計師的無謂焦慮。就像當年電腦的普及，沒有淘汰會計這個職業，只是淘汰了不會用電腦的會計；AI的到來，也不會淘汰開發者，只會淘汰不會駕馭AI的開發者。GLM-5.1的出現，真正給整個行業拋出的核心問題是：當AI已經能自主完成長達數小時的複雜長程任務，實現從規劃、執行、糾錯到完整項目交付的全閉環時，人類的不可替代性到底在那裡？答案或許就是定義問題、創造價值、做出核心決策的能力，畢竟這是AI暫時無法替代的核心護城河。而對中國AI行業而言，GLM-5.1隻是開始，當開源模型達到全球頂尖工程能力、AI從對話者變為執行者，行業必將迎來更徹底、更深刻的變革。 (量子位)