#Opus4.6
開源模型首超Opus4.6!智譜GLM-5.1登場,14小時後CUDA專家被沖了
最佳化CUDA Kernel這件事,剛剛被AI狠狠地衝擊了一波。因為現在,給AI十四個小時,它就能幫你把CUDA Kernel最佳化,加速比從2.6×推至35.7×!什麼概念?以前人類資深CUDA工程師要完成這個任務,需要數月反覆測試、調優、推翻重來才行;但現在,AI在你睡覺的時候就能解決掉。而且AI在這個過程中還展現出了專家級的直覺。例如在最佳化初期,它嘗試在現有高層框架內尋找解法,但很快通過自主跑測試發現性能觸及了天花板,然後它便做出了人類專家才有的決策——自主判斷放棄高層框架,直接轉向底層C++進行硬核重寫。整整14個小時裡,這個AI主打一個全自動:AI自己發現瓶頸,自己改變技術堆疊,自己重新編譯,自己測試。那這到底是何許AI是也?不賣關子,正是大家熟悉的,來自智譜的開源模型——GLM-5.1。隨著這次長程任務(Long Horizon Task)能力的提升,智譜官方也宣佈了一個重要的突破:首次解鎖了開源模型與當前全球最頂尖閉源模型Claude Opus 4.6的全面對齊!嗯,是妥妥穩坐全球最強開源模型寶座的感覺了。而且,從更多的權威評測榜單中來看,也是印證了這一點。在被稱為“軟體工程能力試金石”的SWE-bench Pro基準測試中,GLM-5.1刷新了全球最佳成績,直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型,拿下全球第一:甚至在海外網友們的圈子中,已經吹起了棄用Claude Max的風了:它的手感和Opus一模一樣,使用額度是Claude Code的3倍,成本卻只有1/3。HuggingFace CEO也出面站台,稱SWE-Bench Pro中性能最強的模型開源了:而這一切成績的背後,正是智譜面向小時級的長程任務能力。給AI幾個小時,一切都不一樣了當前主流的大模型,可以說大多數還是處於“分鐘級互動”的階段。但到了GLM-5.1這邊,它的交付單位就不同了——一個完整的項目。接下來,我們就通過實測的方式,來看下GLM-5.1的實力到底幾何。呼叫工具1000輪,最佳化真實機器學習模型負載第一個實測,我們順著前面的CUDA的例子,繼續讓GLM-5.1進行一場考驗:KernelBench Level 3最佳化基準,這一基準涵蓋50個真實機器學習計算負載,主打一個還原真實工業場景,考驗的是端到端的完整最佳化能力而非單一算子偵錯。在超過24小時的不間斷迭代中,GLM-5.1全程自主發力,無需人類專家干預,一遍遍完成“編譯—測試—分析—重寫”的閉環循環,最終交出了這樣的結果——3.6倍幾何平均加速比,而作為對比,torch.compile max-autotune模式僅能達到1.49倍,差距直接翻倍不止!從這個過程中可以看到,GLM-5.1能夠自主編寫定製Triton Kernel和CUDA Kernel,運用cuBLASLt epilogue融合併實施shared memory tiling與CUDA Graph最佳化。這些最佳化策略覆蓋了從高層算子融合到微架構級調優的完整技術堆疊,每一步都是模型的自主決策。結果再次表明,在GPU核心最佳化這一傳統上高度依賴專家經驗的領域,AI模型已經展現出從問題分析、方案設計到迭代調優的端到端自主工作能力。1小時從零建構MacOS桌面環境在這個實測中,我們給GLM-5.1扔了一份3000字的PRD,核心要求只有一個:從0開始復刻MacOS核心UI與互動,不僅要前端殼子,還必須包含窗口管理器、Dock欄調度、以及模擬的底層檔案系統。這是一個標準的前端工程團隊至少需要數天才能打磨出原型的任務,但在GLM-5.1這裡,時間被壓縮到了小時等級。瞧,待它分析完任務之後,自己就開始唰唰地程式設計了:1個小時之後,在沒有任何人工參與的情況下,一個MacOS的桌面環境,就這麼水靈靈地誕生了!可以看到,更改桌面背景、放大縮小Docker、終端命令執行、系統自帶的截圖功能等,統統都能實現。而在智譜官方的demo中,展示了GLM-5.1耗時8小時實現的更加複雜的Linux系統:執行了1200多步,完整的桌面、窗口管理器、狀態列、應用程式、VPN管理器、中文字型支援、遊戲庫等……相當於一個4人團隊一周的開發工作量。不得不說,現在GLM-5.1的每一次提交,都是具有實質意義的系統級演進。全自動重寫屎山程式碼寫程式碼的人都知道,比從零寫一個新項目更痛苦的,是重構別人留下的屎山程式碼。但現在有了GLM-5.1,我們可以把這個任務交給它來處理了。例如這段程式碼就堪稱是屎山中的經典:變數名完全無意義、五層巢狀if、重複計算總和三遍、全域變數到處亂改、函數幾百行不拆分……能運行嗎?能運行;噁心嗎?也是真噁心。而在GLM-5.1隻需半小時的自動重寫之後,一份註釋清晰、符合標準的程式碼就誕生了:655次迭代,打破向量資料庫性能瓶頸如果說重構程式碼還只是把已有的東西做好,那向量資料庫最佳化,考驗的就是AI自主迭代、持續突破的能力。這也或許正是人類資深工程師最核心的價值。在這項測試中,GLM-5.1的需求是最佳化現有向量資料庫的查詢性能,儘可能提升QPS。隨後,它開啟了完全自主的“測試-分析-最佳化-再測試”閉環。每一輪最佳化後,它都會主動跑完整的Benchmark,獲取QPS、延遲、記憶體佔用等核心資料,自主分析性能瓶頸。最終,在655輪迭代之後,GLM-5.1把向量資料庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS,提升到初始正式版本的6.9倍。AI能獨立工作多久,成了新標準之所以GLM-5.1這次能夠炸場,本質上是它踩中了AI行業的下一個核心賽點:長程任務(Long Horizon Task)能力。2025年3月,全球頂尖的AI安全研究機構METR(Model Evaluation and Threat Research)便提出了一個徹底改變行業認知的新指標,叫做Task-Completion Time Horizon(任務完成時間線)。這個指標的核心思想是,不再用做題的精準率來衡量模型有多聰明,而是用時間來衡量它能獨立完成多長時間的人類專家任務。研究顯示,前沿模型的時間線每7個月就會翻一倍,這條指數曲線,被MIT Technology Review稱為“AI領域最重要的一張圖”。紅杉資本更是在2026年初直接宣告:“這就是AGI的核心方向”,並直言:2023-2024年的AI,是只會對話的“talker”,而2026-2027年的AI,將成為能真正落地做事的“doer”。而GLM-5.1,是全球第一個在真實工程任務中,驗證了8小時持續工作能力的開源模型。它能在單次任務中,持續、自主地工作長達8小時,過程中自主規劃、自主執行、自主測試,碰壁時主動切換策略,出錯後自行修復,最終交付完整的工程級成果。GLM-5.1之所以能做到這一點,核心源於三個維度的系統性技術突破:第一,更強的長程規劃與目標保持能力。它能把一個複雜的大目標,拆解為可執行的多階段計畫,並且在長達十幾小時、上千步的執行鏈路中,始終圍繞最終交付目標推進。簡單來說,就是幹到第十步,還記得第二步定的規矩。第二,更穩的自適應糾錯與持續執行能力。它實現了程式碼編寫、工具呼叫、環境偵錯、API對接等多個環節的穩定銜接,中途出錯時,不會停下來等人工介入,而是會自主查看錯誤日誌、定位問題根源、修復bug,甚至自己寫回歸測試用例驗證修復效果。第三,更好的狀態延續與上下文整合能力。面對長時間跨度、多輪反饋和百萬級token的上下文資訊,它能穩定追蹤已完成的工作、當前所處的階段和下一步的核心動作,持續整合新的資訊,保持整個執行鏈路的一致性。開源模型看中國,更得看智譜GLM-5.1的出現,不僅是模型能力的升級,更改寫了全球大模型行業的敘事邏輯。長久以來,中國開源模型始終帶著追趕者的標籤,與美國頂尖閉源模型存在差距,而GLM-5.1徹底打破這一局面:它在權威榜單上對齊Claude Opus 4.6,在SWE-bench Pro等核心工程指標上實現反超,讓中國開源AI在核心工程能力上與全球前沿並駕齊驅。更重要的是,它的變革遠超模型本身,正重構兆級IT服務市場的底層邏輯。AI Coding的進化有清晰路徑:從程式設計師提效工具,到降低程式碼門檻,再到能自主做事的初級工程師,而GLM-5.1的Long Horizon能力,直接將AI推向能持續工作數小時、交付完整項目的新階段。當AI的交付單位從一行程式碼變為一個完整項目,便衝擊了整個軟體工程的生產關係——4人團隊一周的工作量、資深工程師數月的最佳化任務,它數小時就能完成,這將重構多個行業的定價與人力配置邏輯。當然,我們不必陷入AI會替代程式設計師的無謂焦慮。就像當年電腦的普及,沒有淘汰會計這個職業,只是淘汰了不會用電腦的會計;AI的到來,也不會淘汰開發者,只會淘汰不會駕馭AI的開發者。GLM-5.1的出現,真正給整個行業拋出的核心問題是:當AI已經能自主完成長達數小時的複雜長程任務,實現從規劃、執行、糾錯到完整項目交付的全閉環時,人類的不可替代性到底在那裡?答案或許就是定義問題、創造價值、做出核心決策的能力,畢竟這是AI暫時無法替代的核心護城河。而對中國AI行業而言,GLM-5.1隻是開始,當開源模型達到全球頂尖工程能力、AI從對話者變為執行者,行業必將迎來更徹底、更深刻的變革。 (量子位)
來自MiniMax M2.5的震撼 :小尺寸幾乎打平opus4.6,巨便宜,巨能幹活,速度巨快
MiniMax M2.5 正式發佈了,可以說這是一個相當優秀的國產模型,國產模型每一家都有自己的聚焦,MiniMax在進行的是極致最佳化,沒有過多花哨的技術實驗,專注於推出的是一款極其方便部署,價格具實惠,能幹活,性能對標世界頂尖的模型,咱也不尬吹,資料好看不代表真實體驗就好,但至少M2.5的確是在向真實生產環境可用和體驗在努力我先放兩張圖大家感受一下MiniMax的進化,看一下MiniMax M系列的來時路:尺寸對比,這就有意思了,感覺具有極高的可用性,非常適合家庭實驗室部署,據說推理服務提供商或許能在這個模型上挖掘出驚人的每秒token生成速度我們來看看MiniMax M 2.5 做到了什麼以及如何做到的MiniMax M 2.5做到了什麼首先看硬指標,它在各項SOTA性能上表現搶眼:MiniMax 測試了Agent工作流程中最重要的三項基準測試:SWE-Bench(它能否真正修復真實程式碼庫中的真實錯誤)、BrowseComp(能否搜尋網路並找到正確的資訊)和 BFCL(能否可靠地呼叫工具)。測試結果分別為 80.2%、76.3% 和 76.8%針對複雜任務,M2.5進行了執行效率的最佳化,速度提升了37%,速度提升聽起來似乎只是錦上添花,但當你運行一個Agent循環,模型在每個任務中呼叫自身 50 次以上時,速度的提升就顯得至關重要了每秒100token運行,每小時成本僅需1美元,這讓長周期Agent的無限擴展在經濟上成為了可能。具體來看,M2.5在以下幾個維度實現了突破。像架構師一樣思考的程式碼能力在程式設計評估中,M2.5相比前代產品有了顯著提升,達到了SOTA水平,尤其是在多語言程式設計任務中表現突出。與以往最大的不同在於,M2.5展現出了軟體架構師的思維與規劃能力。在訓練過程中,模型湧現出了編寫規格說明書的傾向:在敲下第一行程式碼前,它會主動從資深架構師的視角出發,對項目的功能、結構和UI設計進行拆解與規劃。在超過20萬個真實世界環境中,針對Go、Rust、Python、Java等10多種程式語言進行了訓練。這使得M2.5的能力遠超簡單的程式碼修復,而是覆蓋了複雜系統的完整開發生命周期:從0到1的系統設計與環境搭建,到1到10的開發,再到後續的功能迭代、程式碼審查和系統測試。它能處理跨Web、Android、iOS和Windows的全端項目,涵蓋伺服器端API、業務邏輯和資料庫,而不僅僅是前端網頁的演示。在更複雜的VIBE-Pro基準測試中,M2.5的表現與Opus 4.5持平。在SWE-Bench Verified評估集的Droid和OpenCode不同程式碼代理框架下,M2.5的得分分別為79.7和76.1,均超越了Opus 4.6。更精準的搜尋與工具呼叫為了應對更複雜的任務,高效的工具呼叫和搜尋能力是必選項。在BrowseComp和Wide Search等基準測試中,M2.5均取得了業界領先的成績。即便面對不熟悉的腳手架環境,它的表現也更加穩定。針對現實中專業人士不僅僅是使用搜尋引擎,而是需要在資訊密集的網頁中進行深度探索的特點,MiniMax建構了RISE評估體系。結果顯示,M2.5在真實場景下的專家級搜尋任務中表現優異。更重要的是決策效率的提升。相比前代M2.1,M2.5在解決同類任務時使用的輪次減少了約20%。這意味著模型不再僅僅是找對答案,而是在用更高效的路徑進行推理。真正的辦公場景交付M2.5在訓練之初就確立了產出可交付成果的目標。通過與金融、法律和社會科學領域的資深專家深度合作,將行業隱性知識注入模型訓練流程。這使得M2.5在Word、PowerPoint和Excel金融建模等高價值工作場景中能力顯著提升。在內部建構的Cowork Agent評估框架GDPval-MM中,通過對交付物質量和代理軌跡專業性的雙重評估,M2.5在與主流模型的對比中取得了59.0%的平均勝率。極致的效率與成本控制現實世界充滿各種deadline,速度即正義,現在模型都太貴了,我們急需要一款能打的便宜的模型M2.5的原生服務速度達到每秒100 token,幾乎是其他前沿模型的兩倍。加上強化學習對高效推理的激勵,其在複雜任務上的時間節省效果明顯。以運行SWE-Bench Verified為例,M2.5完成每個任務平均消耗352萬token,端到端執行階段間從31.3分鐘縮短至22.8分鐘,速度提升37%。這一速度與Claude Opus 4.6相當,但單任務總成本僅為後者的十分之一。為了實現智能不僅強大而且便宜到無需計費的願景,M2.5推出了兩個版本:M2.5-Lightning:穩定吞吐量每秒100 token,每百萬輸入token 0.3美元,輸出2.4美元。M2.5:吞吐量每秒50 token,價格減半。這意味著,以每秒100 token的速度連續運行一小時僅需1美元。如果以每秒50 token運行,價格降至0.3美元。換算下來,只需1萬美元,就可以讓4個M2.5實例連續運行一整年。從去年10月下旬至今,M2系列經歷了三次迭代,改進速度超出了預期,特別是在SWE-Bench Verified基準上,進步速度明顯快於Claude、GPT和Gemini系列。MiniMax M 2.5如何做到的這一切進步的核心驅動力來自於強化學習的規模化。MiniMax將公司內部的任務和工作空間轉化為RL訓練環境,目前已有數十萬個此類環境。為了支援這種規模的訓練,團隊自研了代理原生RL框架Forge。該框架引入中間層,將底層訓練推理引擎與代理完全解耦,支援任意代理整合,並最佳化了模型在不同腳手架和工具間的泛化能力。通過最佳化非同步調度策略和樹狀結構的樣本合併策略,訓練速度提升了約40倍。在演算法層面,沿用了CISPO演算法以確保MoE模型在大規模訓練中的穩定性,並引入過程獎勵機制來解決長上下文中的信用分配難題。M2.5的實戰演練目前,M2.5已全面部署在MiniMax Agent中。通過將核心資訊處理能力提煉為標準化的Office技能,當處理Word格式化、PPT編輯和Excel計算等任務時,Agent會自動載入相應技能。使用者還可以結合特定領域的行業SOP與Office技能,建構針對特定場景的專家。例如在行業研究中,Agent可以嚴格遵循成熟的研究框架SOP,配合Word技能,自動抓取資料、梳理邏輯並輸出格式規範的研究報告,而非簡單的文字堆砌。在MiniMax公司內部,M2.5已經承擔了日常營運中30%的任務,覆蓋研發、產品、銷售、HR和財務等部門。在編碼場景中,M2.5生成的程式碼更是佔到了新提交程式碼量的80%。 (AI寒武紀)