春節檔模型大戰,又殺出一匹黑馬。
今天,MiniMax正式官宣了已經提前兩天開跑的新模型M2.5,依然主打智能體和Vibe Coding,性能比肩Claude Opus 4.6。
它不挑食,PC端、手機App、React Native、Flutter全能寫,而且是前後端帶資料庫的真全端。
以前的模型頂多給你畫個皮(前端),M2.5是連皮帶骨頭(前端+後端+資料儲存)都能給你交付。
它還是為智能體生態而生的,配合OpenClaw這種腳手架,能把你的自然語言直接變成電腦上的具體操作。
你只需要懂業務邏輯,剩下的全端程式碼實現,它能以100TPS的速度秒回交付給你,而且每小時成本只要1美金。
M2.5這次在寫程式碼和跑任務這兩個硬指標上,直接和Claude Opus 4.6站在了同一條水平線上。
比如在程式設計最硬核的SWE-Bench Verified榜單上,它拿到了80.2%的高分,在多語言任務Multi-SWE-Bench上更是拿到了第一。
而且它在Vibe Coding模式下能通吃全端,能從介面一路寫到後端邏輯和資料庫設計,一次性交付整套能用的程式碼。
比如面對一個“豪華貓咪隧道電商網站”的需求,不僅要極簡風、視差滾動效果,後台還得帶個3D配置器。
M2.5跑出來的結果能直接呈現出大片級的自動播放視訊效果,連那種可以點著玩的3D配置器也跑得有模有樣,出來的網站整體感覺非常高級,而且是個真正能直接運行的完整項目。
這種底氣來自於它進化出了“原生Spec行為”——在動手寫程式碼前,它會像架構師一樣主動拆解功能結構和UI設計。
而且能全端通吃,是因為它是在Go、Rust、Python等10多種程式語言和幾十萬個真實環境中鍛鍊出來的。
在處理長鏈路任務時,M2.5也是專門最佳化過的,不管是主流框架還是自己寫的指令碼,它都能順暢配合。
這裡它引入了Process Reward(過程獎勵) 機制,能全鏈路監控完成質量,解決了長任務容易“跑偏”的難題。
這種機制帶來的邏輯能力在處理繁瑣、重複性高的活時特別明顯,比如統計福布斯富豪榜,就需要去抓取淨資產、年齡和財富來源。
M2.5生成的表格非常老練,它會自動建好Cover、BillionairesData和Sources三個Sheet,把封面、資料來源和詳細資料分得清清楚楚,格式規整得像個強迫症員工做的。
能幹這麼重的活,M2.5的啟動參數量其實只有10B,是第一梯隊裡體型最小的旗艦模型。
配合上深度最佳化的思考鏈路,它的推理吞吐量飆到了100TPS,這個速度是主流旗艦模型的2倍,跑大規模資料清洗或者改程式碼Bug任務時,也能體驗到那種瞬間刷屏的快感。
前面兩個線上DEMO,只是開胃小菜,接下來就把M2.5帶到真刀真槍的智能體環境當中拉練一番。
按MiniMax的說法,適配各種不同的智能體框架,是M2.5的一大優勢能力。
既然說到智能體框架,那不得不提的就是爆火的OpenClaw了,所以乾脆就在我的電腦上安裝一個,然後把M2.5接入進去試試。
由於M2.5剛出,OpenClaw的安裝嚮導裡還沒有這個選項,因此安裝的過程手動折騰了一番,這裡也就不詳述了,總之最後是成功接入了進來。
不過,通過後台看板和OpenClaw對話實在是太麻煩了,所以我打算把它接到我的飛書裡。
拳腳已經給M2.5搭建好,接下來就看這個大腦怎麼發揮了。
我用Python生成了一個裝了100個亂七八糟財務檔案的資料夾丟在桌面,然後給OpenClaw一個非常直接的任務:先把所有檔案名稱清洗一遍,統一改成“日期+供應商+金額”的格式。
當然這還不算完,它得把這些資料吃透,按支出分類整理好,最後直接生成一份帶圖表的月度財務分析PPT,不僅要圖文並茂還得看著美觀。
先看一下,整理之前的檔案長這樣:
接下來呢,我們就通過飛書把任務佈置給M2.5正在操縱的OpenClaw。
chua的一下,整個資料夾裡的檔案齊刷刷改了名字,變成了我們要求的格式。
同時在飛書裡,OpenClaw也匯報了它的工作進度,總結了這個月的支出情況。
至於PPT,顯然我懶得去資料夾裡翻找,所以直接通過飛書讓OpenClaw給我發了過來。
激動人心的驗收時刻馬上就要到了。
M2.5指揮的OpenClaw,自己選了個很有科技感的深色主題,藍綠配色看著就很舒服。
而且它不是光把資料填進去就完事了,還真的看懂了那些帳單。
比如在餅圖裡,它一眼就揪出來“雲端運算服務”佔了快90%的大頭,還在核心指標頁裡特意標註了第2周支出最高。
在最後一頁它還提出了改進建議,發現在“星云云計算”上花錢太多,直接建議去談個年度合同降本。這種能從資料裡挖出業務洞察的能力,已經超越了單純的圖表製作。
可以看出在智能體環境中,M2.5的確是一個合格的大腦,讓我體驗到了一種當老闆的感覺✨(⌐■_■)✨。
除了智能體之外,還有一項讓MiniMax引以為傲的技能,就是Vibe Coding。
這裡我們用VSCode,通過Cline進行連接,看M2.5能不能一勺燴地搞定後端、前端、通訊、部署偵錯這套完整的開發流程。
我讓它用Java Spring Boot寫一個多人即時協作的待辦清單系統。
功能上其實不簡單,得用WebSocket做多端的即時同步,還得卡死權限,誰建的任務誰才能改。
另外對介面美觀度也有要求,必須得呈現出科技感,給人一種駭客終端的感覺。
接到任務之後,M2.5先從pom.xml和application.yml兩個文件開始寫起。
這倆檔案是Java Spring Boot項目的“心臟”和“大腦”。
pom.xml相當於給建構工具(Maven)看的購物清單。也就是你要做這個“待辦清單”項目,需要用到那些現成的零件(依賴包)。
application.yml(運行說明書)則是給程序看的設定面板。軟體啟動後具體怎麼跑,都在這裡定規矩。
這兩個清單列好之後,就開始寫主體和各個模組的JAVA程式碼,還有前端HTML,另外還建立了一個資料庫檔案。
這一切都寫好之後,M2.5驅動的Cline會自動對程序進行編譯運行,並且如果在這個過程當中遇到了報錯,還會讀取錯誤資訊,自動對程式碼進行修改。
一番折騰之後,後台程序終於開始運行,前端頁面也在8080連接埠跑起來了,確實介面既簡潔又具有我剛才要求的科技感。
簡單測試一下任務的新增、刪除和進度調整,還有暱稱的修改,都沒有問題。
但是,這裡看到的效果並不能證明真的是後端服務正常運行,因為這樣的效果純靠前端也能實現。
所以接下來還得拿出“照妖鏡”,通過多端同步這項技術要求,看一下是不是真的有後端在工作。
這裡我把手機(通過區域網路訪問部署在電腦端的頁面)的螢幕都投到了電腦上,然後分別在兩端對任務進行增、刪、改,觀察另外一台裝置的即時變化。
結果所有的操作,都即時同步到了另一端,說明後端正在工作,M2.5是真的把這個系統的前後端全給跑通了。
嗯,M2.5宣傳的全端工程能力,確實已經比只會在前端搞一些花拳繡腿的模型高出一個level了。
總之,還是我們常說的那句話,測試這些案例只是拋磚引玉,更多新奇的玩法,還等待著你的後續探索。
這一波M2.5的出現,給我們帶來了一個明確的訊號——AI應用的大爆發,已經就在眼前了。
在過去100多天裡,M2系列在程式碼能力上的進步速度直接拉出了一條陡峭的陽線,保持著行業最快的迭代節奏。這說明現在的模型,在“腦子好使”這件事上已經準備好了。
而且它還解決了“貴”和“慢”這兩個最硬的攔路虎,把推理速度幹到了100TPS,還帶來了1美金就能讓智能體連續工作一小時的“白菜價”。
它展現出的那種全端一肩挑的能力,使得它在MiniMax內部,已經接管了30%的真實業務,從寫程式碼到做財務報表什麼都干。
它能一口氣把事辦成,開發者不用再天天盯著細節改Bug,能放心大膽地讓AI去跑那些長鏈路的業務。
以前我們總說AI是Copilot,但在M2.5這種能獨立扛事的模型面前,它已經成為你的生產力引擎了。
接下來,你只需要負責踩油門(下達目標),至於引擎蓋底下怎麼轉,就是AI的事了。 (量子位)