1美金時薪雇個全端替身，MiniMax M2.5讓打工人也能體驗當老闆的感覺

2026/02/13

•

春節檔模型大戰，又殺出一匹黑馬。

今天，MiniMax正式官宣了已經提前兩天開跑的新模型M2.5，依然主打智能體和Vibe Coding，性能比肩Claude Opus 4.6。

它不挑食，PC端、手機App、React Native、Flutter全能寫，而且是前後端帶資料庫的真全端。

以前的模型頂多給你畫個皮（前端），M2.5是連皮帶骨頭（前端+後端+資料儲存）都能給你交付。

它還是為智能體生態而生的，配合OpenClaw這種腳手架，能把你的自然語言直接變成電腦上的具體操作。

你只需要懂業務邏輯，剩下的全端程式碼實現，它能以100TPS的速度秒回交付給你，而且每小時成本只要1美金。

10B啟動參數躋身第一梯隊

M2.5這次在寫程式碼和跑任務這兩個硬指標上，直接和Claude Opus 4.6站在了同一條水平線上。

比如在程式設計最硬核的SWE-Bench Verified榜單上，它拿到了80.2%的高分，在多語言任務Multi-SWE-Bench上更是拿到了第一。

而且它在Vibe Coding模式下能通吃全端，能從介面一路寫到後端邏輯和資料庫設計，一次性交付整套能用的程式碼。

比如面對一個“豪華貓咪隧道電商網站”的需求，不僅要極簡風、視差滾動效果，後台還得帶個3D配置器。

M2.5跑出來的結果能直接呈現出大片級的自動播放視訊效果，連那種可以點著玩的3D配置器也跑得有模有樣，出來的網站整體感覺非常高級，而且是個真正能直接運行的完整項目。

這種底氣來自於它進化出了“原生Spec行為”——在動手寫程式碼前，它會像架構師一樣主動拆解功能結構和UI設計。

而且能全端通吃，是因為它是在Go、Rust、Python等10多種程式語言和幾十萬個真實環境中鍛鍊出來的。

在處理長鏈路任務時，M2.5也是專門最佳化過的，不管是主流框架還是自己寫的指令碼，它都能順暢配合。

這裡它引入了Process Reward（過程獎勵）機制，能全鏈路監控完成質量，解決了長任務容易“跑偏”的難題。

這種機制帶來的邏輯能力在處理繁瑣、重複性高的活時特別明顯，比如統計福布斯富豪榜，就需要去抓取淨資產、年齡和財富來源。

M2.5生成的表格非常老練，它會自動建好Cover、BillionairesData和Sources三個Sheet，把封面、資料來源和詳細資料分得清清楚楚，格式規整得像個強迫症員工做的。

能幹這麼重的活，M2.5的啟動參數量其實只有10B，是第一梯隊裡體型最小的旗艦模型。

配合上深度最佳化的思考鏈路，它的推理吞吐量飆到了100TPS，這個速度是主流旗艦模型的2倍，跑大規模資料清洗或者改程式碼Bug任務時，也能體驗到那種瞬間刷屏的快感。

文能編寫全端程式碼，武能操縱本地系統

前面兩個線上DEMO，只是開胃小菜，接下來就把M2.5帶到真刀真槍的智能體環境當中拉練一番。

按MiniMax的說法，適配各種不同的智能體框架，是M2.5的一大優勢能力。

既然說到智能體框架，那不得不提的就是爆火的OpenClaw了，所以乾脆就在我的電腦上安裝一個，然後把M2.5接入進去試試。

由於M2.5剛出，OpenClaw的安裝嚮導裡還沒有這個選項，因此安裝的過程手動折騰了一番，這裡也就不詳述了，總之最後是成功接入了進來。

不過，通過後台看板和OpenClaw對話實在是太麻煩了，所以我打算把它接到我的飛書裡。

拳腳已經給M2.5搭建好，接下來就看這個大腦怎麼發揮了。

我用Python生成了一個裝了100個亂七八糟財務檔案的資料夾丟在桌面，然後給OpenClaw一個非常直接的任務：先把所有檔案名稱清洗一遍，統一改成“日期+供應商+金額”的格式。

當然這還不算完，它得把這些資料吃透，按支出分類整理好，最後直接生成一份帶圖表的月度財務分析PPT，不僅要圖文並茂還得看著美觀。

先看一下，整理之前的檔案長這樣：

接下來呢，我們就通過飛書把任務佈置給M2.5正在操縱的OpenClaw。

chua的一下，整個資料夾裡的檔案齊刷刷改了名字，變成了我們要求的格式。

同時在飛書裡，OpenClaw也匯報了它的工作進度，總結了這個月的支出情況。

至於PPT，顯然我懶得去資料夾裡翻找，所以直接通過飛書讓OpenClaw給我發了過來。

激動人心的驗收時刻馬上就要到了。

M2.5指揮的OpenClaw，自己選了個很有科技感的深色主題，藍綠配色看著就很舒服。

而且它不是光把資料填進去就完事了，還真的看懂了那些帳單。

比如在餅圖裡，它一眼就揪出來“雲端運算服務”佔了快90%的大頭，還在核心指標頁裡特意標註了第2周支出最高。

在最後一頁它還提出了改進建議，發現在“星云云計算”上花錢太多，直接建議去談個年度合同降本。這種能從資料裡挖出業務洞察的能力，已經超越了單純的圖表製作。

可以看出在智能體環境中，M2.5的確是一個合格的大腦，讓我體驗到了一種當老闆的感覺✨(⌐■_■)✨。

除了智能體之外，還有一項讓MiniMax引以為傲的技能，就是Vibe Coding。

這裡我們用VSCode，通過Cline進行連接，看M2.5能不能一勺燴地搞定後端、前端、通訊、部署偵錯這套完整的開發流程。

我讓它用Java Spring Boot寫一個多人即時協作的待辦清單系統。

功能上其實不簡單，得用WebSocket做多端的即時同步，還得卡死權限，誰建的任務誰才能改。

另外對介面美觀度也有要求，必須得呈現出科技感，給人一種駭客終端的感覺。

接到任務之後，M2.5先從pom.xml和application.yml兩個文件開始寫起。

這倆檔案是Java Spring Boot項目的“心臟”和“大腦”。
pom.xml相當於給建構工具（Maven）看的購物清單。也就是你要做這個“待辦清單”項目，需要用到那些現成的零件（依賴包）。

application.yml（運行說明書）則是給程序看的設定面板。軟體啟動後具體怎麼跑，都在這裡定規矩。

這兩個清單列好之後，就開始寫主體和各個模組的JAVA程式碼，還有前端HTML，另外還建立了一個資料庫檔案。

這一切都寫好之後，M2.5驅動的Cline會自動對程序進行編譯運行，並且如果在這個過程當中遇到了報錯，還會讀取錯誤資訊，自動對程式碼進行修改。

一番折騰之後，後台程序終於開始運行，前端頁面也在8080連接埠跑起來了，確實介面既簡潔又具有我剛才要求的科技感。

簡單測試一下任務的新增、刪除和進度調整，還有暱稱的修改，都沒有問題。

但是，這裡看到的效果並不能證明真的是後端服務正常運行，因為這樣的效果純靠前端也能實現。

所以接下來還得拿出“照妖鏡”，通過多端同步這項技術要求，看一下是不是真的有後端在工作。

這裡我把手機（通過區域網路訪問部署在電腦端的頁面）的螢幕都投到了電腦上，然後分別在兩端對任務進行增、刪、改，觀察另外一台裝置的即時變化。

結果所有的操作，都即時同步到了另一端，說明後端正在工作，M2.5是真的把這個系統的前後端全給跑通了。

嗯，M2.5宣傳的全端工程能力，確實已經比只會在前端搞一些花拳繡腿的模型高出一個level了。

總之，還是我們常說的那句話，測試這些案例只是拋磚引玉，更多新奇的玩法，還等待著你的後續探索。

AI大爆發即將到來

這一波M2.5的出現，給我們帶來了一個明確的訊號——AI應用的大爆發，已經就在眼前了。

在過去100多天裡，M2系列在程式碼能力上的進步速度直接拉出了一條陡峭的陽線，保持著行業最快的迭代節奏。這說明現在的模型，在“腦子好使”這件事上已經準備好了。

而且它還解決了“貴”和“慢”這兩個最硬的攔路虎，把推理速度幹到了100TPS，還帶來了1美金就能讓智能體連續工作一小時的“白菜價”。

它展現出的那種全端一肩挑的能力，使得它在MiniMax內部，已經接管了30%的真實業務，從寫程式碼到做財務報表什麼都干。

它能一口氣把事辦成，開發者不用再天天盯著細節改Bug，能放心大膽地讓AI去跑那些長鏈路的業務。

以前我們總說AI是Copilot，但在M2.5這種能獨立扛事的模型面前，它已經成為你的生產力引擎了。

接下來，你只需要負責踩油門（下達目標），至於引擎蓋底下怎麼轉，就是AI的事了。 (量子位)