#M2.5
來自MiniMax M2.5的震撼 :小尺寸幾乎打平opus4.6,巨便宜,巨能幹活,速度巨快
MiniMax M2.5 正式發佈了,可以說這是一個相當優秀的國產模型,國產模型每一家都有自己的聚焦,MiniMax在進行的是極致最佳化,沒有過多花哨的技術實驗,專注於推出的是一款極其方便部署,價格具實惠,能幹活,性能對標世界頂尖的模型,咱也不尬吹,資料好看不代表真實體驗就好,但至少M2.5的確是在向真實生產環境可用和體驗在努力我先放兩張圖大家感受一下MiniMax的進化,看一下MiniMax M系列的來時路:尺寸對比,這就有意思了,感覺具有極高的可用性,非常適合家庭實驗室部署,據說推理服務提供商或許能在這個模型上挖掘出驚人的每秒token生成速度我們來看看MiniMax M 2.5 做到了什麼以及如何做到的MiniMax M 2.5做到了什麼首先看硬指標,它在各項SOTA性能上表現搶眼:MiniMax 測試了Agent工作流程中最重要的三項基準測試:SWE-Bench(它能否真正修復真實程式碼庫中的真實錯誤)、BrowseComp(能否搜尋網路並找到正確的資訊)和 BFCL(能否可靠地呼叫工具)。測試結果分別為 80.2%、76.3% 和 76.8%針對複雜任務,M2.5進行了執行效率的最佳化,速度提升了37%,速度提升聽起來似乎只是錦上添花,但當你運行一個Agent循環,模型在每個任務中呼叫自身 50 次以上時,速度的提升就顯得至關重要了每秒100token運行,每小時成本僅需1美元,這讓長周期Agent的無限擴展在經濟上成為了可能。具體來看,M2.5在以下幾個維度實現了突破。像架構師一樣思考的程式碼能力在程式設計評估中,M2.5相比前代產品有了顯著提升,達到了SOTA水平,尤其是在多語言程式設計任務中表現突出。與以往最大的不同在於,M2.5展現出了軟體架構師的思維與規劃能力。在訓練過程中,模型湧現出了編寫規格說明書的傾向:在敲下第一行程式碼前,它會主動從資深架構師的視角出發,對項目的功能、結構和UI設計進行拆解與規劃。在超過20萬個真實世界環境中,針對Go、Rust、Python、Java等10多種程式語言進行了訓練。這使得M2.5的能力遠超簡單的程式碼修復,而是覆蓋了複雜系統的完整開發生命周期:從0到1的系統設計與環境搭建,到1到10的開發,再到後續的功能迭代、程式碼審查和系統測試。它能處理跨Web、Android、iOS和Windows的全端項目,涵蓋伺服器端API、業務邏輯和資料庫,而不僅僅是前端網頁的演示。在更複雜的VIBE-Pro基準測試中,M2.5的表現與Opus 4.5持平。在SWE-Bench Verified評估集的Droid和OpenCode不同程式碼代理框架下,M2.5的得分分別為79.7和76.1,均超越了Opus 4.6。更精準的搜尋與工具呼叫為了應對更複雜的任務,高效的工具呼叫和搜尋能力是必選項。在BrowseComp和Wide Search等基準測試中,M2.5均取得了業界領先的成績。即便面對不熟悉的腳手架環境,它的表現也更加穩定。針對現實中專業人士不僅僅是使用搜尋引擎,而是需要在資訊密集的網頁中進行深度探索的特點,MiniMax建構了RISE評估體系。結果顯示,M2.5在真實場景下的專家級搜尋任務中表現優異。更重要的是決策效率的提升。相比前代M2.1,M2.5在解決同類任務時使用的輪次減少了約20%。這意味著模型不再僅僅是找對答案,而是在用更高效的路徑進行推理。真正的辦公場景交付M2.5在訓練之初就確立了產出可交付成果的目標。通過與金融、法律和社會科學領域的資深專家深度合作,將行業隱性知識注入模型訓練流程。這使得M2.5在Word、PowerPoint和Excel金融建模等高價值工作場景中能力顯著提升。在內部建構的Cowork Agent評估框架GDPval-MM中,通過對交付物質量和代理軌跡專業性的雙重評估,M2.5在與主流模型的對比中取得了59.0%的平均勝率。極致的效率與成本控制現實世界充滿各種deadline,速度即正義,現在模型都太貴了,我們急需要一款能打的便宜的模型M2.5的原生服務速度達到每秒100 token,幾乎是其他前沿模型的兩倍。加上強化學習對高效推理的激勵,其在複雜任務上的時間節省效果明顯。以運行SWE-Bench Verified為例,M2.5完成每個任務平均消耗352萬token,端到端執行階段間從31.3分鐘縮短至22.8分鐘,速度提升37%。這一速度與Claude Opus 4.6相當,但單任務總成本僅為後者的十分之一。為了實現智能不僅強大而且便宜到無需計費的願景,M2.5推出了兩個版本:M2.5-Lightning:穩定吞吐量每秒100 token,每百萬輸入token 0.3美元,輸出2.4美元。M2.5:吞吐量每秒50 token,價格減半。這意味著,以每秒100 token的速度連續運行一小時僅需1美元。如果以每秒50 token運行,價格降至0.3美元。換算下來,只需1萬美元,就可以讓4個M2.5實例連續運行一整年。從去年10月下旬至今,M2系列經歷了三次迭代,改進速度超出了預期,特別是在SWE-Bench Verified基準上,進步速度明顯快於Claude、GPT和Gemini系列。MiniMax M 2.5如何做到的這一切進步的核心驅動力來自於強化學習的規模化。MiniMax將公司內部的任務和工作空間轉化為RL訓練環境,目前已有數十萬個此類環境。為了支援這種規模的訓練,團隊自研了代理原生RL框架Forge。該框架引入中間層,將底層訓練推理引擎與代理完全解耦,支援任意代理整合,並最佳化了模型在不同腳手架和工具間的泛化能力。通過最佳化非同步調度策略和樹狀結構的樣本合併策略,訓練速度提升了約40倍。在演算法層面,沿用了CISPO演算法以確保MoE模型在大規模訓練中的穩定性,並引入過程獎勵機制來解決長上下文中的信用分配難題。M2.5的實戰演練目前,M2.5已全面部署在MiniMax Agent中。通過將核心資訊處理能力提煉為標準化的Office技能,當處理Word格式化、PPT編輯和Excel計算等任務時,Agent會自動載入相應技能。使用者還可以結合特定領域的行業SOP與Office技能,建構針對特定場景的專家。例如在行業研究中,Agent可以嚴格遵循成熟的研究框架SOP,配合Word技能,自動抓取資料、梳理邏輯並輸出格式規範的研究報告,而非簡單的文字堆砌。在MiniMax公司內部,M2.5已經承擔了日常營運中30%的任務,覆蓋研發、產品、銷售、HR和財務等部門。在編碼場景中,M2.5生成的程式碼更是佔到了新提交程式碼量的80%。 (AI寒武紀)
1美金時薪雇個全端替身,MiniMax M2.5讓打工人也能體驗當老闆的感覺
春節檔模型大戰,又殺出一匹黑馬。今天,MiniMax正式官宣了已經提前兩天開跑的新模型M2.5,依然主打智能體和Vibe Coding,性能比肩Claude Opus 4.6。它不挑食,PC端、手機App、React Native、Flutter全能寫,而且是前後端帶資料庫的真全端。以前的模型頂多給你畫個皮(前端),M2.5是連皮帶骨頭(前端+後端+資料儲存)都能給你交付。它還是為智能體生態而生的,配合OpenClaw這種腳手架,能把你的自然語言直接變成電腦上的具體操作。你只需要懂業務邏輯,剩下的全端程式碼實現,它能以100TPS的速度秒回交付給你,而且每小時成本只要1美金。10B啟動參數躋身第一梯隊M2.5這次在寫程式碼和跑任務這兩個硬指標上,直接和Claude Opus 4.6站在了同一條水平線上。比如在程式設計最硬核的SWE-Bench Verified榜單上,它拿到了80.2%的高分,在多語言任務Multi-SWE-Bench上更是拿到了第一。而且它在Vibe Coding模式下能通吃全端,能從介面一路寫到後端邏輯和資料庫設計,一次性交付整套能用的程式碼。比如面對一個“豪華貓咪隧道電商網站”的需求,不僅要極簡風、視差滾動效果,後台還得帶個3D配置器。M2.5跑出來的結果能直接呈現出大片級的自動播放視訊效果,連那種可以點著玩的3D配置器也跑得有模有樣,出來的網站整體感覺非常高級,而且是個真正能直接運行的完整項目。這種底氣來自於它進化出了“原生Spec行為”——在動手寫程式碼前,它會像架構師一樣主動拆解功能結構和UI設計。而且能全端通吃,是因為它是在Go、Rust、Python等10多種程式語言和幾十萬個真實環境中鍛鍊出來的。在處理長鏈路任務時,M2.5也是專門最佳化過的,不管是主流框架還是自己寫的指令碼,它都能順暢配合。這裡它引入了Process Reward(過程獎勵) 機制,能全鏈路監控完成質量,解決了長任務容易“跑偏”的難題。這種機制帶來的邏輯能力在處理繁瑣、重複性高的活時特別明顯,比如統計福布斯富豪榜,就需要去抓取淨資產、年齡和財富來源。M2.5生成的表格非常老練,它會自動建好Cover、BillionairesData和Sources三個Sheet,把封面、資料來源和詳細資料分得清清楚楚,格式規整得像個強迫症員工做的。能幹這麼重的活,M2.5的啟動參數量其實只有10B,是第一梯隊裡體型最小的旗艦模型。配合上深度最佳化的思考鏈路,它的推理吞吐量飆到了100TPS,這個速度是主流旗艦模型的2倍,跑大規模資料清洗或者改程式碼Bug任務時,也能體驗到那種瞬間刷屏的快感。文能編寫全端程式碼,武能操縱本地系統前面兩個線上DEMO,只是開胃小菜,接下來就把M2.5帶到真刀真槍的智能體環境當中拉練一番。按MiniMax的說法,適配各種不同的智能體框架,是M2.5的一大優勢能力。既然說到智能體框架,那不得不提的就是爆火的OpenClaw了,所以乾脆就在我的電腦上安裝一個,然後把M2.5接入進去試試。由於M2.5剛出,OpenClaw的安裝嚮導裡還沒有這個選項,因此安裝的過程手動折騰了一番,這裡也就不詳述了,總之最後是成功接入了進來。不過,通過後台看板和OpenClaw對話實在是太麻煩了,所以我打算把它接到我的飛書裡。拳腳已經給M2.5搭建好,接下來就看這個大腦怎麼發揮了。我用Python生成了一個裝了100個亂七八糟財務檔案的資料夾丟在桌面,然後給OpenClaw一個非常直接的任務:先把所有檔案名稱清洗一遍,統一改成“日期+供應商+金額”的格式。當然這還不算完,它得把這些資料吃透,按支出分類整理好,最後直接生成一份帶圖表的月度財務分析PPT,不僅要圖文並茂還得看著美觀。先看一下,整理之前的檔案長這樣:接下來呢,我們就通過飛書把任務佈置給M2.5正在操縱的OpenClaw。chua的一下,整個資料夾裡的檔案齊刷刷改了名字,變成了我們要求的格式。同時在飛書裡,OpenClaw也匯報了它的工作進度,總結了這個月的支出情況。至於PPT,顯然我懶得去資料夾裡翻找,所以直接通過飛書讓OpenClaw給我發了過來。激動人心的驗收時刻馬上就要到了。M2.5指揮的OpenClaw,自己選了個很有科技感的深色主題,藍綠配色看著就很舒服。而且它不是光把資料填進去就完事了,還真的看懂了那些帳單。比如在餅圖裡,它一眼就揪出來“雲端運算服務”佔了快90%的大頭,還在核心指標頁裡特意標註了第2周支出最高。在最後一頁它還提出了改進建議,發現在“星云云計算”上花錢太多,直接建議去談個年度合同降本。這種能從資料裡挖出業務洞察的能力,已經超越了單純的圖表製作。可以看出在智能體環境中,M2.5的確是一個合格的大腦,讓我體驗到了一種當老闆的感覺✨(⌐■_■)✨。除了智能體之外,還有一項讓MiniMax引以為傲的技能,就是Vibe Coding。這裡我們用VSCode,通過Cline進行連接,看M2.5能不能一勺燴地搞定後端、前端、通訊、部署偵錯這套完整的開發流程。我讓它用Java Spring Boot寫一個多人即時協作的待辦清單系統。功能上其實不簡單,得用WebSocket做多端的即時同步,還得卡死權限,誰建的任務誰才能改。另外對介面美觀度也有要求,必須得呈現出科技感,給人一種駭客終端的感覺。接到任務之後,M2.5先從pom.xml和application.yml兩個文件開始寫起。這倆檔案是Java Spring Boot項目的“心臟”和“大腦”。pom.xml相當於給建構工具(Maven)看的購物清單。也就是你要做這個“待辦清單”項目,需要用到那些現成的零件(依賴包)。application.yml(運行說明書)則是給程序看的設定面板。軟體啟動後具體怎麼跑,都在這裡定規矩。這兩個清單列好之後,就開始寫主體和各個模組的JAVA程式碼,還有前端HTML,另外還建立了一個資料庫檔案。這一切都寫好之後,M2.5驅動的Cline會自動對程序進行編譯運行,並且如果在這個過程當中遇到了報錯,還會讀取錯誤資訊,自動對程式碼進行修改。一番折騰之後,後台程序終於開始運行,前端頁面也在8080連接埠跑起來了,確實介面既簡潔又具有我剛才要求的科技感。簡單測試一下任務的新增、刪除和進度調整,還有暱稱的修改,都沒有問題。但是,這裡看到的效果並不能證明真的是後端服務正常運行,因為這樣的效果純靠前端也能實現。所以接下來還得拿出“照妖鏡”,通過多端同步這項技術要求,看一下是不是真的有後端在工作。這裡我把手機(通過區域網路訪問部署在電腦端的頁面)的螢幕都投到了電腦上,然後分別在兩端對任務進行增、刪、改,觀察另外一台裝置的即時變化。結果所有的操作,都即時同步到了另一端,說明後端正在工作,M2.5是真的把這個系統的前後端全給跑通了。嗯,M2.5宣傳的全端工程能力,確實已經比只會在前端搞一些花拳繡腿的模型高出一個level了。總之,還是我們常說的那句話,測試這些案例只是拋磚引玉,更多新奇的玩法,還等待著你的後續探索。AI大爆發即將到來這一波M2.5的出現,給我們帶來了一個明確的訊號——AI應用的大爆發,已經就在眼前了。在過去100多天裡,M2系列在程式碼能力上的進步速度直接拉出了一條陡峭的陽線,保持著行業最快的迭代節奏。這說明現在的模型,在“腦子好使”這件事上已經準備好了。而且它還解決了“貴”和“慢”這兩個最硬的攔路虎,把推理速度幹到了100TPS,還帶來了1美金就能讓智能體連續工作一小時的“白菜價”。它展現出的那種全端一肩挑的能力,使得它在MiniMax內部,已經接管了30%的真實業務,從寫程式碼到做財務報表什麼都干。它能一口氣把事辦成,開發者不用再天天盯著細節改Bug,能放心大膽地讓AI去跑那些長鏈路的業務。以前我們總說AI是Copilot,但在M2.5這種能獨立扛事的模型面前,它已經成為你的生產力引擎了。接下來,你只需要負責踩油門(下達目標),至於引擎蓋底下怎麼轉,就是AI的事了。 (量子位)
春節檔國產AI模型混戰開打,MiniMax-M2.5上線,隨手做“蘋果系統”
一句話做“黃金礦工”遊戲、生成精美公司網站。春節將至,國產AI大模型之戰愈發火爆。短短1天多時間,DeepSeek、智譜、字節等多家廠商模型密集更新,MiniMax-M2.5正式上線,其重點提升了Agent和程式設計能力。▲MiniMax-M2.5已可選MiniMax AI相關負責人在X平台上發文稱,他想盡快發佈M2.5,已經迫不及待想回家過年了,但隨著他們投入的訓練計算增多,模型效果也越來越好,這是一個痛並快樂著的問題。▲MiniMax AI工程負責人Skyler Miao在X平台發文智東西第一時間體驗了MiniMax-M2.5在定時任務、網頁製作、調研報告撰寫、視訊生成、PPT製作等任務執行上的能力。從結果來看,網頁製作是其強項,尤其在可視化表達方面,網頁的視覺呈現效果較好,比如我可以一句話讓它生成一家公司的投資分析儀表盤。▲關於蘋果公司的可視化儀表盤分析網頁做一個“黃金礦工”網頁版遊戲,MiniMax-M2.5也可以給出不錯的結果。▲網頁版黃金礦工小遊戲定時任務方面,其可以按照要求按時完成任務,但不同任務呈現的結果質量有一定差異。此外,不論是PPT製作還是調研報告生成,其生成結果的詳實程度都較好,輸出篇幅較長。有X平台使用者提前三天拿到了內測資格,他發文稱,MiniMax-M2.5提升明顯,和Opus 4.6打的有來有回,其模型體積小,據傳Mac mini也能部署。他還曬出了MiniMax-M2.5製作的網頁版“macOS系統”。▲X平台使用者評價截至2月12日港股收盤,MiniMax股價漲幅14.62%,總市值1622億人民幣,其股價盤中曾一度漲幅超23.5%。根據官網資訊,MiniMax將於3月2日公佈全年業績。▲截至2月12日收盤,MiniMax港股股價情況01.網頁設計是強項一句話做“黃金礦工”小遊戲首先,在考察程式設計能力的網頁製作環節,我們讓模型建立一個網頁儀表盤,對蘋果公司進行可視化分析,內容必須涵蓋財務健康狀況、技術面/市場情緒、競爭對手比較以及戰略估值(SWOT/內在價值),以提供明確的投資建議。從結果來看,需求中提到的基本指標都有較好覆蓋,SWOT分析給出的較為具體,整體網頁設計比較簡潔、美觀,基本的動效都已做好,資料展示較為直觀,滑鼠懸停在統計圖表上會有對應資料呈現。接著,我們讓模型為一家AI創業公司設計官方網站,融入太空主題元素,使用黑、白、灰作為主色調,營造出酷炫、精緻且充滿科技感的氛圍,特別要有一個能讓使用者感到震撼的精美地球動畫。從結果來看,網頁焦點處確實有地球動畫效果呈現,且地球本身可以跟隨滑鼠進行一定程度的運動。但網頁本身並沒有實現主色調的要求,對於精緻、科技感的要求沒有明確呈現,地球動畫本身帶有一些類似“粒子光效”的表現,但整體感覺並未達到“震撼”的水平。網頁遊戲製作令我們印象比較深刻,雖然第一次的生成效果“翻車”,遊戲無法互動遊玩。▲初次生成的版本無法遊玩,僅有首頁封面基本的遊戲模式、遊戲說明、遊戲關卡、遊戲操作都按照要求完成了,並且確實可以遊玩,遊戲過程還配合了對應的音效。02.專業報告一鍵生成PPT製作學會用比喻潤色此外,我們通過幾個任務測試了模型生成專業研究報告的能力,比如全面梳理AI開源推理生態、分析應用場景、對應方案並分析原因。從結果來看,其輸出內容邏輯清晰,在展示不同框架異同時用了表格進行對比,內容較多比較詳實,約6000字。▲AI開源推理生態相關研究報告生成對於“計畫開發一款針對初學者的AI 3D建模工具”這一需求,我們讓模型分析目標使用者畫像和使用者在主要場景下的核心痛點,並推匯出對應的潛在功能需求,寫出MVP需求文件和初期營運增長路徑。▲AI 3D建模工具產品MVP需求文件從結果來看,所有需求要點都有比較準確的對應資訊,需求文件和營運增長路徑都有多個表格呈現梳理的內容,路徑規劃較為具體。▲AI 3D建模工具初期營運增長路徑PPT製作環節,我們要求PPT“讓學生真的能聽進去”,舉的例子能讓他們產生共鳴,對於這一需求,模型在PPT製作中用了很多“比喻”,融入了一些當代元素,比如“唐朝朋友圈”、將長安城比作“北上廣深”、將杜甫比作關注民生的“新聞記者”。不過模型在PPT製作的美觀程度和細節嚴謹程度方面還有待提升。03.新聞報告成“舊聞彙總”視訊生成仍有最佳化空間Agent能力方面,我們還測試了兩個定時任務,包括每日科技要聞摘要和TikTok熱門趨勢周度分析。雖然需求強調了是24小時內新聞,但給出的8個新聞全部為“過時消息”,基本均為2025年舊聞。這樣即便總結的新聞內容較為準確,但已經失去了最根本的“新聞”屬性。▲每日科技新聞摘要同時,對於檢索來源的標註只標明了媒體名稱,並未帶上對應的網頁連結。在TikTok熱門趨勢周度分析任務中,模型首先總結了核心趨勢動向,接著對熱門挑戰、熱門音訊、熱門話題標籤、重要創作者等部分進行了分析總結,最後按照要求給出了內容創作建議。▲TikTok熱門趨勢分析報告最後,我們簡單嘗試了視訊生成,從結果來看,模型並沒有對需求中狗的品種有精準呈現,不過畫面的氛圍、主物體動作、背景元素都有精準還原。提示詞:結果:04.結語:程式設計和Agent能力仍是模型競賽焦點雖然MiniMax-M2.5尚未官宣發佈,但從實際體驗和公開評價來看,其提升的重點仍然是Agent能力和程式設計能力,這也是當前主流大模型競爭的焦點。從生成結果來看,“拿來即用”仍然存在一定距離,大部分結果仍然需要修改校對,對需求的精準呈現仍然存在最佳化空間。 (智東西)