AI Agent 的門票,MiniMax 想先打下來

為何人人都在 token 焦慮?

千呼萬喚,2026 年 6 月 1 日兒童節當天,MiniMax 第三代旗艦模型 M3 終於發佈了。

光看官方解讀,六個關鍵詞就可以概括這款模型的全部亮點:Coding 能力、1M 上下文、原生多模態、Computer Use、低價 Token Plan、開源

能力上,作為國內首個集齊了 Frontier 三件套——前沿 Coding/Agentic 能力、百萬 token 級超長上下文、原生多模態的開源模型的國產模型,M3 的實力不必多提。

畢竟在此之前,能同時集齊這三項的,只有 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT-5.5 這些海外頭部閉源模型。

能力固然耀眼,但這次主要想聊一聊的,是它的價格。

官方資訊顯示,這次的 MiniMax Token Plan 設計上,個人開發者套餐分三檔:Plus 49 元/月,6 億 token;Max 119 元/月,18 億 token;Ultra 469 元/月,55 億 token。

換算下來,Max 檔在相近價格下約等於 Claude 訂閱的 15 倍用量。

過去在 Chatbot 時代,很多人可能對這種性價比沒什麼概念。畢竟使用者問一句,模型答一句,成本還比較溫和。到了 Agent 時代,模型開始學會讀倉庫、掃檔案、跑測試、看日誌、修 bug、跑測試。一次任務背後,可能是幾十次、幾百次模型呼叫。

於是,模型變聰明了,但成本也沒多少人扛得住了。

而一個聰明又有足夠性價比的模型,對很多個體以及企業而言,有時候往往就是 AI 真正走向落地的臨門一腳。

01

從 Agent 經濟學的痛點,

到 49 元的 Plus Token Plan

過去大家討論 AI 替代人、解放人,常常默認 AI 一定更便宜。

但這句話成立,是有限制條件的。

特別是 Coding Agent 場景,前段時間,一篇關於 Agentic Coding 成本的研究,分析了 8 個前沿模型在 SWE-bench Verified 上的運行軌跡發現一個有意思的現象:

Agentic Coding 類任務,token 消耗不是線性增長,甚至可以達到普通程式碼問答的 1000 倍。更麻煩的是,有時候,token 燒得更多,精準率並不一定繼續變高,很多任務的精準率會在中等成本區間達到峰值,然後趨於飽和。

背後邏輯在於,Coding 需要使用者把完整的項目檔案、程式碼上下文喂給 AI,才能產出真正可用的程式碼。是典型的輸入 token 遠大於輸出 token 的場景。越是生產級場景,上下文成本就越是貴得離譜,有時候,甚至會超過人力成本本身。

這也就解釋了為什麼很多過去在 AI 使用上非常激進的企業,從今年開始,出現了態度反覆橫跳:

一個極端案例是 OpenClaw。其創始人 Peter Steinberger 曾曬出 30 天消耗約 130 萬美元 OpenAI API token 的帳單,覆蓋 6030 億 token、760 萬次請求,背後是約 100 個 Codex agent 在跑自動化開發任務。

Uber 更是 CTO 與 COO 先後公開下場吐槽,公司到 2026 年 4 月已經花完了全年 Claude Code 預算

在這一背景下,MiniMax M3 的性價比已經不是便宜一點的問題,更是 Agent 真正普及前的臨門一腳:

Agent 不能試錯就做不了複雜任務;但試錯太貴,企業就會關止步不前,個人開發者也會變得保守。

以前模型競爭的核心的是智力上限,agent 時代,單位成本下的有效工作量才是真正的重點。

這就是為什麼我認為 M3 的性價比其實也是產品能力的一部分。

但支撐這個性價比的根源在於那裡?性價比背後,產品的體驗又究竟如何?

02

為什麼行業發展到現在,

需要更強的 Coding 和長程自主迭代

價格解決的是敢不敢用,下一步使用者關心的,是值不值得用。

M3 官方給出的 Coding benchmark 很好看:SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。

這些數字當然重要,但我更建議把它們當成一個參考系,而不是結論。真正的亮點其實是官方用 M3 實現的兩個實際案例:復現論文和最佳化 CUDA 的 Hopper FP8 GEMM kernel

先看看 Hopper FP8 GEMM kernel 最佳化案例。

在這個任務裡,M3 的起點只有任務描述、benchmark 指令碼和一個不能直接運行的 Triton 骨架,沒有 reference 高性能實現。

M3 在約 24 小時內完成 147 次 benchmark 提交和 1959 次工具呼叫,把 Hopper FP8 GEMM 的硬體峰值利用率從 7.6% 推到 71.3%,實現 9.4 倍加速。

這裡最重要的細節其實不是最後的 71.3%,而是最優解出現在第 145 次提交。作為對比,除 Opus 4.7 和 M3 外,其餘模型大多在前 30 次提交內不再取得新進展並主動退出。

也就是說,模型並不是前幾輪靈光一閃就完成任務,而是在多個平台期裡繼續診斷、嘗試、驗證、推翻,再嘗試。

這個過程裡,模型需要需要維持目標、記住歷史、理解 benchmark 反饋,還要避免在多輪改動中把系統搞亂。

這也是 Coding Agent 和程式碼補全工具的分界線。一個普通 vibe coding 群體可能沒意識到的現實在於,真實的生產級環境中,無論 AI 還是人類,產出程式碼第一次跑不起來很正常;跑起來之後性能差也很正常;最佳化完引入新 bug 也很正常。而工程任務的大部分時間,都花在診斷、驗證、回滾、再嘗試。

這個能力的背後,不能只靠模型參數更大,還需要訓練資料更接近真實使用者邏輯。為此,MiniMax 建構了互動式使用者模擬器,模擬真實開發者在同一個 session 中不斷補充需求、調整方案、派發任務、反饋修正。

這也是為什麼我在前面說,benchmark 結果漂亮固然很重要,但不能直接將其平移到生產環境。今天很多 coding benchmark 仍然是 single-turn task,但真實協作一定是 multi-turn、multi-file、multi-tool、multi-objective。誰能把訓練和評測從一次性解題推進到持續協作,誰才更接近下一代 Coding Agent。

另外再看一下復現論文案例,這個也同樣很有意思。M3 被要求復現 ICLR 2025 Outstanding Paper Award 論文 Learning Dynamics of LLM Finetuning。它自主運行了接近 12 小時,產出 18 次 commit 和 23 張實驗圖表,跑通核心實驗,並觀測到 SFT 階段預測機率變化、DPO 的 squeezing 效應,以及 Extend 緩解方法。

這個任務的特點在於任務本身夠複雜,需要的能力也夠多。模型要讀論文正文,理解公式和圖表,寫實驗程式碼,跑訓練指令碼,檢查結果是否對齊論文結論,再根據偏差調整實驗設定。這就需要,模型的智能上限、長上下文、程式設計、多模態、工具呼叫、事實糾偏各種能力必須同時成立。

而 M3 的一大特點,正在於它是從 Step 0 開始做多模態混合訓練,而且使用的是文字、圖像和其他模態自然交錯的資料。

放到 Agent 語境裡,它意味著模型更容易進入真實工作現場,幫開發者看架構圖、錯誤截圖、性能曲線、PR 頁面和終端輸出,幫研究員讀論文正文,以及表格、圖像、曲線和公式。還能幫企業員工在 ERP、Excel、網頁後台、本地客戶端、聊天工具之間來回切換,讓多模態與智能本身,成為牢不可分的一體兩面。

我在測試裡直接讓 AI 根據《西遊記》小說,制定一個互動地圖。

完成這個任務的難點在於,首先模型要自己找到《西遊記》原文共 100 回,60 余萬字並通讀理解。

在此基礎上,做西遊互動地圖最難的是原著地名散亂、虛實空間混雜:行程描述唯寫里程但沒有坐標,所有的動線、事件跨百回分佈,必須全本上下文統籌梳理空間關聯;而仙界洞府等多層平行空間中的各種虛構場景沒有現實 GIS 參照,同時一些凡間位置,雖然有現實世界原型,但又並未在書中明說。

要把這些文字描述轉成地圖畫面、自動生成開發程式碼,對模型的上下文能力、工具呼叫能力、多模態能力、agent 協作能力,甚至審美都是不小的考驗。

這是最終的生成 HTML 頁面的截圖(部分展示),可以看到,不僅路線圖與劇情完全吻合,甚至不同地點可能對應的現實世界方位,也基本一致。

比如五行山對應現實世界河北五指山,法門寺在陝西西安,通天河在青海玉樹附近,而流沙河對應現實世界新疆塔里木的開都河,與現實世界原型的參考方位幾乎一一對應。

03

稀疏注意力搞定 1M 上下文已經不新鮮,

但如何保證命中率?

講完價格和 Coding,到這裡,很多人應該也就能理解 M3 設計的稀疏注意力機制支撐起的 1M 上下文背後的邏輯了。

長上下文現在已經不稀奇。很多模型都在宣傳 200K、1M,甚至更長。問題在於,窗口長不代表模型會用。

Agent 不可能每一步都從零開始思考,它必須把過去的失敗、使用者偏好、項目結構、工具反饋沉澱進上下文。相應的,模型的上下文中會堆滿了超長的程式碼檔案、終端日誌、失敗記錄、benchmark 輸出、使用者反饋、歷史工具呼叫和中間推理痕跡。

長上下文是實現這一切的基礎。但有時候,窗口越長,也就意味著各種中間狀態、無關內容構成的噪音越多,輸出質量越差,成本也越容易爆炸。

在這一背景下,使用稠密注意力,上下文長度的擴張以及輸出效率會受到限制,成本也會隨之失控。

使用普通稀疏注意力,能省成本,但容易犧牲細粒度資訊定位能力。

但偏偏,Agent 執行過程中,最怕漏細節。一次工具呼叫裡的關鍵報錯、某個程式碼檔案裡的邊界條件、某張圖裡的曲線異常,都可能決定任務能不能繼續。

因此,實現長上下文字身不難,真正難的是如何實現成本、效率、命中率的三者得兼。

瞭解行業背景的都知道,MiniMax 不是今天才開始做長上下文和稀疏注意力。

2025 年年初的 MiniMax-01 就用了 Lightning Attention,並且把模型訓練上下文做到 1M,推理上還嘗試外推到 4M 的更長上下文;

後來去年同一時期的 MiniMax-M1 繼續使用 hybrid attention,加上 MoE 和強化學習,主打長上下文、長推理和複雜軟體工程任務。

到了後來的 M2,MiniMax 還一度短暫回退到稠密注意力路線,直至此次 M3,MiniMax 借助 MSA 再次回歸稀疏注意力。

相比業內的其他稀疏注意力方案 DSA、MoBA 等,MSA 通過 scalable sparse attention、document-wise RoPE、KV cache compression 和 Memory Parallel 等設計,可以把訓練和推理複雜度做成線性,並在從 16K 擴展到 100M tokens 時保持低於 9% 的性能退化。並通過精準 KV 分塊升級,在算子層通過 KV outer gather Q 減少重複讀取,整體的計算訪存比是開放原始碼的 Flash-Sparse-Attention 和 FlashMoBA 的 4 倍以上。

而借助MSA,M3 能做到 1M 上下文下每 token 計算量只有上代模型 1/20、prefill 超過 9 倍加速、decoding 超過 15 倍加速。多數場景下,能力直接追平全注意力模式。

這類最佳化聽起來很底層,但使用者端會感受到兩件事:長任務跑得便宜,並且資訊的把握非常精準。比如這裡,我

把一整本《國富論》喂給 M3,做了一個亞當斯密邏輯下的模擬世界遊戲。

這其中的難點在於,《國富論》通篇都是定性社科論述,分工、財稅、外貿、資本、薪資的經濟傳導邏輯零散分佈全卷,只有百萬級上下文才能完整通讀全書,提煉環環相扣的量化演算規則,把斯密的文字理論轉化成稅率、生產率、財富聯動的數值公式。

在此基礎上,要完成模擬世界遊戲的建構,還需要靠 Agent 不斷完成長時序推演,理解玩家減稅、修路等政令可能導致的結果,最後還能分短中長期按古典經濟學邏輯迭代面板資料,全程不能違背原著底層經濟規律。

最後結果上,可以看到 M3 精準還原了斯密理論在實際生活中環環相扣,稅制、關稅會直接左右生產率與財富增減,辦學政策會在中期、長期對稅務、對勞動生產率、對國家財富積累以及人口產生不同的影響。使用者自訂政策後,系統會自動逐年演算經濟變遷,完整還原國富論裡政策隨時間釋放經濟紅利的設計。

而長上下文也只有做到這一步,才有意義。

04

Agent 時代,最稀缺的不是智能,

而是可負擔的智能

M3 的發佈背後,各種單點最佳化固然重要,但它同時也是國產模型開始從追 benchmark 轉向做系統、讓 agent 真正能落到所有企業與個人日常所需中的一個重要嘗試

複雜任務需要長上下文。長上下文會帶來成本、速度和資訊命中率問題,所以需要 MSA 這種更高效的注意力機制。

Coding Agent 需要持續迭代。持續迭代會消耗大量 token,所以模型既要會寫程式碼,也要能在多輪失敗裡維持目標、讀懂反饋、繼續推進。

真實工作環境是多模態的。只會處理文字,Agent 就很難處理截圖、圖表、後台、Excel、PR 頁面和終端輸出混在一起的任務。

高頻使用還要足夠便宜。否則使用者不會讓 Agent 充分試錯,企業也不敢把它接入真實流程。

每個點單獨看都不是第一次出現,但組合起來構成的,是 Agent 能力進入開發者和企業日常工作流的敲門磚。 (極客公園)