MiniMax 深夜開源了訓練成本只要53萬美元的開源模型M1,輸出長度達到8萬Token!MiniMax 放出了一顆重磅炸彈——MiniMax-M1,這是全球首個開放原始碼的大規模混合注意力推理模型。這個模型最炸裂的地方在那?100萬Token的輸入,8萬Token的輸出,這個上下文窗口長度直接刷新了開源模型的紀錄。更離譜的是,M1 的訓練成本只要53.47萬美元!要知道,現在訓練一個大模型動輒就是幾千萬美元起步,MiniMax這波操作屬實是把成本打到了地板上。性能碾壓一眾大佬看看官方放出的跑分資料,MiniMax-M1在多個維度上的表現都相當炸裂。在數學推理任務AIME 2024上,MiniMax-M1-80K拿到了86.0分,雖然比不上DeepSeek-R1-0528的91.4分,但已經超過了Claude 4 Opus的76.0分。更牛的是在程式設計任務上,LiveCodeBench的測試中,MiniMax-M1拿到了65.0分,直接把DeepSeek-R1原版的55.9分甩在身後。擁有13.6萬粉絲的AI研究員Aran Komatsuzaki(@arankomatsuzaki)興奮評價稱:MiniMax-M1是一款開源大型語言模型,具備46億活躍參數,展現出幾乎達到最新技術水平的推理和自主智能代理能力。研究員Wenhu Chen(@WenhuChen) 表示:該模型表現優異但發佈低調,顯示了該模型在多項指標上的強勁實力。開源社區炸鍋了消息一出,整個AI圈都沸騰了。Hugging Face的訓練LLM工程師elie(@eliebakouch)激動地回應:走起來了 😍Hugging Face的首席"get-shit-done"官Vaibhav (VB) Srivastav(@reach_vb)更是連發多條推文:太強了!!你們太牛了!而且還是Apache許可證,愛了愛了Minimax M1 456B支援百萬上下文,性能優於DeepSeek R1和Qwen 235B。AI 研究員Florian S(@airesearch12)看到LiveCodeBench的成績後直接驚呼:臥槽,這真的太強了!你告訴我一個開源模型在LiveCodeBench上打敗了Opus 4?!vLLM團隊(@vllm_project)神速響應:vLLM團隊確認已在Day 1支援該模型的推理運行,並行布了相關適配補丁。獨立開發者Johnny(@j4redux)感嘆:1百萬上下文窗口 + 4萬輸出在tau bench retail上超越了gemini 2.5 pro——太瘋狂了!技術細節:混合架構的魔力翻看技術報告,MiniMax-M1的成功離不開幾個關鍵創新。首先是混合專家(MoE)架構結合閃電注意力機制。模型總參數量456億,但每個Token啟動的參數隻有45.9億,這種設計既保證了性能又控制了計算成本。更重要的是他們提出的CISPO演算法——一種新穎的強化學習演算法,通過裁剪重要性採樣權重而非Token更新,顯著提升了訓練效率。Google DeepMind研究員rohan anil(@arohan)從技術角度深入分析:根據近期論文的分析,推理時間的核心限制是KV(key-value)記憶訪問。該訪問成本與生成長度呈二次關係。MiniMax-M1包含10個完整的Attention層,其KV維度為128×8×2=2048,而對比模型R1的KV維度為576。這種混合架構設計讓MiniMax-M1在處理10萬Token生成任務時,計算量只有DeepSeek R1的25%。矽谷開發者valn1x(@valn1x)爆料:這比o1的訓練效率高了15000-20000倍。這是實際數字。Chubby♨️(@kimmonismus)總結道:天那!該模型支援世界上最長的上下文窗口:可處理100萬令牌的輸入和8萬令牌的輸出。採用強化學習訓練,訓練成本僅為53.47萬美元,效率領先。實戰案例展示興奮的網友們紛紛上手,貢獻了無數的 M1 實操case(都不用我上手了)——可以看到了M1 模型的真正實力。UI元件生成只需一個提示詞,M1就能即時建構帶有canvas動畫粒子背景的HTML頁面:互動式應用開發讓M1建立一個打字速度測試應用,它生成了一個乾淨、功能完善的Web應用,可以即時追蹤WPM(每分鐘字數):可視化工具建立帶有canvas動畫粒子背景的HTML頁面,粒子能夠平滑移動並在接近時連接:遊戲開發M1還能建立迷宮生成器和路徑尋找可視化工具,隨機生成迷宮並逐步可視化A*演算法求解過程:部署指南MiniMax提供了兩個版本供選擇:1. MiniMax-M1-80k版本(8萬Token思考預算):from transformers import AutoTokenizer, AutoModelForCausalLM# 載入模型和分詞器model_name = "MiniMaxAI/MiniMax-M1-80k"tokenizer = AutoTokenizer.from_pretrained(model_name)model = AutoModelForCausalLM.from_pretrained(model_name)# 使用模型進行推理inputs = tokenizer("你的輸入文字", return_tensors="pt")outputs = model.generate(**inputs, max_length=80000)response = tokenizer.decode(outputs[0])2. MiniMax-M1-40k版本(輕量版,4萬Token思考預算):model_name = "MiniMaxAI/MiniMax-M1-40k"# 其餘程式碼與上面相同AI 專家Alexandre Strube(@alexandre_ganso) 則關心硬體要求,:推薦的推理硬體,我猜測需要8x GH200 144GB,還是96GB的就夠了?而手快的Novita AI(@novita_labs) 則已經第一時間提供了API 服務:Minimax-M1已在Novita上線!世界首個開放原始碼的大規模混合注意力推理模型!💰0.55/0.55/2.2 per 1M tokens (輸入/輸出)展望前銀行軟體工程師Lincoln 🇿🇦(@Presidentlin)的評論道出了很多人的心聲:歡迎回到開源陣營 💙北歐AI研究院(@nordicinst)評價:MiniMax-M1是一款開源人工智慧模型,具備高達1,000,000個令牌的上下文處理能力,同時採用了一種超高效的強化學習技術。該模型旨在為北歐地區的AI創新者提供強大且經濟的解決方案。MiniMax這次的開源舉動,收穫了全球網友的全面認可,也展示了其在AI領域的全面實力。(不過我想說的是,你們除了棒、好、酷、牛之外,就不會點其他的了嗎?……作為成立於2021年的中國AI公司,除了這次開放原始碼的M1模型,MiniMax還擁有Hailuo AI視訊生成平台、月活近3000萬的Talkie AI角色扮演平台,以及服務全球4萬多家企業的API平台。MiniMax-M1的發佈,不僅展示了中國AI公司在大模型技術上的突破,更重要的是為全球開源社區注入了新活力。53萬美元訓練出一個性能如此強悍的模型,這個成就讓整個AI界重新思考大模型發展的方向。這標誌著開源領域在長上下文理解和高效強化學習訓練方面取得的重要進展,也預示著國產開源模型正在國際舞台上發揮越來越重要的影響力。而這,還只是 5 天發佈的Day 1。 (AGI Hunt)