#Minimax
1個月賺60億,紅杉贏麻了!還有高瓴阿里騰訊,員工人人500萬富翁
2月19日消息,2月16日A股休市,港股半日市,港股的表現可圈可點,一直被詬病的恆科更是先抑後揚,收盤翻紅喜迎新春。大家看港股人氣榜,雙方走勢反差強烈,一邊是新科小登:兆易創新大漲近10%,瀾起科技暴漲14%,智譜一度突破540港元,mimimax暴漲24.56%;另一邊則是老登恆科們萎靡疲軟,一副無精打采的樣子,美團跌、小米跌,中芯跌、阿里跌、京東跌,騰訊微紅。於是,一種聲音在市場開始傳播,那就是以阿里、騰訊、美團、小米為主的老恆科,正在被瀾起科技、兆易創新、智譜以及即將上市的中際旭創、勝宏、滬電等“新恆科”所取代。知名百億私募創始人王一平發帖:恆科網際網路巨頭長期待在舒適區裡,改革的決心和內部的頑固既得利益對抗消耗,那怕資本市場持續下跌,也無法改變這一宿命。要不期待雄主出馬力排眾議堅定改革,要不新事物大概是開始取代舊事物的處理程序中了。此前金石雜談曾談過智譜,在智譜股價400元左右的時候,徐新已經爆賺15倍,還有騰訊小米都賺了超10倍,美團賺了近20倍,螞蟻賺了近10倍。如今徐新和恆科們只會賺的更多。今天,金石雜談帶大家簡單聊一聊minimax,作為港股大模型“第二股”,minimax在1月9日上市,發行價165港元,如今最高886港元,1個月時間暴漲437%,在新春即將到來之際,股民喜提“886”超級大紅包。僅今天一天,一手最多可賺3340港元。公司股價暴漲背後,一是發佈新型大模型。2月13日,MiniMax正式宣佈上線新一代文字模型MiniMax M2.5。據介紹,該模型定位為“原生Agent生產級模型”,目前已在MiniMax Agent平台上線,並支援全球開源及本地化部署。據悉,M2.5在程式設計、工具呼叫和搜尋、辦公等場景都達到行業領先;此外,在該公司內部真實業務場景中,整體任務的30%由M2.5自主完成,覆蓋研發、產品、銷售、HR、財務等職能,且滲透率仍在持續上升。二是,豆包一些列模型刺激,讓大模型概念不斷被炒作。尤其春節前後,智譜、豆包、千問、deepseek等一系列模型出爐,讓大模型概唸成為資本市場寵兒。三是,智譜股價的帶動。作為大模型第一股,智譜發行價116.2港元,早盤一度觸及540港元,2月暴漲124%,這或讓2月股價落後的minimax存在進一步補漲需求。金石雜談查詢發現,MiniMax成立於2022年初,該公司擁有MiniMax M2、Hailuo-02和 Speech-02為核心的自研大模型組合,具備長上下文處理能力,可理解、生成並融合文字、視覺、音訊等多種模態。招股書顯示,MiniMax2025年前九個月營收同比增長超過170%,海外市場收入貢獻佔比超70%。截至2025年9月30日,MiniMax已有超過200個國家及地區的逾2.12億名個人使用者以及超過100個國家的13萬企業客戶。該公司主要通過向個人使用者提供MiniMax、MiniMax語音、海螺AI和Talkie/星野等AI原生應用的訂閱服務創收,AI原生產品收入佔比超70%。還有為企業客戶和開發者提供API服務。業績方面,22年收入為零,23年346萬,24年3052萬,25年前9月實現收入5343.7萬元;同期分別實現虧損7372.8萬元、2.69億元、4.65億元以及大幅虧損(68%)至5.12億元。由於需要大幅研發和投入,持續燒錢之下,minimax吸引一眾明星資本加持。首先,該公司採用同股不同權,B類股有10票投票權;控股股東為閆俊傑,上市後持股大約25.9%,禁售期2年。此外,公司明星股東雲集,上市以來共計融資14.75億美元,雲集了頂級PE/VC紅杉資本、高瓴資本,科技巨頭阿里騰訊,知名國資中國人壽、中金資本等等,還有公募易方達、匯添富等頭部公募。上市後,米哈游持股5.24%,IDG持股2.57%,李澤楷旗下Bravo Ideas持股1.17%,阿里巴巴持股大約12.52%,騰訊持股2.37%,高瓴持股1.13%,紅杉資本持股2.95%,雷軍旗下順為資本持股1.61%,明勢資本持股0.82%。此外,公司還雲集了小紅書、經緯創投、中金資本、博裕資本、中國人壽旗下科技私募以及國際知名資本阿布扎比投資局等知名機構。根據招股書,minimax2021年12月開始天使輪,成本只有1.69美元,如今股價高達847港元,天使輪投資4年時間爆賺63倍;按已知騰訊投資超2.5億美元計算,目前持股7232084股對應市值7.84億美元,2年賺了214%,浮盈5.34億美元,折合36.9億人民幣;此外,李澤楷持股1.17%,僅上市以來就浮盈25億港元;高瓴資本僅上市以來浮盈24.2億港元,紅杉資本僅上市以來浮盈63.2億港元。金石雜談查詢天眼查發現,元啟資本在天使輪投資了minimax,且連續投資六輪,騰訊在A輪(23年6月)投資了超2.5億美元,阿里巴巴在24年3月投資了6億美元,彼時估值25億美元。招股書顯示,公司員工共有385人,平均年齡僅29歲,董事會平均年齡為32歲(90後),而公司員工持股計畫高達392人(包括前員工),這就意味著幾乎全員持股。員工持股計畫合計持股20890736股,行使價介乎0-0.8美元,人均持股5329股,對應目前市值451萬港元。招股書顯示,MiniMax此次全球發售引入了包括阿里巴巴、阿布扎比投資局(ADIA)、Aspex Management等在內的14家基石投資者,普遍浮盈4.13倍。基石中,阿布扎比成最大贏家,獲配306.5萬股,本次上市已浮盈21億港元;阿里再度投資3000萬美元,博裕資本投資3500萬美元,匯添富投資1500萬美元,易方達投資1000萬美元,泰康人壽投資2000萬。(金石雜誌)
2026年,人在度假,MiniMax Agent在上班
上周四晚上正準備關電腦睡覺,微信突然彈出來一條消息。是之前認識的一個學妹,大二,視覺傳達專業。她發了一大段語音,大意就是最近很焦慮,不知道該不該考研,想讓我這個“過來人”給點建議。可能是因為他聊過,辭職之後,一部分精力會去做設計師的職業規劃業務。我看了眼日曆,這周還有兩篇公眾號要趕,明天公司裡還要做設計評審。以前遇到這種事兒,要麼敷衍兩句“看你自己啊”,要麼就得熬夜幫她做分析——去招聘網站扒資料、翻各種就業報告、整理成文件,少說也得兩三天。但這次我沒熬夜。我打開MiniMax Agent Desktop,花了10分鐘配置了一個任務,然後……就真的去睡覺了。第二天早上起來一看,電腦桌面上躺著三個檔案——一份13頁3000+字 的Word分析報告、4張資料表、14頁的PPT。我快速掃了一遍內容,臥槽,這質量比我自己熬夜做的還TM專業。簡單潤色了一下措辭,9點鐘我把報告發給學妹。她秒回:“學長你昨晚沒睡吧?這也太詳細了……我都不好意思了。”我沒告訴她真相。因為我突然意識到一件更重要的事:2026年了,那些還在用“時間換產出”的人,可能真的要被淘汰了。職業規劃諮詢,是個最磨人的體力活。做過類似工作的人都懂,幫別人做職業規劃分析有多費勁。首先是資料蒐集這關就能把人逼瘋。你得去BOSS直聘、拉勾網一個個搜“UI設計師”“視覺設計師”“平面設計”,記錄不同城市、不同工作年限的薪資範圍;你得去各大美院、設計院校的官網翻就業質量報告,看看去年視覺傳達專業的學生都去了那兒、拿了多少錢;你還得在知乎、小紅書扒拉半天,找那些真實設計師的吐槽貼,看看他們到底過得怎麼樣。光這一步至少要花一整天。更要命的是,資料蒐集完了還得分析。考研和直接工作,那個5年後收入更高?研究生學歷在設計行業到底值不值?AI都開始做海報了,視覺設計師還有沒有未來?這些問題你不能拍腦袋,得拿資料說話,得做對比表格,得畫趨勢圖。最後還得根據這個學生的具體情況給建議。家裡有礦的和急著賺錢養家的,能一樣嗎?作品集已經很牛的和連PS都用不溜的,能一樣嗎?你得針對性地分析,不能給標準答案。所以每次有人找我做職業規劃,我都很頭疼。不是不想幫,是真TM費時間。而且說實話,這種重複性的資料蒐集和整理工作,根本配不上我10年的行業經驗——我的價值應該在“判斷和決策”上,而不是在“複製貼上薪資數字”上。直到這次,我發現MiniMax Agent Desktop可以把這些髒活累活全接過去。兩小時,從任務配置到報告交付那天晚上我其實只幹了一件事:告訴MiniMax Agent我要什麼。我打開Desktop版(option+A快速鍵直接喚起小窗,這個細節我很喜歡),然後用自然語言描述了任務:“幫我做一份視覺傳達專業考研vs直接就業的對比分析報告。需要包含:2025—2026年本科生和研究生的就業資料(薪資、崗位、學歷要求),熱門考研院校的報錄比和費用,5年總收入對比,以及AI時代設計師的職業建議。最後生成Word報告、Excel資料表和PPT匯報版。”然後我就去睡了。第二天早上看到結果的時候,我是真的有點懵。因為它不只是簡單地“搜尋+複製貼上”,而是真的在“工作”。它自動搜尋了網上2025—2026年視覺傳達相關崗位的薪資資料,按城市、工作年限做了分類統計;甚至還去知乎、小紅書抓了一些真實設計師的經驗分享,作為案例補充。更牛逼的是,它不只是搬運資料,還做了深度分析。比如Excel裡有一張表,對比了“本科”和“讀研”的不同工作年限工資差距,。這種需要綜合計算和邏輯推理的活兒,它也能幹。Word報告更誇張,3000多字,結構完整、邏輯清晰,每個結論都有資料支撐。甚至還專門寫了一章“AI時代設計師的核心競爭力”,分析了那些設計工作正在被Midjourney、Stable Diffusion替代,那些能力AI暫時學不會。這TM不是簡單的資訊整合,這是有思考深度的。PPT就更不用說了,15頁,該有的對比圖表、資料可視化全都有,範本還挺專業。直接就能用,比如這頁考驗成本全景分析。整個過程我投入的時間:10分鐘配置任務 + 20分鐘潤色修改 = 半小時。以前我自己做,至少要2—3天。這不是“AI助手”,這是“數字員工”用完之後我一直在想一個問題:MiniMax Agent Desktop和那些網頁版AI助手,到底有什麼本質區別?後來我想明白了:網頁版AI是在“幫你”工作,Desktop版是在“替你”工作。什麼意思呢?你用ChatGPT、Claude這些網頁版AI的時候,基本上是這樣的:你問一句,它答一句;你讓它搜尋,它給你一堆連結;你讓它整理資料,它給你一段文字,然後你得自己複製到Excel裡。整個過程你得一直盯著,一步步喂prompt,像個監工一樣。但MiniMax Agent Desktop不一樣。你給它一個複雜任務,它自己去網上找資料(Web Automation),自己在本地生成檔案(直接操作Excel、Word、PPT),自己做分析和推理(M2.5模型的深度理解能力)。你不用管中間過程,只需要驗收最終結果。這就是“AI原生工作台”和“套殼瀏覽器”的區別。舉個具體例子。我讓它去BOSS直聘抓薪資資料,它不是簡單地給我一個搜尋結果連結,而是:自動打開BOSS直聘網頁自動輸入搜尋關鍵詞“產品經理 北京”自動翻頁,抓取前100條招聘資訊自動提取薪資範圍、學歷要求、技能要求自動在本地生成Excel表格,按薪資區間做統計整個過程我不用管,它自己跑。這TM才叫自動化,這才叫“數字員工”。就像上面這張圖片,我在發出了指令之後,右側就自動打開了boss直聘的網站,繼續接下來的查詢操作。更關鍵的是,它能操作本地檔案。網頁版AI再牛逼,也只能給你生成一段Markdown文字,你還得自己複製到Word裡、調格式、插圖表。但Desktop版直接在你電腦上生成標準的.docx、.xlsx、.pptx檔案,打開就能用。這看起來是個小細節,但對於真實的工作場景來說,這是決定性的差距。因為工作交付的最後一環永遠是“檔案”,不是“對話方塊裡的一段文字”。專家Agents:把自己放大100倍更狠的是Expert Agent:把經驗封裝成系統用完這次之後,我又幹了一件事:把這整套分析邏輯封裝成了一個Expert Agent。什麼意思呢?就是我把我10年做職業規劃諮詢的經驗、方法論、判斷標準,全都寫成了一套指令,喂給了MiniMax Agent。然後我給它起了個名字,叫“職業規劃專家——設計方向”。建立的過程也是對話式的,操作非常自然,需要那些能力,比如建立檔案、建立表格等等,直接把要求傳送出去就可以了。現在如果再有學生來問我類似的問題,我不用每次都重新配置任務了。我直接呼叫這個Expert Agent,輸入學生的專業、年級、困惑、傾向,它自動就能生成一份定製化的分析報告。這才是最牛逼的地方。以前我幫一個學生做職業規劃,只能幫一個,因為我的時間有限。但現在我有了這個Expert Agent,我可以同時幫100個、1000個學生,而我自己的時間成本幾乎為零。而且這個Agent不只是簡單的Prompt範本,它是真的有“專家能力”的。我可以給它上傳私有知識庫(比如我這些年積累的行業報告、薪資資料、案例庫),可以配置特定的分析邏輯(比如“如果學生家庭經濟壓力大,優先推薦直接就業路徑”),甚至可以讓它呼叫外部API(比如即時查詢最新的招聘資料)。這就不是一個簡單的“AI助手”了,這是一個真正的“專家分身”。除此之外,我還建立了另一個資訊收集專家。作為一個自媒體博主,需要每天關注AI領域最新的新聞,最好是能夠直接找到那些價值比較高的新聞,來作為選題或者是重要知識的輸入。每天把時間花費在搜尋資訊上,實在太浪費了。所以這裡我又建立了一個資訊收集專家,每天幫我收集AI領域的新聞,並形成一個表格,寫明新聞的名稱、連結、重要程度以及這篇新聞能用來寫什麼選題。最後得到的excel表格(共有十幾條,只展示了一部分)巧了,新聞第一位的就是MiniMax-M2.5發佈,程式設計能力對標Claude 4.6。這TM才是AI時代的正確打開方式——不是讓AI替代你,而是讓AI放大你。你還是那個有10年經驗的資深設計師,但現在你可以“分身”成100個你,可以把你的能力規模化復用。還可以讓AI變成你的員工,你來當老闆佈置任務,最後只看結果!那些“AI辦公助手”,大多數隻是在Office軟體裡加了個側邊欄,能幫你潤色文字、生成大綱,但做不了端到端的任務。你還是得自己搜資料、自己整理、自己排版。只有MiniMax Agent Desktop是真的把“搜尋——分析——生成——交付”這整條鏈路打通了。而且它用的是M2.5模型,在Excel高階處理、深度搜尋調研、長文件摘要這些核心生產力場景裡,確實比其他模型強。2026年的工作方式我現在甚至在想一個更激進的場景:如果我有一天真的去日本度假,客戶突然要改方案,我是不是可以直接讓我的“UX設計專家Agent”接手?我在溫泉酒店泡澡,它在後台幫我做競品分析、生成設計方案、輸出PRD文件,然後發給客戶。客戶確認通過,我收到通知,繼續泡我的澡。這TM才是2026年該有的工作方式——人在度假,Agent在上班。說點實在的,寫到這兒可能有人會問:這麼牛逼,是不是要收費?目前Mac和Windows都能使用Expert Agent功能,你可以自己建立,也可以用官方和社區提供的現成Agent。唯一需要注意的是,如果你要跑特別複雜的任務(比如我這次的職業規劃分析,涉及大量網頁抓取和檔案生成),可能會消耗比較多的算力,需要訂閱會員。但說實話,如果這個工具能幫你省2—3天時間,這個錢花得值。目前作者每個月在各個AI工具上的付費早就超過了1000元。目前MiniMax Agent Desktop已經支援Windows和Mac雙版本,而且Windows版的檔案操作適配做得很好。我知道很多AI工具都是先做Mac版,Windows版就是個半成品,但MiniMax這次是真的下功夫了。畢竟國內大部分職場人還是用Windows,這個適配很關鍵。這才是2026年該有的工作方式,這才是MiniMax Agent 2.0想做的事情:不是讓AI替代人,而是讓每個人都能擁有一支“專家團隊”。還有一個小技巧:如果你是做內容創作、市場營運、資料分析這些工作的,強烈建議試試Desktop版的Web Automation功能。比如自動監控全網輿情、自動下載爆款視訊素材、自動生成資料報表,這些以前需要寫Python指令碼才能實現的功能,現在用自然語言描述一下就能跑起來。2026年了,那些還在用“我熬夜加班所以我牛逼”來證明自己的人,可能真的要被淘汰了。因為有些人已經開始用“我睡了一覺AI幫我把活兒幹完了”來定義效率了。 (AI高手杜小虎)
MiniMax發佈M2.5模型:1美元運行1小時,價格僅為GPT-5的1/20,性能比肩Claude Opus
M2.5模型實現性能與成本的雙重突破。價格僅為GPT-5等主流模型的1/10至1/20。性能比肩Claude Opus,在多語言程式設計測試Multi-SWE-Bench奪冠,任務完成速度較上代提升37%。採用原生Agent強化學習框架,內部已有30%任務由AI自主完成,程式設計場景程式碼生成佔比達80%。MiniMax推出了其最新迭代的M2.5系列模型,在保持行業領先性能的同時,大幅降低了推理成本,試圖解決複雜Agent應用在經濟上不可行的痛點,並宣稱其在程式設計、工具呼叫及辦公場景中已達到或刷新了行業SOTA(當前最佳)水平。2月13日,MiniMax公佈的資料顯示,M2.5展現了顯著的價格優勢。在每秒輸出50個token的版本下,其價格僅為Claude Opus、Gemini 3 Pro以及GPT-5等主流模型的1/10至1/20。在每秒輸出100個token的高速運行環境下,M2.5連續工作一小時的成本僅需1美元,若降至50 token/秒,成本進一步下探至0.3美元。這意味著1萬美元的預算足以支撐4個Agent連續工作一年,極大地降低了建構和營運大規模Agent叢集的門檻。在性能維度,M2.5在核心程式設計測試中表現強勁,並在多語言任務Multi-SWE-Bench上取得第一,整體水平比肩Claude Opus系列。同時,模型最佳化了對複雜任務的拆解能力,在SWE-Bench Verified測試中,完成任務的速度較上一代M2.1提升了37%,端到端執行階段間縮短至22.8分鐘,與Claude Opus 4.6持平。目前,MiniMax內部業務已率先驗證了該模型的能力。資料顯示,其內部30%的整體任務已由M2.5自主完成,覆蓋研發、產品、銷售等核心職能。特別是在程式設計場景中,M2.5生成的程式碼已佔據新提交程式碼的80%,顯示出該模型在真實生產環境中的高滲透率和可用性。01. 擊穿成本底線:無限運行Agent的經濟可行性M2.5的設計初衷是消除運行複雜Agent的成本約束。MiniMax通過最佳化推理速度和token效率實現了這一目標。模型提供100 TPS(每秒傳輸事務處理量)的推理速度,約為當前主流模型的兩倍。除了單純的算力成本降低,M2.5通過更高效的任務拆解和決策邏輯,減少了完成任務所需的token總量。在SWE-Bench Verified評測中,M2.5平均每個任務消耗3.52M token,低於M2.1的3.72M。速度與效率的雙重提升,使得企業在經濟上幾乎可以無限制地建構和營運Agent,將競爭焦點從成本轉移至模型能力的迭代速度上。02. 程式設計能力進階:像架構師一樣思考與建構在程式設計領域,M2.5不僅關注程式碼生成,更強調系統設計能力。模型演化出了原生的Spec(規格說明書)行為,能夠以架構師視角在編碼前主動拆解功能、結構和UI設計。該模型在超過10種程式語言(包括GO、C++、Rust、Python等)和數十萬個真實環境中進行了訓練。測試顯示,M2.5能勝任從系統設計(0-1)、開發(1-10)到功能迭代(10-90)及最終程式碼審查(90-100)的全流程。為了驗證其在不同開發環境下的泛化性,MiniMax在Droid和OpenCode等程式設計腳手架上進行了測試。結果顯示,M2.5在Droid上的通過率為79.7,在OpenCode上為76.1,均優於上一代模型及Claude Opus 4.6。03. 複雜任務處理:更高效的搜尋與專業交付在搜尋和工具呼叫方面,M2.5展示了更高的決策成熟度,不再單純追求“做對”,而是尋求以更精簡的路徑解決問題。在BrowseComp、Wide Search和RISE等多項任務中,M2.5相較於前代節省了約20%的輪次消耗,以更優的token效率逼近結果。針對辦公場景,MiniMax通過與金融、法律等領域資深從業者合作,將行業隱性知識融入模型訓練。在內部建構的Cowork Agent評測框架(GDPval-MM)中,M2.5在與主流模型的兩兩對比中取得了59.0%的平均勝率,能夠輸出符合行業標準的Word研報、PPT及複雜的Excel財務模型,而非簡單的文字生成。04. 技術底座:原生Agent RL框架驅動線性提升M2.5性能提升的核心驅動力來自於大規模強化學習(RL)。MiniMax採用了名為Forge的原生Agent RL框架,通過引入中間層解耦了底層訓推引擎與Agent,支援任意腳手架的接入。在演算法層面,MiniMax沿用了CISPO演算法以保障MoE模型在大規模訓練中的穩定性,並針對Agent長上下文帶來的信用分配難題,引入了過程獎勵機制(Process Reward)。此外,工程團隊最佳化了非同步調度策略和樹狀合併訓練樣本策略,實現了約40倍的訓練加速,驗證了模型能力隨算力和任務數增加呈現近線性提升的趨勢。目前,M2.5已在MiniMax Agent、API及Coding Plan中全量上線,其模型權重也將在HuggingFace開源,支援本地部署。 (硬AI)
有人買來試過嗎?
我沒拿來玩openclaw, 有問一些一般性的問題,確實不太行。不過拿來寫程式,還行。但是.... 因為只能搭配cline/openrouter,所以token耗很兇。如此算來,不一定比一般訂閱的划算,所以可能還是會訂閱一家,用超過的搭配這套。可能這樣最省
我買了 minimax starter 的年約,跑 openclaw,坦白說,根本浪費錢幻覺率很高,圖片無法正常辨識,要求要繁體回覆,一樣動不動就又跳出簡體回覆中間也常常有一些小錯誤看到這種報導文章,只能說無言
來自MiniMax M2.5的震撼 :小尺寸幾乎打平opus4.6,巨便宜,巨能幹活,速度巨快
MiniMax M2.5 正式發佈了,可以說這是一個相當優秀的國產模型,國產模型每一家都有自己的聚焦,MiniMax在進行的是極致最佳化,沒有過多花哨的技術實驗,專注於推出的是一款極其方便部署,價格具實惠,能幹活,性能對標世界頂尖的模型,咱也不尬吹,資料好看不代表真實體驗就好,但至少M2.5的確是在向真實生產環境可用和體驗在努力我先放兩張圖大家感受一下MiniMax的進化,看一下MiniMax M系列的來時路:尺寸對比,這就有意思了,感覺具有極高的可用性,非常適合家庭實驗室部署,據說推理服務提供商或許能在這個模型上挖掘出驚人的每秒token生成速度我們來看看MiniMax M 2.5 做到了什麼以及如何做到的MiniMax M 2.5做到了什麼首先看硬指標,它在各項SOTA性能上表現搶眼:MiniMax 測試了Agent工作流程中最重要的三項基準測試:SWE-Bench(它能否真正修復真實程式碼庫中的真實錯誤)、BrowseComp(能否搜尋網路並找到正確的資訊)和 BFCL(能否可靠地呼叫工具)。測試結果分別為 80.2%、76.3% 和 76.8%針對複雜任務,M2.5進行了執行效率的最佳化,速度提升了37%,速度提升聽起來似乎只是錦上添花,但當你運行一個Agent循環,模型在每個任務中呼叫自身 50 次以上時,速度的提升就顯得至關重要了每秒100token運行,每小時成本僅需1美元,這讓長周期Agent的無限擴展在經濟上成為了可能。具體來看,M2.5在以下幾個維度實現了突破。像架構師一樣思考的程式碼能力在程式設計評估中,M2.5相比前代產品有了顯著提升,達到了SOTA水平,尤其是在多語言程式設計任務中表現突出。與以往最大的不同在於,M2.5展現出了軟體架構師的思維與規劃能力。在訓練過程中,模型湧現出了編寫規格說明書的傾向:在敲下第一行程式碼前,它會主動從資深架構師的視角出發,對項目的功能、結構和UI設計進行拆解與規劃。在超過20萬個真實世界環境中,針對Go、Rust、Python、Java等10多種程式語言進行了訓練。這使得M2.5的能力遠超簡單的程式碼修復,而是覆蓋了複雜系統的完整開發生命周期:從0到1的系統設計與環境搭建,到1到10的開發,再到後續的功能迭代、程式碼審查和系統測試。它能處理跨Web、Android、iOS和Windows的全端項目,涵蓋伺服器端API、業務邏輯和資料庫,而不僅僅是前端網頁的演示。在更複雜的VIBE-Pro基準測試中,M2.5的表現與Opus 4.5持平。在SWE-Bench Verified評估集的Droid和OpenCode不同程式碼代理框架下,M2.5的得分分別為79.7和76.1,均超越了Opus 4.6。更精準的搜尋與工具呼叫為了應對更複雜的任務,高效的工具呼叫和搜尋能力是必選項。在BrowseComp和Wide Search等基準測試中,M2.5均取得了業界領先的成績。即便面對不熟悉的腳手架環境,它的表現也更加穩定。針對現實中專業人士不僅僅是使用搜尋引擎,而是需要在資訊密集的網頁中進行深度探索的特點,MiniMax建構了RISE評估體系。結果顯示,M2.5在真實場景下的專家級搜尋任務中表現優異。更重要的是決策效率的提升。相比前代M2.1,M2.5在解決同類任務時使用的輪次減少了約20%。這意味著模型不再僅僅是找對答案,而是在用更高效的路徑進行推理。真正的辦公場景交付M2.5在訓練之初就確立了產出可交付成果的目標。通過與金融、法律和社會科學領域的資深專家深度合作,將行業隱性知識注入模型訓練流程。這使得M2.5在Word、PowerPoint和Excel金融建模等高價值工作場景中能力顯著提升。在內部建構的Cowork Agent評估框架GDPval-MM中,通過對交付物質量和代理軌跡專業性的雙重評估,M2.5在與主流模型的對比中取得了59.0%的平均勝率。極致的效率與成本控制現實世界充滿各種deadline,速度即正義,現在模型都太貴了,我們急需要一款能打的便宜的模型M2.5的原生服務速度達到每秒100 token,幾乎是其他前沿模型的兩倍。加上強化學習對高效推理的激勵,其在複雜任務上的時間節省效果明顯。以運行SWE-Bench Verified為例,M2.5完成每個任務平均消耗352萬token,端到端執行階段間從31.3分鐘縮短至22.8分鐘,速度提升37%。這一速度與Claude Opus 4.6相當,但單任務總成本僅為後者的十分之一。為了實現智能不僅強大而且便宜到無需計費的願景,M2.5推出了兩個版本:M2.5-Lightning:穩定吞吐量每秒100 token,每百萬輸入token 0.3美元,輸出2.4美元。M2.5:吞吐量每秒50 token,價格減半。這意味著,以每秒100 token的速度連續運行一小時僅需1美元。如果以每秒50 token運行,價格降至0.3美元。換算下來,只需1萬美元,就可以讓4個M2.5實例連續運行一整年。從去年10月下旬至今,M2系列經歷了三次迭代,改進速度超出了預期,特別是在SWE-Bench Verified基準上,進步速度明顯快於Claude、GPT和Gemini系列。MiniMax M 2.5如何做到的這一切進步的核心驅動力來自於強化學習的規模化。MiniMax將公司內部的任務和工作空間轉化為RL訓練環境,目前已有數十萬個此類環境。為了支援這種規模的訓練,團隊自研了代理原生RL框架Forge。該框架引入中間層,將底層訓練推理引擎與代理完全解耦,支援任意代理整合,並最佳化了模型在不同腳手架和工具間的泛化能力。通過最佳化非同步調度策略和樹狀結構的樣本合併策略,訓練速度提升了約40倍。在演算法層面,沿用了CISPO演算法以確保MoE模型在大規模訓練中的穩定性,並引入過程獎勵機制來解決長上下文中的信用分配難題。M2.5的實戰演練目前,M2.5已全面部署在MiniMax Agent中。通過將核心資訊處理能力提煉為標準化的Office技能,當處理Word格式化、PPT編輯和Excel計算等任務時,Agent會自動載入相應技能。使用者還可以結合特定領域的行業SOP與Office技能,建構針對特定場景的專家。例如在行業研究中,Agent可以嚴格遵循成熟的研究框架SOP,配合Word技能,自動抓取資料、梳理邏輯並輸出格式規範的研究報告,而非簡單的文字堆砌。在MiniMax公司內部,M2.5已經承擔了日常營運中30%的任務,覆蓋研發、產品、銷售、HR和財務等部門。在編碼場景中,M2.5生成的程式碼更是佔到了新提交程式碼量的80%。 (AI寒武紀)
1美金時薪雇個全端替身,MiniMax M2.5讓打工人也能體驗當老闆的感覺
春節檔模型大戰,又殺出一匹黑馬。今天,MiniMax正式官宣了已經提前兩天開跑的新模型M2.5,依然主打智能體和Vibe Coding,性能比肩Claude Opus 4.6。它不挑食,PC端、手機App、React Native、Flutter全能寫,而且是前後端帶資料庫的真全端。以前的模型頂多給你畫個皮(前端),M2.5是連皮帶骨頭(前端+後端+資料儲存)都能給你交付。它還是為智能體生態而生的,配合OpenClaw這種腳手架,能把你的自然語言直接變成電腦上的具體操作。你只需要懂業務邏輯,剩下的全端程式碼實現,它能以100TPS的速度秒回交付給你,而且每小時成本只要1美金。10B啟動參數躋身第一梯隊M2.5這次在寫程式碼和跑任務這兩個硬指標上,直接和Claude Opus 4.6站在了同一條水平線上。比如在程式設計最硬核的SWE-Bench Verified榜單上,它拿到了80.2%的高分,在多語言任務Multi-SWE-Bench上更是拿到了第一。而且它在Vibe Coding模式下能通吃全端,能從介面一路寫到後端邏輯和資料庫設計,一次性交付整套能用的程式碼。比如面對一個“豪華貓咪隧道電商網站”的需求,不僅要極簡風、視差滾動效果,後台還得帶個3D配置器。M2.5跑出來的結果能直接呈現出大片級的自動播放視訊效果,連那種可以點著玩的3D配置器也跑得有模有樣,出來的網站整體感覺非常高級,而且是個真正能直接運行的完整項目。這種底氣來自於它進化出了“原生Spec行為”——在動手寫程式碼前,它會像架構師一樣主動拆解功能結構和UI設計。而且能全端通吃,是因為它是在Go、Rust、Python等10多種程式語言和幾十萬個真實環境中鍛鍊出來的。在處理長鏈路任務時,M2.5也是專門最佳化過的,不管是主流框架還是自己寫的指令碼,它都能順暢配合。這裡它引入了Process Reward(過程獎勵) 機制,能全鏈路監控完成質量,解決了長任務容易“跑偏”的難題。這種機制帶來的邏輯能力在處理繁瑣、重複性高的活時特別明顯,比如統計福布斯富豪榜,就需要去抓取淨資產、年齡和財富來源。M2.5生成的表格非常老練,它會自動建好Cover、BillionairesData和Sources三個Sheet,把封面、資料來源和詳細資料分得清清楚楚,格式規整得像個強迫症員工做的。能幹這麼重的活,M2.5的啟動參數量其實只有10B,是第一梯隊裡體型最小的旗艦模型。配合上深度最佳化的思考鏈路,它的推理吞吐量飆到了100TPS,這個速度是主流旗艦模型的2倍,跑大規模資料清洗或者改程式碼Bug任務時,也能體驗到那種瞬間刷屏的快感。文能編寫全端程式碼,武能操縱本地系統前面兩個線上DEMO,只是開胃小菜,接下來就把M2.5帶到真刀真槍的智能體環境當中拉練一番。按MiniMax的說法,適配各種不同的智能體框架,是M2.5的一大優勢能力。既然說到智能體框架,那不得不提的就是爆火的OpenClaw了,所以乾脆就在我的電腦上安裝一個,然後把M2.5接入進去試試。由於M2.5剛出,OpenClaw的安裝嚮導裡還沒有這個選項,因此安裝的過程手動折騰了一番,這裡也就不詳述了,總之最後是成功接入了進來。不過,通過後台看板和OpenClaw對話實在是太麻煩了,所以我打算把它接到我的飛書裡。拳腳已經給M2.5搭建好,接下來就看這個大腦怎麼發揮了。我用Python生成了一個裝了100個亂七八糟財務檔案的資料夾丟在桌面,然後給OpenClaw一個非常直接的任務:先把所有檔案名稱清洗一遍,統一改成“日期+供應商+金額”的格式。當然這還不算完,它得把這些資料吃透,按支出分類整理好,最後直接生成一份帶圖表的月度財務分析PPT,不僅要圖文並茂還得看著美觀。先看一下,整理之前的檔案長這樣:接下來呢,我們就通過飛書把任務佈置給M2.5正在操縱的OpenClaw。chua的一下,整個資料夾裡的檔案齊刷刷改了名字,變成了我們要求的格式。同時在飛書裡,OpenClaw也匯報了它的工作進度,總結了這個月的支出情況。至於PPT,顯然我懶得去資料夾裡翻找,所以直接通過飛書讓OpenClaw給我發了過來。激動人心的驗收時刻馬上就要到了。M2.5指揮的OpenClaw,自己選了個很有科技感的深色主題,藍綠配色看著就很舒服。而且它不是光把資料填進去就完事了,還真的看懂了那些帳單。比如在餅圖裡,它一眼就揪出來“雲端運算服務”佔了快90%的大頭,還在核心指標頁裡特意標註了第2周支出最高。在最後一頁它還提出了改進建議,發現在“星云云計算”上花錢太多,直接建議去談個年度合同降本。這種能從資料裡挖出業務洞察的能力,已經超越了單純的圖表製作。可以看出在智能體環境中,M2.5的確是一個合格的大腦,讓我體驗到了一種當老闆的感覺✨(⌐■_■)✨。除了智能體之外,還有一項讓MiniMax引以為傲的技能,就是Vibe Coding。這裡我們用VSCode,通過Cline進行連接,看M2.5能不能一勺燴地搞定後端、前端、通訊、部署偵錯這套完整的開發流程。我讓它用Java Spring Boot寫一個多人即時協作的待辦清單系統。功能上其實不簡單,得用WebSocket做多端的即時同步,還得卡死權限,誰建的任務誰才能改。另外對介面美觀度也有要求,必須得呈現出科技感,給人一種駭客終端的感覺。接到任務之後,M2.5先從pom.xml和application.yml兩個文件開始寫起。這倆檔案是Java Spring Boot項目的“心臟”和“大腦”。pom.xml相當於給建構工具(Maven)看的購物清單。也就是你要做這個“待辦清單”項目,需要用到那些現成的零件(依賴包)。application.yml(運行說明書)則是給程序看的設定面板。軟體啟動後具體怎麼跑,都在這裡定規矩。這兩個清單列好之後,就開始寫主體和各個模組的JAVA程式碼,還有前端HTML,另外還建立了一個資料庫檔案。這一切都寫好之後,M2.5驅動的Cline會自動對程序進行編譯運行,並且如果在這個過程當中遇到了報錯,還會讀取錯誤資訊,自動對程式碼進行修改。一番折騰之後,後台程序終於開始運行,前端頁面也在8080連接埠跑起來了,確實介面既簡潔又具有我剛才要求的科技感。簡單測試一下任務的新增、刪除和進度調整,還有暱稱的修改,都沒有問題。但是,這裡看到的效果並不能證明真的是後端服務正常運行,因為這樣的效果純靠前端也能實現。所以接下來還得拿出“照妖鏡”,通過多端同步這項技術要求,看一下是不是真的有後端在工作。這裡我把手機(通過區域網路訪問部署在電腦端的頁面)的螢幕都投到了電腦上,然後分別在兩端對任務進行增、刪、改,觀察另外一台裝置的即時變化。結果所有的操作,都即時同步到了另一端,說明後端正在工作,M2.5是真的把這個系統的前後端全給跑通了。嗯,M2.5宣傳的全端工程能力,確實已經比只會在前端搞一些花拳繡腿的模型高出一個level了。總之,還是我們常說的那句話,測試這些案例只是拋磚引玉,更多新奇的玩法,還等待著你的後續探索。AI大爆發即將到來這一波M2.5的出現,給我們帶來了一個明確的訊號——AI應用的大爆發,已經就在眼前了。在過去100多天裡,M2系列在程式碼能力上的進步速度直接拉出了一條陡峭的陽線,保持著行業最快的迭代節奏。這說明現在的模型,在“腦子好使”這件事上已經準備好了。而且它還解決了“貴”和“慢”這兩個最硬的攔路虎,把推理速度幹到了100TPS,還帶來了1美金就能讓智能體連續工作一小時的“白菜價”。它展現出的那種全端一肩挑的能力,使得它在MiniMax內部,已經接管了30%的真實業務,從寫程式碼到做財務報表什麼都干。它能一口氣把事辦成,開發者不用再天天盯著細節改Bug,能放心大膽地讓AI去跑那些長鏈路的業務。以前我們總說AI是Copilot,但在M2.5這種能獨立扛事的模型面前,它已經成為你的生產力引擎了。接下來,你只需要負責踩油門(下達目標),至於引擎蓋底下怎麼轉,就是AI的事了。 (量子位)
被低估的科大訊飛:賺錢的AI公司,反而更便宜?
港股近期,正接連上演兩場AI資本盛宴。智譜AI於2026年1月8日登陸港交所,發行價116.2港元。這家2024年全年營收僅3.124億元的公司,從2022年到2025年上半年已累計虧損超62億元,卻在資本市場一路狂飆。截至2月12日,其股價一舉沖上402港元,單日大漲28.68%,市值達到1792億港元。另一邊,MiniMax緊隨其後在1月9日掛牌,發行價165港元,首日收盤便衝到345港元,漲幅高達109.09%。它2025年前三季度營收約3.76億元,2022年至 2025年9月累計虧損13.19億美元,同樣是典型的高速燒錢模式,截至2月12日市值已達1844億港元。兩家港股AI新貴,一家全年營收剛過3億,一家前三季度不足4億,都還在虧損、都未跑通穩定盈利模型,市場卻慷慨給出了近兩千億港元的天價估值。再把目光移回A股,科大訊飛2024年營收233.4億元,2025年業績預告確認全年營收繼續正向增長,歸母淨利潤7.85億到9.5億元,是已實現盈利的AI企業。那市值呢?截至2月12日,公司股價57.84元,總市值約1337億元人民幣。由此看來,兩家還在虧損的AI公司,市值各自逼近1800億港元;一家已經盈利的,反而不到1400億人民幣。就在這個時間窗口,科大訊飛40億定增方案已於2月12日獲深交所稽核中心稽核通過,後續待證監會註冊。而這筆定增裡最值得玩味的部分,不是40億本身,而是董事長劉慶峰的個人選擇。01. 用自己的錢投票根據公告,科大訊飛此次募資總額不超過40億元,發行股數不超過1億股,佔總股本4.33%。錢怎麼花:24億投向算力底座平台建設,8億用於教育領域AI應用落地,剩下8億補充流動資金。發行對象不超過35名特定投資者,定價方式是發行期首日前20個交易日均價的80%。條款中規中矩,沒什麼特別值得說的;值得說的是劉慶峰自己的動作。認購主體是言知科技,劉慶峰持有其69.52%股權,是實際控制人。認購金額2.5億到3.5億元,資金來源寫得很明確:自有資金。不是公司出錢,不是質押融資,不是通過任何結構化安排讓風險轉嫁出去,是他自己口袋裡的錢。自有資金,不挑價格,18個月不能動。很少能看到一家A股公司的實控人,用這種方式參與自己公司的定增。對於任何一家上市公司來說,拿企業的錢去做戰略投資,和拿自己的錢下注,是兩種完全不同的心理狀態。前者即使失敗了也不過是報表上的一筆減值,後者虧了就是真虧了,沒有任何緩衝墊。劉慶峰的言知科技願意把2.5億到3.5億的資金放進來,這筆錢對任何人來說都不是小數目。再看定價方式,他不參與競價。A股定增市場上,控股股東或關聯方參與認購時,通常會在定價環節爭取一些有利安排,畢竟鎖定期內股價波動的風險是真實存在的,能在價格上拿到一點折扣就多一層安全邊際;可劉慶峰選擇接受市場定價,其他投資者競出什麼價格,他就跟什麼價格。然後是鎖定期,這可能是整個方案中最耐人尋味的細節。A股定增的標準鎖定期是6個月,這是監管最低要求。很多定增項目股價在解禁日前後出現劇烈波動,本質上就是參與者在兌現退出。劉慶峰給自己定了18個月,是標準鎖定期的3倍。18個月意味著什麼?意味著從定增落地到他可以動這筆股份,中間要經歷至少六個季度的業績週期。這段時間內如果公司業績低於預期、股價下跌,他沒有任何手段對這部分投入止損。劉慶峰選在這個節點入場,18個月鎖定期從定增落地算起,到期大致是2027年中。這段時間剛好覆蓋幾個關鍵節點:2025年報正式發佈、2026年上半年業績驗證等等。一個季度的利潤改善可以被市場歸為偶然,兩個季度可以被解釋為基數效應。但如果從2025年開始,利潤持續兌現、現金流持續改善、大模型收入從中標轉化為持續合同——這條鏈條每多一個季度的驗證,市場就越難繼續用現在的估值體系去定義科大訊飛。02. 利潤拐點已至智譜1792億港元、MiniMax1850億港元——這兩個數字至少證明了一件事:市場願意為AI故事掏大錢。訊飛的故事被忽略了,不是因為它不夠好,是因為它可能太早開始賺錢了,反而被塞進了傳統軟體公司的估值框架裡。虧損公司有想像空間,盈利公司只有PE倍數,這是市場的定價框架失誤,並非公司自身的基本面有什麼毛病。根據業績預告,2025年科大訊飛歸母淨利潤7.85億到9.5億元,同比增長40%到70%。扣非淨利潤2.45億到3.01億元,同比增長30%到60%。歸母和扣非同時在漲,這個細節很關鍵——把政府補貼、資產處置這些一次性收益剝乾淨之後,主營業務本身的賺錢能力還是在變強。而且營收仍在正向增長,利潤不是靠縮表省出來的。另外,看現金流,科大訊飛2025年經營活動現金流淨額超過30億元,歷史新高;銷售回款總額超過270億元,同樣創下歷史新高。這兩個歷史新高值得多說兩句。A股市場上增收不增利的公司一抓一大把,增利不增現金流的公司也不少——利潤表好看但錢收不回來,應收賬款越堆越高,這種故事大家見得太多了。尤其是To B和To G業務佔比高的公司,賬期長、回款慢幾乎是行業通病,很多公司的利潤增長最後都卡在了“錢收不回來”這一關。訊飛的業務結構裡To B和To G這兩塊佔比不小,但270億的銷售回款和30億的經營現金流,意味著公司的經營狀況相當穩健和健康。翻看這份業績預告,還有一些相當正面的商業化數字。2025年,科大訊飛大模型相關項目中標金額23.16億元,根據智能超參數發佈的《中國大模型中標項目監測與洞察報告(2025)》,這個數字超過行業第二名到第六名的總和。更重要的是,這些合同在未來幾個季度會逐步轉化為確認收入,構成2026年乃至更長時間維度的業績支撐。C端同樣在跑,AI學習機連續三年拿下品類銷冠——京東天貓618、雙11學習機品類全週期銷額第一。學習機這個品類的特殊之處在於,家長的購買決策極度依賴口碑和效果驗證——不是靠低價補貼能砸出來的,在這一領域,能做到連續三年品類第一的產品,屈指可數。開放平台的資料也值得拉出來看,開發者總數突破1000萬,其中:有127萬大模型新增開發者,在2025年選擇訊飛平台來做大模型開發的人,比絕大多數AI公司的全部開發者基數都大;56.4萬海外開發者,證明訊飛的平台吸引力不止於國內市場;最後,則是42.7億的終端覆蓋量級,意味著開發者在這個平台上做出來的應用,天然就有一個巨大的分發網路在等著。B端23億中標,C端三年品類銷冠,開發者1000萬,覆蓋終端42.7億,這張成績單對應的市值是1314億元人民幣。在對比港股那幾家漲到飛起的AI公司,幾組數字放在一起,已經無需多言了。03. 結語市場有時候會犯一種錯——把“已經盈利”當成利空,把“還在虧錢”當成利好。虧損公司被冠以“想像空間”四個字,於是估值可以天馬行空;盈利公司有了真實的財務報表,反而被拿著放大鏡挑毛病,被框進PE、PEG這些傳統估值模型裡,壓得死死的。這種分類方式聽起來荒謬,但它確實在主導資金的流向。投資者追捧虧損公司的邏輯是“現在不賺錢沒關係,未來賺大錢”,但對已經開始賺錢的公司,盈利反而成了被質疑的起點,而非被獎勵的終點。AI行業走到今天,真正的分水嶺不是誰的發佈會更炫、誰的benchmark跑分更高,而是誰先把“技術→產品→收入→利潤”這條完整閉環走通。這條鏈條上,每一個箭頭都是一道篩選——有技術的不一定能做出產品,有產品的不一定能賣出收入,有收入的不一定能轉化為利潤。絕大多數AI公司還停留在前兩個箭頭的位置,市場給它們的估值,賭的是後面的箭頭也能走通。而訊飛已經站在最後一個箭頭的右邊了。市場給還在虧損的AI公司1800億港元的定價,給已經走完閉環的訊飛1337億元人民幣——這中間的價差,是單純的認知滯後。訊飛可能不是最性感的AI標的,它沒有那種“從零到一改變世界”的敘事光環。但對於一個營收利潤在增長、現金流創歷史新高、大模型中標金額甩開所有對手的公司,市值比兩家還在燒錢的初創公司都低,那它就可能是當下最被低估的AI公司。這個定價,遲早會被修正。 (躺平指數)
你追我趕!國產大模型春節檔密集上新
國產AI大模型春節檔密集發佈。在智譜正式推出新一代旗艦模型GLM-5,Minimax亦上線Minimax 2.5。同時,DeepSeek已在網頁及App端進行模型的版本更新,上下文窗口由原有的128K直接提升至1M(百萬Token)等級,能夠單次完成處理一部長篇小說。《科創板日報》記者獲悉,阿里千問的Qwen 3.5、字節跳動的豆包大模型2.0預計也將在春節期間發佈。從已發佈的模型來看,程式設計和智能體能力成為重點。但隨著智能體任務複雜度提升,單次任務的token消耗在急劇增加。若無法進一步降低成本,將影響未來AI的規模化落地。▌MiniMax、智譜瞄準AI程式設計2月12日,MiniMax正式上線最新旗艦程式設計模型MiniMax M2.5。作為全球首個為Agent場景原生設計的生產級模型,其程式設計與智能體性能 (Coding & Agentic)比肩國際頂尖模型,直接對標 Claude Opus 4.6,支援PC、App、跨端應用的全端程式設計開發,尤其在Excel高階處理、深度調研、PPT等Office核心生產力場景中均處於行業領先(SOTA)地位。M2.5模型啟動參數量僅10B,在視訊記憶體佔用和推理能效比上優勢明顯,支援 100 TPS超高吞吐量,推理速度遠超國際頂尖模型。而智譜在前一日推出的旗艦模型GLM-5,同樣主攻程式設計與智能體能力。GLM-5參數規模由上一代的355B擴展至744B,啟動參數從32B提升至40B。內部評估顯示,GLM-5在前端、後端、長程任務等程式設計開發場景中,平均性能較上一代提升超20%,真實程式設計體驗逼近Claude Opus 4.5水平。由於GLM-5的超強表現,智譜在港股近四個交易日實現翻倍,從203港元今日最高漲至443港元,收盤價已經逼近Minimax。過去一年,AI程式設計發展迅猛。Anthropic此前發佈的《2026年智能體編碼趨勢報告》中指出,傳統軟體開發的遊戲規則正在被徹底改寫。一個曾預計需要4到8個月的項目,使用Claude大模型後僅用兩周就完成。《報告》明確指出,程式設計師這一職業並不會消失,但那些“只會寫程式碼”的程式設計師將逐漸被市場淘汰。Anthropic的CEO達里歐·阿莫代伊在一年前就曾預言:“未來3~6個月,AI將編寫90%的軟體程式碼。”如今,這一預言正逐步轉化為現實。這或將對傳統軟體行業帶來影響。業內分析認為,AI智能體可以直接呼叫軟體底層系統,這動搖了傳統軟體“按人頭訂閱”的盈利邏輯,推動行業向“按使用計費”的模式轉型。▌智能體成為最核心的競爭主線CIC灼識諮詢TMT行業相關分析師對《科創板日報》記者表示,國產大模型競爭已從單純的參數規模競賽,全面轉向以技術差異化、應用場景深耕與成本效率為核心的新階段。春節期間及近期,各廠商的發佈與迭代均圍繞此主線展開。除了騰訊元寶和阿里千問等推出的行銷活動帶動市場對生態側的關注,近期字節跳動發佈的Seedance2.0、DeepSeek的V4模型和MiniMax上線的Agent平台等,從技術細節來看,無論是基座模型還是Agent的更新,都反映出智能體工程(Agentic Engineering)成為技術路線的重要競技場,AI企業對於模型的推理效率和長期任務表現更加注重,從大模型廠商當下模型設計的實際來看,產品形態也越來越Agent導向。圖片由AI生成灼識諮詢分析師表示,通用大模型在複雜業務邏輯和專業知識場景中表現有限。智能體通過整合領域知識、工具呼叫、工作流編排等能力,能夠深入垂直場景,提供專業化、自動化的解決方案,真正實現生產力變革。經歷近幾年的發展,市場普遍對於AI在實際場景中能夠帶來的真實價值更加關注,智能體是連結模型與使用者場景的關鍵一步,自然也是競爭的焦點。IDC中國研究經理孫振亞認為,大模型的能力正在從純粹的生成式輸出向智能體能力進化。“可以看到,各家模型廠商都在程式碼、多模態、長上下文和工具呼叫能力上做針對性的最佳化。程式碼和工具呼叫能力讓模型能夠進行執行和操作,多模態能力讓模型的感知從文字擴展至圖文音視訊,長上下文讓模型能處理更多的環境和記憶資訊。這些能力是模型能不能在更多場景中幹活並產出價值的基礎,也是智能體能力的重要組成部分。”▌AI規模化落地仍要過成本關談及AI規模應用的挑戰,CIC灼識諮詢TMT行業相關分析師表示,國內AI生態在晶片、框架、模型、應用層仍存在一些碎片化問題,需要進一步統一。在成本方面,他指出,從B端(企業端)來看,儘管API呼叫成本下降,但企業若追求私有化本地部署,一次性硬體投入和長期維運成本依然高昂且需要明確的業務價值閉環來證明投資回報,企業端部署的投入產出比(ROI)仍舊需要進一步驗證。孫振亞也表示成本是一大挑戰。隨著智能體任務複雜度提升,模型需要處理的上下文越來越長,呼叫鏈路越來越深,單次任務的token消耗在急劇增加。成本降不下來,智能體就只能停留在高價值場景,很難真正普及。另外,可靠性也是瓶頸。灼識諮詢分析師稱,一些行業對於可靠性要求極高,當前技術未能完全消除幻覺。孫振亞同樣指出,當前AI在執行複雜任務時的穩定性還不夠,模型依然存在的幻覺問題,使得複雜場景下多步執行非常容易出現錯誤累積。如果沒有可靠性,就談不上規模化落地。而在治理與信任方面,孫振亞表示,隨著AI從輔助工具走向自主執行,權限管理、審計追溯、責任界定這些治理能力必須跟上。“企業敢不敢讓AI去做決策、出了問題誰來負責、AI的操作過程能不能被審計。這些解決了,AI才會真正在各行業大規模落地。”灼識諮詢分析師還指出,在敏感領域,資料出域安全、模型訓練資料的合規性與質量、以及智能體互動中的資料隱私保護,也是規模化落地的主要障礙之一。 (科創板日報)
春節檔國產AI模型混戰開打,MiniMax-M2.5上線,隨手做“蘋果系統”
一句話做“黃金礦工”遊戲、生成精美公司網站。春節將至,國產AI大模型之戰愈發火爆。短短1天多時間,DeepSeek、智譜、字節等多家廠商模型密集更新,MiniMax-M2.5正式上線,其重點提升了Agent和程式設計能力。▲MiniMax-M2.5已可選MiniMax AI相關負責人在X平台上發文稱,他想盡快發佈M2.5,已經迫不及待想回家過年了,但隨著他們投入的訓練計算增多,模型效果也越來越好,這是一個痛並快樂著的問題。▲MiniMax AI工程負責人Skyler Miao在X平台發文智東西第一時間體驗了MiniMax-M2.5在定時任務、網頁製作、調研報告撰寫、視訊生成、PPT製作等任務執行上的能力。從結果來看,網頁製作是其強項,尤其在可視化表達方面,網頁的視覺呈現效果較好,比如我可以一句話讓它生成一家公司的投資分析儀表盤。▲關於蘋果公司的可視化儀表盤分析網頁做一個“黃金礦工”網頁版遊戲,MiniMax-M2.5也可以給出不錯的結果。▲網頁版黃金礦工小遊戲定時任務方面,其可以按照要求按時完成任務,但不同任務呈現的結果質量有一定差異。此外,不論是PPT製作還是調研報告生成,其生成結果的詳實程度都較好,輸出篇幅較長。有X平台使用者提前三天拿到了內測資格,他發文稱,MiniMax-M2.5提升明顯,和Opus 4.6打的有來有回,其模型體積小,據傳Mac mini也能部署。他還曬出了MiniMax-M2.5製作的網頁版“macOS系統”。▲X平台使用者評價截至2月12日港股收盤,MiniMax股價漲幅14.62%,總市值1622億人民幣,其股價盤中曾一度漲幅超23.5%。根據官網資訊,MiniMax將於3月2日公佈全年業績。▲截至2月12日收盤,MiniMax港股股價情況01.網頁設計是強項一句話做“黃金礦工”小遊戲首先,在考察程式設計能力的網頁製作環節,我們讓模型建立一個網頁儀表盤,對蘋果公司進行可視化分析,內容必須涵蓋財務健康狀況、技術面/市場情緒、競爭對手比較以及戰略估值(SWOT/內在價值),以提供明確的投資建議。從結果來看,需求中提到的基本指標都有較好覆蓋,SWOT分析給出的較為具體,整體網頁設計比較簡潔、美觀,基本的動效都已做好,資料展示較為直觀,滑鼠懸停在統計圖表上會有對應資料呈現。接著,我們讓模型為一家AI創業公司設計官方網站,融入太空主題元素,使用黑、白、灰作為主色調,營造出酷炫、精緻且充滿科技感的氛圍,特別要有一個能讓使用者感到震撼的精美地球動畫。從結果來看,網頁焦點處確實有地球動畫效果呈現,且地球本身可以跟隨滑鼠進行一定程度的運動。但網頁本身並沒有實現主色調的要求,對於精緻、科技感的要求沒有明確呈現,地球動畫本身帶有一些類似“粒子光效”的表現,但整體感覺並未達到“震撼”的水平。網頁遊戲製作令我們印象比較深刻,雖然第一次的生成效果“翻車”,遊戲無法互動遊玩。▲初次生成的版本無法遊玩,僅有首頁封面基本的遊戲模式、遊戲說明、遊戲關卡、遊戲操作都按照要求完成了,並且確實可以遊玩,遊戲過程還配合了對應的音效。02.專業報告一鍵生成PPT製作學會用比喻潤色此外,我們通過幾個任務測試了模型生成專業研究報告的能力,比如全面梳理AI開源推理生態、分析應用場景、對應方案並分析原因。從結果來看,其輸出內容邏輯清晰,在展示不同框架異同時用了表格進行對比,內容較多比較詳實,約6000字。▲AI開源推理生態相關研究報告生成對於“計畫開發一款針對初學者的AI 3D建模工具”這一需求,我們讓模型分析目標使用者畫像和使用者在主要場景下的核心痛點,並推匯出對應的潛在功能需求,寫出MVP需求文件和初期營運增長路徑。▲AI 3D建模工具產品MVP需求文件從結果來看,所有需求要點都有比較準確的對應資訊,需求文件和營運增長路徑都有多個表格呈現梳理的內容,路徑規劃較為具體。▲AI 3D建模工具初期營運增長路徑PPT製作環節,我們要求PPT“讓學生真的能聽進去”,舉的例子能讓他們產生共鳴,對於這一需求,模型在PPT製作中用了很多“比喻”,融入了一些當代元素,比如“唐朝朋友圈”、將長安城比作“北上廣深”、將杜甫比作關注民生的“新聞記者”。不過模型在PPT製作的美觀程度和細節嚴謹程度方面還有待提升。03.新聞報告成“舊聞彙總”視訊生成仍有最佳化空間Agent能力方面,我們還測試了兩個定時任務,包括每日科技要聞摘要和TikTok熱門趨勢周度分析。雖然需求強調了是24小時內新聞,但給出的8個新聞全部為“過時消息”,基本均為2025年舊聞。這樣即便總結的新聞內容較為準確,但已經失去了最根本的“新聞”屬性。▲每日科技新聞摘要同時,對於檢索來源的標註只標明了媒體名稱,並未帶上對應的網頁連結。在TikTok熱門趨勢周度分析任務中,模型首先總結了核心趨勢動向,接著對熱門挑戰、熱門音訊、熱門話題標籤、重要創作者等部分進行了分析總結,最後按照要求給出了內容創作建議。▲TikTok熱門趨勢分析報告最後,我們簡單嘗試了視訊生成,從結果來看,模型並沒有對需求中狗的品種有精準呈現,不過畫面的氛圍、主物體動作、背景元素都有精準還原。提示詞:結果:04.結語:程式設計和Agent能力仍是模型競賽焦點雖然MiniMax-M2.5尚未官宣發佈,但從實際體驗和公開評價來看,其提升的重點仍然是Agent能力和程式設計能力,這也是當前主流大模型競爭的焦點。從生成結果來看,“拿來即用”仍然存在一定距離,大部分結果仍然需要修改校對,對需求的精準呈現仍然存在最佳化空間。 (智東西)