#國產AI模型
春節檔國產AI模型混戰開打,MiniMax-M2.5上線,隨手做“蘋果系統”
一句話做“黃金礦工”遊戲、生成精美公司網站。春節將至,國產AI大模型之戰愈發火爆。短短1天多時間,DeepSeek、智譜、字節等多家廠商模型密集更新,MiniMax-M2.5正式上線,其重點提升了Agent和程式設計能力。▲MiniMax-M2.5已可選MiniMax AI相關負責人在X平台上發文稱,他想盡快發佈M2.5,已經迫不及待想回家過年了,但隨著他們投入的訓練計算增多,模型效果也越來越好,這是一個痛並快樂著的問題。▲MiniMax AI工程負責人Skyler Miao在X平台發文智東西第一時間體驗了MiniMax-M2.5在定時任務、網頁製作、調研報告撰寫、視訊生成、PPT製作等任務執行上的能力。從結果來看,網頁製作是其強項,尤其在可視化表達方面,網頁的視覺呈現效果較好,比如我可以一句話讓它生成一家公司的投資分析儀表盤。▲關於蘋果公司的可視化儀表盤分析網頁做一個“黃金礦工”網頁版遊戲,MiniMax-M2.5也可以給出不錯的結果。▲網頁版黃金礦工小遊戲定時任務方面,其可以按照要求按時完成任務,但不同任務呈現的結果質量有一定差異。此外,不論是PPT製作還是調研報告生成,其生成結果的詳實程度都較好,輸出篇幅較長。有X平台使用者提前三天拿到了內測資格,他發文稱,MiniMax-M2.5提升明顯,和Opus 4.6打的有來有回,其模型體積小,據傳Mac mini也能部署。他還曬出了MiniMax-M2.5製作的網頁版“macOS系統”。▲X平台使用者評價截至2月12日港股收盤,MiniMax股價漲幅14.62%,總市值1622億人民幣,其股價盤中曾一度漲幅超23.5%。根據官網資訊,MiniMax將於3月2日公佈全年業績。▲截至2月12日收盤,MiniMax港股股價情況01.網頁設計是強項一句話做“黃金礦工”小遊戲首先,在考察程式設計能力的網頁製作環節,我們讓模型建立一個網頁儀表盤,對蘋果公司進行可視化分析,內容必須涵蓋財務健康狀況、技術面/市場情緒、競爭對手比較以及戰略估值(SWOT/內在價值),以提供明確的投資建議。從結果來看,需求中提到的基本指標都有較好覆蓋,SWOT分析給出的較為具體,整體網頁設計比較簡潔、美觀,基本的動效都已做好,資料展示較為直觀,滑鼠懸停在統計圖表上會有對應資料呈現。接著,我們讓模型為一家AI創業公司設計官方網站,融入太空主題元素,使用黑、白、灰作為主色調,營造出酷炫、精緻且充滿科技感的氛圍,特別要有一個能讓使用者感到震撼的精美地球動畫。從結果來看,網頁焦點處確實有地球動畫效果呈現,且地球本身可以跟隨滑鼠進行一定程度的運動。但網頁本身並沒有實現主色調的要求,對於精緻、科技感的要求沒有明確呈現,地球動畫本身帶有一些類似“粒子光效”的表現,但整體感覺並未達到“震撼”的水平。網頁遊戲製作令我們印象比較深刻,雖然第一次的生成效果“翻車”,遊戲無法互動遊玩。▲初次生成的版本無法遊玩,僅有首頁封面基本的遊戲模式、遊戲說明、遊戲關卡、遊戲操作都按照要求完成了,並且確實可以遊玩,遊戲過程還配合了對應的音效。02.專業報告一鍵生成PPT製作學會用比喻潤色此外,我們通過幾個任務測試了模型生成專業研究報告的能力,比如全面梳理AI開源推理生態、分析應用場景、對應方案並分析原因。從結果來看,其輸出內容邏輯清晰,在展示不同框架異同時用了表格進行對比,內容較多比較詳實,約6000字。▲AI開源推理生態相關研究報告生成對於“計畫開發一款針對初學者的AI 3D建模工具”這一需求,我們讓模型分析目標使用者畫像和使用者在主要場景下的核心痛點,並推匯出對應的潛在功能需求,寫出MVP需求文件和初期營運增長路徑。▲AI 3D建模工具產品MVP需求文件從結果來看,所有需求要點都有比較準確的對應資訊,需求文件和營運增長路徑都有多個表格呈現梳理的內容,路徑規劃較為具體。▲AI 3D建模工具初期營運增長路徑PPT製作環節,我們要求PPT“讓學生真的能聽進去”,舉的例子能讓他們產生共鳴,對於這一需求,模型在PPT製作中用了很多“比喻”,融入了一些當代元素,比如“唐朝朋友圈”、將長安城比作“北上廣深”、將杜甫比作關注民生的“新聞記者”。不過模型在PPT製作的美觀程度和細節嚴謹程度方面還有待提升。03.新聞報告成“舊聞彙總”視訊生成仍有最佳化空間Agent能力方面,我們還測試了兩個定時任務,包括每日科技要聞摘要和TikTok熱門趨勢周度分析。雖然需求強調了是24小時內新聞,但給出的8個新聞全部為“過時消息”,基本均為2025年舊聞。這樣即便總結的新聞內容較為準確,但已經失去了最根本的“新聞”屬性。▲每日科技新聞摘要同時,對於檢索來源的標註只標明了媒體名稱,並未帶上對應的網頁連結。在TikTok熱門趨勢周度分析任務中,模型首先總結了核心趨勢動向,接著對熱門挑戰、熱門音訊、熱門話題標籤、重要創作者等部分進行了分析總結,最後按照要求給出了內容創作建議。▲TikTok熱門趨勢分析報告最後,我們簡單嘗試了視訊生成,從結果來看,模型並沒有對需求中狗的品種有精準呈現,不過畫面的氛圍、主物體動作、背景元素都有精準還原。提示詞:結果:04.結語:程式設計和Agent能力仍是模型競賽焦點雖然MiniMax-M2.5尚未官宣發佈,但從實際體驗和公開評價來看,其提升的重點仍然是Agent能力和程式設計能力,這也是當前主流大模型競爭的焦點。從生成結果來看,“拿來即用”仍然存在一定距離,大部分結果仍然需要修改校對,對需求的精準呈現仍然存在最佳化空間。 (智東西)