燒光140億美元,給Meta做“閉源模型” 祖克柏:別急,我還有狠貨
繼Llama 4曝出基準刷榜醜聞、旗艦模型Behemoth項目擱置等問題之後,祖克柏決定徹底推倒重來。
他曾砸下140億美元挖人,親自在帕羅奧圖和太浩湖的豪宅裡宴請頂級研究員,最終將前Scale AI首席執行長汪韜(Alexandr Wang)延攬麾下,主持成立Meta超級智能實驗室(Meta Superintelligence Labs),並用九個月時間將整個AI技術堆疊從頭重建。
美國當地時間4月8日,這場豪賭的第一張答卷正式亮相:Muse Spark。
這是Meta首款閉源大模型,告別了過去全面開放原始碼的路線,將直接為Meta AI助手提供支援,並以API私測形式向少數合作夥伴開放。
根據Meta內部基準測試,Muse Spark在多項指標上超越了GoogleGemini,與OpenAI和Anthropic的同級模型互有勝負,並在大多數測試中大幅領先於xAI的Grok。消息公佈後,Meta股價當日大漲6.5%,市值達到1.55兆美元。
01. 領跑多模態和前沿科學基準測試
成績單是檢驗重建成果最直接的標尺。
Meta提供的基準測試圖呈現了一份複雜的成績單:有亮點,也有短板,這或許才是一款“起步款”模型最真實的面貌。
在多模態理解方面,Muse Spark表現突出。圖表理解測試CharXiv Reasoning中得分86.4,領先Opus 4.6(65.3)和Grok 4.2(60.9),也高於GPT 5.4(82.8),僅略低於Gemini 3.1 Pro(80.2,但該項Muse Spark實為更高)。
具身推理ERQA測試中得分64.7,同樣優於Opus 4.6的51.6。健康領域是Muse Spark的另一個顯著優勢:開放式健康問答HealthBench Hard中得分42.8,遠超Opus 4.6的14.8、Gemini 3.1 Pro的20.6和Grok 4.2的20.3,是幾家競爭對手中的最高分。
深思模式(Contemplating)的表現同樣值得關注。在“人類終極考試”(Humanity’s Last Exam)無工具版本中,Muse Spark深思模式得分50.2,超過Gemini 3.1 Deep Think的48.4和GPT 5.4 Pro的43.9;啟用工具後得分58.4,超越Gemini 3.1 Deep Think的53.4,與GPT 5.4 Pro的58.7基本持平。
在“前沿科學研究”(FrontierScience Research)測試中,Muse Spark深思模式得分38.3,不僅大幅領先Gemini 3.1 Deep Think(23.3)和GPT 5.4 Pro(36.7),更是幾家中的最高分。這是衡量模型逼近真實科研邊界的核心指標之一。
然而成績單並非全面飄紅。在抽象推理ARC AGI 2測試中,Muse Spark得分42.5,明顯落後於Opus 4.6(63.3)、Gemini 3.1 Pro(76.5)和GPT 5.4(76.1);智能體終端程式設計Terminal-Bench 2.0中得分59.0,低於Opus 4.6的65.4、Gemini 3.1 Pro的68.5和GPT 5.4的75.1;競技程式設計LiveCodeBench Pro中得分80.0,也落後於Gemini 3.1 Pro的82.9和GPT 5.4的87.5。辦公任務綜合評估GDPval-AA Elo中,Muse Spark得分1444,低於Opus 4.6的1606和GPT 5.4的1672。
MMMU-Pro多模態理解測試中,Muse Spark得分80.4,介於Opus 4.6(77.4)和Gemini 3.1 Pro(83.9)之間,與GPT 5.4(81.2)相近。博士級推理GPQA Diamond中得分89.5,低於Opus 4.6(92.7)、Gemini 3.1 Pro(94.3)和GPT 5.4(92.8),差距較為明顯。
這份成績單的背景是“Muse系列首款模型”。Meta在發佈檔案中反覆強調,更大規模的後續模型已在研發之中,當前結果的意義更多在於證明技術堆疊的規模化可行性,而非宣示性能天花板。
Meta強在多模態感知與前沿科研推理,弱在抽象推理與智能體程式設計。這份有得有失的成績單,或許比一份完美的跑分更能說明問題:Meta的重建尚未完成,但方向已經清晰。
02. 多智能體平行
Muse Spark最引人注目的架構亮點,是多智能體平行編排機制與多模態感知能力的原生整合,二者共同構成了這款模型區別於競爭對手的核心底色。
當使用者提出一個複雜問題,Meta AI不再讓單個模型“想清楚再回答”,而是同時派出多個子智能體分頭行動。以規劃一次佛羅里達家庭旅行為例:一個智能體負責起草總行程,另一個對比奧蘭多和基韋斯特各自的利弊,第三個同步搜尋親子友好型活動,三條線平行推進,最終彙總成一份更快、更完整的答案。
與此對應,Muse Spark推出了“深思模式”(Contemplating mode),直接與Gemini Deep Think和GPT Pro的旗艦推理模式正面競爭。多智能體平行並不意味著更長的等待,它用橫向擴展取代了縱向堆疊,在可比時延下實現了更優的綜合表現。
大多數AI助手的侷限在於只能理解使用者輸入的文字,Muse Spark試圖打破這一邊界。拍下機場便利店貨架,它能識別並篩選出蛋白質含量最高的零食,無需費力辨讀食品標籤;掃描一款商品,即可即時與同類產品橫向比較。這種能力的本質轉變,是AI從“等你解釋世界”到“直接與你共同觀察世界”。當這一能力搭載於Meta AI眼鏡,感知的邊界將進一步延伸,攝影機即是AI的眼睛。
健康是多模態能力最具現實價值的落地場景。Meta與逾1000名醫師合作策劃訓練資料,使Muse Spark能夠就常見健康問題提供更準確、更全面的回應,涵蓋圖像與圖表的解讀。使用者可獲得互動式健康資訊展示,直觀呈現不同食物的營養成分或運動動作所啟動的肌肉群,將枯燥的健康資料變成可視化的個人參考。
視覺程式設計能力同樣值得一提。使用者只需一條自然語言提示,即可直接生成可互動的網頁應用或小遊戲,數獨、復古街機、飛行模擬器,乃至一個策劃盛大驚喜派對的管理看板,均可一鍵分享給他人。這不再是“幫你寫程式碼”,而是“幫你造產品”。
與OpenAI和Anthropic不同,Meta手裡握著一張任何外部AI公司都無法複製的牌:十億等級的社交圖譜與內容生態。Muse Spark充分利用了這一獨特資產。
購物模式整合了Instagram、Facebook和Threads上已有的創作者內容與品牌敘事,為使用者提供穿搭建議、家居方案或禮物推薦,靈感來源不是冷冰冰的演算法匹配,而是使用者已在關注的真實社群。
當使用者搜尋某個地點或想瞭解某個熱門話題,Meta AI會在對話中同步呈現豐富而相關的背景資訊。點選一個地點,即可看到當地居民的公開帖子;詢問某件事的全貌,AI會從社區內容中匯聚真實討論動態,來自使用者自己圈子的資訊,在最需要的時刻觸手可及。
這是一種與通用搜尋截然不同的資訊整合邏輯:資料來源不是泛化的網際網路,而是使用者自己的社交世界。Meta還透露,隨著功能的持續擴展,Reels短影片、圖片與動態帖子將被直接織入對話答案,並附帶對原創內容創作者的歸因致謝,這既是對創作者生態的承諾,也是Meta區別於所有競爭對手的核心護城河。
祖克柏對此的定義,是“個人超級智能”:“一個不只回答問題,而是真正理解你世界的AI,因為它本就建立在你的世界之上。”
03. 三條規模化軸線:下一代已在路上
發佈會的另一層訊號,比產品本身更值得關注。Meta首次系統性地公開了其規模化路線圖的底層邏輯。
預訓練:同等能力,十分之一的算力。過去九個月,Meta從模型架構、最佳化方法、資料策劃三個維度全面重構了預訓練技術堆疊。
通過對一系列小模型擬合規模化定律,Meta得出結論:與Llama 4 Maverick相比,Muse Spark達到相同能力水準所需的訓練計算量減少了一個數量級以上。這一效率優勢,也使其在主流基礎模型橫向比較中脫穎而出。
強化學習:平滑增益,可預測泛化。大規模強化學習以訓練不穩定著稱,但Meta的新技術堆疊交出了平滑、可預測的增益曲線。
訓練資料上pass@1與pass@16呈對數線性增長,表明強化學習在提升模型可靠性的同時,並未損害推理多樣性;留存評估集上的精準率同步穩定提升,證明訓練收益能夠真實泛化到未見任務上——而不是“只會考試”。
推理時計算:“思維壓縮”後再提速。強化學習訓練使模型在回答前學會了“思考”,但向數十億使用者提供這一能力,對token效率提出了極高要求。
Meta採用了兩個關鍵手段:其一是思考時長懲罰項,在AIME等評測中觸發了一個有趣的相變——模型先通過延長思考時間提升表現,隨後長度懲罰觸發“思維壓縮”,以大幅減少的token數量完成同等難度的推理,之後再次延伸解題鏈路實現更強表現;其二是多智能體平行編排,在不顯著增加響應時延的前提下,用橫向擴展取代縱向堆疊。
從這三條軸線來看,Meta在這份技術報告中著墨最多的,恰恰不是當前成績,而是規模化的可預測性。這正是資本市場和生態合作夥伴最想看到的東西。
04. 起點
Muse Spark在設計上“以小巧、快速為先”,這不是能力不足的委婉說法,而是一種刻意選擇的方法論。Meta將Muse系列定位為嚴格遞進式的擴展路線:每一代在前代基礎上驗證、突破,再向更大規模邁進。更大參數量的後續模型已在研發之中。
回到九個月前那個艱難的起點,Meta用Muse Spark證明了兩件事:技術堆疊在有效擴展,組織在重建之後重新凝聚了方向。
但Meta想要追趕OpenAI、Anthropic和GoogleDeepMind等主要競爭對手,僅憑一款“起步款”模型遠遠不夠。該公司後續發佈的其他系列模型,將決定祖克柏的這場豪賭,究竟是翻盤,還是又一次代價高昂的重來。 (騰訊科技)