燒光140億美元，給Meta做“閉源模型” 祖克柏：別急，我還有狠貨

2026/04/09

•

繼Llama 4曝出基準刷榜醜聞、旗艦模型Behemoth項目擱置等問題之後，祖克柏決定徹底推倒重來。

他曾砸下140億美元挖人，親自在帕羅奧圖和太浩湖的豪宅裡宴請頂級研究員，最終將前Scale AI首席執行長汪韜（Alexandr Wang）延攬麾下，主持成立Meta超級智能實驗室（Meta Superintelligence Labs），並用九個月時間將整個AI技術堆疊從頭重建。

美國當地時間4月8日，這場豪賭的第一張答卷正式亮相：Muse Spark。

這是Meta首款閉源大模型，告別了過去全面開放原始碼的路線，將直接為Meta AI助手提供支援，並以API私測形式向少數合作夥伴開放。

根據Meta內部基準測試，Muse Spark在多項指標上超越了GoogleGemini，與OpenAI和Anthropic的同級模型互有勝負，並在大多數測試中大幅領先於xAI的Grok。消息公佈後，Meta股價當日大漲6.5%，市值達到1.55兆美元。

01. 領跑多模態和前沿科學基準測試

成績單是檢驗重建成果最直接的標尺。

Meta提供的基準測試圖呈現了一份複雜的成績單：有亮點，也有短板，這或許才是一款“起步款”模型最真實的面貌。

在多模態理解方面，Muse Spark表現突出。圖表理解測試CharXiv Reasoning中得分86.4，領先Opus 4.6（65.3）和Grok 4.2（60.9），也高於GPT 5.4（82.8），僅略低於Gemini 3.1 Pro（80.2，但該項Muse Spark實為更高）。

具身推理ERQA測試中得分64.7，同樣優於Opus 4.6的51.6。健康領域是Muse Spark的另一個顯著優勢：開放式健康問答HealthBench Hard中得分42.8，遠超Opus 4.6的14.8、Gemini 3.1 Pro的20.6和Grok 4.2的20.3，是幾家競爭對手中的最高分。

深思模式（Contemplating）的表現同樣值得關注。在“人類終極考試”（Humanity’s Last Exam）無工具版本中，Muse Spark深思模式得分50.2，超過Gemini 3.1 Deep Think的48.4和GPT 5.4 Pro的43.9；啟用工具後得分58.4，超越Gemini 3.1 Deep Think的53.4，與GPT 5.4 Pro的58.7基本持平。

在“前沿科學研究”（FrontierScience Research）測試中，Muse Spark深思模式得分38.3，不僅大幅領先Gemini 3.1 Deep Think（23.3）和GPT 5.4 Pro（36.7），更是幾家中的最高分。這是衡量模型逼近真實科研邊界的核心指標之一。

然而成績單並非全面飄紅。在抽象推理ARC AGI 2測試中，Muse Spark得分42.5，明顯落後於Opus 4.6（63.3）、Gemini 3.1 Pro（76.5）和GPT 5.4（76.1）；智能體終端程式設計Terminal-Bench 2.0中得分59.0，低於Opus 4.6的65.4、Gemini 3.1 Pro的68.5和GPT 5.4的75.1；競技程式設計LiveCodeBench Pro中得分80.0，也落後於Gemini 3.1 Pro的82.9和GPT 5.4的87.5。辦公任務綜合評估GDPval-AA Elo中，Muse Spark得分1444，低於Opus 4.6的1606和GPT 5.4的1672。

MMMU-Pro多模態理解測試中，Muse Spark得分80.4，介於Opus 4.6（77.4）和Gemini 3.1 Pro（83.9）之間，與GPT 5.4（81.2）相近。博士級推理GPQA Diamond中得分89.5，低於Opus 4.6（92.7）、Gemini 3.1 Pro（94.3）和GPT 5.4（92.8），差距較為明顯。

這份成績單的背景是“Muse系列首款模型”。Meta在發佈檔案中反覆強調，更大規模的後續模型已在研發之中，當前結果的意義更多在於證明技術堆疊的規模化可行性，而非宣示性能天花板。

Meta強在多模態感知與前沿科研推理，弱在抽象推理與智能體程式設計。這份有得有失的成績單，或許比一份完美的跑分更能說明問題：Meta的重建尚未完成，但方向已經清晰。

02. 多智能體平行

Muse Spark最引人注目的架構亮點，是多智能體平行編排機制與多模態感知能力的原生整合，二者共同構成了這款模型區別於競爭對手的核心底色。

當使用者提出一個複雜問題，Meta AI不再讓單個模型“想清楚再回答”，而是同時派出多個子智能體分頭行動。以規劃一次佛羅里達家庭旅行為例：一個智能體負責起草總行程，另一個對比奧蘭多和基韋斯特各自的利弊，第三個同步搜尋親子友好型活動，三條線平行推進，最終彙總成一份更快、更完整的答案。

與此對應，Muse Spark推出了“深思模式”（Contemplating mode），直接與Gemini Deep Think和GPT Pro的旗艦推理模式正面競爭。多智能體平行並不意味著更長的等待，它用橫向擴展取代了縱向堆疊，在可比時延下實現了更優的綜合表現。

大多數AI助手的侷限在於只能理解使用者輸入的文字，Muse Spark試圖打破這一邊界。拍下機場便利店貨架，它能識別並篩選出蛋白質含量最高的零食，無需費力辨讀食品標籤；掃描一款商品，即可即時與同類產品橫向比較。這種能力的本質轉變，是AI從“等你解釋世界”到“直接與你共同觀察世界”。當這一能力搭載於Meta AI眼鏡，感知的邊界將進一步延伸，攝影機即是AI的眼睛。

健康是多模態能力最具現實價值的落地場景。Meta與逾1000名醫師合作策劃訓練資料，使Muse Spark能夠就常見健康問題提供更準確、更全面的回應，涵蓋圖像與圖表的解讀。使用者可獲得互動式健康資訊展示，直觀呈現不同食物的營養成分或運動動作所啟動的肌肉群，將枯燥的健康資料變成可視化的個人參考。

視覺程式設計能力同樣值得一提。使用者只需一條自然語言提示，即可直接生成可互動的網頁應用或小遊戲，數獨、復古街機、飛行模擬器，乃至一個策劃盛大驚喜派對的管理看板，均可一鍵分享給他人。這不再是“幫你寫程式碼”，而是“幫你造產品”。

與OpenAI和Anthropic不同，Meta手裡握著一張任何外部AI公司都無法複製的牌：十億等級的社交圖譜與內容生態。Muse Spark充分利用了這一獨特資產。

購物模式整合了Instagram、Facebook和Threads上已有的創作者內容與品牌敘事，為使用者提供穿搭建議、家居方案或禮物推薦，靈感來源不是冷冰冰的演算法匹配，而是使用者已在關注的真實社群。

當使用者搜尋某個地點或想瞭解某個熱門話題，Meta AI會在對話中同步呈現豐富而相關的背景資訊。點選一個地點，即可看到當地居民的公開帖子；詢問某件事的全貌，AI會從社區內容中匯聚真實討論動態，來自使用者自己圈子的資訊，在最需要的時刻觸手可及。

這是一種與通用搜尋截然不同的資訊整合邏輯：資料來源不是泛化的網際網路，而是使用者自己的社交世界。Meta還透露，隨著功能的持續擴展，Reels短影片、圖片與動態帖子將被直接織入對話答案，並附帶對原創內容創作者的歸因致謝，這既是對創作者生態的承諾，也是Meta區別於所有競爭對手的核心護城河。

祖克柏對此的定義，是“個人超級智能”：“一個不只回答問題，而是真正理解你世界的AI，因為它本就建立在你的世界之上。”

03. 三條規模化軸線：下一代已在路上

發佈會的另一層訊號，比產品本身更值得關注。Meta首次系統性地公開了其規模化路線圖的底層邏輯。

預訓練：同等能力，十分之一的算力。過去九個月，Meta從模型架構、最佳化方法、資料策劃三個維度全面重構了預訓練技術堆疊。

通過對一系列小模型擬合規模化定律，Meta得出結論：與Llama 4 Maverick相比，Muse Spark達到相同能力水準所需的訓練計算量減少了一個數量級以上。這一效率優勢，也使其在主流基礎模型橫向比較中脫穎而出。

強化學習：平滑增益，可預測泛化。大規模強化學習以訓練不穩定著稱，但Meta的新技術堆疊交出了平滑、可預測的增益曲線。

訓練資料上pass@1與pass@16呈對數線性增長，表明強化學習在提升模型可靠性的同時，並未損害推理多樣性；留存評估集上的精準率同步穩定提升，證明訓練收益能夠真實泛化到未見任務上——而不是“只會考試”。

推理時計算：“思維壓縮”後再提速。強化學習訓練使模型在回答前學會了“思考”，但向數十億使用者提供這一能力，對token效率提出了極高要求。

Meta採用了兩個關鍵手段：其一是思考時長懲罰項，在AIME等評測中觸發了一個有趣的相變——模型先通過延長思考時間提升表現，隨後長度懲罰觸發“思維壓縮”，以大幅減少的token數量完成同等難度的推理，之後再次延伸解題鏈路實現更強表現；其二是多智能體平行編排，在不顯著增加響應時延的前提下，用橫向擴展取代縱向堆疊。

從這三條軸線來看，Meta在這份技術報告中著墨最多的，恰恰不是當前成績，而是規模化的可預測性。這正是資本市場和生態合作夥伴最想看到的東西。

04. 起點

Muse Spark在設計上“以小巧、快速為先”，這不是能力不足的委婉說法，而是一種刻意選擇的方法論。Meta將Muse系列定位為嚴格遞進式的擴展路線：每一代在前代基礎上驗證、突破，再向更大規模邁進。更大參數量的後續模型已在研發之中。

回到九個月前那個艱難的起點，Meta用Muse Spark證明了兩件事：技術堆疊在有效擴展，組織在重建之後重新凝聚了方向。

但Meta想要追趕OpenAI、Anthropic和GoogleDeepMind等主要競爭對手，僅憑一款“起步款”模型遠遠不夠。該公司後續發佈的其他系列模型，將決定祖克柏的這場豪賭，究竟是翻盤，還是又一次代價高昂的重來。 (騰訊科技)

科技