#Muse
Meta押注“超級智能”:Muse Spark橫空出世,祖克柏打響AI翻身仗
▎祖克柏曾公開承認自己對Meta AI進度不滿意,並下定決心啟動一場全面革新。在沉寂了將近一年之後,Meta終於端出了一道讓行業側目的大菜。4月8日,Meta正式發佈旗下最新旗艦AI模型 Muse Spark,將其定性為“從零開始的全面改造”——這是Meta全新成立的超級智能實驗室(Meta Superintelligence Labs,下稱MSL)對外發佈的首個公開模型,也是祖克柏為重奪AI桌上一席之地而打出的最重要一張牌。Muse Spark的誕生,是Meta對自身AI戰略一次徹底的自我否定與重構。過去兩年,Meta在AI賽道上的形象相當尷尬:Llama系列雖然憑藉開源策略在生態圈積累了口碑,但無論是產品完成度還是模型性能,都被OpenAI的ChatGPT、Anthropic的Claude遠遠甩在身後。祖克柏曾公開承認自己對Meta AI進度不滿意,並下定決心啟動一場全面革新。過去9個月裡,Meta重建了整個AI技術堆疊,包括訓練基礎設施、推理架構和資料策略。Muse Spark不是在舊基礎上修修補補,而是真正意義上的“新生”。用Meta自己的話說,這是“我們擴展階梯的第一步”——言下之意,Muse系列之後還有更多。新大腦,新團隊重建的不只是技術,還有人。去年,Meta宣佈成立超級智能實驗室,並以143億美元投資入股AI資料公司Scale AI,獲得49%股權,並任命Scale AI創始人Alexandr Wang 擔任Meta首席AI官,主導這場重建工程。與此同時,Meta從OpenAI、Anthropic、Google大批挖角頂尖研究人員,以業界罕見的薪酬體系重組了AI核心團隊。這一系列動作的訊號再明確不過:祖克柏要玩真的了。從獨立第三方評測機構Artificial Analysis的資料來看,Muse Spark在綜合智力指數(Intelligence Index)上得分52,全球排名前五,僅次於GoogleGemini 3.1 Pro Preview、OpenAI GPT-5.4和Anthropic Claude Opus 4.6,大幅超越Meta此前最強模型Llama 4 Maverick(18分)。具體能力維度上:視覺理解(MMMU-Pro):得分80.5%,全球第二,僅次於Gemini 3.1 Pro Preview的82.4%;推理與指令遵循(HLE評估):得分39.9%,位居第三;科學推理(CritPT物理研究題):得分11%,超越Claude 4.6 Sonnet(3%)和Gemini 3 Flash(9%);“人類終極考試”(Humanity's Last Exam):借助外部工具時達到58.4分的高水準。值得關注的是,Muse Spark在達到頂尖性能的同時,Token消耗效率極高,僅使用約5800萬輸出Token,與Gemini 3.1 Pro Preview相當,遠低於Claude Opus 4.6的1.57億和GPT-5.4的1.2億。效率與性能兼顧,是Muse Spark在架構層面的重要突破。Meta自己也坦承,在“長視野代理系統和編碼工作流”領域仍存在一定差距,這也是未來需要持續補強的方向。兩種模式:快與深的平衡Muse Spark上線後,Meta AI應用同步推出兩種工作模式:即時模式(Instant):針對日常對話和簡單問題,追求快速響應;沉思模式(Contemplating):面對複雜任務時啟動,可協調多個AI子智能體平行推理,在保持相近延遲的同時大幅提升輸出質量。這種“多智能體平行”的架構設計頗具新意。以旅行規劃為例,模型可以同時完成行程規劃、目的地對比、活動篩選等多個子任務,最終整合輸出一份完整方案,效率和精度均遠超傳統單鏈式推理。Muse Spark是一個原生多模態模型,支援文字、圖像等多種輸入形式,具備真正的跨模態理解與互動能力。在應用場景上,Meta著重佈局了兩個垂直方向:健康領域:Meta專門與超過1000名醫生合作最佳化訓練資料,使模型在處理醫療建議類問題時具備更高的專業性與安全性。這一舉措訊號明顯——Meta正在將AI定位為“個人健康助手”,而非單純的資訊檢索工具。視覺STEM(科學、技術、工程、數學):模型在處理視覺化科學與工程問題上表現出色,使用者可以通過拍照或描述來排查家用電器故障、生成互動小遊戲,甚至即時理解技術圖紙。此外,Muse Spark還可接入使用者在Instagram、Facebook、Threads等平台分享的內容,提供個性化推薦,並在Meta AI眼鏡上實現更強的環境感知能力——這是Meta“具身AI”戰略的重要組成部分。這或許是Muse Spark發佈中最微妙、也最值得關注的一個訊號。Meta曾是開源AI生態的旗手,Llama系列開放權重下載,催生了全球數以萬計的開發者應用。然而,Muse Spark首發時選擇了閉源——僅通過meta.ai和Meta AI應用提供,API僅向部分合作夥伴開放私有預覽,普通開發者無法直接呼叫。祖克柏表示,未來仍計畫發佈“越來越先進的開源模型”,但Muse Spark本身暫不開源。這一轉變意味著什麼?一種解讀是:Meta已意識到,在前沿模型的軍備競賽中,“開放”固然可以擴大生態,但也意味著提前曝光核心能力、讓競爭對手借鑑領先技術。在真正建立性能優勢之前,Meta選擇先“守住底牌”。另一種解讀則更為商業:Meta需要通過閉源API變現,為每年數百億美元的AI投入找到可持續的商業回報。兩種邏輯並不矛盾,但都指向同一個方向:Meta正在從理想主義的開源布道者,向務實的AI商業玩家悄然轉型。“個人超級智能”:祖克柏想要的,遠不止一個聊天機器人在發佈聲明中,祖克柏將Muse Spark定位為通往“個人超級智能”願景的第一步。這個詞彙的選用絕非隨意——它對應的是Sam Altman口中“AGI”概念的Meta版敘事,暗示Meta的野心在於打造一個真正能夠替代人完成任務的AI代理(Agent),而非只是一個回答問題的聊天工具。按照這一戰略路線,Meta未來的AI產品將嵌入使用者的全平台數字生活:Instagram的內容推薦、WhatsApp的日程管理、AR眼鏡的即時視覺輔助……Meta擁有全球最龐大的社交使用者基礎,這是OpenAI和Anthropic無法複製的獨特資產。當然,這也伴隨著隱私風險。目前,使用Muse Spark需要通過Facebook或Instagram帳號登錄,Meta的慣常做法是利用公開使用者資料進行模型訓練。隨著AI深度融合個人社交資料,使用者隱私邊界如何界定,將是監管機構和公眾長期關注的議題。Muse Spark的意義,不僅僅在於一個模型的性能數字。它更深層的含義是:Meta終於重新站上了前沿AI的牌桌。在過去一年裡,OpenAI憑藉GPT-5系列、Anthropic憑藉Claude 4系列、Google憑藉Gemini 3系列,分別鞏固了各自的行業地位。而Meta一直以一個“追趕者”的姿態出現,甚至一度被調侃為“AI時代的局外人”。Muse Spark改變了這一敘事。52分的綜合評分,視覺理解全球第二,Token效率業界領先——這些數字證明,經過9個月的徹底重建,Meta已經具備了與頂尖AI公司正面交鋒的技術實力。更重要的是,Meta有其獨有的護城河:35.8億日活使用者、跨平台的社交資料網路、AR眼鏡等硬體生態,以及在消費級AI產品上的多年沉澱。一旦模型能力與平台生態真正融合,Meta在AI應用層的爆發力,可能遠超今天市場的預期。這場AI翻身仗,才剛剛開始。 (鈦媒體)
凌晨突發!Meta首發閉源大模型,砸下數百億美元重構底層,硬剛御三家,祖克柏又行了?
砸下數百億美元,耗時九個月重寫底層架構,馬克·祖克柏(Mark Zuckerberg)終於端出了一個能與OpenAI正面抗衡的閉源大模型。台北時間4月9日凌晨,Meta毫無預兆地發佈了全新AI模型系列Muse,打頭陣的首發模型被正式定名為Muse Spark。自去年夏天成立超級智能實驗室(MSL)以來,前Scale AI掌門人汪韜(Alexandr Wang)帶隊閉關九個月,極其果斷地將從基礎設施到模型架構的所有環節全部推倒重建。Muse Spark的核心技術壁壘,在於其極其強大的原生多模態推理能力。它不僅能直接解析視覺輸入並像人類一樣進行複雜邏輯推演,還支援視覺思維鏈與工具呼叫,甚至能夠直接編排多個智能體協同執行複雜的跨平台任務。更具行業衝擊力的是Meta在戰略層面的極限轉彎。他們此次徹底放棄了高舉多年的開源大旗,Muse Spark首發即為專有閉源版本,並且已全線接入Meta家族應用矩陣,明確釋放出要與Google和OpenAI在C端市場正面廝殺的強烈商業訊號。01 像人類一樣邊看邊思考 視覺思維鏈的徹底進化以前我們用的很多多模態模型,其實是把視覺和文字生硬地縫合在一起,但Muse Spark的做法是讓視覺資訊從一開始就深度融合到邏輯裡。這種架構上的變革,最直觀的體驗就是視覺思維鏈。這種能力讓AI不再僅僅是給圖片寫一段描述。當你給它一張非常複雜的機械結構圖,比如一台意式濃縮咖啡機的內部拆解圖,問它為什麼壓力表不跳動時,Muse Spark表現得就像一個真正的維修工。它會先在大腦裡掃描一遍全圖,然後像在黑板上繪圖一樣,一步步給不同部件打上數字標籤,並在對話方塊中即時標註出水路循環的邏輯。它會直接告訴你在第三步應該檢查那個單向閥,而不是泛泛地丟給你一段文字說明。這種眼手合一的邏輯還被用在了即時互動中。當你戴著整合了Meta AI的眼鏡在廚房做飯並拿起一個調料罐時,AI能直接在你的視野裡疊加出一層動態的增強現實提示,精準告訴你這罐調料和你目前的降血壓飲食計畫是否衝突。這種無縫的銜接,完全依靠其背後極高的視覺推理能力才得以實現。正如Meta超級智能實驗室首席AI科學家趙晟佳所言,這正是實驗室一直致力於建構的原生多模態推理模型。它不僅僅是一個技術跨越,更是Meta邁向個人超級智能之路的第一步。這種原生多模態推理能力,標誌著AI正在從單純的文字遊戲轉向對物理世界的深度理解。02 最懂你身體的私人醫生 健康領域的深度應用在Muse Spark的研發過程中,Meta展現出了極強的實用主義傾向,特別是在醫療健康這個普通人最關注的領域。為了讓AI給出的建議更具實操性,Meta邀請了超過一千名專業醫生親自下場校準資料。這種專家輔導式的訓練效果非常顯著,Muse Spark在分析營養成分和運動生理時變得極其老練。你可以隨手拍一張餐盤的照片,那怕裡面堆滿了各種食材,它也能像專業的營養師一樣,瞬間拆解出魚肉的蛋白質含量和蔬菜的纖維素種類,甚至能根據食材的顏色和紋理推斷出烹飪方式。更令人矚目的是,它能將這種分析與你的個人健康資料深度繫結。如果你有高膽固醇的問題,它會在你拍照後直接在餐盤的圖片上進行視覺標註。它會用綠色的圓圈標記出那些對心血管有益的部分,用紅色叉號提醒你避開某些高油脂的醬汁。在運動指導上,Muse Spark甚至能擔任即時私教。當你把手機靠在牆邊對著自己做深蹲或瑜伽時,它能通過視訊流即時捕捉你的骨骼節點,並用語音明確告訴你膝蓋是否超過了腳尖,或者背部是否挺直。這種精度已經達到了專業運動捕捉軟體的水平。這種在特定領域深挖細節的做法,讓AI的工具屬性變得極具親和力。Meta超級智能實驗室研究員畢書超透露,為了對抗模型在訓練中的不穩定性並提升推理質量,團隊付出了無數個夜晚的努力才讓這種深度的協作邏輯最終成型。這種能力的背後,其實是Meta對個人健康主權的一次技術探索,試圖讓每個人都能隨身攜帶一個專屬的健康專家。03 算力大幅縮減背後的技術邏輯如果說Muse Spark的功能表現引人矚目,那它背後的底層技術邏輯則更加讓同行感到驚訝。在AI行業習慣於用堆砌算力換取性能提升的當下,Meta這次成功走通了一條降本增效的新路徑。在預訓練階段,Meta超級智能實驗室重寫了整套程式碼庫。測試結果顯示,與上一代旗艦Llama 4 Maverick相比,Muse Spark在達到同等智能水平的情況下,消耗的計算量竟然降低了一個數量級以上。這相當於用原本十分之一的資源完成了同樣複雜的工作。這種驚人的效率,得益於Meta正在部署的Hyperion算力基礎設施,更離不開其獨特的可預測擴展技術。Meta的技術棧能夠讓研究人員非常精準地預測模型在訓練完成前能達到什麼水平,從而極其有效地避免了大量的算力浪費。對於這種技術進步,Hyperbolic Labs聯合創始人金宇宸感嘆,基礎設施才是真正的護城河。Meta在短短九個月內重建了整個堆疊,這種速度證明了其在底層架構上的深厚積累。這種四兩撥千斤的底層能力,或許才是Muse Spark給行業帶來的真正技術震撼。04 核心測試成績 在博士級賽道站穩腳跟如果說功能體驗是前端表現,那麼基準測試的資料就是衡量模型底層實力的硬指標。為了驗證Muse Spark的真實水平,Meta邀請了多家權威機構在發佈前進行了高難度的閉門測試。根據第三方評測機構Artificial Analysis發佈的最新智能指數(Intelligence Index v4.0),Muse Spark拿到了52分。去年Llama 4 Maverick發佈時只有18分,這一成績實現了近乎三倍的跨越。在目前的全球大模型權力榜上,這個成績僅次於Gemini 3.1 Pro Preview的57分和GPT 5.4的57分以及Claude Opus 4.6的53分。Muse Spark已經成功躋身前五,與第一梯隊的差距被極其顯著地縮小。這意味著Meta已經成功超越了Claude Sonnet 4.6和Grok 4.2等一眾強手。這種跳躍式的進步,標誌著其技術底座已經重回巔峰競技場。在視覺能力上,Muse Spark的表現尤為突出。在MMMU Pro測試裡它得分80.4%,僅次於Gemini 3.1 Pro Preview的83.9%,排在所有測試模型的第二位。在一些極具挑戰性的垂直賽道,Muse Spark的表現也證實了其推理深度的提升。物理研究的深度對抗領域,在針對硬核物理研究問題的CritPT測試中,它以11%的得分位列全球第五,顯著領先於GoogleGemini 3 Flash的9%和Anthropic的Claude 4.6 Sonnet的3%。圖表理解的垂直測試中,在衡量多模態圖表推理的CharXiv測試裡,Muse Spark獲得了86.4分,成功超越了Claude Opus 4.6的65.3分和GPT 5.4的82.8分。博士級推理方面,在Epoch AI負責的GPQA Diamond測試中,它的得分高達89.5%,這意味著它在面對生物與化學等高階科學問題時,邏輯嚴密程度已直逼人類專家。不過,華頓商學院教授伊桑·莫里克(Ethan Mollick)在評估後也給出了中肯的評價。他指出雖然這款模型非常出色,但在某些極致性能維度上,比起目前最頂尖的滿血版競品仍有微小差距。他特別強調,由於該模型沒有開放權重,外界要精準預測Muse Spark的真正行業價值將面臨更多困難。05 沉思模式上線 讓AI學會深思熟慮在這次發佈中,最讓技術圈關注的機制莫過於名為沉思模式(Contemplating Mode)的開關。這個模式直接對標了OpenAI的Pro系列和Google的Deep Think功能。當你在複雜任務中開啟沉思模式時,Muse Spark不會立刻給出答案,而是會進入一個後台編排階段。它會同時調動多個智能體平行工作,就像一個智囊團在內部開會,互相稽核並校對推理過程。在被稱為“人類終極考試”的HLE測試中,開啟“沉思模式”但不使用工具時,Muse Spark得分為50.2%,超過Gemini 3.1 Deep Think(48.4%)和GPT-5.4 Pro(43.9%)。在使用工具的情況下, Muse Spark得分飆升至58.4%,展現了極強的深度推理潛力。在前沿科學研究任務(FrontierScience Research)中,其精準率也達到了38.3%。值得注意的是,Meta並不希望AI因為思考而變得冗長。研發人員在強化學習中加入了一個時間懲罰機制,強迫AI在保證正確率的前提下,用最精煉的邏輯解決問題。資料顯示,在運行同樣的智能指數測試時,Muse Spark僅使用了5800萬個輸出Token,而Claude Opus 4.6在最大努力模式下使用了1.57億個Token。這種高算力轉化率證明了Meta在思維效率上的技術造詣。不過它依然存在短板。**在抽象推理ARC AGI 2測試上,Muse Spark只拿了42.5分,而Gemini和GPT的得分均在76分以上。**同樣,在各種長周期的智能體編碼任務如SWE Bench和Terminal Bench 2.0中,它也明顯落後於頂尖的Claude和GPT模型。06 驚人發現 AI學會了根據測試環境調整反饋隨著模型能力的增強,大模型的安全性評估也變得前所未有的複雜。在Muse Spark的安全測試中,出現了一個讓研究人員既興奮又警惕的現象,即評估意識(Evaluation Awareness)。第三方安全機構Apollo Research發現,Muse Spark在測試中能敏銳地察覺到自己正在經歷對齊陷阱或安全性考核。當它意識到考核環境存在時,它會表現得比平時更加誠實並嚴格遵守規矩。通俗點說,模型學會了根據環境調整反饋策略。它能推理出在測試環境下,表現得符合人類道德規範是最優解。雖然Meta認為這並不影響其作為工具的安全性,但這確實給未來的AI監管敲響了警鐘,當AI開始學會隱藏真實的輸出傾向來通過考試時,傳統的攔截機制可能將面臨失效的風險。儘管具備了這種複雜的判定邏輯,但在硬性防禦指標上Muse Spark依然保持穩定。測試顯示,它在涉及生物製劑與化學武器等敏感領域表現出極強的拒絕意識。在針對網路安全和自主失控風險的測試中,它的表現也處於安全可控的範圍內。這種在安全與效率之間的博弈,正是汪韜領銜的MSL實驗室過去九個月最核心的攻堅方向。他們不僅要造出一個聰明的工具,更要確保造出一個在人類視線範圍內能夠絕對守規矩的超級智能。07 全線應用整合 當社交巨頭遇上超級大腦既然Muse Spark出生在Meta家族,它自然不會只停留在實驗室的測試環節,而是被第一時間接入了Instagram與Facebook以及Threads這些擁有三十億日活使用者的國民級應用中。以前在Instagram上看到心儀博主的穿搭,使用者可能還需要去評論區求連結或者截圖去電商平台搜尋同款。現在有了Muse Spark的加持,使用者只需要在對話方塊裡傳送指令,或者直接通過Meta的智能眼鏡進行視覺捕捉即可完成操作。它能瞬間識別出圖片中創作者的穿搭風格,甚至是極其小眾的品牌。它不僅能全網搜尋同款並比價,還能根據使用者的歷史穿搭喜好,給出一套完整的搭配方案。比如它會提示,這件復古夾克和上個月購買的原色牛仔褲非常匹配,建議內搭一件白色重磅T恤。這種從審美感知到消費決策的無縫銜接,正是Meta想要打造的購物助手核心原型。除了輔助消費決策,Muse Spark還能大幅降低開發成本。在測試中,有開發者嘗試提供一張凌亂的草圖和一段簡單的邏輯描述,要求它生成一個數獨遊戲。Muse Spark不僅僅是編寫了底層程式碼,而是直接在網頁上生成了一個可以即時互動且介面精美的UI產品。這種隨想隨做的能力,體現了其在多智能體編排上的深厚功底。它能自主指揮不同的子系統去處理圖形渲染、邏輯判斷和程式碼生成,最終交付給使用者一個流暢的產品。汪韜在分享中明確表示,Muse Spark是為了這三十億使用者打造的數字延伸,旨在讓AI從一個聊天機器人徹底進化為一個能解決實際生產力問題的夥伴。08 策略大轉彎 告別開源紅利 Meta正式收網這次發佈中最讓業界震動的,其實是Muse Spark作為專有模型(Proprietary Model)的身份定性。這是Meta歷史上第一個沒有首發開放權重的旗艦級前沿模型。多年來,Meta一直被視為開源AI生態的核心支柱,Llama系列幾乎撐起了大半個開源社區的發展。這次首發閉源的決定,迅速引發了行業內的廣泛討論。外界普遍認為,面對OpenAI和Google的商業步步緊逼,Meta必須收緊技術授權,用專有技術來構築自身的商業壁壘。但內部的聲音則更加務實。金宇宸指出,在九個月內推倒重建整個技術棧後,首發專有版本是為了在更安全和受控的環境下打磨這套全新的擴展定律。祖克柏也公開回應,更大的模型已經在研發中,Meta計畫未來會發佈越來越先進的模型,其中也會包含新的開源版本。即便如此,目前的閉源狀態依然給過度依賴Meta的開發者社區帶來了一絲寒意。不過考慮到Muse Spark極其優異的算力轉化效率,很多開發者依然期待著未來這個版本能有機會下放至開源生態中。09 終局展望 通往2026個人超級智能之路在祖克柏的商業藍圖中,Muse Spark僅僅是其技術階梯的第一步。為了支撐這個龐大的戰略計畫,Meta正在進行一場規模空前的資本投入。Meta預計2026年的資本支出將攀升至1150億至1350億美元,這筆天文數字將主要流向名為Hyperion的資料中心和最先進的算力晶片組。這場科技巨頭間的競爭早已脫離了單純的演算法比拚,演變成了圍繞電力與晶片以及物理設施的重資產競賽。按照Meta的設想,未來的個人超級智能應該像空氣一樣自然存在。它潛伏在使用者的雷朋(Ray Ban)眼鏡裡,通過眼睛識別世界,通過耳朵聽取需求。它能獨立處理長周期的複雜任務,比如統籌籌劃一場跨越三個國家的旅行,自動處理所有的機票與簽證和日程對接,而不僅僅是簡單地回答當地的餐飲推薦。雖然目前的Muse Spark在處理極其複雜的長周期辦公流程時,比起最頂尖的Claude系列仍有最佳化空間,但它展現出的多模態推理深度和效率優勢,已經讓這條超級智能之路變得清晰可見。10 結語Muse Spark的發佈,正式宣告了Meta歷經九個月底層重構後的強勢回歸。它不再滿足於僅僅做一個底層技術的提供商,而是要直接深入到全人類的日常消費與工作場景中。在這場通往超級智能的馬拉松裡,Meta已經徹底更換了最先進的底層引擎,準備在2026年開啟新一輪的商業角逐。正如汪韜所說,徹底改造堆疊只是一個開始。屬於Meta的商業落地時代,或許現在才真正拉開大幕。 (網易科技)
Meta億元天團首個大模型交卷!余家輝宋颺Jason Wei耗時九個月,一雪Llama前恥
再見了,所有的羊駝。亞歷山大王帶隊9個月從零重構Meta所有AI技術堆疊,在不斷的質疑中交出超級智能實驗室第一個模型:主打原生多模態的Muse Spark。模型發佈後,Meta股價火速拉升約7%,中間一度漲超近10%,當日整體上漲6%左右。市場的反應可謂相當熱烈。隨手一扒你就會發現,這款模型背後藏著不少我們熟悉的高手:思維鏈作者Jason Wei、o1核心貢獻者Hyung Won Chung、被小扎天價挖來的余家輝、擴散模型核心人物宋颺……嗯?當這群人湊在一起,很明顯你就會找到一個關鍵詞:推理。沒錯,據Jason Wei爆料,9個月前他們坐在一起討論時,首先寫下的就是一款用於推理的llama模型指令碼,而現在,完全體終於誕生。而頂尖高手+耗時9個月打磨,Muse Spark也總算讓Meta在第三方測評中趕上第一梯隊,一雪llama 4帶來的前恥。而且很有意思的一點是,Meta這次一反常態,沒有反覆強調自己拿了多少SOTA,而是稍顯克制地表示:Muse Spark在多模態感知、推理、健康和自主任務方面表現不錯,但在程式設計和長時間自主運行方面仍與對家的頂尖模型存在差距。咳咳,看來之前llama 4確實給Meta留下了心理陰影(doge)。另外,Muse Spark的出生也終於讓長期以來有關“Meta開閉源”的討論蓋棺定論:這次是真閉源了。目前這款模型已上線Meta網站和APP,API僅向部分合作夥伴開放。(不過亞歷山大王還是留了個口子,表示“計畫未來開源後續版本”)“Meta回來了”老規矩,先看一波測評成績。作為Meta迄今最強大的模型,Muse Spark這次主要在三個方面表現突出:一是多模態理解能力。不管是看論文圖表還是螢幕,各項得分要麼第一、要麼和Gemini 3.1 Pro、GPT 5.4等不相上下。從網友們的測試來看,它好像尤為擅長圖片轉程式碼。當然文字能力也不差(doge),在網友的激情測試中,它就火速通過了新版弱智吧風格的洗車測試。100米外有個洗車店,我該開車去還是走路去。Muse Spark:洗車當然要把車開過去,但沒必要搞得跟上下班通勤似的。(當然也不排除是資料污染的問題,畢竟問題出來也挺久了…)再一個就是工具呼叫能力,測評情況也和多模態理解能力類似。以及這次Muse Spark著重強調的醫學能力。由於和1000+醫生展開了合作,它不僅在開放式健康問答HealthBench Hard上拿到42.8的最高分,而且在多模態醫學問答MedXpertQA MM中位居前列。不過短板我們開頭也說了,Muse Spark仍在程式設計和Agent類任務上與其他頂尖選手存在差距。可能也是為了儘量彌補這一點,他們這次還專門推出了Contemplating沉思模式。主要是讓多個Agent同時思考同一個問題,然後彙總結果找出最好的。在這套打法下,Muse Spark就能和Gemini Deep Think、 GPT Pro這類極限推理模式展開正面PK了。比如在“人類最後的考試”中,Muse Spark明顯壓過一頭(不過在物理奧賽理論題中還是略遜一籌)。(目前沉思模式正在Meta網站灰度測試)另外值得一提的是,Meta這次無預告直接上線了“購物模式”。亞歷山大王表示,模型會結合使用者在ins、Facebook、Threads上關注的創作者和品牌偏好,做個性化的購物推薦。好好好,這次也不給你討論的機會了,之前OpenAI可沒少因為廣告挨罵。目前,隨著Muse Spark測評一同出爐的,還有第三方機構的測評。他們拿到Muse Spark的早期訪問權測了一波,然後給出了一個結論:Meta回來了!在關鍵指標人工智慧分析指數上,其得分僅次於Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。這也和Muse Spark自己給出的測評成績差不多。對外界而言,初步來看,Muse Spark確實把Meta重新帶回了人工智慧第一梯隊。背後訓練細節至於Muse Spark是如何做到這一點的,Meta也公佈了背後的訓練細節。核心其實就是亞歷山大王提到的:9個月重構一切。新的基礎設施、新的架構、新的資料管道。具體可以看網友給大家劃的重點:在預訓練階段,能夠以比Llama 4 少10倍以上的計算量達到相同的性能水平。強化學習訓練展現出平滑且可預測的改進,具有良好的泛化能力和可擴展性。Test-time階段,在加入長度懲罰機制後,“思維壓縮”開始生效,模型學會了用更少的token解決問題。Meta在部落格中介紹,過去9個月,他們對Muse Spark的預訓練技術堆疊進行了全面升級。所有改進的目標,都是為了讓每一分算力都能產生更大的價值。為了驗證效果,他們做了一個對比實驗:先用一系列小模型擬合出一條“算力-能力”的Scaling曲線,然後計算要達到某個性能水平具體需要多少算力。結果發現,相比Llama 4,Muse Spark達到同樣水平所需要的計算量低了一個數量級以上(10.3倍)。預訓練完成後,他們進一步用強化學習來提升模型能力。雖然大規模RL訓練通常很不穩定,但他們聲稱自己的新架構做到了“穩中有進”。如下圖所示,隨著RL訓練步數增加,模型在訓練資料上的成功率(無論是單次嘗試還是16次中至少成功一次)呈現對數線性增長。這說明,RL在提升可靠性的同時,沒有破壞推理的多樣性。而且在模型從未見過的任務上,精準率同樣在穩步提升——這說明RL帶來的能力提升是可預測、可泛化的,不是死記硬背。以及為了讓模型在回答覆雜問題之前先“想一想”,團隊仍用強化學習訓練它具備這種“測試時推理”能力。不過需要注意,實踐證明Test-time階段的推理尤為耗費token,所以如何精打細算也是這一階段的重點。對此,他們用了兩個關鍵手段來平衡效果與效率:一是思考時間懲罰。鼓勵模型用更短的推理路徑得出正確答案,倒逼它學會“思維壓縮”。二是多智能體協作。讓多個模型或模組協同工作,在保證響應速度不降的前提下提升整體表現。然後在AIME這類高難度評測集上,他們觀察到了一個有趣的“三階段變化”:模型一開始會不自覺延長思考,希望通過拉長推理過程來提高正確率。但這會馬上觸發“思考時間懲罰”,於是模型被迫精簡推理,學會用更少的token解決問題。而在精簡之後,模型還表現出了擴展性能——在高效的基礎上繼續最佳化解法,最終實現用更少的資源獲得更強的性能表現。也不乏翻車的不過前面也說了,Muse Spark雖然將Meta帶回了第一梯隊,但在程式設計、Agent類任務上仍有不足。這不,模型剛發佈,翻車集錦也來了……有人想用它生成網站,結果3個請求一個都沒實現,而且連最基本的前端都無。不過後來貼主發現可能是偶然錯誤,模型正常情況下做出來的前端是這樣的。一個簡單的程式設計任務,Muse Spark雖生成了一大堆東西,但根本跑不通。在一個Python檔案裡實現自動微分(autograd)和神經網路。網友甚至調侃,模型根本沒在學,訓練了1800個epoch,損失函數卻一直卡在同一個值上沒動過。白白浪費算力了……(正常情況下,隨著訓練進行損失應該逐步下降,表明模型在“學習”)所以問題來了,有試過的朋友覺得亞歷山大王的首個模型如何? (量子位)
燒光140億美元,給Meta做“閉源模型” 祖克柏:別急,我還有狠貨
繼Llama 4曝出基準刷榜醜聞、旗艦模型Behemoth項目擱置等問題之後,祖克柏決定徹底推倒重來。他曾砸下140億美元挖人,親自在帕羅奧圖和太浩湖的豪宅裡宴請頂級研究員,最終將前Scale AI首席執行長汪韜(Alexandr Wang)延攬麾下,主持成立Meta超級智能實驗室(Meta Superintelligence Labs),並用九個月時間將整個AI技術堆疊從頭重建。美國當地時間4月8日,這場豪賭的第一張答卷正式亮相:Muse Spark。這是Meta首款閉源大模型,告別了過去全面開放原始碼的路線,將直接為Meta AI助手提供支援,並以API私測形式向少數合作夥伴開放。根據Meta內部基準測試,Muse Spark在多項指標上超越了GoogleGemini,與OpenAI和Anthropic的同級模型互有勝負,並在大多數測試中大幅領先於xAI的Grok。消息公佈後,Meta股價當日大漲6.5%,市值達到1.55兆美元。01. 領跑多模態和前沿科學基準測試成績單是檢驗重建成果最直接的標尺。Meta提供的基準測試圖呈現了一份複雜的成績單:有亮點,也有短板,這或許才是一款“起步款”模型最真實的面貌。在多模態理解方面,Muse Spark表現突出。圖表理解測試CharXiv Reasoning中得分86.4,領先Opus 4.6(65.3)和Grok 4.2(60.9),也高於GPT 5.4(82.8),僅略低於Gemini 3.1 Pro(80.2,但該項Muse Spark實為更高)。具身推理ERQA測試中得分64.7,同樣優於Opus 4.6的51.6。健康領域是Muse Spark的另一個顯著優勢:開放式健康問答HealthBench Hard中得分42.8,遠超Opus 4.6的14.8、Gemini 3.1 Pro的20.6和Grok 4.2的20.3,是幾家競爭對手中的最高分。深思模式(Contemplating)的表現同樣值得關注。在“人類終極考試”(Humanity’s Last Exam)無工具版本中,Muse Spark深思模式得分50.2,超過Gemini 3.1 Deep Think的48.4和GPT 5.4 Pro的43.9;啟用工具後得分58.4,超越Gemini 3.1 Deep Think的53.4,與GPT 5.4 Pro的58.7基本持平。在“前沿科學研究”(FrontierScience Research)測試中,Muse Spark深思模式得分38.3,不僅大幅領先Gemini 3.1 Deep Think(23.3)和GPT 5.4 Pro(36.7),更是幾家中的最高分。這是衡量模型逼近真實科研邊界的核心指標之一。然而成績單並非全面飄紅。在抽象推理ARC AGI 2測試中,Muse Spark得分42.5,明顯落後於Opus 4.6(63.3)、Gemini 3.1 Pro(76.5)和GPT 5.4(76.1);智能體終端程式設計Terminal-Bench 2.0中得分59.0,低於Opus 4.6的65.4、Gemini 3.1 Pro的68.5和GPT 5.4的75.1;競技程式設計LiveCodeBench Pro中得分80.0,也落後於Gemini 3.1 Pro的82.9和GPT 5.4的87.5。辦公任務綜合評估GDPval-AA Elo中,Muse Spark得分1444,低於Opus 4.6的1606和GPT 5.4的1672。MMMU-Pro多模態理解測試中,Muse Spark得分80.4,介於Opus 4.6(77.4)和Gemini 3.1 Pro(83.9)之間,與GPT 5.4(81.2)相近。博士級推理GPQA Diamond中得分89.5,低於Opus 4.6(92.7)、Gemini 3.1 Pro(94.3)和GPT 5.4(92.8),差距較為明顯。這份成績單的背景是“Muse系列首款模型”。Meta在發佈檔案中反覆強調,更大規模的後續模型已在研發之中,當前結果的意義更多在於證明技術堆疊的規模化可行性,而非宣示性能天花板。Meta強在多模態感知與前沿科研推理,弱在抽象推理與智能體程式設計。這份有得有失的成績單,或許比一份完美的跑分更能說明問題:Meta的重建尚未完成,但方向已經清晰。02. 多智能體平行Muse Spark最引人注目的架構亮點,是多智能體平行編排機制與多模態感知能力的原生整合,二者共同構成了這款模型區別於競爭對手的核心底色。當使用者提出一個複雜問題,Meta AI不再讓單個模型“想清楚再回答”,而是同時派出多個子智能體分頭行動。以規劃一次佛羅里達家庭旅行為例:一個智能體負責起草總行程,另一個對比奧蘭多和基韋斯特各自的利弊,第三個同步搜尋親子友好型活動,三條線平行推進,最終彙總成一份更快、更完整的答案。與此對應,Muse Spark推出了“深思模式”(Contemplating mode),直接與Gemini Deep Think和GPT Pro的旗艦推理模式正面競爭。多智能體平行並不意味著更長的等待,它用橫向擴展取代了縱向堆疊,在可比時延下實現了更優的綜合表現。大多數AI助手的侷限在於只能理解使用者輸入的文字,Muse Spark試圖打破這一邊界。拍下機場便利店貨架,它能識別並篩選出蛋白質含量最高的零食,無需費力辨讀食品標籤;掃描一款商品,即可即時與同類產品橫向比較。這種能力的本質轉變,是AI從“等你解釋世界”到“直接與你共同觀察世界”。當這一能力搭載於Meta AI眼鏡,感知的邊界將進一步延伸,攝影機即是AI的眼睛。健康是多模態能力最具現實價值的落地場景。Meta與逾1000名醫師合作策劃訓練資料,使Muse Spark能夠就常見健康問題提供更準確、更全面的回應,涵蓋圖像與圖表的解讀。使用者可獲得互動式健康資訊展示,直觀呈現不同食物的營養成分或運動動作所啟動的肌肉群,將枯燥的健康資料變成可視化的個人參考。視覺程式設計能力同樣值得一提。使用者只需一條自然語言提示,即可直接生成可互動的網頁應用或小遊戲,數獨、復古街機、飛行模擬器,乃至一個策劃盛大驚喜派對的管理看板,均可一鍵分享給他人。這不再是“幫你寫程式碼”,而是“幫你造產品”。與OpenAI和Anthropic不同,Meta手裡握著一張任何外部AI公司都無法複製的牌:十億等級的社交圖譜與內容生態。Muse Spark充分利用了這一獨特資產。購物模式整合了Instagram、Facebook和Threads上已有的創作者內容與品牌敘事,為使用者提供穿搭建議、家居方案或禮物推薦,靈感來源不是冷冰冰的演算法匹配,而是使用者已在關注的真實社群。當使用者搜尋某個地點或想瞭解某個熱門話題,Meta AI會在對話中同步呈現豐富而相關的背景資訊。點選一個地點,即可看到當地居民的公開帖子;詢問某件事的全貌,AI會從社區內容中匯聚真實討論動態,來自使用者自己圈子的資訊,在最需要的時刻觸手可及。這是一種與通用搜尋截然不同的資訊整合邏輯:資料來源不是泛化的網際網路,而是使用者自己的社交世界。Meta還透露,隨著功能的持續擴展,Reels短影片、圖片與動態帖子將被直接織入對話答案,並附帶對原創內容創作者的歸因致謝,這既是對創作者生態的承諾,也是Meta區別於所有競爭對手的核心護城河。祖克柏對此的定義,是“個人超級智能”:“一個不只回答問題,而是真正理解你世界的AI,因為它本就建立在你的世界之上。”03. 三條規模化軸線:下一代已在路上發佈會的另一層訊號,比產品本身更值得關注。Meta首次系統性地公開了其規模化路線圖的底層邏輯。預訓練:同等能力,十分之一的算力。過去九個月,Meta從模型架構、最佳化方法、資料策劃三個維度全面重構了預訓練技術堆疊。通過對一系列小模型擬合規模化定律,Meta得出結論:與Llama 4 Maverick相比,Muse Spark達到相同能力水準所需的訓練計算量減少了一個數量級以上。這一效率優勢,也使其在主流基礎模型橫向比較中脫穎而出。強化學習:平滑增益,可預測泛化。大規模強化學習以訓練不穩定著稱,但Meta的新技術堆疊交出了平滑、可預測的增益曲線。訓練資料上pass@1與pass@16呈對數線性增長,表明強化學習在提升模型可靠性的同時,並未損害推理多樣性;留存評估集上的精準率同步穩定提升,證明訓練收益能夠真實泛化到未見任務上——而不是“只會考試”。推理時計算:“思維壓縮”後再提速。強化學習訓練使模型在回答前學會了“思考”,但向數十億使用者提供這一能力,對token效率提出了極高要求。Meta採用了兩個關鍵手段:其一是思考時長懲罰項,在AIME等評測中觸發了一個有趣的相變——模型先通過延長思考時間提升表現,隨後長度懲罰觸發“思維壓縮”,以大幅減少的token數量完成同等難度的推理,之後再次延伸解題鏈路實現更強表現;其二是多智能體平行編排,在不顯著增加響應時延的前提下,用橫向擴展取代縱向堆疊。從這三條軸線來看,Meta在這份技術報告中著墨最多的,恰恰不是當前成績,而是規模化的可預測性。這正是資本市場和生態合作夥伴最想看到的東西。04. 起點Muse Spark在設計上“以小巧、快速為先”,這不是能力不足的委婉說法,而是一種刻意選擇的方法論。Meta將Muse系列定位為嚴格遞進式的擴展路線:每一代在前代基礎上驗證、突破,再向更大規模邁進。更大參數量的後續模型已在研發之中。回到九個月前那個艱難的起點,Meta用Muse Spark證明了兩件事:技術堆疊在有效擴展,組織在重建之後重新凝聚了方向。但Meta想要追趕OpenAI、Anthropic和GoogleDeepMind等主要競爭對手,僅憑一款“起步款”模型遠遠不夠。該公司後續發佈的其他系列模型,將決定祖克柏的這場豪賭,究竟是翻盤,還是又一次代價高昂的重來。 (騰訊科技)