深夜,Meta如期發佈了全新的開源大型模型系列——Llama 4,並未出現任何“跳票”傳聞中的推遲情況!
此次發佈也標誌著Meta與近來崛起的開源新王 DeepSeek 正面硬鋼。Meta官推更是表示:表示:“今天開啟了原生多模態AI創新的新時代”。
Llama 4共有三款模型,Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。全部具備多模態處理能力,能夠原生支援文字、圖像和視訊等多種輸入形式。
Llama 4 系列包含三款定位各異的模型,覆蓋從單機部署到超大規模推理的不同需求:
不過,由於訓練難度極高,Llama 4 Behemoth目前仍在訓練過程中,尚未正式開放下載。而Scout和Maverick兩款模型則已經開放下載,可通過官方提供的Llama.com網站或Hugging Face獲取。
業界對Llama 4給予了高度評價,輝達高級研究經理 Jim Fan 指出,“對於開源模型而言,易於部署正變得比一味追求模型規模更重要”。
與前代模型不同,Llama 4 系列在架構上進行了徹底的重新設計。三款模型全部採用了當前炙手可熱的Mixture of Experts(MoE,專家混合)架構,成為Meta首批大規模MoE模型。MoE的核心思想是將許多子模型(“專家”)整合到一個統一架構中,由一個路由(Router)網路在每次處理請求時動態選擇少數幾個相關“專家”參與推理,從而避免每次都動用模型的全部參數。
這種稀疏啟動機制帶來了巨大的效率優勢。正如Meta在部落格中解釋的那樣,Llama 4模型的所有參數雖然都常駐記憶體,但實際推理時每個token只需啟動一小部分參數。例如,擁有400B總參數的Llama 4 Maverick,每次推理僅需呼叫其中約17B的活躍參數(128個專家中每次只用到少數幾個)據Meta估算,Maverick的推理開銷約為每百萬Token 0.19~0.49美元,而同等能力的封閉模型GPT-4o大約需要4.38美元——前者性價比高出一個數量級。在這樣的最佳化下,Maverick甚至可在單機(8卡)H100伺服器上運行完成推理,通過分佈式推理則能進一步提升吞吐。
小型的Scout更是能在單卡H100上跑通,極大降低了應用門檻。可以說,MoE架構使Llama 4系列在保障性能的同時,將推理效率推向了新高度。
除了架構上的MoE革新,Llama 4還是Meta首個原生多模態的大模型系列。與上一代純文字的Llama 3不同,Llama 4 從訓練之初就融合了文字、圖像、視訊三種模態的資料。
Meta並未簡單地在模型後期“拼接”視覺模組,而是採用了早期融合(Early Fusion)策略,將圖像像素、視訊幀等資訊編碼為特徵向量後,與文字Token一同輸入統一的Transformer-MoE架構中聯合訓練。據透露,Llama 4 在預訓練時一次可輸入多達48張圖像或視訊幀與文字混合,使模型學會在多模態資訊之間建立聯絡。在實際能力上,Llama 4 可以同時處理多張圖片並理解其中的語義關聯。
例如,對於給定的一組圖片加上文字提示,它能夠輸出語義一致的回答,甚至解釋一張搞笑圖片“有趣在那兒”,或推理多幅圖表的下一步演變。
需要指出的是,Llama 4 當前尚未涉及音訊/語音模態,這可能是未來版本的拓展方向。
綜合來看,原生多模態+MoE是Llama 4架構的兩大亮點。一方面,MoE大幅提升了模型的推理效率和可擴展性,讓超長上下文和超大參數成為可能;另一方面,原生多模態訓練賦予模型同時理解圖文視訊的能力,使其在視覺問答、多模態推理等任務上具有天然優勢。正因如此,Meta在官方部落格中將Llama 4譽為“全新的原生多模態AI創新時代的開端”。
Meta官方寫道,Llama 4 Maverick 超越了同類模型,為開發者提供了無與倫比的性能與價值。
從圖上看Llama 4 Maverick提供了比AI界拼多多DeepSeek更有吸引力的價格。
成本的降低與Llama 4的升級的訓練策略密不可分。
在訓練策略上,Meta為Llama 4系列量身定製了一套全新方案,以充分發掘模型潛力並控制巨大的訓練成本。
首先,Meta在監督微調(SFT)資料上進行了大幅“瘦身”。他們剔除了50%以上的簡單提示,只保留相對困難、有挑戰性的指令和問題進行微調。這是因為對於像Behemoth這樣超強的模型而言,過於簡單的樣本已無法提供有效學習價值,反而可能讓模型養成敷衍應付的習慣。據悉,Meta採用了一種“自我批判”式的資料篩選方法:利用模型早期訓練的checkpoint充當“批評家”,自動評估標註資料中那些樣本太過簡單冗餘,並將它們過濾掉。這一過程相當於讓模型“自己批改作業”,確保留在訓練環節中的都是能推動模型進步的高品質資料。
其次,在微調之後的強化學習階段,Meta引入漸進式強化學習循環來提高模型性能。具體而言,他們逐步提升訓練過程中提示的複雜度和多樣性,模擬從易到難的“課程學習(curriculum learning)”過程。一開始模型接受相對簡單的強化學習任務,隨著能力提高,再逐步增加任務難度,如此循環往復。這種多階段的訓練避免了一次性給模型過大壓力,又能不斷挑戰模型的上限,讓Llama 4在推理、編碼等複雜任務上獲得顯著提升。
另一個重大創新是Meta自研的MetaP技術。這是一種全新的超參數智能調節方法,旨在讓不同規模的模型在訓練時保持行為一致。簡單來說,MetaP可以將小模型上偵錯出的最佳化超參數(如分層學習率等)推廣應用到大模型上,使得後者無需從零開始反覆試錯。
這一突破大幅提高了訓練效率——研究人員只需在較小的模型上嘗試找到理想的組態,然後直接在龐大的Behemoth上採用類似策略即可。據業內專家評價:“這能省下大量時間和資金——不必在大模型上反覆試錯”。在Llama 4 Behemoth的訓練中,MetaP發揮了關鍵作用:由於Behemoth規模空前(採用FP8精度,呼叫多達32,000顆GPU,訓練了超過30兆個token),通過MetaP的指導,Meta團隊才能在有限的試驗預算內成功完成訓練。不僅如此,MetaP還幫助不同模態的token在訓練中達到更好的均衡,使多模態融合更加順暢。
Llama 4的按時發佈和卓越表現,不僅是Meta自身的重要里程碑,也為整個AI行業的發展方向提供了啟示。展望未來,我們不禁要問:下一代的GPT-5、DeepSeek R2等重量級模型,是否還會堅持“Reasoning First(推理優先)”的技術路線?亦或是在推理能力與模型規模之間尋求新的平衡?
從當前動向看,“大而通用”與“深度思考”這兩條路線或將逐漸融合。OpenAI方面,儘管GPT-4已經展現出強大的通用能力,但在明確的鏈式推理上仍有提升空間,可以預期GPT-5將進一步強化模型的內在邏輯推理與工具使用能力,以應對越來越複雜的任務需求。而DeepSeek作為開源陣營的異軍突起,其R1模型證明了小模型通過自我進化也能掌握複雜推理,這一理念很可能會延續到DeepSeek R2,並通過與大模型DeepSeek V3的結合,形成規模+推理兼備的新範式。
就像GoogleCEO今天所感嘆的那樣:AI世界,從不平淡。讓我們拭目以待吧。 (51CTO技術堆疊)