#MoE架構
Llama 4開源空降!1000萬超長上下文、單GPU可跑,還有近2兆參數巨模型
三大模型登場:“巨杯”總參數近2兆,“小杯”10M超長上下文,“中杯”推理程式設計媲美DeepSeek。智東西4月6日報導,今日,Meta發佈Llama 4系列首批模型,包括兩款高效模型Llama 4 Scout、Llama 4 Maverick。這是Meta首款採用混合專家(MoE)架構建構的原生多模態模型,其中Scout更是首度支援超長10M上下文窗口。Meta還預覽了其迄今最強大的新教師模型——Llama 4 Behemoth。“小杯”Llama 4 Scout擁有16位專家、170億個活躍參數、1090億個總參數,被稱作“同類產品中全球最好的多模態模型”,提供1000萬tokens上下文窗口(對應多達500萬個單詞的文字),適用於單張NVIDIA H100 GPU(具有Int4量化),並在廣泛基準測試中分數超過Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。“中杯”Llama 4 Maverick擁有128位專家、170億個活躍參數、4000億個總參數,也是“同類中最好的多模態模型”,適用於單台H100主機,在廣泛基準測試中擊敗了GPT-4o和Gemini 2.0 Flash,同時在推理和程式設計方面取得了與新DeepSeek-v3相當的結果,活躍參數不到後者的一半。Llama 4 Maverick主打性價比,其實驗性聊天版本在LMArena上的ELO得分為1417,每1M tokens輸入和輸出推理成本區間(0.19-0.49美元)也做到接近甚至低於DeepSeek v3.1(0.48美元)。這些成績歸功於從Meta迄今最強大的模型“巨杯”Llama 4 Behemoth的提煉。Llama 4 Behemoth擁有16位專家、2880億個活躍參數、近2兆個總參數,在多個STEM基準測試中的表現優於GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4 Behemoth仍在訓練中,尚未正式發佈,但Meta先分享了一些技術細節。從llama.com和Hugging Face可下載Llama 4 Scout和Llama 4 Maverick模型。這些模型很快將在主流雲和資料平台、邊緣晶片和全球服務整合商上提供。模型下載地址:llama.com/llama-downloads/huggingface.co/meta-llama即日起,使用者在WhatsApp、Messenger、Instagram Direct和Meta.AI網站上可試用使用Llama 4建構的Meta AI。Meta還預告將在4月29日的LlamaCon上分享更多關於其願景的內容。01.MoE架構+多種預訓練新方法,提高算力利用率建構Llama 4模型在預訓練期間採用了多種新方法。新Llama 4模型是Meta首批使用混合專家(MoE)架構的模型。在MoE模型中,單個 token僅啟動總參數的一小部分。MoE架構在訓練和推理方面具有更高的計算效率,並且在給定固定訓練FLOP預算的情況下,與密集模型相比,可提供更高的質量。例如,Llama 4 Maverick模型有17B個活躍參數和400B個總參數。Meta使用交替的密集和混合專家(MoE)層來提高推理效率。MoE層使用128位路由專家和一位共享專家。每個token都會傳送給共享專家以及128位路由專家之一。因此,雖然所有參數都儲存在記憶體中,但在為這些模型提供服務時,只有總參數的子集被啟動。這通過降低模型服務成本和延遲來提高推理效率。Llama 4 Maverick可在單台NVIDIA H100 DGX主機上運行,以便於部署,也可以通過分佈式推理實現最高效率。Llama 4模型採用原生多模態設計,結合早期融合,將文字和視覺token無縫整合到統一的模型主幹中。早期融合是向前邁出的重要一步,因為它使Meta能夠使用大量未標記的文字、圖像和視訊資料聯合預訓練模型。Meta還改進了Llama 4中的視覺編碼器。它基於MetaCLIP,但與凍結的Llama模型一起單獨訓練,以便更好地使編碼器適應大語言模型。Meta開發了一種新的訓練技術MetaP,能可靠地設定關鍵模型超參數,例如每層的學習率和初始化尺度。該團隊發現所選的超參數在不同的batch處理大小、模型寬度、深度和訓練token值之間具有良好的遷移性。Llama 4通過對200種語言進行預訓練來實現開源微調工作,其中包括100多種語言,每種語言都有超過10億個token,總體而言,多語言tokens比Llama 3多10倍。此外,Meta專注於使用FP8精度進行高效的模型訓練,而不會犧牲質量並確保較高的模型FLOP利用率。在使用FP8和32K GPU預訓練Llama 4 Behemoth模型時,Meta實現了390 TFLOPs/GPU。用於訓練的整體資料組合由超過30兆個token組成,是Llama 3預訓練組合的2倍多,包括各種文字、圖像和視訊資料集。Meta繼續在所謂的“中期訓練”階段訓練模型,以使用新的訓練方案(包括使用專門的資料集進行長上下文擴展)來提高核心功能。這使其能夠提高模型質量,同時為Llama 4 Scout解鎖超長的10M輸入上下文長度。02.改進後訓練流程,權衡計算和精準性新Llama 4模型有不同大小。Llama 4 Maverick在圖像和文字理解方面提供行業領先性能,支援建立複雜的AI應用程式以跨越語言障礙。作為Meta針對通用助手和聊天用例的產品主力模型,Llama 4 Maverick非常適合精確的圖像理解和創意寫作。在對Llama 4 Maverick模型進行後訓練時,最大的挑戰是在多種輸入模式、推理和對話能力之間保持平衡。對於混合模式,Meta提出了一個精心策劃的課程策略,與單個模式專家模型相比,該策略不會犧牲性能。借助Llama 4,Meta通過採用不同的方法改進了後訓練流程:輕量級監督微調(SFT)> 線上強化學習(RL)> 輕量級直接偏好最佳化 (DPO)。一個關鍵的學習是,SFT和DPO可能會過度約束模型,限制線上強化學習階段的探索並導致精準性不理想,特別是在推理、程式設計和數學領域。為瞭解決這個問題,Meta使用Llama模型作為判斷標準,刪除了50%以上標記為簡單的資料,並對剩餘的較難資料集進行了輕量級SFT。在隨後的多模態線上強化學習階段,通過仔細選擇更難的提示,Meta能夠實現性能的階躍變化。此外,Meta實施了持續線上RL策略,交替訓練模型,然後使用它來持續過濾並僅保留中等難度到困難難度的提示。事實證明,這種策略在計算和精準性權衡方面非常有益。然後,Meta做了一個輕量級DPO來處理與模型響應質量相關的極端情況,有效地在模型的智能和對話能力之間實現了良好的平衡。管道架構和具有自適應資料過濾的持續線上RL策略最終形成了業界領先的通用聊天模型,具有先進的智能和圖像理解能力。作為通用大語言模型,Llama 4 Maverick包含170億個活躍參數、128位專家和4000億個總參數,與Llama 3.3 70B相比,它以更低的價格提供高品質。Llama 4 Maverick是同類最佳的多模態模型,在程式設計、推理、多語言、長上下文和圖像基準測試中超越了GPT-4o和Gemini 2.0等同類模型,並且在程式設計和推理方面可與活躍參數規模大得多的DeepSeek v3.1相媲美。小型模型Llama 4 Scout是一個通用模型,擁有170億個活動參數、16位專家和1090億個總參數,可提供同類中一流的性能。Llama 4 Scout將支援的上下文長度從Llama 3中的128K大幅增加到行業領先的1000萬個token,適用於多文件摘要、解析大量使用者活動以執行個性化任務以及對龐大的程式碼庫進行推理。Llama 4 Scout經過了預訓練和後訓練,上下文長度為256K,這為基礎模型提供了高級長度泛化能力。Meta在諸如對文字進行“大海撈針”式檢索以及對1000萬個程式碼token進行累積負對數似然(NLL)等任務中展示了令人信服的結果。Llama 4架構的一個關鍵創新是使用沒有位置嵌入的交錯注意層。此外,Meta採用注意力的推理時間溫度縮放來增強長度泛化,並稱之為iRoPE架構。其中“i”代表“交錯”注意層,突出了支援“無限”上下文長度的長期目標,“RoPE”指的是大多數層中使用的旋轉位置嵌入。Meta用各種圖像和視訊幀靜態圖像訓練了兩個模型,以便讓它們具有廣泛的視覺理解能力,包括時間活動和相關圖像。這使得多圖像輸入以及用於視覺推理和理解任務的文字提示能夠輕鬆互動。這些模型在多達48張圖像上進行了預訓練,在訓練後測試了多達8張圖像,取得了良好的效果。Llama 4 Scout在圖像基礎方面也性能出色,能夠將使用者提示與相關的視覺概念對齊,並將模型響應錨定到圖像中的區域。這使得大語言模型能夠更精確地回答視覺問題,從而更好地理解使用者意圖並定位感興趣的對象。該模型在程式設計、推理、長上下文和圖像基準方面也超越了同類模型,並比所有以前的Llama模型都具有更強大的性能。03.Llama 4 Behemoth預覽:近2兆總參數,改造底層基礎設施Llama 4 Behemoth一個教師模型,也是一個多模態專家混合模型,擁有2880億個活躍參數、16個專家、近2兆個總參數,在數學、多語言和圖像基準測試中為非推理模型提供了先進性能。Meta開發了一種新穎的提煉損失函數,可通過訓練動態加權軟目標和硬目標。在預訓練期間從Llama 4 Behemoth進行共同提煉,可攤銷計算學生訓練中使用的大多數訓練資料的提煉目標所需的資源密集型前向傳遞的計算成本。為了在學生訓練中加入更多新資料,Meta對Behemoth模型進行了前向傳遞,以建立提煉目標。對具有2兆個參數的模型進行後期訓練也是一項重大挑戰,這需要從資料規模開始徹底改革和改進配方。為了最大限度地提高性能,必須修剪95%的SFT資料,而對於較小的模型則需要修剪50%,以實現對質量和效率的必要關注。Meta還發現,進行輕量級SFT後進行大規模強化學習(RL)可以更顯著地提高模型的推理和程式設計能力。其RL配方專注於通過使用策略模型進行pass@k分析來採樣硬提示,並制定增加提示難度的訓練課程。Meta還發現,在訓練期間動態過濾掉沒有優勢的提示,並使用來自多種功能的混合提示建構訓練批次,有助於提高數學、推理和程式設計的性能。最後,從各種系統指令中採樣對於確保模型保留其推理和程式設計的指令遵循能力並能夠在各種任務中表現良好至關重要。由於RL的規模空前巨大,因此將其擴展到2兆參數模型也需要改造底層RL基礎設施。Meta最佳化了MoE平行化的設計以提高速度,從而實現了更快的迭代。該團隊開發了一個完全非同步的線上RL訓練框架,提高了靈活性。與現有的分佈式訓練框架相比,後者犧牲了計算記憶體來將所有模型堆疊在記憶體中,而其新基礎設施能夠靈活地將不同的模型分配到單獨的GPU上,根據計算速度在多個模型之間平衡資源。與前幾代相比,這項創新使訓練效率提高了約10倍。04.結語:開源多種保護措施,改進消除偏見能力Meta稱其目標是開發最有幫助和實用的模型,同時防範和緩解最嚴重的風險,根據《開發人員使用指南:AI保護》中概述的最佳實踐建構了Llama 4,使開發人員能夠為其Llama支援的應用程式建立有用、安全且適應性強的體驗。Meta在預訓練方面,結合使用資料過濾和其他資料緩解措施來保護模型;對於後訓練,應用了一系列技術來確保模型符合對使用者和開發者有益的政策,包括在每個階段提供適當等級的安全資料。在系統層面,Meta開源了幾種保護措施,可幫助識別和防範潛在的有害輸入和輸出。這些工具(Llama Guard、Prompt Guard、CyberSecEval)可以整合到Llama模型中,也可以與其他第三方工具整合。Meta以可控且可重複的方式對各種場景和用例中的模型進行系統測試,並將產生的資料整合到訓練後的結果中。該團隊還利用自動和手動測試對一系列主題的對抗性動態探測對模型進行壓力測試,在理解和評估潛在模型風險方面取得了進展。為消除AI模型的偏見,Meta將繼續提高Llama的響應能力,以便它能夠回答問題,能夠對各種不同的觀點做出回應而不作任何評判,並且不會偏袒某些觀點。經改進,Llama 4的性能明顯優於Llama 3,並且可與Grok相媲美:Llama 4對有爭議的政治和社會話題的拒絕較少(從Llama 3.3中的7%降至不到2%)。Llama 4在拒絕回答提示方面明顯更加平衡(在一系列有爭議的熱門問題中,不平等回答拒絕的比例現在不到1%)。Meta還致力於讓模型能夠以像人類一樣的速度、以個性化的方式做出回覆。Llama 4 經過了最佳化以滿足這些需求。 (智東西)
Llama 4開源王者歸來!推理、編碼打平DeepSeek V3但參數減一半,一張H100就能跑,還有巨獸2兆參數模型!
深夜,Meta如期發佈了全新的開源大型模型系列——Llama 4,並未出現任何“跳票”傳聞中的推遲情況!此次發佈也標誌著Meta與近來崛起的開源新王 DeepSeek 正面硬鋼。Meta官推更是表示:表示:“今天開啟了原生多模態AI創新的新時代”。Llama 4共有三款模型,Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。全部具備多模態處理能力,能夠原生支援文字、圖像和視訊等多種輸入形式。Llama 4 系列包含三款定位各異的模型,覆蓋從單機部署到超大規模推理的不同需求:Llama 4 Scout:小型高性能模型,約17B的活躍參數,背後由16個專家模型組成,總參數量109B。Scout原生支援多模態,擁有業界領先的1000萬Token上下文窗口,相當於可一次處理約15,000頁文件的內容。如此驚人的上下文長度使其特別擅長長文件摘要、大型程式碼庫分析等任務。值得一提的是,Scout能夠在單張NVIDIA H100 GPU上運行(經INT4量化),部署非常方便,這體現了Meta對模型易用性的重視。Llama 4 Maverick:中等規模的旗艦多模態模型,17B活躍參數由128個專家模型提供支援,總參數規模達400B。Maverick面向通用對話和推理任務,被Meta稱為“同等級中全球最好的多模態模型”,在多個基準上超越了OpenAI的GPT-4o和Google的Gemini 2.0等對標模型。與新發佈的 DeepSeek v3.1(45.8B活躍參數)相比,Maverick以不到一半的活躍參數量達到相當的推理與編碼性能。它支援100萬Token上下文(約1,500頁文字),在程式碼生成、複雜問答等領域表現優異。據Meta介紹,Maverick可以在單台配備8卡H100的DGX伺服器上完成推理。Llama 4 Behemoth:真正的“巨獸”級模型,擁有288B活躍參數,16個專家模型,總參數量接近2兆。Behemoth是Meta迄今訓練的最強大模型,被視作新一代模型的“教師”或奠基模型。根據Meta內部測試,Behemoth在許多科學、數學基準上表現超群,性能碾壓同類AI產品。例如,它在MATH-500數學競賽資料集上的得分高達95.0,在複雜問答基準GPQA上也遠超競爭對手。不過,由於訓練難度極高,Llama 4 Behemoth目前仍在訓練過程中,尚未正式開放下載。而Scout和Maverick兩款模型則已經開放下載,可通過官方提供的Llama.com網站或Hugging Face獲取。業界對Llama 4給予了高度評價,輝達高級研究經理 Jim Fan 指出,“對於開源模型而言,易於部署正變得比一味追求模型規模更重要”。Llama 4 :Meta 首批MoE架構模型與前代模型不同,Llama 4 系列在架構上進行了徹底的重新設計。三款模型全部採用了當前炙手可熱的Mixture of Experts(MoE,專家混合)架構,成為Meta首批大規模MoE模型。MoE的核心思想是將許多子模型(“專家”)整合到一個統一架構中,由一個路由(Router)網路在每次處理請求時動態選擇少數幾個相關“專家”參與推理,從而避免每次都動用模型的全部參數。這種稀疏啟動機制帶來了巨大的效率優勢。正如Meta在部落格中解釋的那樣,Llama 4模型的所有參數雖然都常駐記憶體,但實際推理時每個token只需啟動一小部分參數。例如,擁有400B總參數的Llama 4 Maverick,每次推理僅需呼叫其中約17B的活躍參數(128個專家中每次只用到少數幾個)據Meta估算,Maverick的推理開銷約為每百萬Token 0.19~0.49美元,而同等能力的封閉模型GPT-4o大約需要4.38美元——前者性價比高出一個數量級。在這樣的最佳化下,Maverick甚至可在單機(8卡)H100伺服器上運行完成推理,通過分佈式推理則能進一步提升吞吐。小型的Scout更是能在單卡H100上跑通,極大降低了應用門檻。可以說,MoE架構使Llama 4系列在保障性能的同時,將推理效率推向了新高度。Meta首個原生多模態的大模型系列除了架構上的MoE革新,Llama 4還是Meta首個原生多模態的大模型系列。與上一代純文字的Llama 3不同,Llama 4 從訓練之初就融合了文字、圖像、視訊三種模態的資料。Meta並未簡單地在模型後期“拼接”視覺模組,而是採用了早期融合(Early Fusion)策略,將圖像像素、視訊幀等資訊編碼為特徵向量後,與文字Token一同輸入統一的Transformer-MoE架構中聯合訓練。據透露,Llama 4 在預訓練時一次可輸入多達48張圖像或視訊幀與文字混合,使模型學會在多模態資訊之間建立聯絡。在實際能力上,Llama 4 可以同時處理多張圖片並理解其中的語義關聯。例如,對於給定的一組圖片加上文字提示,它能夠輸出語義一致的回答,甚至解釋一張搞笑圖片“有趣在那兒”,或推理多幅圖表的下一步演變。需要指出的是,Llama 4 當前尚未涉及音訊/語音模態,這可能是未來版本的拓展方向。綜合來看,原生多模態+MoE是Llama 4架構的兩大亮點。一方面,MoE大幅提升了模型的推理效率和可擴展性,讓超長上下文和超大參數成為可能;另一方面,原生多模態訓練賦予模型同時理解圖文視訊的能力,使其在視覺問答、多模態推理等任務上具有天然優勢。正因如此,Meta在官方部落格中將Llama 4譽為“全新的原生多模態AI創新時代的開端”。超低價API,Meta也要拼性價比了Meta官方寫道,Llama 4 Maverick 超越了同類模型,為開發者提供了無與倫比的性能與價值。從圖上看Llama 4 Maverick提供了比AI界拼多多DeepSeek更有吸引力的價格。成本的降低與Llama 4的升級的訓練策略密不可分。Llama 4是如何煉成的?在訓練策略上,Meta為Llama 4系列量身定製了一套全新方案,以充分發掘模型潛力並控制巨大的訓練成本。首先,Meta在監督微調(SFT)資料上進行了大幅“瘦身”。他們剔除了50%以上的簡單提示,只保留相對困難、有挑戰性的指令和問題進行微調。這是因為對於像Behemoth這樣超強的模型而言,過於簡單的樣本已無法提供有效學習價值,反而可能讓模型養成敷衍應付的習慣。據悉,Meta採用了一種“自我批判”式的資料篩選方法:利用模型早期訓練的checkpoint充當“批評家”,自動評估標註資料中那些樣本太過簡單冗餘,並將它們過濾掉。這一過程相當於讓模型“自己批改作業”,確保留在訓練環節中的都是能推動模型進步的高品質資料。其次,在微調之後的強化學習階段,Meta引入漸進式強化學習循環來提高模型性能。具體而言,他們逐步提升訓練過程中提示的複雜度和多樣性,模擬從易到難的“課程學習(curriculum learning)”過程。一開始模型接受相對簡單的強化學習任務,隨著能力提高,再逐步增加任務難度,如此循環往復。這種多階段的訓練避免了一次性給模型過大壓力,又能不斷挑戰模型的上限,讓Llama 4在推理、編碼等複雜任務上獲得顯著提升。另一個重大創新是Meta自研的MetaP技術。這是一種全新的超參數智能調節方法,旨在讓不同規模的模型在訓練時保持行為一致。簡單來說,MetaP可以將小模型上偵錯出的最佳化超參數(如分層學習率等)推廣應用到大模型上,使得後者無需從零開始反覆試錯。這一突破大幅提高了訓練效率——研究人員只需在較小的模型上嘗試找到理想的組態,然後直接在龐大的Behemoth上採用類似策略即可。據業內專家評價:“這能省下大量時間和資金——不必在大模型上反覆試錯”。在Llama 4 Behemoth的訓練中,MetaP發揮了關鍵作用:由於Behemoth規模空前(採用FP8精度,呼叫多達32,000顆GPU,訓練了超過30兆個token),通過MetaP的指導,Meta團隊才能在有限的試驗預算內成功完成訓練。不僅如此,MetaP還幫助不同模態的token在訓練中達到更好的均衡,使多模態融合更加順暢。寫在最後Llama 4的按時發佈和卓越表現,不僅是Meta自身的重要里程碑,也為整個AI行業的發展方向提供了啟示。展望未來,我們不禁要問:下一代的GPT-5、DeepSeek R2等重量級模型,是否還會堅持“Reasoning First(推理優先)”的技術路線?亦或是在推理能力與模型規模之間尋求新的平衡?從當前動向看,“大而通用”與“深度思考”這兩條路線或將逐漸融合。OpenAI方面,儘管GPT-4已經展現出強大的通用能力,但在明確的鏈式推理上仍有提升空間,可以預期GPT-5將進一步強化模型的內在邏輯推理與工具使用能力,以應對越來越複雜的任務需求。而DeepSeek作為開源陣營的異軍突起,其R1模型證明了小模型通過自我進化也能掌握複雜推理,這一理念很可能會延續到DeepSeek R2,並通過與大模型DeepSeek V3的結合,形成規模+推理兼備的新範式。就像GoogleCEO今天所感嘆的那樣:AI世界,從不平淡。讓我們拭目以待吧。 (51CTO技術堆疊)