#MetaP | 熱門關鍵字 | 鉅亨號

昨天發佈Llama 4系列模型全面擁抱MoE<溫習>，在 MoE 模型中，單個 token 僅啟動總參數的一小部分。MoE 架構在訓練和推理方面的計算效率更高，並且在給定固定訓練 FLOPs 預算的情況下，與密集模型相比，可提供更高的質量。在Llama4系列中有兩個高效的模型，一個是Llama 4 Scout，一個由16位專家組成的17B的啟動參數模型，另一個是Llama 4 Maverick，一個由128位專家組成的17B個啟動參數模型。前者適用於單個H100 GPU（Int4量化），後者適用於單個H100主機。MoE 層使用 128 個路由專家和一個共享專家組合而成。當然這個系列中還有一個教師模型Llama 4 Behemoth（2T參數的巨獸），它在以STEM為核心的基準測試（如MATH-500和GPQA Diamond）上的表現優於GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4 Behemoth仍在訓練中，但已經可以看到其中的很多技術細節。Llama 4 Scout是一個109B的參數規模，其中17B的啟動參數，由 16 位專家組成，據說是世界上同類產品中最好的多模態模型，比所有上一代 Llama 模型都更強大，同時適合單個 H100 GPU。Llama 4 Scout提供了行業領先的10M上下文窗口，並且在熱門的基準測試中提供了比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1更好的結果。它採用創新的iRoPE（交錯旋轉位置嵌入）架構來增強長上下文泛化，而且表現不俗。在大模型處理中長視訊任務時，NLL（負對數似然）基準是一種常用的評估指標，用來衡量模型對視訊內容建模的精準性。它反映的是模型在預測視訊中下一幀、下一動作或下一事件時的“信心”。NLL值越低，說明模型對視訊的理解和預測越準確。在中長視訊場景下，這種基準可以幫助判斷模型是否具備捕捉長時間依賴關係和複雜時序結構的能力，因此被廣泛用於大模型在視訊生成、視訊理解等任務中的性能對比和調優。Llama 4 Maverick的參數規模為400B，其中17B個啟動參數，擁有128名專家，是同類產品中最好的多模態模型，在廣泛報導的基準測試中擊敗了GPT-4o和Gemini 2.0 Flash，同時在推理和編碼方面取得了與新的DeepSeek v3相當的結果——而且啟動參數不到一半。Llama 4 Maverick提供一流性價比，實驗性聊天版本在LMArena上的ELO得分為1417。DeepSeek v3.1暫時不支援多模態Llama 4 Maverick主要歸功於Llama 4 Behemoth的蒸餾，Llama 4 Behemoth具有2T的總參數，288B個啟動參數模型，擁有 16 位專家。Llama 4 Behemoth在多項STEM基準測試中優於GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4模型採用原生多模態設計，結合早期融合，將文字和視覺標記無縫整合到統一的模型主幹中。早期融合是向前邁出的一大步，它聯合大量未標記的文字、圖像和視訊資料進行預訓練模型的訓練，尤其是這個過程中它還改進了Llama 4中的視覺編碼器（基於MetaCLIP）。訓練過程中還採用一種新的訓練技術，姑且稱之為 MetaP。它能夠可靠地設定關鍵的模型超參數，例如每層學習率和初始化規模。所選的超參數在不同的批次大小、模型寬度、深度和訓練標記值之間遷移特性良好。Llama 4 通過對200種語言進行預訓練，其中包括100多種語言，每種語言的令牌超過10億個，總體上是Llama 3的10倍。 Llama 4模型群的推出標誌著AI研究和應用的變革時刻。Llama 4結合了多模態智能、高效的MoE 架構、廣泛的預訓練和強大的訓練後策略，樹立了新的基準。 (魯班模錘)