昨天發佈Llama 4系列模型全面擁抱MoE<溫習>,在 MoE 模型中,單個 token 僅啟動總參數的一小部分。MoE 架構在訓練和推理方面的計算效率更高,並且在給定固定訓練 FLOPs 預算的情況下,與密集模型相比,可提供更高的質量。
在Llama4系列中有兩個高效的模型,一個是Llama 4 Scout,一個由16位專家組成的17B的啟動參數模型,另一個是Llama 4 Maverick,一個由128位專家組成的17B個啟動參數模型。前者適用於單個H100 GPU(Int4量化),後者適用於單個H100主機。MoE 層使用 128 個路由專家和一個共享專家組合而成。
當然這個系列中還有一個教師模型Llama 4 Behemoth(2T參數的巨獸),它在以STEM為核心的基準測試(如MATH-500和GPQA Diamond)上的表現優於GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4 Behemoth仍在訓練中,但已經可以看到其中的很多技術細節。
在大模型處理中長視訊任務時,NLL(負對數似然)基準是一種常用的評估指標,用來衡量模型對視訊內容建模的精準性。它反映的是模型在預測視訊中下一幀、下一動作或下一事件時的“信心”。NLL值越低,說明模型對視訊的理解和預測越準確。在中長視訊場景下,這種基準可以幫助判斷模型是否具備捕捉長時間依賴關係和複雜時序結構的能力,因此被廣泛用於大模型在視訊生成、視訊理解等任務中的性能對比和調優。
DeepSeek v3.1暫時不支援多模態
Llama 4模型採用原生多模態設計,結合早期融合,將文字和視覺標記無縫整合到統一的模型主幹中。早期融合是向前邁出的一大步,它聯合大量未標記的文字、圖像和視訊資料進行預訓練模型的訓練,尤其是這個過程中它還改進了Llama 4中的視覺編碼器(基於MetaCLIP)。
訓練過程中還採用一種新的訓練技術,姑且稱之為 MetaP。它能夠可靠地設定關鍵的模型超參數,例如每層學習率和初始化規模。所選的超參數在不同的批次大小、模型寬度、深度和訓練標記值之間遷移特性良好。
Llama 4 通過對200種語言進行預訓練,其中包括100多種語言,每種語言的令牌超過10億個,總體上是Llama 3的10倍。
Llama 4模型群的推出標誌著AI研究和應用的變革時刻。Llama 4結合了多模態智能、高效的MoE 架構、廣泛的預訓練和強大的訓練後策略,樹立了新的基準。 (魯班模錘)