#Llama4
1000萬上下文+2880億參數的Llama4,卻讓DeepSeek們鬆了一口氣
Llama4 來了。4月5日,Meta發佈了外界期待許久的Llama4系列開源模型,目前它包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。三種模型對應不同的使用需求,簡單來說:Llama 4 Scout是可以在單張H100上跑的多模態MoE模型,Llama 4 Maverick是擊敗了GPT-4o 和 Gemini 2.0,比DeepSeek v3小但編碼和推理能力匹配的“最佳模型”,還有一個即將發佈的、隱藏在後為所有Llama4系列提供能力的2880億活躍參數“巨獸”模型Llama 4 Behemoth。根據它官方發佈的介紹,此次Llama4有幾個重要的技術亮點。MoE架構:此次是Llama首次採用混合專家架構,任務執行時僅啟動部分參數(如Maverick總參數4000億,活躍參數170億),顯著提升訓練和推理效率。多模態融合:早期融合(Early Fusion)策略統一處理文字、圖像、視訊,突破傳統多模態模型的分階段處理限制。超長上下文:Scout支援1000萬Token上下文窗口(約2000萬字文字或20小時視訊),通過iRoPE架構實現“短序列訓練,長序列泛化”。部署上,Scout支援單張H100 GPU運行(Int4量化後),Maverick需H100 DGX叢集,Behemoth則誇張地使用了32000塊GPU訓練。後訓練策略:採用“輕量級SFT → 線上RL → 輕量級DPO”流程,減少對齊約束,增強模型探索能力。 引入“自我批判式資料篩選”,利用早期模型Check point檢查點過濾低品質訓練樣本,提升最終性能。由於Behemoth這個巨大參數的模型此次並沒有正式發佈,另外兩個模型並沒有太過讓人震驚的突破——尤其在刷新評測榜單這件事已經沒那麼重要的今天,人們對Llama4的期待在於它的技術思路上是否有新玩意。從目前官方給的說明來看,它自己總結的幾個重要的創新在於:原生多模態的預訓練融合方法Llama 4 模型設計為原生多模態,通過早期融合(early fusion)無縫整合文字和視覺標記到統一的模型主幹中。早期融合是一大進步,使 Llama 能夠聯合預訓練大量未標記的文字、圖像和視訊資料。Llama 還改進了 Llama 4 的視覺編碼器——基於 MetaCLIP——但與凍結的 Llama 模型聯合訓練,以更好地和LLM結合。最佳化MoE專家超參數設定的MetaP;Llama 開發了一種新訓練技術 MetaP,能夠可靠設定關鍵模型超參數,如每層學習率和初始化規模。Llama 發現所選超參數在不同batch size、模型寬度、深度和訓練token數中可以很好的匹配。Llama 4 通過在200種語言上預訓練(包括超過100種每種超過10億token的語言),總體的多語言訓練token比 Llama 3 多10倍。對注意力機製做改進,從而突破上下文能力的iRoPE架構;Llama 4 架構的一個關鍵創新是使用了交錯注意力層,且不使用位置嵌入(positional embeddings)。此外,我們還採用了推理時注意力溫度縮放( inference time temperature scaling of attention)來增強長度和泛化。我們將這種架構稱為 iRoPE 架構,其中“i”代表“交錯”注意力層,突出了支援“無限”上下文長度的長期目標,“RoPE”則指在大多數層中使用的旋轉位置嵌入。SFT、RL和DPO使用搭配上的新配方在 Llama 4 中,Llama 通過採用不同方法重構了後訓練流程:輕量級監督微調(SFT) > 線上強化學習(RL) > 輕量級直接偏好最佳化(DPO)。關鍵經驗是,SFT和DPO可能過度約束模型,限制線上RL階段的探索,導致推理、編碼和數學領域的次優精準性。後訓練一個擁有2兆參數的模型也是一大挑戰,需要 Llama 徹底改造配方,從資料規模開始。為最大化性能,Llama 不得不修剪95%的SFT資料(相比小型模型的50%),以實現質量和效率的必要關注。為2兆參數模型擴展RL還需要 Llama 改造底層RL基礎設施,因其規模前所未有。Llama 最佳化了MoE平行設計以提高速度,加快了迭代。Llama 開發了一個完全非同步的線上RL訓練框架,增強了靈活性。與犧牲計算記憶體以在記憶體中堆疊所有模型的現有分佈式訓練框架相比,Llama 的新基礎設施支援將不同模型靈活分配到單獨GPU上,根據計算速度平衡多個模型的資源。這一創新使訓練效率比前幾代提高了約10倍。這些創新與大家對今天開源模型競賽的預期相比,可能會略微讓人失望。原生多模態的做法基本依然是行業的常規操作——把其他模態與最強的語言模態在token層面上統一;MetaP背後強調的不同尺寸的高效轉化,讓人想到諸如面壁智能提出的“densing law”,如何在小一點的參數上做實驗,預測出更大參數的表現;對注意力的改進也在過去幾個月有諸多嘗試,無論是月之暗面的MoBA,DeepSeek的NSA還是MiniMax-01對Lighting Attention的激進的融合,似乎Meta的嘗試並沒有比這些帶來更徹底的效果;而在SFT,RL和DPO的“煉丹”上,也反而讓DeepSeek R1的更純粹的RL方法顯得更簡潔優雅。與Llama過往作為開源執旗者時相比,通過開源給社區提供對抗閉源模型強大的新方法的意味少了很多,結合其他更徹底的開源模型公佈的各種技術來快速交出一個作品來先跟上領先者的意味更強了。這次的模型與此前Llama2和Llama3發佈時的影響完全不同,它不是碾壓式領先的發佈,也許之後的Behemoth才是主菜,這次只是開胃菜。但目前看來,Behemoth的最大亮點可能還是在它背後的算力資源,Meta表示,Behemoth使用FP8和32K GPU訓練,實現了390 TFLOPs/GPU。這些都在提示這一次Llama4發佈的倉促。這次Llama在行業對推理模型需求爆炸,對很看重程式設計能力的AI Agent類產品興趣濃厚的時候,沒有先發佈推理模型,而是繼續通過做大底座模型來提高推理和程式設計能力。在通過Scout強調部署便利的同時,卻又沒有可以在本地運行的尺寸的模型。整體看來,Llama4像是Meta先給自己一個“台階”——在DeepSeek爆火之前,它堅持不用MoE架構,這次算是完成了糾錯。另外有意思的是,在模型發佈後,行業裡活躍的幾家競對也“討論”起了它的發佈時間——這次發佈選擇放在了周末。有人發現它在Github上最初提交的計畫時間是周一,以至於不少人懷疑Meta是為了避免下周被某個更強模型的發佈蓋過風頭。有人猜測DeepSeek ,Qwen和DeepMind的更強模型都會在下周出現,而Llama4目前的實力已經無法與它們爭奪注意力。“在周六發佈有一個好處,至少沒人在當天會想截胡你。”Gemini團隊活躍的研究者Logan Kilpatrick調侃道。千問的林俊暘則回覆了一個“hahahah”。在Llama3領先開源競爭的時候,你很難想像它的對手會如此戲虐地做出反應。從領先變回追趕者,Meta AI看來有得忙了。 (矽星人Pro)