智譜這次是真的把家底掏出來了。
它把自己內部用的強化學習訓練框架開源了,名字叫slime。更讓人意外的是,剛剛發佈的GLM-5.2,整個OPD後訓練在這個平台上僅僅用了大約2天時間。
GLM-5.2現在已經火遍全網,多項評測顯示它的水平介於Opus 4.7和Opus 4.8之間,實際上可能相當於一個穩定版的Opus 4.5。這個結果放在幾天前還沒人敢想。
而且智譜還在憋大招,唐老師和馬斯克有來有回討論何時達到Fable 5等級
項目地址:https://github.com/THUDM/slime
slime是一個面向強化學習規模化訓練的大模型後訓練框架,提供兩個核心能力。
第一是高性能訓練,通過把Megatron和SGLang連接起來,支援各種模式下的高效訓練。
第二是靈活的資料生成,通過自訂資料生成介面和基於伺服器的引擎,可以實現任意的訓練資料生成流程。
slime的設計目標,是讓訓練和資料生成這兩個能力互相增強,同時避免把整個系統拆成一堆互不相關的訓練器、推理服務和智能體框架。Megatron訓練、SGLang推理、自訂資料生成、獎勵計算、驗證反饋和環境互動,全部走同一條訓練、推理、資料緩衝區的路徑。
這也讓slime成為目前經過實戰檢驗最多的開源強化學習後訓練框架之一。它足夠輕量,結構清晰,也容易擴展,同時還經受住了多個頂尖模型發佈背後完整訓練閉環的考驗。
為什麼這套設計重要
slime背後有幾個關鍵設計點。
它經過了頂尖模型訓練的驗證。slime是GLM-5.2、GLM-5.1、GLM-5、GLM-4.7、GLM-4.6、GLM-4.5背後的強化學習訓練框架。這意味著背後驗證的是一整套完整的後訓練流程,規模和複雜度遠超普通的演示案例。
它把正確性放在第一位。強化學習裡的bug往往不會立刻報錯,所以slime保持資料流動的顯式可見,支援只跑推理或只跑訓練這兩種模式分開偵錯,並把可復現性、容錯能力、追蹤、性能分析和持續整合都當作核心工程問題來對待。
它從設計之初就是原生的。slime直接透傳Megatron的參數,並通過加上 --sglang- 前綴,把當前安裝版本SGLang支援的參數也暴露出來。上游訓練和推理框架的新最佳化可以直接拿來用,不需要在slime裡再包一層。
它給資料生成留出最大自由度。數學、程式碼、搜尋、工具呼叫、沙箱、驗證器、環境互動,以及多智能體系統和長鏈路智能體工作流,都可以作為資料生成或獎勵計算的方式接入,不需要去改動訓練核心。
它足夠輕量,但也做了明確取捨。slime深度最佳化的是Megatron加SGLang這一條大規模強化學習生產路徑。只選一個推理後端,讓slime能直接發揮SGLang特有的能力,而不用為了同時相容多種推理框架,被迫只做各家都支援的最小公共功能。
生產驗證
slime已經覆蓋了發佈級模型後訓練所需要的完整流程,包括大規模訓練、高吞吐推理、權重同步、獎勵和驗證資料處理、檢查點管理、偵錯,以及長時間運行的穩定性。
除了GLM系列,slime還支援以下模型。
Qwen系列:Qwen3.6、Qwen3.5、Qwen3Next、Qwen3MoE、Qwen3、Qwen2.5。
DeepSeek V3系列:DeepSeek V3、V3.1、DeepSeek R1。
Llama 3。
原生引擎透傳與SGLang部署
slime不只是一個能呼叫推理後端的框架,它儘量保留Megatron和SGLang上游引擎原生的控制能力,同時在外層加上強化學習所需要的資料流。
具體來說包括這幾點。
原生SGLang參數透傳,當前安裝版本SGLang支援的每一個參數,都可以加上 --sglang- 前綴來使用,比如把 --mem-fraction-static 寫成 --sglang-mem-fraction-static。
原生Megatron參數透傳,slime直接讀取Megatron的參數,所以平行策略、最佳化器、檢查點和模型配置這些Megatron側的設定,不需要額外的包裝程式碼就能繼續使用。
SGLang Config作為一個可選的YAML擴展,用來做拓撲相關的控制,比如給預填充、解碼、EPD這類部署方式分別設定參數,配置異構伺服器組、多模型服務,以及分組等級的SGLang參數覆蓋。
面向多輪對話和智能體場景的PD分離方案,用來處理預填充和解碼這兩個階段資源需求不一樣的問題。
面向多輪智能體的會話親和性等路由策略。
面向訓練和推理分離場景、用於大模型高效更新權重的增量權重同步。
外部推理引擎支援,用來對接訓練任務之外獨立管理的部署形態,SGLang的伺服器端可以使用獨立環境,在磁碟傳輸模式下甚至能用不同型號或不同廠商的GPU,並通過共享檔案系統完成從磁碟的完整或增量檢查點更新。
這種透傳式的設計,讓slime從一開始就具備原生屬性。上游引擎大多數的最佳化升級後能直接拿來用,slime自己則把精力主要放在強化學習的循環邏輯、資料流轉、同步機制和正確性檢查上。
選擇SGLang作為唯一的推理後端也是經過深思熟慮的決定。支援多個後端的框架往往需要在各個推理引擎的公共能力交集上做抽象,結果會把每個後端最強的特性都磨平。slime選擇深度最佳化SGLang,讓強化學習任務可以直接用上SGLang特有的服務、路由、快取、分離部署和權重同步能力。
正確性、穩定性與持續整合
slime是按照基礎設施的標準來開發的,因為指令碼能跑起來遠遠不夠。項目維護了CPU單元測試、自訂鉤子的契約測試,以及GPU端到端測試,覆蓋稠密模型和混合專家模型、Megatron訓練路徑、SGLang部署配置、檢查點、數值精度、非同步推理、OPD、PPO類工作流,以及偵錯用的先推理後訓練回放。
博文
slime團隊發佈過三篇相關文章。一篇是項目願景說明《slime:為RL Scaling設計的SGLang-Native後訓練框架》。一篇是關於純非同步智能體訓練的思考,標題是《Agent-Oriented Design: An Asynchronous and Decoupled Framework for Agentic RL》。還有一篇是v0.1.0版本的更新日誌《slime v0.1.0:重新定義高性能RL訓練框架》。
架構總覽
slime主要由三個模組組成。
training模組基於Megatron,負責主要的訓練流程,從資料緩衝區讀取資料,訓練結束後把參數同步給推理模組。
rollout模組基於SGLang加路由器,負責生成新資料,包括獎勵和驗證結果,並把資料存進資料緩衝區。通過自訂生成介面,可以在這一層疊加多輪循環、工具呼叫、環境或沙箱互動,以及基於驗證器的獎勵計算。
data buffer是連接兩邊的橋樑模組,負責管理提示詞初始化、自訂資料,以及各種推理資料生成方式,包括用同一套介面產出樣本的智能體工作流。
快速開始
完整的環境配置、資料準備、訓練啟動和關鍵程式碼講解都在官方的快速開始指南里。項目裡的examples目錄還提供了一些指南之外的使用示例。
幾個智能體強化學習的例子值得一提,它們都是通過自訂介面接入標準的推理和資料緩衝區閉環,而不是另起一套獨立框架。
multi_agent示例,通過自訂 --rollout-function-path 實現多智能體的推理。
search-r1示例,通過 --custom-generate-function-path 實現搜尋和檢索增強風格的多輪生成。
fully_async示例,做的是完全非同步推理,適合不同樣本生成耗時差異很大的長尾智能體場景。
coding_agent_rl示例,是端到端的軟體工程類程式設計智能體強化學習,包含沙箱化的工具呼叫、基於測試的獎勵,以及通過自訂生成介面匯出的token級正確軌跡片段。
基於slime建構的生態
這部分項目不只是demo,它們是一批把slime當作可復用強化學習底座的獨立系統,覆蓋生產級後訓練、智能體強化學習、垂直領域強化學習,以及推理系統研究。
Miles,由RadixArk基於slime建構,是面向大規模模型訓練的企業級強化學習框架。它和slime保持緊密的上游同步,同時針對企業場景做了更深度的SGLang整合、配套的維運部署工具,以及針對新模型和新硬體的最佳化,還在持續加入LoRA、TITO、低精度訓練等生產環境需要的能力。
vime,由vLLM項目維護,是基於slime建構的vLLM原生後訓練框架。它保留了slime的Megatron訓練棧、資料緩衝區流轉和自訂資料生成設計,主要變化是把推理後端換成了vLLM,搭配vllm-router使用,在現有slime啟動指令碼上只需調整推理相關參數就能完成適配。
Relax,全稱Reinforcement Engine Leveraging Agentic X-modality,是RedAI Infra團隊開放原始碼的全模態智能體強化學習框架,建構在Ray、Megatron-LM和SGLang組成的slime基礎設施之上。它採用Ray Serve上的服務化架構,用TransferQueue把Actor、Rollout、ActorFwd、Reference和優勢計算完全解耦到獨立的GPU叢集,還引入了分佈式檢查點服務,通過NCCL廣播的權重同步引擎把更新後的Actor權重非同步流式傳給Rollout、ActorFwd和Reference,並與下一步訓練重疊,從而在可配置的滯後程度下實現完全非同步訓練。Relax支援文字、視覺、音訊(包括Qwen3-Omni)以及智能體多輪推理的端到端強化學習。
OpenClaw-RL,是面向個性化OpenClaw智能體的強化學習服務,它託管OpenClaw模型,並從跨部署的歷史對話中持續改進模型,同時依靠slime的非同步強化學習基礎設施避免訓練過程干擾正常的介面服務。它支援兩種自動最佳化方法,一種是基於後續狀態推斷二元反饋的GRPO,另一種是從後續反饋中提取事後提示的同策略蒸餾。
P1,是一系列完全通過強化學習訓練的開源物理推理模型,使用slime作為後訓練框架,並提出了一套多階段強化學習訓練演算法,通過自適應的可學習性調整和穩定機制逐步增強推理能力,在開源物理推理上取得了突破性的表現。
RLVE,提出用可驗證環境來擴展語言模型的強化學習。這些環境會以程序化方式生成問題,並提供可以用演算法驗證的獎勵。通過在400個可驗證環境上聯合訓練,RLVE能讓每個環境隨訓練進展動態調整問題難度分佈,匹配當前策略模型的能力水平。
TritonForge,用slime的監督微調和強化學習能力,訓練能自動生成最佳化GPU核心的大模型。通過監督微調加上帶多輪編譯反饋的強化學習這兩階段訓練,TritonForge在把PyTorch算子轉換成高性能Triton核心這件事上取得了明顯效果。
APRIL,提出一種可以無縫整合進slime的系統級最佳化,用來加速強化學習訓練裡推理生成這一階段。它通過主動多發請求並管理部分完成結果,緩解推理生成中常見的長尾瓶頸,而這個階段通常會佔掉強化學習訓練90%以上的時間。
qqr,又叫hilichurl,是slime的一個輕量擴展,用來演化開放式智能體。它實現了ArenaRL演算法,通過錦標賽式的相對排名,比如種子單淘汰賽和循環賽,緩解判別性能坍縮問題,同時無縫整合模型上下文協議。qqr借助slime的高吞吐訓練能力,在標準化、解耦的工具環境裡實現可擴展的分佈式智能體演化。
ART,全稱AgentCore RL Toolkit,是一個能把真實生產環境中的智能體適配到AWS Bedrock AgentCore執行階段上做強化學習訓練的工具包。AgentCore執行階段提供能自動擴展並且沙盒化隔離的智能體運行環境,很適合安全地平行跑大量智能體推理。使用者只需要在智能體程式碼上加一個裝飾器,就能在復用生產環境智能體框架的基礎上完成強化學習訓練的適配,用於訓練的token捕獲在模型閘道器層完成。ART把slime列為強化學習訓練的後端選項之一,方便使用者直接用slime裡的演算法最佳化生產環境上的智能體模型。
這些項目共同說明了slime的核心思路,一個高性能的強化學習核心可以同時支撐頂尖模型的後訓練、線上智能體最佳化、可驗證環境、全模態推理、核心生成智能體和推理系統研究,不需要改動核心訓練循環。
參數說明
slime的參數分為三類。
第一類是Megatron參數,slime會直接讀取,可以通過類似 --tensor-model-parallel-size 2 的方式來配置。
第二類是SGLang參數,支援當前環境裡安裝版本SGLang的全部參數,這些參數需要加上 --sglang- 前綴,比如 --mem-fraction-static 要寫成 --sglang-mem-fraction-static。
第三類是slime自身的參數,具體可以查看項目裡的slime/utils/arguments.py檔案。
項目地址:https://github.com/THUDM/slime (AI寒武紀)
