字節新推理模型逆襲DeepSeek,200B參數擊敗671B,豆包史詩級加強?

字節最新深度思考模型,在數學、程式碼等多項推理任務中超過DeepSeek-R1了?而且參數規模更小。

同樣是MoE架構,字節新模型Seed-Thinking-v1.5有200B總參數和20B激活參數。

比較DeepSeek-R1的671B總參數和37B激活參數,可以算是輕量級了。

目前,完整的技術報告已公開發布,其中揭示了許多秘訣。

字節Seed團隊聚焦大規模強化學習,並從三個角度提升了推理表現:資料、RL算法和RL基礎設施

可驗證與不可驗證問題

從資料開始說起,字節團隊把RL訓練資料分成兩個部分,有明確答案的可驗證問題和沒有明確答案的不可驗證問題,採用不同的獎勵建模方法。

這其中,模型的推理能力主要來自可驗證問題,並且可以推廣到不可驗證問題

可驗證問題包括問題與答案配對的STEM問題、附帶單元測驗的程式碼問題,以及適合自動驗證的邏輯推理問題(24點、迷宮、數獨等)。

不可驗證問題主要包括根據人類偏好評估的非推理任務,如創意寫作、翻譯、知識QA、角色扮演等。

對於不可驗證問題,字節團隊丟棄了樣本分數變異數低、難度較低的資料。此類數據可能過於簡單或已在數據集中大量表示。脫機實驗表明,過度優化此類樣本會導致模型的探索空間過早崩潰並降低效能。

此外,團隊也打造了全新數學推理評測集BeyondAIME

目前的推理模型通常使用AIME作為評估數學推理能力的首選基準,但該基準每年只發布30個問題,有限的規模可能會導致高方差的評估結果,難以有效區分最先進的推理模型。

字節與數學專家合作,根據既定的比賽形式開發原創問題。透過結構修改和情境重新配置來系統性地調整現有的比賽問題,確保不會發生直接重複。此外還確保答案不是容易猜的數值(例如問題陳述中明確提到的數字),以減少模型在沒有適當推理的情況下猜出正確答案的機會。

RL算法

強化學習雖然強大,但訓練起來也很不穩定,常常崩潰。

字節在技術報告中提到」有時,兩次運行之間的分數差異可能高達10分」。

針對這個問題,團隊提出了VAPODAPO兩個RL框架,分別從基於價值和無價值的RL範式出發來穩定訓練。

VAPO和DAPO兩篇論文都已單獨發布。

此外,在Seed-Thining-v1.5中,也藉鑒了先前學術界工作中的許多關鍵技術:

  • 價值預訓練(Value-Pretraining),確保價值網與策略網一致
  • 解耦的GAE(Decoupled-GAE),讓兩個網路更獨立高效
  • 長度自適應GAE(Length-adaptive GAE),更好處理不同長度串行
  • 解耦PPO損失(Clip-Higher),為低機率token的成長創造,了更多空間鼓勵模型探索新方案
  • Token級損失(Token-level Loss),平衡每個token對訓練過程的影響。
  • 正例增強(Postive Example LM Loss),提升RL訓練過程中正樣本的利用效率,進而提升模型整體效能

RL基礎設施

在Long-CoT生成過程中,字節團隊觀察到各種提示字之間的反應長度差異較大,在生成過程中出現大量GPU空閒時間。

為了緩解長尾響應產生的滯後問題,提出了SRS(流式Rollout系統),一種資源感知型調度框架,可策略性地部署獨立的流式計算單元,將系統約束從記憶體綁定轉換為計算綁定。

為了有效地大規模訓練,團隊還設計了一個混合分散式訓練框架,整合高階並行策略、動態工作負載平衡和記憶體優化:

  • 平行機制:將TP (張量並行)/EP (專家並行)/CP (上下文並行)與全分片資料並行(FSDP) 組合在一起,具體來說,將TP/CP 應用於注意力層,將EP應用於MoE 層。
  • 串列長度平衡:DP等級之間的有效串列長度可能不平衡,導致運算工作量不平衡和訓練效率低。利用KARP算法在一個mini-batch內重新排列輸入串行,使它們在micro-batch之間保持平衡。
  • 記憶體優化:採用逐層重新計算、啟動卸載和優化器卸載來支援更大micro-batch的訓練,以覆蓋FSDP引起的通訊開銷。
  • 自動並行:為了實現最佳系統效能,開發了AutoTuner 自動調整系統,按照基於設定檔的解決方案對記憶體使用進行建模。然後估計各種配置的效能和記憶體使用情況以獲得最優配置。
  • 檢查點:使用ByteCheckpoint支援從不同的分散式配置中以最小的開銷恢復檢查點,彈性訓練以提高叢集效率。

最終,在多項自動評估中,Seed-Thinking-v1.5在AIME 2024基準測試中取得86.7,與OpenAI的o3-mini-high模型的表現相當。但在最近的AIME 2025和BeyondAIME中,Seed-Thinking-v1.5仍落後於o3等級的表現。

對於GPQA任務,Seed-Thinking-v1.5達到77.3%的準確率,接近o3-mini-high的表現。

在Codeforces等程式碼產生場景中,Seed-Thinking-v1.5的效能與Gemini 2.5 Pro 的效能相當,但仍落後於o3-mini-high。

Seed-Thinking-v1.5在SimpleQA上的表現不太理想。但團隊認為,此基準測試預訓練模型規模的相關性更強,而不是考驗推理能力。

許多人看完這篇技術報告,都很感興趣,不過找了一圈也沒找到模型在那裡發布。

從技術報告的口徑來看,該型號與目前豆包中的Doubao-1.5 Pro並不是一回事。

但從作者名單看,這是由字節Seed團隊負責人吳永輝帶隊,主要成員都參與的大專案。

那麼是否將來會部署到豆包APP,可以期待一波了。

論文地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/

(量子位元)