開源大模型又迎來新選擇。
智東西8月21日報導,今天,字節跳動Seed團隊開源了Seed-OSS系列模型,這些模型專為長上下文、推理、Agent和通用場景設計,將上下文窗口擴展至512k,是業界常見上下文窗口(128k)的4倍,GPT-5上下文窗口的2倍,相當於1600頁文字。
Seed-OSS系列模型是推理模型,專門針對推理任務進行了最佳化,還允許使用者靈活地控制思維預算。
字節Seed團隊共開源了Seed-OSS的三個版本,分別為:
(1)基礎模型Seed-OSS-36B-Base
(2)無合成資料基礎模型Seed-OSS-36B-Base-woSyn
(3)指令微調模型Seed-OSS-36B-Instruct
指令微調後的Seed-OSS-36B-Instruct在通用知識、Agent、程式設計、長上下文等領域的基準測試中,取得同量級開源模型中的7項SOTA(性能最佳)表現,整體能力超過了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,與Qwen3-30B-A3B-Thinking-2507在大部分領域旗鼓相當。
Seed-OSS系列模型採用了寬鬆的Apache2.0開源協議,並會在後續發佈模型的詳細技術報告。
開源地址:
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
值得一提的是,字節Seed團隊本次的發佈方式較為“研究友好”。鑑於在預訓練中包含合成指令資料可能會影響後訓練研究,無合成資料基礎模型的發佈,為研究社區提供了更多樣化的選擇。這一系列模型還支援4位和8位格式的量化,以減少記憶體需求。
Seed-OSS系列模型使用了12兆個token的預訓練資料,採用當前主流的因果語言模型架構,也就是“預測下一個token”類型的模型。同時,Seed-OSS系列均為稠密模型,沒有採用MoE等架構。
這一系列模型結合了幾項關鍵技術,包括RoPE(旋轉位置編碼)、GQA注意力機制(Grouped Query Attention)、RMSNorm歸一化(Root Mean Square Normalization)、SwiGLU啟動函數等。這是現代大模型常見的高效元件組合,可提升訓練穩定性和推理性能。
Seed-OSS的上下文窗口達512k,相當於能一次性處理數十萬字的內容。這一上下文窗口並非後續擴展而來,而是通過原生訓練打造的。
思考預算功能可幫助開發者控制模型推理成本,最佳化使用體驗等。字節Seed團隊分享了Seed-OSS在不同思考預算下性能的變化情況。
對於更簡單的任務(如IFEval),模型的思維鏈較短,隨著思維預算的增加,分數波動並不明顯。對於更具挑戰性的任務(如AIME和LiveCodeBench),模型的思維鏈更長,隨著思維預算的增加,分數也會提高。
字節Seed團隊稱,如果沒有設定思維預算(默認模式),Seed-OSS將不會擁有任何思考長度限制。
如果指定了思維預算,建議優先考慮512的整數倍值,因為模型已經在這些區間上進行了大量的訓練。
當思維預算為0時,模型會直接輸出內容,建議將任何低於512的預算設定為0。
Seed-OSS系列模型,獲得了不少開發者的認可。Hugging Face的華人工程師Tiezhen Wang評價道,這一系列模型“很適合做消融研究”。這種研究能以較低的成本,探索不同元件對大模型性能的影響。
有網友稱,這種尺寸的基礎模型在開源界也是比較罕見的,Qwen3就沒有公佈14B以上的基礎模型。另一位網友補充道,長上下文能力對真實應用而言有很大的價值。
近期,字節Seed團隊已經密集開源了多款模型,除此次的Seed-OSS系列之外,他們還開源了多語言翻譯模型Seed-X、智能體模型Tar系列、圖像編輯模型Vincie等。
如今,開源已經逐漸從可選項變為近似“標配”的存在,連OpenAI等原本堅持閉源策略的廠商,也在逐步開源模型。字節本次將更為核心的語言模型貢獻給社區,給開源社區的後續研究提供了更多基礎模型的選擇。 (智東西)