30億參數模型程式設計比肩千億大模型,推理能力真的能壓縮?

VibeThinker-3B,30億參數,在程式設計和數學推理上的得分直接撞進了Gemini 3 Pro、GPT-5 high、Claude Opus 4.5這些前沿大模型的區間。AIME 2026數學競賽94.3分,LeetCode最新未公開周賽通過率96.1%。這個成績出自新浪微博團隊,基於Qwen2.5-Coder-3B建構。但爭議也在這裡。測試集是否完全公開,社區正在復現,過擬合風險暫時沒法排除。

對長期盯著算力部署和模型選型的人來說,這個成績當然好看。但真正讓人停一下的是:如果小參數真能把推理能力壓縮到這個程度,那算力部署的預算分配和模型選型邏輯,可能都得重新算一遍。

小模型的推理成績單:資料不會說謊

VibeThinker-3B 的測試成績,放在當前模型生態裡看,確實反常。這個數字在 3B 參數等級上,有點離譜。AIME 2026 數學競賽它拿了 94.3 分,HMMT 2025 拿了 89.3 分,LiveCodeBench v6(Pass@1)上則是 80.2 分。在 2026 年 4 月 25 日至 5 月 31 日期間,LeetCode 最新未公開的周賽和雙周賽中,它取得了 96.1% 的通過率。不過,這些分數來自公開測試集,社區還在驗證資料有沒有被篩選過。這類任務有一個硬前提:答案必須可驗證,反饋訊號才清晰。

基準測試VibeThinker-3B對比模型區間AIME 202694.3Gemini 3 Pro / GPT-5 high / Claude Opus 4.5HMMT 202589.3同區間LiveCodeBench v6 (Pass@1)80.2同區間LeetCode最新周賽通過率96.1%未公開對比

這些分數已經摸到了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5 的性能區間,而 VibeThinker-3B 的體積只有它們的幾十分之一。X 上有人直接貼出技術報告連結,質疑資料是否被篩選過。質疑很直接。技術報告和開源模型權重已經公開,但社區能不能復現出同樣的結果,會直接影響市場對這類小模型路線的信心。

VibeThinker-3B在AIME 2026和LeetCode這類可驗證推理任務上確實拿了高分。但一轉到開放領域問答和通用對話,輸出就明顯波動。官方也坦率地承認了這一點。這不算意外。與其說這是一個全面超越的故事,不如把它看作一次邊界測試。下一步真正值得關注的,是社區能不能復現這個結果,以及這個邊界能不能被其他小模型推得更遠。

訓練流程:如何在小參數里塞進推理能力

有人試過直接拿Qwen2.5-Coder-3B做微調。結果呢?模型在複雜推理任務上表現不穩,比如給一個多步邏輯題,它可能給出一個看似合理但實際錯誤的答案。問題出在訓練資料上,缺難度遞進和多樣性。VibeThinker-3B的解決方式走的是另一條路,一套叫Spectrum-to-Signal的後訓練流程。這個流程在監督微調階段幹了三件事:合成高品質推理資料、過濾低品質樣本、按難度遞進組織課程。但代價不低。資料篩選成本很高,一個常見的錯誤是課程順序排錯,模型在早期就過擬合到簡單樣本上。

訓練分兩個階段。第一階段先覆蓋數學、程式設計、STEM推理、一般對話和指令遵循,把基礎能力鋪開。第二階段再轉向難度更高、視野更廣闊的推理樣本,同時引入多樣性探索蒸餾,保留多個有效的解決方案路徑。這麼做的代價是資料篩選成本很高,課程順序一旦排錯,模型可能在早期就過擬合到簡單樣本上,這是訓練中需要特別注意的。模型在推理任務上的表現確實有提升,但代價是資料篩選成本很高。

多領域推理強化學習隨後介入,按數學、程式設計、STEM推理的順序逐個覆蓋。訓練採用了MGPO風格的強化學習框架,單個64K長上下文窗口被用來保留完整的長時間推理軌跡。這個窗口本身就是一個硬約束。模型在訓練中不能只輸出正確答案,還得學會如何篩選和最佳化自己的推理鏈條,這對長上下文窗口的利用效率提出了直接要求。

最後兩個階段是離線自蒸餾和Instruct RL。離線自蒸餾從數學、程式設計和STEM的RL檢查點中篩選高品質軌跡,統一蒸餾到一個學生模型中,並引入學習潛力評分來優先選擇那些正確但模型尚未很好模仿的軌跡。Instruct RL則用於提高面向使用者提示的可控性,對格式敏感且開放式的教學資料,採用基於規則的驗證器和基於評分標準的獎勵模型。

參數壓縮覆蓋假設:推理與知識的解耦

VibeThinker-3B 的技術報告裡有一個參數壓縮覆蓋假設。它想表達的是:模型在不同能力上對參數的依賴方式差別很大。可驗證推理是一種能被高度壓縮的能力,參數密集,核心是多步驟推理、約束滿足、自我糾錯和答案驗證。但這裡有一個容易被忽略的前提——任務空間結構必須足夠清晰,反饋訊號必須足夠可靠。滿足這兩個條件時,緊湊型模型也能在推理上逼近前沿水平。VibeThinker-3B 在 AIME 2026 上面對多步推導和複雜約束時,得分接近大模型;在 LeetCode 上處理邏輯鏈條較長的題目,通過率也超出預期。這些成績說明推理能力在小參數下確實可以被有效壓縮。

開放領域知識、通用對話和長尾場景理解,難度不在一個量級。這些任務依賴大規模參數去覆蓋事實、概念和世界知識,壓縮空間很小。VibeThinker-3B 在程式設計和數學上表現突出,一到通用知識就明顯偏弱,原因就在這裡。資料分佈和訓練目標當然重要,但更根本的限制是參數規模。長尾事實的覆蓋率和對話深度,在小模型上很難突破。

VentureBeat在報導中直接對比了推理和知識壓縮的實驗結果,發現推理能力在壓縮後性能下降更少,但知識覆蓋的壓縮空間小得多,因為長尾事實的覆蓋率很難在小模型上突破。這個假設一旦成立,模型設計、部署成本、高級AI功能的普及路徑都得重新算帳。但前提是,推理能力確實能被壓縮到小模型裡,而這一點在通用知識領域還缺實驗。

目前這個假設在程式設計和數學場景下已經得到初步驗證,但在通用知識領域還缺實驗。不過它提供的分析框架很具體:以後評估模型,推理能力和知識覆蓋要分開打分,而不是只看參數總量。但下一步真正值得看的,是通用知識領域能不能找到類似的壓縮方法。

對算力產業鏈的潛在影響

這個前提成立嗎?推理能力真能被壓進小模型裡。如果能,邊緣裝置的視訊記憶體和功耗約束會直接松一檔。視訊記憶體需求更低。推理速度更快。能耗也更低。成本會不會先降下來,要看這個前提能不能在更多場景裡被驗證。

算力分配的邏輯也會跟著變。但前提是,任務類型能提前分清楚,否則判斷本身就會出錯。規劃時得先看任務要的是知識還是推理,再選模型。統一大方案在邊緣裝置上會卡在視訊記憶體和功耗上,小模型反而能跑通。業界能更清楚地看到那些場景要大模型覆蓋、那些交給小模型更划算,算力就能更準地投到不同模型上。

拿VibeThinker-3B去跑通用知識問答,結果會差很多。它的突破主要卡在可驗證推理這一個維度上,在長尾場景和開放對話中,小模型精準率還差10個百分點以上,覆蓋率也不足30%。通用大模型在特定任務上效率不高,更實際的做法是,針對不同任務訓練不同規模的專用模型。但這條路能不能走通,關鍵要看訓練成本能不能降到現有方案的1/3以下,以及部署效率在邊緣場景下是否真的能提升。

行業裡對此看法並不統一。關鍵不在於誰對誰錯,而是VibeThinker-3B這個實驗證據的邊界在那。它確實證明了在特定條件下小模型可以走得很遠,但這個條件本身就很苛刻,只在可驗證推理這一個維度上有效。更現實的判斷是,推理能力能否在更多工上復現,取決於訓練成本和部署效率能不能同時最佳化。壓縮後的模型在部署時如果無法顯著降低視訊記憶體和延遲,它的實際價值就會大打折扣。

VibeThinker-3B的團隊在技術報告裡寫得很清楚。他們沒有堆參數去追通用能力,而是想驗證可驗證推理這條線在小模型上能不能跑通。在可驗證推理領域,小模型可以做到接近前沿的水平,但前提是任務邊界足夠窄,換到開放對話上可能就不一樣了。可驗證推理只是其中一條線。通用知識、長尾場景、開放對話這些能力是否也能被壓縮,目前還沒有答案。那問題來了,通用知識場景的壓縮成本會不會比推理場景高得多?行業裡更現實的判斷是,確實如此。下一步更值得看的,是壓縮後的模型在部署時是否真的能降低視訊記憶體和延遲,以及通用知識場景的壓縮成本到底有多高。 (Ai算力空間)