DeepSeek榮登Nature封面,實至名歸!今年1月,梁文鋒帶隊R1新作,開創了AI推理新範式——純粹RL就能激發LLM無限推理能力。Nature還特發一篇評論文章,對其大加讚賞。剛剛,DeepSeek-R1登上了Nature封面!今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning論文發佈,如今成功登上全球頂刊封面。通訊作者梁文鋒帶隊,用RL為大模型推理能力開闢了全新路徑。論文地址:https://www.nature.com/articles/s41586-025-09422-z在封面推薦中,Nature毫不吝嗇地讚揚了DeepSeek-R1的成就。開源之後,R1在Hugging Face成為最受歡迎的模型,下載量破1090萬次。關鍵是,它是全球首個經過同行評審的主流大模型。值得一的是,補充材料首次公開了R1訓練成本——294000美元,數字低到驚人。即便是加上約600萬美元的基礎模型成本,也遠低於OpenAI、Google訓練AI的成本。從一篇arXiv論文到Nature封面,DeepSeek團隊再次用實力為AI推理的未來鋪路。R1被認為是首個經歷同行評審過程的主流LLM。審稿人Lewis Tunstall表示:這是一個非常值得歡迎的先例。若不公開分享大部分研發過程,我們將難以評估這些系統是否存在風險。針對同行評審意見,DeepSeek減少了擬人化描述,並增加了技術細節說明,包括模型訓練資料類型和安全性能。審稿人Huan Sun表示:通過嚴格同行評審過程,有助於驗證模型的有效性和實用性,其他公司也應效仿。DeepSeek-R1-Zero誕生研究團隊的出發點大膽而純粹:徹底拋開對人類推理軌跡的依賴。人類定義的推理模式,可能反而是一種束縛。他們選擇了一個強大的基礎模型DeepSeek-V3 Base,跳過了傳統的SFT階段。取而代之的,是一個極其簡潔的強化學習框架,只告訴模型兩件事:1. 任務格式:回答必須包含兩部分,一個是被<think>標籤包裹的「思考過程」,另一個是被<answer>標籤包裹的「最終答案」。2. 獎勵訊號:根據最終答案是否正確來給予獎勵,不管採用什麼樣的思考方法。在沒有解題步驟的對錯評判,沒有思維方式的引導下,DeepSeek-R1-Zero開始了它的「野蠻生長」。在整個訓練過程中,R1-Zero的推理能力發生了質的飛躍。以AIME 2024為例,它的平均解題精準率(pass@1)從最初的15.6%,一路狂飆至77.9%。如果再配合「自洽解碼」技術,精準率更是高達86.7%——這一成績遠超AIME競賽中所有人類選手的平均水平。AI「頓悟時刻」更令人著迷的,是它在能力提升過程中展現出的自我進化行為。「思考時間」自主增加隨著訓練的進行,模型在<think>標籤內生成的文字長度穩步增加。它自發地學會了用更長的「思維鏈」來探索和最佳化解題策略,有時甚至會生成成百上千個token來反覆推敲一個問題。高級推理策略的湧現模型不再是線性地一步步解題,而是開始展現出「自我反思」和「系統性探索替代解法」等高級策略。它會驗證自己的中間步驟,甚至會主動探索「如果我用另一種方法會怎麼樣?」一個有趣「頓悟時刻」在訓練的某個階段,研究人員觀察到了一個清晰的「頓悟時刻」(Aha Moment)。也就是,模型在反思過程中,使用「wait」(等等)這個詞的頻率突然急劇增加。這一時刻,標誌著DeepSeek-R1-Zero在推理模式上發生了明顯轉變,清晰地揭示了它的自我進化過程。而這種進化,也完美詮釋了強化學習的魅力:不必教它如何解題,只需提供正確的激勵,它就能自主地發展出比人類教的更高級的策略。DeepSeek-R1之路儘管DeepSeek-R1-Zero展現了神級的推理能力,但由於其訓練完全以推理為導向,它存在可讀性差、偶爾會在中英文之間混亂切換的問題,並且在寫作、開放域問答等通用能力上表現平平。為瞭解決R1-Zero的問題,並讓其強大的推理能力能被更廣泛地應用,研究團隊設計了一套精密的多階段訓練流程,並啟動了第二階段的「精煉」計畫:1. 冷啟動(Cold Start):首先,用數千條高品質的、符合人類對話習慣的資料對模型進行初步微調,教它「好好說話」。2. 第一輪強化學習(RL):再次應用強化學習,但這次的目標不僅是提升推理,也包括保持語言的一致性和對話的流暢性。3. 大規模監督微調(SFT):團隊將推理資料與海量的非推理資料(如寫作、通用問答、程式碼工程)混合在一起,進行大規模的監督微調。這極大地擴展了模型的知識面和通用能力。4. 第二輪強化學習(RL):最後,再進行一輪全面的強化學習,利用一個更複雜的獎勵模型,進一步增強模型的有用性、無害性,並使其行為與人類偏好對齊。經過多輪煉丹,DeepSeek-R1不僅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和使用者偏好的基準上,性能提升了17%-25%,而且還在數學、程式設計等高難度推理任務上保持了頂尖水準。揭秘DeepSeek-R1「煉丹爐」接下來,就讓我們深入這個「煉丹爐」的內部,一探究竟。GRPO演算法在AI訓練的賽道上,強化學習演算法PPO(近端策略最佳化)長期以來都是大語言模型訓練的「標配賽車」。它雖然強大,但也以資源消耗巨大和實現複雜而著稱。DeepSeek團隊選擇了一條更聰明的路,他們採用了GRPO(組相對策略最佳化)演算法作為核心驅動引擎。PPO就像一位極其謹慎的教練,它在每次訓練更新時,都會嚴格限制新策略與舊策略的偏離程度,以防模型「跑偏」導致訓練崩潰。這種謹慎是有代價的,它需要大量的計算來維持穩定。而GRPO則像一位更高效、更相信「集體智慧」的教練。它的核心思想是:在每次訓練時,讓模型針對同一個問題,生成一組(比如16個)不同的答案。然後,它不只是簡單地獎勵最好的那個,而是根據這一組答案的「相對好壞」,來整體最佳化模型。具體來說,它會計算出每個答案相對於這一組答案平均水平的「優勢」(Advantage),優勢大的(即表現更好的)答案會得到更大的激勵權重,而表現差的則會被抑制。這種「組內競爭、擇優而學」的機制,簡化了PPO複雜的約束過程,不僅顯著降低了資源消耗,還被證明在實踐中同樣穩定高效。獎勵設計強化學習的本質,就是通過獎勵(Reward)來塑造模型的行為。它決定了模型將朝著那個方向進化。為此,DeepSeek團隊設計了一套雙軌制的獎勵系統。1. 基於規則的獎勵對於推理任務(數學、程式設計、邏輯),團隊採用了一套極其嚴格的基於規則的獎勵系統。精準率獎勵:最終答案對不對?對於數學題,答案必須和標準答案完全一致;對於程式設計題,程式碼必須通過所有預設的測試用例。格式獎勵:思考過程是否符合規範?所有的思考過程都必須封裝在<think>和</think>標籤內。這裡,有一個關鍵的決定:在推理任務上,完全不使用基於神經網路的獎勵模型。因為團隊發現,AI在長時間、大規模的強化學習中,會找到獎勵模型本身的漏洞並加以利用,即所謂的「獎勵投機(Reward Hacking)」。2. 基於模型的獎勵然而,世界並非非黑即白。對於通用任務比如寫作、對話,大多隻有好壞之分。於是,DeepSeek團隊引入了基於模型的獎勵,從而讓模型更符合人類的偏好。有用性獎勵模型:專門負責評判模型的回答對使用者是否有用、切題。它通過比較大量的「好答案」與「壞答案」對(由DeepSeek-V3生成並篩選)來學習人類的偏好。有趣的是,它只評估最終的摘要部分,而不去幹涉底層的推理過程,給予模型在思考上的充分自由。安全獎勵模型:負責檢查模型的全部輸出,包括思考過程,以識別和懲罰任何潛在的有害、偏見或危險內容。如此一來,模型在保持強大推理能力的同時,也學會了如何生成更有用、更安全、更符合人類習慣的內容。訓練細節DeepSeek的訓練並非一蹴而就,而是分為多個精心設計的階段,每個階段都有不同的側重點和巧妙的參數調整。最開始的訓練完全聚焦於數學、程式設計等推理任務,僅使用基於規則的獎勵。一個有趣的現象發生在訓練進行到第8,200步時:研究人員將模型處理的最大文字長度從32,768個Token猛增到65,536個Token。這一改變帶來了立竿見影的效果,模型的性能和回答長度都出現了「大幅躍升」。其他參數設定如下:學習率:3×10⁻⁶KL散度係數:0.001GRPO裁剪比率ϵ:10推理採樣溫度:1每個訓練步包含32個獨立問題,每步的批大小為512。每400步,用最新的策略模型替換參考模型。第一強化學習階段在這一階段,訓練資料變得更加多樣化。團隊遇到了一個意想不到的挑戰:模型的「思維鏈」(<think>標籤內的內容)中頻繁出現中英夾雜的「語言混合」現象。雖然這不一定影響最終答案的正確性,但極大地影響了可讀性。為瞭解決這個問題,他們創造性地引入了一個「語言一致性獎勵」:如果模型在處理中文問題時,思維鏈中中文詞彙的比例越高,獲得的獎勵就越多。儘管實驗表明,強行「矯正」語言會導致模型性能微乎其微的下降,但為了輸出結果更符合人類閱讀習慣,這個犧牲是值得的。第二強化學習階段在這一階段,研究人員結合了獎勵訊號和多樣化的提示詞分佈來訓練模型。推理資料使用基於規則的獎勵,通用資料則啟用基於模型的獎勵。獎勵可以公式化為:其中第二階段保留了第一階段的大部分參數,但將溫度降至0.7,以防因為係數過高造導致生成內容不連貫。此外,這裡還有一個關鍵操作:基於模型的獎勵(有用性和安全性)僅在最後400個訓練步中才被引入,從而避免獎勵投機的產生。挑戰與未來DeepSeek-R1的誕生,為AI發展帶來了深刻的啟示,也伴隨著新的挑戰。能力侷限在結構化輸出和工具使用(如呼叫計算器、搜尋引擎)方面,目前的DeepSeek-R1尚有欠缺。它對提示詞非常敏感,不適合複雜的少樣本提示,在零樣本直接提問時效果最佳。此外,由於強化學習在耗時長的軟體工程任務上效率不高,R1在該領域的提升有限。獎勵投機純強化學習的成功,完全依賴於可靠的獎勵訊號。在數學、程式設計這類有明確對錯答案的領域,這很容易實現。但對於像「寫一首優美的詩」這樣主觀的任務,則很難設計完美的獎勵模型。如果獎勵訊號本身有漏洞,策略模型就會像一個聰明的學生鑽考試規則的空子一樣,「投機取巧」、騙取高分,而不是真正提升能力。年初,DeepSeek-R1發佈後,OpenAI感覺不可思議,指責DeepSeek「可能使用了ChatGPT的輸出來訓練R1」。在與審稿人的交流中,DeepSeek表示,R1並非通過複製OpenAI模型生成的推理示例來學習。不過,與大多數其他大語言模型一樣,R1的基礎模型是在網路上訓練的,因此它會吸收網際網路上已有的AI生成的內容。俄亥俄州立大學AI研究員Huan Sun表示,這一解釋「與我們在任何出版物中看到的一樣令人信服」。Nature審稿人、Hugging Face機器學習工程師Lewis Tunstall補充說,其他實驗室的複製嘗試表明,DeepSeek推理方法已經足夠好,不需要這樣做。他說:「我認為現在的證據相當明確,僅使用強化學習就可以獲得非常高的性能。」Lewis Tunstall說,其他研究人員現在正試圖應用建立R1的方法來改進現有大語言模型的類似推理能力,並將其擴展到數學和編碼以外的領域。他補充說,通過這種方式,R1「開啟了一場革命」。 (新智元)