【DeepSeek】讀完DeepSeek-R1相關6篇論文,我也湧現了“頓悟”時刻

導讀

本文包括以下內容:

  1. DeepSeek-R1有那些創新之舉;
  2. 為什麼是強化學習?
  3. 獎勵函數
  4. 思維鏈(CoT)
  5. 知識蒸餾
  6. 目前最有誠意的開源
  7. R1對算力的影響
  8. 提示詞工程,我們如何用好R1和V3
  9. R1是否抄襲、蒸餾OpenAI
  10. 我的結論

春節期間,DeepSeek-R1的橫空出世,打破了OpenAI在全球推理模型的壟斷格局,並在國內外火了一把,火勢也從美國人工智慧領域迅速蔓延到華爾街資本,可謂風光無兩,最強競對的OpenAI和Anthropic也難得站在同一戰線,指責打壓DeepSeek。華爾街資本對目前AI泡沫和算力過剩也憂心忡忡,一度把對輝達股票干崩了17%,蒸發超過4兆人民幣。

但這依然擋不住全球人民對DeepSeek的熱情,不僅在美國力壓ChatGPT登頂App Store,甚至一度拿下全球超過150個國家地區的App下載第一名,持續屠榜。

在ToB企業界也都爭相第一時間上線DeepSeek-R1服務API,包括全球最大的雲服務商亞馬遜、微軟,晶片巨頭輝達、AMD,國內的阿里雲、騰訊雲、華為雲、百度雲等等。

第三方應用平台也紛紛上線,Cursor、Perplexity,甚至國內的AI搜尋-秘塔也在春節期間,加班加點上線R1推理服務。

R1引領的這一波大模型浪潮,以迅雷不及掩耳之勢覆蓋了全球社會,為了探尋DeepSeek-R1為何會有如此巨大的影響力,我也嘗試去通讀DeepSeek相關的論文(所有參考論文在末尾),並總結出一些個人見解。

話不多說,馬上開始。

1、R1有那些創新之舉?

DeepSeek-R1一經發佈獲得了整個人工智慧界專業人士的肯定,而且不是一兩個人的肯定,是整個業界的肯定,這其中絕非偶然,本著第一性原理,我就找了他們發表的R1和V3論文來一探究竟。

1、《DeepSeek-R1:通過強化學習激發大模型的推理能力》

2、《DeepSeek-V3 技術報告》

R1和V3帶來了幾大核心貢獻:

1、R1指明了道路,大模型的後訓練階段,靠純強化學習(RL)是可行的,無需再進行高成本的監督微調(SFT)。

2、大模型通過強化學習達到一定臨界值時,會自發湧現出“頓悟時刻”,自我驗證、反思、生成長鏈推理(COT)等行為。

3、成功把R1的推理能力蒸餾到更小的模型中,以適應不同場景需求。如更小的模型可以在電腦、手機上部署運行也有很好的性能。

4、開源R1、V3模型,提供了重要的學術和工程價值,極大推動了人工智慧社區的全速發展。

5、DeepSeek-V3採用了新型架構,極大降低了訓練成本,僅為557.6萬美元,只有GPT4-訓練成本的十分之一不到,但可以媲美其性能。

2、為什麼是強化學習(RL)?

自從ChatGPT發佈2年以來,大模型預訓練(Pre-training)的Scaling Law彷彿已經見頂,整個人類文明的歷史資料也已經被消耗殆盡,如今每年全球資料增量相對於過去幾千年的人類資料,幾乎可以忽略不計,而靠天量資料堆起來幾千億參數的大模型也一直停滯不前,OpenAI的GPT5也遲遲不見蹤影,所以業內很多公司,開始轉戰後訓練階段(Post-training)來提升大模型的能力。

傳統的大模型後訓練階段,嚴重依賴大量的監督微調(SFT)來提升性能,而DeepSeek-R1另闢蹊徑,採用純強化學習(RL)也能夠顯著提升模型性能。

監督微調(SFT):利用大量人工標註好的資料,讓預訓練大模型進行學習,以保證模型在特定任務上能夠更準確地給出答案。

一個簡單例子:預訓練大模型就像一個普通本科大學生,我們使用標註好的某個行業的專用術語,讓大學生學習之後也具備特定行業的能力。

強化學習(RL):系統會根據大模型的每次行動,給予一定的獎勵或懲罰,讓模型通過學習這些反饋來調整自己的策略,完全自動化執行,無需人工干預。

還是回到剛剛大學生例子:不給定標註好的行業資料,直接把大學生丟到行業裡去打磨,做好了獎勵,做差了就懲罰,久而久之,該大學生就具備特定行業知識。

這裡還經常涉及另外一個概念,人類反饋強化學習(RLHF):人類根據自身的偏好標準,對大模型的每次行動給與獎懲,以生成更符合人類期望的內容。

那強化學習(RL)有那些優勢以致於業內都孜孜以求?

1、RL無需依賴人工標註資料,極大減少了模型訓練成本,這讓估值千億專門做資料標註的公司Scale CEO崩不住,跳出來呼籲要對DeepSeek進行晶片管制。

2、RL更適合處理開放性和探索性任務,通過獎懲機制,模型可以嘗試不同的策略,最終收斂到獎勵更高的輸出模式,從而生成更創新或更符合場景需求的回答。

3、RL最佳化長期收益和多步決策,能夠權衡即時獎勵與長期收益(如避免短視行為),更適合策略性規劃的任務。

4、RL給出的答案甚至可以超越人類當前的水平,有時候人類已經無法評估AI的輸出是好是壞,監督微調反而成為阻礙。

最經典案例就是當年《李世石-AlphaGO人機大戰》AlphaGO下出的第37手,是人類前所未見的手法,更是顛覆了直播講解中各大職業高手的三觀,驚呼“這是什麼鬼,沒擺錯嗎?”,直到棋局結束AlphaGO獲勝,人類才恍然大悟,而當時根本無法判斷AlphaGO第37步“神之一手”,人類棋譜已經不夠用,AlphaGO開始自我博弈強化學習,這也是AlphaGO使用了強化學習的成果。

3、獎勵函數

凡事都有兩面性,雖然強化學習有諸多優勢,但依然存在很多挑戰和策略權衡。

為什麼遲遲沒有人在大模型上使用強化學習,是因為不同於下圍棋有比較單一固定的場景,也有比較明確的判斷標準來設計獎勵函數,用以衡量每一步棋的好壞程度。

而大模型面對的是更開放的通用場景,很難設計出一套通用的獎勵函數來適應各個任務,很可能在訓練過程中導致模型陷入局部最優解,或結果收斂很緩慢。

而獎勵函數的設計,在訓練過程中引導模型學習和最佳化又起著至關重要的作用,不合理的獎勵函數可能導致模型“鑽漏洞”(如生成無意義但高獎勵的內容)。

DeepSeek-R1模型訓練過程中,設計了3套獎勵函數讓模型自我進化,來發展推理能力的潛力。獎勵函數分別是:精準性獎勵、格式獎勵、語言一致性獎勵。

1、精準性獎勵,這種獎勵方式在推理任務中為模型提供了明確的目標導向,促使模型努力給出正確答案,是提升模型推理精準性的重要又基礎的激勵因素。

2、格式獎勵:該獎勵函數要求模型將思考過程置於‘<think>’和‘</think>’標籤之間。就是我們在看到DeepSeek輸出答案之前,模型的自言自語對話。

通過這種方式,規範了模型的輸出格式,使推理過程更具結構性和可讀性,有助於後續對模型推理思路的分析與理解,也在一定程度上引導模型按照特定的邏輯流程進行思考和解答問題。

3、語言一致性獎勵:在 DeepSeek - R1 的推理導向強化學習階段引入。由於在 RL 訓練中,當提示涉及多種語言時,思維鏈(CoT)常出現語言混合問題。為解決這一問題,語言一致性獎勵通過計算 CoT 中目標語言單詞的比例來衡量語言一致性程度,提高推理過程的可讀性,使模型輸出更易於理解和接受。

4、思維鏈(CoT)

早在2022年的論文中就有效證明,關於思維鏈(CoT)對提升大模型的推理能力。

DeepSeek-R1的研究發現,通過強化學習之後,模型逐漸湧現出“頓悟”的能力,並能夠自我驗證、反思生成思維鏈(CoT)。在解決複雜推理問題時,模型並非簡單地給出答案,而是會對自身的推理過程和結果進行檢查。

例如在處理數學問題時,它可能會重新審視計算步驟,或者嘗試用不同的方法來驗證答案的正確性,在遇到難題時,它會回顧自己的思考過程,分析那些地方可能存在問題,進而調整推理方向。隨著強化學習步數的增加,逐漸學會生成更長、更複雜的思維鏈(CoT)。

這一系列的行為不是預先程式設計設定的,而是在與強化學習環境的互動中模型自發產生的。它使得模型能夠不斷最佳化自己的推理策略,更好地應對複雜問題,進而提升模型的推理效率和精準性。

5、知識蒸餾

關於知識蒸餾在大模型的運用,諾貝爾物理學獎(2024年)得主辛頓早在2015年的時候就發表了論文贅述,通過知識蒸餾,可以將複雜模型(教師模型)知識轉移到小模型(學生模型)上效果顯著,能夠迅速提升小模型的性能。

DeepSeek-R1研究發現,通過強化學習獲得的複雜推理能力(如數學解題、程式碼生成),通過監督微調(SFT)可以遷移到更小的密集模型(如Qwen、Llama系列)中,以低成本提升小模型的性能。

蒸餾過程

1、基於DeepSeek-R1(6710億參數模型)生成80萬條高品質訓練樣本(含推理和非推理任務);

2、直接對基礎小模型(如Qwen-140億參數模型,Qwen-320億參數)進行SFT學習,無需額外強化學習;

3、把蒸餾後的小模型與原來的小模型進行性能對比。

蒸餾的實驗結果

  • 小模型超越大模型:蒸餾後的14B模型顯著超過原QwQ-32B-Preview。
  • 接近閉源模型:蒸餾後的32B/70B模型在數學(MATH-500 Pass@1 94.3%)、程式碼(Codeforces評分1691)等任務中接近OpenAI的o1-mini。
  • 經濟性優勢:蒸餾模型訓練成本遠低於直接在小模型上應用RL(例如Qwen-32B經RL訓練後僅達47% Pass@1,而蒸餾後達72.6%)。

6、目前最有誠意的開源

大模型的思維鏈推理能力(CoT)一直是閉源模型的護城河,在此之前僅有OpenAI一家做成產品,並定價高達200美元每月的費用,隨著DeepSeek-R1的開源,一舉打破了OpenAI的壟斷,讓各大中小企業,甚至個人使用者都可以部署使用。

而且DeepSeek的開源比以往的都要開放,大模型的權重直接公佈,並且是以最寬鬆的MIT許可,為全球人工智慧開發者提供了一個高性能、低成本的開源模型,全球的AI從業者可以研究、驗證和討論,有望激發一波創新浪潮。

DeepSeek與LLaMA開源模型權重對比

DeepSeek與LLaMA開源模型訓練資料集對比

隨著越來越多人加入到DeepSeek開放原始碼專案,直接挑戰了閉源模型在人工智慧領域的主導地位,開源模型同樣可以達到超越閉源模型的性能,為開源模型的發展贏得了更多的關注和認可。

各行各業也都可以參與其中,推動人工智慧技術的不斷迭代升級,有助於形成一個更加完整、多元化的人工智慧生態,影響力不亞於當年瓦特發明蒸汽機、特斯拉發明交流電。

此時,繼雲端運算之後,又刷新了我對李廠長的認知。

7、R1對算力的影響

DeepSeek-R1的出現,很多人擔心算力過剩的影響,AI泡沫要爆破,但可能恰恰相反,DeepSeek-R1的突破,本質上降低了大模型的邊際成本,這促使過去因成本過高而被抑制的需求得以釋放,進而催生更多應用場景,形成"廉價算力→新需求→更大規模部署"的正反饋循環。

傑文斯悖論告訴我們,當某種資源的使用效率提升時,人們對該資源的總消耗量反而可能會增加,而不是減少。

歷史處理程序也驗證其有效性:

1、瓦特蒸汽機的出現,熱效率提高,對煤炭的總消耗量不但沒有減少,反而暴增了10倍。

2、LED 燈相比傳統白熾燈更加節能,LED照明普及後,全球光通量消耗量反而增長3倍。

3、汽車發動機技術不斷進步,燃油效率大幅提高,但汽車的總體燃油消耗量並未減少。

8、提示詞工程,如何用好R1和V3?

高級的AI往往只需要最簡單的提示詞,和以往不同,在使用R1推理模型時,我們不需要加入各種技巧,直接開門見山提問:

背景資訊+目標任務

R1就可以很好的通過推理能力來識別人類意圖,然後一步步拆解反思、驗證,加入過多提示詞和示例,反而限制了模型的能力。

9、R1是否抄襲、蒸餾OpenAI?

樹大招風,DeepSeek一夜之間席捲全球人工智慧圈,必定引來不少非議。

1、首當其衝就是OpenAI跳出來指控DeepSeek通過“模型蒸餾”技術使用了OpenAI的專有模型(如GPT-4)來訓練自己的開源AI產品,違反了OpenAI的服務條款。

2、接著就是微軟和美國政府也正在調查DeepSeek是否通過API非法獲取OpenAI的資料。

3、Anthropic CEO Dario 也發表長文,暗示美國對華晶片出口管制政策的必要性和緊迫性,以防威脅到美國在全球人工智慧領域的領導地位。

4、做資料標註的ScaleAI公司CEO Alexandr 也公開場合指責DeepSeek,稱其“秘密囤積了約5萬塊輝達H100晶片”,並暗示可能違反了美國對華出口管制政策。

以上的種種說辭,都有其背後的動機,兼聽則明,偏信則暗,關於DeepSeek是否蒸餾、侵權一說,我更相信證據,於是我也找了幾篇相關論文和資料進行研究,也得出了些許讓自己信服的結論。

O1推理模型能輕而易舉蒸餾

一篇2024年11月發表的論文《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》(O1 複製之旅 —— 第 2 部分:通過簡單蒸餾超越 O1-preview,重大進步還是慘痛教訓?)

論文揭示了,通過OpenAI推理模型O1的API,可以方便蒸餾出複雜問題的長思維鏈推理能力(CoT),僅用數萬條樣本資料就可以把O1的推理知識,蒸餾遷移到Qwen72B小模型,並且性能超越O1-proview。

同時論文也呼籲,應注重基礎技術創新和研究人員能力培養,以推動 AI 領域的可持續發展 ,知識蒸餾雖能帶來短期性能提升,但存在性能上限(無法超越教師模型),阻礙核心技術創新,過度蒸餾更會導致學生模型能力同質化。

DeepSeek-V3 有蒸餾GPT4o的可疑痕跡

另一篇是2025年1月發表的論文《Distillation Quantification for Large Language Models》(針對大模型的蒸餾量化)。

論文使用了兩種量化指標:即響應相似性評估 (RSE) 和身份一致性評估 (ICE),來評估目標模型是否蒸餾了基線模型的知識。

基線模型是GPT-4o,目標模型有19個,分別有豆包Pro-32k、Llama3.1、Claude3.5-Sonnet、Gemini、DeepSeek-V3、Qwen、智譜GLM4-Plus等。

測試方法:通過使用三個廣泛使用的資料集,來對目標模型和基線模型進行輸入,然後把目標模型和基線模型的結果進行對比。

實驗結果表明:

1、GLM-4-Plus、Qwen-Max 和 DeepSeek-V3 是疑似反應數量最多的大模型,表明蒸餾程度更高。

2、Claude-3.5-Sonnet 和 Doubao-Pro-32k 幾乎沒有表現出可疑的反應,表明這些 大模型的蒸餾可能性很低。

同時論文也表明,在訓練資料集可能會包含了測試資料或基準資料,導致資料污染,會損壞評估的可信度,這給本次量化大模型的蒸餾實驗也帶來了更大的難度。

OpenR1

人工智慧領域最大的線上社區Hugging Face發起一項名為“OpenR1”的開放原始碼專案,由於R1 開源了模型,不過該模型在資料收集、模型訓練、縮放定律方面存在疑問,且未開源訓練資料和程式碼,這促使了 Open - R1 項目的啟動,整個項目分為3個計畫步驟。要驗證的問題包括:

1、 DeepSeek是如何收集推理資料的。

2、 DeepSeek 並沒有發佈任何訓練程式碼,因此不知道最佳的超參數設定,也不清楚在不同模型規模之間有那些差異。

3、 在訓練推理模型時,計算與資料之間有那些權衡取捨。

OpenR1項目旨在重建 DeepSeek - R1 的資料和訓練流程,驗證其相關成果,推動開源推理模型發展。並揭示R1強化學習提升推理能力的原理。

10、我的結論

在人工智慧領域,基於公開資料的知識蒸餾技術已經是業內普遍採用的技術範式。自ChatGPT引發大模型技術革命以來,行業已形成雙向知識遷移的常態化發展路徑,大模型訓練資料可能存在交叉影響已是客觀技術現實。

另外,OpenR1開源社區已匯聚全球頂尖開發者的技術監督,這種開放架構確保了:1)任何程式碼層面的技術借鑑都將受到嚴格審計;2)模型輸出的合規性經受著全球開發者的即時檢驗。

從技術倫理層面而言,開源模式本身就是對智慧財產權爭議最有力的防火牆。

這種全民參與的透明開發機制,使得任何可能的合規性問題都會在萌芽階段被技術社區及時發現,其監督效力遠超你我的審查機制。

參考文獻

  1. 《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》(思維鏈提示詞可激發大語言模型的推理能力)https://arxiv.org/pdf/2201.11903
  2. 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》(DeepSeek-R1:通過強化學習激發大模型的推理能力)https://arxiv.org/html/2501.12948
  3. 《DeepSeek-V3 Technical Report》(DeepSeek-V3 技術報告)https://arxiv.org/html/2412.19437
  4. 《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》(O1 複製之旅 —— 第 2 部分:通過簡單蒸餾超越 O1-preview,重大進步還是慘痛教訓?)https://arxiv.org/html/2411.16489
  5. 《Distillation Quantification for Large Language Models》(針對大模型的蒸餾量化)https://arxiv.org/html/2501.12619
  6. 《Distilling the Knowledge in a Neural Network》(神經網路的知識蒸餾)https://ar5iv.labs.arxiv.org/html/1503.02531
  7. OpenR1項目--https://huggingface.co/blog/open-r1
  8. R1開源地址--https://github.com/deepseek-ai/DeepSeek-R1/tree/main (rex)