虛假的OpenAI在被打假,真正的“OpenAI”在開源。
“爆打奸商OpenAI。”
“DeepSeek才是真正的‘OpenAI’!”
還有人做了一幅賽博對聯:“上聯:真本事酒香不怕巷子深。下聯:不公關真金不怕火來煉。橫批:DeepSeek。”
這是昨晚推理模型DeepSeek R1發佈之後的評論區,清一色為DeepSeek的叫好聲。而與此形成對比的是,大洋彼岸的OpenAI,正在遭遇o3的打假風波。有人爆料稱,o3之所以在數學基準FrontierMath上取得驚人的成績,是因為OpenAI資助了FrontierMath,並且可以訪問大部分資料集。
OpenAI的推理模型o1與o3都是閉源模型。在其網站上有關o1模型的技術原理中,有資訊量的其實只有短短的一句話:o1模型通過大規模強化學習進行訓練,以使用思維鏈(chain-of-thought)進行推理。而更多的技術細節則隻字未提。
而DeepSeek,則直接開源了一篇20多頁的詳細技術報告。
輝達AI科學家Jim Fan稱讚DeepSeek是“真正開放的前沿研究,賦能所有人”,並直言Deepseek才是保持初心的“OpenAI”。
DeepSeek R1發佈的論文中提到,提升推理能力的一種有效辦法是“後訓練”(post-training),主要包括監督微調(Supervised Fine-Tuning, SFT)和強化學習(Reinforcement Learning, RL)兩個方向。
SFT的使用是ChatGPT當初成功的關鍵,而今天的R1 Zero完全用RL取代了SFT。可以說,此次DeepSeek R1發佈最大的亮點,就是“沒有監督微調下的直接強化學習”。
此次DeepSeek開源了三個系列的模型,分別是DeepSeek-R1-Zero、DeepSeek-R1推理大模型和六個稠密小模型。其中,DeepSeek-R1-Zero直接將RL應用於基礎模型而無需任何SFT資料;DeepSeek-R1從使用數千個長思維鏈(CoT)示例微調的檢查點開始應用RL;六個稠密小模型則基於Qwen和Llama,從DeepSeek-R1蒸餾得到。
DeepSeek團隊做的第一件事,就是嘗試“零監督”直接對基礎模型進行大規模強化學習訓練(即純RL),得到了 DeepSeek-R1-Zero。
具體而言,他們使用DeepSeek-V3-Base作為基礎模型,並採用GRPO作為RL框架來提高模型在推理方面的性能。它不再引入與模型同等規模的Critic網路,而是把一次性採樣到的一組輸出互相做對比,就像讓模型在同一個問題上輸出多個答案,比較每個答案得分的高低,得分高的就學“該怎麼寫”,得分低的則學“不要那樣寫”。
接著,DeepSeek團隊設計了一組基於規則的獎勵系統(包含精準性獎勵和格式獎勵兩種模型),通過不斷告訴模型“什麼是好”的方式,反覆訓練模型。
經過數千次RL步驟後,DeepSeek-R1-Zero的推理性能穩步提升:不僅大幅提高了在數學、程式設計等推理任務上的精準率,甚至學會了很多驚喜的“自發行為”,比如反思自己的答案,進行多次思考迭代等,甚至出現了“頓悟時刻(aha moment)”。頓悟時刻不僅證明了模型推理能力的不斷增長,也是對強化學習所能產生複雜結果的絕佳說明。
報告顯示,DeepSeek-R1-Zero在AIME 2024上的pass@1分數從15.6%提高到了71.0%,通過多數投票,分數進一步提高到86.7%,與OpenAI-o1-0912的性能相匹配。
然而,DeepSeek的團隊發現,DeepSeek-R1-Zero的這種“自發行為”有時也帶來缺點,比如文字可讀性差、語言混亂等。為瞭解決這一問題,他們設計了一個四階段的流程,讓模型從“能思考”到“會表達”,DeepSeek-R1也就此誕生。
具體而言,DeepSeek團隊先收集了少量的高品質長鏈式推理資料(Long Chain-of-Thought),讓模型在上面做一個初步的監督微調(SFT)作為冷啟動;接著使用類似DeepSeek-R1-Zero的強化學習方法訓練模型;得到通過RL訓練後模型產出的較大規模推理資料和通用SFT資料後,通過“拒絕採樣(Rejection Sampling)”的方法訓練和微調DeepSeek-V3這一基座模型;最後再整體進行一次“全場景強化學習(Reinforcement Learning for all Scenarios)”,最終得到了DeepSeek R1。
冷啟動階段的引入,幫助模型跳過了純RL初期可能的混亂狀態;RL幫助模型提升了在推理任務上的表現;拒絕採樣+監督微調的方法讓模型保留了正確或可讀性高的回答,最後一輪全場景的RL則讓模型在所有場景(比如聊天友好度、禮貌性、無害性、安全性等)中儘量滿足人類偏好。
通過這種方法訓練出的DeepSeek-R1達到了世界頂尖模型的性能,從圖中可以看出,DeepSeek-R1在AIME2024上獲得了79.8%的成績,略高於OpenAI-o1-1217;在MATH-500上,它取得了97.3%的驚人成績,表現與OpenAI-o1-1217相當,並明顯優於其他模型;在編碼相關的任務中,DeepSeek-R1在程式碼競賽任務中表現出專家水平,在Codeforces上獲得了2029 Elo評級,競賽中的表現優於96.3%的人類參與者。對於工程相關的任務,DeepSeek-R1的表現略優於OpenAI-o1-1217。
不僅開源了DeepSeeK-R1,DeepSeek還直接開源了從超小模型1.5B,到70B的各種型號模型。這些小模型是DeepSeek團隊訓練好的DeepSeek-R1基礎上,用Qwen和Llama等開源模型“蒸餾”的——先使用DeepSeek-R1 作為教師模型生成800K資料,再用這些資料對幾個小模型進行微調。相當於把老師的推理思路“蒸餾”到了學生身上。
小模型的性能同樣令人驚喜:DeepSeek-R1-Distill-Qwen-1.5B在數學基準測試上優於GPT-4和Claude-3.5-Sonnet,在AIME上得分為28.9%,在MATH上為83.9%;其32B和70B的模型在多項能力上更是實現了對標OpenAI o1-mini的效果。
綜上,DeepSeek-R1展現了一種非常清晰的模型訓練思路——資料即模型。DeepSeek-R1-Zero很可能只是用來給DeepSeek-R1生成推理資料的,而“資料的調配”是DeepSeek-R1訓練過程中平衡不同任務策略的基石。此外,DeepSeek-R1的超強性能也證明了模型的能力仍未見底,而特定的資料是進一步挖掘模型能力的關鍵。
除了“資料即模型”的訓練思路,DeepSeek-R1另一個突出的價值或許在於,它證明了“基於一個很強的模型、用最簡單的Rule-based獎勵來做RL、經過大量訓練,也能達到最強推理模型的效果”。
一個系統越簡潔就意味著實現難度越大。正如AlphaGo早期也是走類似SFT的“監督學習(Supervised Learning,SL)”的路線,後來經歷了三個版本的迭代後,才推出了無需人類棋譜、可以自我對弈訓練的AlphaGO Zero和Alpha Zero,轉向了完全的強化學習(RL)。
Rule-based(基於預定義規則的決策方法)是大模型在做可證實任務(verifiable task)中最直觀、也是最可靠的獎勵方式,但同時也是最難的——正是因為規則簡潔,所以模型在外界找不到足夠多的獎勵訊號,難以通過試錯找到有效的策略。
因此,在復現OpenAI o1的道路上,眾多模型廠商一直在艱難探索什麼樣的獎勵方式才是更適合強化學習的——
早期過程獎勵模型(PRM)是各大廠商的首選,但是由於其依賴高品質的人類偏好資料、資料收集和標註的成本極高,且訓練不穩定、容易發生Reward Hacking(獎勵破解,指智能體通過利用獎勵函數的設計缺陷,找到一種非預期的方式最大化獎勵,而不是真正完成目標任務)現象,後來被很多團隊棄用;
後來人們又探索出了基於結果的獎勵模型(ORM),比如OpenAI在開發InstructGPT時將ORM用於評估生成文字的質量,Qwen、Eurus、Moss模型在RLHF階段也會採用ORM來確保生成的內容的流暢性和安全性。但是ORM難以捕捉複雜的、隱式的獎勵訊號,而且在某些主觀性強的任務下可能也無法精準反映真實目標。
此外,像逆強化學習獎勵模型(Inverse Reinforcement Learning, IRL)、分層獎勵模型(Hierarchical Reward Model)等其他的獎勵模型也各有各的問題。
在訓練DeepSeek-R1系列模型的的過程中,DeepSeek同樣遇到了此類問題。比如他們在嘗試過程獎勵模型(PRM)的時候,發現雖然模型在重新排序模型生成的前N個回答或協助引導搜尋方面表現出一定的能力,但在大規模強化學習過程中的優勢是有限的;再比如,在嘗試蒙特卡洛樹搜尋(MCTS)的過程中,遇到了搜尋空間爆炸、價值模型訓練困難等重大挑戰。
因此,行業的風向也在逐漸回歸Rule-based,但前提是,要給定足夠多的Query(問詢),以確保Rule-based過程中對於各種突發情況的覆蓋,才能減少偏差,增強模型的泛化性和通用性。
比起其他廠商,DeepSeek做Rule-based有一個巨大的優勢——他們不僅擁有足夠強的基座模型(DeepSeek-V3),其DeepSeek-Math/DeepSeek-Coder系列模型更是在多年做量化投資的過程中積累了大量資料,可以很好地用Rule-based的方法,在大量訓練的基礎上實現更好的推理效果。
正如NLP科學家Casper Hensen在X上發帖表示,“我的大腦拒絕接受這個強大模型的訓練過程竟然可以如此簡單”。但他拒絕接受的事實確實在DeepSeek身上發生了。
從2024年9月OpenAI發佈o1-preview到現在,僅僅過去了不到四個月,市場上媲美甚至超越其性能的推理模型就已遍地開花:
在這眾多的模型之中,DeepSeek不僅率先實現了媲美OpenAI-o1模型的效果,更是將推理模型的成本壓縮到了極低——基於R1模型的DeepSeek Reasoner每百萬輸入token成本為0.55美元(4元/百萬tokens),每百萬輸出token成本為2.19美元(16元/百萬tokens),相比OpenAI-o1的每百萬輸入token成本為15美元、每百萬輸出token成本為60美元,下降了約95%;
這樣的價格策略,不僅為中小企業帶來了希望,還傳遞出一個訊號:AI不再是少數精英企業的專屬,它將成為全球各行各業的基礎工具。
低價還只是其次。更重要的是,DeepSeek R1系列模型,是開放原始碼的。
“開源”這兩個字對很多人來說,是“技術自由”的代名詞,OpenAI創立的初衷,也是作為一家非營利組織,希望“以最有可能造福全人類的方式推進數字智能發展,而不受產生財務回報需求的限制。”然而,由於商業化壓力、對模型濫用的擔憂、構築技術壁壘、內部價值觀衝突等等的原因,OpenAI在GPT-3發佈之後限制了對模型的存取權,僅通過API提供服務,在GPT-4發佈之後更是隱藏了其訓練資料和模型權重、完全走向了“閉源”。這極大背離了其創立時的初衷,也讓人們在探索AGI的道路上多了些波折。
儘管OpenAI的做法有其自己的考量,但人類需要開源。開源不僅是技術上的“開放”,更是對商業和產業鏈上下游合作的重新定義。它為更多創新提供了誕生的土壤,也讓全球的開發者可以共同參與進來,探索人工智慧的下一個邊界。
而DeepSeek開放原始碼的選擇,正是這種“美美與共”精神的體現。換句話說,DeepSeek-R1的低價和開源戰略,實際上在建構一個更加開放和包容的AI生態。而在DeepSeek等開源模型廠商的共同努力下,一個全人類共同為AGI奮鬥的時代,似乎離我們不遠了。 (甲子光年)