【DeepSeek】獨立發現o1核心思路，OpenAI首席研究官親自證實！奧特曼被迫發聲

2025/01/29

•

【新智元導讀】DeeSeek R1橫空出世撼動了整個矽谷，這波AI恐懼仍在蔓延擴散。奧特曼、OpenAI首席研究官不得不發文承認DeeSeek的技術突破，預告未來會加快新模型的發佈。與此同時，研究人員們也紛紛展開了對DeepSeek技術的深入分析。

DeeSeek掀起的滔天巨浪，讓全世界為之震顫。

短短幾天，從R1復現狂潮，到登頂美榜APP Store，再到科技股集體重挫，這股東方神秘力量威力盡顯。

R1在Hugging Face中的like，從今年1月起直線飆升。

就連奧特曼本人也不得不打破沉默，公開承認DeepSeek的實力，並劇透了未來會有更多模型的發佈：

DeepSeek R1是一款令人印象深刻的模型，特別是考慮到他們在這個價格範圍內能夠提供的能力。

我們顯然會推出更好的模型，而且有一個新的競爭對手確實令人振奮！我們會加快一些版本的發佈，但主要還是專注於推進OpenAI研究路線圖。我們堅信，現在比以往任何時候都更需要更多的算力來實現我們的使命。

未來，世界將會需要大量的 AI，並對下一代模型感到驚嘆。期待為大家帶來 AGI 和更超前的技術。

與此同時，OpenAI首席研究官Mark Chen也承認道，DeepSeek的確獨立發現了一些o1的核心idea。

但對於外界的各種分析，他顯然是不認可的。

Mark Chen表示，現代AI系統採用了「預訓練」和「推理」兩大範式，提供了更靈活的最佳化空間。

在降低成本的同時，提升模型性能，未來OpenAI可以在這兩個維度上持續發力。

而且，隨著蒸餾技術日趨成熟，他們還發現成本控制和性能提升已經不再互相依賴。

換言之，OpenAI能以更低成本提供服務，也不代表就要犧牲模型的能力。

OpenAI研究科學家、德撲之父Noam Brow同樣站出來表示，「演算法突破和Scaling是互補的，而不是相互競爭的。前者使性能與計算量的曲線發生彎曲，而後者則是在曲線上進一步前進」。

作為「避險」，OpenAI今天特意冒泡，發佈了一個專為美國政府打造的ChatGPT Gov。

中國AI撼動矽谷帝國

這場始於一篇22頁學術論文的風暴，讓一個約200人的團隊，用一個模型摧毀華爾街，改變了整個矽谷對AI的看法。

恐怕連DeepSeek自己也沒有想到，這將成為改寫AI競爭格局的一記重拳。

論文地址：https://arxiv.org/pdf/2501.12948

DeepSeek R1論文發佈之初，並未引起所有人的警覺。隨著研究者逐漸消化論文內容，一個令人震驚的事實浮出水面：

R1竟以遠低於科技巨頭的成本，達到了可與頂級AI模型較量的水平。

更令人瞠目的是，這一突破並非依賴昂貴的算力堆砌，而是通過精妙的工程設計實現的。

當許多專家認為中國AI在競賽中望塵莫及之時，R1的出現無異於平地驚雷。

紐約時報作者Kevin Roose就此發表了自己觀點——R1似乎正在動搖美國科技產業的三個主要的假設。

平民算力，也能顛覆遊戲規則

首先，第一個假設是，要建構頂尖AI模型，需要在強大的晶片和資料中心上投入巨額資金。

不得不說，這一點早已成為世界公認的模型Scaling Law必備要素。

從微軟、Meta、Google，到xAI等矽谷巨頭們已經斥資數百億美金，專為開發和運行下一代AI打造專用的基礎設施。

在他們看來，這些投入遠遠不夠。

上周，川普曾官宣了「星際之門」項目，計畫4年內砸5000億美金，在全美建造20座超算。

要知道，DeepSeek似乎只花費了這個數額的一小部分就打造了R1。

雖R1具體訓練金額未知，業界從V3 550萬美元推測，預計其成本要高於這一金額。

即便是R1訓練成本是DeepSeek聲稱的10倍，考慮到其他成本，如工程師薪資或基礎研究成本，這個數字仍然比美國人工智慧公司開發其最強大模型的支出要低幾個數量級。

「大」即是好，也不存在了！

其次，DeepSeek在成本上的突破，打破了近年來AI競賽中「越大越好」的觀點。

R1恰恰用實踐證明了，經過精細的訓練，相對較小的模型也可以媲美，甚至超越更大的模型。

反過來，這意味著，AI公司或許能以遠低於此前預期的投資，就能實現非常強大的功能。

在研究論文中，揭示了一些關於R1實際建構方式的細節，包括「模型蒸餾」方面的一些前沿技術。

從這點可以看出，將大型AI模型壓縮成更小的模型，不僅運行成本更低，同時不會損失太多性能。

此外，論文還有一些細節表明，將「普通」的AI語言模型轉換為更複雜的推理模型，只需要在其基礎上應用RL演算法，即可實現。

中國AI落後迷思，正被打破

第三，DeepSeek逆襲成功，也動搖了許多專家對中國在AI競賽中處於落後地位的觀點。

事實證明，美國的技術優勢，可能並不如想像中的牢固。

多年來，許多AI專家一直認為美國至少領先世界幾年，而且中國公司要快速複製美國的進展是極其困難的。

截止目前，已有超500個DeepSeek衍生模型登陸HF

但DeepSeek的結果表明，中國擁有可以匹配或超越OpenAI，以及其他美國人工智慧公司模型的先進人工智慧能力。

這場AI巨震帶來的不僅是技術突破，更是對全球AI格局的深刻洗牌。

該緊張的，是OpenAI們

當整個市場還在為AI訓練成本驟降而恐慌時，一些業內資深玩家卻看到了不一樣的未來。

矽谷眾多業內人士認為，市場對DeepSeek最新模型的大規模拋售反應過度。

他們認為，該模型通過顯著降低AI成本，將推動AI的更廣泛應用和價值實現，從而持續維持市場對輝達晶片的需求。

近期，前英特爾首席執行官Pat Gelsinger用實際行動給出了答案，在周一買入了輝達的股票。

他在LinkedIn上發文表示，「市場的反應是錯誤的，降低AI成本將帶來市場規模的擴張。DeepSeek是一項卓越的工程成就，將引領AI邁向更廣泛的商業應用」。

輝達也在周一表示，DeepSeek的創新將促進其業務的發展。

DeepSeek是一項傑出的AI技術進展，也是「測試時Scaling」的完美範例。這種推理運算需要大量輝達GPU和高性能網路基礎設施的支援。

業內專家TechInsights的G Dan Hutcheson分析更是令人深思。

在他看來，DeepSeek技術突破對輝達的影響有限，真正應該擔心的是OpenAI這樣提供類似服務的公司。

而網友們在Mark Chen推文下面分享的真實體驗，正是這一分析的驗證。

圖解DeepSeek-R1

對於機器學習研發社區而言，DeepSeek-R1是尤為重要的一個里程碑：

它是一個開放權重模型，並提供了多個經過知識蒸餾的輕量級版本
它不僅分享了訓練方法，還深入探討了如何複製類似OpenAI o1這樣的推理模型的實現過程

在最近的一篇部落格中，就職於AI初創Chere的機器學習研究工程師Jay Alammar，便通過圖解DeepSeek-R1的方式，分析了如何打造具有推理能力的大語言模型。

模型訓練第一步的細節來自之前的DeepSeek-V3論文。

R1使用該論文中的基礎模型，並仍然經過監督微調（SFT）和偏好微調步驟，但其執行方式有所不同。

1. 長鏈推理的監督微調資料

這一過程包含了60萬個長思維鏈推理示例。

然而，想要獲取如此規模，並且還是人工標註的這類資料，既困難又昂貴。這就是為什麼建立這些資料的過程成為第二個重要特點。

2. 一個臨時的高品質推理大語言模型（但在非推理任務上表現較差）

這些資料是由R1的前身——一個專注於推理的相關模型建立的。

其靈感來自於另一款被稱為R1-Zero的模型。它的重要性不在於它是一個出色的通用大語言模型，而在於它僅需少量標註資料，通過大規模RL就能在解決推理問題方面表現優異。

這個專業推理模型的輸出隨後被用於訓練一個更全面的模型，使其能夠勝任其他非推理任務，達到使用者對大語言模型的預期水平。

3. 使用大規模強化學習建立推理模型

3.1 大規模面向推理的強化學習（R1-Zero）

在這裡，RL被用於建立臨時推理模型，該模型隨後用於生成監督微調的推理示例。

而使這一切成為可能的關鍵在於，此前建立的DeepSeek-R1-Zero模型的實驗。

R1-Zero的獨特之處在於，它無需標註的監督微調訓練集就能在推理任務上表現優異，甚至可以與o1相媲美。

它的訓練直接從預訓練基礎模型通過RL過程進行（無需監督微調步驟）。

一直以來，資料始終是決定機器學習模型能力的關鍵要素。那麼這個模型是如何打破這一定律的？這涉及兩個關鍵因素：

（1）現代基礎模型已經達到了質量和能力的新高度（該基礎模型在14.8兆高品質token上進行訓練）。

（2）與普通的聊天或寫作任務相比，推理問題可以通過自動化方式進行驗證和標註。

讓我們通過一個例子來說明。以下是RL訓練步驟中的一個典型提示詞：

編寫Python程式碼，接受一個數字列表，返回排序後的列表，並在開頭加入數字42。

當正在訓練中的模型收到這個問題並生成答案後，有很多種方式都可以實現自動驗證：

用程式碼檢查工具驗證生成內容是否為合法的Python程式碼
直接運行Python程式碼檢驗其執行情況
用其他現代程式設計大語言模型生成單元測試來驗證程式碼行為（它們本身無需具備推理能力）
進一步測量程式碼執行時間，引導訓練過程優先選擇性能更優的解決方案，而不僅僅是能夠解決問題的正確程序

通過這種方式，我們可以在訓練過程中向模型提供類似問題，並獲得多種可能的解決方案。

通過自動檢查（無需人為干預），我們可以發現：

第一個完成結果甚至不是程式碼；
第二個確實是Python程式碼，但並未解決問題；
第三個是一個可能的解決方案，但未能通過單元測試；
第四個才是正確的解決方案。

這些訊號都可以直接用來改進模型。當然，這種改進是通過大量示例（在mini-batch中）和連續的訓練步驟來完成的。

這些獎勵訊號和模型更新正是模型在RL訓練過程中持續改進任務表現的方式，正如論文圖2所示。

與這種能力的提升相對應的是，生成響應的長度變化——模型會生成更多的思考token來處理問題。

這個過程確實很有用，但R1-Zero卻面臨著其他影響其實用性的問題。

雖然DeepSeek-R1-Zero展現出強大的推理能力，並能自主形成令人驚喜的高效推理模式，但它仍然面臨著一些挑戰。比如，DeepSeek-R1-Zero在可讀性和語言混合等方面存在明顯的不足。

R1的目標是成為一個更實用的模型。因此，它並非完全依賴RL過程，而是在我們前文提到的兩個方面加以運用：

（1）建立中間推理模型以生成SFT資料點

（2）訓練R1模型以提升推理和非推理問題的處理能力（使用其他類型的驗證器）

3.2 使用中間推理模型建立SFT推理資料

為了提升中間推理模型的實用性，需要對其進行監督式微調（SFT）訓練，訓練封包含數千個推理問題示例（部分來自R1-Zero的生成和篩選）。論文將這些稱為「冷啟動資料」。

與DeepSeek-R1-Zero不同，DeepSeek-R1為了避免基礎模型在RL訓練初期出現不穩定的冷啟動現象，我們建構並收集了少量思維鏈（CoT）資料來微調模型，將其作為初始RL代理。在資料收集過程中，我們探索了多種方法：採用長思維鏈作為示例進行少樣本提示學習，直接通過提示詞引導模型生成包含反思和驗證的詳細答案，以可讀格式採集DeepSeek-R1-Zero的輸出，並通過人工標註進行後期最佳化。