Secrets of DeepSeek AI model revealed in landmark paper
第一份同行評審研究顯示,一家中國初創公司如何以 30 萬美元的價格打造出震撼市場的大語言模型。
中國公司DeepSeek的研究人員表示,其功能強大的人工智慧模型R1的成功——該模型在1月份發佈時曾導致美國股市暴跌——並非依賴於使用競爭對手的模型輸出結果進行訓練。這一說法出自今日發表在《自然》雜誌上的R1模型同行評審版本及附帶髮布的檔案中。
R1模型旨在擅長數學、程式設計等“推理”類任務,作為美國科技公司開發工具的競品,其成本更低。作為一款“開源權重”模型,任何人都可下載使用;截至目前,它已是人工智慧社區平台Hugging Face上最受歡迎的此類模型,下載量已達1090萬次。
該論文更新了1月份發佈的預印本,預印本中介紹了DeepSeek如何對標準大型語言模型進行最佳化,以應對推理任務。論文的補充材料首次披露了R1模型的訓練成本:僅相當於29.4萬美元。此外,總部位於杭州的DeepSeek公司為建構R1所基於的基礎大型語言模型,還投入了約600萬美元;但即便總成本相加,仍遠低於業界認為的競品模型數千萬美元的研發費用。DeepSeek表示,R1模型的訓練主要使用輝達H800晶片,而該型號晶片在2023年因美國出口管制政策被禁止售往中國。
R1被認為是首個經歷同行評審流程的主流大型語言模型。“這是一個非常值得歡迎的先例,”Hugging Face的機器學習工程師劉易斯·湯斯塔爾(Lewis Tunstall)表示,他參與了該《自然》論文的評審工作,“如果我們不建立公開分享這一過程大部分內容的規範,就很難評估這些系統是否存在風險。”
為回應同行評審意見,DeepSeek團隊在描述中減少了擬人化表述,並補充闡明了技術細節,包括模型訓練所用的資料類型及其安全性。“經過嚴格的同行評審流程,無疑有助於驗證該模型的有效性和實用性,”俄亥俄州立大學(位於哥倫布市)的人工智慧研究員孫歡(Huan Sun,音譯)表示,“其他公司也應採取同樣的做法。”
DeepSeek的主要創新在於,採用了一種自動化的試錯方法(即“純強化學習”)來打造R1模型。該過程通過獎勵模型得出正確答案來最佳化其性能,而非教導它遵循人類篩選的推理示例。該公司表示,正是通過這種方式,其模型自主習得瞭解決問題的推理類策略,例如無需遵循人類設定的方法就能驗證自身運算過程。為提高效率,該模型還會通過估算為自身的嘗試打分,而非使用單獨的演算法執行此項任務——這種技術被稱為“群體相對策略最佳化”。
孫歡指出,該模型在人工智慧研究人員中“影響力頗大”。“截至2025年,幾乎所有在大型語言模型中應用強化學習的研究工作,或多或少都可能受到了R1模型的啟發。”
1月份有媒體報導稱,總部位於美國加利福尼亞州舊金山、開發出ChatGPT及“o系列”推理模型的OpenAI公司研究人員認為,DeepSeek在訓練R1時使用了OpenAI模型的輸出結果——這種方法理論上可在減少資源投入的同時,快速提升模型性能。
DeepSeek並未在論文中公開其訓練資料。但在與評審專家的溝通中,該公司研究人員表示,R1模型並非通過複製OpenAI模型生成的推理示例來學習。不過他們也承認,與大多數其他大型語言模型一樣,R1的基礎模型是通過網路資料訓練的,因此不可避免會吸收網際網路上已存在的各類人工智慧生成內容。
孫歡表示,這一反駁“與我們在任何學術出版物中能看到的論證一樣有說服力”。湯斯塔爾補充稱,儘管無法100%確定R1未使用OpenAI的示例進行訓練,但其他實驗室的復現嘗試表明,DeepSeek的推理模型訓練方法本身已足夠出色,無需借助這種手段。“我認為現有證據已相當明確:僅通過純強化學習,就能讓模型達到極高的性能水平。”他說道。
孫歡認為,對研究人員而言,R1模型仍具有很強的競爭力。在一項名為“ScienceAgentBench”的科學任務挑戰賽中(該賽事要求模型完成資料分析、資料可視化等任務),孫歡及其同事發現,儘管R1模型的精準率並非最高,但在能力與成本的平衡方面,卻是表現最佳的模型之一。
湯斯塔爾表示,目前已有其他研究人員嘗試將R1的研發方法應用於現有大型語言模型,以提升其推理類能力,同時還在探索將這些方法拓展到數學和程式設計之外的領域。他補充稱,從這個角度來說,R1模型“開啟了一場革命”。
本文作者伊麗莎白·吉布尼是《自然》雜誌的資深物理記者。 (邸報)