DeepSeek-R1執行的推理任務與OpenAI的o1等級相同,並且對研究人員開放。
一個名為DeepSeek-R1的中國製造的大型語言模型讓科學家們感到興奮,它是OpenAI o1等“推理”模型的一個負擔得起且開放的競爭對手。
這些模型在類似於人類推理的過程中逐步生成響應。這使得它們比早期的語言模型更擅長解決科學問題,並可能使它們在研究中有用。1月20日發佈的R1的初步測試表明,它在化學、數學和編碼方面的某些任務上的性能與o1相當,這在OpenAI於9月發佈時讓研究人員驚嘆不已。
“這太瘋狂了,完全出乎意料,”人工智慧研究員、英國人工智慧諮詢公司DAIR的聯合創始人Elvis Saravia說。AI在X上寫道。
R1脫穎而出還有另一個原因。建構該模型的杭州初創公司DeepSeek將其發佈為“開放權重”,這意味著研究人員可以研究和建構該演算法。根據麻省理工學院的許可證發佈,該模型可以自由重用,但由於其訓練資料尚未提供,因此不被認為是完全開放原始碼的。
德國埃爾蘭根馬克斯·普朗克光科學研究所人工科學家實驗室負責人Mario Krenn說:“DeepSeek的開放性非常顯著。”。相比之下,OpenAI在加利福尼亞州舊金山建立的o1和其他模型,包括其最新的o3,“基本上是黑匣子”,他說。
人工智慧幻覺無法阻止,但這些技術可以限制它們的傷害。
DeepSeek尚未公佈培訓R1的全部費用,但它向使用其介面的人收取的費用約為o1運行費用的三十分之一。該公司還建立了R1的迷你“蒸餾”版本,使計算能力有限的研究人員能夠使用該模型。Krenn說,“使用o1的實驗成本超過300英鎊,而使用R1的實驗成本不到10美元。”。“這是一個巨大的差異,肯定會在未來的採用中發揮作用。”
R1是中國大型語言模型(LLMs)繁榮的一部分。DeepSeek從一家避險基金分拆出來,上個月發佈了一款名為V3的聊天機器人,該機器人的表現優於主要競爭對手,儘管其預算很小。專家估計,租用訓練模型所需的硬體大約需要600萬美元,而Meta的Llama 3.1 405B則需要6000萬美元,使用了11倍的計算資源。
圍繞DeepSeek的部分傳言是,儘管美國的出口管制限制了中國公司獲得為人工智慧處理設計的最佳電腦晶片,但DeepSeek還是成功地製造了R1。華盛頓州西雅圖的人工智慧研究員François Chollet表示:“它來自中國的事實表明,高效利用資源比單純的計算規模更重要。”。
華盛頓貝爾維尤的技術專家阿爾文·王·格雷林(Alvin Wang Graylin)在總部位於台灣的沉浸式技術公司HTC工作,他在X上寫道,DeepSeek的進展表明,“美國曾經的領先優勢已經顯著縮小。”
LLMs在數十億個文字樣本上進行訓練,將它們剪下成稱為“標記”的單詞部分,並在資料中學習模式。這些關聯使模型能夠預測句子中的後續標記。但LLMs傾向於編造事實,這是一種被稱為“幻覺”的現象,並且經常難以通過推理解決問題。
與o1一樣,R1使用“思維鏈”方法來提高LLM解決更複雜任務的能力,包括有時回溯和評估其方法。DeepSeek通過使用強化學習“微調”V3來製作R1,強化學習獎勵模型達到正確答案並以概述其“思維”的方式解決問題。
人工智慧競爭對手:柱狀圖顯示了DeepSeek進行的測試結果,該測試針對OpenAI的o1模型在數學、編碼和推理任務上測試了其大型語言模型的三個版本。DeepSeek-R1在數學和編碼基準測試中擊敗或與o1相媲美。
很難說基準測試是否捕捉到了模型推理或概括的真正能力,或者僅僅是通過這些測試。但劍橋大學電腦科學家Marco Dos Santos表示,由於R1是開放的,研究人員可以訪問它的思想鏈。他說:“這使得模型的推理過程具有更好的可解釋性。”。
科學家們已經在測試R1的能力。Krenn挑戰了這兩個競爭對手的模型,根據它們的有趣程度對3000個研究想法進行排序,並將結果與人工排名進行比較。在這一指標上,R1的表現略低於o1。但Krenn說,在量子光學的某些計算中,R1擊敗了o1。“這相當令人印象深刻。” (資訊與反思)