DeepSeek 透過強化學習(RL)引入了一種創新方法,以提升大型語言模型(LLMs)的推理能力,這一方法在他們近期發佈的論文《DeepSeek-R1 》中有詳細闡述。這項研究在透過純強化學習而無需大量監督微調來增強LLM 解決複雜問題的能力方面,代表了一個重要的進展。
DeepSeek-R1 不是一個單一的模型,而是一系列模型,包括:DeepSeek-R1-Zero 和DeepSeek-R1。
讓我說明一下DeepSeek-R1 和DeepSeek-R1-Zero 之間的關鍵區別:
DeepSeek-R1-Zero 代表團隊使用純強化學習而不進行任何監督微調的初步實驗。他們從基礎模型開始,直接應用強化學習,讓模型透過試錯過程發展推理能力。雖然這種方法取得了令人印象深刻的結果(在AIME 2024 上達到71% 的精準率),但在可讀性和語言一致性方面存在一些顯著的限制。該模型擁有6710 億個參數,採用混合專家(MoE)架構,每個標記啟動相當於370 億個參數。這個模型展現了新興的推理行為,如自我驗證、反思和長鏈思維(CoT)推理。
相較之下,DeepSeek-R1 使用了更複雜的多階段訓練方法。它不是純粹依賴強化學習,而是在應用強化學習之前,首先在一小部分經過精心挑選的範例(稱為「冷啟動資料」)上進行監督微調。這種方法解決了DeepSeek-R1-Zero 的限制性,同時實現了更好的效能。該模型同樣保持了6,710 億參數,但在響應的可讀性和連貫性方面表現更佳。
訓練方法論:
DeepSeek-R1-Zero 的訓練過程非常簡單:
DeepSeek-R1 的訓練過程則包含四個不同階段:
性能指標:
侷限性與未來工作
論文承認了幾項需要改進的領域:
未來的工作將重點解決這些限制,並擴展模型在函數呼叫、多輪互動和複雜角色扮演場景等方面的能力。
開源與授權: DeepSeek-R1 及其變體在MIT 許可下發佈,促進了開源合作和商業使用,包括模型蒸餾。此舉對於促進創新和降低AI 模型開發的門檻至關重要。
模型格式: 兩種模型及其蒸餾版本均提供GGML、GGUF、GPTQ 和HF 等格式,允許靈活地在本地部署。
DeepSeek 聊天平台提供了一個使用者友好的介面,可以無需任何設定即可與DeepSeek-R1 互動。
訪問步驟:
對於程式設計訪問,DeepSeek 提供了與OpenAI 格式相容的API,允許整合到各種應用中。
使用API 的步驟:
a. 取得API 金鑰:
b. 組態你的環境:
c. 進行API 通話:
兩種模型(R1 和R1-Zero):
本地運行的軟體工具:
接下來,你需要本地下載並運行DeepSeek R1 模型。
Ollama 提供了不同大小的模型——基本上,模型越大,AI 越聰明,但需要更好的GPU。以下是模型系列:
為了開始實驗DeepSeek-R1,建議從較小的模型開始,以熟悉設定並確保與你的硬體相容。你可以透過打開終端並執行以下命令來啟動這個過程:
ollama run deepseek-r1:8bollama run deepseek-r1:1.5bollama run deepseek-r1:8bollama run deepseek-r1:14bollama run deepseek-r1:32bollama run deepseek-r1:70b通過Ollama 向本地下載的DeepSeek-R1 傳送請求:
Ollama 提供了一個API ,可以以程式設計方式與DeepSeek-R1 互動。確保Ollama 伺服器在本地運行後再進行API 請求。你可以透過執行以下命令啟動伺服器:
ounter(lineollama serve伺服器啟動後,你可以使用curl 傳送請求,如下所示:
ounter(lineounter(lineounter(lineounter(lineounter(linecurl -X POST <http://localhost:11434/api/generate> -d '{ "model": "deepseek-r1", "prompt": "你的問題或提示內容"}'將「你的問題或提示內容」取代為你希望提供給模型的實際輸入。該指令向本機Ollama 伺服器傳送POST 請求,伺服器使用指定的DeepSeek-R1 模型處理提示並傳回產生的回應。
本地運行/訪問模型的其他方法包括:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — enforce-eager從DeepSeek-R1-Zero 到DeepSeek-R1 的這一進展,代表了研究中的重要學習歷程。雖然DeepSeek-R1-Zero 證明了純強化學習的可行性,但DeepSeek-R1 展示了將監督學習與強化學習相結合如何能夠建立一個更強大且實用的模型。 (開源大雄)