DeepSeek R1的發佈在全球人工智慧領域引發了巨大反響。這款由中國初創企業DeepSeek推出的低成本、高性能AI模型，打破了人們對AI研發“高投入、長周期”的固有認知，被西方媒體譽為“人工智慧的斯普特尼克時刻”。

DeepSeek的“奇蹟”有目共睹。其應用上線僅20天，日活躍使用者數就突破了2000萬，而ChatGPT達到同樣的日活量則耗時150天之餘。不僅如此，DeepSeek的開源路線也廣受好評，R1成功登頂開源平台“抱抱臉”最受歡迎模型，還以一己之力開啟了一波開源熱潮，影響不僅波及國內模型廠商，還促使OpenAI的Altman也放出了開源計畫。

另一個近期AI圈的熱點，則是千呼萬喚始出來的GPT-4.5。在“大模型撞牆論”甚囂塵上之際，OpenAI官方承認，GPT-4.5的優勢在於規模龐大，儘管模型參數量級擴張，但性能並未達到前沿水平。這迫使我們正視：在AI領域，新的時代已經開始。

為此，AIGC實戰派特別邀請了微軟（中國）有限公司高級架構師周博洋和AI技術專家魏新宇，就DeepSeek出現後值得關注的熱門話題進行了深入討論和解讀。有趣的是，兩位專家達成了一個共識：預訓練時代並未終結，然而，新的Scaling Law已經誕生。

周博洋認為，新的Scaling Law其實是“思考時間”，即模型思考的時間越久，給出的回答質量就越佳。

魏新宇則提出，新Scaling Law的重點在於後訓練的資料質量和獎勵模型的設計。誰能在這些問題上有所突破，誰就找到了模型性能提升的第二曲線。

•預訓練時代的持續：兩位專家一致認為，預訓練和微調仍然是模型學習知識的標準範式。儘管Scaling曲線不再陡峭，但方法本身仍然有效。

•新的Scaling Law：魏新宇認為，新的Scaling Law將出現在訓練資料和獎勵模型的設計方面。他從獎勵模型最常見的三種設計講起，揭秘了DeepSeek R1的獎勵演算法如何為模型打分。

•強化學習與推理能力：周博洋指出，強化學習之所以在出現很久後，才由R1走通了強推理的路徑，是因為此前基礎模型能力的侷限性。“沒有CoT的能力，強化就沒有意義，因為強化學習不是直接賦予模型推理能力，而是激發它潛在的推理能力。”

•小模型的強推理能力：魏新宇認為，小模型擁有強推理能力的關鍵在於資料強化和訓練方法的選擇。他以微軟的小模型明星Phi-4為例，給小模型的蒸餾和微調提出了一些建議。

•接入DeepSeek的建議：周博洋提供了清晰可行的建議：如果是為了業務，就選最穩的API；如果是日常使用，就選方便易用的。

•AI應用新場景：魏新宇提到，R1的推理能力為AI應用解鎖了新的場景，在教育、科研領域的潛力更大。推理意味著模型不僅能勝任現有知識的問答，還能對未來趨勢做預測，例如預測票房、股市等。

薛彥澤: 第一個問題，預訓練時代終結了嗎？

魏新宇: 我的觀點是預訓練並沒有結束，它依然是大模型的基礎。比如最近很火的DeepSeek R1，也是基於V3進行強化學習的。預訓練仍然是通用知識庫的來源，所以仍然是必要的。不過，預訓練會與後續的強化學習結合起來，最佳化以前大規模消耗算力的預訓練模式。因此不能說預訓練終結，我認為是一種範式的提升。

周博洋: 補充兩句，我覺得預訓練和微調依然是模型學習知識的標準範式。

首先，預訓練和監督微調是模型理解知識本源的關鍵步驟。我們會給模型各種資料，比如網際網路資料、特定領域的資料比如MATH-500等等，目的是讓模型理解語義，繼而懂得Token之間的關聯性。傳統上，預訓練主要是讓模型學會續寫和理解語言的邏輯，而微調則是讓模型生成符合人類習慣和規範的文字。

從GPT-3開始，強化學習被引入，最初是為了讓模型對齊人類價值觀，比如避免偏見、暴力等不良內容。但在訓練的過程中，逐漸發現了強化學習在推理領域的潛力。

至於預訓練是否終結，我覺得現在討論還為時尚早。雖然Scaling的曲線沒有那麼陡峭了，大家也從強化學習等其他方向，探索提升能力的路徑。但是預訓練本身仍然有效。

薛彥澤: 那目前Scaling Law的瓶頸怎麼突破呢？

周博洋: 還是從兩個維度來看。

第一個維度是算力和模型參數的關係。在固定的算力體系下，模型參數和token數量的關係是關鍵。比如，現在有些模型已經接近Scaling Law的極限，但如果能突破這個限制，比如把70B參數的模型和1.4T的資料放大十倍，就會變成700B參數和14T的資料，這其實已經接近一些現有大模型的規模了。不過，像DeepMind這樣的研究機構可能覺得已經達到算力上限了，但OpenAI的模型成長速度其實還能更快。因為現在更受限於多卡互聯訓練時的通訊損耗，比如馬斯克提到的十萬卡訓練，效率低主要是因為通訊損耗。所以，未來可能需要在算力最佳化和通訊效率上做更多工作。

第二個維度是資料的獲取和利用。現在很多人認為資料探勘已經到底了。但我們忽略了99%的資料其實不在集中資料裡，而是分散在端側裝置上，這些資料可能因為安全問題無法聯網，價值也沒被挖掘，這可能是突破Scaling Law瓶頸的一個方向。

2. 後訓練、推理語境下的新Scaling Law究竟是什麼?

薛彥澤: 後訓練、推理語境下的新Scaling Law究竟是什麼?

周博洋:我覺得後訓練和推理語境下的新Scaling Law其實跟“思考時間”有關。思維鏈的產生和我的偶像Donald Norman有關，他在大學痴迷玩德國撲克，這個遊戲就是思考的事件越長，獲勝機率才會更高。這跟Alpha Go有點像，它們會花很長時間思考，最終戰勝人類。人類大腦也有快思考和慢思考，簡單的事情比如約喝咖啡，很快就能決定；但複雜的事情比如討論演算法，就需要很多中間步驟和時間。

魏新宇: 我覺得後訓練和推理語境下的新Scaling Law，重點在於後訓練的資料質量和獎勵模型的設計。以前是靠增加模型參數和資料量來提升性能，但現在更多是看怎麼最佳化後訓練階段。

現在強化學習領域，獎勵模型的設計也很重要。相當於給模型的答案打分，判斷是否符合人類標準。獎勵方式大概有三種：1. 直接打分：只看答案是否正確來打分；2. 多步驟打分：結合推理步驟和結果一起打分；3. 全步驟打分：每一步都打分，理論上效果最好，但很複雜，實際很難完全實現。

像DeepSeek的話，獎勵模型還會基於一些規則進行打分，比如推理問題和非推理的問題打分規則各有側重。比如訓練醫學問題時，獎勵模型會根據答案是否正確、正確答案出現的次序位置等因素打分，正確答案越靠前，分數越高。

薛彥澤: OpenAI宣佈從GPT-5開始就做基礎模型和推理模型的混合模型了，那麼，後訓練會推動模型的架構進行變革嗎？

周博洋: 首先，任何架構的模型都可以做推理。我覺得後訓練可能會推動模型架構的變革，但目前的核心還是提升效率，而不是徹底改變模型的本質。

從模型架構的改進來看，比如DeepSeek V3模型使用的MoE技術，MoE把模型的FFN層或MLP層變大，理論上能讓模型更好地學習語義，從而提升性能。但問題在於，如果模型太大，推理時會面臨視訊記憶體佔用過高的問題。因為推理時模型的參數是固定的，傳統模型會啟動所有神經元，即使有些神經元在推理時並不需要，這就會浪費視訊記憶體。

為瞭解決這個問題，MoE技術在訓練時只啟動部分“專家”（即MLP子模組），而不是全部。這樣可以提高效率，但訓練難度也增加了。比如，Llama 3.1模型被認為是MoE模型，但它的訓練者也承認MoE模型很難訓練充分，因為很難確定那些專家在推理時真正起作用。

DeepSeek V3模型通過一些函數強制實現負載平衡，確保所有專家都能被訓練到，這樣MoE技術才能真正發揮作用。但目前來看，這些改進的核心還是為了提高效率，而不是徹底改變模型的推理方式。模型的變革可能還在路上，目前的重點是讓現有架構更好地支援推理和後訓練。

3. OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?

薛彥澤: OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?沿著這個思路，我們還想瞭解兩個開源或者說免費的模型，究竟應該如何比較？DeepSeek的核心優勢在那裡？

魏新宇: 我覺得DeepSeek R1還是有優勢的，即使OpenAI的o1、o3模型免費了。首先，免費模型雖然開源，但不一定能滿足所有定製化需求。比如DeepSeek R1雖然模型較大，有600多B，部署需要近1T視訊記憶體，但它的推理能力很強，而且在特定領域，比如金融行業，可以通過蒸餾或微調來最佳化，讓模型更小、推理速度更快。因為從使用體驗看，R1、o3模型有時候推理一個問題需要長達十幾秒甚至更久，這在生產環境中可能難以接受。

其次，企業對資料安全和合規性有很高要求。DeepSeek R1可以通過特定手段確保模型的回答符合人類價值觀和當地法規，比如在中東國家避免涉及某些敏感話題。而開源模型在這方面可能需要額外的定製和最佳化。

再者，推理效率和高可用性也是關鍵。DeepSeek R1在推理過程中採用了諸如MLA技術等最佳化手段，通過低秩聯合壓縮等方式節省視訊記憶體，提升推理速度。尤其是蒸餾以後，去做垂域模型，比全量模型更適合大規模商業化部署。

所以，開源或免費模型的優勢在於成本低、易獲取，但DeepSeek R1的核心優勢在於推理效率、定製化能力、資料安全性和高可用性。

薛彥澤:DS的橫空出現，會不會改變國內網際網路的競爭格局？

魏新宇：從技術人員的角度來看，我覺得DeepSeek的出現肯定會對國內模型的競爭格局產生影響，但最終的競爭還是會落到整體生態上。現在國內AI市場競爭很激烈，大家都在推各種模型，但模型之間的能力差距其實並沒有那麼大。比如，R1可能比其他模型強一些，但並不是說它比其他模型高出一大截，大家的能力其實都差不多。

關鍵在於，企業有沒有自己固有的客戶流量或生態。比如微信接入DS後，可以基於自己的生態推動應用；百度也可以通過地圖等業務，基於模型做附加值的東西。Google和微軟也是一樣，Google的Gemini有YouTube和其他工具，微軟有自己的辦公軟體生態，這些都是它們的優勢。

4. 強化學習已經很久了，為什麼現在才被發現可以用來做強推理能力?

薛彥澤: 強化學習方法已經存在很久了，為什麼現在才被發現可以用來做強推理的能力？

周博洋：我覺得強化學習現在才被發現可以用來增強推理能力，主要是因為過去模型本身的侷限性。早期嘗試用強化學習來提升模型能力，比如Meta很早就在Twitter上討論過類似問題，想走R1的路線“左腳踩右腳”，但當時失敗了。原因在於模型本身難以訓練，而且知識灌注體系受限於參數容量。簡單來說，不是資料灌得越多，模型的參數就越好。如果模型連淺層表徵都學不好，那強化學習也很難發揮作用。沒有 COT 的能力，強化就沒有意義，因為強化學習不是直接賦予模型推理能力，而是激發它潛在的推理能力。

比如在R1的論文裡提到的蒸餾方法，就是通過SFT（監督微調）把大模型的推理鏈灌輸給小模型。對於千問32B的小模型來說，如果直接用強化學習提升推理能力，可能在AIME上只能達到47%的精準率。但如果先通過大模型的知識灌輸，再用強化學習，精準率就能超過50%。這說明，強化學習需要模型本身具備一定的基礎能力，才能發揮效果。

5. 讓小模型具備強推理能力，有那些技術路徑?

薛彥澤: 大家在讓這個小模型具備強推理能力上有那些看法？

魏新宇：我覺得讓小模型具備強推理能力，關鍵在於資料強化和訓練方法的選擇。

首先，可以通過大模型生成高品質的訓練資料。比如微軟的Phi-4模型，它的訓練資料有40%是合成的，這些資料是借助大模型GPT-4或者4o生成的。具體方法是：先給大模型定義一個任務，讓它生成問題（Prompt），然後讓大模型基於這些Prompt逐步思考，生成詳細的推理過程和答案。把這些生成的問題和答案整理成訓練資料，灌輸給小模型，這樣小模型就能學到大模型的思考邏輯。

其次，企業如果有私有資料，也可以基於大模型生成問答對，再用這些問答對來訓練小模型。這本質上也是在強化資料，讓小模型在特定領域表現得更好。

另外提一句，在蒸餾或微調時，最好瞭解小模型預訓練時的資料分佈和格式。比如Phi-4，如果知道它預訓練時的風格和資料分佈，那麼在微調時就能讓資料更匹配，避免和預訓練階段完全脫節。

微調方法也有幾種。最簡單的是直接把知識灌輸給小模型，但這種方法依賴於知識本身的泛化能力。更複雜一點的是DPO（一種微調方法），它不僅告訴模型應該選那個答案，還會告訴它不應該選那個，這樣能讓模型的演算法能力更強。再複雜一點的是結合獎勵函數，比如基於GRPO或reinforce的方法，通過打分來指導模型訓練。

以上都是一些比較常見的路徑。

6. 不同廠商接入DeepSeek，不同版本的DS究竟如何選擇?

薛彥澤: 現在雲廠商提供很多不同版本的DeepSeek，老師們能不能就我們如何做接入選擇給一些建議？

周博洋: 就不說得太具體了，我覺得接入DeepSeek的時候，主要看你的需求吧。如果你是用API，那重點是穩定性和性能，比如TPM（每秒事務量）和RPM（每分鐘事務量）。如果是為了業務需求，建議選擇SLA（服務水平協議）最可靠的，那怕貴一點，至少能保證業務穩定運行。

但如果只是為了日常使用，比如檢查程式碼或者理解演算法，其實沒必要用API。國內很多公司都有整合網際網路搜尋的AI服務，體驗也不錯。比如六小龍提供的Web服務、騰訊的AI搜尋等等，直接用就行，沒必要去折騰免費API，那些可能反而體驗不好。

7. R1推出後，那些應用值得關注?

薛彥澤: 我們聊聊產品或者應用，尤其在R1推出以後，兩位老師有沒有比較看好的方向？

魏新宇：我覺得R1推出後，有幾個方向特別有潛力。首先在教育行業，現在有推理能力的模型，比如o3mini或者DeepSeek R1，精準率很高，能很好地解釋題目，甚至還能出題和寫教案。這種模型特別適合教育場景，比如幫助高中生理解難題，甚至可以拓展到線上教育平台或者智能輔導工具。

其次，程式設計領域也是R1的優勢所在，這點不多展開了。

再就是科研領域，比如醫藥行業，模型可以分析實驗資料、解讀技術論文，甚至幫助設計實驗方案。有了推理能力後，模型不僅能基於現有知識回答問題，還能對未來趨勢做預測，比如預測票房、股市等。這種能力在科研領域都有很大應用潛力。尤其是在有了思維鏈之後，通過 check 模型的思維鏈，AI回答的可信度更強了。

總之，推理能力讓模型更可靠，我們還能檢查它的思維鏈，知道它是怎麼得出結論的，這在很多行業都很有價值。

周博洋: 那我就做一個提醒吧，DS目前還是純文字的，主要適合處理文字相關任務，暫時還不能勝任多模態內容，比如語音或視覺。所以大家在選擇時，要確認具體任務類型是否適合純文字處理。

再就是新的商業模式。比如我們看到騰訊元寶的AI搜尋，它可以在回答問題時植入合理的廣告，只要不違法且推薦合理，我覺得這種模式是可以嘗試的（編者註：雖然騰訊後來回應並非有意植入，騰訊公關總監張軍回應稱：“理論上不應該出現廣告植入，已經讓技術去查了。”）。畢竟，現在大模型面臨的最大問題是盈利。比如，如果用H200顯示卡部署模型，月租金大概7萬，就算每日每夜的跑Token，也就盈利5萬，這樣算下來一個月淨虧2萬。所以，一方面要從技術上最佳化，比如採用官方推薦的DeepSeek V3的推理模式，分離prefill和decoding，提升效率；另一方面，要尋找新的盈利點，比如在回答中合理植入廣告。  ( 51CTO技術堆疊 )

#魏新宇 你可以在這裡找到鉅亨號中所有使用「魏新宇」為關鍵字所發布的內容