DeepSeek爆火後的新Scaling Law究竟是什麼?


DeepSeek R1的發佈在全球人工智慧領域引發了巨大反響。這款由中國初創企業DeepSeek推出的低成本、高性能AI模型,打破了人們對AI研發“高投入、長周期”的固有認知,被西方媒體譽為“人工智慧的斯普特尼克時刻”。

DeepSeek的“奇蹟”有目共睹。其應用上線僅20天,日活躍使用者數就突破了2000萬,而ChatGPT達到同樣的日活量則耗時150天之餘。不僅如此,DeepSeek的開源路線也廣受好評,R1成功登頂開源平台“抱抱臉”最受歡迎模型,還以一己之力開啟了一波開源熱潮,影響不僅波及國內模型廠商,還促使OpenAI的Altman也放出了開源計畫。

另一個近期AI圈的熱點,則是千呼萬喚始出來的GPT-4.5。在“大模型撞牆論”甚囂塵上之際,OpenAI官方承認,GPT-4.5的優勢在於規模龐大,儘管模型參數量級擴張,但性能並未達到前沿水平。這迫使我們正視:在AI領域,新的時代已經開始。

為此,AIGC實戰派特別邀請了微軟(中國)有限公司高級架構師周博洋和AI技術專家魏新宇,就DeepSeek出現後值得關注的熱門話題進行了深入討論和解讀。有趣的是,兩位專家達成了一個共識:預訓練時代並未終結,然而,新的Scaling Law已經誕生。

周博洋認為,新的Scaling Law其實是“思考時間”,即模型思考的時間越久,給出的回答質量就越佳。

魏新宇則提出,新Scaling Law的重點在於後訓練的資料質量和獎勵模型的設計。誰能在這些問題上有所突破,誰就找到了模型性能提升的第二曲線。

以下是訪談要點:

•預訓練時代的持續:兩位專家一致認為,預訓練和微調仍然是模型學習知識的標準範式。儘管Scaling曲線不再陡峭,但方法本身仍然有效。

•新的Scaling Law:魏新宇認為,新的Scaling Law將出現在訓練資料和獎勵模型的設計方面。他從獎勵模型最常見的三種設計講起,揭秘了DeepSeek R1的獎勵演算法如何為模型打分。

•強化學習與推理能力:周博洋指出,強化學習之所以在出現很久後,才由R1走通了強推理的路徑,是因為此前基礎模型能力的侷限性。“沒有CoT的能力,強化就沒有意義,因為強化學習不是直接賦予模型推理能力,而是激發它潛在的推理能力。”

•小模型的強推理能力:魏新宇認為,小模型擁有強推理能力的關鍵在於資料強化和訓練方法的選擇。他以微軟的小模型明星Phi-4為例,給小模型的蒸餾和微調提出了一些建議。

•接入DeepSeek的建議:周博洋提供了清晰可行的建議:如果是為了業務,就選最穩的API;如果是日常使用,就選方便易用的。

•AI應用新場景:魏新宇提到,R1的推理能力為AI應用解鎖了新的場景,在教育、科研領域的潛力更大。推理意味著模型不僅能勝任現有知識的問答,還能對未來趨勢做預測,例如預測票房、股市等。

1. 預訓練時代終結了嗎?

薛彥澤: 第一個問題,預訓練時代終結了嗎?

魏新宇: 我的觀點是預訓練並沒有結束,它依然是大模型的基礎。比如最近很火的DeepSeek R1,也是基於V3進行強化學習的。預訓練仍然是通用知識庫的來源,所以仍然是必要的。不過,預訓練會與後續的強化學習結合起來,最佳化以前大規模消耗算力的預訓練模式。因此不能說預訓練終結,我認為是一種範式的提升。

周博洋: 補充兩句,我覺得預訓練和微調依然是模型學習知識的標準範式。

首先,預訓練和監督微調是模型理解知識本源的關鍵步驟。我們會給模型各種資料,比如網際網路資料、特定領域的資料比如MATH-500等等,目的是讓模型理解語義,繼而懂得Token之間的關聯性。傳統上,預訓練主要是讓模型學會續寫和理解語言的邏輯,而微調則是讓模型生成符合人類習慣和規範的文字。

從GPT-3開始,強化學習被引入,最初是為了讓模型對齊人類價值觀,比如避免偏見、暴力等不良內容。但在訓練的過程中,逐漸發現了強化學習在推理領域的潛力。

至於預訓練是否終結,我覺得現在討論還為時尚早。雖然Scaling的曲線沒有那麼陡峭了,大家也從強化學習等其他方向,探索提升能力的路徑。但是預訓練本身仍然有效。

薛彥澤: 那目前Scaling Law的瓶頸怎麼突破呢?

周博洋: 還是從兩個維度來看。

第一個維度是算力和模型參數的關係。在固定的算力體系下,模型參數和token數量的關係是關鍵。比如,現在有些模型已經接近Scaling Law的極限,但如果能突破這個限制,比如把70B參數的模型和1.4T的資料放大十倍,就會變成700B參數和14T的資料,這其實已經接近一些現有大模型的規模了。不過,像DeepMind這樣的研究機構可能覺得已經達到算力上限了,但OpenAI的模型成長速度其實還能更快。因為現在更受限於多卡互聯訓練時的通訊損耗,比如馬斯克提到的十萬卡訓練,效率低主要是因為通訊損耗。所以,未來可能需要在算力最佳化和通訊效率上做更多工作。

第二個維度是資料的獲取和利用。現在很多人認為資料探勘已經到底了。但我們忽略了99%的資料其實不在集中資料裡,而是分散在端側裝置上,這些資料可能因為安全問題無法聯網,價值也沒被挖掘,這可能是突破Scaling Law瓶頸的一個方向。

2. 後訓練、推理語境下的新Scaling Law究竟是什麼?

薛彥澤: 後訓練、推理語境下的新Scaling Law究竟是什麼?

周博洋:我覺得後訓練和推理語境下的新Scaling Law其實跟“思考時間”有關。思維鏈的產生和我的偶像Donald Norman有關,他在大學痴迷玩德國撲克,這個遊戲就是思考的事件越長,獲勝機率才會更高。這跟Alpha Go有點像,它們會花很長時間思考,最終戰勝人類。人類大腦也有快思考和慢思考,簡單的事情比如約喝咖啡,很快就能決定;但複雜的事情比如討論演算法,就需要很多中間步驟和時間。

魏新宇: 我覺得後訓練和推理語境下的新Scaling Law,重點在於後訓練的資料質量和獎勵模型的設計。以前是靠增加模型參數和資料量來提升性能,但現在更多是看怎麼最佳化後訓練階段。

現在強化學習領域,獎勵模型的設計也很重要。相當於給模型的答案打分,判斷是否符合人類標準。獎勵方式大概有三種:1. 直接打分:只看答案是否正確來打分;2. 多步驟打分:結合推理步驟和結果一起打分;3. 全步驟打分:每一步都打分,理論上效果最好,但很複雜,實際很難完全實現。

像DeepSeek的話,獎勵模型還會基於一些規則進行打分,比如推理問題和非推理的問題打分規則各有側重。比如訓練醫學問題時,獎勵模型會根據答案是否正確、正確答案出現的次序位置等因素打分,正確答案越靠前,分數越高。

薛彥澤: OpenAI宣佈從GPT-5開始就做基礎模型和推理模型的混合模型了,那麼,後訓練會推動模型的架構進行變革嗎?

周博洋: 首先,任何架構的模型都可以做推理。我覺得後訓練可能會推動模型架構的變革,但目前的核心還是提升效率,而不是徹底改變模型的本質。

從模型架構的改進來看,比如DeepSeek V3模型使用的MoE技術,MoE把模型的FFN層或MLP層變大,理論上能讓模型更好地學習語義,從而提升性能。但問題在於,如果模型太大,推理時會面臨視訊記憶體佔用過高的問題。因為推理時模型的參數是固定的,傳統模型會啟動所有神經元,即使有些神經元在推理時並不需要,這就會浪費視訊記憶體。

為瞭解決這個問題,MoE技術在訓練時只啟動部分“專家”(即MLP子模組),而不是全部。這樣可以提高效率,但訓練難度也增加了。比如,Llama 3.1模型被認為是MoE模型,但它的訓練者也承認MoE模型很難訓練充分,因為很難確定那些專家在推理時真正起作用。

DeepSeek V3模型通過一些函數強制實現負載平衡,確保所有專家都能被訓練到,這樣MoE技術才能真正發揮作用。但目前來看,這些改進的核心還是為了提高效率,而不是徹底改變模型的推理方式。模型的變革可能還在路上,目前的重點是讓現有架構更好地支援推理和後訓練。

3. OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?

薛彥澤: OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?沿著這個思路,我們還想瞭解兩個開源或者說免費的模型,究竟應該如何比較?DeepSeek的核心優勢在那裡?

魏新宇: 我覺得DeepSeek R1還是有優勢的,即使OpenAI的o1、o3模型免費了。首先,免費模型雖然開源,但不一定能滿足所有定製化需求。比如DeepSeek R1雖然模型較大,有600多B,部署需要近1T視訊記憶體,但它的推理能力很強,而且在特定領域,比如金融行業,可以通過蒸餾或微調來最佳化,讓模型更小、推理速度更快。因為從使用體驗看,R1、o3模型有時候推理一個問題需要長達十幾秒甚至更久,這在生產環境中可能難以接受。

其次,企業對資料安全和合規性有很高要求。DeepSeek R1可以通過特定手段確保模型的回答符合人類價值觀和當地法規,比如在中東國家避免涉及某些敏感話題。而開源模型在這方面可能需要額外的定製和最佳化。

再者,推理效率和高可用性也是關鍵。DeepSeek R1在推理過程中採用了諸如MLA技術等最佳化手段,通過低秩聯合壓縮等方式節省視訊記憶體,提升推理速度。尤其是蒸餾以後,去做垂域模型,比全量模型更適合大規模商業化部署。

所以,開源或免費模型的優勢在於成本低、易獲取,但DeepSeek R1的核心優勢在於推理效率、定製化能力、資料安全性和高可用性。

薛彥澤:DS的橫空出現,會不會改變國內網際網路的競爭格局?

魏新宇:從技術人員的角度來看,我覺得DeepSeek的出現肯定會對國內模型的競爭格局產生影響,但最終的競爭還是會落到整體生態上。現在國內AI市場競爭很激烈,大家都在推各種模型,但模型之間的能力差距其實並沒有那麼大。比如,R1可能比其他模型強一些,但並不是說它比其他模型高出一大截,大家的能力其實都差不多。

關鍵在於,企業有沒有自己固有的客戶流量或生態。比如微信接入DS後,可以基於自己的生態推動應用;百度也可以通過地圖等業務,基於模型做附加值的東西。Google和微軟也是一樣,Google的Gemini有YouTube和其他工具,微軟有自己的辦公軟體生態,這些都是它們的優勢。

4. 強化學習已經很久了,為什麼現在才被發現可以用來做強推理能力?

薛彥澤: 強化學習方法已經存在很久了,為什麼現在才被發現可以用來做強推理的能力?

周博洋:我覺得強化學習現在才被發現可以用來增強推理能力,主要是因為過去模型本身的侷限性。早期嘗試用強化學習來提升模型能力,比如Meta很早就在Twitter上討論過類似問題,想走R1的路線“左腳踩右腳”,但當時失敗了。原因在於模型本身難以訓練,而且知識灌注體系受限於參數容量。簡單來說,不是資料灌得越多,模型的參數就越好。如果模型連淺層表徵都學不好,那強化學習也很難發揮作用。沒有 COT 的能力,強化就沒有意義,因為強化學習不是直接賦予模型推理能力,而是激發它潛在的推理能力。

比如在R1的論文裡提到的蒸餾方法,就是通過SFT(監督微調)把大模型的推理鏈灌輸給小模型。對於千問32B的小模型來說,如果直接用強化學習提升推理能力,可能在AIME上只能達到47%的精準率。但如果先通過大模型的知識灌輸,再用強化學習,精準率就能超過50%。這說明,強化學習需要模型本身具備一定的基礎能力,才能發揮效果。

5. 讓小模型具備強推理能力,有那些技術路徑?

薛彥澤: 大家在讓這個小模型具備強推理能力上有那些看法?

魏新宇:我覺得讓小模型具備強推理能力,關鍵在於資料強化和訓練方法的選擇。

首先,可以通過大模型生成高品質的訓練資料。比如微軟的Phi-4模型,它的訓練資料有40%是合成的,這些資料是借助大模型GPT-4或者4o生成的。具體方法是:先給大模型定義一個任務,讓它生成問題(Prompt),然後讓大模型基於這些Prompt逐步思考,生成詳細的推理過程和答案。把這些生成的問題和答案整理成訓練資料,灌輸給小模型,這樣小模型就能學到大模型的思考邏輯。

其次,企業如果有私有資料,也可以基於大模型生成問答對,再用這些問答對來訓練小模型。這本質上也是在強化資料,讓小模型在特定領域表現得更好。

另外提一句,在蒸餾或微調時,最好瞭解小模型預訓練時的資料分佈和格式。比如Phi-4,如果知道它預訓練時的風格和資料分佈,那麼在微調時就能讓資料更匹配,避免和預訓練階段完全脫節。

微調方法也有幾種。最簡單的是直接把知識灌輸給小模型,但這種方法依賴於知識本身的泛化能力。更複雜一點的是DPO(一種微調方法),它不僅告訴模型應該選那個答案,還會告訴它不應該選那個,這樣能讓模型的演算法能力更強。再複雜一點的是結合獎勵函數,比如基於GRPO或reinforce的方法,通過打分來指導模型訓練。

以上都是一些比較常見的路徑。

6. 不同廠商接入DeepSeek,不同版本的DS究竟如何選擇?

薛彥澤: 現在雲廠商提供很多不同版本的DeepSeek,老師們能不能就我們如何做接入選擇給一些建議?

周博洋: 就不說得太具體了,我覺得接入DeepSeek的時候,主要看你的需求吧。如果你是用API,那重點是穩定性和性能,比如TPM(每秒事務量)和RPM(每分鐘事務量)。如果是為了業務需求,建議選擇SLA(服務水平協議)最可靠的,那怕貴一點,至少能保證業務穩定運行。

但如果只是為了日常使用,比如檢查程式碼或者理解演算法,其實沒必要用API。國內很多公司都有整合網際網路搜尋的AI服務,體驗也不錯。比如六小龍提供的Web服務、騰訊的AI搜尋等等,直接用就行,沒必要去折騰免費API,那些可能反而體驗不好。

7. R1推出後,那些應用值得關注?

薛彥澤: 我們聊聊產品或者應用,尤其在R1推出以後,兩位老師有沒有比較看好的方向?

魏新宇:我覺得R1推出後,有幾個方向特別有潛力。首先在教育行業,現在有推理能力的模型,比如o3mini或者DeepSeek R1,精準率很高,能很好地解釋題目,甚至還能出題和寫教案。這種模型特別適合教育場景,比如幫助高中生理解難題,甚至可以拓展到線上教育平台或者智能輔導工具。

其次,程式設計領域也是R1的優勢所在,這點不多展開了。

再就是科研領域,比如醫藥行業,模型可以分析實驗資料、解讀技術論文,甚至幫助設計實驗方案。有了推理能力後,模型不僅能基於現有知識回答問題,還能對未來趨勢做預測,比如預測票房、股市等。這種能力在科研領域都有很大應用潛力。尤其是在有了思維鏈之後,通過 check 模型的思維鏈,AI回答的可信度更強了。

總之,推理能力讓模型更可靠,我們還能檢查它的思維鏈,知道它是怎麼得出結論的,這在很多行業都很有價值。

周博洋: 那我就做一個提醒吧,DS目前還是純文字的,主要適合處理文字相關任務,暫時還不能勝任多模態內容,比如語音或視覺。所以大家在選擇時,要確認具體任務類型是否適合純文字處理。

再就是新的商業模式。比如我們看到騰訊元寶的AI搜尋,它可以在回答問題時植入合理的廣告,只要不違法且推薦合理,我覺得這種模式是可以嘗試的(編者註:雖然騰訊後來回應並非有意植入,騰訊公關總監張軍回應稱:“理論上不應該出現廣告植入,已經讓技術去查了。”)。畢竟,現在大模型面臨的最大問題是盈利。比如,如果用H200顯示卡部署模型,月租金大概7萬,就算每日每夜的跑Token,也就盈利5萬,這樣算下來一個月淨虧2萬。所以,一方面要從技術上最佳化,比如採用官方推薦的DeepSeek V3的推理模式,分離prefill和decoding,提升效率;另一方面,要尋找新的盈利點,比如在回答中合理植入廣告。 ( 51CTO技術堆疊 )