DeepSeek-R2要來了?

DeepSeek-R1發佈一周年之際,核心演算法庫驚現MODEL1,是V4還是R2?

2025年1月20日,DeepSeek-R1正式發佈。從此,國產大模型第一次走到了全球舞台的核心位置,開啟了開源時代。

而就在今天深夜,開發者社區沸騰了:DeepSeek的一個儲存庫進行更新,引用了一個全新的「model 1」模型。

DeepSeek-R1一年了,但DeepSeek-R2還沒來。

而這個被爆出的MODEL1,極有可能就是R2!

在DeepSeek的開放原始碼專案FlashMLA庫程式碼片段明確引用了「MODEL1」,並且伴隨針對KV快取的新最佳化,和576B步幅的稀疏FP8解碼支援。

FlashMLA是DeepSeek的最佳化注意力核心庫,為DeepSeek-V3和DeepSeek-V3.2-Exp模型提供支援。

項目裡,大約有28處提到model 1。

這可以被解讀為新模型即將發佈的明確訊號。

巧的是,這個爆料正好趕在DeepSeek-R1發佈一周年(2025年1月20日)。

R1作為開源推理模型,曾匹敵OpenAI o1並登頂iOS App Store,此後徹底改變了開源AI社區。

MODEL1即便不是R2,也意義非凡,畢竟FlashMLA是DeepSeek最佳化的注意力核心演算法庫。

FlashMLA是DeepSeek為Hopper架構GPU(如H800)最佳化的MLA(Multi-head Latent Attention)解碼核心。

在推理層程式碼中提及新模型ID,往往意味著該新模型(代號為Model1)將繼續復用或改進現有的MLA架構。

這表明 DeepSeek 團隊正緊鑼密鼓地推進新模型的推理適配工作,FlashMLA 作為其核心推理最佳化的地位依然穩固。

過去,DeepSeek的確遇到了一些麻煩。

本月15日,國外媒體報導,去年在研發其新一代旗艦模型時,DeepSeek在算力上碰到了一點麻煩。但DeepSeek及時調整了策略,取得了進展,並正準備在「未來幾周內」推出這款新模型。

HuggingFace:DeepSeek如何改變開源AI

HuggingFace在DeepSeek R1發佈一周年之際,發文解釋了DeepSeek如何改變了開源AI。

R1並不是當時最強的模型,真正意義而在於它如何降低了三重壁壘。

首先是技術壁壘。

通過公開分享其推理路徑和後訓練方法,R1將曾經封閉在API背後的高級推理能力,轉變為可下載、可蒸餾、可微調的工程資產。

許多團隊不再需要從頭訓練大模型就能獲得強大的推理能力。推理開始表現得像一個可復用的模組,在不同的系統中反覆應用。這也推動行業重新思考模型能力與計算成本之間的關係,這種轉變在中國這樣算力受限的環境中尤為有意義。

其次是採用壁壘。

R1以MIT許可證發佈,使其使用、修改和再分發變得簡單直接。原本依賴閉源模型的公司開始直接將R1投入生產。蒸餾、二次訓練和領域適應變成了常規的工程工作,而非特殊項目。

隨著分發限制的解除,模型迅速擴散到雲平台和工具鏈中,社區討論的重點也從「那個模型分數更高」轉向了「如何部署它、降低成本並將其整合到實際系統中」。

久而久之,R1超越了研究產物的範疇,成為了可復用的工程基礎。

第三個變化是心理層面的。

當問題從「我們能做這個嗎?」轉變為「我們如何做好這個?」時,許多公司的決策都發生了變化。

對中國AI社區而言,這也是一個難得的、獲得全球持續關注的時刻,對於一個長期被視為跟隨者的生態系統來說,這一點至關重要。

這三個壁壘的降低共同意味著,生態系統開始獲得了自我複製的能力。

DeepSeek-R1一周年

今天,讓我們回到原點,回顧DeepSeek-R1誕生的一年。

在R1之前,大模型的進化方向幾乎只有一個,更大的參數規模、更多的資料……

但是,模型真的在思考嗎?

這個問題,就是DeepSeek-R1的起點。

它不是讓讓模型回答得更快,而是刻意讓它慢下來,慢在推理鏈條的展開,慢在中間狀態的顯式表達。

從技術上看,DeepSeek-R1的關鍵突破,並不在某一個單點技巧,而在一整套系統性設計。

推理優先的訓練目標

在傳統SFT/RLHF體系中,最終答案的「正確性」是唯一目標。R1 則引入了更細粒度的訊號。這也是第一次,模型

高密度推理資料,而非高密度知識

R1的訓練資料,不追求百科全書式的覆蓋,而是高度聚焦在數學與邏輯推導、可驗證的複雜任務。

總之,答案不重要,過程才重要。因此,R1才在數學、程式碼、複雜推理上,呈現出「跨尺度躍遷」。

推理過程的「內化」,而不是復讀範本

一個常見誤解是:R1隻是「更會寫CoT」。

但真正的變化在於:模型並不是在復讀訓練中見過的推理範本,而是在內部形成了穩定的推理狀態轉移結構。

從此,推理不再是外掛,而是內生能力。

一年之後:R1改變了什麼?

首先,它改變了對「對齊」的理解。

R1之後,我們開始意識到,對齊不僅是價值對齊,也是認知過程的對齊。

第二,它改變了我們對開源模型的想像空間。

R1證明:在推理維度,開源模型不是追隨者,而可以成為範式定義者。這極大啟動了社區對「Reasoning LLM」的探索熱情。

第三,它改變了工程師與模型的協作方式。

當模型開始「展示思路」,人類就不再是提問者,而是合作者。

回到今天:R1仍然是一條未走完的路。

一周年,並不是終點。

我們仍然清楚地知道:推理能力還有明顯上限,長鏈路思考仍然昂貴

但正如一年前做出 R1 的那個選擇一樣——真正重要的,不是已經解決了什麼,而是方向是否正確。

DeepSeek-R1的故事,還在繼續。

而這一年,只是序章。 (新智元)