傳言會在春節期間發佈的DeepSeek V4,還沒現身。
2026年1月初,外媒援引了兩名直接瞭解Deepseek發佈計畫的知情人士消息,稱DeepSeek計畫在春節期間推出其下一代旗艦模型V4。
一石激起千層浪,2025年春節前夕,DeepSeek曾發佈了震撼全球的 R1 模型,導致美股AI類股劇烈波動,也樹立了中國開源模型以性能逼近全球頂尖閉源模型,效率和性價比超越閉源模型的信心。
在爆料傳出前後,DeepSeek團隊密集發表了兩篇由創始人梁文鋒署名的重磅論文,被業內視為V4發佈的“預演”:1月1日發佈的mHC(流形約束超連接),解決了模型越大訓練越容易崩潰的穩定性難題 ;1月12日聯合北大發佈的Engram(條件記憶),讓模型面對熟悉知識時直接查表呼叫,把算力留給真正需要深度推理的複雜任務 ,同時實現計算與記憶體解耦。
這些跡象更讓開發者和分析師堅信,DeepSeek已經完成了V4的技術儲備。野村證券甚至在2月10日的報告中,提前預告DeepSeek將於2月中旬發佈V4,指出V4的重點不在於參數競賽,而在於通過Engram和mHC技術打破晶片和視訊記憶體瓶頸。
開發者在DeepSeek的FlashMLA開源推理庫中發現了一個代號為“MODEL1”的程式碼標識。它的架構參數與目前的 V3 有顯著差異。這被技術圈解讀為V4正在進行最後的工程部署測試。
技術社區流傳著一句笑談,整個中國AI圈都在緊鑼密鼓地準備“V4陪你過春節”。
然而截至發稿,DeepSeek V4還是沒有正式發佈。但是在2月11日,有使用者發現,DeepSeek的App版本號更新為1.7.4,離線狀態下可呼叫的知識庫截止時間為2025年5月,更值得注意的是,模型的上下文窗口從128K提升至1M(100 萬 Tokens),儘管上下文翻了8倍,但首字生成速度反而有所提升,體驗非常絲滑。
同時,模型的表達風格發生了明顯的變化,大量使用者吐槽回覆變得“爹味”或“冷淡”,失去了V3版本那種靈動、幽默的對話感。
從社交媒體來看,大部分人認為這就是V4的“搶先體驗版”或“性能閹割版”,提前灰度測試,再發佈完整版。
有開發者猜測,DeepSeek這次灰度測試的其實有兩個大小不同的版本。小版本參數量200B左右,大版本參數量達到1.4T。而大參數量的版本,性能應該是對標Claude Opus4.6的。
而且,從目前放出的版本來看,依然沒有“多模態”。DeepSeek還是在繼續堅持純語言路線。
但是,接近DeepSeek的人士透露,“這不是V4,就是一個小版本更新。”
2025年春節開始,DeepSeek一直處於聚光燈下,但是卻低調地可怕。DeepSeek的公眾號自2025年1月20日更新R1之後,一共發佈了10篇文章,篇篇10w+,置頂的是《DeepSeek-V3.1發佈,邁向Agent時代的第一步》。只有模型版本的更新會發佈官方公眾號,而重要論文、開源成果等,僅發佈arXiv和官方程式碼倉庫。
全年幾乎沒有任何高管公開對外發出除了技術分享之外的聲音。
所以,這次萬眾矚目的DeepSeekV4春節發佈,成了一場“全民猜猜看”遊戲,官方一直沒有任何回應。
國產晶片及大模型基礎設施廠商,是DeepSeek新版本發佈前最積極的“猜猜看”參與者之一。能否在V4發佈的第一時間提供完整適配支援,已成為檢驗廠商技術實力與服務響應速度的試金石,也直接決定了能否搶佔流量紅利的第一波紅利窗口期。
各個廠商的人互相打聽DeepSeekV4發佈的時間,但是所有人都沒有確切消息。
一家國產晶片廠商的工程師說:“DS這個沒人知道確切時間,都在等著它降臨。”
“DeepSeek給到的資訊太少了,但是就是有預警,我們都得帶著電腦回家。”另外一家晶片廠商同樣表示在時刻準備著DS的發佈。
還有傳言表示,DeepSeekV4會在大年三十或大年初一直接“炸場”。
全行業都在S級預警中,準備在春節期間,做Day0(24小時之內)窗口期適配。
與DeepSeek靜悄悄相對應的是,整個大模型行業,早已經卷了起來。
從Kimi K2.5於1月27日發佈 ,選擇的時機很好,正值個人Agent開源框架OpenClaw大火。這個由Peter Steinberger打造的本地自託管AI助手項目,兩周內在GitHub突破15萬Stars,而K2.5的特性恰好與之高度契合。
K2.5具有原生多模態視覺編碼能力,以及可自主調度多達100個子智能體、平行處理1500個步驟的Agent叢集(Agent Swarm),近兩周後便以1.16兆token的周呼叫量登上了OpenRouter總榜榜首,超過Gemini 3 Flash和Claude Sonnet 4.5。
隨後,開源社區中,一個神秘的Pony Alpha模型於2月初以“匿名模型”的方式出現在OpenRouter,主打編碼、推理和智能體工作流最佳化 ,可以執行長程Agent任務和複雜系統工程,總參數744B、啟動參數僅40B,首次整合DeepSeek Sparse Attention大幅降低部署成本 ,2月11日被智譜官方確認就是GLM-5 ,智譜官方也特別強調,GLM-5的模型體感可以對齊Opus4.5。
隨著GLM-5的官宣,智譜港股近四日累計漲幅超110% ,僅2月12日當天就一度漲超41%,收盤漲28.68%,總市值達1792億港元。
智譜在上線GLM-5的同時,也宣佈GLM Coding Plan套餐漲價30%起,被長江證券解讀為國產大模型從“燒錢拓客”階段正式進入需求驅動時代。
就在同一天,MiniMax悄悄上線M2.5,啟動參數量僅10B,每秒輸出100 token的情況下連續工作一小時僅需1美元,官方稱具備了“像架構師一樣思考和建構”的能力,期待能夠加速全面Agent時代的到來。股價在過去五個交易日累計上漲約35%。同樣也在模型官宣稿件中提到,綜合來看,M2.5與Opus4.5表現相當。
Openclaw的火爆是一個偶然也是一個必然,AI創業者Jayden提到:“行業太需要一個for個人的、開源的Agent框架,不是Openclaw也會是別的。”
這個純靠技能、記憶與API協議持續工作的“無頭智能體”從概念走向可用,從需求側倒逼了大模型的能力演進方向:Agent的自主規劃、多步工具呼叫、長期上下文記憶特性,再加上7×24小時常駐運行的需求,讓Token消耗從傳統問答式的零散消耗,變成規模化、持續性的巨量消耗直接將模型競爭的核心維度推向了“Agentic工具編排能力、長程任務規劃、持久化記憶與超長上下文處理”這一新範式。
在這一範式下,ClaudeOpus4.6的能力是行業公認的天花板。從各方猜測來看,對DeepSeekV4的期待,也是能夠追趕或者拉平Opus4.6的能力,同時性價比更高。
在DeepSeekV4之前,各家模型廠商,已經開始搶佔這個賽道。
“很關鍵的一點,傳聞DeepSeek V4很強,所以晚發不如早發,撞車等於白髮。所以大家現在的策略就是‘搶跑’,趁著超級頭部還沒扔‘核彈’之前,先把自己的牌打出去。一旦DS V4發佈且效果炸裂,輿論關注度會被瞬間吸乾,那時候再發模型就真的‘發了個寂寞’了。”一位大模型演算法工程師說。
“太累了,即使不在公司,也得帶著電腦。但是沒辦法,現在也是一個範式的升級期,如果不證明自己跟上了步伐,後果很可怕。”
開源社區也有各種爭論,國產模型的使用體感還是和Opus4.6差太多。但是,2026年上市的大模型公司智譜AI和Minimax,市值都已經衝擊2000億港元大關。
“Agentic(智能體化) 是預訓練和RL+PostTrain(後訓練強化學習)之後第三個模型比較大的範式。而我們在這裡面又看到了開源模型的SOTA,資本市場認可的主要是這個邏輯。”一名券商首席分析師指出。
置頂的DeepSeek文章,突出的也是“Agentic”。DeepSeekR1引發上一波熱潮,也是大模型上一個範式進化之時。
國產大模型激戰背後,DeepSeek給到的壓力只是一方面,另外一條更重要的暗線是,在範式轉換之時,沒有一家大模型廠商“敢掉隊”,保持在牌桌上至關重要。
最後,還有一個問題,不按常理出牌的Deepseek,真的會陪我們過春節嗎? (騰訊科技)