就在剛剛,五一休假剛結束,DeepSeek團隊悄悄更新了V4模型論文。
儘管這份論文依舊是58頁,但增加了大量13天前V4預覽版論文中沒披露的資訊。
我看完之後發現,這份“完整版”DeepSeek V4論文當中,梁文鋒藏了半年的算力底牌一次性全曝光。
以下是我總結的完整版論文的更新內容:
1、相比預覽版,這次完整版V4論文中,大量增加FP4量化訓練過程的細節,以及首次公佈獨有訓練穩定方案:預路由+SwiGLU clamping。
2、新增生成式獎勵模型GRM、百萬級上下文加速細節,新增更多MegaMoE核心、DeepGEMM開源等資訊,以及修正了包括Host Codegen、SMT 整數分析、位精度可復現性,以及KV Cache 異構結構、磁碟快取策略,預訓練/微調的精確超參、學習率、batch size等資訊。
3、另外,這次完整版論文,DeepSeek修改了部分真實場景的測評結果,包括中文寫作、搜尋、白領任務、程式碼 Agent等。
其中提到,中文寫作當中,DeepSeek V4系列模型勝率高達77.5%;白領專業任務下的30項高級任務中,DeepSeek V4完全不輸Claude Opus 4.6。
整體來說,新的DeepSeek V4論文更加完整,很多資料更加嚴謹。
實際上,過去兩周,圍繞DeepSeek V4的話題不斷,一方面新的V4模型接入華為昇騰的算力平台,而導致推遲發佈;另一方面,V4兩度大幅降價,使得全系列API服務的輸入快取命中價格進一步降至原有價格的1/10,但模型性能比肩GPT-5.5、GLM的水平,引發廣泛關注。
就在剛剛,DeepSeek再度被曝出融資消息。
領投方包括半導體大基金(國家積體電路產業投資基金)等,其他入股投資方包括騰訊、阿里等,梁文鋒也可能會參與投資,但最終的投資者陣容尚未確定。
最新的DeepSeek的估值達到約450億美元(約合人民幣3000億元),比兩周前曝光的200億美元估值,翻了一倍。
4月24日,DeepSeek-V4的預覽版本正式上線並同步開源。
新的DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現領先水平,其最大的優勢在於同時實現輝達和華為昇騰算力訓練。
此次完整版V4論文,DeepSeek團隊進行了大量修正和增加內容。
1、新增最多的一部分就是:FP4量化感知訓練資訊。
DeepSeek提到,V4在後期訓練裡直接用上了FP4量化感知訓練,目的就是讓模型跑起來更快、更省視訊記憶體。
其中,把最佔視訊記憶體的MoE 專家權重和長文字注意力的QK 計算都壓成 FP4 精度,轉成FP8計算時完全不損失精度,還能直接相容現有框架,速度直接快 2 倍,關鍵資訊找回率還能保持 99.7%,而推理時直接用FP4權重運行,又快又省視訊記憶體,效果還不掉。
具體來說,為了實現推理加速並減少部署時的記憶體流量,團隊將FP4(MXFP4)量化應用於兩個元件:(1)、MoE專家權重,這是GPU記憶體佔用的主要來源;(2)、CSA索引器中的查詢-鍵(QK)路徑,其中QK啟動值以FP4格式進行快取、載入和乘法運算,從而加速長上下文場景中的注意力分數計算。
此外,在此QAT過程中,團隊進一步將索引分數從FP32量化至BF16。這一最佳化使QK選擇器實現了2倍加速,同時保持了KV計算99.7%的召回率。
論文指出,通過採用混合CSA與HCA,並對計算和儲存進行精度最佳化,DeepSeek-V4系列與DeepSeek-V3.2相比,推理FLOPs顯著降低,KV快取大小大幅縮減,在長上下文場景下優勢尤為明顯。
在1M tokens上下文場景中,即使是啟動參數量更大的DeepSeek-V4-Pro,其單FLOPs(以等效FP8 FLOPs計算)僅為DeepSeek-V3.2的27%,KV快取大小僅為後者的10%。
此外,啟動參數量更小的DeepSeek-V4-Flash進一步提升了效率:在1M令牌上下文設定下,它的單FLOPs僅為DeepSeek-V3.2的10%,KV快取大小僅為後者的7%。
另外,DeepSeek-V4系列的路由專家參數採用FP4精度。目前現有硬體上FP4×FP8運算的峰值FLOPs與FP8×FP8持平,但從理論上來說,未來硬體可以讓該運算的效率提升三分之一,這將進一步提高DeepSeek-V4系列的效率。
2、DeepSeek首次公佈獨有訓練穩定方案:預路由+SwiGLU clamping。
DeepSeek提到,訓練兆參數這種超大模型,本身就特別容易出問題 ——訓練崩、損失暴漲、訓著訓著就不穩定,DeepSeek-V4 也沒躲開這個行業難題。簡單的回滾操作只能臨時救場,沒法從根上解決反覆炸損的問題。
研究人員發現,不穩的根源主要在 MoE 層的異常數值,而且路由機制還會讓這種異常越來越嚴重,形成惡性循環。為了把訓練徹底穩住,他們從兩個方向下手,最終拿出兩套非常實用、能直接落地的穩定方案:
第一個叫預判路由(Anticipatory Routing)。
簡單說就是不讓主模型和路由模組同步更新,故意 “錯開”:當前步用最新參數算特徵,但路由分配卻用之前的舊參數來算,提前算好、快取起來,從邏輯上切斷惡性循環。這套做法還做了大量工程最佳化,只會增加大概 20% 的耗時,並且系統會自動監測,只有炸損失時才開啟,穩住之後自動切回普通模式,既解決崩潰問題,又幾乎不影響訓練效率和最終效果。
第二個叫SwiGLU Clamping。直接在啟動函數上做限制,把 SwiGLU 的線性部分強行約束在-10到10之間,門控部分上限也設為 10。這麼一做,模型裡的極端異常值直接被 “按住”,訓練瞬間穩了很多,而且不會損傷模型的能力。
靠著一系列關鍵技術,DeepSeek-V4成功搞定了兆MoE模型最頭疼的訓練穩定性難題,讓超大模型能穩穩訓完。
過去做模型最佳化,簡單任務用規則檢查就行,難驗證的複雜任務只能靠RLHF 人類反饋,但這種方法需要大量人工標註,成本高、效率低。
而論文首次提到,DeepSeek-V4直接拋棄了傳統的單值獎勵模型,改用了一套生成式獎勵模型(GRM)。
簡單說,就是不用額外訓練單獨的打分模型,而是讓模型自己當裁判:用同一個模型一邊生成答案、一邊評估答案,把“生成能力”和“評判能力”一起訓練、一起變強。
訓練時,用帶評分標準的資料做引導,讓模型自己學會判斷回答好不好、對不對、邏輯嚴不嚴謹。好處非常明顯:
1、只需要很少量的人工標註,模型就能靠自己的推理能力泛化到複雜任務;
2、評判過程自帶邏輯思考,打分更穩、更準;
3、生成和評判一體,效果比傳統獎勵模型強得多。
這套GRM機制,讓DeepSeek-V4在沒有大量人工標註的情況下,依然把複雜任務的對齊能力拉到了很高水平。
這是DeepSeek-V4系列的工具呼叫 schema,最終效果層面非常穩定和精準,整個過程也有了更多的思考能力。
同時,完整版DeepSeek-V4論文,還增加了百萬級上下文加速等內容:
1、全新工具呼叫格式與互動機制。完整版公開了 <|DSML|> 格式的 XML 工具呼叫規範,同時新增交錯思考(Interleaved Thinking) 機制,在工具互動場景下全程保留推理鏈內容,不再因使用者新消息清空歷史思考;還新增了 Quick Instruction 專用指令體系,通過特殊 token 讓模型直接復用 KV 快取平行完成搜尋、分類、標題生成等輔助任務,顯著降低首 token 延遲。
2、百萬上下文推理工程全套實現。完整版大幅擴充了推理框架與 KV 快取管理內容,首次公開百萬上下文工程化落地的完整方案:包括異構 KV 快取結構、狀態快取(State Cache)、磁碟快取(On-disk KV Cache)以及共享前綴復用機制,並提供三種滑動窗口快取策略用於工程部署。同時補充了上下文平行(Contextual Parallelism)的兩階段通訊方案,解決超長序列跨卡壓縮與計算問題。
3、真實場景大規模人類評估。完整版新增大量真實業務場景的系統性測評,包括中文寫作、搜尋增強問答、白領專業任務、程式碼智能體等大規模人工對比資料,公開了在各類實用場景下 DeepSeek-V4-Pro 對比 Gemini、Claude 的勝率與得分,完整展現模型在真實使用中的落地效果,這些資料在精簡版中完全缺失。
4、完整基礎設施、作者與附錄。完整版將基礎設施章節拆分為專家平行、TileLang 核心、批不變與確定性算子、訓練框架、推理框架等精細小節,補充大量工程最佳化細節與加速資料;同時新增完整作者列表、致謝與評估細節附錄,是一份可復現、可核查、完全開放的正式技術報告。
此外,完整版DeepSeek V4論文增加了基準測試的最新結果。
其中,在附錄提到的搜尋增強問答測試中,在DeepSeek網頁端和應用端,“非思考”模式採用檢索增強搜尋(RAG),而“思考”模式則使用智能體搜尋。
對於檢索增強搜尋,在客觀和主觀問答兩個類別中的評估中,DeepSeek-V4-Pro的表現大幅優於DeepSeek-V3.2,在兩個類別中均展現出穩定優勢,提升最顯著的是單值搜尋以及規劃與策略任務。不過,DeepSeek-V3.2在對比和推薦任務中仍保有相當的競爭力,說明DeepSeek-V4-Pro在需要對搜尋結果進行均衡、多視角推理的場景中仍有改進空間。
而智能體搜尋上,V4智能體搜尋的表現始終優於RAG,在複雜任務上的優勢尤為明顯。此外,智能體搜尋的成本效率依然很高,僅比標準RAG高出微不足道的成本。
在中文寫作中,結果顯示,DeepSeek-V4-Pro以62.7%對34.1%的整體勝率,優於基準模型Gemini-3.1-Pro,這主要是因為Gemini在中文寫作場景中偶爾會因其固有的風格偏好而覆蓋使用者的明確要求。
創意寫作方面,與Gemini-3.1-Pro相比,DeepSeek-V4-Pro在指令遵循方面取得了60.0%的勝率,在寫作質量方面取得了77.5%的勝率,表明其在指令遵循上略有提升,而在寫作質量上則有顯著進步。
儘管DeepSeek-V4-Pro在整體使用者案例分析中表現更優,但針對最具挑戰性的提示詞(特別是涉及高複雜度約束或多輪場景)的評估顯示,Claude Opus 4.5以52.0%對45.9%的勝率領先。
白領任務層,DeepSeek建構了一套包含30項高級中文專業任務的綜合評測套件,覆蓋13個關鍵行業如金融、教育、法律與科技等。
結果顯示,DeepSeek-V4-Pro-Max在各類中文任務上的表現優於Opus-4.6-Max,取得了63%的出色不敗率,且在分析、生成與編輯類任務中均展現出穩定優勢。
最後,DeepSeek還修改了編碼智能體測試結果。
結果顯示,DeepSeek-V4-Pro編碼智能體能力顯著優於Claude Sonnet 4.5,並接近Claude Opus 4.5的水平。
當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好作為他們的默認首選編碼模型時,52%的人表示肯定,39%的人傾向於肯定,而表示否定的人數不足9%。
受訪者認為DeepSeek-V4-Pro在大多數任務中能提供令人滿意的結果,但也指出其存在細微錯誤、對模糊提示的誤解以及偶爾過度思考的問題。
總結就是,DeepSeek-V4-Pro的性能和能力不輸給Claude和GPT能力,甚至中文寫作能力要高於GoogleGemini-3.1,但距離Opus 4.5還略有一些差距。
照例我還是要總結一下這篇文章。
五一之前,DeepSeek多模態模型論文突然刪了,引發廣泛關注,也讓我們等待DeepSeek帶來新的moment。
然而,五一之後,我們終於等來了DeepSeek-V4的論文更新:藏了半年的算力底牌一次性全曝光,核心技術全公開。
我看完 DeepSeek-V4 完整版論文才真正明白,如今大模型的競爭早已不只是參數和效果,更是效率、穩定性、工程化的全面較量。
從FP4量化到百萬上下文加速,從訓練防崩機制到生成式獎勵模型,每一處細節都在把“不可能”變成“可落地”,讓人真切感受到DeepSeek-V4大模型正在從追趕走向引領。
然而,從我們感知上來說,DeepSeek-V4雖然沒引發去年R1時候的“DeepSeek時刻”,但V4再度鞏固了國產AI大模型在高性價比層面的重要優勢,令AI和投資行業印象深刻。
這波,DeepSeek直接把開源大模型的效率天花板捅破了!
據報導,一位考慮投資DeepSeek的人士透露,DeepSeek的編碼能力名列前茅,其同行公司如智譜、MiniMax預計營收將持續飆升,市值超過3000億。
因此,鑑於 DeepSeek 的估值已大幅上漲,梁文鋒可能會考慮籌集更多資金,以增加未來投資計算能力的資金儲備。
顯然,DeepSeek有望成為國內另一家AI大模型“巨龍”。
我們有理由相信,隨著資源、人才、技術的進一步聚集和迭代,梁文鋒的下一代更輕、更快、更強的DeepSeek大模型,已經近在眼前。 (智能紀元AGI)
