DeepSeek離下一代架構,又近了一步!智東西9月30日報導,昨日,DeepSeek宣佈開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制,並在幾乎不影響模型輸出效果的前提下,大幅度提升了長文字訓練和推理效率,被DeepSeek定義為“邁向新一代架構的中間步驟”。HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp魔搭社區地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp這一改進還降低了DeepSeek新模型的服務成本,DeepSeek因此執行了新的價格政策,讓開發者呼叫DeepSeek API的成本降低50%以上。降價幅度最大的為輸出token的價格:DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元,為DeepSeek-V3.1系列模型的1/4。截至9月30日上午6點,華為雲、PPIO派歐雲、優刻得等雲平台已宣佈上線DeepSeek-V3.2-Exp,華為、寒武紀、海光資訊等AI晶片廠商已經宣佈適配DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎上打造的。在各領域的公開評測集上,兩款模型的表現基本一致,不過,DeepSeek-V3.2-Exp完成任務使用的token量大幅度減少。目前,DeepSeek App、網頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API介面,方便開發者進行對比驗證。除模型本體外,DeepSeek還開源了相關技術報告及程式碼,並提供TileLang與CUDA雙版本GPU算子,以便研究者在不同層級進行實驗和最佳化。技術報告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfDeepSeek還補充道,作為一個實驗性的版本,DeepSeek-V3.2-Exp雖然已經在公開評測集上得到了有效性驗證,但仍然需要在使用者的真實使用場景中進行範圍更廣、規模更大的測試,以排除在某些場景下效果欠佳的可能。01.華為、海光、寒武紀光速適配,網友直呼第二個DeepSeek時刻要來了DeepSeek-V3.2-Exp一經推出,便在產業界與開發者圈子裡引發熱烈反響,不少國內企業紛紛第一時間宣佈完成DeepSeek-V3.2-Exp的適配和上線。華為計算公眾號發文宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並面向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp在昇騰裝置上128K長序列輸出,能夠保持TTFT(首token輸出耗時)低於2秒、TPOT(每token輸出耗時)低於30毫秒的推理生成速度。華為雲則首發上線了DeepSeek-V3.2-Exp,還使用CloudMatrix 384超節點為該模型提供推理服務。在DeepSeek發文宣佈DeepSeek-V3.2-Exp模型開源後的4分鐘,寒武紀也發文稱其已同步實現對該模型的Day 0適配,並開源大模型推理引擎vLLM-MLU原始碼。寒武紀通過Triton算子開發實現了快速適配,利用BangC融合算子開發實現了性能最佳化,並基於計算與通訊的平行策略,達成了較高的計算效率水平。DeepSeek-V3.2-Exp模型的尺寸達671GB,僅下載就可能需要數小時。這種時隔4分鐘的Day 0適配,或許意味著寒武紀和DeepSeek兩家企業在模型發佈前就已經啟動適配工作。據經濟觀察網報導,海光資訊的DCU(深度計算處理器)率先實現了對DeepSeek-V3.2-Exp的Day 0級高效適配與最佳化,確保大模型算力“零等待”部署。在DeepSeek官宣DeepSeek-V3.2-Exp開放原始碼的推文中,有不少網友分享了對模型的使用體驗和感受。有位網友稱,自己在10萬個token的程式碼庫上測試了DeepSeek-V3.2-Exp,速度提升非常明顯。有網友感嘆,DeepSeek API現在幾乎等同於免費了。更有網友認為,這一模型的推出,或許意味著第二個DeepSeek時刻即將到來。Hugging Face上,DeepSeek-V3.2-Exp的社區類股也有不少討論,不過,關注度最高的一條帖子,是來自中國網友的“吐槽”:“咱這個模型是非得國慶前更新嗎?”還有網友列出了DeepSeek每次更新模型的時間,幾乎都卡在節假日的前幾天。02.一手體驗DeepSeek-V3.2-Exp架構創新或許比性能提升更重要DeepSeek-V3.2-Exp在使用體驗上,究竟與此前的DeepSeek-V3.1-Terminus有何不同?在程式設計方面,DeepSeek-V3.2-Exp撰寫的程式碼明顯更為簡短了,相同的任務下,其輸出的程式碼行數要少於DeepSeek-V3.1-Terminus。不過,這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫程式碼未能正常運行,小球直接飛出了六邊形的範圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務。智東西還讓DeepSeek-V3.2-Exp完成了一項資訊檢索任務,要求它推薦幾種適合新手在陽台盆栽的、生長快、果子能直接生吃的植物,並且要保證對小孩絕對安全,最好能附上簡單的播種技巧。與DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成結果更為簡短,用詞也比較“樸素”。並且,DeepSeek-V3.2-Exp推薦的無花果、百香果等植物,需要進行扦插、高頻率養護等操作,並不符合提示詞要求的新手友好。▲DeepSeek-V3.1-Terminus(左)與DeepSeek-V3.2-Exp(右)在資訊檢索任務上的表現(圖源:智東西)總體而言,DeepSeek-V3.2-Exp確實在推理效率上實現提升,但卻在能力上做出了一定的讓步。知乎博主@toyama nao也在測評中發現了類似的問題。他認為,DeepSeek-V3.2-Exp在工作記憶、計算精度穩定性等方面存在明顯短板,還容易有偷懶傾向和陷入死循環的可能。▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價這也得到了其他網友觀點的印證,例如,這位網友便在x平台發貼稱,並沒在這款模型上看到改進,並提出質疑:我們為什麼要使用能力降級的模型呢?作為一款實驗模型,DeepSeek-V3.2-Exp更大的貢獻或許在於理論層面。DeepSeek稱,與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架構上的唯一修改,就是通過繼續訓練引入了DeepSeek Sparse Attention。目前的DSA機制還處在原型期,主要由兩個元件構成:一個Lightning Indexer(閃電索引器)和一個細粒度的token選擇機制。▲DeepSeek-V3.2-Exp架構圖Lightning Indexer能夠快速評估查詢token與歷史token的相關性,從選擇機制只挑選最相關的一部分上下文進入注意力計算,這讓複雜度從傳統的二次方降到了近似線性水平,大幅降低了訓練和推理的成本。在訓練上,DeepSeek-V3.2-Exp採用了“繼續預訓練+後訓練”的方式。繼續預訓練分為兩個階段:首先在稠密模式下短暫訓練indexer,讓它的輸出和標準注意力保持一致;隨後引入稀疏選擇機制,逐漸讓模型適應新的計算方式。完成預訓練後,DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行後訓練。專家蒸餾的思路是針對數學、程式設計、推理等不同領域訓練專門的專家模型,然後將這些模型的知識壓縮排通用模型。混合強化學習則將推理、智能體能力和人類對齊訓練統一在一個RL階段中,避免了傳統多階段方法容易出現的遺忘問題。技術報告顯示,DeepSeek-V3.2-Exp在大多數評測任務上的表現與前代基本持平,個別推理相關的測試分數略有下降,但主要原因是生成的推理token更少,如果使用中間檢查點,差距則會縮小。相比之下,效率的提升尤為顯著。在H800 GPU的測試環境中,長序列推理的開銷明顯降低,證明DSA在真實部署中有很強的實用性。同時,訓練曲線與前代模型保持相似的穩定性,也表明這種架構在收斂性上並沒有額外風險。03.結語:DeepSeek邁向新一代架構正如其名字內的Exp(實驗版)所言,DeepSeek-V3.2-Exp的推出,本身並不是一次性能爆表的升級,而更像是一場架構實驗,展示了一種在長文字處理中兼顧性能和效率的新路徑。作為技術原型,DeepSeek-V3.2-Exp背後的DSA機制或許很快就會得到進一步完善。隨著相關技術的持續最佳化和更多企業、研究者參與驗證,DeepSeek有望在不久的未來交出更令人驚喜的成果。 (智東西)