#DeepSeek-V4
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)
梁文鋒署名新論文,DeepSeek V4架構首曝?直擊Transformer致命缺陷
【新智元導讀】深夜,梁文鋒署名的DeepSeek新論文又來了。這一次,他們提出全新的Engram模組,解決了Transformer的記憶難題,讓模型容量不再靠堆參數!剛剛 ,DeepSeek新論文發佈了,梁文鋒署名!這一次,他們聯手北大直接瞄準了「記憶」,是Transformer最致命的關鍵難題。如今,MoE成為大模型主流架構,但本質仍是Transformer,因其缺少原生「知識尋找」機制,很多檢索能力被迫用大量計算去模擬。33頁論文中,團隊提出了 MoE 互補的「條件記憶」稀疏軸,並通過一種全新的Engram模組去實現:將經典雜湊N-gram嵌入現代化,提供近似O(1)的確定性知識尋找。論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf通過「稀疏分配」(Sparsity Allocation)建模,他們意外發現MoE與Engram之間,存在「U形scaling law」。這意味著,需調整兩者之間資源比例,讓計算與靜態記憶間找到最優權衡。沿著這個規律,將Engram擴展到27B參數後,並在嚴格等參數、等FLOPs下優於MoE基線。直白講,MoE只解決「怎麼少算」,Engram直接解決「別瞎算」。它把該查的交給 O(1)記憶,把注意力從局部瑣碎中解救出來,結果不只是更會背知識,同時推理、程式碼、數學一起變強。這可能成為稀疏LLM下一條主流路線,更重要的是,下一代V4或將整合這一新方法。不再苦算,給Transfomer插入「電子腦」當前,LLM越做越大已成為「鐵律」,一條熟悉的路徑是——把參數做大,把計算做「稀疏」。混合專家模型(MoE)就是典型代表,每個token只需啟動少量專家,用「條件計算」讓參數規模飆升,FLOPs還能控住。從Artifical Analysis榜單中可以看出,現有的稀疏大模型,主流都是MoE。但問題在於,Transformer缺少一種「原生的知識尋找」能力,所以很多本該像檢索一樣 O(1)解決的事,被迫用一堆計算去「模擬檢索」,效率很不划算。北大和DeepSeek新論文帶來一個很有意思的觀點:稀疏化不只服務「計算」,也可以服務「記憶」。由此,團隊提出了Engram,把語言建模中大量「固定、局部、刻板」的模式,交給一個可擴展的查表模組去承擔。這樣一來,可以讓Transformer主幹把注意力和深度用在更需要「組合與推理」的地方。語言建模,兩類任務論文中,作者明確將語言建模拆成兩類子任務:一部分任務需「組合與推理」:上下文關係、長程依賴、邏輯推理、鏈式推理。另一部分任務更像「模式檢索」:實體名、固定搭配、常見短語、語法片段、重複出現的局部結構後者的一個共同點很明顯,即它們往往局部、穩定、重複出現。若是用多層注意力和FFN去「算」他們,模型做得到,但成本極高,還會擠佔早期層的表達空間。為了識別實體「戴安娜,威爾士王妃」(Diana,Princess of Wales),LLM必須消耗多層注意力和FFN來逐步組合特徵,這個過程理論上是可以通過一次知識尋找操作來完成的。而Engram想做的事情很直接——把這類「局部靜態模式」轉移到一個廉價的知識尋找原語。它用確定性的查表快速給出候選資訊,再由上下文決定是否採納。Engram核心架構:暴力查表+記憶開關Engram一詞源於神經學,本意為「記憶痕跡」,是一種可擴展、可檢索的記憶單元。它可以用於儲存LLM在推理過程中,可能已接觸過的模式、資訊片段。可以將Engram理解為,把經典「雜湊N-gram嵌入」現代化,做成插在Transformer中間層的一個「可擴展查表模組」。如圖1所示,Engram是一個條件記憶模組,旨在通過從結構上將靜態模式儲存與動態計算分離開來,從而增強Transformer骨幹網路。形式化地說,給定輸入序列X=(x_1,...,x_T)和第l層的隱藏狀態H^(l)∈R^Txd,該模組分兩個功能階段來處理每個位置t:檢索和融合。接下來,一起看看Engram的關鍵設計點。基於雜湊N-gram的稀疏檢索第一階段主要負責將局部上下文對應到靜態的記憶條目中,這通過分詞器壓縮(tokenizer compression)和確定性雜湊檢索嵌入來實現。分詞器壓縮為了最大化語義密度,作者引入了一個詞表投影層。他們預先計算了一個滿射函數P:V→V',利用歸一化的文字等價性(比如NFKC、小寫化等手段)將原始Token ID坍縮成規範識別碼。這個過程能讓128k大小的分詞器有效詞表大小減少23%。多頭雜湊要想直接參數化所有可能的N-grams組合空間,計算上是行不通的。作者採用了一種基於雜湊的方法。為了減少沖突,給每個N-gram階數n分配了K個不同的雜湊頭。每個頭k通過一個確定性函數φ_n,k,將壓縮後的上下文對應到嵌入表E_n,k中的一個索引:上下文感知門控檢索到的嵌入e_t充當的是上下文無關的先驗資訊。不過,它們容易受到雜湊衝突或多義詞帶來的噪聲干擾。為了增強表達力並解決這種歧義,作者採用了一套受注意力機制啟發的上下文感知門控機制。他們利用當前的隱藏狀態h_t作為動態的Query,而檢索到的記憶e_t則作為Key和Value投影的來源:其中W_K,W_V是可學習的投影矩陣。為了保證梯度穩定性,他們在計算標量門α_t∈(0,1)之前,先對Query和Key進行RMSNorm處理:最後,為了擴大感受野並增強模型的非線性,作者還引入了一個短的深度因果摺積:門控可視化為了實證驗Engram是否按預期行為,作者在圖7中可視化了Engram-27B在各種樣本上的門控標量α_t。結果展示了,明顯的選擇性模式。門控機制在完成局部、靜態模式時一致地啟動(顯示為紅色)。在英文中,觀察到在多Token命名實體(如Alexander the Great、the Milky Way)和固定短語(如By the way,Princess of Wales)上有強烈的啟動。關鍵是,這種行為有效地跨語言泛化。在中文demo中,Engram識別並檢索獨特的習語表達和歷史實體,比如「四大發明」和「張仲景」。這些定性結果證實,Engram成功識別並處理了固定的語言依賴關係,有效地將Transformer骨幹網路從記憶這些靜態關聯中解放出來。系統效率:計算與儲存解耦擴展記憶增強型模型往往受限於GPU高頻寬記憶體(HBM)的容量。然而,Engram的確定性檢索機制天生就支援將參數儲存與計算資源解耦。與依賴執行階段隱藏狀態進行動態路由的混合專家模型(MoE)不同,Engram的檢索索引僅取決於輸入的Token序列。這種可預測性為訓練和推理提供了專門的最佳化策略,如圖2所示。訓練階段,為了容納大規模嵌入表,他們採用標準的模型平行策略,將表分片儲存在可用的GPU上。推理階段,這種確定性特性使得「預取和重疊」策略成為可能。U型Scaling Law,揭秘最優分配比Engram作為條件記憶的一種實現形式,在結構上與MoE專家提供的條件計算是互補的。這裡,主要研究了以下兩個關鍵問題:1. 有限約束下的分配2. 無限記憶體場景作者通過三個參數指標來分析MoE和Engram之間的權衡:P_tot:總可訓練參數,不包括詞表嵌和LM頭。P_act:每個Token的啟動參數量。這個數值決定了訓練成本(FLOPs)。P_sparse≜P_tot-P_act:非啟動參數,這代表了「免費」的參數預算,可用於在不增加計算成本的情況下擴展模型規模。作者將分配比例ρ∈[0,1]定義為分配給MoE專家容量的非啟動參數預算的比例:直觀來說:ρ=1對應純MoE模型(所有非啟動參數都是參與路由的專家)。ρ<1則減少路由專家的數量,並將釋放出來的參數重新分配給Engram嵌入槽位。結果與分析圖3(左)展示了驗證損失與分配比例ρ之間存在一致的U型關係。這種U型關係證實了兩個模組之間的結構互補性:MoE主導(ρ→100):模型缺乏用於儲存靜態模式的專用記憶體,迫使它只能通過增加深度和計算量來低效地重建這些模式。Engram主導(ρ→0%):模型失去了條件計算能力,從而損害了那些需要動態、上下文依賴推理的任務;在這種場景下,記憶無法替代計算。接下來,作者探索了一種互補的設定:激進的記憶體擴展。圖3(右)表明,擴充記憶體槽位的數量能帶來清晰且一致的驗證損失改善。在探索的範圍內,曲線遵循嚴格的冪律,這表明Engram提供了一種可預測的擴展調節手段:更大的記憶體能持續帶來收益,而無需額外的計算量。關於擴展效率關鍵的一點是:雖然OverEncoding的直接平均方法也能受益於更大的記憶體表,但Engram在相同的記憶體預算下解鎖了更大的擴展潛力。結合分配定律,這些結果驗證了——條件記憶可以作為稀疏容量的一個獨特且可擴展的維度,與MoE的條件計算相輔相成。爆殺傳統MoE,知識推理數學全面漲基於Engram架構以及實驗得出的分配定律,作者將Engram擴展到了數十億參數的等級,以此來驗證其在現實世界LLM預訓練中的有效性。他們訓練了以下四個模型:Dense-4B (總參數4.1B)MoE-27B (總參數26.7B)Engram-27B (總參數26.7B)Engram-40B (總參數39.5B)實驗結果首先,與先前的文獻結論一致,稀疏架構表現出了優於密集模型的擴展定律。在相同的訓練計算預算下,所有三個稀疏變體(MoE-27B,Engram-27B/40B)在所有基準測試中都顯著擊敗了等FLOPs的Dense-4B基線。更重要的是,Engram-27B始終優於等參數且等FLOPs的MoE-27B基線。有趣的是,這些收益並不僅限於知識密集型任務(MMLU:+3.0,MMLU-Pro:+1.8,CMMLU:+4.0)。在通用推理領域(BBH:+5.0,ARC-Challenge:+3.7,DROP:+3.3),以及程式碼和數學推理(HumanEval:+3.0,MBPP:+1.6,GSM8K:+2.2,MATH:+2.4)中,提升更為顯著。這些結果支援了他們的假設:引入一個專用的知識尋找原語所帶來的表示效率提升,要超過將所有稀疏預算都分配給條件計算的效果。最後,擴展到Engram-40B進一步降低了預訓練損失,並在大多數基準測試中提升了性能。可以觀察到,Engram-40B與基線之間的訓練損失差距在訓練後期仍在持續擴大,這表明擴大的記憶體容量在當前的Token預算內尚未完全飽和。注意力徹底解放,32k上下文性能狂飆通過將局部依賴建模的任務解除安裝給靜態尋找,Engram架構保留了寶貴的注意力容量來管理全域上下文。通過長上下文擴展訓練,作者證明了Engram在長程檢索和推理任務上帶來了顯著的提升。實驗結果1. 超越注意力機制的長上下文能力雖然注意力機制和位置編碼提供了處理上下文的結構基礎,但結果表明,長上下文性能並非僅由架構先驗決定。軌跡可見,長上下文性能與基座模型的通用建模能力本質上是掛鉤的。因此,嚴格的架構比較必須通過對齊基座模型的Loss來控制這一干擾變數,而不僅僅是簡單地對齊訓練步數。2. 受控設定下的架構優越性在上述原則的指導下,作者將Engram與MoE 基線進行了對比。當控制了基座能力後,Engram模組的效率增益就變得非常明顯:等Loss設定(46k vs. 基線):當對比預訓練Loss對齊的Engram-27B(46k)和完全訓練的MoE-27B(50k)時,Engram 展現出了顯著的增益。等FLOPs設定(50k vs. 基線):在標準的等計算預算下,Engram-27B(50k)進一步拉大了這一差距,確立了全面的最佳性能。極端設定(≈82%計算量):即便是提前停止訓練的Engram-27B(41k),在面對完全訓練的MoE-27B(50k)時依然極具競爭力。這凸顯了Engram架構內在的優越性。計算+記憶雙軸時代,直接融入V4?DeepSeek最新論文,打開了稀疏化的第二條路,是一條非常具有啟發性的路線:稀疏化模型進入了「計算+記憶」雙軸時代。MoE繼續負責動態計算與推理Engram負責儲存與檢索靜態知識與局部模式如上的U型scaling law證明了,稀疏預算全部給MoE,不是全域最優,留出一部分給Engram整體更強。1. 稀疏化目標變得更豐富了條件計算解決了FLOPs,條件記憶解決了容量與模式檢索,兩線均可互補。2. Engram收益帶有結構性它讓LLM知識能力暴漲同時,也間接提升了推理、數學、程式碼的性能,因為Transfomer主幹的深度和注意力計算效用更「值錢」了。3. 確定性查表,很適合系統最佳化模型預取和解除安裝很大,為「更大參數、同等吞吐」提供了一種可行的工程路線。如今,全網都在猜測,春節檔的V4有很大機率會把Engram融入主幹架構。回看此前DeepSeek路線:DeepSeek V2曾引入MLA,大幅提升了推理效率和KV快取友好度;DeepSeek V3持續最佳化MoE,實現無損負載平衡,訓練更穩定,成本更低。若是V4真的把Engram落地,那將不僅是參數規模的提升,更是架構範式的又一次躍遷。再加上,此前爆出,V4程式碼實力可能趕超Claude、ChatGPT系列。今年的春節大禮,真是讓人期待。(新智元)
DeepSeek V4爆春節登場!四大殺招突襲全球程式設計王座,Claude危
DeepSeek春節憋大招,V4要當「程式設計之神」!一個月後程式碼圈變天?每逢假期,必發新品。Information爆料稱,DeepSeek將計畫在2月中旬,也正是春節前後,正式發佈下一代V4模型。而這一次,所有目光都聚焦在同一維度上——程式設計能力。目標:程式設計之王。據稱,DeepSeek V4程式設計實力可以趕超Claude、GPT系列等頂尖閉源模型。要知道,如今Claude是全網公認的程式設計王者,真要擊敗了它,那可真不是小事兒。毫無疑問,V4是繼去年12月V3的重大迭代版,但內部測試者普遍反饋:這不是一次常規的升級,而是一次質的跨越。復刻R1春節核爆,全網期待值拉滿此次發佈時間的選擇,同樣意味深長。還記得,去年1月20日,恰逢春節前夕,DeepSeek R1重磅出世,在全網掀起了巨震。R1的上線,最終被證明是教科書級的節奏:討論密度、傳播強度、社區反饋,全部被拉到了峰值。或許這一次,DeepSeek希望再次復刻這種「時間窗口效應」。回看過去一年,DeepSeek的發展軌跡,其實已經給出一條清晰的敘事線:DeepSeek V3嶄露頭角,讓國際開發者第一次正眼看這個來自中國的團隊。DeepSeek R1才是真正引爆的那個點。一款開源「推理」模型,把「先思考、再作答」變成顯性過程,用相對克制的訓練成本,實現了複雜問題上的驚人穩定性。這種「性價比反差」,直接擊中了矽谷最敏感的那根神經。隨後,DeepSeek在國內,推出了由R1+V3加持的聊天應用,短時間內成為了現象級應用。接下來的一年中,DeepSeek進行了多次模型版本迭代,比如V3.1、V3.2,智能體能力植入等等。進入2025年,開源早已成為整個行業最大共識。中國大廠與初創公司密集發佈和開源,中國AI的存在感被整體抬升了一個量級,被視為全球開源AI領導力量之一。上個月,DeepSeek V3.2出世,在部分基準測試上碾壓GPT-5、Gemini 3.0 Pro。這是DeepSeek在一直未推出真正意義上的重大換代模型的情況下,實現的反超。也正因如此,V4被賦予了比以往任何一次迭代都更高的期待。劍指程式設計王座,四大突破曝光從目前流出的資訊來看,DeepSeek V4在以下四個關鍵方向上,實現了核心突破,或將改變遊戲規則。程式設計能力:劍指Claude王座2025開年,Claude一夜之間成為公認的程式設計之王。無論是程式碼生成、偵錯還是重構,幾乎沒有對手。但現在,這個格局可能要變了。知情人士透露,DeepSeek內部的初步基準測試顯示,V4在程式設計任務上的表現已經超越了目前的主流模型,包括Claude系列、GPT系列。如果消息屬實,DeepSeek將從追趕者一步躍升為領跑者——至少在程式設計這個AI應用最核心的賽道上。超長上下文程式碼處理:工程師的終極利器V4的另一個技術突破在於,處理和解析極長程式碼提示詞的能力。對於日常寫幾十行程式碼的使用者來說,這可能感知不強。但對於真正在大型項目中工作的軟體工程師來說,這是一個革命性的能力。想像一下:你有一個幾萬行程式碼的項目,你需要AI理解整個程式碼庫的上下文,然後在正確的位置插入新功能、修復bug或者進行重構。以前的模型往往會忘記之前的程式碼,或者在長上下文中迷失方向。V4在這個維度上取得了技術突破,能夠一次性理解更龐大的程式碼庫上下文。這對於企業級開發來說,是真正的生產力革命。演算法提升,不易出現衰減據透露,V4在訓練過程的各個階段,對資料模式的理解能力也得到了提升,並且不容易出現衰減。AI訓練需要模型從海量資料集中反覆學習,但學到的模式/特徵可能會在多輪訓練中逐漸衰減。通常來說,擁有大量AI晶片儲備的開發者可以通過增加訓練輪次來緩解這一問題。推理能力提升:更嚴密、更可靠知情人士還透露了一個關鍵細節:使用者會發現V4的輸出在邏輯上更加嚴密和清晰。這不是一個小改進。這意味著模型在整個訓練流程中對資料模式的理解能力有了質的提升,而且更重要的是——性能沒有出現退化。在AI模型的世界裡,沒有退化是一個非常高的評價。很多模型在提升某些能力時,會不可避免地犧牲其他維度的表現。V4似乎找到了一個更優的平衡點。最近一周,CEO梁文鋒參與合著的一篇論文,也透露出一些線索:他們提出了一種全新的訓練架構,在無需按比例增加晶片數量的情況下,可以Scaling更大規模的模型。論文地址:https://arxiv.org/pdf/2512.24880技術溯源 從V3到V4,DeepSeek做對了什麼?要理解V4可能有多強,我們需要先回顧DeepSeek過去一年的技術積澱。MoE架構:用更少的計算做更多的事DeepSeek-V3的核心技術優勢在於其創新的MoE(混合專家)架構。V3擁有高達6710億的總參數,但推理時每個token只啟動約370億參數。這種稀疏啟動機制讓模型在保持超大規模的同時,維持了極高的推理效率。更重要的是,DeepSeek改進了傳統MoE模型的訓練方法,採用「細粒度專家+通才專家」的策略——使用大量小型專家而非少數大型專家,更好地逼近連續的多維知識空間。MLA:讓推理更快、更省記憶體另一個關鍵技術是MLA(多頭潛在注意力)機制。這項技術從V2就開始引入,通過將鍵(Key)和值(Value)張量壓縮到低維空間,大幅減少推理時的KV快取和記憶體佔用。研究表明,MLA在建模性能上優於傳統的分組查詢注意力(GQA),這是DeepSeek能夠在有限硬體條件下實現高性能的關鍵。R1強化學習經驗2025年1月發佈的DeepSeek-R1是一個由強化學習驅動的推理模型,其核心技術後來被融合到了更新版的V3中。這裡有一個關鍵資訊:V4很可能繼承了R1在強化學習方面的所有最佳化經驗。如果說V3是「基礎能力」,R1是「推理能力」,那麼V4很可能是兩者的完美融合——基礎能力+強化學習最佳化+程式設計專項突破。而且不要忘了剛剛發佈的新論文mHC。mHC:解決大模型訓練的根本性約束就在2025年12月31日,也就是V4爆料前不久,DeepSeek悄悄發佈了一篇重磅論文:《mHC:Manifold-Constrained Hyper-Connections》(流形約束超連接)。這篇論文解決了一個困擾AI行業十年之久的難題:大模型訓練的不穩定性問題。核心思想是什麼?在傳統的神經網路訓練中,訊號在層與層之間傳遞時會出現放大效應——在不受約束的情況下,訊號可能被放大3000倍。這種失控的放大會導致訓練崩潰、梯度爆炸等一系列問題,是阻礙大模型規模化的根本性瓶頸之一。mHC的解決方案是:利用Sinkhorn-Knopp演算法,將神經網路的連接矩陣投影到一個數學流形上,從而精確控制訊號放大。結果:訊號放大被壓縮到僅1.6倍。實際效果有多強?- 在BIG-BenchHard推理基準上提升了2.1%- 僅增加6.7%的訓練開銷- 在高達270億參數的模型上得到驗證業內專家評價:這項研究可能重塑整個行業建構基礎模型的方式。它解決了一個限制大語言模型架構創新的根本性約束。可以看出,DeepSeek一直在進行底層演算法最佳化、數學工程最佳化,但不要忘了更重要的一件事:這些最佳化都是在「限制之下」完成的,這也正是DeepSeek的厲害之處。硬體限制下的演算法突破這才是真正的故事在討論V4時,有一個背景不能忽視:晶片出口限制。外媒的報導特別提到,儘管面臨晶片出口限制,DeepSeek依然在演算法效率上取得了進展。這與其V3/R1系列的高性價比路線一致。還記得V3的訓練成本嗎?約557.6萬美元。這個數字在當時震驚了整個AI行業,因為它遠低於其他同等級模型——OpenAI和Google的訓練成本往往是這個數字的幾十倍。DeepSeek用更少的資源做出更好的模型,這不是偶然,而是演算法、框架和硬體協同最佳化的結果。V4很可能延續這一路線:不拼硬體數量,而是拼演算法效率。如果V4真的在受限硬體條件下實現了超越Claude的程式設計能力,這將是一個極具象徵意義的里程碑——證明在AI競賽中,聰明的演算法可以彌補硬體的不足。懸念:V4還會有那些驚喜?根據目前的資訊,我們已經知道V4在程式設計能力、長上下文處理、推理嚴密性三個維度上有顯著提升。但DeepSeek向來有低調憋大招的傳統。以下是幾個值得關注的懸念:1.是否會有蒸餾版本?DeepSeek-R1發佈時,同時推出了一系列蒸餾版本,讓更多使用者可以在消費級硬體上體驗強化學習推理模型。V4是否會延續這一策略?2.多模態能力如何?目前的報導主要聚焦於程式設計能力,但V4在多模態(圖像、音訊等)方面是否有提升?這是一個未知數。3.API定價會有驚喜嗎?DeepSeek一直走極致性價比路線。如果V4的程式設計能力真的超越Claude,但價格只有Claude的幾分之一,那將是對整個市場的巨大衝擊。4.開源策略會變嗎?V3和R1都在MIT許可下開源。V4是否會延續這一策略?V5、V6呢,DeepSeek會一直開源下去嗎?考慮到程式設計領域的商業價值,這是一個值得觀察的變數。LMArena上的神秘身影:V4已經在野測了?如果說以上都是內部消息,那麼有一個線索可能暗示V4比我們想像的更接近:有使用者在LMArena(大模型競技場)上發現了匿名模型,據說就是V4。有人已經在LMArena上發現匿名模型,據說就是V4。但由於模型會「撒謊」,還無法最終確認。這是一個值得密切關注的訊號。如果The Information的報導屬實,那麼我們只需要再等不到一個月的時間。屆時,它是否能真正超越Claude成為程式設計之王?敬請期待。 (新智元)
凌晨炸裂!DeepSeek V4 終於定檔,而隔壁 Claude 卻在瘋狂封號……
昨晚刷推的朋友,估計心情跟我一樣,像是坐了一趟過山車。前半夜,大家還在為 DeepSeek V4 終於要來的消息狂喜; 結果到了後半夜,畫風突變,到處都是帳號被封的哀嚎。一邊是 DeepSeek 磨刀霍霍準備“虎口奪食”,另一邊是 Anthropic Claude殺紅了眼搞“無差別封殺”。這魔幻的一夜到底發生了啥?01 DeepSeek V4:這次是真要來了關於 DeepSeek 下一代旗艦模型的傳聞,飛了好幾天,終於被爆料賊准的 The Information 證實了。圖:TheInformation 的爆料據兩位知情人士透露,咱們等得望眼欲穿的 DeepSeek V4,預計將在“未來幾周內”正式發佈。(春節前)劃個重點,這次 V4 的核心賣點非常直接——“極強的程式碼能力”。據內部員工爆料,V4 在初步測試中,程式碼表現已經超越了目前市面上所有的現存模型。請注意,這裡的“所有”,不僅包括 GPT 系列,更包括那個目前在矽谷“封神”的 Claude。這架勢,DeepSeek 這次是真的又想直接掀翻矽谷的桌子啊。02 暴風雨前,DeepSeek 早就動手了很多人覺得 V4 是憑空蹦出來的,其實 DeepSeek 可能早就把地基打好了。就在大家忙著跨年的時候,他們悄悄幹了兩件大事,現在回過頭看,全是在為 V4 鋪路。第一件事,是治好了大模型訓練的“心臟病”。跨年夜那天,DeepSeek 甩出了一篇硬核論文《Manifold-Constrained Hyper-Connections (mHC)》。圖:mHC 論文別被這那一串英文嚇住,我給你說人話解釋下:以前訓練這種超級複雜的模型,就像在一條沒有紅綠燈的高速公路上飆車。車速一快,訊號就容易亂竄、追尾,誤差瞬間就能放大 3000 倍,直接導致模型“翻車”。DeepSeek 這次搞了個新演算法,相當於給這條高速裝上了“智能導航和限速系統”。它硬是將失控的風險從 3000 倍死死按到了 1.6 倍,讓資料流穩得像貼地飛行。雖然為此多耗了 6.7% 的油(訓練成本),但換來的是 V4 這種巨型卡車也能開出跑車的絲滑感,這波血賺。第二件事,是連 R1 的“錯題本”都給你看。前兩天,DeepSeek 又把一年前那篇改變世界的論文更新了 60 多頁。 (DeepSeek R1 論文,從 22 頁到 86 頁)這次更新簡直是“教科書等級”的坦誠:它不僅解釋了模型是如何通過強化學習“湧現”出推理能力的,甚至把研發過程中的失敗嘗試都寫出來了。這種坦誠,在如今全員閉源的矽谷,簡直是一股清流。03 現在的 Claude:強如神祇,但也飄了說到 AI 程式設計,現在的 Claude Code,已經不僅僅是好用了。說實話,如果你現在還在矽谷寫程式碼卻不用 Claude,出門都不好意思跟人打招呼。前兩周有個大瓜,一位Google首席工程師爆料:他們在Google內部搞了 1 年都沒做完的項目,用 Claude Code 居然 1 小時就搞定了。圖:Google首席工程師的爆料引發巨大討論這事兒在矽谷引發了巨大震動,實際上 OpenAI、Meta、Google這些巨頭的員工,私底下都在偷偷用 Claude 幹活。但是!劃重點的“但是”來了。正因為產品太強,Anthropic 現在飄了。它開始通過建構嚴密的圍牆,來收割商業利益,吃相越來越難看。去年他們就直接瘋了所有跟中國有關公司的訪問,而昨晚,他們最自己的矽谷同胞也下手了。據知名記者 Kylie Robison 爆料,Anthropic 本周正式切斷了 xAI 員工通過程式碼編輯器 Cursor 訪問 Claude 的權限。圖:推特上的爆料xAI 的聯合創始人 Tony Wu 都在內部信裡無奈承認:“沒錯,這就是針對競爭對手的新政策。”不僅針對巨頭,普通開發者也沒好日子過。Anthropic 官方(Thariq)雖然解釋說是為了“加強安全防護、防止濫用”,但結果就是大批第三方工具(OpenCode 等)的使用者帳號被誤傷封禁。圖:Anthropic 官方回覆這種混亂,直接給了對手“偷家”的機會。就在大家哀嚎一片的時候,OpenAI Codex 方面的人(Tibo)直接跳出來“貼臉開大”。 他在推特上公開喊話:圖:OpenAI 官方回覆他甚至直接甩出了 GitHub 連結,邀請開發者們趕緊過去,並強調他們支援 ChatGPT 登錄,擁有繁榮的生態系統。這那是喊話啊,這分明是趁著 Claude 關門打狗的時候,直接把大巴車開到人家門口來拉客了!殺人誅心,莫過如此。寫在最後雖然 Claude Code 強如神祇,讓馬斯克驚嘆、讓Google汗顏;但 Anthropic 日益封閉和傲慢的態度,正在把使用者推向對立面。這時候,即將在幾周內發佈的 DeepSeek V4,承載了太多人的期待。如果 V4 真如爆料所說,在程式碼能力上能壓倒 Claude,那它打破的不僅是技術的壁壘,更是 Anthropic 試圖建立的霸權。全村的希望,都在這了。最後,想問問大家: 面對強到不講理但越來越封閉的 Claude,和即將發佈的“國貨之光” DeepSeek V4: 你覺得 V4 能創造奇蹟,把“奇點”的大門向所有人打開嗎? (AI范兒)
新論文暗示 DeepSeek V4 已完成訓練;比亞迪超特斯拉,全球第一;傳今年沒有標準版iPhone
調整產品發佈節奏,蘋果 2026 年不發佈 iPhone 18 標準版1 月 2 日,有相關媒體報導,蘋果公司將打破延續十餘年的 iPhone 年度發佈傳統,2026 年不會推出 iPhone 18 標準版機型,該機型預計推遲至 2027 年春季與 iPhone 18e 一同亮相。根據已曝光的發佈計畫,蘋果將採用「春秋雙發」的全新策略:2026 年上半年(3-4 月)將率先推出 iPhone 17e 入門機型;下半年(9-10 月)的秋季發佈會上,重點推出 iPhone 18 Pro、iPhone 18 Pro Max 以及蘋果首款折疊屏手機(暫稱 iPhone 18 Fold/Ultra),形成高端產品矩陣。至於標準版的 iPhone 18,則被安排至 2027 年初發佈,這意味著 iPhone 17 標準版將作為非 Pro 系列最新機型持續在售超 18 個月。據供應鏈分析師指出,錯開發佈能有效減少生產瓶頸,更高效地管理 2 奈米晶片等先進技術元件的供應,同時平衡蘋果各財季營收,避免 iPhone 銷量過度集中在秋季,平滑全年業績波動。當前全球 DRAM 晶片短缺問題持續,蘋果與三星、SK 海力士的長期供應合約即將到期,分階段生產可規避成本上漲壓力。(來源:手機中國)OpenAI 員工股權激勵規模遠超過去 25 年所有大型科技 IPO 時的水平1 月 2 日,據《華爾街日報》援引內部財務披露檔案報導,OpenAI 目前向員工發放的股權激勵規模創下科技創業公司歷史新高,其人均股權報酬約為 150 萬美元,適用於大約 4000 名員工,遠高於歷次知名科技公司上市前的水準。按經通膨調整至 2025 年美元計,這一數字是 Google 在 2003 年(IPO 前一年)所披露股權薪酬的 7 倍,而薪酬研究機構 Equilar 彙總 25 年來 18 家大型科技企業資料後發現,OpenAI 的人均股權激勵水平約為典型上市前科技公司的 34 倍,OpenAI 本身對此未予置評。這一資料凸顯了頂級 AI 公司在人才爭奪戰中的急劇轉向:成立還不到十年的 OpenAI,如今給予研究員和工程師的待遇,已超過以往多數在 IPO 前現金充裕的科技巨頭。這些以股份為主的薪酬包,一方面旨在鞏固其在 AI 競賽中的領先地位,另一方面也在推高經營虧損並稀釋股東價值。新論文暗示 DeepSeek V4 已完成訓練1 月 2 日,元旦假期期間,DeepSeek 發佈一篇全新論文,提出名為「流形約束超連接」(mHC)的訓練框架,再次引發業內討論。雖然 2025 年未見 DeepSeek 推出全新大模型,但這一年其持續迭代 DeepSeek V3.X,並公佈多項關鍵技術,為下一代模型鋪路。論文聚焦深度學習中的「超連接」穩定性問題。研究指出,傳統 HC 結構在大參數模型訓練中容易出現數值放大、損失激增,難以長期穩定運行。DeepSeek 提出的 mHC 方法,通過約束放大總量,使訓練過程保持可控。在 27B 參數模型測試中,訓練時間僅小幅增加,複雜推理和閱讀理解任務精準率卻有明顯提升。更受關注的是,論文中提到相關結論已通過「內部大規模實驗」進一步驗證。業內普遍認為,這一表述暗示新一代基座模型 DeepSeek V4 的訓練工作已經完成。結合去年 DeepSeek R1 的發佈時間節點,多方預測,DeepSeek V4 有望在春節前後正式發佈。(來源:快科技)馬斯克:2026 年將「大規模生產」腦機介面裝置1 月 1 日,美國企業家伊隆·馬斯克在 X 上表示,其腦機介面公司 Neuralink 今年將開始實現「大規模生產」腦機介面裝置,並轉向更精簡、幾乎完全自動化的外科手術流程。馬斯克說,該裝置的電極絲將直接穿過硬腦膜,而無需將其切除,此舉意義重大。Neuralink 的腦植入裝置主要面向脊髓損傷等患者。首位接受植入的患者已經能夠通過該裝置進行遊戲、上網、發佈社交媒體內容,並操控電腦游標。在回應美國食品藥品監督管理局(FDA)此前提出的安全問題後,Neuralink 於 2024 年正式啟動人體臨床試驗,然而,該監管機構曾在 2022 年拒絕批准相關申請。Neuralink 今年 9 月披露,全球已有 12 名重度癱瘓患者植入了該公司的腦機介面裝置,並能夠通過「意念」操控數字系統和現實世界中的工具。公司還在 6 月完成了一輪融資,籌資金額為 6.5 億美元(約合 45.51 億元人民幣)。(來源:IT之家)日經:比亞迪 2025 年電動車銷量將首超特斯拉,成全球第一1 月 2 日,據《日經亞洲》報導,比亞迪有望首次在日歷年銷量上超越美國競爭對手特斯拉,成為全球最大的電動汽車銷售商。比亞迪周四表示,其 2025 年純電動汽車銷量同比增長 28%,達到 225 萬輛。特斯拉尚未披露全年電動車銷量,但它在周一公佈的一項市場預估顯示,其銷量將同比下降 8% 至 164 萬輛。2024 年,特斯拉僅以 2 萬餘輛的微弱優勢險勝比亞迪,勉強保住了全球銷量第一的位置。2025 年,比亞迪似乎已經以相當大的優勢反超了特斯拉。比亞迪一方面深耕龐大的國內市場,另一方面也在積極拓展海外銷量。該公司 2025 年的電動汽車銷量較 2022 年增長了 150%。(來源:cnBeta)合約期已滿,法拉利車隊官宣中國首位 F1 車手周冠宇離隊1 月 2 日,法拉利 F1 車隊宣佈與中國首位 F1 車手周冠宇合約期滿,感謝他過去一個賽季的努力和付出。當日晚間,「F1 中國大獎賽」公眾號發文回顧周冠宇的 F1 征程。自以阿爾法・羅密歐新秀車手身份踏上圍場舞台起,他便獲得高度關注。巴林大獎賽的首秀得分,他用實際行動突破自我、回應外界質疑。首個 F1 賽季結束後,周冠宇獲評年度最佳新秀,其穩定性與比賽閱讀能力獲得廣泛認可。此後兩個賽季中,周冠宇持續為車隊貢獻力量。2024 賽季,他首次來到中國大獎賽,「中國周」完成主場首秀;賽季末在卡達大獎賽他以第八名完賽,為索伯車隊拿下該賽季唯一一次積分。2025 賽季,周冠宇加入法拉利車隊,擔任第三車手,並以新身份在中國大獎賽期間與現場觀眾見面,帶來新的驚喜。儘管與法拉利車隊的合作結束,但他的 F1 征程仍在繼續。此前,周冠宇在採訪中回應未來規劃時表示:「新賽季,我肯定還是會在 F1 的圍場當中。」(來源:IT之家)法媒:馬克宏擬 2026 年 9 月起禁止 15 歲以下青少年使用社交媒體1 月 2 日,據當地媒體報導稱,法國計畫從 2026 年 9 月起禁止 15 歲以下兒童訪問社交媒體網站,並在高中禁止使用手機。此舉凸顯公眾對網路危害未成年人的擔憂日益加劇。總統馬克宏經常指出,社交媒體是造成青少年暴力的原因之一,並表示希望法國倣傚澳洲。澳洲已禁止 16 歲以下未成年人使用社交媒體平台,包括 Facebook 、Snapchat、 YouTube 等,這項獨步全球的禁令於 12 月生效。據法國《世界報》和 France Info 報導,法國政府將於 1 月初提交立法草案,以供法律審查。馬克宏在新年前夕的講話中沒有提及立法推動,但他確實承諾要「保護我們的兒童和青少年免受社交媒體和螢幕的影響」。法國小學和初中自 2018 年起就禁止使用手機,據報導,新的改革將把此一禁令擴大到高中。(來源:新浪科技)台積電 1.4nm 或明年試產1 月 2 日,台積電 2nm 製程量產計畫已按時間表正常推進,由於市場需求旺盛,台積電的晶圓供應一度緊張,這家半導體巨頭計畫再新建三座工廠以滿足客戶需求。與此同時,台積電 1.4nm 工藝的進度也在順利進行中,據稱台積電正加速推進其 1.4nm 製程工廠的建設進度,從目前的情況來看,台積電發展勢頭依舊向好,按照這一節奏,1.4nm 工藝的風險性試產工作預計將於 2027 年啟動。(來源:格隆匯)Clicks 首款智慧型手機 Communicator 發佈:帶實體全鍵盤的「你的第二裝置」1 月 2 日,Clicks Technology 在 CES 2026 大展開幕前發佈兩款新產品,延續其以智慧型手機實體鍵盤見長的產品路線。除了 79 美元(現匯率約合 552.8 元人民幣)的滑出式鍵盤外,該公司還首次進入手機領域,推出名為 Communicator 的智慧型手機。這是一款配備實體鍵盤、定位為「第二部隨身裝置」的手機。Communicator 定價 499 美元(現匯率約合 3492 元人民幣),主打同時使用兩部手機的人群,一部用於工作,一部用於個人生活。官方表示,該裝置的目標使用者是需要在手機上進行大量實際操作的人,包括頻繁溝通、處理郵件、編輯文件等場景,實體鍵盤在這些使用中更具優勢。該手機支援基本的資訊查看與回覆,不過刻意不引入容易分散注意力的社交媒體應用和遊戲。Clicks Technology 與 Niagara Launcher 合作,僅提供消息類應用和效率工具的存取權,包括 Gmail、Telegram、WhatsApp 和 Slack。(來源:新浪科技)硬體專家成功移植 macOS 15.6 至 iPhone 16e:適配部分 M4 晶片驅動1 月 2 日,硬體專家 Duy Tran 在 X 平台宣佈,已在 iPhone 16e 上運行 macOS Sequoia 15.6,移植包含 M4 桌面晶片原生驅動,並為 A18 移動晶片打補丁;裝置識別記憶體 7.53GB,已載入 M4 Vulkan 驅動與 Wi-Fi 驅動。實機圖片顯示,他的 iPhone 16e 手機成功運行了 macOS 15.6 系統,同時,記憶體被識別為 7.53GB,並裝上了 M4 晶片的 Vulkan 驅動,且 Wi-Fi 驅動也已經打上。Duy Tran 還表示,iPad Pro 之所以運行不了 macOS 是因為蘋果不允許在嵌入式裝置上停用 SIP(系統完整性保護)。同時由於驅動沒有完全打上,遊戲之類的 App 也無法運行,並且要復現這些操作需要將手機越獄。(來源:快科技) (極客公園)