#劉廣
全網最強萬字解讀:DeepSeek-V4 掀翻了誰的桌子?
“370倍的鴻溝,不只是限時促銷。”GPT-5.5 “大杯版”的輸出價格是 130 美元/百萬 Token,而 DeepSeek-V4 隻要 2.5 元人民幣。在同樣的智能水位下,兩者的成本差了整整 370 倍。這絕非一場網際網路式的“補貼大戰”或限時促銷,而是一場已經持續了四年的中國特色“效率革命”。在 Agent 時代,當長程任務的一致性需求迫使 Token 消耗量呈指數級增加時,DeepSeek-V4 延續了其“用更少的資源做更多的事”的硬核傳統,再一次以極致的壓縮方案,將百萬上下文的門檻從“奢侈品”變成了“日用品”。但省錢從來不是免費的午餐。每一次效率的跨代領先,都在系統複雜度、生態鎖定和能力邊界上埋下了伏筆。為什麼 OpenAI、Anthropic 始終堅守稠密模型與原生長窗?DeepSeek 與昇騰晶片的深度軟硬繫結,究竟是國產替代的曙光,還是建構了新的技術孤島?當大模型競賽進入“系統戰爭”的深水區,誰能定義下一個十年的 AI 基礎設施?在Deepseek V4發佈當天的GAIR Live圓桌上,雷峰網聯合創始人岑峰對話三位行業專家:數勢科技創始人兼CEO黎科峰智源系統智能研究組研究員劉廣清昴智能技術負責人楊澤乾從產業競爭、系統生態和技術架構三個維度,拆解DeepSeek-V4的效率帳本。01. 四次"掀桌子",掀的是不同的桌子DeepSeek的"掀桌子"不是一生只有一次的事件,而是一場分階段、分維度的系統性進攻。黎科峰將V2到V4的四次發佈拆解為四個不同的戰場:V2掀的是"價格桌":KV Cache壓縮90%以上,API價格打到GPT-4的1%;V3掀的是"訓練桌":不到600萬美元訓練出GPT-4o級模型,證明了中國團隊可以用極低成本做出世界一流基座;R1掀的是"推理桌":30萬美元純強化學習湧現出CoT能力,讓全球看到推理模型不必依賴天價算力。而V4掀的,是"系統桌":在 GLM、Kimi、Qwen、Gemini 等強手環伺下,V4 不僅補齊了 Coding、數學與長上下文的短板,更完成了對昇騰 910B 算力的徹底適配與 FP4 量化支援。黎科峰指出,V4 的真正不同在於:它不再是“從 0 到 1”的驚喜,而是在“從 1 到 100”的正面戰場上,用工程能力和系統效率硬碰硬地贏了。這種進化軌跡如同賈伯斯提到的“連點成畫”(connecting the dots):分散的效率突破,最終拼出了一幅完整的、獨立於 CUDA 生態之外的 AI 基礎設施圖景。02. 2%的演算法暴力美學在 DeepSeek-V4 的技術報告中,最令業界震撼的數字莫過於“2%”。在 Transformer 架構統治大模型的今天,長序列處理產生的 KV Cache 始終是視訊記憶體消耗的“黑洞”。楊澤乾指出,DeepSeek 的進化本質上是一場“存量空間的戰爭”。V2 引入 MLA 壓縮了 90% 的快取空間;而 V4 進一步祭出了 CSA(壓縮稀疏注意力)與 HCA(混合注意力) 的組合拳。這不僅是數學上的奇蹟,更是工程上的大膽取捨。楊澤乾認為,DeepSeek 將計算複雜度從傳統的 O(n2) 壓向了接近線性。這意味著,百萬級長文字從此前的“奢侈品”變成了“日用品”。這種“極致壓縮”路徑,雖然在極端長度下可能存在檢索性能的衰減,但它解決了“能用”和“好用”的門檻問題。這種架構的複雜性,被嘉賓們稱為“演算法的暴力美學”。它反映了這樣一種技術之美:在算力極度稀缺的背景下,中國工程師選擇用更複雜的系統邏輯,去避險硬體資源的匱乏。當百萬級長文字不再是需要慎重使用的“昂貴資源”,Agent 的長程思考才真正具備了大規模落地的經濟性基礎。03. 效率革命的隱性代價:選擇即取捨極致的省錢往往伴隨著複雜度的代價。楊澤乾直言,DeepSeek 的每一筆效率收益,都在其他地方留下了帳單:性能的衰減: CSA 和 HCA 的極致壓縮,導致在 128K 之後的長序列檢索性能出現不可避免的衰減。這種“遺忘的藝術”意味著在處理極端長度的邏輯推理時,模型可能出現邏輯斷層,這與 Claude 追求的“完美檢索”是截然不同的路線。架構的債: 為了省錢,整體架構變得極其精巧且複雜。這雖然在訓練側省下了真金白銀,但在後續的跨平台遷移、不同晶片的算子適配上,會帶來極高的工程難度。MoE 的連貫性瓶頸: 作為 MoE(混合專家模型)的極致信徒,DeepSeek V4 總參數 1.6T 卻只啟動 49B,這種“細粒度路由”雖然效率驚人,但在需要高度全域一致性的長程 Agent 任務中,表現仍遜於昂貴的稠密模型。這些帳單不是缺陷,而是深思熟慮後的選擇。DeepSeek 這種聰明之處在於:它清楚地知道自己在放棄什麼,並且成功地將這些“放棄”轉化為了極具殺傷力的商業優勢。04. 長上下文的真相:我們只走了一半的路雖然百萬上下文已成標配,但劉廣拋出了一個更尖銳的判斷:“現在的技術只解決了一半問題——能記住,但學不會。”目前大廠的長文字策略各具特色:DeepSeek 走實用主義壓縮路線,成本極低;Gemini 走原生架構路線,全域一致性好但擴展性受限;Claude 追求高精度檢索,是法務和醫療場景的首選;OpenAI 則利用推理模型最佳化邏輯深度。但這些策略本質上都是“記憶”而非“學習”。模型可以一次性吞下整本《三體》做總結,但無法在與使用者的長期互動中持續更新權重、沉澱個性化的知識。人一輩子讀的書可能遠超百萬 Token,卻能將其內化為智慧。大模型的長文字技術如果不能跨越從“臨時快取”到“權重更新”的鴻溝,長上下文就依然只是一個更寬的、容易被溢出的漏斗。這意味著,我們還在長上下文這條路上走了一半,剩下的那一半,是如何讓模型在互動中真正"成長"。05. MoE vs 稠密,不是技術優劣,是生存策略一個有趣的地理髮現是:國內“開源御三家”(DeepSeek、千問、Kimi)不約而同選擇了 MoE 路徑,而 OpenAI、Anthropic 等美國巨頭仍傾向於稠密模型。黎科峰認為,這折射出的是中美兩國在資源約束下的必然選擇:美國路線:核心邏輯是資本驅動的“大力出奇蹟”,通過堆疊晶片和電力維持絕對領先。中國路線:核心邏輯是約束驅動的“極致性價比”,在算力封鎖和預算受限的環境下,通過 MoE 實現“降維打擊”。他用一個比喻道出了本質:"家裡有肉吃,為什麼要去吃粗糧?"DeepSeek的MoE+FP4+昇騰繫結,不是"最優技術路線",而是"受限環境下的最優解"。但正是這條"粗糧路線"正在展現出驚人的競爭力。DeepSeek的API定價僅為海外大廠的1/10,讓中國模型在 API 定價上展現出了顛覆性的優勢。當性能接近、成本差一個量級時,商業化天平就會發生傾斜,迫使全球大模型產業重新思考成本紅線。06. 從模型競賽到系統戰爭在圓桌的尾聲,三位專家達成了共識:大模型產業正從單純的“算力競賽”轉向全端的“系統戰爭”。黎科峰指出,對於擁有數萬名員工的科技巨頭,如果全員使用 AI 輔助程式設計或辦公,Token 成本將是天文數字。“用得起”本身就是最大的競爭壁壘。DeepSeek 的護城河,並不在於它比對手聰明多少,而是在於它成功地將 AI 從“少數人玩得起的奢侈品”,變成了“成千上萬家企業工具箱裡的日用品”。劉廣分享的案例更令人震撼:在國產算力生態中,以前編寫一個底層算子需要專家手寫一兩周,現在利用 Agent 輔助只需 10 分鐘。這種效能提升帶來的價值,正反向驅動著整個國產系統生態的進化。DeepSeek-V4 的意義在於,它打破了 Scaling Law 只能靠“堆算力、堆參數”的增長慣性。它證明了:智能的邊界不僅由晶片定義,更由工程師的想像力和工程能力定義。 桌子掀翻之後,最重要的不是誰掀的,而是誰能在廢墟上重建一個更便宜、更可控、更具生命力的 AI 秩序。以下是此次圓桌討論的精彩分享,雷峰網進行了不改原意的編輯整理:1. 從“打榜”到“落地”,DeepSeek V4技術報告解讀岑峰:各位嘉賓、朋友,大家晚上好。昨天這個時候,我主持了一場關於Claw類產品Token焦慮的圓桌。當時我們討論了“記憶是資產還是負債”的命題。緊接著 DeepSeek V4 便震撼發佈,它通過 CSA(壓縮稀疏注意力)與HCA(混合注意力)的混合架構,將 1M 上下文的 KV Cache 壓低至傳統方案的 2%。換言之,當記憶規模爆炸,DeepSeek 選擇了“遺忘的藝術”,並以極高的架構複雜度作為支撐。回顧其路徑,V2 將 KV Cache 壓縮 90% 以上;V3 以不到 600萬美元訓練出 GPT-4o 等級的模型;如今 V4 更是將上下文推理成本、1M 上下文的 KV Cache大幅降低。這種極致效率的領先,正在系統複雜度、生態鎖定和能力邊界上埋下深遠伏筆。今天我們邀請到三位嘉賓,從效率與代價的角度進行拆解並分析:DeepSeek的極致效率意味著什麼?中國開源御三家的開源 MoE 路線與西方的稠密模型路線將如何分化?下一個十年的AI基礎設施如何演變?按照慣例,我們先請三位嘉賓分享各自視角下對Deepseek技術報告的深度解讀。黎科峰:最近很熱鬧,GLM、Kimi、Qwen都發佈了最先進的模型,在OpenSource榜單上面輪流坐莊。大家都在等 DeepSeek V4,今天它終於發佈,從 Benchmark表現來看,其綜合感知明顯優於此前的開源模型,從股市上來看,DeepSeek概念股今天漲得非常瘋。這次發佈具有“掀桌子”的意義,核心體現在四點:第一,真開源。DeepSeek 依然堅持最開放的 MIT 協議,不設商業化限制。在其他幾家大模型紛紛加碼開源“枷鎖”的背景下,這種堅持極為不易。第二,V4 徹底適配了華為昇騰晶片並支援 FP4 精度。這標誌著大模型從訓練到推理真正實現了中國自主安全可控的閉環。第三,價格。隨著 OpenClaw 等 Agent 產品的火爆,Token 消耗量呈十倍級增長。海外閉源模型的高昂價格讓開發者難以承受,而DeepSeek 將價格壓到了 25 元人民幣/百萬 Token, Flash 版本更便宜,十倍量級。這極大促進了多 Agent 生態的落地。最後,在關鍵能力上也有不俗表現, V4的亮點不僅在於降本,更在長上下文、數學及程式碼能力上部分反超了海外領先的閉源模型。尤其是程式設計能力的提升,為大模型的應用生態拓展了巨大的空間。完全開源、低成本、接近世界領先、完整國產化軟硬體生態,這四個核心點放在一起,既好又有用,而且還便宜。劉廣:DeepSeek V4 的發佈正值大模型從“打榜”轉向“落地”的範式拐點。當前 Agent 架構盛行,產業界最核心的關切已聚焦於長上下文的處理能力與綜合推理成本。在技術架構上,V4 展現了極致的效率最佳化。其最顯著的突破在於實現了混合精度訓練:在專家層(Expert)使用 FP4 精度,其餘部分採用 FP8。這種精度的跨越不僅大幅提升了訓練效能,在推理側也通過顯著壓縮 KV Cache 開銷,極大地降低了計算量與延遲。以往這類低精度支援高度依賴輝達生態,但 V4 證明了國產晶片已能逐步適配混合精度量化的訓練與推理。這預示著國產算力將真正具備支撐超低成本推理場景的能力。當然,國產生態在先進演算法適配上仍存挑戰。DeepSeek 同步發佈的 Tylan 庫,以及智源支援 8 款國產晶片的 FlagOpen 平台,都在致力於打破這一瓶頸。我們關注的重點是“系統智能”——即利用 AI 能力反哺底層基礎設施。在國產晶片的算子適配中,我們已開始利用 Agent 自動化工具完成複雜算子的精度對齊與調優。這種“模型能力提升帶動底層系統最佳化”的加速循環,將是未來的主流方向。DeepSeek V4 通過開源方案大幅壓低 Token 成本,為整個國產算力生態向極致效能演進提供了關鍵牽引。楊澤乾:DeepSeek V4 技術報告中最令人震撼的突破,首先在於其對注意力機制的革命性最佳化。長期以來,Transformer 架構 O(n^2)的計算複雜度始終是長序列處理的瓶頸。雖然業內在探索 Mamba 等新架構,但其成熟度尚不及“MoE + Transformer”組合。此次V4 通過 CSA(壓縮稀疏注意力)與 HCA(重度壓縮注意力)的交替式設計,將 KV Cache 極致壓縮至傳統方案的 2%,使計算複雜度從O(n^2) 降至接近線性。這標誌著百萬級長文字從此前的“高門檻消耗”轉變為低成本的“日用品”。其次是異構算力環境下的訓練穩定性。針對在華為昇騰、華虹等國產算力底座上進行大規模預訓練的挑戰,V4 引入了 Break-off 投影與 ThinkingHorn迭代方案,實現了國產算力底座上的不停機穩定預訓練。同時,針對 MoE 架構,V4 利用 Ingram 機制有效解決了“模型越大、推理越慢”的行業悖論。當然,追求極致效率必然帶來技術取捨。報告中提到了長文字的遺忘性,不會像Claude或Gemini的超長文字精準性那麼強,一定長度之後存在邏輯斷層和精度損失,這是對極致效率追求的取捨。此外,為了壓低成本,V4的架構變得極其複雜,這在後續的推理極致最佳化以及跨平台遷移上,增加了額外的工程成本。但總體而言,這些取捨並未掩蓋DeepSeek V4 在國產算力約束下所展現出的卓越技術含金量。2. 掀桌子、RL 暴力湧現、OPD 工程權衡,Deepseek技術哲學的進化岑峰:剛才三位老師從不同視角分享了 DeepSeek V4 的架構演進。楊老師最後提到的“取捨”非常關鍵。從 V2 到 V4,DeepSeek不斷證明用更少的資源可以實現更強的性能。但正如業界所言,極致的省錢往往伴隨著系統複雜度的代價。接下來的核心討論,我們將聚焦 DeepSeek 這種效率優先的技術路線。請教黎科峰老師:DeepSeek 的歷次發佈常被評價為“掀桌子”。從V2、V3、R1 到現在的 V4,您認為每一次“掀桌子”有什麼不同?它們掀翻的是同一張桌子,還是開啟了不同的秩序?黎科峰: “掀桌子”這個詞雖然被多次使用,但 V4 與往屆確實有顯著區別:去年的 DeepSeek R1 解決的是“從 0到 1”的問題,它首次在開源界大規模實現了思維鏈(CoT)推理,讓全球看到中國團隊能以極低成本做出媲美閉源模型的效果。那是從無到有的驚喜。而此刻的 V4 面臨的競爭格局截然不同。在 V4 發佈前,GPT-5.5、Gemini 1.2 Pro 及國產的 GLM、Kimi、千問等已經輪番“坐莊”,已經有四波了。V4的壓力在於:如果你發佈後的表現不如對手,那麼“掀桌子”就無從談起。經過初步測試,我們發現 V4 的表現非常堅挺,尤其在程式設計能力上, DeepSeek 早期就主打 Coding,但在此之前,大家在嚴肅的工業級場景中仍傾向於使用海外閉源模型。現在V4 的 Coding能力已經達到了可以作為生產力工具直接創造 AI 產品的水平,這是其能力的重大補齊。另一個重要意義是擺脫 CUDA 生態的限制,智源等機構一直在推動國產算力生態(如 FlagOS 聯盟),但由於模型廠商對 NVIDIA生態的路徑依賴,推進難度極大。DeepSeek 此次通過深度適配昇騰晶片豎起了一面旗幟,在技術框架層面開闢非 CUDA 路徑,這種“掀桌子”是對算力底層壁壘的直接挑戰,也是我最為看重的。另一個加分項,Deepseek始終堅持開源初心,在友商紛紛收緊開源協議,如將 MIT 改為受限協議時,DeepSeek依然保持全值開放、無商業限制。這種價值觀的穩定性在當前的產業環境下極具殺傷力。岑峰:桌子掀翻之後重要的不是誰掀的,而是誰能夠在廢墟上面重新建立新的秩序。接下來想請教劉廣老師一個技術問題:R1 曾憑藉 30 萬美元的純強化學習(RL)湧現推理能力,震驚全球並登上《Nature》封面。但最新的 V4 技術報告顯示,其後訓練階段已放棄純RL 路徑,轉而採用 OPD(線上策略蒸餾)。這種路線轉變是否意味著純 RL 的泛化邊界已經顯現?劉廣:您這個問題問得非常好。最近強化學習的路線一直在討論非常多,agent RL建構新的環境腳手架,基於環境結合去做強化學習訓練,認為可以做真實生產環境的問題解決。DeepSeek又走了另外一條路徑。大模型是由資料、演算法、算力這“三駕馬車”驅動的。您剛才問的就是演算法改進,但我看到它在資料上也做了很多突破,在硬體上也做了很多突破,主要突破點其實就是效率。DeepSeek一貫的風格就是把整個訓練的效率達到一個非常極致的狀態。從 Scaling Law來看,DeepSeek 早在早期模型中就通過精確擬合找到了高資料效率的平衡點,從而將更多算力投入到參數規模的擴展上。此次V4 將資料規模從 14.8T 擴展到 30+T,參數規模也從 600B 增加到 1.6T。放棄純 RL 轉向 OPD,實際上是 DeepSeek 在追求極致訓練效率下的必然選擇。這種路徑為國產生態提供了巨大的信心。智源推出的 FlagOS也是希望通過軟體層面的適配支援多元國產晶片。DeepSeek 的示範作用,能牽引更多人關注國產算力的極致效能最佳化。在實操中我們發現,這種FP4+FP8 的混合精度訓練對轉換精度非常敏感。如果要在國產算力上用 INT8 或 BF16跑這些權重,轉換過程中的精度損失是當前生態面臨的重要挑戰。我們將開放這些經驗,助力全行業解決國產晶片的適配難題。岑峰:順著劉老師的回答,我想進一步請教楊澤乾老師:DeepSeek 後訓練哲學的轉變,是否在為早期追求極致效率而產生的架構債“還債”?楊澤乾:您這個問題問得非常專業且技術。我認為 V4 採用 OPD 並非放棄強化學習,而是一種更務實的工程權衡。R1當時出來證明的是純強化學習方式能夠湧現模型能力的上限,但中間是不可控的,CoT思維鏈以及算力消耗都不可控。V4的OPD方式,也就是線上策略蒸餾,採用的是分佈式專家的培養模式:先針對數學、程式碼、agent執行這些領域去獨立訓練專家,用SFT和RL的方式訓練,然後再將這些領域的知識蒸餾到統一的學生模型中。這個方式並不是放棄了RL技術路線,而是把強化學習放到了專家培養的階段,而在整體專家模型的整合階段,選擇了一種更高效、更穩定的蒸餾方式。這樣比較好地解決了DeepSeek V4這種兆級模型在多工場景下的性能退化問題。3. 長上下文與檢索,實用主義 vs. 完美主義岑峰:謝謝楊老師。第一輪討論勾勒出一個清晰的脈絡:DeepSeek的效率至上既是工程能力的勝利,也是特定約束下的生存策略。每一次領先確實都有代價,但每一次里程碑都看到了DeepSeek在不同層面上的嘗試。這有點像賈伯斯說的連點成畫,從不同的點進行嘗試,最後形成一幅完整的畫面。接下來我們將進入第二輪:百萬上下文時代的技術路線之爭。長上下文已從“炫技參數”轉變為“基礎設施”,DeepSeek V4等主流大模型紛紛升級至百萬級(1M)上下文。請教黎科峰老師,為何長上下文會成為當前大模型競爭的焦點?黎科峰:競爭的核心動力在於應用驅動。過去 DeepSeek 在應用層相對後覺,更關注 AGI 理想,而千問、字節、GLM 及 Minimax 等廠商早已通過APP 和開發者生態搶佔灘頭。這一年的變革極快。Manus 定義了 Agent 的自主規劃與工具呼叫模式,而 OpenClaw 則像是一個智能體版的 APP Store。這些複雜任務的處理需要長時記憶支撐。當 Agent組合多種能力處理長程任務時,拼出的 Prompt極其複雜,這對長上下文的連接能力提出了硬性要求。DeepSeek V4的升級是補齊短板的重要一步。雖然它在應用層起步較晚,但這次發佈顯示其正反向通過應用需求推動模型演進。大模型不再是舞台中央的唯一主角,而是“搭檯子”的基礎設施,唱戲的是百花齊放的專家Agent。百萬級上下文是這個“檯子”最關鍵的基石。岑峰:報告顯示 DeepSeek 在 128K 後的檢索性能有所衰減。請教楊老師,對比 Google Gemini 的原生長窗、OpenAI的o 系列推理加速及 Claude 的可控長文字,DeepSeek 這種極致壓縮路徑的優劣勢是什麼?楊澤乾:這四家目前全球 Token 呼叫量前四的廠商,在長文字策略上各具特色:DeepSeek V4是實用主義,通過 CSA+HCA 極致壓縮 KVCache,大幅降低視訊記憶體壓力。其優勢是極低成本與百萬級長度,適用於大規模程式碼重構、架構分析及超長文件總結。代價是全域高密度檢索性能會有所下降,且MoE 架構在處理跨領域知識融合時,穩定性稍遜於稠密模型。Claude的路線屬於完美主義,追求最小化壓縮以保持資訊完整。優勢是檢索精度和可控性行業頂尖,處理多工呼叫能力極強。代價是成本最高,且在需要全域注意力時,速度必然受限。它更適合法律、醫療等高資訊密度、對嚴謹性要求極高的場景。OpenAI則是全面主義, 走漸進擴展+推理模型最佳化路線。優勢在於跨模態能力強(如 GPT-4.6/5.4),通過 o系列模型專門最佳化複雜邏輯推理。然而,其成本極其昂貴,如剛發佈的 GPT-5.5輸出價格高達 130 美元/百萬 Token,與 DeepSeek 形成鮮明對比。Google Gemini屬於二者的均衡折中,堅持原生架構支援長上下文,不依賴演算法壓縮。優勢在於高密度知識檢索能力強,工程結構簡單,全域一致性好。缺點是硬體成本極高,架構靈活性有限,主要適應通用問答場景。總結來說,DeepSeek 是以效率優先解決“能用、好用”的問題;Claude 追求極致精度;OpenAI 覆蓋全高端場景;Gemini則在精度與成本間尋找平衡點。岑峰:DeepSeek V4 與硬體深度繫結,請教劉廣老師,這種“極致壓縮+低位元量化”是否會形成硬體的技術壁壘?跨平台遷移是否會面臨性能損失?劉廣:DeepSeek 的量化策略確實與硬體存在較強的協同關係,但這並非不可踰越的屏障。智源 FlagOS 團隊曾嘗試進行“反量化”,將低位元權重升維至 FP16 或BF16。技術上是可行的,但坑在於量化精度對操作順序極敏感,反量化過程中可能出現精度誤差。目前的長上下文技術其實才走了一半。雖然我們能讓模型“記住”1M 甚至更長的資訊,但這只是暫時的記憶。AGI 的核心能力是持續學習,即模型應隨環境互動改變其權重,而不僅僅是堆砌上下文。在生態側,長上下文為國產晶片帶來了差異化機會。例如當前流行的 PD 分離(Prefilling 與 Decoding分離)技術,有些國產晶片適合做預填充,有些適合做推理。智源也在佈局異構通訊等底層技術,支援在國產算力上實現長文字推理。總體來看,這種技術路線的演進正在衍生出大量新的機會。4. MoE 的精打細算 vs. 稠密模型的擴張岑峰:除了長上下文,大模型領域另一個顯著的路線分歧在於MoE(混合專家模型)與稠密模型。目前,國內“開源御三家”(DeepSeek、千問、Kimi)均選擇了MoE 路線,而西方巨頭(OpenAI、Anthropic、Google)則在主力模型上依然傾向於稠密模型。黎老師,在 Agent 時代,這兩條路線將如何演化?MoE與稠密模型之間是否存在相互學習的空間?黎科峰:中美技術選型的差異,本質上是不同資源約束下的必然結果。對於國內團隊而言,技術選型面臨著“晶片封鎖”與“預算受限”的雙重壓力。我們必須在算力供給並不充裕、硬體性能稍遜於 NVIDIA頂尖產品的環境下,通過軟硬一體化最佳化出極致性能。這就迫使我們走向 MoE這種“精打細算”的路線。反觀美國,雖然現在也面臨電力和基建的瓶頸,但其核心邏輯依然是資本驅動的大手大腳:通過堆疊更多的參數、購買更多的晶片來維持領先,形成了一套資本與算力繫結的遊戲。我認為中美的這種分化將長期存在,且各有勝場。中國大模型會在成本維度形成“降維打擊”: 當國產模型的成本只有美國的 1/10,且性能差距縮減到毫釐之間時,這種成本優勢是極其恐怖的。不過,二者目標設定也有差異:中國團隊的目標非常清晰——通過開源和極致性價比實現“彎道超車”。這並不是說美國企業不懂低精度訓練或極致壓縮,而是他們的戰略目標不在於此。最終,這兩條路徑會根據使用場景進行市場細分:追求極致精度、不計成本的場景屬於一類;而追求高性價比、大規模普及的場景則屬於另一類。DeepSeek在極度受限的條件下最佳化出的非 CUDA 生態路徑,讓我們看到了打破壟斷的希望。岑峰:我們注意到,在針對複雜程式設計任務的評測(如 SWE Pro)中,DeepSeek V4(55.4%)略遜於稠密模型Claude 4.5(57.3%)。這是否說明 MoE 的專家分工模式,在需要長程規劃和高度統一表徵的 Agent 任務中,不如稠密模型穩健?楊澤乾:MoE 架構在處理複雜 Agent 任務時,確實面臨“連貫性”的天然挑戰。以 DeepSeek V4 為例,其總參數量高達 1.6T,但單個 Token僅啟動其中的 49B(約 3%)。這種動態路由機制雖然能以更小的計算量處理海量參數,但無法像稠密模型那樣讓每一個Token 都經過全部參數的統一處理,容易導致在長程任務中出現邏輯斷層。但 MoE 並非決定性因素。例如 Kimi K2.6 同樣採用 MoE 架構,但在部分測試中卻優於某些稠密模型。DeepSeek V4在特定資料集上的劣勢,更多是其在效率與成本間進行極致取捨的結果。目前,行業最佳化 MoE 應對長程任務的思路主要有三條:改進路由機制: 採用更智能的專家選擇策略,減少路由切換頻率,維持任務狀態。強化專家間資訊共享: 提升專家網路對全域任務目標的共識。針對性強化學習: 在訓練階段專門對長程任務進行 RL 最佳化,彌補架構帶來的連貫性損失。岑峰:劉老師,如楊老師所言,MoE在Agent任務上存在"連貫性瓶頸",而Agent正是2026年大模型最重要的落地場景,MoE路徑未來還有那些可能的演進來解決這個問題?劉廣: 針對 MoE 路線的演進,我認為未來有兩個極具價值的研究方向。首先是極致的稀疏化。DeepSeek 成功的關鍵在於將 MoE的粒度做得極細。細粒度專家雖然帶來了系統通訊的挑戰,但也極大提升了模型表徵的靈活性。DeepSeek幾乎把所有的稀疏化技術都用上了:稀疏注意力、稀疏 MoE,甚至是基於分佈式表示的 N-gram。這種稀疏化不僅能提升效率,還能幫助模型進行“感知量化訓練”。如果模型足夠稀疏,我們就可以通過剪枝去掉大量權重而幾乎不影響性能,甚至可以實現將多個不同領域的專家蒸餾到一個統一模型中的“後訓練範式”。其次是打開 Transformer 的“黑盒”。過去我們將 Transformer視為不可拆解的整體,但現在的趨勢是將其細分、拆碎。通過觀測訓練過程中那些環節的值不穩定,進行針對性的架構改進(如MHC 最佳化),讓訓練變得更穩健、更高效。這種從理論機理出發,結合極致工程實踐的路徑,不僅能提升訓練效率,更能讓我們深入理解大模型的運行機制。5. 從省錢到賺錢的未來思考岑峰: 剛才三位老師深入探討了長上下文、MoE 與稠密模型的優劣。我們達成了一個共識:在百萬上下文和 Agent時代,並沒有唯一的“正確答案”。DeepSeek走的是極致性價比的壓縮路線,但在記憶完整性和連貫性上仍有挑戰;而海外巨頭如Anthropic 走完美主義路線,OpenAI 走全面路線,Google 走原生平衡路線。最終,技術路線的差異要回歸商業本質:DeepSeek 這種“省錢”的能力,能否轉化成“賺錢”的能力?大模型產業是否正從“模型競賽”轉向“系統戰爭”?請教黎老師,您如何看待這幾種路線在商業化能力上的潛力?黎科峰: 技術領域從未有“一招鮮吃遍天”的方案,大模型最終會進入細分領域的深度競爭。例如,Claude 強在 Coding,GPT強在圖像與綜合推理,豆包強在多模態。DeepSeek 則聚焦文字處理,這是一種戰略上的克制。關於商業化,我認為可以從兩個維度看:首先,成本是商業化的生命線。就像汽車行業,豪華品牌固然存在,但真正統治市場的是豐田、大眾這類大眾化品牌。性價比永遠是大規模商業化中最重要的環節。目前Claude Opus 等高端模型的開銷,即使是對擁抱 AI 的企業來說也感到沉重的壓力,更遑論未來數萬名員工全員 AI 化後的開銷。因此,Token成本持續下探是行業必然。從技術理想主義與長期主義的維度,DeepSeek比較特殊,其創始人梁文鋒現階段表現出了極強的技術理想主義,更關注如何把東西做成世界最好,而非過早商業化。這種“厚積薄發”的策略,在國產軟硬一體化最佳化的背景下,可能對閉源大廠產生巨大的衝擊。當性能接近、成本僅為對方 1/10時,這種優勢是顛覆性的。岑峰:極致效率、通用能力與落地穩定性,往往難以兼得。對於企業客戶和開發者,未來的模型選型標準會發生什麼變化?那種路線具備更長期的生命力?楊澤乾: 我認為大模型選型的判斷標準,正從單一的“模型有多聰明”轉向“系統效能的綜合評估”。主要看三個核心指標:成本可控性: 企業關注的不只是單次推理費用,而是當業務規模擴大 100 倍、完全 Agentic化之後,成本曲線是否能維持線性。在這一維度,極致效率路線具有壓倒性優勢。能力的確定性:開發者在核心場景中更看重模型的穩定性、可預測性和可解釋性。一個全能但“黑盒”且不可控的模型,其價值往往不如一個在垂直任務中表現穩健的專用模型。生態與部署的敏捷性: 能否快速整合到現有業務、能否在自有硬體上運行、出故障後是否有成熟的社區支援,這些都決定了落地的速度。DeepSeek 走的是普適化邏輯:通過 10% 的能力差距換取 10 倍以上的成本優勢,將 AI能力變成成千上萬中小企業和開發者工具箱裡的“日用品”,從而成為像水和電的行業基礎設施。而OpenAI等大廠走的是頂尖產品邏輯,為失敗容忍度極低、對成本不敏感的高風險場景提供不可替代的、最可靠的解決方案。未來市場會明顯分層,絕大多數商業場景將流向性價比更高的實用模型。岑峰:劉老師,楊老師提到了系統生態的建設。未來 AI 廠商的核心競爭力,是否會從單純的演算法研發轉向全端的系統工程能力?劉廣:這確實是大勢所趨。單一模型的能力存在侷限,必須通過系統化(Agentic 系統)來擴展其邊界。目前許多大廠已將原有的中台能力轉化為工具或 MCP(模型上下文協議)介面。此次 DeepSeek V4 的發佈,結合 Claude Code等開源/閉源腳手架,將極大加速這一過程。企業只需對模型權重進行微調,即可將其接入真實業務流程,產生實際產出。分享一個我們的實踐:在國產算力生態中編寫算子。以前依賴專家手工編寫,周期長達一至兩周。現在利用 Agent 輔助,只需 10 到 20分鐘即可生成高品質算子,並在國產晶片上順暢運行。這種方式將人力成本從數千元降低到幾十元的 Token費用,這種價值的體現會反向驅動整個系統層面的進化。DeepSeek V4 第二次加速了 AI 輔助產業重塑的處理程序。岑峰:今天的討論從 V2 談到 V4,從 MLA 架構談到 CSA+HCA 注意力機制,從“掀翻價格桌子”談到“重構基礎設施”。DeepSeek用四年時間證明:效率本身就是核心競爭力。正如三位老師所言,在 Agent 時代,大模型面臨著對連貫性、可控性和商業可持續性的新考量。每一筆“省下的錢”背後都有複雜度的代價,但 DeepSeek最大的價值在於,它打破了 Scaling Law 只能靠堆算力和堆參數的慣性。智能的邊界不僅由晶片定義,更由工程師的想像力和工程能力定義。桌子掀翻之後,最重要的不是誰掀的,而是誰能在廢墟上重建更便宜、更可控、更具生態生命力的秩序。至於未來格局如何,我們 2027年再見分曉。 (雷峰網)