兩個廣東人的五次撞車,撞出最強開源雙雄的底氣?

摘要:

兩個廣東人,撐起中國AI半邊天。

千呼萬喚,4月24日上午,DeepSeek終於扔出重磅炸彈,全新系列模型DeepSeek-V4預覽版正式上線並同步開源,在Agent能力、世界知識和推理性能三大維度宣佈達到國內及開源領域領先水平。從2月8日上線測試版至今,其始終保持著神秘的姿態。

就在四天前的周一晚上,月之暗面同樣發佈並開源了Kimi K2.6模型,主打長程編碼和Agent叢集能力,在多項基準測試中持平甚至優於GPT-5.4、Claude Opus 4.6等閉源模型。

鳳凰網科技統計發現,這已經是Kimi和DeepSeek的第五次“撞車”。

不僅如此,這一次雙方在架構層面有了更多吸納與借鑑。

就連在資本市場,二者也被拿來並列。據Theinformation報導,DeepSeek正在尋求首輪外部融資,在估值方面就參考了Kimi。

一次兩次的撞車或許是巧合,但這兩支中國隊伍顯然已在過去兩年的摸高探索中形成了一種默契。開源策略疊加創新互惠,讓雙方都比既定路線走的更快。

中國最強的兩個開源模型,正以一種心照不宣的方式,從兩個不同的方向合力包抄海外巨頭的腹地。

五次撞車,蛛絲馬跡越來越多

先說前幾天的Kimi K2.6。月之暗面已經有段時間不在單個模型上堆參數了。但從2.5到2.6,模型卻越來越會幹活了。

據稱2.6在單個工程任務中持續12小時、發起4000多次工具呼叫,在官方測試中完成從零建構SysY編譯器到通過140項功能測試的複雜任務——官方估算,這相當於4名工程師兩個月的工作量。

用楊植麟之前概括的三個詞來說,就是Token效率、長上下文、Agent叢集。

DeepSeek V4也有三個關注點,即百萬上下文,兆參數和下半年適配國產算力。在架構層面,V4採用大規模混合專家(MoE)架構,完整版總參數高達1.6兆。創新注意力機制在Token維度進行壓縮,結合DSA稀疏注意力,相比傳統方法大幅降低計算與視訊記憶體需求,1M上下文正式成為DeepSeek所有官方服務的標配。

新模型的看點不展開說了,這次想回顧下幾個巧妙的撞車點。

Kimi和DeepSeek的“撞車史”,最早可以追溯到Kimi 1.5與DeepSeek R1的發佈時間重疊,當時大家還替Kimi惋惜,認為強者遇強者,是一種壓力。此後,兩邊的發佈節奏重疊次數越來越多,鳳凰網科技此前也報導過Kimi和DeepSeek又又又撞車》。

就拿上下文來說,Kimi其實是國內最早做百萬上下文的,2024年時就提過對應200萬文字,當時長文字一度是Kimi非常亮眼的標籤。不過比較遺憾的是,當時Kimi沒解決成本問題,這次DeepSeek再提長文字,就已經把成本打下來了。

這次V4 API標準費率為輸入每百萬Token 0.30美元,快取命中時低至0.03美元,僅為GPT-4o價格的約1/20至1/50。按照人民幣計價,V4-Flash輸入價格僅為1元/百萬Token(快取未命中)、輸出2元/百萬Token;V4-Pro輸入為12元/百萬Token、輸出24元/百萬Token。

另外,Kimi下一代模型的亮點其實也是長上下文,但在路線上兩者有點不一樣,DeepSeek探索的是稀疏注意力,Kimi探索的事線性注意力。

至此,DeepSeek和Kimi拿出了中國唯二兆已開源模型。

開放原始碼的合力,對壘矽谷三巨頭

在全球的AI競賽裡,有人負責做0-1的創新,有人負責1-100的工程複製,但難的是前者需要全球範圍內那1%的天才,後者更適合軍團作戰的大廠。過去,外界常常說0-1的創新容易發生在美國,後者容易發生在中國。

但從DeepSeek和Kimi開始,0-1的創新開始更多的發生在中國。這給了海外AI廠商巨大壓力。

鳳凰網科技瞭解到,梁文鋒在創立DeepSeek之後,對應用和市場都不是最感興趣的,他更在乎底層創新,2025年初的R1以多頭潛在注意力的架構創新擊穿了深度思考的成本。另有行業人士告訴鳳凰網科技,儘管融資曾打亂Kimi的節奏,但在2025年DeepSeek走紅後,Kimi也回歸技術,繼續鑽研底層創新。

而Kimi從K2到K2.5,其底層架構與DeepSeek V3一脈相承,本質上是在後者基礎上的規模化擴展。到了2026年, DeepSeek團隊在1月連續發佈的兩篇論文mHC與Engram中,開始大量參考Kimi此前開放原始碼的最佳化器、注意力架構等研究成果。

這種中國開源模型在底層技術的你追我趕,讓中國的底層創新形成了良性循環,最終帶動了國內開源陣營的集體逆襲。

MIT與Hugging Face聯合發佈的報告顯示,過去一年中國開源模型的全球下載量佔比達到17.1%,首次反超美國的15.86%。全球頭部AI模型API聚合平台OpenRouter的資料則顯示,2026年2月,中國AI模型的呼叫量三周大漲127%,全球前五中佔據四席——包括MiniMax、Kimi、智譜和DeepSeek。一年前,這個數字還不到2%。

DeepSeek撬開矽谷視野時,Kimi的市場空間也被打開了;當Kimi在長文字和Agent領域持續突破時,DeepSeek在推理效率上的極致追求又給整個行業帶來了新的參照系。

一位業內人士對鳳凰網科技表示,Kimi與DeepSeek的撞車早就已經不是內卷,而是一種“惺惺相惜”——“兩個最強的中國開源模型交替衝鋒,合力圍剿的是海外閉源巨頭。”

4月24日凌晨,OpenAI面向付費使用者上線GPT-5.5並官宣API計畫,標準版API定價為每百萬Token輸入5美元、輸出30美元,較前代GPT-5.4翻倍,Pro版更達到輸入30美元、輸出180美元。

2026年初,史丹佛HAI發佈的《AI指數報告》顯示,截至年初,美國頂級AI公司Anthropic最先進模型的性能僅領先中國最強競爭對手2.7個百分點。美國私人AI投資高達2859億美元,是中國的23倍。但“用23倍的資本砸出2.7%的差距”,這可能已經不是美國AI的優勢,而是中國AI的護城河。

無論是K2.6還是DeepSeek V4,可能都是分水嶺等級的產品。

兩者選擇了不同的技術路徑,Kimi深耕長程執行和Agent叢集,DeepSeek聚焦推理效率和極致性價比——但在底層邏輯上又高度一致:用開源打破閉源壟斷,用效率避險算力限制。

AGI雙雄格局初現

去年輝達帶火了中國AI的御三家,其中就有Kimi和DeepSeek,在輝達GTC大會上,Kimi和DeepSeek也是被用來Benchmark 晶片性能的兩家中國開源模型。

近期,鳳凰網科技訪談了多位年輕前沿科學家,也多認為DeepSeek和Kimi有著相似的組織形態與創新環境,都是員工數不多,但人才密度極高。都是從底層技術出發探索AGI,也有著相似的技術前瞻性。

他們也都願意吸納年輕人,DeepSeek的核心研究員有非常多年輕人,Kimi也廣納賢才,下放到本科生,甚至是高中生。

Kimi與DeepSeek開始有越來越多相似的軌跡,另一個值得關注的維度是晶片。楊植麟在2026年3月的輝達GTC演講台上坦言,“目前普遍使用的很多技術標準,本質上是八九年前的產物,逐漸成為Scaling的瓶頸。”Kimi為此給開源社區貢獻了二階最佳化器MuonClip和Kimi Linear架構。DeepSeek V4則直接選擇了用華為晶片做推理,共同為國產算力生態發展做努力。

據楊植麟判斷,大模型的本質是“將能源轉化為智能”,而規模化不是暴力堆砌算力與能源,而是以提升效率為核心。

這可能也會是中國開源模型的集體敘事轉變,不再執著於與GPT-5.4、Claude Opus 4.7等對手在benchmark上死磕,而是定義一種全新的價值體系——低成本、高可及性、自主可控。

第五次撞車或許不會是中國開源模型最後一次在時間線上的“巧合”。

從K1.5借鑑DeepSeek R1的強化學習路線,到DeepSeek V4沿用Kimi的長上下文研究成果,中國的開源力量正在用自己的方式證明:最高效的競爭,是讓對手成為自己生態的一部分。

AI競賽的下半場,規則正在由中國開源模型重新書寫。而Kimi和DeepSeek們,無疑是這段歷史最核心的註腳。 (鳳凰網科技)