這一次，梁文鋒和楊植麟隔空握手

2026/04/26

•

真是熱鬧的一周。

周一，Kimi剛發完Kimi K2.6；周五，萬眾矚目的DeepSeek V4就來了。

這種感覺很熟悉。

過去一年，這兩家公司不是前後腳發模型，就是前後腳發技術論文，不是你把市場熱度點著了，就是我把技術討論接過去了。

更早之前，說起中國開源模型，幾乎條件反射地想到DeepSeek。

尤其是DeepSeek發佈R1之後，這家公司不僅憑一己之力改寫了全球市場對中國AI的印象，而且喚醒了其他中國的AI創業團隊的“信心”。

於是，我們看到，更多的中國AI創業團隊開始做出非常競爭力的模型，帶來非常有影響力的技術研究成果。

2025年7月，被《自然》雜誌稱為“又一個DeepSeek時刻”的Kimi K2模型，在底層架構上首次大規模驗證了二階最佳化器 Muon，同時採用了 DeepSeek驗證過的 MLA注意力機制。

到了2026年4月，DeepSeek V4在架構上也跟進 Kimi K2採用 Muon最佳化器，取代過去已經使用了10年的Adam最佳化器。

這可能是開源最大的價值：讓中國公司共享技術，加速追趕美國的閉源巨頭。

它們是中國目前唯二，總參數超過兆、已權重公開的中國模型。也是最有國際影響力的中國AI模型代表。全球市值最高的輝達公司在展示下一代晶片性能時，用的模型正是來自 DeepSeek 和Kimi。

不僅如此，他們也都在挑戰深度學習網路的底層架構，DeepSeek有mHC殘差連接，Kimi有引發矽谷核心技術圈討論的“注意力殘差”。

A

雖然說DeepSeek V4和Kimi K2.6在同一周發佈，但其實兩個模型各有技術側重點。

V4的核心突破在於百萬上下文的成本重構，它通過全新的混合注意力機制，將單token推理的計算量壓縮到V3.2的27%，KV Cache降至10%。

這套方案結合了壓縮稀疏注意力和重度壓縮注意力，讓百萬級上下文從技術演示變成了可以普及的基礎設施。

V4同時針對agent場景做了專項最佳化，後訓練階段把agent作為獨立方向單獨訓練，工具呼叫格式從JSON換成帶特殊token的XML結構，跨輪次推理痕跡在工具呼叫場景下完整保留。

DeepSeek還自建了名為DSec的沙箱平台，單叢集可並行管理數十萬個沙箱實例，用來支撐agent強化學習訓練和評測。

K2.6的方向則更偏向長程編碼和agent叢集。它在Kimi Code Bench內部評測中得分68.2，比K2.5的57.4提升約20%。

最高可支援300個子agent平行完成4000個協作步驟。

B

2025年2月，Kimi 發佈 Moonlight系列模型，首次將二階最佳化器Muon應用於480億參數的大模型，驗證了新一代最佳化器的效果。

2025年4月，Kimi-VL模型發佈，在Moonlight模型的技術上，引入MoonViT視覺編碼器，為之後的多模態理解模型打下基礎。

2025年7月，Kimi首次將Muon最佳化器擴展到兆參數的規模，推出 K2 開源模型。

2025年10月，Kimi發佈Kimi Linear，這是Kimi提出的一種線性注意力架構，核心目標是在保住長上下文能力的同時，把大模型處理超長文字的計算和視訊記憶體成本降下來。

這說明楊植麟已經不滿足於只做模型了，他想對模型的底層架構動手。

隨後，Kimi發佈並開源支援圖片和視訊理解的兆參數模型Kimi K2.5。

2026年3月，Kimi發佈注意力殘差的論文，繼續對Transformer的底層結構下手。

這篇論文在X上收穫了馬斯克本人的稱讚。

在然後就到了前幾天的K2.6，這是一個圍繞長周期編碼、agent執行、工程任務能力的模型。

從產品定位的演變可以看出，Kimi正在從消費級對話產品往生產力工具轉型。

2026年3月，楊植麟在輝達GTC大會上發表演講，系統介紹Kimi技術路線，他用三個關鍵詞概括Kimi的Scaling策略：Token效率、長上下文、agent叢集。

他表示，要推動大模型智能上限的持續突破，必須對最佳化器、注意力機制及殘差連接等底層基石進行重構。

當前的Scaling已經不再是單純的資源堆砌，而是要在計算效率、長程記憶和自動化協作上同時尋找規模效應。

一家公司最怕的是，只有媒體在討論你，開發者卻不用你。

但Kimi不一樣，無論是在OpenRouter上還是絕大多數agent工具的默認介面裡， K2.5和K2.6都是主流選項。

截止發稿，Kimi和DeepSeek都出現在OpenRouter的TOP3模型裡，在AA的榜單上，K2.6甚至暫時佔得先機。

而在K2.6這裡，模型繼續強化agent、長任務、編碼能力，也是同一個訊號。楊植麟真正押注的，就是生產力場景。

這也是Kimi這一年最關鍵的變化。

它不再只是告訴使用者“我能幫你讀更長的檔案”，而是在回答更底層的問題，模型怎樣才能在更長時間、更複雜任務、更高工具呼叫密度下保持穩定？

長上下文解決的是記憶和資訊承載；線性注意力解決的是成本和擴展性；agent叢集解決的是複雜任務拆解；程式設計能力解決的是模型的理解和執行。

它們看起來是幾條不同產品線，其實背後指向同一個方向，Kimi想把Kimi從一個好用的聊天窗口，變成可以承接真實工作的基礎模型。

4月，楊植麟受邀參加總理主持的經濟形勢專家和企業家座談會，作為唯一的大模型創業者代表發言。這個1993年出生的年輕人，成為座談會上最年輕的參會者。

一個月前，他剛在2026中關村論壇年會全體會議上發表演講，系統闡述了中國AI團隊如何通過底層架構的“推倒重建”，打破沿用十年的行業技術標準。

顯然，Kimi已經從一家創業公司，變成了代表中國AI技術路線的符號之一。

Kimi這一年的成長路徑，和DeepSeek的路徑有明顯差異。兩家公司的技術選擇不同，但也正因如此，才讓中國開源模型有了更多可能性。

C

過去我們寫這兩家公司，容易寫成“誰的模型好”、“誰才是下一個OpenAI”。

但這其實是個誤區。

DeepSeek和Kimi，不該被簡單理解成“誰贏誰輸”。它們更像中國開源模型對外競爭的兩條腿。不存在誰取代誰，而是應該互相刺激互相促進。

DeepSeek和Kimi相繼證明了一件事，做前沿模型不一定需要無限的資源，關鍵在於演算法創新和工程最佳化。它們在模型演算法、工程效率、開源路線和降低推理成本上的貢獻，仍然是中國AI過去一年最重要的技術事件之一。

它們彼此競爭，但也彼此抬高了中國開源模型的上限。

真正重要的不是它們誰先到終點，而是它們把中國模型的競爭維度拆開了。

過去我們評價一家模型公司，很容易只看榜單、參數、價格、發佈會聲量。

但模型公司真正的護城河，已經不再是“模型聰不聰明”、“模型性能如何”這些事了。現在圍繞模型的敘事，是它能不能形成一整套技術路線。

DeepSeek把第一件事做得很徹底。它讓外界看到，中國公司可以用更高的工程效率，把模型訓練和推理成本打下來，可以把技術報告寫到足夠透明，可以把權重開放到足夠激進。

它建立的是一種開源信任。開發者願意研究它、復現它、部署它，是因為它不只是給了一個API，而是把模型背後的方法論也拿了出來。

Kimi補上的是另一塊。

Kimi最早被使用者記住，是因為長文字和聊天產品，但K2.6之後，它講的已經不是一個更會聊天的助手，而是模型如何進入真實工作流。

長程編碼、Agent叢集、工具呼叫、長周期任務，這些能力沒有“霸榜”那麼直觀，但它們決定模型能不能從“被試用”走向“被依賴”。

如果說DeepSeek解決的是模型夠不夠強、夠不夠便宜、夠不夠開放的問題，Kimi更關心的是模型能不能真的替人完成複雜任務。

所以這兩家公司放在一起看，意義反而更大。

作為觀察者和使用者，我們肯定希望都存在，這樣產業才能發展。

中國AI真正值得興奮的，不是終於出了一個DeepSeek。

而是在DeepSeek的帶動下，Kimi們依然能靠自己成長為一座座大山。

這說明中國AI公司已經開始在不同維度上找到自己的位置，不再是簡單模仿，是真正的在探索自己獨有的那條技術路線。

DeepSeek和Kimi的技術互相賦能，也說明了一件事，開源生態的價值在於協作。

現在的問題不是DeepSeek和Kimi誰更強，而是它們能不能繼續保持這種競爭關係，繼續在技術上互相刺激。

中國開源模型要真正在全球站穩腳跟，需要的不是一家獨大，而是多家公司在不同方向上都做到世界級水平。DeepSeek和Kimi的存在，讓這個可能性變得更大。 (字母榜)