Kimi沒有DeepSeek的命

2026/04/02

•

2024

或許你還記得，在並不遙遠的2024 年，Kimi是中國AI當紅炸子雞：10億美金融資、Kimi概念股多次漲停、200萬字輸入碾壓GPT、激進的投流推廣策略。

但他們當時獲得的曝光度，遠超自己的技術影響力。

事實上，那個200萬字的模型，後來能用到的人微乎其微。後來瞭解到，那是個實驗性模型，每次運行成本接近 3 位數，完全不具備大規模服務使用者的可能性。

那時的技術圈，對 Kimi 是不屑一顧的。

但是靠著200萬字的噱頭，Kimi還是站住了“長文字”標籤和使用者心智。

2025

2025 年初，DeepSeek 橫空出世，真正靠技術實力成為中國AI技術的代言人。

到了 2025年中，Kimi 已快一年沒任何融資的消息。被“唱衰”成為主旋律，員工開始流失，業內基本給這個創業項目判了死刑。

如果你從2025年年中開始，閉關了 9 個月，到2026年3月看到新聞：

Kimi 最新估值 1200 億；
Kimi 20 天收入超過去一年；
Kimi的模型被3500億估值的最火AI程式設計工具Cursor套殼並實錘（你閉關了9個月，所以不知道最火的AI程式設計工具已經是 Claude Code了，Cursor已成老二）；
Kimi新模型被承載了網際網路20%流量、市值超過 5000 億Cloudflare引入為主力模型；
Kimi新模型成為全球最大獨立AI搜尋應用Perplexity唯一引入的開源模型和中國模型；
Kimi新技術“注意力殘差”開始改造深度學習架構10多年來的地基，並得到前OpenAI的聯合創始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及馬斯克稱讚；
楊植麟成為輝達2026 GTC年度大會唯一受邀做演講的全球獨立大模型公司代表……

你很可能會驚掉下巴。

大家說“AI 一天，人間一年”，AI 領域 9 個月確實發生了很多事情。

但歸根結底是一件事情，AI技術的範式發生了變化。這個變化最常見、最偷懶的概括是從 Chat 到 Agent。

對全世界的 3000萬程式設計師來說，變化是，最受推崇的工具從Cursor 變成 Claude Code。

對總是率先擁抱新技術的 early adopter 來說，變化是更頻繁地打開那個類似 DOS 系統的黑白命令列終端……

對AI公司來說，變化是大家陸續發現：更會聊天的模型，遠不如會寫程式碼和呼叫工具的模型有價值。

最酷的產品從ChatGPT變成Claude Code，最酷的創業公司也從 OpenAI 變成了 Anthropic。

回到 2025 年初的中國市場。

DeepSeek R1 因為復刻並開源了 OpenAI o1 的“深度思考”能力爆火，另一個“通用 Agent”產品 Manus 也橫空出世……

彼時的中國AI公司，大多數在忙著復現 DeepSeek R1，推出能“深度思考”的新模型。少數公司意識到 Manus 背後的那個模型，才是更值得花資源“復現”的東西。或者意識到了，但沒有分配到足夠的資源，或找到方法。

Manus的一個很大的價值，就是可視化呈現了Claude模型的多輪工具呼叫能力。正如一位大模型公司的技術專家在自己的部落格中寫到，“絕大多數 Agent 產品，離了 Claude 以後，什麼都不是。”

直到 2025年7月，中國第一個主打Agent能力的模型才悄然出現。7月11日，Kimi K2 發佈，喊的是 Open Agentic Intelligence。這裡顯然藏著他們的野心：復現 Claude 模型的 Agent 能力，並開源出去。就像 DeepSeek R1 復現 OpenAI o1並開源出去。

發佈 5 天後，7月16日，英國的 Nature 自然雜誌發現了這個模型的價值，用“另一個DeepSeek時刻”來形容。

發佈10天後，7月21日，Anthropic聯合創始人Jack Clark在自己的部落格中介紹了 K2，評價稱：

在我看來，Kimi 是一款還不錯的模型，落後美國最前沿幾個月，延續了 DeepSeek 的軌跡。其編碼和工具呼叫分數已足夠高，我預計現實中會有人真正用它，因此觀察其採用率能折射競爭力。

7 月底，楊植麟在播客專訪中，解釋了 K2 為什麼沒有先做“深度思考”，而是在 Agent 需要的程式設計和工具呼叫能力上發力。他用“缸中之腦”來形容主打深度思考的模型。對了，楊植麟這篇採訪值得多看幾遍，他講了很多技術層面更本質的東西，比如程式設計和Agent的關係，思考和工具呼叫的關係。

因為 K2 和後續 K2 Thinking 模型的表現，Kimi 的融資在年底終於續上了，5 億美金，IDG和幾家老股東繼續加持。

2026

2026 年春節前後，這個瘋狂的大模型發佈季，Kimi 是第一個交卷的選手。可能也是讓同行們最難受的一個，因為 K2.5兆參數、圖片和視訊的多模態理解能力，支援思考和非思考模式。其他創業公司同行發佈的都是純文字模型。有實力把多模態能力融入旗艦模型的，只有大廠的閉源模型。

3月16號，Kimi團隊發佈了Attention Residuals的技術論文，挑戰已有 10 年歷史的神經網路底層殘差連接機制。OpenAI的聯合創始人Andrej Karpathy銳評Kimi“讓我們意識到根本沒有把Attention is All You Need理解透徹”，要知道，Attention is All You Need就是開啟大模型時代的聖盃，那怕考慮到AI圈的通詞膨脹，這個評價也是前所未有的高。據說，論文第一作者是一位僅 17歲的高中生，天才出少年，真是令人感慨。

3月17號，Kimi 模型繼年初的 CES 2026 之後，在黃仁勳的 GTC 2026 主旨演講中再度成為輝達展示下一代晶片和推理性能的御用模型。

3月18號，作為輝達的GTC年度大會唯一受邀的中國獨立大模型公司代表，楊植麟的現場演講全是乾貨，上來就把最佳化器、注意力機制、殘差連接三大核心模組比作有8-11年歷史的陳舊技術標準，是繼續Scaling的障礙，用新的技術突破表明“每一項基礎技術都值得重新思考”。

然後是這幾天人盡皆知的“Cursor醜聞”，誰能想到，估值500億美金的全球最大程式設計助手Cursor，重磅推出的新一代程式設計模型Composer 2——跑分超過Claude Opus 4.6——竟然是套的Kimi K2.5的殼⋯⋯

身為Token中介定位的Cursor之所以要發力“自研”，主要還是為了擺脫它對Anthropic和OpenAI的高度依賴，卡脖子這事兒可不分國界，Anthropic也真的曾經斷供Windsurf這類程式設計工具，在既當裁判員又當運動員的環境下，Cursor希望獨立自主的心情，完全可以理解。

只是能力和願景之間的巨大鴻溝，讓Cursor選擇了抹掉來自Kimi的底座模型名字，靠代筆求融資，事情最後也算是體面收場，Cursor的聯合創始人公開道歉，在技術報告中給除了選擇 Kimi K2.5 作為底座模型的詳細理由，而Kimi官方也回應表示，很高興Cursor使用Kimi K2.5作為基座，雙方通過推理服務商 Fireworks AI 做了技術授權。

根據小道消息， 2026 年春節前後，Kimi 陸續以投前 48 億美元、60 億美元、100億美元的估值完成總額近 20 億美元的融資，3月份開啟的 180 億美元輪次份額也要排隊才能拿到。

這當然也受益於兩個同行在港股的超常表現，但更重要的還是靠自己的 K2和後續的模型實際表現，包括前文題庫的 Cursor、Cloudflare、Perplexity、黃仁勳、馬斯克、馬克·安德森、查馬斯等不斷髮來的“金水”，以及K2.5發佈後20天收入超過過去一年的財務表現。

一位 Kimi 的朋友在私下聊天裡說，制約業務發展的只有算力，現在至少還有 10 倍的需求沒有滿足。有多少卡，就能有多少收入。據我跟另一個大廠工作的朋友瞭解，現在有些大廠在程式設計工具中接入的Kimi模型，甚至要通過預購才能拿到足夠的額度。

這 9 個月，Kimi 算是完成了一次逆天改命。

命

Kimi和DeepSeek，到底誰更強？DeepSeek V3不是一天煉成的。其背後的幻方量化基因，決定了他們從 2023 年起就走上了一條與矽谷截然不同的極致能效比之路。在 2023 到 2024 年的大部分時間裡，他們游離於主流敘事之外，潛心自研 MLA（多頭潛在注意力機制）與 DeepSeekMoE 架構，試圖在有限的算力下壓榨出超越物理極限的性能。直到 2025 年成就自己，也給其他AI創業公司帶來信心。

所有人都在期待 DeepSeek 的下一代模型繼續驚豔全場，但媒體上三番五次的“狼來了”把戲只會消磨大家的注意力。技術突破，那是那麼容易的事情，我們完全有理由更有耐心地等待 DeepSeek 團隊的下一個作品。

Kimi K2 也不是一天煉成的。他們實際上跟 DeepSeek R1同一天發佈了無人問津的K1.5模型，被OpenAI官方認為是率先復現o1的兩個公司之一。他們在被唱衰最厲害的2025年初發佈了Moonlight系列小型MoE模型，用來驗證下一代二階最佳化器技術，並且最終應用到兆的K2模型上。現在Muon已取代已經用了10年的標準技術Adam，成為Kimi、GLM-5、DeepSeek Engram在內的新模型都開始採用的新標準。

正所謂，“出來混，總要還的。”Kimi 在2024年提前享受了C位和曝光，2026年沒再復現該屬於自己的流量。

各有各的命。

作為兩家幾乎同時起步的創業公司，我佩服他們那種從來不認為市場格局已定、相信技術才是最大變數、敢於追逐AGI 的勇氣和年輕生猛、戰績可查、永遠相信細水長流的力量。

即使站在 2026年3月底這個時間節點看，2022年底開始的這場AI革命也才進行了3年半的時間，一切才剛剛開始。為什麼下一個 OpenAI 和 Anthropic 不能是一家中國公司？ (虎嗅APP)