Kimi沒有DeepSeek的命

2024

或許你還記得,在並不遙遠的2024 年,Kimi是中國AI當紅炸子雞:10億美金融資、Kimi概念股多次漲停、200萬字輸入碾壓GPT、激進的投流推廣策略。

但他們當時獲得的曝光度,遠超自己的技術影響力。

事實上,那個200萬字的模型,後來能用到的人微乎其微。後來瞭解到,那是個實驗性模型,每次運行成本接近 3 位數,完全不具備大規模服務使用者的可能性。

那時的技術圈,對 Kimi 是不屑一顧的。

但是靠著200萬字的噱頭,Kimi還是站住了“長文字”標籤和使用者心智。

頭圖來自:AI生成

2025

2025 年初,DeepSeek 橫空出世,真正靠技術實力成為中國AI技術的代言人。

到了 2025年中,Kimi 已快一年沒任何融資的消息。被“唱衰”成為主旋律,員工開始流失,業內基本給這個創業項目判了死刑。

如果你從2025年年中開始,閉關了 9 個月,到2026年3月看到新聞:

  • Kimi 最新估值 1200 億;
  • Kimi 20 天收入超過去一年;
  • Kimi的模型被3500億估值的最火AI程式設計工具Cursor套殼並實錘(你閉關了9個月,所以不知道最火的AI程式設計工具已經是 Claude Code了,Cursor已成老二);
  • Kimi新模型被承載了網際網路20%流量、市值超過 5000 億Cloudflare引入為主力模型;
  • Kimi新模型成為全球最大獨立AI搜尋應用Perplexity唯一引入的開源模型和中國模型;
  • Kimi新技術“注意力殘差”開始改造深度學習架構10多年來的地基,並得到前OpenAI的聯合創始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及馬斯克稱讚;
  • 楊植麟成為輝達2026 GTC年度大會唯一受邀做演講的全球獨立大模型公司代表……

你很可能會驚掉下巴。

大家說“AI 一天,人間一年”,AI 領域 9 個月確實發生了很多事情。

但歸根結底是一件事情,AI技術的範式發生了變化。這個變化最常見、最偷懶的概括是從 Chat 到 Agent。

對全世界的 3000萬程式設計師來說,變化是,最受推崇的工具從Cursor 變成 Claude Code。

對總是率先擁抱新技術的 early adopter 來說,變化是更頻繁地打開那個類似 DOS 系統的黑白命令列終端……

對AI公司來說,變化是大家陸續發現:更會聊天的模型,遠不如會寫程式碼和呼叫工具的模型有價值。

最酷的產品從ChatGPT變成Claude Code,最酷的創業公司也從 OpenAI 變成了 Anthropic。

回到 2025 年初的中國市場。

DeepSeek R1 因為復刻並開源了 OpenAI o1 的“深度思考”能力爆火,另一個“通用 Agent”產品 Manus 也橫空出世……

彼時的中國AI公司,大多數在忙著復現 DeepSeek R1,推出能“深度思考”的新模型。少數公司意識到 Manus 背後的那個模型,才是更值得花資源“復現”的東西。或者意識到了,但沒有分配到足夠的資源,或找到方法。

Manus的一個很大的價值,就是可視化呈現了Claude模型的多輪工具呼叫能力。正如一位大模型公司的技術專家在自己的部落格中寫到,“絕大多數 Agent 產品,離了 Claude 以後,什麼都不是。”

直到 2025年7月,中國第一個主打Agent能力的模型才悄然出現。7月11日,Kimi K2 發佈,喊的是 Open Agentic Intelligence。這裡顯然藏著他們的野心:復現 Claude 模型的 Agent 能力,並開源出去。就像 DeepSeek R1 復現 OpenAI o1並開源出去。

發佈 5 天後,7月16日,英國的 Nature 自然雜誌發現了這個模型的價值,用“另一個DeepSeek時刻”來形容。

發佈10天後,7月21日,Anthropic聯合創始人Jack Clark在自己的部落格中介紹了 K2,評價稱:

在我看來,Kimi 是一款還不錯的模型,落後美國最前沿幾個月,延續了 DeepSeek 的軌跡。其編碼和工具呼叫分數已足夠高,我預計現實中會有人真正用它,因此觀察其採用率能折射競爭力。

7 月底,楊植麟在播客專訪中,解釋了 K2 為什麼沒有先做“深度思考”,而是在 Agent 需要的程式設計和工具呼叫能力上發力。他用“缸中之腦”來形容主打深度思考的模型。對了,楊植麟這篇採訪值得多看幾遍,他講了很多技術層面更本質的東西,比如程式設計和Agent的關係,思考和工具呼叫的關係。

因為 K2 和後續 K2 Thinking 模型的表現,Kimi 的融資在年底終於續上了,5 億美金,IDG和幾家老股東繼續加持。

2026

2026 年春節前後,這個瘋狂的大模型發佈季,Kimi 是第一個交卷的選手。可能也是讓同行們最難受的一個,因為 K2.5兆參數、圖片和視訊的多模態理解能力,支援思考和非思考模式。其他創業公司同行發佈的都是純文字模型。有實力把多模態能力融入旗艦模型的,只有大廠的閉源模型。

3月16號,Kimi團隊發佈了Attention Residuals的技術論文,挑戰已有 10 年歷史的神經網路底層殘差連接機制。OpenAI的聯合創始人Andrej Karpathy銳評Kimi“讓我們意識到根本沒有把Attention is All You Need理解透徹”,要知道,Attention is All You Need就是開啟大模型時代的聖盃,那怕考慮到AI圈的通詞膨脹,這個評價也是前所未有的高。據說,論文第一作者是一位僅 17歲的高中生,天才出少年,真是令人感慨。

3月17號,Kimi 模型繼年初的 CES 2026 之後,在黃仁勳的 GTC 2026 主旨演講中再度成為輝達展示下一代晶片和推理性能的御用模型。

3月18號,作為輝達的GTC年度大會唯一受邀的中國獨立大模型公司代表,楊植麟的現場演講全是乾貨,上來就把最佳化器、注意力機制、殘差連接三大核心模組比作有8-11年歷史的陳舊技術標準,是繼續Scaling的障礙,用新的技術突破表明“每一項基礎技術都值得重新思考”。

然後是這幾天人盡皆知的“Cursor醜聞”,誰能想到,估值500億美金的全球最大程式設計助手Cursor,重磅推出的新一代程式設計模型Composer 2——跑分超過Claude Opus 4.6——竟然是套的Kimi K2.5的殼⋯⋯

身為Token中介定位的Cursor之所以要發力“自研”,主要還是為了擺脫它對Anthropic和OpenAI的高度依賴,卡脖子這事兒可不分國界,Anthropic也真的曾經斷供Windsurf這類程式設計工具,在既當裁判員又當運動員的環境下,Cursor希望獨立自主的心情,完全可以理解。

只是能力和願景之間的巨大鴻溝,讓Cursor選擇了抹掉來自Kimi的底座模型名字,靠代筆求融資,事情最後也算是體面收場,Cursor的聯合創始人公開道歉,在技術報告中給除了選擇 Kimi K2.5 作為底座模型的詳細理由,而Kimi官方也回應表示,很高興Cursor使用Kimi K2.5作為基座,雙方通過推理服務商 Fireworks AI 做了技術授權。

根據小道消息, 2026 年春節前後,Kimi 陸續以投前 48 億美元、60 億美元、100億美元的估值完成總額近 20 億美元的融資,3月份開啟的 180 億美元輪次份額也要排隊才能拿到。

這當然也受益於兩個同行在港股的超常表現,但更重要的還是靠自己的 K2和後續的模型實際表現,包括前文題庫的 Cursor、Cloudflare、Perplexity、黃仁勳、馬斯克、馬克·安德森、查馬斯等不斷髮來的“金水”,以及K2.5發佈後20天收入超過過去一年的財務表現。

一位 Kimi 的朋友在私下聊天裡說,制約業務發展的只有算力,現在至少還有 10 倍的需求沒有滿足。有多少卡,就能有多少收入。據我跟另一個大廠工作的朋友瞭解,現在有些大廠在程式設計工具中接入的Kimi模型,甚至要通過預購才能拿到足夠的額度。

這 9 個月,Kimi 算是完成了一次逆天改命。

Kimi和DeepSeek,到底誰更強?DeepSeek V3不是一天煉成的。其背後的幻方量化基因,決定了他們從 2023 年起就走上了一條與矽谷截然不同的極致能效比之路。在 2023 到 2024 年的大部分時間裡,他們游離於主流敘事之外,潛心自研 MLA(多頭潛在注意力機制) 與 DeepSeekMoE 架構,試圖在有限的算力下壓榨出超越物理極限的性能。直到 2025 年成就自己,也給其他AI創業公司帶來信心。

所有人都在期待 DeepSeek 的下一代模型繼續驚豔全場,但媒體上三番五次的“狼來了”把戲只會消磨大家的注意力。技術突破,那是那麼容易的事情,我們完全有理由更有耐心地等待 DeepSeek 團隊的下一個作品。

Kimi K2 也不是一天煉成的。他們實際上跟 DeepSeek R1同一天發佈了無人問津的K1.5模型,被OpenAI官方認為是率先復現o1的兩個公司之一。他們在被唱衰最厲害的2025年初發佈了Moonlight系列小型MoE模型,用來驗證下一代二階最佳化器技術,並且最終應用到兆的K2模型上。現在Muon已取代已經用了10年的標準技術Adam,成為Kimi、GLM-5、DeepSeek Engram在內的新模型都開始採用的新標準。

正所謂,“出來混,總要還的。”Kimi 在2024年提前享受了C位和曝光,2026年沒再復現該屬於自己的流量。

各有各的命。

作為兩家幾乎同時起步的創業公司,我佩服他們那種從來不認為市場格局已定、相信技術才是最大變數、敢於追逐AGI 的勇氣和年輕生猛、戰績可查、永遠相信細水長流的力量。

即使站在 2026年3月底這個時間節點看,2022年底開始的這場AI革命也才進行了3年半的時間,一切才剛剛開始。為什麼下一個 OpenAI 和 Anthropic 不能是一家中國公司? (虎嗅APP)