#kimi
Kimi沒有DeepSeek的命
2024或許你還記得,在並不遙遠的2024 年,Kimi是中國AI當紅炸子雞:10億美金融資、Kimi概念股多次漲停、200萬字輸入碾壓GPT、激進的投流推廣策略。但他們當時獲得的曝光度,遠超自己的技術影響力。事實上,那個200萬字的模型,後來能用到的人微乎其微。後來瞭解到,那是個實驗性模型,每次運行成本接近 3 位數,完全不具備大規模服務使用者的可能性。那時的技術圈,對 Kimi 是不屑一顧的。但是靠著200萬字的噱頭,Kimi還是站住了“長文字”標籤和使用者心智。頭圖來自:AI生成20252025 年初,DeepSeek 橫空出世,真正靠技術實力成為中國AI技術的代言人。到了 2025年中,Kimi 已快一年沒任何融資的消息。被“唱衰”成為主旋律,員工開始流失,業內基本給這個創業項目判了死刑。如果你從2025年年中開始,閉關了 9 個月,到2026年3月看到新聞:Kimi 最新估值 1200 億;Kimi 20 天收入超過去一年;Kimi的模型被3500億估值的最火AI程式設計工具Cursor套殼並實錘(你閉關了9個月,所以不知道最火的AI程式設計工具已經是 Claude Code了,Cursor已成老二);Kimi新模型被承載了網際網路20%流量、市值超過 5000 億Cloudflare引入為主力模型;Kimi新模型成為全球最大獨立AI搜尋應用Perplexity唯一引入的開源模型和中國模型;Kimi新技術“注意力殘差”開始改造深度學習架構10多年來的地基,並得到前OpenAI的聯合創始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及馬斯克稱讚;楊植麟成為輝達2026 GTC年度大會唯一受邀做演講的全球獨立大模型公司代表……你很可能會驚掉下巴。大家說“AI 一天,人間一年”,AI 領域 9 個月確實發生了很多事情。但歸根結底是一件事情,AI技術的範式發生了變化。這個變化最常見、最偷懶的概括是從 Chat 到 Agent。對全世界的 3000萬程式設計師來說,變化是,最受推崇的工具從Cursor 變成 Claude Code。對總是率先擁抱新技術的 early adopter 來說,變化是更頻繁地打開那個類似 DOS 系統的黑白命令列終端……對AI公司來說,變化是大家陸續發現:更會聊天的模型,遠不如會寫程式碼和呼叫工具的模型有價值。最酷的產品從ChatGPT變成Claude Code,最酷的創業公司也從 OpenAI 變成了 Anthropic。回到 2025 年初的中國市場。DeepSeek R1 因為復刻並開源了 OpenAI o1 的“深度思考”能力爆火,另一個“通用 Agent”產品 Manus 也橫空出世……彼時的中國AI公司,大多數在忙著復現 DeepSeek R1,推出能“深度思考”的新模型。少數公司意識到 Manus 背後的那個模型,才是更值得花資源“復現”的東西。或者意識到了,但沒有分配到足夠的資源,或找到方法。Manus的一個很大的價值,就是可視化呈現了Claude模型的多輪工具呼叫能力。正如一位大模型公司的技術專家在自己的部落格中寫到,“絕大多數 Agent 產品,離了 Claude 以後,什麼都不是。”直到 2025年7月,中國第一個主打Agent能力的模型才悄然出現。7月11日,Kimi K2 發佈,喊的是 Open Agentic Intelligence。這裡顯然藏著他們的野心:復現 Claude 模型的 Agent 能力,並開源出去。就像 DeepSeek R1 復現 OpenAI o1並開源出去。發佈 5 天後,7月16日,英國的 Nature 自然雜誌發現了這個模型的價值,用“另一個DeepSeek時刻”來形容。發佈10天後,7月21日,Anthropic聯合創始人Jack Clark在自己的部落格中介紹了 K2,評價稱:在我看來,Kimi 是一款還不錯的模型,落後美國最前沿幾個月,延續了 DeepSeek 的軌跡。其編碼和工具呼叫分數已足夠高,我預計現實中會有人真正用它,因此觀察其採用率能折射競爭力。7 月底,楊植麟在播客專訪中,解釋了 K2 為什麼沒有先做“深度思考”,而是在 Agent 需要的程式設計和工具呼叫能力上發力。他用“缸中之腦”來形容主打深度思考的模型。對了,楊植麟這篇採訪值得多看幾遍,他講了很多技術層面更本質的東西,比如程式設計和Agent的關係,思考和工具呼叫的關係。因為 K2 和後續 K2 Thinking 模型的表現,Kimi 的融資在年底終於續上了,5 億美金,IDG和幾家老股東繼續加持。20262026 年春節前後,這個瘋狂的大模型發佈季,Kimi 是第一個交卷的選手。可能也是讓同行們最難受的一個,因為 K2.5兆參數、圖片和視訊的多模態理解能力,支援思考和非思考模式。其他創業公司同行發佈的都是純文字模型。有實力把多模態能力融入旗艦模型的,只有大廠的閉源模型。3月16號,Kimi團隊發佈了Attention Residuals的技術論文,挑戰已有 10 年歷史的神經網路底層殘差連接機制。OpenAI的聯合創始人Andrej Karpathy銳評Kimi“讓我們意識到根本沒有把Attention is All You Need理解透徹”,要知道,Attention is All You Need就是開啟大模型時代的聖盃,那怕考慮到AI圈的通詞膨脹,這個評價也是前所未有的高。據說,論文第一作者是一位僅 17歲的高中生,天才出少年,真是令人感慨。3月17號,Kimi 模型繼年初的 CES 2026 之後,在黃仁勳的 GTC 2026 主旨演講中再度成為輝達展示下一代晶片和推理性能的御用模型。3月18號,作為輝達的GTC年度大會唯一受邀的中國獨立大模型公司代表,楊植麟的現場演講全是乾貨,上來就把最佳化器、注意力機制、殘差連接三大核心模組比作有8-11年歷史的陳舊技術標準,是繼續Scaling的障礙,用新的技術突破表明“每一項基礎技術都值得重新思考”。然後是這幾天人盡皆知的“Cursor醜聞”,誰能想到,估值500億美金的全球最大程式設計助手Cursor,重磅推出的新一代程式設計模型Composer 2——跑分超過Claude Opus 4.6——竟然是套的Kimi K2.5的殼⋯⋯身為Token中介定位的Cursor之所以要發力“自研”,主要還是為了擺脫它對Anthropic和OpenAI的高度依賴,卡脖子這事兒可不分國界,Anthropic也真的曾經斷供Windsurf這類程式設計工具,在既當裁判員又當運動員的環境下,Cursor希望獨立自主的心情,完全可以理解。只是能力和願景之間的巨大鴻溝,讓Cursor選擇了抹掉來自Kimi的底座模型名字,靠代筆求融資,事情最後也算是體面收場,Cursor的聯合創始人公開道歉,在技術報告中給除了選擇 Kimi K2.5 作為底座模型的詳細理由,而Kimi官方也回應表示,很高興Cursor使用Kimi K2.5作為基座,雙方通過推理服務商 Fireworks AI 做了技術授權。根據小道消息, 2026 年春節前後,Kimi 陸續以投前 48 億美元、60 億美元、100億美元的估值完成總額近 20 億美元的融資,3月份開啟的 180 億美元輪次份額也要排隊才能拿到。這當然也受益於兩個同行在港股的超常表現,但更重要的還是靠自己的 K2和後續的模型實際表現,包括前文題庫的 Cursor、Cloudflare、Perplexity、黃仁勳、馬斯克、馬克·安德森、查馬斯等不斷髮來的“金水”,以及K2.5發佈後20天收入超過過去一年的財務表現。一位 Kimi 的朋友在私下聊天裡說,制約業務發展的只有算力,現在至少還有 10 倍的需求沒有滿足。有多少卡,就能有多少收入。據我跟另一個大廠工作的朋友瞭解,現在有些大廠在程式設計工具中接入的Kimi模型,甚至要通過預購才能拿到足夠的額度。這 9 個月,Kimi 算是完成了一次逆天改命。命Kimi和DeepSeek,到底誰更強?DeepSeek V3不是一天煉成的。其背後的幻方量化基因,決定了他們從 2023 年起就走上了一條與矽谷截然不同的極致能效比之路。在 2023 到 2024 年的大部分時間裡,他們游離於主流敘事之外,潛心自研 MLA(多頭潛在注意力機制) 與 DeepSeekMoE 架構,試圖在有限的算力下壓榨出超越物理極限的性能。直到 2025 年成就自己,也給其他AI創業公司帶來信心。所有人都在期待 DeepSeek 的下一代模型繼續驚豔全場,但媒體上三番五次的“狼來了”把戲只會消磨大家的注意力。技術突破,那是那麼容易的事情,我們完全有理由更有耐心地等待 DeepSeek 團隊的下一個作品。Kimi K2 也不是一天煉成的。他們實際上跟 DeepSeek R1同一天發佈了無人問津的K1.5模型,被OpenAI官方認為是率先復現o1的兩個公司之一。他們在被唱衰最厲害的2025年初發佈了Moonlight系列小型MoE模型,用來驗證下一代二階最佳化器技術,並且最終應用到兆的K2模型上。現在Muon已取代已經用了10年的標準技術Adam,成為Kimi、GLM-5、DeepSeek Engram在內的新模型都開始採用的新標準。正所謂,“出來混,總要還的。”Kimi 在2024年提前享受了C位和曝光,2026年沒再復現該屬於自己的流量。各有各的命。作為兩家幾乎同時起步的創業公司,我佩服他們那種從來不認為市場格局已定、相信技術才是最大變數、敢於追逐AGI 的勇氣和年輕生猛、戰績可查、永遠相信細水長流的力量。即使站在 2026年3月底這個時間節點看,2022年底開始的這場AI革命也才進行了3年半的時間,一切才剛剛開始。為什麼下一個 OpenAI 和 Anthropic 不能是一家中國公司? (虎嗅APP)
馬斯克重拳出擊,戳破矽谷那件皇帝新衣
很長一段時間裡,矽谷 AI 是帶著濾鏡的。原創、前沿、高大上。提起先進技術,大多數人的第一反應還是:厲害的,都在國外。馬斯克,一句話,把這層窗戶紙捅穿了。他撕開的不是什麼驚天秘聞,而是一個業內的真相:矽谷一家估值不菲、風頭極盛的 AI 公司,對外標榜自研大模型,底層基座,用的是中國的 Kimi。不是參考,不是借鑑,是直接當作核心底座在用。事情不大,但意味,完全不一樣。一、事情其實很簡單矽谷有個做 AI 程式設計的產品,叫 Cursor,一度被視作明星項目,估值水漲船高。官方口徑很清晰:自研大模型 Composer 2,技術獨立,能力領先。直到被業內人扒開底層呼叫記錄:模型標識清清楚楚,指向的是中國月之暗面的 Kimi K2.5。平台還想模糊解釋,馬斯克直接一句:“對,就是 Kimi 2.5。”一錘定音,沒得洗。創始人後來也承認:確實在用,而且Kimi 是現階段市面上能打的開源模型。說白了,不複雜:一邊頂著「矽谷自研」的光環抬身價,一邊用中國的硬核技術,撐住實際場面。二、被撕開的,不只是一家公司的遮羞布這件事真正戳破的,是兩個長期被默認的幻覺。第一個,矽谷技術無敵的濾鏡,碎了。過去很多人理所當然覺得:頂級創新,出自矽谷。現在現實很直白:不少海外公司,故事講得很漂亮,真到拼硬工業化實力、拼落地效果,還是得選更能打的中國模型。第二個,中國 AI 早已不是跟跑者。以前是我們追著國外走,現在是國外公司悄悄用我們的技術,還不敢明著說。行業裡有句話說得直白:“以前是中國學矽谷,現在是矽谷偷偷用中國。”不是口號,是生意場上的真實選擇。三、為什麼海外公司寧願 “套殼”,也要用 Kimi?商業不講情懷,只講性價比。Kimi 這一代模型,長文字理解、邏輯推理、程式碼處理,確實摸到了全球第一梯隊。業內人都清楚,Transformer 架構成熟這麼多年,真正能做出實質改進的,不多。Kimi 算一個。它的核心競爭力,不在堆參數、炒概念,而在解決了一個十年未破的底層死穴——意識殘差(資訊稀釋)。傳統大模型靠固定加法殘差傳遞資訊,層數越深,淺層關鍵資訊越容易被稀釋、丟失,長文字越往後越“失憶”,算力還被大量浪費。Kimi用注意力殘差(AttnRes) 徹底重構了這一機制:結果是:不再是無腦累加,而是讓每一層動態“回顧”前面所有層,用注意力權重精準篩選、保留關鍵資訊,過濾冗餘噪聲。再通過Block AttnRes分塊最佳化,把視訊記憶體與延遲控制在幾乎可忽略的範圍(訓練額外開銷<4%,推理延遲<2%)。長文字穩得住、邏輯鏈不中斷、複雜推理不掉線,算力效率還提升1.25倍。這才是Cursor這類海外公司,寧願頂著“套殼”爭議也要用Kimi的根本原因——好用、穩定、划算,沒有替代品。再加上成本可控、部署穩定、接入簡單,對企業來說,性價比一目瞭然。Cloudflare 之前做過測評:使用這類中國開源模型,企業的 AI 使用成本能明顯下降,效果反而更穩定。Hugging Face 的創始人也公開說過:中國開源大模型,已經是全球 AI 圈子繞不開的一支力量。市場從來不說謊:誰好用、誰穩定、誰划算,資本和開發者就會用腳投票。四、這不是個案,是已經發生的趨勢Cursor 只是被擺在檯面上的那一個。真實情況是:海外大量工具、產品、中小平台,都在悄悄接入中國大模型。做客服、做內容、做效率工具、做企業內部系統,不少國外大廠也在內部測試、試用。資料更直接:中國大模型的全球呼叫量,早已達到巨量等級;各大開源榜單前排,常年被中國模型佔據;海外開發者社區,討論中國模型的熱度,一直在走高。不用宣傳,不用造勢,好用,自然會被選用。五、矽谷真正不安的,不是技術,是話語權這件事之所以引發震動,不是因為一家公司 “套殼”。而是矽谷維持了幾十年的優越感,第一次被這麼直白地戳破。一是技術原創的優越感。過去是他們定義前沿,制定方向,我們跟著跑。現在是他們要靠我們的模型打底,“自研” 兩個字,變得格外尷尬。二是行業話語權的優越感。以前規則由他們定,標準由他們提。如今中國 AI 在開源、性能、成本、生態上全面起勢,“什麼才是好用的 AI”,這個標準,正在悄悄被改寫。六、中國 AI 這一波,贏的不是炒作,是實在我們這一輪走出來,靠的不是概念,不是聲勢,是三件很樸素的東西:能落地。不玩虛的,穩、快、能用。成本低。小企業、小團隊、普通開發者都用得起。夠開放。不封閉、不卡脖子,願意成為全世界可用的底座。就像月之暗面後來那句很淡、卻很有份量的回應:“我們很欣慰,Kimi 能成為全球 AI 創新的一塊地基。”沒有高調,沒有叫囂。但意思很明確:我們早已不是追隨者。而是別人,已經離不開的底層支撐。 (鋼筆刀)
馬斯克撕破了一塊遮羞布
AI競爭這件事上,攻守之勢正在發生變化。也許很多年後,人們才會意識到,轉折點,只是當時的一件“小事”。(一)這幾天,一場堪稱“AI世紀打假”的戲碼在全球科技圈上演。矽谷當紅炸子雞AI程式設計巨頭Cursor,高調發佈其“自研”的Composer 2模型。然而,全球開發者卻在程式碼中抓到了致命問題——模型ID赫然顯示為中國產大模型Kimi K2.5。一家正在尋求500億美元估值的矽谷明星企業,其最核心的競爭力,竟然必須悄悄建立在一個來自中國的基礎模型之上——而且,開發這個模型的公司估值僅有180億美元。這簡直滑天下之大稽,一時間,全網AI從業者嘩然。更有意思的事,開發者這個模型的中國公司,4天前剛剛才給了矽谷技術圈一個小小的震撼。到底是咋回事?還得從技術底層聊起:這兩年讓AI技術深入生活的,大部分是“大模型”產品,普通人能跟AI直接對話,讓它幫忙工作、做視訊、出主意,都是因為它能進行“邏輯推演”,這背後,源自它名為Transformer的核心元件,這個核心元件的底層,則用了一種叫“殘差連接”的主要邏輯。這個殘差連接不得了,它堪稱現代大模型的基石,不管是長文字理解、複雜邏輯推理,還是多輪對話,模型都靠它保證深層網路的穩定訓練和資訊傳遞。但是,這種連接還是不完善的,用久了,大家就發現了一個核心痛點——層數越深,殘差裡的有效資訊越容易被稀釋,早期層的關鍵資訊直接被埋住。這是阻礙大模型的能力進一步變強的絆腳石之一。而就在3月16日,中國大模型廠商月之暗面,也就是發佈了Kimi的公司,發佈了一份名為《注意力殘差》的技術報告,從底層邏輯的層面,對Transformer架構的關鍵元件殘差連接進行了其發佈十年來的首次重大重構。簡單來說,就是Kimi為大模型這整個“物種”的基礎架構層,提出了一套新的思考路徑,讓其找到全新的進化空間。這一成果,讓馬斯克關注到了,並評價為“印象深刻”。緊接著,就有開發者發現一個問題:這個中國模型的名字怎麼有點眼熟?它似乎出現在矽谷自研的前沿模型 Composer 2的底層程式碼裡。馬斯克確認了這件事,並在社媒上轉發,一錘定音,輿論嘩然後,“冒用者”Cursor也坐不住了,其聯合創始人Aman Sanger發表聲明“服軟”:“我們系統評估了眾多開源基座模型,Kimi k2.5被證明是世界最強的。”這毫無疑問是揭開了一塊“遮羞布”:矽谷公司引以為傲的技術創新大廈,其地基正在被悄然置換為中國製造。(二)矽谷可不是僅僅是一個地名,它幾乎是全世界頂尖人工智慧人才嚮往的聖地,是美國在AI競爭中最不可替代的基石。它的品牌,是幾代精英,用幾十年來鑄造的。矽谷何以為矽谷?這背後有兩個關鍵“定量”:第一,必須始終保持創新,保持對全世界的技術優勢,甚至讓這裡的思想,成為引領全世界技術進化的方向;第二,必須能夠輸出標準,這裡不僅僅是科技領域的技術標準,還包括了很多產業範式,比如AI領域一貫堅持的“開源協作”。但是,當馬斯克撕開了遮羞布,這兩大基石就產生動搖了。“還能相信矽谷嗎?”有人在社交媒體上反問。懷疑的種子一旦種下,命運的齒輪也就開始轉動了。越來越多的人發現,不能只關注矽谷故事,還應該多看看中國成果。這一看不要緊,原來,除了矽谷的初創公司開始拋棄昂貴的專有模型,轉向開放原始碼的中國版本之外,從Airbnb到德國工業巨頭西門子,已公開使用中國模型。市場在用腳投票,資本也沒閒著。以這次事件的主角Kimi為例——它在3個月內估值翻4倍至180億美元,增速超過了同期的字節和拼多多。正如全球最大AI社區Hugging Face聯合創始人直言:“中國開源已成為塑造全球AI技術堆疊的最強驅動力。”其實,中國的AI企業在起步之初,也都深受矽谷影響。在矽谷巨頭面前,始終保持學習者的姿態。但現在,跑道上的差距正在縮短:追趕者正加快腳步,逼近領先者。這不是單純的臆想,實際上,除了目前已經發生的改變,還有邏輯上的必然。Kimi為什麼能成為被競爭對手選定,甚至不惜冒險隱身使用的“世界最強開源基座模型”?這看起來只是一次偶然的事件,但在偶然背後,一定是必然。在被矽谷巨頭點贊之前,市值800億美元的全球網際網路基礎設施巨頭Cloudflare宣佈在生產環境中部署Kimi K2.5後,其內部安全審計Agent(日處理70億Token)的營運成本直降77%,效率也有明顯的提升,這背後,固然有中國AI 通過“兆MoE架構”和“原生多模態理解”等技術優勢的原因,但更重要的,是因為這個模型做到了“性能和價格的最佳平衡點”。正如同中國製造一樣,中國大模型也有自己的獨特優勢,比如,它進化快,它成本低。而這兩個優勢,本質上,其實指向一個關鍵點:中國在AI時代的“基建優勢”,正在成為AI競爭的勝負手。(三)這兩天有個新聞:Token出海,很轟動。媒體說,過去一年,中國大模型的海外付費呼叫量呈現爆發式增長,今年,這個趨勢更快。這裡有倆關鍵詞:第一,Token,它剛剛有了一個中文名詞元,簡單來說,就是大模型運算時需要消耗的基礎貨幣。第二,海外付費呼叫量,指的是海外個人、企業充值來使用中國大模型生產的Token。這個資料,簡單來說,就是世界上花錢使用中國大模型的人數正在變多。為什麼?一方面當然是因為中國大模型越來越好用,另一方面,是因為成本,簡單來說就是,中國電力優勢正在轉換為算力優勢,讓詞元——Token的定價,遠低於國外。這可不僅僅意味著中國將為全世界提供廉價的算力,更意味著中國AI產業從此刻起,就擁有了“近水樓台先得月”的發展環境。試想一下,當中國大模型通過性價比更高的Token,服務全世界的使用者時,它的成長速度一定會超過矽谷的同行,這一東昇西落的趨勢是不可逆的,且會逐漸加速的。轉折點已經不遠了,因為端倪確實已經出現:目前,頂尖中國大模型的海外呼叫量正在成倍增長。而你追我趕的國產大模型,在關鍵指標上與國際頭部模型差距持續縮小;並且,是中國,出現了DeepSeek、Kimi這樣敢於打破範式,試圖重構底層邏輯的突破者。其實,Kimi被冒用這件事,最後的結果很“平和”——事情發生後,月之暗面並沒有禁止矽谷巨頭使用自家產品,而是順勢發文祝賀,落落大方地寫道:“We are proud to see Kimi K2.5 provide the foundation。”用中文說,就是“我們很自豪看到Kimi K2.5 奠定基礎”。相信矽谷一定不願意看到這樣平和但堅定的話語,因為這等於釜底抽薪,改變了矽谷對於未來技術的定義權。用一個比喻來說就是:矽谷長期在打造豪華跑車,引領行業發展,結果有一天,一輛新跑車被人打開,一看發動機是來自中國的,那麼,距離中國人重新定義高級跑車的時間已經不遠了——更何況,中國還在全世界修高速公路。矽谷的巨頭們甚至不敢正視“中國AI技術的崛起”,因為當他們一旦承認中國實驗室正在以更高效、更開放的方式推動行業進步,中國的基礎設施又好又便宜,矽谷的神聖地位就不復存在了,而當全世界的AI企業都把目光轉向東方,那個“我們需要 10000 億美元才能建構 AGI”的融資敘事還會好使嗎?(四)馬斯克揭開的,絕不僅僅是矽谷的遮羞布,而是矽谷的命運線——它將指向一個必然的結果:全球AI的發展範式不只有“矽谷發明-全球應用”這一個軌道,還有“中國創新-全球受益”新軌道。中國通過DeepSeek、Kimi等公司證明,新質生產力不僅是更高效的生產工具,更是一種可定義成本、可制定規則、可輸出生態的全球性基礎設施能力。它包含了重寫架構標準的技術定義力,定義能效與Token價格的成本定價力,繼承並行展開源協議治理的生態規則力和定義綠色、普惠的AI路徑的發展話語權。“中國AI崛起”,崛起的不是簡單的GDP數字,而是這種定義下一個時代發展基座的系統能力。當越來越多的全球智能,開始運行在由中國定義效率、成本和規則的基礎之上時,時代將被誰塑造,已經不言而喻。 (牛彈琴)
Kimi楊植麟「2026中關村論壇」演講全文
大家好,今天很高興有機會分享我們在做開源模型和不斷訓練更好的大模型過程中的最新進展和思考。其實做大模型本質上是把能源轉化成智能。轉化的過程中,最重要的事情是規模化。也就是說,把儘可能多的能源,經過算力和模型,變成更多的、更高程度的智能。本質上,規模化定律(Scaling Law)是過去若干年,所有的模型和 AI 發展的一個很重要的基礎。當然,規模化並不是代表我們只是去暴力地增加能源,或者去暴力的增加算力,而是涉及到我們如何有效地規模化。我們會從三個維度去思考如何提高效率:首先是提升 Token 效率。它代表的是從同樣的資料中能夠學到多少智能。因為這個世界上的有效高品質資料,其實是一個常數,或者說是一個非常有限的值。如果你有更好的網路架構,或者有更好的最佳化器,那麼你就可以從有限的資料裡學到更多的智能。第二是擴展上下文長度。更長的上下文能力,意味著模型可以學會處理更複雜的任務。為此,我們設計了新的網路架構 Kimi Linear 和專門的訓練資料,來提升模型在長上下文時的表現。第三是 Agent 叢集。我們在最新模型 Kimi K2.5 中提出了一種新的規模化的方法,就是通過引入多個 Agent,讓很多個 Agent 可以一起去工作,形成 Agent 叢集。通過這種方式提升 AI 能完成的任務複雜度。這是我們 K2.5 Agent 叢集的一個內部測試結果。橫坐標是任務複雜度,縱坐標是執行時間,如果我們用這種單一 Agent 的方式工作,可以看到隨著任務複雜度逐漸提升,完成時間是指數增加的。如果你需要做一個非常複雜的任務,比如從頭去寫一個程式碼倉庫,去實現一個很複雜的功能,需要幾天甚至幾周的時間。但如果我們能夠平行,比如說開啟 100個 Agent 同時去做這個任務,然後在過程中它們會互相協作,互相協調和規劃接下來應該做的事情,就跟人類的組織一樣,那麼隨著任務複雜度的增加,執行時間其實沒有太大的變化。這意味著你可以在單位時間內去完成更加複雜的任務,使得原來一些完全不可能實現的任務變得有可能。就像一家公司,如果你想做一個非常艱難的事情,完成一個很複雜的使命,比如說從 0 到 1 建造一家 100 億或者 1,000 億美元的公司,那麼你只靠一個人,可能要 100 年才能做出來,那你在市場上是沒有競爭力的,但這個時候如果你有100 或者 200 個非常聰明的人,能一起協作,那就有可能在短時間內完成。通過 Agent 叢集能力,我們可以實現規模化的輸入,比如說你可以同時去調查幾百個不同的資料來源,在各種權威的資料來源裡面尋找答案;你也可以做規模化的輸出,比如說你可以通過閱讀這些資料來源,去撰寫一個幾百頁的論文;以及去規模化的執行或規模化的編排,去提升模型能處理的任務複雜度。同時,我們非常注重研發更好的底層網路架構。這是我們最新開放原始碼的模型架構,叫做注意力殘差(Attention Residuals)。這項技術主要的靈感來自於 10 年前的技術 Resnet, 或者叫殘差網路連線。在十年之前,其實沒有任何人有辦法去訓練深度的神經網路。直到何凱明等研究者引入殘差網路,可以讓模型去訓練幾十、幾百層的網路,可以任意的增加層數。這種殘差結構,其實可以認為是 LSTM 網路的一個變種,只是說 LSTM 是應用在時間的維度上,殘差網路更多體現在網路深度上,使得每一層可以用上一層的輸出,然後做一個函數的處理,得到當前這一層的輸出。我們把類似的思路做一個自然的泛化,把注意力機制這種計算模式做 90 度的旋轉,從原來只是應用在時間軸上,現在我們可以把它應用在深度上。把注意力應用到深度上有很多好處,比如不僅僅只是基於前一層的輸出來進行計算,而是可以去結合之前的所有層的輸出進行計算,這樣在最佳化網路架構性能的時候就有非常多好處。這是我們整個注意力殘差的架構圖。左邊是標準的殘差結構,右邊是我們提出來並開放原始碼的殘差結構。然後,我們也設計了基於塊狀的殘差結構,使它能夠非常高效地實現。基本上在只有 2% 額外成本的情況下,就大幅度提升了效果。就像我剛才說的,大模型的第一性原理是規模化定律(Scaling Law),但我們不僅僅只是去暴力的做規模化,而是希望我們在規模化的同時也能夠去提升效率,所以我們一直致力於研發更強的模型架構。比如像 Adam 最佳化器或者像 Attention 架構、殘差連接這些都是有了 10 餘年歷史的技術。在電腦領域,十年其實是非常長的時間。過去十年的時間裡面,沒有任何人能夠去挑戰這些技術,大家都把它當成一個標準。但隨著現在算力的提升和大家研發方式的變化,從原來的偏學術,單純從想法(idea)出發的研究,到變成現在更加重視與工程的結合,然後可以設計非常紮實的規模化驗證實驗,從而得到非常紮實的結論。因此,很多以前認為是標準的東西,現在都可以被挑戰。我們看到,開源模型正在逐漸成為新的標準。這是幾張從剛剛結束的輝達 GTC 2026 大會上,黃仁勳的主題演講中裡面摘取的幻燈片。可以看到,以 Kimi K2.5 為代表的開源模型,已成為全世界所有晶片廠商測試硬體性能的基準:如果發佈新的晶片,就會通過 Kimi 或者其他開源模型來評測晶片性能提升幅度。現在,全世界很多研究機構也在用 Kimi K2.5 或其他的開源模型去進行研究。我們通過開源,讓每一個企業、每一個研究者、每一個終端使用者,都能以非常低門檻獲取智能,是一個非常重要的事情。同時我們做的很多重要的創新,包括我剛提到的新的架構也是開放的,可以被任何人所獲取。最終,大家能夠去形成一個開源生態系統,一起推動 AI 領域的發展。最後想跟大家分享,從模型訓練的角度看,大模型領域仍在快速發展,現在的研發方式跟兩三年之前會有很大不同:2023 年和 2024 年,大家主要使用「天然」資料。也就是從整個網際網路獲取的資料,加上一些少量的人工標註,比如去標註某一條資料是不是符合價值觀或者偏好。2025年,大家更加重視搭建大規模的強化學習系統。但要靠人篩選高品質任務,然後在這些任務上做強化學習得到更好的效果。可以看到,在程式設計或者數學領域上得到的能力提升,主要就來自於這種技術路線。從 2026 年開始,包括接下來的若干年時間內,整個 AI 研發的方式會發生重大變化:更多由 AI 去主導研究。每個研究員會配備非常多的 AI Token, 然後這些 AI 的 Token 可以幫你去合成新的任務,幫你合成新的環境,幫你定義在這個環境下面最好、最合適的獎勵函數是什麼。甚至可以去幫你探索新的網路架構可能長什麼樣。因此,整個 AI 的研發也會逐漸加速。我們希望也能夠跟整個開源社區一起,打造更好的生態系統,不斷把技術往前推進,加速探索智能的上限。感謝大家。 (深科技)
97年法拉利小王子,年入2.4個億,卻因為哭上熱搜:掌管破碎感的神!
剛剛過去的周末,F1中國大獎賽在上海開賽。11支車隊、22名頂尖車手齊聚上海,上演真·速度與激情,三天時間吸引了超23萬人觀賽,據說創下近20年新高。兩岸三地的天王們來了~影視圈、音樂圈、體育圈的明星大咖、還有B站UP主,全都來了!大家圍著車手一邊嘴角瘋狂上揚、一邊偷偷拍照的樣子,像極了追星時的我!在這裡,明星也得讓道,車手們才是絕對的主角。不看不知道,一看有點妙,原來賽車圈那麼多高顏值帥哥——F1帥哥圖鑑火速出爐,一起來欣賞~安德烈亞·基米·安東內利(Andrea Kimi Antonelli),人稱小kimi,06年的義大利車手,目前效力於梅賽德斯AMG車隊。一頭毛絨絨的泰迪捲髮,看起來很好rua的樣子。某些角度有點撞臉荷蘭弟,甚至眉眼比荷蘭弟更精緻一些。不笑的時候是文藝片男主:《梅賽德斯的美麗傳說》笑起來立馬切換到偶像劇,好陽光好青春的弟弟~父親是前賽車手,擁有自己的賽車隊,出身於賽車世家的kimi,7歲參加卡丁車比賽,9歲拿下第一個冠軍,被譽為天才少年。17歲跳級直接參與F1賽事,據說F1為了他專門下調了參賽年齡(之前是18歲)。此次上海F1中國大獎賽一舉拿下冠軍,直接創造了歷史,成為F1史上第二年輕的分站冠軍得主,實力和顏值一樣夯!喬治·拉塞爾(George Russell),同樣效力於梅賽德斯AMG車隊,和kimi是隊友,也是此次上海站的亞軍得主。一些兩人的“氛圍感”同框圖,kimi在他面前好乖,除了交流車技,還還經常讓拉塞爾給他補習數學作業~不同於kimi的意式氣質,英國出生的拉塞爾,是標準的英倫美人。雕塑般的輪廓和五官,湖水綠的瞳孔,恰到好處的性感薄唇,有一種很古典的美。這兩個動圖,也就循環了幾百遍吧~再加上185的完美身高,從頭到腳都太權威了!因為過分貌美,被粉絲稱為“F1美神”、“拉姐”。走下賽場,穿上正裝的拉塞爾,更是一臉“老錢”范十足。溫馨提示,拉姐98年的,怎麼有種48的daddy氣場!好幾次和女友去法網、溫網被拍到,大家都以為是什麼名門望族。再加上手握萬國、勞力士、拉夫勞倫等奢牌代言,關於他的豪門傳說越傳越邪乎~不過拉姐本人闢謠了:就是普通農民(Farmer)出身。真的嗎?我不信。開頭一堆明星圍著的就是他——夏爾·勒克萊爾 (Charles leclerc)。97年摩納哥出身,法拉利車隊的核心車手,圍場公認的“速度與顏值雙擔”,粉絲暱稱“樂扣”、勒老四。顏值就不用多說了吧。從小到大帥得很客觀,五官深邃,自帶高光。teenage時期清清爽爽,有甜茶早期的感覺,笑起來還有小酒窩~近些年蓄起鬍子,魅力加分,而且他真的好適合法拉利紅!至於為什麼叫勒老四。。因為他明明實力不錯,但好似有某種魔咒,好多次比賽都拿了第四名,包括這次上海也是......曾經還因為轉彎失誤後在車裡流淚,被稱為“坐在法拉利上哭的男人”。這迷人的破碎感,很難不讓人心生憐愛~而且他的追夢之路也頗為坎坷。出身普通,4歲開始接觸賽車,到21歲才簽約法拉利,而一直支援和陪伴自己的教父、父親、摯友卻在重要時刻相繼離世。陽光小正太一點點變憂鬱王子,真·美強慘。當然啦,除此之外,樂扣已經是絕對的人生贏家。一年固定薪資近2.4個億,是F1收入最高的車手之一,這還沒算上獎金和各種時尚代言。2月底剛和戀愛3年的女友舉辦了婚禮,開著最愛的法拉利,迎娶心愛的女孩,簡直不要太浪漫。此次來上海女友也是全程陪同,樂扣化身老婆奴,三句不離my wife。總之,雖然破碎版樂扣很美,還是希望他能開心多一些!奧利弗貝爾曼(Oliver Bearman),又是一名05年的帥弟弟,目前效力於哈斯F1車隊。185的大高個,眼神清澈,青春逼人,完全是男高來的。而且超級愛笑,燦爛的笑容看起來人畜無害。捲毛小甜心一枚!但可別被他的外表忽悠了,踩起油門來很野很生猛。16歲F4 17連勝,成為歷史首位雙冠王,17歲F2雙冠王,18歲臨危替補生病的隊友,一戰成名,成為法拉利史上最年輕正賽車手。可以說是目前最受矚目的新生代天才車手之一。相比樂扣的出身寒門、孤軍奮戰,奧利弗可以說生來就在羅馬。出身賽車世家,祖父、父親、母親、弟弟都是賽車手,從小就坐著保時捷、法拉利長大。父親還是保險金融公司的CEO,家境優渥。全家都很支援他的賽車夢想,父親更是常年陪著他出征,而且從不給他施加壓力,總是鼓勵他“享受比賽”,完全就是被愛包圍著長大的小孩。果然啊,這樣無邪的笑容,只會出現在不缺錢、不缺愛的小孩臉上。除了公認帥的這四位,還有不少各花入各眼的車手:03年的傑克·杜漢(Jack Doohan),澳大利亞賽車手。長得好動畫片!人稱“迪士尼在逃王子”。94年的卡洛斯·賽恩斯(Carlos Sainz),綽號西班牙小辣椒。別問為什麼,問就是太hot了!以及,劉易斯・漢密爾頓(Lewis Hamilton).不僅是F1史上第一位黑人車手,更是手握7次世界冠軍、105次分站冠軍的賽車屆GOAT。一個登過VOGUE、當過Met Gala主席,和卡戴珊傳過緋聞的男人。盤完一圈,誰是你心目中的F1最帥? (InsDaily人物)
炸場 AI 圈!Kimi 掀翻 Transformer 十年根基,馬斯克點贊,一作竟是 17 歲高中生
就在3月16日,月之暗面Kimi正式發佈了《Attention Residuals: Rethinking depth-wise aggregation》技術報告,搞出了個顛覆性的注意力殘差(Attention Residuals,簡稱AttnRes)架構,直接動了Transformer沿用了十年的底層根基。這事有多炸?報告發出去不到24小時,矽谷那群最挑嘴的頂流大佬,全下場了。埃隆·馬斯克親自轉發點贊,直白誇了句"Impressive work from Kimi";前OpenAI聯合創始人、AI圈公認的大神Andrej Karpathy更是直接感慨:"看來我們到現在,都沒把'Attention is All You Need'這句話按字面意思吃透"但說實話,比起技術本身,最讓我和全網網友一起驚掉下巴的,是這篇論文的作者列表——三位共同一作裡,赫然有一位年僅17歲的在讀高中實習生。🤔 先給小白嘮明白:這次的突破,到底戳中了AI的什麼命門?能讓全球AI圈集體破防,絕不是小修小補的最佳化,而是直接解決了大模型藏了十年的老頑疾。咱先掰扯個最基礎的常識:現在市面上幾乎所有主流大模型,根子上都離不開Transformer架構,而殘差連接,就是Transformer最核心的地基之一。從2015年ResNet誕生到現在,這套”固定累加”的殘差機制,行業用了整整十年,幾乎沒人能撼動它的地位。但這套老架構,早就帶著天生的毛病。我給大家打個最糙的比方,你瞬間就懂了:傳統殘差連接,就像你跟10個人玩傳話遊戲。第一個人說:”我今天想吃樓下的黃燜雞米飯,要微辣加土豆”傳到第二個人變成:”我想吃樓下的黃燜雞,微辣”再傳到第五個人,就成了:”我想吃樓下的雞米飯”等傳到最後一個人,直接變成了:”我想把樓下的店盤了”資訊越傳越偏,最開始的核心內容,早就被中間層的內容稀釋、帶歪了。對應到模型裡就是:模型層數越深,前面層提取的關鍵資訊越容易在層層傳遞中丟失訓練起來越來越難、效率越來越低甚至會出現”梯度飢餓”——深層的模型根本學不到有用的資訊,白瞎了那麼多算力而Kimi這次搞出來的注意力殘差,直接把這套用了十年的”死規則”,給徹底掀了。💡 大白話講透注意力殘差:把Attention轉90度,到底天才在那?圈內很多人說,這項研究最絕的洞察,是把Transformer的注意力機制”旋轉了90度”。別急,我給你掰開揉碎了說,沒學過AI也能聽明白。原來的注意力機制是幹嘛的?它是用在一句話的內容維度裡的。比如大模型處理”我今天去公園遛狗,遇到了一隻超可愛的橘貓”這句話:它能讓每個詞自主去關注句子裡其他所有詞的資訊“遛狗”能關聯到”我”“橘貓”能關聯到”可愛”解決了長文字看著看著就忘前面內容的問題。Kimi團隊的”降維打擊”式洞察既然詞和詞之間能按需關注,那模型的層和層之間,為什麼不能?這就是注意力殘差的核心邏輯:❌ 徹底扔掉傳統殘差”只能用上一層的輸出”的死規矩✅ 給每一層配個可學習的”智能搜尋框”✅ 每一層計算時,都能自主查詢前面所有層的輸出,只挑最有用的資訊,沒用的直接忽略再來個親民的比方:傳統殘差:你寫畢業論文,導師改了8版,你每次只能拿到上一版修改稿,看不到初稿,也看不到第3版、第5版裡被刪的關鍵思路。只能順著上一版改,很容易越改越偏。注意力殘差:直接給你開全量權限。寫當前這一版時,初稿、第1版到最新版的所有內容全在你眼前,想引用那段就引用那段,完全不會被中間版本帶偏。講真,看到這的時候我雞皮疙瘩都起來了,這個思路真的太妙了。視訊記憶體爆炸?Kimi早有準備肯定有人會問:每一層都要存所有層的內容,視訊記憶體不就炸了嗎?放心,Kimi團隊不光提了理論,連落地的坑都填好了。他們搞了個Block AttnRes(分塊注意力殘差)方案:把模型的所有層分成幾個塊,比如8個塊塊內還是用傳統殘差保證穩定塊和塊之間用注意力機製做選擇性聚合就這一招,直接把視訊記憶體開銷從”和層數成正比”,降到了”和塊數成正比”。只用8個塊,就能找回全量版絕大多數的性能增益,完美平衡了效果和落地成本。不是那種只能看不能用的實驗室花架子。📈 別光聽概念,實打實的效果才是真的狠所有不看落地效果的創新,都是耍流氓。Kimi這篇論文放出來的實驗資料,直接讓行業看到了下一代大模型架構的影子。1️⃣ 訓練效率直接起飛在48B規模的大模型訓練裡,用了注意力殘差的架構,訓練效率直接提了25%。啥概念?同等算力下,訓練時間直接縮短四分之一大模型的訓練成本,直接能砍一大截2️⃣ 模型是真的變聰明了不光基礎任務全面提升,在真正考驗大模型硬實力的高難度場景裡,直接實現了跨越式突破:研究生等級的專業考試高等數學推理程式碼生成超長文字理解這些硬骨頭任務,性能直接漲了3到7.5個百分點。懂行的都知道,大模型到了這個量級:能漲1個點都算大突破更別說這麼大的漲幅了3️⃣ 模型越大,優勢越明顯這就意味著,它不是只能用在小模型上的玩具,而是完全能適配未來更大規模的大模型研發。是真的能支撐AGI發展的底層架構創新。4️⃣ 順便解決了傳統架構的老毛病因為Softmax自帶的歸一化特性:✅ 解決了傳統PreNorm架構的數值隱患✅ 讓梯度在各層之間分佈得更均勻✅ 徹底緩解了深層模型的”梯度飢餓”問題深層大模型的訓練更穩,也更容易收斂。🌟 全網刷屏的17歲一作,到底是什麼來頭?聊完技術,咱再回頭說說這次全網討論度最高的人——論文的共同一作,17歲的高中生陳廣宇(Nathan Chen)。我當時看到作者列表的時候,真的反覆確認了三遍,不敢相信自己的眼睛。給大家說下另外兩位共同一作是誰,你就知道這個事有多離譜:🏆 蘇劍林搞大模型的沒人不叫一聲”蘇神”。RoPE旋轉位置編碼就是他提出來的,現在全世界的主流大模型,基本都在用他發明的這項技術。🔬 張宇之前爆火的Kimi Linear技術的第一作者,大模型底層最佳化領域的頂尖專家。而17歲的陳廣宇,和這兩位行業大神並列,成為了這篇重磅論文的共同一作。📊 陳廣宇的背景根據公開資訊:今年17歲,目前還是在讀高中生以實習研究員身份加入Kimi團隊全程深度參與了注意力殘差項目的完整研發憑藉實打實的貢獻,拿到了共同一作署名從他公開的社交資訊能看到,他此前就已經在AI領域有相關的研究和實習經歷,年紀輕輕,就已經站在了全球大模型底層創新的最前沿。網友的評論真的說出了我的心聲:“我17歲還在為高考數學的最後一道大題頭疼,人家17歲已經把Transformer用了十年的地基給掀了”真・英雄出少年 🌟🌍 最後說點我的心裡話其實我看完這篇論文的完整內容,最感慨的,還不是技術本身有多牛。過去十年,深度學習領域的創新,大多都集中在:注意力機制的小修小補資料規模的放大訓練策略的升級唯獨殘差連接這個最核心的底層元件,幾乎沒人能真正推翻”固定累加”的核心邏輯。而Kimi的注意力殘差,第一次用成熟的、可落地的方案,證明了深度維度的注意力聚合,完全可以替代沿用十年的殘差遞迴。這不止是一次架構最佳化,更是直接打開了下一代大模型架構的全新想像空間。🇨🇳 更讓我驕傲的是這次的底層架構突破,來自中國本土的AI團隊。從RoPE位置編碼,到Kimi Linear,再到如今的注意力殘差,中國的AI團隊,早就不再是應用層的跟隨者,而是真正走到了大模型底層基礎研究的最前排。當17歲的少年天才,遇上敢於顛覆十年規則的創新團隊,我們或許真的在見證,AI領域下一個時代的開啟。🚀 (提拉米蘇的AI驛站)
Kimi 新架構讓馬斯克歎服!17歲高中生作者一戰成名
17歲高中生,以一作身份,在Kimi團隊把Ilya提出的設想,變成了現實。Ilya之前有個預言,把按時間先後順序處理資料的LSTM網路“旋轉90度”,也就是把時間軸換成模型深度軸,就變成了現在的殘差網路。Kimi團隊認為,既然時間上的LSTM能對應深度上的殘差,那後來淘汰了LSTM的“注意力機制”自然也可以照做。他們新搞出的Attention Residuals技術,就相當於把注意力機制也“旋轉了90度”。用了這套新方法後,模型在計算當前層時可以聰明地“回頭看”,根據需要自由決定去提取前面那一層的資訊。這篇論文讓馬斯克也來圍觀,表示令人印象深刻。除了馬斯克,這篇論文也引發了大神Karpathy的思考,直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。這種新機制放到Kimi自家的Kimi Linear 48B大模型(3B啟動參數)上驗證,訓練效率提升25%,推理延遲增加不到2%。殘差連接的“記憶負擔”先回顧一下殘差連接的工作原理。傳統做法是:第N層的輸出 = 第N層的計算結果 + 第N-1層的輸出。這樣一路累加下去,每一層都能“記住”前面所有層的資訊。問題來了,在大模型PreNorm主流範式下,殘差連接中所有層的貢獻都是等權累加。就像一個“記憶力太好的人”,把所有經歷都以相同權重存進大腦。貢獻被逐步稀釋,早期資訊難以檢索,且大量層可被剪枝而損失微小,稱之為“PreNorm dilution problem”。更麻煩的是,隱藏狀態的范數會隨著深度不斷增長。研究人員發現,在深層網路中,這種unbounded growth會導致訓練不穩定。月之暗麵糰隊換了個思路:既然問題出在“無差別累加”,那就讓網路自己決定該回憶什麼。用注意力“選擇性回憶”團隊觀察到一個有趣的對偶性:網路的深度維度和序列的時間維度,本質上是同構的。在Transformer處理序列時,用注意力機制讓當前位置“選擇性關注”之前的位置。那麼在深度維度上,為什麼不能讓當前層“選擇性關注”之前的層?Attention Residuals就這麼來的:當前層的可學習偽查詢向量作為query(learnable pseudo-query)所有前層的輸出作為key和value用注意力機制加權聚合這樣一來,網路可以學會那些層的資訊對當前計算最重要,就多關注一點;不相關的層,權重自然降低。但這帶來一個新問題:計算量爆炸。如果一個100層的網路,每一層都要對前面99層做full attention residual,複雜度是O(L²),根本跑不動。Block AttnRes:分塊壓縮論文中的解決方案是Block AttnRes。核心思想是把連續的若干層打包成一個block,對block內部的輸出做壓縮,只保留一個“摘要向量”。具體操作如下:把L層網路分成B個block,每個block包含若干層每個block結束時,把block內的資訊壓縮成單個向量後續層做attention時,只需要關注塊間表徵+塊內即時層輸出,而非全部L個層這樣一來,attention的複雜度從O(L²)降到了O(L·B),在實踐中B可以設得很小(論文用的是8-16)。此外,團隊還做了數個工程最佳化:快取式流水線通訊、序列分片預填充、KV 快取粒度最佳化等等。Kimi Linear驗證:1.25倍效率提升理論說得通,但真正讓人信服的是大規模驗證。團隊在自家的Kimi Linear架構上做了測試。這是一個採用線性注意力的大模型,總參數48B,啟動參數3B(MoE架構)。同等計算預算下,Attention Residuals能獲得更好的下游性能;反過來說,達到相同性能需要的訓練計算量減少了約20%,相當於獲得了1.25倍的效率優勢。在具體任務上,數學推理(MATH、GSM8K)、程式碼生成(HumanEval、MBPP)均持平或略優,多語言理解的一致性也有所改善。更重要的是,Attention Residuals是一個drop-in replacement,不需要修改網路其他部分,直接替換殘差連接即可。論文裡還講到一個有意思的視角。團隊把這項工作稱為“時間-深度對偶性”(time-depth duality)的應用。在他們看來,深度神經網路的“層”和循環神經網路的“時間步”,本質上是都是對資訊的迭代處理。Transformer之所以成功,是因為用attention替代了RNN中固定的recurrence。那麼在深度維度上,是不是也該用attention替代固定的residual?17歲高中生入列共同一作更有意思的是,這篇讓馬斯克、Karpathy等人都為之一震的論文,共同一作之一是一名年僅17歲的高中生——陳廣宇(Nathan)。另外兩名共同一作,分別是Kimi的關鍵人物之一、RoPE(旋轉位置編碼)的提出者蘇神(蘇劍林),以及Kimi Linear的第一作者張宇。誠然Attention Residuals是團隊協作取得的成果,但一名高中生出現在這樣的團隊之中,還與兩位大神共列一作,已經足夠震撼。a16z創始人Marc Andreessen、Thinking Machines的聯創等人都關注了他的X帳號。一年前才剛剛開始瞭解大模型的陳廣宇,是從北京的一場駭客鬆開始,一路走向矽谷的。後來回國時,他選擇加入了Kimi。經手過月之暗面投資的奇績創壇(原YC中國)創始成員董科含,也曾在其個人公眾號上刊載過陳廣宇的一份自傳。去年二月,北京的一場中學生駭客松上,陳廣宇展示了一個關於“人類第三隻機械輔助手”的創新構想——ThirdArm。也正是這個項目,讓他結識了駭客松評委董科含,後者也成為了他的創業導師。當時,董科含追問他,未來是否會深耕這項技術,這促使他開始重新審視自己的職業方向。隨後他入選了董科含發起的只有極少數人入選的青年計畫,開始接觸IOI(國際資訊學奧林匹克)金牌得主及資深科研人員。此前他曾嘗試經營Shopify跨境電商店舖、營運短影片帳號,但經過董科含的建議,他決定轉向理解時代的底層技術。當時還不知道Transformer是什麼的他,在DeepSeek研究員袁境陽的指導下,利用Gemini作為輔助工具,通過研讀經典論文、追蹤GitHub開放原始碼專案等方式逐步建立認知。有一次他在推特上分享了對一篇部落格的反思後,獲得了作者的回覆,這篇帖子也因此引起了一家矽谷AI初創公司CEO的關注。該公司於2024年底成立,2025年初完成了800萬美元種子輪融資,資方背景涉及OpenAI與Anthropic。在通過一項限時通宵完成的實驗測試後,他拿到了對方的錄用通知。暑假期間,他前往舊金山開啟了為期七周的實習。其中前兩周,他負責定義並推進一個涉及144張H100顯示卡的探索性項目。在CEO直接指導下,他的工作延伸至營運層面,參與了招聘系統搭建、技術內容輸出及融資策略討論,並獲得與早期投資者Vinod Khosla交流的機會。在矽谷期間,他維持著高強度工作節奏,通過咖啡社交與輝達工程師及初創創始人建立聯絡。這次經歷讓他將科研視為一種支撐創造的底層能力。實習結束後,陳廣宇回到國內,並於去年11月加入月之暗面。把他吸引進去的,正是Kimi一直做的Flash Linear Attention這一類高效attention工作。實際上,正是GitHub上的FLA項目,吸引了他對機器學習的興趣並被邀請加入Kimi團隊。也正是順著這條線,他開始一路往更底層鑽,從讀論文、看實現,到研究 Triton kernel、理解attention為什麼能被這樣重寫、這樣加速。到了月之暗面,這條路也算是繞了一圈又落回原點——他最初是被底層技術吸引,最後做的也正是最底層、最核心的那部分事。相比於講一個“少年天才一路開掛”的故事,陳廣宇的經歷更像是另一種成長路徑——先被時代最前沿的技術擊中,再一步步把興趣磨成能力,把能力帶到真正的大模型研發現場裡。 (Python開發者)
估值1200億,Kimi融資破紀錄了
Kimi狂飆。投資界獲悉,月之暗面Kimi正以投前估值180億美元(約合人民幣1200億),進行新一輪10億美元融資。大約一個月前,Kimi剛剛完成逾7億美元融資,彼時估值100億美元;而在去年底一輪5億美元融資中,其估值還只是43億美元。不到三個月,三輪融資,估值翻四倍——Kimi不僅以最快速度成為“十角獸”(估值超100億美元),還創下國內大模型連續融資最多紀錄,金額超過同期大模型公司IPO募資額。放眼一級市場,這樣的融資節奏和量級幾乎從未見過。而點燃這一切的,是Kimi新模型帶來的“K2.5時刻”和業務端的爆發:1月底以來的短短20天內,收入便超2025年全年,狂攬全球使用者。不經意間,中國公司正在改寫世界AI敘事。01融資創紀錄中國最快十角獸誕生猶記得2025年最後一天,投資界報導Kimi 5億美元C輪融資,彼時Kimi獲阿里、騰訊、王慧文等老股東繼續支援,且大幅超募,投後估值達43億美元。如今,紀錄被刷新——不到三個月時間,Kimi一舉創下近年來國內大模型連續融資最多紀錄。早在春節期間,投資界從接近Kimi人士獲悉,當時Kimi已完成超7億美元融資,估值達100億美元。最新一幕,則是Kimi正進行新一輪10億美元融資,投前估值攀升至180億美元。如此估值,已然超過同期大模型公司IPO首日市值。這也意味著,Kimi在短短三個月內,估值翻了4倍。過去幾年,中國AI風暴歷歷在目,特別當DeepSeek一騎絕塵,很多人認為大廠之外創業公司再無機會的時候,中國的AI小龍們還在用市場表現證明自己。放眼一級市場,Kimi的身後集結了紅杉中國、真格基金、Monolith礪思資本、今日資本等知名基金以及阿里、美團、小紅書、騰訊等大廠。從一開始,這就是一個非頭部擠不進去的現象級項目。隨之而來的,Kimi估值也是螺旋式上升,成為國內最快“十角獸”——從成立到估值超100億美元,僅僅用了兩年多的時間。一組對照是,完成這樣的蛻變,拼多多用了三年多,字節跳動則用了四年多。不知不覺間,Kimi正刷新中國科技公司的成長速度。02標誌性一幕:訂單暴漲80倍為何投資人絡繹不絕押注?背後Kimi正迎來爆發。時間回到今年1月底,Kimi正式發佈K2.5,這是Kimi迄今最智能也最全能的模型。官方資訊顯示,該模型具備原生的多模態架構設計,同時支援視覺與文字輸入、思考與非思考模式、對話與Agent任務。Kimi K2.5迅速收穫熱烈反響。矽谷頂級風投a16z聯合創始人Marc Andreessen直言,中國AI公司正讓矽谷感到驚訝,“根據目前的基準測試,Kimi K2.5基本上複製了GPT-5等級的推理能力。”對比下來,GPT-5開發和服務成本極其高昂,Kimi2.5則以極致性價比觸及目前AI推理能力的“天花板”。矽谷知名的風險投資家、企業家Chamath Palihapitiya更是將此視為“Kimi K2.5時刻”——開源模型第一次在綜合能力層面真正撼動由OpenAI、Anthropic、Google建構的閉源體系。回看歷史,技術拐點往往也是商業爆發的起點。其實此次最關鍵的突破點,在於多模態程式設計能力。目前其他主流開源模型並不具備圖片和視訊理解等多模態能力,這在很大程度上影響使用者與AI的互動門檻。由此,Kimi獨特的競爭優勢凸顯,K2.5已是阿里、騰訊、字節等國內巨頭旗下的程式設計工具Qoder、CodeBuddy、Trae使用者使用的主力程式設計模型,也是全球程式設計巨頭Cursor唯一接入的中國開源模型。技術水平直接決定了使用者判斷。據全球支付巨頭Stripe資料,Kimi個人訂閱使用者1月支付訂單數環比增長8280%,2月環比再漲123.8%。在其全球支付榜單上,短短兩個月,Kimi排名由百名開外飆升至第9位。國內市場,Kimi.com今年2月的網站瀏覽量也達到歷史峰值。與此同時,Clawdbot(現為OpenClaw)開始爆紅。擁有它,你就相當於獲得了一個7×24小時不眠不休的AI助手。這也意外成為Kimi的引爆點——作為AI工具,OpenClaw必須搭配大模型才能真正智能。2月初,OpenClaw宣佈將Kimi K2.5設為官方主力模型,直接讓Kimi迎來爆發式增長。而第一時間嗅到趨勢,Kimi也是最早上線了Kimi Claw。相比於OpenClaw繁雜的安裝程序,Kimi Claw無需複雜設定,無需自備電腦,能在網頁端直接使用。不出所料,過去一周OpenClaw全網爆火,“養龍蝦”成為眼下最炙手可熱的社交話題。在此之後,國內大廠及AI公司相繼推出各種“Claw”,千蝦大戰氛圍熱烈。Kimi第一波吃螃蟹,也第一波吃到了紅利。據悉,受Kimi K2.5模型及Kimi Claw火爆出圈帶動,1月底以來,Kimi近20天累計收入已經超過2025年全年。K2.5模型上線以來始終處於供不應求的狀態。如今回頭看,這一波爆發也驗證了Kimi團隊的敏銳。回顧過往,Kimi不少成長節點都是行業風向標。想起楊植麟曾在公開信中寫道,“2026年Kimi會成為一個‘與眾不同’和‘不被定義’的LLM。”如他所言,這樣的輪廓已經浮現。03里程碑中國AI正在成為標準此時此刻,中國AI公司正顛覆想像。記得2026年年初的CES上,黃仁勳展示下一代GPU性能,使用的基準模型是DeepSeek和Kimi K2-Thinking。這在歷史上是第一次。而即將舉行的輝達年度大會GTC 2026,楊植麟也成為唯一受邀演講的中國大模型公司創始人。不止於此,在AI模型API聚合平台OpenRouter的排行榜上,DeepSeek和Kimi泛化能力更強的近7000億和兆大模型,無需免費補貼,也能始終與Google、Anthropic的頂尖模型一起位於榜單TOP10。這是全球使用者的真實需求、真實錢包的投票結果,堪稱中國AI產業一個極具象徵意義的時刻。效應之下,全球資金紛紛開始重估中國科技資產。“相信可以從一級市場募集更大量資金。”楊植麟在去年底的全員信中如此表示。新一輪10億美元融資便是一種應證——如此體量,放在任何交易所都是超級IPO的規模,但Kimi在未上市時就拿到了。這背後是一層更深的邏輯:用一級市場的長錢,換技術突破的時間,在上市之前就建構起足夠的技術壁壘和人才密度。畢竟,AGI這場仗變化太快,唯有持續迭代才能一直在牌桌上。如此策略,也為Kimi打開一個更大的戰略空間。而對於投資人來說,此刻的情緒很複雜。成立不到三年的公司,估值180億美元,這在過去不可想像。但如果這是通往未來的世界級公司,現在不投,以後可能就再也投不進去了。放眼海外,OpenAI最新估值高達8500億美元。但一個普遍共識是,全球AI科技開始進入“中國時間”——中國大模型公司的海外收入不斷攀升,全球AI人才開始向東看,中國頂尖AI公司也將迎來重估。我們正在親歷著這一幕。(EDA365電子論壇)