#Kimi
梁文鋒和楊植麟的默契:AGI不是終點,定義規則才是
484天的沉默,換來一場1.6兆參數的爆發。4月24日,DeepSeek V4-Pro正式發佈,總參數1.6兆、百萬token上下文、首次將華為昇騰與輝達GPU並列寫進硬體驗證清單。而就在4天前,與DeepSeek相距僅1.4公里的月之暗面剛開源了Kimi K2.6,SWE-Bench Pro得分58.6,首次讓國產開源模型站上全球程式碼評測之巔。兩家公司在五天內連發兩款兆級模型,這不是巧合,是海淀區知春路上兩個男人——梁文鋒與楊植麟,長達一年半的默契共振終於公開化。先說一個被大多數媒體忽略的真相:DeepSeek和Kimi的"技術撞車",恰恰是開源生態最理想的進化方式。2025年初,DeepSeek在V3中推出的MLA多頭潛在注意力機制,Kimi直接沿用;2025年7月,Kimi在兆參數K2中率先規模化驗證自研Muon二階最佳化器,訓練成本降低50%以上,而這次DeepSeek V4的技術報告裡,也跟進採用了Muon。表面上看是路線同質化,實際上這是兩家公司在兆參數無人區裡的"交叉驗證"。你探一步,我確認一步,共同把國產大模型的技術水位抬到全球第一梯隊。它們是在互相兜底。這種默契,比單打獨鬥更難得。更關鍵的是,DeepSeek V4的發佈證明了一件事:中國AI已經具備了"晶片-模型-系統"全端自主的能力。技術報告裡那行關於昇騰950的備註,很多人讀出了"算力受限"的焦慮,但我讀出了另一種訊號:DeepSeek敢於在發佈當天就把國產晶片的適配進度寫進官方文件,這意味著"芯模協同"不再是PPT概念,而是正在發生的工程現實。下半年昇騰950超節點批次上市後,V4-Pro的價格會大幅下調,到時候國產模型的性價比優勢將進一步放大。當然,挑戰也是真實存在。DeepSeek近300人的研發團隊中,已有10位核心成員標註"已離職",包括初代LLM核心作者王炳宣、R1核心研究員郭達雅等,分別流向騰訊、字節跳動。人才流失倒逼DeepSeek打破"零融資"的執念,融前估值已達3000億人民幣,計畫增資500億,50億起投。騰訊、阿里正在爭搶入局。但換個角度看,這恰恰說明DeepSeek的技術實力已經強到讓大廠無法忽視。挖不走整個團隊,就挖核心骨幹;投不了整個公司,就搶份額入局。這裡有一個反常識的判斷:DeepSeek和Kimi越是被資本追捧,中國AI的"去中心化"生態反而越穩固。梁文鋒曾拒絕所有外部投資,擔心喪失決策權;楊植麟去年12月還在內部信裡說"短期內不著急上市"。智譜和MiniMax在港股上市後的暴漲並沒有讓這兩家公司跟風IPO,而是選擇了更靈活的一級市場融資。有意思的是,當國內為DeepSeek和Kimi的融資歡呼時,美國那邊Anthropic的ARR已經突破300億美元,15個月翻了30倍,正式超越OpenAI的240億美元。OpenAI剛完成1220億美元融資,估值8520億美元。相比之下,中國大模型的融資額"顯得小情小調"。但體量差距背後,是商業模式的代際差異。Anthropic 80%收入來自企業端,30萬家企業客戶,財富十強裡八家在用Claude。而DeepSeek至今堅持模型全部開源,C端產品免費。這不是不會賺錢,是主動選擇用開源換生態。Kimi雖然月活使用者從巔峰期的3600萬回落至1000-1500萬,但海外API收入四個月翻了四倍。Cursor套殼Kimi事件更讓全球開發者意識到:中國開源模型的性能已經不輸閉源旗艦。中國大模型公司不是在重複網際網路時代的"燒錢換規模"劇本,而是在走一條更硬核的路:先用技術實力打開全球市場,再用生態粘性鎖定長期價值。歷史正在寫下新的註腳。當DeepSeek把昇騰寫進技術報告,當Kimi的模型ID出現在Cursor的API呼叫裡,當馬斯克親自轉發評價"Impressive work from Kimi"。這些訊號都在指向同一個趨勢:中國AI不再只是"本土童話",而是全球開源生態的規則制定者之一。朱嘯虎去年說"大模型已經變成水電煤,沒有超額利潤"。目前來看,他錯了一半:大模型確實在變成基礎設施,但超額利潤沒有消失,只是從閉源壟斷轉移到了開源生態的規模化營運。DeepSeek和Kimi的估值飆漲,本質上不是泡沫,是資本對"開源即權力"這一新範式的提前下注。DeepSeek和Kimi的"知春路雙雄"敘事,不是精緻的本土童話,而是正在發生的全球級技術事件。它們的結局也不只有兩種:被資本收編,或在獨立與規模之間找到平衡。還有第三種可能,用開源生態的廣度,避險閉源壟斷的深度,最終在全球AI格局中佔據不可替代的位置。AGI不是終點,定義規則才是。 (識焗)
中國AI“雙子星”殺出重圍,西方封鎖者的如意算盤徹底碎了!
中國AI圈近期傳出一個令人振奮的消息,兩家領軍級AI創業公司DeepSeek(深度求索)和Kimi(月之暗面),在底層技術的突破上打出了一套漂亮的“組合拳”,在一周內相繼發佈各自兆參數等級的開源大模型。老胡看到,有人把這比作中國AI界的“兩彈一星”時刻,當“人工智慧+”上升為國家戰略,兩家技術路徑各異卻節奏同頻的公司,確實正在共同揭示科技社會的一次深刻演進。兩家公司展現了一種難得的開源協作精神:Kimi模型參考了DeepSeek架構,而DeepSeek新模型則採用了Kimi大規模驗證的關鍵最佳化器技術,直接挑戰了西方壟斷十年的技術標準。這種“你中有我,我中有你”的超越零和博弈的協作關係,在高度競爭的科技圈並不多見。▲權威機構Artificial Analysis公佈的全球大模型“智能指數”老胡想說的是,這不僅僅是兩家公司的勝利。一方面,我們要看到,西方對華的技術封鎖緊鑼密鼓,試圖在算力和底層演算法上把中國困在“石器時代”;但另一方面,中國人的韌性和創新能力,往往也在壓力最大的時候爆發。這兩家公司把兆量級的開源模型做到了逼近美國頂尖閉源模型的效果,而且價格只有人家的不到十分之一,這說明什麼?說明中國AI正在形成一種基於成本優勢和技術迭代的“非對稱作戰”能力。Deepseek和Kimi的創始人梁文鋒和楊植麟,時隔一年先後參加了總理座談會。這釋放出的訊號非常明確:國家不僅支援創新,更支援那種能解決“卡脖子”問題的實戰派。他們不是在實驗室裡空談,而是實實在在地與中國國產晶片“共生”。DeepSeek研究在華為昇騰晶片上做推理,Kimi搞混合式推理架構,讓中國國產晶片和西方晶片能“同台競技”。這種現實主義的突圍路徑,正是中國科技產業最需要的底氣。同時,我們離全球最頂級的生態位還有一段路要走,美國人的先發優勢依然客觀存在。但老胡相信,只要不亂陣腳,堅持開源共享,堅持底層自研,那些試圖通過封鎖來遲滯中國進步的企圖,終將在歷史的洪流面前撞得頭破血流。輝達的黃仁勳在GTC演講中,用這兩個中國模型來給自家下一代晶片“驗貨”,美國的Cursor、日本的樂天都在套殼使用中國模型。那些希望技術封鎖者的“如意算盤”,恐怕要落空了。老胡最後想說,中國太大了,這種充滿活力的民間創新與國家意志的同頻共振,是任何力量都難以遏制的。讓我們給這些年輕人一點時間,給中國AI一點耐心。中國人的“AI核彈”已經造出來了,接下來的戲,一定會越唱越精彩。 (胡錫進觀察)
兩個廣東人的五次撞車,撞出最強開源雙雄的底氣?
摘要:兩個廣東人,撐起中國AI半邊天。千呼萬喚,4月24日上午,DeepSeek終於扔出重磅炸彈,全新系列模型DeepSeek-V4預覽版正式上線並同步開源,在Agent能力、世界知識和推理性能三大維度宣佈達到國內及開源領域領先水平。從2月8日上線測試版至今,其始終保持著神秘的姿態。就在四天前的周一晚上,月之暗面同樣發佈並開源了Kimi K2.6模型,主打長程編碼和Agent叢集能力,在多項基準測試中持平甚至優於GPT-5.4、Claude Opus 4.6等閉源模型。鳳凰網科技統計發現,這已經是Kimi和DeepSeek的第五次“撞車”。不僅如此,這一次雙方在架構層面有了更多吸納與借鑑。就連在資本市場,二者也被拿來並列。據Theinformation報導,DeepSeek正在尋求首輪外部融資,在估值方面就參考了Kimi。一次兩次的撞車或許是巧合,但這兩支中國隊伍顯然已在過去兩年的摸高探索中形成了一種默契。開源策略疊加創新互惠,讓雙方都比既定路線走的更快。中國最強的兩個開源模型,正以一種心照不宣的方式,從兩個不同的方向合力包抄海外巨頭的腹地。五次撞車,蛛絲馬跡越來越多先說前幾天的Kimi K2.6。月之暗面已經有段時間不在單個模型上堆參數了。但從2.5到2.6,模型卻越來越會幹活了。據稱2.6在單個工程任務中持續12小時、發起4000多次工具呼叫,在官方測試中完成從零建構SysY編譯器到通過140項功能測試的複雜任務——官方估算,這相當於4名工程師兩個月的工作量。用楊植麟之前概括的三個詞來說,就是Token效率、長上下文、Agent叢集。DeepSeek V4也有三個關注點,即百萬上下文,兆參數和下半年適配國產算力。在架構層面,V4採用大規模混合專家(MoE)架構,完整版總參數高達1.6兆。創新注意力機制在Token維度進行壓縮,結合DSA稀疏注意力,相比傳統方法大幅降低計算與視訊記憶體需求,1M上下文正式成為DeepSeek所有官方服務的標配。新模型的看點不展開說了,這次想回顧下幾個巧妙的撞車點。Kimi和DeepSeek的“撞車史”,最早可以追溯到Kimi 1.5與DeepSeek R1的發佈時間重疊,當時大家還替Kimi惋惜,認為強者遇強者,是一種壓力。此後,兩邊的發佈節奏重疊次數越來越多,鳳凰網科技此前也報導過《Kimi和DeepSeek又又又撞車》。就拿上下文來說,Kimi其實是國內最早做百萬上下文的,2024年時就提過對應200萬文字,當時長文字一度是Kimi非常亮眼的標籤。不過比較遺憾的是,當時Kimi沒解決成本問題,這次DeepSeek再提長文字,就已經把成本打下來了。這次V4 API標準費率為輸入每百萬Token 0.30美元,快取命中時低至0.03美元,僅為GPT-4o價格的約1/20至1/50。按照人民幣計價,V4-Flash輸入價格僅為1元/百萬Token(快取未命中)、輸出2元/百萬Token;V4-Pro輸入為12元/百萬Token、輸出24元/百萬Token。另外,Kimi下一代模型的亮點其實也是長上下文,但在路線上兩者有點不一樣,DeepSeek探索的是稀疏注意力,Kimi探索的事線性注意力。至此,DeepSeek和Kimi拿出了中國唯二兆已開源模型。開放原始碼的合力,對壘矽谷三巨頭在全球的AI競賽裡,有人負責做0-1的創新,有人負責1-100的工程複製,但難的是前者需要全球範圍內那1%的天才,後者更適合軍團作戰的大廠。過去,外界常常說0-1的創新容易發生在美國,後者容易發生在中國。但從DeepSeek和Kimi開始,0-1的創新開始更多的發生在中國。這給了海外AI廠商巨大壓力。鳳凰網科技瞭解到,梁文鋒在創立DeepSeek之後,對應用和市場都不是最感興趣的,他更在乎底層創新,2025年初的R1以多頭潛在注意力的架構創新擊穿了深度思考的成本。另有行業人士告訴鳳凰網科技,儘管融資曾打亂Kimi的節奏,但在2025年DeepSeek走紅後,Kimi也回歸技術,繼續鑽研底層創新。而Kimi從K2到K2.5,其底層架構與DeepSeek V3一脈相承,本質上是在後者基礎上的規模化擴展。到了2026年, DeepSeek團隊在1月連續發佈的兩篇論文mHC與Engram中,開始大量參考Kimi此前開放原始碼的最佳化器、注意力架構等研究成果。這種中國開源模型在底層技術的你追我趕,讓中國的底層創新形成了良性循環,最終帶動了國內開源陣營的集體逆襲。MIT與Hugging Face聯合發佈的報告顯示,過去一年中國開源模型的全球下載量佔比達到17.1%,首次反超美國的15.86%。全球頭部AI模型API聚合平台OpenRouter的資料則顯示,2026年2月,中國AI模型的呼叫量三周大漲127%,全球前五中佔據四席——包括MiniMax、Kimi、智譜和DeepSeek。一年前,這個數字還不到2%。DeepSeek撬開矽谷視野時,Kimi的市場空間也被打開了;當Kimi在長文字和Agent領域持續突破時,DeepSeek在推理效率上的極致追求又給整個行業帶來了新的參照系。一位業內人士對鳳凰網科技表示,Kimi與DeepSeek的撞車早就已經不是內卷,而是一種“惺惺相惜”——“兩個最強的中國開源模型交替衝鋒,合力圍剿的是海外閉源巨頭。”4月24日凌晨,OpenAI面向付費使用者上線GPT-5.5並官宣API計畫,標準版API定價為每百萬Token輸入5美元、輸出30美元,較前代GPT-5.4翻倍,Pro版更達到輸入30美元、輸出180美元。2026年初,史丹佛HAI發佈的《AI指數報告》顯示,截至年初,美國頂級AI公司Anthropic最先進模型的性能僅領先中國最強競爭對手2.7個百分點。美國私人AI投資高達2859億美元,是中國的23倍。但“用23倍的資本砸出2.7%的差距”,這可能已經不是美國AI的優勢,而是中國AI的護城河。無論是K2.6還是DeepSeek V4,可能都是分水嶺等級的產品。兩者選擇了不同的技術路徑,Kimi深耕長程執行和Agent叢集,DeepSeek聚焦推理效率和極致性價比——但在底層邏輯上又高度一致:用開源打破閉源壟斷,用效率避險算力限制。AGI雙雄格局初現去年輝達帶火了中國AI的御三家,其中就有Kimi和DeepSeek,在輝達GTC大會上,Kimi和DeepSeek也是被用來Benchmark 晶片性能的兩家中國開源模型。近期,鳳凰網科技訪談了多位年輕前沿科學家,也多認為DeepSeek和Kimi有著相似的組織形態與創新環境,都是員工數不多,但人才密度極高。都是從底層技術出發探索AGI,也有著相似的技術前瞻性。他們也都願意吸納年輕人,DeepSeek的核心研究員有非常多年輕人,Kimi也廣納賢才,下放到本科生,甚至是高中生。Kimi與DeepSeek開始有越來越多相似的軌跡,另一個值得關注的維度是晶片。楊植麟在2026年3月的輝達GTC演講台上坦言,“目前普遍使用的很多技術標準,本質上是八九年前的產物,逐漸成為Scaling的瓶頸。”Kimi為此給開源社區貢獻了二階最佳化器MuonClip和Kimi Linear架構。DeepSeek V4則直接選擇了用華為晶片做推理,共同為國產算力生態發展做努力。據楊植麟判斷,大模型的本質是“將能源轉化為智能”,而規模化不是暴力堆砌算力與能源,而是以提升效率為核心。這可能也會是中國開源模型的集體敘事轉變,不再執著於與GPT-5.4、Claude Opus 4.7等對手在benchmark上死磕,而是定義一種全新的價值體系——低成本、高可及性、自主可控。第五次撞車或許不會是中國開源模型最後一次在時間線上的“巧合”。從K1.5借鑑DeepSeek R1的強化學習路線,到DeepSeek V4沿用Kimi的長上下文研究成果,中國的開源力量正在用自己的方式證明:最高效的競爭,是讓對手成為自己生態的一部分。AI競賽的下半場,規則正在由中國開源模型重新書寫。而Kimi和DeepSeek們,無疑是這段歷史最核心的註腳。 (鳳凰網科技)
這一次,梁文鋒和楊植麟隔空握手
真是熱鬧的一周。周一,Kimi剛發完Kimi K2.6;周五,萬眾矚目的DeepSeek V4就來了。這種感覺很熟悉。過去一年,這兩家公司不是前後腳發模型,就是前後腳發技術論文,不是你把市場熱度點著了,就是我把技術討論接過去了。更早之前,說起中國開源模型,幾乎條件反射地想到DeepSeek。尤其是DeepSeek發佈R1之後,這家公司不僅憑一己之力改寫了全球市場對中國AI的印象,而且喚醒了其他中國的AI創業團隊的“信心”。於是,我們看到,更多的中國AI創業團隊開始做出非常競爭力的模型,帶來非常有影響力的技術研究成果。2025年7月,被《自然》雜誌稱為“又一個DeepSeek時刻”的Kimi K2模型,在底層架構上首次大規模驗證了二階最佳化器 Muon,同時採用了 DeepSeek驗證過的 MLA注意力機制。到了2026年4月,DeepSeek V4在架構上也跟進 Kimi K2採用 Muon最佳化器,取代過去已經使用了10年的Adam最佳化器。這可能是開源最大的價值:讓中國公司共享技術,加速追趕美國的閉源巨頭。它們是中國目前唯二,總參數超過兆、已權重公開的中國模型。也是最有國際影響力的中國AI模型代表。全球市值最高的輝達公司在展示下一代晶片性能時,用的模型正是來自 DeepSeek 和Kimi。不僅如此,他們也都在挑戰深度學習網路的底層架構,DeepSeek有mHC殘差連接,Kimi有引發矽谷核心技術圈討論的“注意力殘差”。A雖然說DeepSeek V4和Kimi K2.6在同一周發佈,但其實兩個模型各有技術側重點。V4的核心突破在於百萬上下文的成本重構,它通過全新的混合注意力機制,將單token推理的計算量壓縮到V3.2的27%,KV Cache降至10%。這套方案結合了壓縮稀疏注意力和重度壓縮注意力,讓百萬級上下文從技術演示變成了可以普及的基礎設施。V4同時針對agent場景做了專項最佳化,後訓練階段把agent作為獨立方向單獨訓練,工具呼叫格式從JSON換成帶特殊token的XML結構,跨輪次推理痕跡在工具呼叫場景下完整保留。DeepSeek還自建了名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,用來支撐agent強化學習訓練和評測。K2.6的方向則更偏向長程編碼和agent叢集。它在Kimi Code Bench內部評測中得分68.2,比K2.5的57.4提升約20%。最高可支援300個子agent平行完成4000個協作步驟。B2025年2月,Kimi 發佈 Moonlight系列模型,首次將二階最佳化器Muon應用於480億參數的大模型,驗證了新一代最佳化器的效果。2025年4月,Kimi-VL模型發佈,在Moonlight模型的技術上,引入MoonViT視覺編碼器,為之後的多模態理解模型打下基礎。2025年7月,Kimi首次將Muon最佳化器擴展到兆參數的規模,推出 K2 開源模型。2025年10月,Kimi發佈Kimi Linear,這是Kimi提出的一種線性注意力架構,核心目標是在保住長上下文能力的同時,把大模型處理超長文字的計算和視訊記憶體成本降下來。這說明楊植麟已經不滿足於只做模型了,他想對模型的底層架構動手。隨後,Kimi發佈並開源支援圖片和視訊理解的兆參數模型Kimi K2.5。2026年3月,Kimi發佈注意力殘差的論文,繼續對Transformer的底層結構下手。這篇論文在X上收穫了馬斯克本人的稱讚。在然後就到了前幾天的K2.6,這是一個圍繞長周期編碼、agent執行、工程任務能力的模型。從產品定位的演變可以看出,Kimi正在從消費級對話產品往生產力工具轉型。2026年3月,楊植麟在輝達GTC大會上發表演講,系統介紹Kimi技術路線,他用三個關鍵詞概括Kimi的Scaling策略:Token效率、長上下文、agent叢集。他表示,要推動大模型智能上限的持續突破,必須對最佳化器、注意力機制及殘差連接等底層基石進行重構。當前的Scaling已經不再是單純的資源堆砌,而是要在計算效率、長程記憶和自動化協作上同時尋找規模效應。一家公司最怕的是,只有媒體在討論你,開發者卻不用你。但Kimi不一樣,無論是在OpenRouter上還是絕大多數agent工具的默認介面裡, K2.5和K2.6都是主流選項。截止發稿,Kimi和DeepSeek都出現在OpenRouter的TOP3模型裡,在AA的榜單上,K2.6甚至暫時佔得先機。而在K2.6這裡,模型繼續強化agent、長任務、編碼能力,也是同一個訊號。楊植麟真正押注的,就是生產力場景。這也是Kimi這一年最關鍵的變化。它不再只是告訴使用者“我能幫你讀更長的檔案”,而是在回答更底層的問題,模型怎樣才能在更長時間、更複雜任務、更高工具呼叫密度下保持穩定?長上下文解決的是記憶和資訊承載;線性注意力解決的是成本和擴展性;agent叢集解決的是複雜任務拆解;程式設計能力解決的是模型的理解和執行。它們看起來是幾條不同產品線,其實背後指向同一個方向,Kimi想把Kimi從一個好用的聊天窗口,變成可以承接真實工作的基礎模型。4月,楊植麟受邀參加總理主持的經濟形勢專家和企業家座談會,作為唯一的大模型創業者代表發言。這個1993年出生的年輕人,成為座談會上最年輕的參會者。一個月前,他剛在2026中關村論壇年會全體會議上發表演講,系統闡述了中國AI團隊如何通過底層架構的“推倒重建”,打破沿用十年的行業技術標準。顯然,Kimi已經從一家創業公司,變成了代表中國AI技術路線的符號之一。Kimi這一年的成長路徑,和DeepSeek的路徑有明顯差異。兩家公司的技術選擇不同,但也正因如此,才讓中國開源模型有了更多可能性。C過去我們寫這兩家公司,容易寫成“誰的模型好”、“誰才是下一個OpenAI”。但這其實是個誤區。DeepSeek和Kimi,不該被簡單理解成“誰贏誰輸”。它們更像中國開源模型對外競爭的兩條腿。不存在誰取代誰,而是應該互相刺激互相促進。DeepSeek和Kimi相繼證明了一件事,做前沿模型不一定需要無限的資源,關鍵在於演算法創新和工程最佳化。它們在模型演算法、工程效率、開源路線和降低推理成本上的貢獻,仍然是中國AI過去一年最重要的技術事件之一。它們彼此競爭,但也彼此抬高了中國開源模型的上限。真正重要的不是它們誰先到終點,而是它們把中國模型的競爭維度拆開了。過去我們評價一家模型公司,很容易只看榜單、參數、價格、發佈會聲量。但模型公司真正的護城河,已經不再是“模型聰不聰明”、“模型性能如何”這些事了。現在圍繞模型的敘事,是它能不能形成一整套技術路線。DeepSeek把第一件事做得很徹底。它讓外界看到,中國公司可以用更高的工程效率,把模型訓練和推理成本打下來,可以把技術報告寫到足夠透明,可以把權重開放到足夠激進。它建立的是一種開源信任。開發者願意研究它、復現它、部署它,是因為它不只是給了一個API,而是把模型背後的方法論也拿了出來。Kimi補上的是另一塊。Kimi最早被使用者記住,是因為長文字和聊天產品,但K2.6之後,它講的已經不是一個更會聊天的助手,而是模型如何進入真實工作流。長程編碼、Agent叢集、工具呼叫、長周期任務,這些能力沒有“霸榜”那麼直觀,但它們決定模型能不能從“被試用”走向“被依賴”。如果說DeepSeek解決的是模型夠不夠強、夠不夠便宜、夠不夠開放的問題,Kimi更關心的是模型能不能真的替人完成複雜任務。所以這兩家公司放在一起看,意義反而更大。作為觀察者和使用者,我們肯定希望都存在,這樣產業才能發展。中國AI真正值得興奮的,不是終於出了一個DeepSeek。而是在DeepSeek的帶動下,Kimi們依然能靠自己成長為一座座大山。這說明中國AI公司已經開始在不同維度上找到自己的位置,不再是簡單模仿,是真正的在探索自己獨有的那條技術路線。DeepSeek和Kimi的技術互相賦能,也說明了一件事,開源生態的價值在於協作。現在的問題不是DeepSeek和Kimi誰更強,而是它們能不能繼續保持這種競爭關係,繼續在技術上互相刺激。中國開源模型要真正在全球站穩腳跟,需要的不是一家獨大,而是多家公司在不同方向上都做到世界級水平。DeepSeek和Kimi的存在,讓這個可能性變得更大。 (字母榜)
Kimi沒有DeepSeek的命
2024或許你還記得,在並不遙遠的2024 年,Kimi是中國AI當紅炸子雞:10億美金融資、Kimi概念股多次漲停、200萬字輸入碾壓GPT、激進的投流推廣策略。但他們當時獲得的曝光度,遠超自己的技術影響力。事實上,那個200萬字的模型,後來能用到的人微乎其微。後來瞭解到,那是個實驗性模型,每次運行成本接近 3 位數,完全不具備大規模服務使用者的可能性。那時的技術圈,對 Kimi 是不屑一顧的。但是靠著200萬字的噱頭,Kimi還是站住了“長文字”標籤和使用者心智。頭圖來自:AI生成20252025 年初,DeepSeek 橫空出世,真正靠技術實力成為中國AI技術的代言人。到了 2025年中,Kimi 已快一年沒任何融資的消息。被“唱衰”成為主旋律,員工開始流失,業內基本給這個創業項目判了死刑。如果你從2025年年中開始,閉關了 9 個月,到2026年3月看到新聞:Kimi 最新估值 1200 億;Kimi 20 天收入超過去一年;Kimi的模型被3500億估值的最火AI程式設計工具Cursor套殼並實錘(你閉關了9個月,所以不知道最火的AI程式設計工具已經是 Claude Code了,Cursor已成老二);Kimi新模型被承載了網際網路20%流量、市值超過 5000 億Cloudflare引入為主力模型;Kimi新模型成為全球最大獨立AI搜尋應用Perplexity唯一引入的開源模型和中國模型;Kimi新技術“注意力殘差”開始改造深度學習架構10多年來的地基,並得到前OpenAI的聯合創始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及馬斯克稱讚;楊植麟成為輝達2026 GTC年度大會唯一受邀做演講的全球獨立大模型公司代表……你很可能會驚掉下巴。大家說“AI 一天,人間一年”,AI 領域 9 個月確實發生了很多事情。但歸根結底是一件事情,AI技術的範式發生了變化。這個變化最常見、最偷懶的概括是從 Chat 到 Agent。對全世界的 3000萬程式設計師來說,變化是,最受推崇的工具從Cursor 變成 Claude Code。對總是率先擁抱新技術的 early adopter 來說,變化是更頻繁地打開那個類似 DOS 系統的黑白命令列終端……對AI公司來說,變化是大家陸續發現:更會聊天的模型,遠不如會寫程式碼和呼叫工具的模型有價值。最酷的產品從ChatGPT變成Claude Code,最酷的創業公司也從 OpenAI 變成了 Anthropic。回到 2025 年初的中國市場。DeepSeek R1 因為復刻並開源了 OpenAI o1 的“深度思考”能力爆火,另一個“通用 Agent”產品 Manus 也橫空出世……彼時的中國AI公司,大多數在忙著復現 DeepSeek R1,推出能“深度思考”的新模型。少數公司意識到 Manus 背後的那個模型,才是更值得花資源“復現”的東西。或者意識到了,但沒有分配到足夠的資源,或找到方法。Manus的一個很大的價值,就是可視化呈現了Claude模型的多輪工具呼叫能力。正如一位大模型公司的技術專家在自己的部落格中寫到,“絕大多數 Agent 產品,離了 Claude 以後,什麼都不是。”直到 2025年7月,中國第一個主打Agent能力的模型才悄然出現。7月11日,Kimi K2 發佈,喊的是 Open Agentic Intelligence。這裡顯然藏著他們的野心:復現 Claude 模型的 Agent 能力,並開源出去。就像 DeepSeek R1 復現 OpenAI o1並開源出去。發佈 5 天後,7月16日,英國的 Nature 自然雜誌發現了這個模型的價值,用“另一個DeepSeek時刻”來形容。發佈10天後,7月21日,Anthropic聯合創始人Jack Clark在自己的部落格中介紹了 K2,評價稱:在我看來,Kimi 是一款還不錯的模型,落後美國最前沿幾個月,延續了 DeepSeek 的軌跡。其編碼和工具呼叫分數已足夠高,我預計現實中會有人真正用它,因此觀察其採用率能折射競爭力。7 月底,楊植麟在播客專訪中,解釋了 K2 為什麼沒有先做“深度思考”,而是在 Agent 需要的程式設計和工具呼叫能力上發力。他用“缸中之腦”來形容主打深度思考的模型。對了,楊植麟這篇採訪值得多看幾遍,他講了很多技術層面更本質的東西,比如程式設計和Agent的關係,思考和工具呼叫的關係。因為 K2 和後續 K2 Thinking 模型的表現,Kimi 的融資在年底終於續上了,5 億美金,IDG和幾家老股東繼續加持。20262026 年春節前後,這個瘋狂的大模型發佈季,Kimi 是第一個交卷的選手。可能也是讓同行們最難受的一個,因為 K2.5兆參數、圖片和視訊的多模態理解能力,支援思考和非思考模式。其他創業公司同行發佈的都是純文字模型。有實力把多模態能力融入旗艦模型的,只有大廠的閉源模型。3月16號,Kimi團隊發佈了Attention Residuals的技術論文,挑戰已有 10 年歷史的神經網路底層殘差連接機制。OpenAI的聯合創始人Andrej Karpathy銳評Kimi“讓我們意識到根本沒有把Attention is All You Need理解透徹”,要知道,Attention is All You Need就是開啟大模型時代的聖盃,那怕考慮到AI圈的通詞膨脹,這個評價也是前所未有的高。據說,論文第一作者是一位僅 17歲的高中生,天才出少年,真是令人感慨。3月17號,Kimi 模型繼年初的 CES 2026 之後,在黃仁勳的 GTC 2026 主旨演講中再度成為輝達展示下一代晶片和推理性能的御用模型。3月18號,作為輝達的GTC年度大會唯一受邀的中國獨立大模型公司代表,楊植麟的現場演講全是乾貨,上來就把最佳化器、注意力機制、殘差連接三大核心模組比作有8-11年歷史的陳舊技術標準,是繼續Scaling的障礙,用新的技術突破表明“每一項基礎技術都值得重新思考”。然後是這幾天人盡皆知的“Cursor醜聞”,誰能想到,估值500億美金的全球最大程式設計助手Cursor,重磅推出的新一代程式設計模型Composer 2——跑分超過Claude Opus 4.6——竟然是套的Kimi K2.5的殼⋯⋯身為Token中介定位的Cursor之所以要發力“自研”,主要還是為了擺脫它對Anthropic和OpenAI的高度依賴,卡脖子這事兒可不分國界,Anthropic也真的曾經斷供Windsurf這類程式設計工具,在既當裁判員又當運動員的環境下,Cursor希望獨立自主的心情,完全可以理解。只是能力和願景之間的巨大鴻溝,讓Cursor選擇了抹掉來自Kimi的底座模型名字,靠代筆求融資,事情最後也算是體面收場,Cursor的聯合創始人公開道歉,在技術報告中給除了選擇 Kimi K2.5 作為底座模型的詳細理由,而Kimi官方也回應表示,很高興Cursor使用Kimi K2.5作為基座,雙方通過推理服務商 Fireworks AI 做了技術授權。根據小道消息, 2026 年春節前後,Kimi 陸續以投前 48 億美元、60 億美元、100億美元的估值完成總額近 20 億美元的融資,3月份開啟的 180 億美元輪次份額也要排隊才能拿到。這當然也受益於兩個同行在港股的超常表現,但更重要的還是靠自己的 K2和後續的模型實際表現,包括前文題庫的 Cursor、Cloudflare、Perplexity、黃仁勳、馬斯克、馬克·安德森、查馬斯等不斷髮來的“金水”,以及K2.5發佈後20天收入超過過去一年的財務表現。一位 Kimi 的朋友在私下聊天裡說,制約業務發展的只有算力,現在至少還有 10 倍的需求沒有滿足。有多少卡,就能有多少收入。據我跟另一個大廠工作的朋友瞭解,現在有些大廠在程式設計工具中接入的Kimi模型,甚至要通過預購才能拿到足夠的額度。這 9 個月,Kimi 算是完成了一次逆天改命。命Kimi和DeepSeek,到底誰更強?DeepSeek V3不是一天煉成的。其背後的幻方量化基因,決定了他們從 2023 年起就走上了一條與矽谷截然不同的極致能效比之路。在 2023 到 2024 年的大部分時間裡,他們游離於主流敘事之外,潛心自研 MLA(多頭潛在注意力機制) 與 DeepSeekMoE 架構,試圖在有限的算力下壓榨出超越物理極限的性能。直到 2025 年成就自己,也給其他AI創業公司帶來信心。所有人都在期待 DeepSeek 的下一代模型繼續驚豔全場,但媒體上三番五次的“狼來了”把戲只會消磨大家的注意力。技術突破,那是那麼容易的事情,我們完全有理由更有耐心地等待 DeepSeek 團隊的下一個作品。Kimi K2 也不是一天煉成的。他們實際上跟 DeepSeek R1同一天發佈了無人問津的K1.5模型,被OpenAI官方認為是率先復現o1的兩個公司之一。他們在被唱衰最厲害的2025年初發佈了Moonlight系列小型MoE模型,用來驗證下一代二階最佳化器技術,並且最終應用到兆的K2模型上。現在Muon已取代已經用了10年的標準技術Adam,成為Kimi、GLM-5、DeepSeek Engram在內的新模型都開始採用的新標準。正所謂,“出來混,總要還的。”Kimi 在2024年提前享受了C位和曝光,2026年沒再復現該屬於自己的流量。各有各的命。作為兩家幾乎同時起步的創業公司,我佩服他們那種從來不認為市場格局已定、相信技術才是最大變數、敢於追逐AGI 的勇氣和年輕生猛、戰績可查、永遠相信細水長流的力量。即使站在 2026年3月底這個時間節點看,2022年底開始的這場AI革命也才進行了3年半的時間,一切才剛剛開始。為什麼下一個 OpenAI 和 Anthropic 不能是一家中國公司? (虎嗅APP)
馬斯克重拳出擊,戳破矽谷那件皇帝新衣
很長一段時間裡,矽谷 AI 是帶著濾鏡的。原創、前沿、高大上。提起先進技術,大多數人的第一反應還是:厲害的,都在國外。馬斯克,一句話,把這層窗戶紙捅穿了。他撕開的不是什麼驚天秘聞,而是一個業內的真相:矽谷一家估值不菲、風頭極盛的 AI 公司,對外標榜自研大模型,底層基座,用的是中國的 Kimi。不是參考,不是借鑑,是直接當作核心底座在用。事情不大,但意味,完全不一樣。一、事情其實很簡單矽谷有個做 AI 程式設計的產品,叫 Cursor,一度被視作明星項目,估值水漲船高。官方口徑很清晰:自研大模型 Composer 2,技術獨立,能力領先。直到被業內人扒開底層呼叫記錄:模型標識清清楚楚,指向的是中國月之暗面的 Kimi K2.5。平台還想模糊解釋,馬斯克直接一句:“對,就是 Kimi 2.5。”一錘定音,沒得洗。創始人後來也承認:確實在用,而且Kimi 是現階段市面上能打的開源模型。說白了,不複雜:一邊頂著「矽谷自研」的光環抬身價,一邊用中國的硬核技術,撐住實際場面。二、被撕開的,不只是一家公司的遮羞布這件事真正戳破的,是兩個長期被默認的幻覺。第一個,矽谷技術無敵的濾鏡,碎了。過去很多人理所當然覺得:頂級創新,出自矽谷。現在現實很直白:不少海外公司,故事講得很漂亮,真到拼硬工業化實力、拼落地效果,還是得選更能打的中國模型。第二個,中國 AI 早已不是跟跑者。以前是我們追著國外走,現在是國外公司悄悄用我們的技術,還不敢明著說。行業裡有句話說得直白:“以前是中國學矽谷,現在是矽谷偷偷用中國。”不是口號,是生意場上的真實選擇。三、為什麼海外公司寧願 “套殼”,也要用 Kimi?商業不講情懷,只講性價比。Kimi 這一代模型,長文字理解、邏輯推理、程式碼處理,確實摸到了全球第一梯隊。業內人都清楚,Transformer 架構成熟這麼多年,真正能做出實質改進的,不多。Kimi 算一個。它的核心競爭力,不在堆參數、炒概念,而在解決了一個十年未破的底層死穴——意識殘差(資訊稀釋)。傳統大模型靠固定加法殘差傳遞資訊,層數越深,淺層關鍵資訊越容易被稀釋、丟失,長文字越往後越“失憶”,算力還被大量浪費。Kimi用注意力殘差(AttnRes) 徹底重構了這一機制:結果是:不再是無腦累加,而是讓每一層動態“回顧”前面所有層,用注意力權重精準篩選、保留關鍵資訊,過濾冗餘噪聲。再通過Block AttnRes分塊最佳化,把視訊記憶體與延遲控制在幾乎可忽略的範圍(訓練額外開銷<4%,推理延遲<2%)。長文字穩得住、邏輯鏈不中斷、複雜推理不掉線,算力效率還提升1.25倍。這才是Cursor這類海外公司,寧願頂著“套殼”爭議也要用Kimi的根本原因——好用、穩定、划算,沒有替代品。再加上成本可控、部署穩定、接入簡單,對企業來說,性價比一目瞭然。Cloudflare 之前做過測評:使用這類中國開源模型,企業的 AI 使用成本能明顯下降,效果反而更穩定。Hugging Face 的創始人也公開說過:中國開源大模型,已經是全球 AI 圈子繞不開的一支力量。市場從來不說謊:誰好用、誰穩定、誰划算,資本和開發者就會用腳投票。四、這不是個案,是已經發生的趨勢Cursor 只是被擺在檯面上的那一個。真實情況是:海外大量工具、產品、中小平台,都在悄悄接入中國大模型。做客服、做內容、做效率工具、做企業內部系統,不少國外大廠也在內部測試、試用。資料更直接:中國大模型的全球呼叫量,早已達到巨量等級;各大開源榜單前排,常年被中國模型佔據;海外開發者社區,討論中國模型的熱度,一直在走高。不用宣傳,不用造勢,好用,自然會被選用。五、矽谷真正不安的,不是技術,是話語權這件事之所以引發震動,不是因為一家公司 “套殼”。而是矽谷維持了幾十年的優越感,第一次被這麼直白地戳破。一是技術原創的優越感。過去是他們定義前沿,制定方向,我們跟著跑。現在是他們要靠我們的模型打底,“自研” 兩個字,變得格外尷尬。二是行業話語權的優越感。以前規則由他們定,標準由他們提。如今中國 AI 在開源、性能、成本、生態上全面起勢,“什麼才是好用的 AI”,這個標準,正在悄悄被改寫。六、中國 AI 這一波,贏的不是炒作,是實在我們這一輪走出來,靠的不是概念,不是聲勢,是三件很樸素的東西:能落地。不玩虛的,穩、快、能用。成本低。小企業、小團隊、普通開發者都用得起。夠開放。不封閉、不卡脖子,願意成為全世界可用的底座。就像月之暗面後來那句很淡、卻很有份量的回應:“我們很欣慰,Kimi 能成為全球 AI 創新的一塊地基。”沒有高調,沒有叫囂。但意思很明確:我們早已不是追隨者。而是別人,已經離不開的底層支撐。 (鋼筆刀)
馬斯克撕破了一塊遮羞布
AI競爭這件事上,攻守之勢正在發生變化。也許很多年後,人們才會意識到,轉折點,只是當時的一件“小事”。(一)這幾天,一場堪稱“AI世紀打假”的戲碼在全球科技圈上演。矽谷當紅炸子雞AI程式設計巨頭Cursor,高調發佈其“自研”的Composer 2模型。然而,全球開發者卻在程式碼中抓到了致命問題——模型ID赫然顯示為中國產大模型Kimi K2.5。一家正在尋求500億美元估值的矽谷明星企業,其最核心的競爭力,竟然必須悄悄建立在一個來自中國的基礎模型之上——而且,開發這個模型的公司估值僅有180億美元。這簡直滑天下之大稽,一時間,全網AI從業者嘩然。更有意思的事,開發者這個模型的中國公司,4天前剛剛才給了矽谷技術圈一個小小的震撼。到底是咋回事?還得從技術底層聊起:這兩年讓AI技術深入生活的,大部分是“大模型”產品,普通人能跟AI直接對話,讓它幫忙工作、做視訊、出主意,都是因為它能進行“邏輯推演”,這背後,源自它名為Transformer的核心元件,這個核心元件的底層,則用了一種叫“殘差連接”的主要邏輯。這個殘差連接不得了,它堪稱現代大模型的基石,不管是長文字理解、複雜邏輯推理,還是多輪對話,模型都靠它保證深層網路的穩定訓練和資訊傳遞。但是,這種連接還是不完善的,用久了,大家就發現了一個核心痛點——層數越深,殘差裡的有效資訊越容易被稀釋,早期層的關鍵資訊直接被埋住。這是阻礙大模型的能力進一步變強的絆腳石之一。而就在3月16日,中國大模型廠商月之暗面,也就是發佈了Kimi的公司,發佈了一份名為《注意力殘差》的技術報告,從底層邏輯的層面,對Transformer架構的關鍵元件殘差連接進行了其發佈十年來的首次重大重構。簡單來說,就是Kimi為大模型這整個“物種”的基礎架構層,提出了一套新的思考路徑,讓其找到全新的進化空間。這一成果,讓馬斯克關注到了,並評價為“印象深刻”。緊接著,就有開發者發現一個問題:這個中國模型的名字怎麼有點眼熟?它似乎出現在矽谷自研的前沿模型 Composer 2的底層程式碼裡。馬斯克確認了這件事,並在社媒上轉發,一錘定音,輿論嘩然後,“冒用者”Cursor也坐不住了,其聯合創始人Aman Sanger發表聲明“服軟”:“我們系統評估了眾多開源基座模型,Kimi k2.5被證明是世界最強的。”這毫無疑問是揭開了一塊“遮羞布”:矽谷公司引以為傲的技術創新大廈,其地基正在被悄然置換為中國製造。(二)矽谷可不是僅僅是一個地名,它幾乎是全世界頂尖人工智慧人才嚮往的聖地,是美國在AI競爭中最不可替代的基石。它的品牌,是幾代精英,用幾十年來鑄造的。矽谷何以為矽谷?這背後有兩個關鍵“定量”:第一,必須始終保持創新,保持對全世界的技術優勢,甚至讓這裡的思想,成為引領全世界技術進化的方向;第二,必須能夠輸出標準,這裡不僅僅是科技領域的技術標準,還包括了很多產業範式,比如AI領域一貫堅持的“開源協作”。但是,當馬斯克撕開了遮羞布,這兩大基石就產生動搖了。“還能相信矽谷嗎?”有人在社交媒體上反問。懷疑的種子一旦種下,命運的齒輪也就開始轉動了。越來越多的人發現,不能只關注矽谷故事,還應該多看看中國成果。這一看不要緊,原來,除了矽谷的初創公司開始拋棄昂貴的專有模型,轉向開放原始碼的中國版本之外,從Airbnb到德國工業巨頭西門子,已公開使用中國模型。市場在用腳投票,資本也沒閒著。以這次事件的主角Kimi為例——它在3個月內估值翻4倍至180億美元,增速超過了同期的字節和拼多多。正如全球最大AI社區Hugging Face聯合創始人直言:“中國開源已成為塑造全球AI技術堆疊的最強驅動力。”其實,中國的AI企業在起步之初,也都深受矽谷影響。在矽谷巨頭面前,始終保持學習者的姿態。但現在,跑道上的差距正在縮短:追趕者正加快腳步,逼近領先者。這不是單純的臆想,實際上,除了目前已經發生的改變,還有邏輯上的必然。Kimi為什麼能成為被競爭對手選定,甚至不惜冒險隱身使用的“世界最強開源基座模型”?這看起來只是一次偶然的事件,但在偶然背後,一定是必然。在被矽谷巨頭點贊之前,市值800億美元的全球網際網路基礎設施巨頭Cloudflare宣佈在生產環境中部署Kimi K2.5後,其內部安全審計Agent(日處理70億Token)的營運成本直降77%,效率也有明顯的提升,這背後,固然有中國AI 通過“兆MoE架構”和“原生多模態理解”等技術優勢的原因,但更重要的,是因為這個模型做到了“性能和價格的最佳平衡點”。正如同中國製造一樣,中國大模型也有自己的獨特優勢,比如,它進化快,它成本低。而這兩個優勢,本質上,其實指向一個關鍵點:中國在AI時代的“基建優勢”,正在成為AI競爭的勝負手。(三)這兩天有個新聞:Token出海,很轟動。媒體說,過去一年,中國大模型的海外付費呼叫量呈現爆發式增長,今年,這個趨勢更快。這裡有倆關鍵詞:第一,Token,它剛剛有了一個中文名詞元,簡單來說,就是大模型運算時需要消耗的基礎貨幣。第二,海外付費呼叫量,指的是海外個人、企業充值來使用中國大模型生產的Token。這個資料,簡單來說,就是世界上花錢使用中國大模型的人數正在變多。為什麼?一方面當然是因為中國大模型越來越好用,另一方面,是因為成本,簡單來說就是,中國電力優勢正在轉換為算力優勢,讓詞元——Token的定價,遠低於國外。這可不僅僅意味著中國將為全世界提供廉價的算力,更意味著中國AI產業從此刻起,就擁有了“近水樓台先得月”的發展環境。試想一下,當中國大模型通過性價比更高的Token,服務全世界的使用者時,它的成長速度一定會超過矽谷的同行,這一東昇西落的趨勢是不可逆的,且會逐漸加速的。轉折點已經不遠了,因為端倪確實已經出現:目前,頂尖中國大模型的海外呼叫量正在成倍增長。而你追我趕的國產大模型,在關鍵指標上與國際頭部模型差距持續縮小;並且,是中國,出現了DeepSeek、Kimi這樣敢於打破範式,試圖重構底層邏輯的突破者。其實,Kimi被冒用這件事,最後的結果很“平和”——事情發生後,月之暗面並沒有禁止矽谷巨頭使用自家產品,而是順勢發文祝賀,落落大方地寫道:“We are proud to see Kimi K2.5 provide the foundation。”用中文說,就是“我們很自豪看到Kimi K2.5 奠定基礎”。相信矽谷一定不願意看到這樣平和但堅定的話語,因為這等於釜底抽薪,改變了矽谷對於未來技術的定義權。用一個比喻來說就是:矽谷長期在打造豪華跑車,引領行業發展,結果有一天,一輛新跑車被人打開,一看發動機是來自中國的,那麼,距離中國人重新定義高級跑車的時間已經不遠了——更何況,中國還在全世界修高速公路。矽谷的巨頭們甚至不敢正視“中國AI技術的崛起”,因為當他們一旦承認中國實驗室正在以更高效、更開放的方式推動行業進步,中國的基礎設施又好又便宜,矽谷的神聖地位就不復存在了,而當全世界的AI企業都把目光轉向東方,那個“我們需要 10000 億美元才能建構 AGI”的融資敘事還會好使嗎?(四)馬斯克揭開的,絕不僅僅是矽谷的遮羞布,而是矽谷的命運線——它將指向一個必然的結果:全球AI的發展範式不只有“矽谷發明-全球應用”這一個軌道,還有“中國創新-全球受益”新軌道。中國通過DeepSeek、Kimi等公司證明,新質生產力不僅是更高效的生產工具,更是一種可定義成本、可制定規則、可輸出生態的全球性基礎設施能力。它包含了重寫架構標準的技術定義力,定義能效與Token價格的成本定價力,繼承並行展開源協議治理的生態規則力和定義綠色、普惠的AI路徑的發展話語權。“中國AI崛起”,崛起的不是簡單的GDP數字,而是這種定義下一個時代發展基座的系統能力。當越來越多的全球智能,開始運行在由中國定義效率、成本和規則的基礎之上時,時代將被誰塑造,已經不言而喻。 (牛彈琴)
Kimi楊植麟「2026中關村論壇」演講全文
大家好,今天很高興有機會分享我們在做開源模型和不斷訓練更好的大模型過程中的最新進展和思考。其實做大模型本質上是把能源轉化成智能。轉化的過程中,最重要的事情是規模化。也就是說,把儘可能多的能源,經過算力和模型,變成更多的、更高程度的智能。本質上,規模化定律(Scaling Law)是過去若干年,所有的模型和 AI 發展的一個很重要的基礎。當然,規模化並不是代表我們只是去暴力地增加能源,或者去暴力的增加算力,而是涉及到我們如何有效地規模化。我們會從三個維度去思考如何提高效率:首先是提升 Token 效率。它代表的是從同樣的資料中能夠學到多少智能。因為這個世界上的有效高品質資料,其實是一個常數,或者說是一個非常有限的值。如果你有更好的網路架構,或者有更好的最佳化器,那麼你就可以從有限的資料裡學到更多的智能。第二是擴展上下文長度。更長的上下文能力,意味著模型可以學會處理更複雜的任務。為此,我們設計了新的網路架構 Kimi Linear 和專門的訓練資料,來提升模型在長上下文時的表現。第三是 Agent 叢集。我們在最新模型 Kimi K2.5 中提出了一種新的規模化的方法,就是通過引入多個 Agent,讓很多個 Agent 可以一起去工作,形成 Agent 叢集。通過這種方式提升 AI 能完成的任務複雜度。這是我們 K2.5 Agent 叢集的一個內部測試結果。橫坐標是任務複雜度,縱坐標是執行時間,如果我們用這種單一 Agent 的方式工作,可以看到隨著任務複雜度逐漸提升,完成時間是指數增加的。如果你需要做一個非常複雜的任務,比如從頭去寫一個程式碼倉庫,去實現一個很複雜的功能,需要幾天甚至幾周的時間。但如果我們能夠平行,比如說開啟 100個 Agent 同時去做這個任務,然後在過程中它們會互相協作,互相協調和規劃接下來應該做的事情,就跟人類的組織一樣,那麼隨著任務複雜度的增加,執行時間其實沒有太大的變化。這意味著你可以在單位時間內去完成更加複雜的任務,使得原來一些完全不可能實現的任務變得有可能。就像一家公司,如果你想做一個非常艱難的事情,完成一個很複雜的使命,比如說從 0 到 1 建造一家 100 億或者 1,000 億美元的公司,那麼你只靠一個人,可能要 100 年才能做出來,那你在市場上是沒有競爭力的,但這個時候如果你有100 或者 200 個非常聰明的人,能一起協作,那就有可能在短時間內完成。通過 Agent 叢集能力,我們可以實現規模化的輸入,比如說你可以同時去調查幾百個不同的資料來源,在各種權威的資料來源裡面尋找答案;你也可以做規模化的輸出,比如說你可以通過閱讀這些資料來源,去撰寫一個幾百頁的論文;以及去規模化的執行或規模化的編排,去提升模型能處理的任務複雜度。同時,我們非常注重研發更好的底層網路架構。這是我們最新開放原始碼的模型架構,叫做注意力殘差(Attention Residuals)。這項技術主要的靈感來自於 10 年前的技術 Resnet, 或者叫殘差網路連線。在十年之前,其實沒有任何人有辦法去訓練深度的神經網路。直到何凱明等研究者引入殘差網路,可以讓模型去訓練幾十、幾百層的網路,可以任意的增加層數。這種殘差結構,其實可以認為是 LSTM 網路的一個變種,只是說 LSTM 是應用在時間的維度上,殘差網路更多體現在網路深度上,使得每一層可以用上一層的輸出,然後做一個函數的處理,得到當前這一層的輸出。我們把類似的思路做一個自然的泛化,把注意力機制這種計算模式做 90 度的旋轉,從原來只是應用在時間軸上,現在我們可以把它應用在深度上。把注意力應用到深度上有很多好處,比如不僅僅只是基於前一層的輸出來進行計算,而是可以去結合之前的所有層的輸出進行計算,這樣在最佳化網路架構性能的時候就有非常多好處。這是我們整個注意力殘差的架構圖。左邊是標準的殘差結構,右邊是我們提出來並開放原始碼的殘差結構。然後,我們也設計了基於塊狀的殘差結構,使它能夠非常高效地實現。基本上在只有 2% 額外成本的情況下,就大幅度提升了效果。就像我剛才說的,大模型的第一性原理是規模化定律(Scaling Law),但我們不僅僅只是去暴力的做規模化,而是希望我們在規模化的同時也能夠去提升效率,所以我們一直致力於研發更強的模型架構。比如像 Adam 最佳化器或者像 Attention 架構、殘差連接這些都是有了 10 餘年歷史的技術。在電腦領域,十年其實是非常長的時間。過去十年的時間裡面,沒有任何人能夠去挑戰這些技術,大家都把它當成一個標準。但隨著現在算力的提升和大家研發方式的變化,從原來的偏學術,單純從想法(idea)出發的研究,到變成現在更加重視與工程的結合,然後可以設計非常紮實的規模化驗證實驗,從而得到非常紮實的結論。因此,很多以前認為是標準的東西,現在都可以被挑戰。我們看到,開源模型正在逐漸成為新的標準。這是幾張從剛剛結束的輝達 GTC 2026 大會上,黃仁勳的主題演講中裡面摘取的幻燈片。可以看到,以 Kimi K2.5 為代表的開源模型,已成為全世界所有晶片廠商測試硬體性能的基準:如果發佈新的晶片,就會通過 Kimi 或者其他開源模型來評測晶片性能提升幅度。現在,全世界很多研究機構也在用 Kimi K2.5 或其他的開源模型去進行研究。我們通過開源,讓每一個企業、每一個研究者、每一個終端使用者,都能以非常低門檻獲取智能,是一個非常重要的事情。同時我們做的很多重要的創新,包括我剛提到的新的架構也是開放的,可以被任何人所獲取。最終,大家能夠去形成一個開源生態系統,一起推動 AI 領域的發展。最後想跟大家分享,從模型訓練的角度看,大模型領域仍在快速發展,現在的研發方式跟兩三年之前會有很大不同:2023 年和 2024 年,大家主要使用「天然」資料。也就是從整個網際網路獲取的資料,加上一些少量的人工標註,比如去標註某一條資料是不是符合價值觀或者偏好。2025年,大家更加重視搭建大規模的強化學習系統。但要靠人篩選高品質任務,然後在這些任務上做強化學習得到更好的效果。可以看到,在程式設計或者數學領域上得到的能力提升,主要就來自於這種技術路線。從 2026 年開始,包括接下來的若干年時間內,整個 AI 研發的方式會發生重大變化:更多由 AI 去主導研究。每個研究員會配備非常多的 AI Token, 然後這些 AI 的 Token 可以幫你去合成新的任務,幫你合成新的環境,幫你定義在這個環境下面最好、最合適的獎勵函數是什麼。甚至可以去幫你探索新的網路架構可能長什麼樣。因此,整個 AI 的研發也會逐漸加速。我們希望也能夠跟整個開源社區一起,打造更好的生態系統,不斷把技術往前推進,加速探索智能的上限。感謝大家。 (深科技)