#Kimi
Kimi K2.5登頂開源第一!15T資料訓練秘籍公開,楊植麟劇透K3
開源熱榜第一輪流做,現在花落Kimi。在Hugging Face上,Kimi K2.5登上了Trending榜首,下載量超過了5.3萬。Kimi K2.5主打Agent能力,在HLE-Full、BrowseComp等測試集中,成績超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗艦閉源模型。而且極具性價比,在BrowseComp上達到比GPT-5.2更高的表現,Kimi K2.5的資金消耗僅有不到5%。現在,官方的技術報告也已經亮相,Kimi K2.5怎樣練成,我們可以從中窺探一些答案。原生多模態,15T Token混合訓練Kimi K2.5在K2的架構基礎上,投入了15T的視覺與文字混合Token進行持續預訓練。它選擇了一條原生多模態的技術路線,讓同一套參數空間直接處理視覺訊號與文字邏輯。在15T這樣龐大的資料量級下,視覺理解與文字推理能力實現了同步增強,一改往日“此消彼長”的局面。這種統一的參數架構,讓模型能夠像理解語法結構一樣,精準解析像素背後的邏輯語義。有了這套原生底座,K2.5解鎖了“視覺程式設計”能力。因為能在像素層面進行推理,它具備了從視訊流直接逆向推導程式碼的能力。面對一段包含複雜滾動觸發特效或動態互動佈局的網頁演示視訊,模型能夠準確捕捉視覺元素隨時間軸變化的規律,並將其直接對應為可執行的前端程式碼。這一過程跳過了“視覺-文字”的中間環節,讓開發需求能夠以最直觀的視覺形式傳遞給模型,實現了從設計演示到程式碼實現的無損轉化,即便是極其複雜的動態互動邏輯也能被精準還原。為瞭解決程式碼能跑但樣式不對的問題,K2.5還整合了自主視覺偵錯機制,在程式碼生成並渲染出介面後,模型會呼叫視覺感知能力對實際運行的頁面進行驗收。一旦發現佈局錯位、樣式偏差或動畫異常,模型會自動觸發文件查詢工具,查閱相關技術文件定位問題,並對程式碼進行修正。這種“生成-觀察-查閱-修復”的自動化閉環,模擬了高級工程師的偵錯流程,讓模型具備了獨立完成端到端軟體工程任務的可靠性。超大規模“智能體叢集”為了能更好地解決複雜任務,Kimi K2.5還搭載了Agent Swarm架構。這是一套能自主建構百人規模數位化團隊的平行系統,讓模型獲得了“分身”能力,可以瞬間建立並編排多達100個子智能體,並支援呼叫1500個工具的平行工作流。這種機制將全網深度搜尋或海量資料分析等複雜任務,拆解為無數個同步進行的子任務,利用叢集算力大幅壓縮了處理時間。指揮這支龐大團隊運轉的是PARL(平行智能體強化學習)框架。該框架建立了一套嚴密的指揮體系,由核心的調度器和眾多子智能體構成。調度器如同指揮官,負責宏觀層面的任務拆解與分發;子智能體則作為執行層,在參數凍結的狀態下專注於高效完成具體指令。這種動靜結合的設計,既賦予了系統靈活規劃的能力,又保障了大規模平行操作的邏輯嚴密性。為了讓模型學會高效分工,訓練過程採用了一套階段性獎勵塑造策略。系統在初期會優先激勵調度器進行平行化探索,培養其“多管齊下”的直覺;隨著訓練深入,獎勵重心平滑過渡至任務的最終成功率。這種循序漸進的訓練方式,讓模型建立了在保證結果精準的前提下,最大化利用並行優勢的思維習慣。在效率評估上,系統引入了臨界步驟作為核心指標,基於平行計算的關鍵路徑原理,聚焦於調度開銷與最慢子智能體的耗時。這種機制倒逼模型在決策時,必須優先考慮如何縮短端到端的實際等待時間。只有在能切實提升響應速度的情況下,系統才會增加平行度,從而在極致速度與計算資源消耗之間找到了最佳平衡。楊植麟劇透Kimi K3K2.5上線後不久,月之暗面的三位創始人——楊植麟、周昕宇和吳育昕現身Reddit,來了一場長達3小時的AMA問答。面對全球開發者和的提問,他們直接把程式碼背後的思考、未來的劇透甚至尷尬的Bug都攤開來聊了個透。對於大家最關心的下一代Kimi K3,團隊給出了一個相當硬核的預告——它很可能基於線性注意力機制。楊植麟更是直言,雖然不敢打包票,但K3相比K2.5那怕沒有10倍的提升,也絕對會有質的飛躍。針對K2.5偶爾會自稱Claude的趣聞,團隊也給出了坦誠的解釋——這是因為Kimi“吃”了太多高品質的程式設計訓練資料,而這些資料裡充斥著Claude的名字 。這就像讀了太多某位作家的書,說話難免帶上對方的口頭禪。此外他們也對算力焦慮問題進行了回應,演算法負責人周昕宇拋出了一句“創新往往誕生於約束之中(Innovation loves constraints)” 。在他們看來,堆砌算力不是通往AGI的唯一路徑,在有限的資源下逼出更高效的演算法、更聰明的架構,才是這家實驗室真正的“登月”野心 。 (量子位)
國產大模型Kimi K2.5全球多榜單領先,推動AI向智能體演進
當前,全球AI大模型的技術焦點正從“對話互動”轉向“自主執行”。在這一趨勢中,國產大模型正展現出獨特的價值與影響力。近日,人工智慧企業月之暗面正式發佈並開源新一代大模型Kimi K2.5。作為該公司迄今最智能、最全能的模型,K2.5在視覺理解、程式碼生成與Agent叢集協作等方面實現重要突破,被AI業界視為國產人工智慧發展的又一標誌性產品。2025年初,DeepSeek-R1憑藉極高的推理效率火遍全球。一年後,月之暗面通過原生多模態與智能體能力的深度融合,進一步體現了國產基座模型在提升智能“密度”與實用效能方面的進階。隨著以Kimi K2.5為代表的AI大模型加速賦能千行百業,其廣泛的應用潛力越發凸顯。KimiK2.5模型全球多榜單領先自2023年成立以來,月之暗面先以“長文字”功能打開市場,隨後推出基於強化學習的K系列模型。這次K2.5的發佈,意味著公司在基礎模型研發上再進一步。相比2025年7月發佈的K2模型,Kimi K2.5模型意義重大。多項測試表明,K2.5在程式設計、視覺、推理和Agent(智能體)任務等多個領域達到國際先進水平。K2.5讓AI更“親民”。通過融合視覺、推理、程式碼和Agent能力,使用者現在只需拍照、截圖或錄屏,就能讓Kimi理解複雜需求,大大降低了與AI的互動門檻。發佈不到一周,來自美國、英國、德國、西班牙、新加坡等近20個國家超50家主串流媒體對Kimi K2.5進行了報導。該模型發佈後,迅速登上多個權威評測榜單前列。在第三方評測機構Artificial Analysis的最新榜單中,Kimi K2.5綜合性能位列全球前五,僅次於GPT-5.2、Claude Opus 4.5、GPT-5.2 Codex和Gemini 3 Pro Preview這四款閉源模型,在開源模型中居首。圖為評測機構Artificial Analysis發佈的最新模型排名Kimi K2.5還進一步提升了開源模型的程式碼水平,尤其是在前端開發領域,通過融合視覺能力降低了程式設計的門檻。比如,K2.5能自動拆解錄屏背後的互動邏輯,用程式碼進行完整復現。開發者社區的反響也十分熱烈。大模型聚合平台OpenRouter平台資料顯示,K2.5的呼叫量已進入全球前三,且仍在快速增長。LMArena榜單也顯示,其程式碼能力在開源模型中居首,總榜排名前三,是前十名中唯一的中國模型。知名程式設計工具Kilo Code近期資料顯示,K2.5已成為平台上呼叫量最高的模型。在程式設計的實際應用中,因具備視覺理解能力,Kimi K2.5模型也成為多家頭部大廠的首選,展現出廣泛的行業適配性。對普通使用者來說,Kimi K2.5模型將Agent能力擴展到日常辦公領域,它已具備處理Word、Excel、PPT、PDF等常用軟體的高階技能,能幫助使用者直接交付准專業水平的辦公文件。更值得關注的是,Kimi K2.5首次引入了“Agent叢集”能力,可以自主建立多達100個的數字“分身”,按需組成不同角色的團隊,平行工作,團隊作戰,獲得效率的極大提升。例如,使用者輸入40篇論文後,K2.5會先通讀全文,再派生子Agent分別撰寫不同章節,最後由主Agent整合成一份完整的PDF報告。這種“團隊作戰”模式極大提升了效率。圖為評測平台Design Arena發佈的榜單,Kimi K2.5位列第一最新資料顯示,Kimi K2.5已登上評測平台Design Arena榜單首位。該平台主要評測AI大模型的“視覺+互動+創意”能力,此結果印證了K2.5在“設計智能體”領域的綜合領先優勢。隨著應用場景的持續拓展與技術的穩步迭代,Kimi K2.5有望在全球範圍內推動AI應用走向更廣、更深的落地,為各行各業的智能化轉型提供切實助力。國產AI大模型影響力持續提升Kimi K2.5模型的快速破圈,不僅是國產AI模型的一次“實戰測試”,更是中國開源模式憑藉技術能力和性價比優勢在全球舞台嶄露頭角的重要體現。從DeepSeek-R1以強化學習最佳化實現“效率革命”,到月之暗面Kimi K2.5實現原生多模態與智能體叢集能力的融合突破,國產大模型在技術體繫上完成了從單點突破到系統化創新的範式躍遷,影響力持續提升。大模型能力是人工智慧走向規模化應用的核心基石。Kimi K2.5的發佈,體現了人工智慧行業將加速從“聊天互動”轉向以“自主執行”為目標的智能體新階段。以“Agent叢集”為例,過去工程師需要逐行編寫程式碼的複雜流程,如今僅憑一條自然語言指令,即可調度上百個智能體協同作業、平行處理。業內分析認為,這一從“單一模型智能”向“多智能體群體協作”的躍遷,是企業級AI開發的下一個前沿。當前,智能體技術正逐漸從實驗室走向實際應用,進入規模化落地階段。在政策引導與產業鏈協同創新的雙輪驅動下,中國在場景、資料與工程化方面的優勢持續釋放,為AI產業形成全球競爭力奠定了基礎。在市場與資本的雙重助推下,頭部企業正將資源聚焦於下一代技術的攻堅。月之暗面創始人楊植麟表示,下一代模型將採用Kimi Delta Attention新型線性注意力機制,進一步提升短長文字任務性能與速度。同時,未來的大模型還將具備更多“審美”和“價值觀”,擺脫同質化發展。“我們致力於在未來十年、二十年,推動K系列模型從K4、K5到K100實現代際跨越。”楊植麟表示,當前多款中國開源模型已成為事實上的行業基準,“中國技術不僅要好用,還要參與制定規則”。 (瞭望財經)
Kimi海外收入已超國內,要做「Anthropic + Manus」
繼續衝擊模型智能上限,明確生產力工具定位。封面來源|AI生成1月,一個瘋狂的模型大更新季度剛剛過去,剛剛發佈新模型K2.5的Kimi,來到一個關鍵節點。“智能湧現”獲悉,近期Kimi在和投資人的溝通中表示,公司的海外收入已超過國內收入,新模型K2.5發佈後,全球付費使用者已有4倍增長。這一變化恰好發生在新一代模型K2.5發佈後的短短幾天內。繼上一代模型K2發佈會後,K2.5繼續引發了海外熱潮。在Openrouter上,K2.5的排名已經來到第三位,僅次於Claude Sonnet 4.5和Gemini 3 Flash。事實上,前一代模型K2發佈後,Kimi從10月開始商業化,處理程序已經算很快。2025年末的內部信中,楊植麟提到,2025年11月以來,Kimi的海外API收入增長4倍。海外和國內付費使用者數月度環比增速超過170%。1月27日,Kimi發佈並開源K2.5模型,這是Kimi迄今最智能的模型,採用原生多模態架構,能力覆蓋視覺理解、程式碼生成、Agent叢集、思考與非思考模式。在HLE(人類最後考試)、BrowseComp、SWE-Bench Verified等基準測試中,K2.5都能達到開源SOTA,部分指標超越GPT-5.2、Claude Opus 4.5等閉源模型。如果說DeepSeek用R1證明了中國大模型在推理能力上的突破,那麼Kimi則在這個基礎上,去往一條特別的路——讓AI學會“團隊作戰”。從K1.5到K2.5,Kimi這一年的模型迭代路徑非常清晰:如何讓AI更像一個真正的智能體,而不僅僅是一個聊天機器人。如果說,K1.5時代,Kimi還是專注在讓模型能夠理解和生成更長的文字;K2是“Scale steps”——通過Agent任務能力的提升,讓模型能夠執行更複雜的操作。最新的K2.5,則是探索用Agent叢集的方式,讓AI學會“團隊作戰”。在實際應用中,K2.5可以調度多達100個Agent,平行處理1500個步驟,這極大拓展了Agent的實用性。在大規模資訊收集場景下,Agent叢集將效率提升了3到10倍。比如,一個Agent叢集的典型場景是檢索近三個月內所有關於叢集式agent的文獻,整理成Excel並提煉核心發現;從一段錄屏中識別UI互動邏輯,直接生成完整的前端程式碼;對Word文件進行批註修訂、Excel資料建模、PPT自動生成、PDF翻譯編輯等辦公自動化任務等等。為什麼會採用AI團隊作戰的方式?在1月29日的Reddit AMA(Ask MA Anything)中,楊植麟表示:“高品質資料的增長速度趕不上算力的增長,傳統的‘用網際網路資料預測下一個 token’的擴展方式帶來的改進越來越少。但我們可以通過其他方式擴展,比如 Agent Swarm——平行執行子任務的代理數量擴展。這可以被視為測試時擴展的一種形式,同時也提供了訓練時擴展的方式。”在K2.5發佈後,Kimi的路線已經越來越像Anthropic+Manus。在模型上,Kimi選擇對標Anthropic,專注基礎模型智能上限,通過開源建立技術影響力——從K2開始,Kimi的模型權重和工具鏈全部開源,開發者可以選擇本地或雲端部署。從成立至今,Kimi團隊僅有300人左右,這個團隊規模是不少大廠的十分之一。“用1%的算力資源,研發出全球領先模型”是Kimi的現狀。走Anthropic路線,演算法、效率創新是核心,這意味著技術路線的選擇會變得無比重要。創業公司的資源有限,也倒逼Kimi只能做那些最重要、最前沿的探索。比如此前全球首個在大規模LLM訓練中跑通Muon最佳化器、自研線性注意力機制Linear等等,都屬於這樣的創新。在產品上,Kimi已經形成了清晰的佈局:一方面,API端面向開發者,通過 Kimi API開放平台吸引全球開發者。而在C端使用者上,則明確了做生產力工具的定位。Kimi在有意將產品做得更通用,並且品牌也更集中。一個細節是,此前Kimi已經內測了面向C端使用者的Agent產品OK Computer,而在這一次的更新中,它被改名為Kimi Agent。在不少產品用例上,不難發現,Kimi正在試圖將產品做得更有品味,根據不同的主題做更好的風格化。比較突出的是複雜場景中的可編輯性,這更加依賴模型能力。比如在生成PPT、用Excel生成動畫後,使用者在Kimi中還可以自動拆分元素編輯,這進一步提升了可用性。在12月初,Kimi總裁張予彤曾表示:“要找到自己的敘事,找到自己真正擅長的事情。與資源更多的大公司競爭時,我們會刻意控制業務邊界,專注大模型層、邏輯層、Agent層,以及深入研究、PPT、資料分析、網站開發這類偏生產力、偏複雜任務的鏈路。”如今各家模型廠商都有自己押注的重點Agnet場景,Coding、Office都屬於此類。這些場景的特點是,都是剛需場景,一旦做好,商業化前景也比較明確,而且非常依賴模型能力的提升。對Kimi來說,要做“一方Agent”,挑戰依然不小,這意味要在基礎模型依然保持在第一梯隊的同時,還要將C端產品做得有品位,擁有獨特的使用者心智。 (36氪)
月之暗面三位聯創深夜回應一切!3小時答全球網友23問,楊植麟劇透Kimi K3提升巨大
月之暗面的價值觀是“把事情真正做成並落地”。智東西1月29日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動。三位聯合創始人楊植麟(CEO)、周昕宇(演算法團隊負責人)和吳育昕與全球網友從0點聊到3點,把許多關鍵問題都給聊透了,比如Kimi K2.5是否蒸餾自Claude、Kimi K3將帶來的提升與改變,以及如何在快速迭代與長期基礎研究之間取得平衡。▲AMA欄目截圖(圖源:Reddit)一開始,便有網友拋出尖銳問題:Kimi K2.5有時會自稱為Claude,有人懷疑這是對Claude進行蒸餾的證據。楊植麟回應道,這一現象主要是由在預訓練階段對最新程式設計資料進行了上採樣,而這些資料似乎與“Claude”這個token的關聯性較強,事實上,K2.5在許多基準測試中似乎都優於Claude。談及Kimi K3,楊植麟沒透露太多細節,但提到了K3會在Kimi Linear上加入更多架構最佳化,他相信,就算Kimi K3沒比K2.5強10倍,也肯定會強很多。整場問答中,月之暗面的三位聯合創始人共回答了40多個問題。智東西也向他們提出了3個問題,並獲得了直接回應。當智東西問及月之暗面的算力儲備時,楊植麟稱,GPU數量的差距並未縮小,但實現AGI究竟需要多少算力,仍需拭目以待,而周昕宇補充了一句頗具哲理的話:創新往往誕生於約束之中。▲楊植麟、周昕宇回應智東西關於算力儲備的問題(圖源:Reddit)周昕宇還提到,月之暗面有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。此次AMA正值Kimi K2.5的發佈。這是月之暗面目前最強大的模型,在視覺、程式設計、Agent以及各種通用任務上都有不錯的表現,還通過一項名為智能體蜂群的技術實現一個模型對多達100個“子智能體”的調度,任務執行效率最高提升450%。發佈後2天左右,Kimi K2.5獲得權威AI評測榜單Artificial Analysis開源模型第一的成績,僅次於來自OpenAI、Anthropic和Google的4款模型。我們將AMA中的精華內容梳理歸納為23個關鍵問題,分為三章呈現,第一章聚焦月之暗面公司本身及AI行業相關話題,第二章介紹Kimi K2.5的技術細節,第三章展望月之暗面的未來規劃。完整問答連結:https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/01. GPU數量差距並未縮小 但創新往往誕生於約束之中(1)智東西提問:在上次的AMA中,您提到月之暗面的GPU數量(相較其他企業)處於劣勢。在2026年,這種差距會縮小嗎?楊植麟:我認為差距並沒有縮小。但是,要實現通用人工智慧(AGI)究竟需要多少算力?我們拭目以待。周昕宇:可用算力受到太多因素的影響。但無論如何,創新往往誕生於約束之中(innovation loves constraints)。(2)網友提問:您對DeepSeek的Engram架構有何期待?您是否正在考慮採用這種架構?周昕宇:對嵌入進行Scaling是一個值得探索的有趣方向。但在我們通過Scaling階梯對其進行測試之前,我們還沒有太多可靠的資料。(3)智東西提問:這是一個關於你們研究文化的問題。大規模模型訓練會消耗大量的GPU時間,如何界定沉沒成本?比如說,某個方向經過三個月的實驗後沒有明顯的性能提升,你們的團隊會根據那些指標來決定是繼續、調整方向還是徹底放棄?鑑於行業內快速迭代的步伐,你們是否擔心追求短期成功的壓力,會影響那些需要多年才能見效的基礎研究?您如何使您的團隊免受這種壓力的影響?周昕宇:非常好的問題。針對第一個問題,我們會將所有相關實驗的結果分享給所有技術人員,並進行深入討論,直到最終決定是繼續、轉型還是徹底放棄。討論每天都會進行,我們鼓勵每個人對所有事情提出質疑,從目標設定到最細微的技術細節。針對第二個問題,長期以來,我們在押注技術基本面的走勢上有著相當不錯的記錄。MoBA幾乎從公司成立之初就開始了;Kimi Linear也經歷了將近一年的探索與掙扎。關鍵在於團隊要有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。我們的組織、文化和管理都是為了支撐這一價值觀而建立的。(4)網友提問:你們最喜歡工作中的那一部分?楊植麟:我們喜歡訓練模型,因為這讓人感覺在不斷接近真相:關於什麼是有效的、什麼是無效的真相,關於智能是如何被創造出來的真相。(5)網友提問:請問訓練視覺語言模型(VLM)的主要挑戰是什麼?為什麼Kimi如此致力於訓練視覺模型?楊植麟:主要挑戰在於如何同時提升文字和視覺性能。我們發現,當方法得當時,文字和視覺可以相互促進。例如,我們觀察到,在視覺任務上進行強化學習訓練可以提升文字知識基準測試的成績。另一方面,像K2這樣強大的文字庫對於提升視覺性能也至關重要。(6)網友提問:Kimi Code和Claude Code有什麼區別?為什麼Kimi要開發自己的程式設計工具?楊植麟:我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時,框架會不斷變化,相容性有時會成為問題。此外,Kimi Code還擁有一些獨有的功能,例如視訊輸入。我們認為video2code(視訊生程式碼)非常重要,代表著前端開發的未來。(7)網友提問:強化學習基礎設施已成為關注的焦點。考慮到訓練像智能體蜂群這樣的系統的複雜性,在像verl這樣的開源框架上實現起來會相當具有挑戰性。你們在強化學習基礎設施方面所做的具體改進是什麼?吳育昕:強化學習基礎設施的確是一項巨大的挑戰,我們力求在保持良好靈活性的同時實現高效率。在效率方面,我們嘗試在開發訓練和推理系統時充分考慮強化學習的實際應用場景,以便復用所有繁重的計算工作,從而實現規模化擴展。智能體蜂群的部署邏輯尤其複雜,但我們的系統具有極高的靈活性,允許我們將不同的框架和子智能體設定整合到訓練過程中。(8)網友提問:我想問一下與你們的Scaling階梯有關的問題。你們開始實驗的最小規模(主動/被動)是多少?通常步長是多少?另外,你們是否會根據所做的更改類型(資料、最佳化器、線性注意力機制等)採用不同的Scaling階梯?周昕宇:我們從非常小的規模開始。我個人有時會從小到可以在單個CPU上訓練的模型開始。核心目標是預測系統的可擴展性。有些架構無法擴展,有些最佳化器無法擴展,甚至有些資料也無法擴展。在低FLOPs下評估可擴展性是一個有趣的研究課題,它需要對訓練過程中的數學動態有深刻的理解,同時也需要兼顧嚴謹性和創造性。舉個例子:我們曾經急於將Kimi Linear移植到Kimi K2中,但它在達到一定規模後Scaling失敗了。我們不得不暫停開發,經過漫長的偵錯過程,最終歷經數月才使其達到如今Kimi Linear的水平。從統計學角度來看,大多數小規模行之有效的方案都無法突破規模化瓶頸。而那些能夠成功推廣的方案通常都簡單有效,並且有數學依據。研究的重點在於如何應對失敗,而不是慶祝成功。02. 模型自稱Claude並非因為蒸餾 智能的上限取決於新學習演算法(9)智東西提問:Kimi K2.5使用了平行智能體強化學習技術。你們會不會將主要算力預算從預訓練轉向強化學習?在K3路線圖中,強化學習的算力規模是否會超越預訓練?楊植麟:強化學習的計算量將持續增長。更重要的是,增加強化學習計算量的方法有很多,而且有些方法比其他方法更有效。未來可能會出現更多新的目標函數來對模型進行強化訓練,尤其是在智能體領域。(10)網友提問:Kimi K2.5已經證明,通過強化學習擴展思考token是實現前沿推理的可行途徑。考慮到訓練CoT(思維鏈)策略的巨大工程開銷和生成思考token的推理延遲,你們是否正在探索架構遞迴作為一種在不將計算外部化到KV快取的情況下實現P/poly複雜度的方法?楊植麟:在當前的架構下,我們所關心的許多問題在計算意義上其實都是可解的。在很多情況下,模型能力的瓶頸並不在於其路線複雜度(circuit complexity),而在於任務本身是否是可驗證的。這意味著兩點:一方面,我們當然可以通過設計更高效的架構來降低特定任務所需的路線複雜度,從而提升token使用效率;不過,智能的上限更多地取決於能否發明新的學習演算法。這些演算法應當能夠超越預先定義的、可驗證的任務,而不僅僅是依賴更高效的模型架構。(11)網友提問:Kimi K2.5非常棒,但我看到有人說模型會自稱為Claude,並把這當作你們大量蒸餾(distill)自Claude模型的證據。這是怎麼回事?楊植麟:我們的觀察是,在正確的系統提示詞下,它有很高的機率回答“Kimi”,尤其是在思考模式下。但當系統提示為空時,它就進入了一個未定義區域,這更多地反映了預訓練資料的分佈情況。其中一項改進是,我們在預訓練階段對來自網際網路的最新程式設計資料進行了上採樣,而這些資料似乎與詞元“Claude”的關聯性更強。事實上,K2.5在許多基準測試中似乎都優於Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。(12)網友提問:我想知道你們是如何降低K2的幻覺問題的?幻覺問題似乎是K2模型的主要弱點,也是我之前沒有使用Kimi的原因。但目前來看,2.5版本更加可靠。吳育昕:對於所有大模型來說,管理幻覺仍然是一個巨大的挑戰。我們已經通過提高資料質量(更多經過驗證的知識,更少低品質的說法)和獎勵機制(例如,當模型出現幻覺時進行懲罰)來改善這種情況,但我們認為仍然有很多方法可以進一步改進。(13)網友提問:Kimi K2.5使用了較高的參數比例(約470:1)。您認為我們目前是否因為使用15兆個token進行過度訓練而“浪費”了計算資源?吳育昕:我不確定1:1最優性是否仍然成立,但從這個意義上講,我們確實會“浪費”一些訓練計算資源。否則模型會更大,並且與我們現在的模型相比,會“浪費”大量的推理計算資源。周昕宇:如果你追求計算最優(compute-optimal)的訓練方式,那麼大多數有用的模型實際上都是被過度訓練的;更大的模型只是“過度訓練得沒那麼嚴重”。而計算最優訓練通常要求模型規模足夠大,這會對現有基礎設施帶來巨大的挑戰,同時也會顯著提高推理成本。我並不認為過度訓練是一種“浪費”,而更像是我們為了獲得更優整體權衡而主動支付的一種“成本”。(14)網友提問:Kimi K2.5的“智能體蜂群”功能最多可協調100個子智能體。在這種規模下,“協調器”模型往往會成為瓶頸。Kimi K2.5如何處理管理100個平行推理流所帶來的延遲和上下文資訊丟失問題?吳育昕:“智能體蜂群”的一個很酷的點在於,各個子智囊團可以在不“腐蝕”或污染主調度器上下文的情況下獨立執行子任務。它們本質上擁有各自的工作記憶,只在必要時將結果返回給調度器。這使我們能夠在一個全新的維度上擴展整體的上下文長度。(15)網友提問:在Kimi K2.5中,你們如何權衡強化程式設計能力與保持甚至提升非程式設計能力(如創意寫作和情緒理解)之間的關係?在K2發佈時你們在官方介紹中強調了創意寫作和情商。團隊是如何在訓練和最佳化過程中,確保這些對使用者體驗至關重要但更“軟性”的能力不發生退化的?楊植麟:在模型參數規模足夠的情況下,我認為程式設計能力和創意寫作之間不存在根本性的衝突。但確實,隨著我們不斷改進獎勵模型,要在不同模型版本之間保持一致的“寫作品味”本身就是一項挑戰。我們的一項做法是依賴內部基準評測(幾乎可以看作一種“元評測”)來反映模型在創意寫作方面的進展,並據此對獎勵模型進行相應調整。(16)網友提問:K2.5的個性和寫作風格明顯變得更加通用,更像其他模型的“貼心助手”風格了。我們非常喜歡K2的個性!K2.5到底發生了什麼?你們是否已經注意到這個問題並正在調查?吳育昕:遺憾的是,每次新版本發佈後,我們都會看到模型“個性”發生一定程度的變化。這是一個相當棘手的問題,因為個性是模型主觀且難以評估的特徵。我們正在努力解決這個問題,並且希望能夠讓產品更好地滿足每位使用者的個性化需求。03. K3將在Kimi Linear基礎上最佳化 即便沒比K2.5強10倍也會強得多(17)網友提問:Kimi K3的重點會是什麼?原始性能?長期目標?還是上下文長度?楊植麟:我們正在嘗試新的架構和新功能。(18)網友提問:Kimi K3是否一定會採用線性架構或其他新架構?如果真是如此,您將如何確保K2.5 Thinking的性能得以保留,甚至進一步提升?尤其是在多模態性能方面。我擔心架構改變後可能會出現不穩定的情況。楊植麟:線性架構是一個非常不錯的選擇。我們做了很多研究,包括Kimi Linear。希望我們能在此基礎上加入更多架構最佳化。我相信Kimi K3就算沒有比K2.5強10倍,也肯定會強得多(I'm sure it will be much, if not 10x, better than K2.5)。(19)網友提問:你們未來對線上/持續學習方面有什麼計畫,特別是針對Agentic模型?Kimi Linear與K2.5有什麼關係?線性注意力仍然是主要研究方向之一,還是會發展成為一個獨立的研究分支?周昕宇:我們相信,持續學習能夠提升模型的自主性,並使它們能夠更長時間地高效工作。我們正在積極探索這一方向。Kimi Linear是與K2.5平行開展的一項專門研究項目。我們正大力投資於線性注意力機制,將其作為未來模型的一個關鍵方向。(20)網友提問:你們是如何考慮模型的角色塑造的?如果有的話,你們對“Kimi”這個角色有什麼目標?楊植麟:我認為模型的核心在於“品味”,因為智能本身是非同質化的(non-fungible)。我個人很喜歡K2.5打造的前端設計,它有著獨特的審美取向。模型的性格也是“品味”的一種體現。有報導稱,K2.5相比其他模型更少迎合使用者。這或許是一種好的性格特徵,因為持續不斷地強化使用者原有的觀點,在某些情況下可能是危險的。(21)網友提問:請問你們有計畫開源“智能體蜂群”或者將其作為一項功能加入到Kimi-cli中嗎?楊植麟:目前它還處於測試階段。待其更加穩定後,我們將向開發者提供框架。希望很快就能實現。(22)網友提問:為什麼不把視覺編碼器做得大於400M呢?吳育昕:小型編碼器在很多方面都有利於Scaling,所以我們甚至會問自己:為什麼不把它設為0呢?(23)網友提問:你們有計畫推出帶有原生音訊輸入功能的模型嗎?楊植麟:目前我們沒有足夠的資源來處理音訊輸入,所以可能會把重點放在訓練更好的智能體上。 (智東西)
看不懂的月之暗面
圖源:視覺中國“這家公司是我目前最看不懂的。”一位國產大模型上市公司的投資部人士這樣評價月之暗面。在他看來,月之暗面的模型能力本身沒問題。讓人困惑的是,這家公司在行業節奏上的走向。1月21日,在達沃斯世界經濟論壇年會上,月之暗面Kimi總裁張予彤表態:“Kimi很快就會發佈一個新模型。”六天後的1月27日,月之暗面發佈並開源了Kimi K2.5模型。這是Kimi迄今能力最為集中的一次更新:視覺理解、程式碼、多模態輸入、思考與非思考模式、Agent及Agent叢集能力,被統一封裝進同一個All-in-one模型之中。發佈視訊中,楊植麟親自站台介紹著K2.5。模型如期亮相,讓月之暗面在技術層面給了外界一個明確回應。但在資本與公司化層面,它卻走在另一條軌道上。過去一段時間,“AI六小虎”開始分化:智譜、MiniMax先後推進上市。幾乎在同一時間,楊植麟稱,公司有100億元現金,並不著急上市。正是在這種對照下,投資人對月之暗面的“看不懂”,變得更具體。進入行業中場,這是在主動放慢節奏,把籌碼繼續押在技術路徑上,還是不得不承認,已經不在第一梯隊?Kimi K2.5,怎麼樣?一位體驗過Kimi K2.5的AI創業者表示,該模型給他的直觀感受是全面聚焦於“生產力”:核心轉向程式設計、辦公與複雜任務協作,而非擴展零散功能。“它不是靠跑分證明自己,而是靠實際產品能力。”他強調,這種在具體任務中的體感差異,比分數更有說服力。K2.5的取向是一次有跡可循的戰略聚焦,標誌著月之暗面在大模型能力譜系中的位置遷移:其技術標籤已從2024年的“長文字”,轉向2025年的複雜推理、思考過程與Agent任務協同。一位接近公司的人士指出,此輪迭代的價值不在榜單排名,而在工程取向——模型圍繞Agent任務反向設計,核心目標是穩定地拆解任務、呼叫工具並保持長鏈路推理的一致性。這一取向,與月之暗面近年來強調的效率優先路線相呼應。公司方面在多個場合提到,自身並不具備無限堆砌算力的條件,因此更強調演算法與系統層面的效率提升,而非單純擴大訓練規模。在K2系列訓練中,月之暗面使用改進版Muon最佳化器,實現約2倍Token效率提升,並通過QK-Clip等機制增強大規模訓練穩定性;在推理側,則提出Kimi Linear線性注意力機制,在保證效果的同時提升長上下文處理速度。張予彤在達沃斯論壇上將這一策略概括為:僅使用美國頂尖實驗室約1%的資源,完成K2與K2 Thinking的訓練。這也意味著,月之暗面對模型能力的驗證路徑,正轉向工程系統導向。這種變化,同樣體現在產品層。自2025年5月起,Kimi密集推出了Researcher、PPT、Kimi Code等Agent功能;9月進一步上線OK Computer,可呼叫虛擬電腦中的工具完成開發、資料分析、多模態內容生成或製作PPT。Agent被放置在模型能力與商業化之間,逐漸成為關鍵中間層。與此同時,月之暗面有意識地將部分能力驗證場景放在海外。公開資料顯示,K2系列模型發佈後,在OpenRouter等模型呼叫平台上佔據一定份額。市場普遍認為,月之暗面不再追求“大而全”的炫技,而是將籌碼押注在“用工程化能力解決實際問題”這一差異化的方向上。這一策略能否成功,關鍵取決於其Agent叢集等核心功能在真實、複雜業務場景中的穩定性和可靠性能否經得起大規模驗證。同時,在面對DeepSeek等同樣強勁的競爭對手時,如何平衡頂尖性能、使用成本與商業化速度,將是月之暗面接下來的核心挑戰。雙重擠壓:資源戰與評價體系之變更早階段,月之暗面曾是國內較早將重心放在C端通用助手上的大模型公司之一。成立初期,憑藉楊植麟的學術背景,公司在行業內獲得較高期待,被部分從業者視作“中國版OpenAI”,月之暗面很早便選擇以產品形態承接模型能力。2023年8月,在首個模型訓練進入後期階段時,月之暗面啟動AI助理Kimi項目。當時公司規模約50人,Kimi在內部更像是模型能力的展示窗口。產品上線後,Kimi月活使用者一度保持較高增長,並通過投放完成冷啟動,在通用對話類產品中進入頭部梯隊。QuestMobile資料顯示,截至2024年底,Kimi月活使用者超過2000萬,僅次於豆包。多位從業者將那段時間視為月之暗面在C端最為風光的階段。但這種增長,很快就遭遇到了成長的煩惱。進入2025年後,隨著字節豆包、騰訊元寶、阿里系產品線同步推進,這一賽道逐漸演變為高度依賴資源投入的競爭。對擁有平台入口和分發體系的大廠而言,投放成本可以被內部消化;而對獨立創業公司來說,持續投流更像一項難以長期承擔的支出。一位接近月之暗面的人士直言:“創業公司很難跟大廠正面拼投流,比到最後,往往是錢燒得更快,使用者卻留不住。”與此同時,行業對“好模型”的判斷標準也在發生變化。2025年初,DeepSeek等模型的崛起重塑了行業的選擇標準:其幾乎零大規模推廣、純靠技術口碑驅動增長的現象,在業內引發了強烈震動。一位月之暗面員工曾回憶,那段時間公司內部感受到的壓力是雙重的,投流層面打不過大廠,技術聲量又被DeepSeek搶走。但這種衝擊,也促成一次內部認知轉向。公司層面逐漸意識到,對技術型創業公司而言,C端通用助手的使用者規模,並不天然構成技術壁壘。相比講使用者故事,更重要的是在模型能力上形成真實差距。上述投資人將這種變化概括為:“過去是先佔使用者,再補模型;現在是模型能力決定你還能不能留住使用者。”在這一判斷下,楊植麟更傾向於將規模視為階段性結果,而非優先目標。在模型能力尚未形成穩定差距前,過早放大使用者規模,反而可能放大資源消耗與路徑誤判的風險。2025年,月之暗面開始對C端業務做出明顯收斂。產品層面,公司逐步停止大規模投流,收縮泛娛樂方向,先後暫停或放緩Ohai、Noisee等多條C端產品線;技術層面,資源重新集中到基座模型訓練與推理能力;市場層面,重心從國內使用者規模競賽中抽離,轉向海外開發者生態與專業使用者場景;戰略層面,公司從閉源轉向開源,並將產品與商業化的主要增量方向放到海外。整體來看,這是一次主動退出C端正面戰場、更換賽場的選擇。但收縮的代價同樣存在。上述投資人表示,從其瞭解的情況看,公司目前“基本只剩下大模型和Kimi這一條主線”,不少其他產品線已經被放棄,“甚至有多個產品線負責人後來離職創業”。分水嶺時刻:當上市成為同行的標準答案戰略上的主動收縮與聚焦,也讓月之暗面在資本路徑的選擇上,展現出與同業公司截然不同的節奏。成立初期,月之暗面展現出極強的融資能力。公司成立僅三個月後即完成超2億美元天使輪融資,投後估值約3億美元;同年7月完成Pre-A輪融資。2024年進入融資高峰期:2月完成超10億美元A+輪融資,估值升至25億美元;8月完成超3億美元B輪融資,估值提升至33億美元。2025年底,月之暗面完成5億美元C輪融資並實現超募,投後估值約43億美元。表:月之暗面融資時間線然而,與強勁的融資表現形成鮮明對比的是,月之暗面在上市處理程序上的“按兵不動”。在多家同梯隊公司相繼啟動上市處理程序的背景下,月之暗面並未同步推進 IPO。對於一家已具備上市條件、且身處高關注賽道的公司而言,這一選擇並不常見。上述投資人提到,隨著智譜、MiniMax 進入二級市場,大模型公司的評估標準正在發生變化:相比一級市場更強調願景與潛力,二級市場更關注成本結構、毛利率水平與商業化兌現節奏。近期多家公司推動上市,本質上仍是現金流壓力下的融資選擇,而非成功與否的標誌。例如,繼 H 股上市後,智譜仍在推進 A 股上市處理程序。中國證監會官網顯示,其輔導機構中金公司已於 2026 年 1 月 15 日遞交輔導報告。這意味著,“大模型第一股”並未止步於單一資本市場。不同公司間的現金狀況,正在成為決定其戰略節奏的關鍵變數。進入2025年底,行業格局進一步分化:12月中旬,同為“AI六小虎”的智譜和MiniMax相繼通過港交所聆訊並開始招股。就在幾天後的12月31日,久未公開露面的楊植麟內部信曝光,披露公司仍持有約100億元現金,並直言“不急於上市”。此後不久,2026年1月13日百川智能創始人王小川也在媒體溝通會上透露,公司帳上存有30多億元現金。三天後的1月26日,階躍星辰完成超50億元新一輪融資,印奇出任董事長。然而,充足的現金並未消除壓力。在看似從容的“不上市”宣背後,楊植麟、王小川和印奇實則面臨著一個共同的難題:僅憑手中的資金,在技術爆炸的窗口期內建立起真正的護城河。實際上,除了對外部技術競賽的焦慮,對月之暗面來說,公司歷史“舊帳”也構成了另一種維度的壓力。有觀點認為,月之暗面早期分拆相關的股權與仲裁問題尚未完全塵埃落定,在這一狀態下貿然啟動 IPO,本身就存在合規與資訊披露層面的複雜性;相比之下,留在一級市場繼續推進技術與產品演進,操作成本更低。上述投資人補充道,他對月之暗面的判斷依然複雜。公司能夠持續推出模型、持續完成大額融資,說明其在技術能力與資本市場層面具備較強說服力;但月之暗面仍未向外界清晰回答產品形態如何確立、商業化如何展開、穩定使用者從何而來等更基礎的問題。在他看來,月之暗面更像是一家技術能力已被驗證,但公司形態仍在形成中的企業。這種技術先行、商業輪廓尚未完全浮現的狀態,也在一定程度上對應了當前國產大模型行業所處的整體階段。 (深網騰訊新聞)
Kimi估值一個月跳漲5億美元,投資者追捧中國AI准上市標的
中國人工智慧初創公司月之暗面在新一輪融資中估值達到48億美元,較其一個月前的估值水平躍升了5億美元。報導援引知情人士表示,看到對標公司智譜AI與MiniMax在港股的亮眼表現,投資者迅速重估了Kimi的價值。中國AI六小龍之一的月之暗面正在進行新一輪融資。1月19日,據CNBC援引知情人士透露,中國人工智慧初創公司月之暗面(Moonshot AI)在新一輪融資中估值達到48億美元,較其一個月前的估值水平躍升了5億美元。推動估值跳升的直接催化劑,來自其同行的公開市場表現。今年早些時候,中國AI公司智譜AI與MiniMax在香港上市後股價強勁上漲。(MiniMax累漲近10%,智譜則飆漲70%)分析認為,隨著中國本土AI公司上市路徑被驗證,國際與本土風險資本正競相在下一批企業IPO前鎖定投資席位,推高了頭部標的的估值水位。01一級市場聞風而動月之暗面估值的快速調整,源於投資者追捧中國AI准上市標的。報導援引知情人士表示,看到對標公司在港股的亮眼表現,投資者迅速重估了Kimi的價值。由於認購需求強烈,本輪融資預計將很快關閉。他們補充稱,鑑於市場對潛在中國AI上市公司的興趣激增,該公司在後續輪次中的估值可能進一步攀升。儘管競爭對手已先行一步叩響資本市場大門,但創始人楊植麟卻展現出了極強的戰略定力。在最近的AI行業峰會及內部交流中,他明確表示:月之暗面目前並不急於推進IPO處理程序。楊植麟此前透露,公司目前持有超過100億人民幣的充足現金儲備,這讓月之暗面有資本在長跑中保持自己的節奏。他認為,大模型競賽遠未進入下半場,目前的重點應放在下一代推理模型(K3系列)的研發與底層算力叢集的擴容上,目標是實現智能上限的階躍。據此前報導,月之暗面在去年12月的融資中,吸引了IDG資本、阿里巴巴集團及騰訊控股等知名機構參與。 (硬AI)
Kimi完成5億美元融資,海外收入大漲
12月31日,踩著2025年的尾巴,中國大模型初創公司月之暗面(Kimi)傳來最新融資消息:完成5億美元C輪融資(約合35億人民幣),阿里、騰訊、王慧文等投資方均超額認購,投後估值約43億美元。同在今日,Kimi創始人、CEO楊植麟發佈內部信,披露公司發展狀況:技術層面,2025年是Kimi充滿突破的一年,K2和K2 Thinking的發佈標誌著公司在AGl道路上走出重要一步;商業層面,Kimi C端9-11月,海外和國內付費使用者數平均MoM(平均月度環比增長)增長超過170%。同時,K2 Thinking的發佈也顯著帶動了API收入的增加,9-11月海外API收入增長4倍。楊植麟表示,2026年Kimi會成為一個“與眾不同”和“不被定義”的LLM(大語言模型)。不管是別人沒敢押注的技術無人區,還是需要一點偏執的審美堅持,相信有更多Kimi-defined的創新能對人類文明加速發展產生獨特貢獻。這種獨特性是Kimi存在的最大意義。目標是超越前沿公司Kimi早期以“長文字處理” 為核心突破口,是首個支援20萬字輸入的AI助手產品。2025年以來,Kimi K2系列開源模型的推出是公司的重要節點。2025年7月,Kimi K2 模型發佈後,被英國自然雜誌稱為“另一個DeepSeek時刻”。2025年11月,Kimi發佈開源長思考模型 Kimi K2 Thinking,核心創新交錯推理與工具呼叫,支援 200-300 步連續工具呼叫,在 Humanitys Last Exam(HLE,人類最後考試)達 44.9%,超過頂尖閉源模型GPT-5和Claude Sonnet4.楊植麟表示,K2和K2 Thinking的發佈標誌著Kimi在AGl道路上走出重要一步——中國首個兆參數基座模型,第一個開放原始碼的Agentic Model,在最核心benchmark例如HLE上超越OpenAl取得sota,獨具特色的創意寫作風格得到全球使用者喜愛,第一次成功使用二階最佳化器做大規模訓練,K2系列模型讓Kimi從中國走向了世界,在矽谷以及更廣泛的全球技術圈產生了重大影響力,登上twitter全球熱搜,得到Nvidia創始人、All-In Podcast主播、Anthropic聯合創始人、Perplexity創始人、a16z創始人、Vercel創始人、諾獎得主等知名技術領袖的高度評價。sota指人工智慧與機器學習領域中,在特定任務或基準測試裡當前最先進、性能最高的技術、方法或模型,核心是超越現有標準、建立新的性能標竿。矽谷頂尖創業加速器 Founders Space 創始人史蒂文・霍夫曼(Steven S. Hoffman)也對記者表示,Kimi新的Agentic模型非常強大。K2之後,K3已經在路上。楊植麟表示,接下來公司最重要的目標是超越Anthropic等前沿公司成為世界領先的AGI公司。2026年,K3模型將通過技術改進和進一步Scaling,提升等效FLOPs至少一個數量級,在預訓練水平上追平世界前沿模型;垂直整合模型訓練和agent產品taste,讓K3成為更“與眾不同”的模型,讓使用者體驗到全新的,其他模型沒有定義過的能力。同時在產品和商業化上聚焦agent,不以絕對使用者數量為目標,持續追求智能上限,創造更大的生產力價值,營收規模實現數量級增長。商業化實現倍速增長性能提高的同時,行業持續關注Kimi在商業化領域的動態。此次,楊植麟披露稱,技術的突破也為產品的爆發和商業上的飛速進展奠定基礎。Kimi產品從5月開始高頻推出新的agent功能,發佈了 Researcher、OK Computer、PPT、KimiCode等新品,功能日漸強大。借助K2模型的sota表現,C端商業化指數增長9-11月,海外和國內付費使用者數平均MoM增長超過170%,9-11月海外API收入增長4倍。據記者瞭解,Kimi商業模式主要由C端訂閱付費與B端API呼叫兩部分組成,而Kimi API 的工具呼叫能力在金融研報等需要數百步才能完成的複雜任務上具備優勢,已經成為多家國內金融研報AI工具的默認內建模型。得益於技術上的突破,Kimi近期完成了5億美元C輪融資且大幅超募,當前現金持有量超過100億元。相比於二級市場,楊植麟判斷公司還可以從一級市場募集更大量資金。他稱,公司B/C輪融資金額已超過絕大部分IPO募資及上市公司的定向增發。所以Kimi短期不著急上市,未來計畫將上市作為手段來加速AGI,擇時而動,主動權掌握在自己手中。本輪融資完成後,楊植麟表示,融資資金將用於更加激進地擴增顯示卡,加速K3模型的訓練和研發。部分資金也將用於2026年的激勵計畫和期權回購計畫。2025年,基於sota結果產出,調薪、期權獎勵、現金獎勵等各種激勵措施累計324人次。2026年春節之前會確定K2 Thinking及後續模型和產品發佈的獎勵方案並行放。2026年公司的平均激勵預計是2025年的200%,同時計畫大幅上調期權回購額度。“這是一個喧囂的時代,”楊植麟稱,但對他來講,Kimi的起點很簡單——單純的好奇,好奇AGI的上限在那,好奇心中的理想模型是什麼樣,好奇想要的模型能力怎麼做出來。這份好奇帶來的快樂是很真實。當團隊熬夜做的agent功能終於上線,當每天醒來打開tensorboard(TensorFlow 官方配套的可視化工具)看到驚為天人的訓練曲線。“我們共享了這些寶貴的接近真相的過程,也相信這種簡單的快樂能讓我們在喧囂中穿越周期。”楊植麟表示。 (第一財經)