#月之暗面
國產大模型Kimi K2.5全球多榜單領先,推動AI向智能體演進
當前,全球AI大模型的技術焦點正從“對話互動”轉向“自主執行”。在這一趨勢中,國產大模型正展現出獨特的價值與影響力。近日,人工智慧企業月之暗面正式發佈並開源新一代大模型Kimi K2.5。作為該公司迄今最智能、最全能的模型,K2.5在視覺理解、程式碼生成與Agent叢集協作等方面實現重要突破,被AI業界視為國產人工智慧發展的又一標誌性產品。2025年初,DeepSeek-R1憑藉極高的推理效率火遍全球。一年後,月之暗面通過原生多模態與智能體能力的深度融合,進一步體現了國產基座模型在提升智能“密度”與實用效能方面的進階。隨著以Kimi K2.5為代表的AI大模型加速賦能千行百業,其廣泛的應用潛力越發凸顯。KimiK2.5模型全球多榜單領先自2023年成立以來,月之暗面先以“長文字”功能打開市場,隨後推出基於強化學習的K系列模型。這次K2.5的發佈,意味著公司在基礎模型研發上再進一步。相比2025年7月發佈的K2模型,Kimi K2.5模型意義重大。多項測試表明,K2.5在程式設計、視覺、推理和Agent(智能體)任務等多個領域達到國際先進水平。K2.5讓AI更“親民”。通過融合視覺、推理、程式碼和Agent能力,使用者現在只需拍照、截圖或錄屏,就能讓Kimi理解複雜需求,大大降低了與AI的互動門檻。發佈不到一周,來自美國、英國、德國、西班牙、新加坡等近20個國家超50家主串流媒體對Kimi K2.5進行了報導。該模型發佈後,迅速登上多個權威評測榜單前列。在第三方評測機構Artificial Analysis的最新榜單中,Kimi K2.5綜合性能位列全球前五,僅次於GPT-5.2、Claude Opus 4.5、GPT-5.2 Codex和Gemini 3 Pro Preview這四款閉源模型,在開源模型中居首。圖為評測機構Artificial Analysis發佈的最新模型排名Kimi K2.5還進一步提升了開源模型的程式碼水平,尤其是在前端開發領域,通過融合視覺能力降低了程式設計的門檻。比如,K2.5能自動拆解錄屏背後的互動邏輯,用程式碼進行完整復現。開發者社區的反響也十分熱烈。大模型聚合平台OpenRouter平台資料顯示,K2.5的呼叫量已進入全球前三,且仍在快速增長。LMArena榜單也顯示,其程式碼能力在開源模型中居首,總榜排名前三,是前十名中唯一的中國模型。知名程式設計工具Kilo Code近期資料顯示,K2.5已成為平台上呼叫量最高的模型。在程式設計的實際應用中,因具備視覺理解能力,Kimi K2.5模型也成為多家頭部大廠的首選,展現出廣泛的行業適配性。對普通使用者來說,Kimi K2.5模型將Agent能力擴展到日常辦公領域,它已具備處理Word、Excel、PPT、PDF等常用軟體的高階技能,能幫助使用者直接交付准專業水平的辦公文件。更值得關注的是,Kimi K2.5首次引入了“Agent叢集”能力,可以自主建立多達100個的數字“分身”,按需組成不同角色的團隊,平行工作,團隊作戰,獲得效率的極大提升。例如,使用者輸入40篇論文後,K2.5會先通讀全文,再派生子Agent分別撰寫不同章節,最後由主Agent整合成一份完整的PDF報告。這種“團隊作戰”模式極大提升了效率。圖為評測平台Design Arena發佈的榜單,Kimi K2.5位列第一最新資料顯示,Kimi K2.5已登上評測平台Design Arena榜單首位。該平台主要評測AI大模型的“視覺+互動+創意”能力,此結果印證了K2.5在“設計智能體”領域的綜合領先優勢。隨著應用場景的持續拓展與技術的穩步迭代,Kimi K2.5有望在全球範圍內推動AI應用走向更廣、更深的落地,為各行各業的智能化轉型提供切實助力。國產AI大模型影響力持續提升Kimi K2.5模型的快速破圈,不僅是國產AI模型的一次“實戰測試”,更是中國開源模式憑藉技術能力和性價比優勢在全球舞台嶄露頭角的重要體現。從DeepSeek-R1以強化學習最佳化實現“效率革命”,到月之暗面Kimi K2.5實現原生多模態與智能體叢集能力的融合突破,國產大模型在技術體繫上完成了從單點突破到系統化創新的範式躍遷,影響力持續提升。大模型能力是人工智慧走向規模化應用的核心基石。Kimi K2.5的發佈,體現了人工智慧行業將加速從“聊天互動”轉向以“自主執行”為目標的智能體新階段。以“Agent叢集”為例,過去工程師需要逐行編寫程式碼的複雜流程,如今僅憑一條自然語言指令,即可調度上百個智能體協同作業、平行處理。業內分析認為,這一從“單一模型智能”向“多智能體群體協作”的躍遷,是企業級AI開發的下一個前沿。當前,智能體技術正逐漸從實驗室走向實際應用,進入規模化落地階段。在政策引導與產業鏈協同創新的雙輪驅動下,中國在場景、資料與工程化方面的優勢持續釋放,為AI產業形成全球競爭力奠定了基礎。在市場與資本的雙重助推下,頭部企業正將資源聚焦於下一代技術的攻堅。月之暗面創始人楊植麟表示,下一代模型將採用Kimi Delta Attention新型線性注意力機制,進一步提升短長文字任務性能與速度。同時,未來的大模型還將具備更多“審美”和“價值觀”,擺脫同質化發展。“我們致力於在未來十年、二十年,推動K系列模型從K4、K5到K100實現代際跨越。”楊植麟表示,當前多款中國開源模型已成為事實上的行業基準,“中國技術不僅要好用,還要參與制定規則”。 (瞭望財經)
月之暗面三位聯創深夜回應一切!3小時答全球網友23問,楊植麟劇透Kimi K3提升巨大
月之暗面的價值觀是“把事情真正做成並落地”。智東西1月29日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動。三位聯合創始人楊植麟(CEO)、周昕宇(演算法團隊負責人)和吳育昕與全球網友從0點聊到3點,把許多關鍵問題都給聊透了,比如Kimi K2.5是否蒸餾自Claude、Kimi K3將帶來的提升與改變,以及如何在快速迭代與長期基礎研究之間取得平衡。▲AMA欄目截圖(圖源:Reddit)一開始,便有網友拋出尖銳問題:Kimi K2.5有時會自稱為Claude,有人懷疑這是對Claude進行蒸餾的證據。楊植麟回應道,這一現象主要是由在預訓練階段對最新程式設計資料進行了上採樣,而這些資料似乎與“Claude”這個token的關聯性較強,事實上,K2.5在許多基準測試中似乎都優於Claude。談及Kimi K3,楊植麟沒透露太多細節,但提到了K3會在Kimi Linear上加入更多架構最佳化,他相信,就算Kimi K3沒比K2.5強10倍,也肯定會強很多。整場問答中,月之暗面的三位聯合創始人共回答了40多個問題。智東西也向他們提出了3個問題,並獲得了直接回應。當智東西問及月之暗面的算力儲備時,楊植麟稱,GPU數量的差距並未縮小,但實現AGI究竟需要多少算力,仍需拭目以待,而周昕宇補充了一句頗具哲理的話:創新往往誕生於約束之中。▲楊植麟、周昕宇回應智東西關於算力儲備的問題(圖源:Reddit)周昕宇還提到,月之暗面有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。此次AMA正值Kimi K2.5的發佈。這是月之暗面目前最強大的模型,在視覺、程式設計、Agent以及各種通用任務上都有不錯的表現,還通過一項名為智能體蜂群的技術實現一個模型對多達100個“子智能體”的調度,任務執行效率最高提升450%。發佈後2天左右,Kimi K2.5獲得權威AI評測榜單Artificial Analysis開源模型第一的成績,僅次於來自OpenAI、Anthropic和Google的4款模型。我們將AMA中的精華內容梳理歸納為23個關鍵問題,分為三章呈現,第一章聚焦月之暗面公司本身及AI行業相關話題,第二章介紹Kimi K2.5的技術細節,第三章展望月之暗面的未來規劃。完整問答連結:https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/01. GPU數量差距並未縮小 但創新往往誕生於約束之中(1)智東西提問:在上次的AMA中,您提到月之暗面的GPU數量(相較其他企業)處於劣勢。在2026年,這種差距會縮小嗎?楊植麟:我認為差距並沒有縮小。但是,要實現通用人工智慧(AGI)究竟需要多少算力?我們拭目以待。周昕宇:可用算力受到太多因素的影響。但無論如何,創新往往誕生於約束之中(innovation loves constraints)。(2)網友提問:您對DeepSeek的Engram架構有何期待?您是否正在考慮採用這種架構?周昕宇:對嵌入進行Scaling是一個值得探索的有趣方向。但在我們通過Scaling階梯對其進行測試之前,我們還沒有太多可靠的資料。(3)智東西提問:這是一個關於你們研究文化的問題。大規模模型訓練會消耗大量的GPU時間,如何界定沉沒成本?比如說,某個方向經過三個月的實驗後沒有明顯的性能提升,你們的團隊會根據那些指標來決定是繼續、調整方向還是徹底放棄?鑑於行業內快速迭代的步伐,你們是否擔心追求短期成功的壓力,會影響那些需要多年才能見效的基礎研究?您如何使您的團隊免受這種壓力的影響?周昕宇:非常好的問題。針對第一個問題,我們會將所有相關實驗的結果分享給所有技術人員,並進行深入討論,直到最終決定是繼續、轉型還是徹底放棄。討論每天都會進行,我們鼓勵每個人對所有事情提出質疑,從目標設定到最細微的技術細節。針對第二個問題,長期以來,我們在押注技術基本面的走勢上有著相當不錯的記錄。MoBA幾乎從公司成立之初就開始了;Kimi Linear也經歷了將近一年的探索與掙扎。關鍵在於團隊要有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。我們的組織、文化和管理都是為了支撐這一價值觀而建立的。(4)網友提問:你們最喜歡工作中的那一部分?楊植麟:我們喜歡訓練模型,因為這讓人感覺在不斷接近真相:關於什麼是有效的、什麼是無效的真相,關於智能是如何被創造出來的真相。(5)網友提問:請問訓練視覺語言模型(VLM)的主要挑戰是什麼?為什麼Kimi如此致力於訓練視覺模型?楊植麟:主要挑戰在於如何同時提升文字和視覺性能。我們發現,當方法得當時,文字和視覺可以相互促進。例如,我們觀察到,在視覺任務上進行強化學習訓練可以提升文字知識基準測試的成績。另一方面,像K2這樣強大的文字庫對於提升視覺性能也至關重要。(6)網友提問:Kimi Code和Claude Code有什麼區別?為什麼Kimi要開發自己的程式設計工具?楊植麟:我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時,框架會不斷變化,相容性有時會成為問題。此外,Kimi Code還擁有一些獨有的功能,例如視訊輸入。我們認為video2code(視訊生程式碼)非常重要,代表著前端開發的未來。(7)網友提問:強化學習基礎設施已成為關注的焦點。考慮到訓練像智能體蜂群這樣的系統的複雜性,在像verl這樣的開源框架上實現起來會相當具有挑戰性。你們在強化學習基礎設施方面所做的具體改進是什麼?吳育昕:強化學習基礎設施的確是一項巨大的挑戰,我們力求在保持良好靈活性的同時實現高效率。在效率方面,我們嘗試在開發訓練和推理系統時充分考慮強化學習的實際應用場景,以便復用所有繁重的計算工作,從而實現規模化擴展。智能體蜂群的部署邏輯尤其複雜,但我們的系統具有極高的靈活性,允許我們將不同的框架和子智能體設定整合到訓練過程中。(8)網友提問:我想問一下與你們的Scaling階梯有關的問題。你們開始實驗的最小規模(主動/被動)是多少?通常步長是多少?另外,你們是否會根據所做的更改類型(資料、最佳化器、線性注意力機制等)採用不同的Scaling階梯?周昕宇:我們從非常小的規模開始。我個人有時會從小到可以在單個CPU上訓練的模型開始。核心目標是預測系統的可擴展性。有些架構無法擴展,有些最佳化器無法擴展,甚至有些資料也無法擴展。在低FLOPs下評估可擴展性是一個有趣的研究課題,它需要對訓練過程中的數學動態有深刻的理解,同時也需要兼顧嚴謹性和創造性。舉個例子:我們曾經急於將Kimi Linear移植到Kimi K2中,但它在達到一定規模後Scaling失敗了。我們不得不暫停開發,經過漫長的偵錯過程,最終歷經數月才使其達到如今Kimi Linear的水平。從統計學角度來看,大多數小規模行之有效的方案都無法突破規模化瓶頸。而那些能夠成功推廣的方案通常都簡單有效,並且有數學依據。研究的重點在於如何應對失敗,而不是慶祝成功。02. 模型自稱Claude並非因為蒸餾 智能的上限取決於新學習演算法(9)智東西提問:Kimi K2.5使用了平行智能體強化學習技術。你們會不會將主要算力預算從預訓練轉向強化學習?在K3路線圖中,強化學習的算力規模是否會超越預訓練?楊植麟:強化學習的計算量將持續增長。更重要的是,增加強化學習計算量的方法有很多,而且有些方法比其他方法更有效。未來可能會出現更多新的目標函數來對模型進行強化訓練,尤其是在智能體領域。(10)網友提問:Kimi K2.5已經證明,通過強化學習擴展思考token是實現前沿推理的可行途徑。考慮到訓練CoT(思維鏈)策略的巨大工程開銷和生成思考token的推理延遲,你們是否正在探索架構遞迴作為一種在不將計算外部化到KV快取的情況下實現P/poly複雜度的方法?楊植麟:在當前的架構下,我們所關心的許多問題在計算意義上其實都是可解的。在很多情況下,模型能力的瓶頸並不在於其路線複雜度(circuit complexity),而在於任務本身是否是可驗證的。這意味著兩點:一方面,我們當然可以通過設計更高效的架構來降低特定任務所需的路線複雜度,從而提升token使用效率;不過,智能的上限更多地取決於能否發明新的學習演算法。這些演算法應當能夠超越預先定義的、可驗證的任務,而不僅僅是依賴更高效的模型架構。(11)網友提問:Kimi K2.5非常棒,但我看到有人說模型會自稱為Claude,並把這當作你們大量蒸餾(distill)自Claude模型的證據。這是怎麼回事?楊植麟:我們的觀察是,在正確的系統提示詞下,它有很高的機率回答“Kimi”,尤其是在思考模式下。但當系統提示為空時,它就進入了一個未定義區域,這更多地反映了預訓練資料的分佈情況。其中一項改進是,我們在預訓練階段對來自網際網路的最新程式設計資料進行了上採樣,而這些資料似乎與詞元“Claude”的關聯性更強。事實上,K2.5在許多基準測試中似乎都優於Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。(12)網友提問:我想知道你們是如何降低K2的幻覺問題的?幻覺問題似乎是K2模型的主要弱點,也是我之前沒有使用Kimi的原因。但目前來看,2.5版本更加可靠。吳育昕:對於所有大模型來說,管理幻覺仍然是一個巨大的挑戰。我們已經通過提高資料質量(更多經過驗證的知識,更少低品質的說法)和獎勵機制(例如,當模型出現幻覺時進行懲罰)來改善這種情況,但我們認為仍然有很多方法可以進一步改進。(13)網友提問:Kimi K2.5使用了較高的參數比例(約470:1)。您認為我們目前是否因為使用15兆個token進行過度訓練而“浪費”了計算資源?吳育昕:我不確定1:1最優性是否仍然成立,但從這個意義上講,我們確實會“浪費”一些訓練計算資源。否則模型會更大,並且與我們現在的模型相比,會“浪費”大量的推理計算資源。周昕宇:如果你追求計算最優(compute-optimal)的訓練方式,那麼大多數有用的模型實際上都是被過度訓練的;更大的模型只是“過度訓練得沒那麼嚴重”。而計算最優訓練通常要求模型規模足夠大,這會對現有基礎設施帶來巨大的挑戰,同時也會顯著提高推理成本。我並不認為過度訓練是一種“浪費”,而更像是我們為了獲得更優整體權衡而主動支付的一種“成本”。(14)網友提問:Kimi K2.5的“智能體蜂群”功能最多可協調100個子智能體。在這種規模下,“協調器”模型往往會成為瓶頸。Kimi K2.5如何處理管理100個平行推理流所帶來的延遲和上下文資訊丟失問題?吳育昕:“智能體蜂群”的一個很酷的點在於,各個子智囊團可以在不“腐蝕”或污染主調度器上下文的情況下獨立執行子任務。它們本質上擁有各自的工作記憶,只在必要時將結果返回給調度器。這使我們能夠在一個全新的維度上擴展整體的上下文長度。(15)網友提問:在Kimi K2.5中,你們如何權衡強化程式設計能力與保持甚至提升非程式設計能力(如創意寫作和情緒理解)之間的關係?在K2發佈時你們在官方介紹中強調了創意寫作和情商。團隊是如何在訓練和最佳化過程中,確保這些對使用者體驗至關重要但更“軟性”的能力不發生退化的?楊植麟:在模型參數規模足夠的情況下,我認為程式設計能力和創意寫作之間不存在根本性的衝突。但確實,隨著我們不斷改進獎勵模型,要在不同模型版本之間保持一致的“寫作品味”本身就是一項挑戰。我們的一項做法是依賴內部基準評測(幾乎可以看作一種“元評測”)來反映模型在創意寫作方面的進展,並據此對獎勵模型進行相應調整。(16)網友提問:K2.5的個性和寫作風格明顯變得更加通用,更像其他模型的“貼心助手”風格了。我們非常喜歡K2的個性!K2.5到底發生了什麼?你們是否已經注意到這個問題並正在調查?吳育昕:遺憾的是,每次新版本發佈後,我們都會看到模型“個性”發生一定程度的變化。這是一個相當棘手的問題,因為個性是模型主觀且難以評估的特徵。我們正在努力解決這個問題,並且希望能夠讓產品更好地滿足每位使用者的個性化需求。03. K3將在Kimi Linear基礎上最佳化 即便沒比K2.5強10倍也會強得多(17)網友提問:Kimi K3的重點會是什麼?原始性能?長期目標?還是上下文長度?楊植麟:我們正在嘗試新的架構和新功能。(18)網友提問:Kimi K3是否一定會採用線性架構或其他新架構?如果真是如此,您將如何確保K2.5 Thinking的性能得以保留,甚至進一步提升?尤其是在多模態性能方面。我擔心架構改變後可能會出現不穩定的情況。楊植麟:線性架構是一個非常不錯的選擇。我們做了很多研究,包括Kimi Linear。希望我們能在此基礎上加入更多架構最佳化。我相信Kimi K3就算沒有比K2.5強10倍,也肯定會強得多(I'm sure it will be much, if not 10x, better than K2.5)。(19)網友提問:你們未來對線上/持續學習方面有什麼計畫,特別是針對Agentic模型?Kimi Linear與K2.5有什麼關係?線性注意力仍然是主要研究方向之一,還是會發展成為一個獨立的研究分支?周昕宇:我們相信,持續學習能夠提升模型的自主性,並使它們能夠更長時間地高效工作。我們正在積極探索這一方向。Kimi Linear是與K2.5平行開展的一項專門研究項目。我們正大力投資於線性注意力機制,將其作為未來模型的一個關鍵方向。(20)網友提問:你們是如何考慮模型的角色塑造的?如果有的話,你們對“Kimi”這個角色有什麼目標?楊植麟:我認為模型的核心在於“品味”,因為智能本身是非同質化的(non-fungible)。我個人很喜歡K2.5打造的前端設計,它有著獨特的審美取向。模型的性格也是“品味”的一種體現。有報導稱,K2.5相比其他模型更少迎合使用者。這或許是一種好的性格特徵,因為持續不斷地強化使用者原有的觀點,在某些情況下可能是危險的。(21)網友提問:請問你們有計畫開源“智能體蜂群”或者將其作為一項功能加入到Kimi-cli中嗎?楊植麟:目前它還處於測試階段。待其更加穩定後,我們將向開發者提供框架。希望很快就能實現。(22)網友提問:為什麼不把視覺編碼器做得大於400M呢?吳育昕:小型編碼器在很多方面都有利於Scaling,所以我們甚至會問自己:為什麼不把它設為0呢?(23)網友提問:你們有計畫推出帶有原生音訊輸入功能的模型嗎?楊植麟:目前我們沒有足夠的資源來處理音訊輸入,所以可能會把重點放在訓練更好的智能體上。 (智東西)
看不懂的月之暗面
圖源:視覺中國“這家公司是我目前最看不懂的。”一位國產大模型上市公司的投資部人士這樣評價月之暗面。在他看來,月之暗面的模型能力本身沒問題。讓人困惑的是,這家公司在行業節奏上的走向。1月21日,在達沃斯世界經濟論壇年會上,月之暗面Kimi總裁張予彤表態:“Kimi很快就會發佈一個新模型。”六天後的1月27日,月之暗面發佈並開源了Kimi K2.5模型。這是Kimi迄今能力最為集中的一次更新:視覺理解、程式碼、多模態輸入、思考與非思考模式、Agent及Agent叢集能力,被統一封裝進同一個All-in-one模型之中。發佈視訊中,楊植麟親自站台介紹著K2.5。模型如期亮相,讓月之暗面在技術層面給了外界一個明確回應。但在資本與公司化層面,它卻走在另一條軌道上。過去一段時間,“AI六小虎”開始分化:智譜、MiniMax先後推進上市。幾乎在同一時間,楊植麟稱,公司有100億元現金,並不著急上市。正是在這種對照下,投資人對月之暗面的“看不懂”,變得更具體。進入行業中場,這是在主動放慢節奏,把籌碼繼續押在技術路徑上,還是不得不承認,已經不在第一梯隊?Kimi K2.5,怎麼樣?一位體驗過Kimi K2.5的AI創業者表示,該模型給他的直觀感受是全面聚焦於“生產力”:核心轉向程式設計、辦公與複雜任務協作,而非擴展零散功能。“它不是靠跑分證明自己,而是靠實際產品能力。”他強調,這種在具體任務中的體感差異,比分數更有說服力。K2.5的取向是一次有跡可循的戰略聚焦,標誌著月之暗面在大模型能力譜系中的位置遷移:其技術標籤已從2024年的“長文字”,轉向2025年的複雜推理、思考過程與Agent任務協同。一位接近公司的人士指出,此輪迭代的價值不在榜單排名,而在工程取向——模型圍繞Agent任務反向設計,核心目標是穩定地拆解任務、呼叫工具並保持長鏈路推理的一致性。這一取向,與月之暗面近年來強調的效率優先路線相呼應。公司方面在多個場合提到,自身並不具備無限堆砌算力的條件,因此更強調演算法與系統層面的效率提升,而非單純擴大訓練規模。在K2系列訓練中,月之暗面使用改進版Muon最佳化器,實現約2倍Token效率提升,並通過QK-Clip等機制增強大規模訓練穩定性;在推理側,則提出Kimi Linear線性注意力機制,在保證效果的同時提升長上下文處理速度。張予彤在達沃斯論壇上將這一策略概括為:僅使用美國頂尖實驗室約1%的資源,完成K2與K2 Thinking的訓練。這也意味著,月之暗面對模型能力的驗證路徑,正轉向工程系統導向。這種變化,同樣體現在產品層。自2025年5月起,Kimi密集推出了Researcher、PPT、Kimi Code等Agent功能;9月進一步上線OK Computer,可呼叫虛擬電腦中的工具完成開發、資料分析、多模態內容生成或製作PPT。Agent被放置在模型能力與商業化之間,逐漸成為關鍵中間層。與此同時,月之暗面有意識地將部分能力驗證場景放在海外。公開資料顯示,K2系列模型發佈後,在OpenRouter等模型呼叫平台上佔據一定份額。市場普遍認為,月之暗面不再追求“大而全”的炫技,而是將籌碼押注在“用工程化能力解決實際問題”這一差異化的方向上。這一策略能否成功,關鍵取決於其Agent叢集等核心功能在真實、複雜業務場景中的穩定性和可靠性能否經得起大規模驗證。同時,在面對DeepSeek等同樣強勁的競爭對手時,如何平衡頂尖性能、使用成本與商業化速度,將是月之暗面接下來的核心挑戰。雙重擠壓:資源戰與評價體系之變更早階段,月之暗面曾是國內較早將重心放在C端通用助手上的大模型公司之一。成立初期,憑藉楊植麟的學術背景,公司在行業內獲得較高期待,被部分從業者視作“中國版OpenAI”,月之暗面很早便選擇以產品形態承接模型能力。2023年8月,在首個模型訓練進入後期階段時,月之暗面啟動AI助理Kimi項目。當時公司規模約50人,Kimi在內部更像是模型能力的展示窗口。產品上線後,Kimi月活使用者一度保持較高增長,並通過投放完成冷啟動,在通用對話類產品中進入頭部梯隊。QuestMobile資料顯示,截至2024年底,Kimi月活使用者超過2000萬,僅次於豆包。多位從業者將那段時間視為月之暗面在C端最為風光的階段。但這種增長,很快就遭遇到了成長的煩惱。進入2025年後,隨著字節豆包、騰訊元寶、阿里系產品線同步推進,這一賽道逐漸演變為高度依賴資源投入的競爭。對擁有平台入口和分發體系的大廠而言,投放成本可以被內部消化;而對獨立創業公司來說,持續投流更像一項難以長期承擔的支出。一位接近月之暗面的人士直言:“創業公司很難跟大廠正面拼投流,比到最後,往往是錢燒得更快,使用者卻留不住。”與此同時,行業對“好模型”的判斷標準也在發生變化。2025年初,DeepSeek等模型的崛起重塑了行業的選擇標準:其幾乎零大規模推廣、純靠技術口碑驅動增長的現象,在業內引發了強烈震動。一位月之暗面員工曾回憶,那段時間公司內部感受到的壓力是雙重的,投流層面打不過大廠,技術聲量又被DeepSeek搶走。但這種衝擊,也促成一次內部認知轉向。公司層面逐漸意識到,對技術型創業公司而言,C端通用助手的使用者規模,並不天然構成技術壁壘。相比講使用者故事,更重要的是在模型能力上形成真實差距。上述投資人將這種變化概括為:“過去是先佔使用者,再補模型;現在是模型能力決定你還能不能留住使用者。”在這一判斷下,楊植麟更傾向於將規模視為階段性結果,而非優先目標。在模型能力尚未形成穩定差距前,過早放大使用者規模,反而可能放大資源消耗與路徑誤判的風險。2025年,月之暗面開始對C端業務做出明顯收斂。產品層面,公司逐步停止大規模投流,收縮泛娛樂方向,先後暫停或放緩Ohai、Noisee等多條C端產品線;技術層面,資源重新集中到基座模型訓練與推理能力;市場層面,重心從國內使用者規模競賽中抽離,轉向海外開發者生態與專業使用者場景;戰略層面,公司從閉源轉向開源,並將產品與商業化的主要增量方向放到海外。整體來看,這是一次主動退出C端正面戰場、更換賽場的選擇。但收縮的代價同樣存在。上述投資人表示,從其瞭解的情況看,公司目前“基本只剩下大模型和Kimi這一條主線”,不少其他產品線已經被放棄,“甚至有多個產品線負責人後來離職創業”。分水嶺時刻:當上市成為同行的標準答案戰略上的主動收縮與聚焦,也讓月之暗面在資本路徑的選擇上,展現出與同業公司截然不同的節奏。成立初期,月之暗面展現出極強的融資能力。公司成立僅三個月後即完成超2億美元天使輪融資,投後估值約3億美元;同年7月完成Pre-A輪融資。2024年進入融資高峰期:2月完成超10億美元A+輪融資,估值升至25億美元;8月完成超3億美元B輪融資,估值提升至33億美元。2025年底,月之暗面完成5億美元C輪融資並實現超募,投後估值約43億美元。表:月之暗面融資時間線然而,與強勁的融資表現形成鮮明對比的是,月之暗面在上市處理程序上的“按兵不動”。在多家同梯隊公司相繼啟動上市處理程序的背景下,月之暗面並未同步推進 IPO。對於一家已具備上市條件、且身處高關注賽道的公司而言,這一選擇並不常見。上述投資人提到,隨著智譜、MiniMax 進入二級市場,大模型公司的評估標準正在發生變化:相比一級市場更強調願景與潛力,二級市場更關注成本結構、毛利率水平與商業化兌現節奏。近期多家公司推動上市,本質上仍是現金流壓力下的融資選擇,而非成功與否的標誌。例如,繼 H 股上市後,智譜仍在推進 A 股上市處理程序。中國證監會官網顯示,其輔導機構中金公司已於 2026 年 1 月 15 日遞交輔導報告。這意味著,“大模型第一股”並未止步於單一資本市場。不同公司間的現金狀況,正在成為決定其戰略節奏的關鍵變數。進入2025年底,行業格局進一步分化:12月中旬,同為“AI六小虎”的智譜和MiniMax相繼通過港交所聆訊並開始招股。就在幾天後的12月31日,久未公開露面的楊植麟內部信曝光,披露公司仍持有約100億元現金,並直言“不急於上市”。此後不久,2026年1月13日百川智能創始人王小川也在媒體溝通會上透露,公司帳上存有30多億元現金。三天後的1月26日,階躍星辰完成超50億元新一輪融資,印奇出任董事長。然而,充足的現金並未消除壓力。在看似從容的“不上市”宣背後,楊植麟、王小川和印奇實則面臨著一個共同的難題:僅憑手中的資金,在技術爆炸的窗口期內建立起真正的護城河。實際上,除了對外部技術競賽的焦慮,對月之暗面來說,公司歷史“舊帳”也構成了另一種維度的壓力。有觀點認為,月之暗面早期分拆相關的股權與仲裁問題尚未完全塵埃落定,在這一狀態下貿然啟動 IPO,本身就存在合規與資訊披露層面的複雜性;相比之下,留在一級市場繼續推進技術與產品演進,操作成本更低。上述投資人補充道,他對月之暗面的判斷依然複雜。公司能夠持續推出模型、持續完成大額融資,說明其在技術能力與資本市場層面具備較強說服力;但月之暗面仍未向外界清晰回答產品形態如何確立、商業化如何展開、穩定使用者從何而來等更基礎的問題。在他看來,月之暗面更像是一家技術能力已被驗證,但公司形態仍在形成中的企業。這種技術先行、商業輪廓尚未完全浮現的狀態,也在一定程度上對應了當前國產大模型行業所處的整體階段。 (深網騰訊新聞)
Kimi估值一個月跳漲5億美元,投資者追捧中國AI准上市標的
中國人工智慧初創公司月之暗面在新一輪融資中估值達到48億美元,較其一個月前的估值水平躍升了5億美元。報導援引知情人士表示,看到對標公司智譜AI與MiniMax在港股的亮眼表現,投資者迅速重估了Kimi的價值。中國AI六小龍之一的月之暗面正在進行新一輪融資。1月19日,據CNBC援引知情人士透露,中國人工智慧初創公司月之暗面(Moonshot AI)在新一輪融資中估值達到48億美元,較其一個月前的估值水平躍升了5億美元。推動估值跳升的直接催化劑,來自其同行的公開市場表現。今年早些時候,中國AI公司智譜AI與MiniMax在香港上市後股價強勁上漲。(MiniMax累漲近10%,智譜則飆漲70%)分析認為,隨著中國本土AI公司上市路徑被驗證,國際與本土風險資本正競相在下一批企業IPO前鎖定投資席位,推高了頭部標的的估值水位。01一級市場聞風而動月之暗面估值的快速調整,源於投資者追捧中國AI准上市標的。報導援引知情人士表示,看到對標公司在港股的亮眼表現,投資者迅速重估了Kimi的價值。由於認購需求強烈,本輪融資預計將很快關閉。他們補充稱,鑑於市場對潛在中國AI上市公司的興趣激增,該公司在後續輪次中的估值可能進一步攀升。儘管競爭對手已先行一步叩響資本市場大門,但創始人楊植麟卻展現出了極強的戰略定力。在最近的AI行業峰會及內部交流中,他明確表示:月之暗面目前並不急於推進IPO處理程序。楊植麟此前透露,公司目前持有超過100億人民幣的充足現金儲備,這讓月之暗面有資本在長跑中保持自己的節奏。他認為,大模型競賽遠未進入下半場,目前的重點應放在下一代推理模型(K3系列)的研發與底層算力叢集的擴容上,目標是實現智能上限的階躍。據此前報導,月之暗面在去年12月的融資中,吸引了IDG資本、阿里巴巴集團及騰訊控股等知名機構參與。 (硬AI)
錢燒了,人跑了……曾經風光的Kimi,一年後淪為了二線?
2025年歲末的AI賽道,正呈現出冰火兩重天的鮮明局面。一邊,是智譜、MiniMax相繼通過港交所聆訊,全力衝刺“AI大模型第一股”;而另一邊,是同為“AI六小虎”的月之暗面,正因使用者周活及行業排名的下滑,深陷輿情漩渦中。據Quest Mobile最新報告,近期月之暗面Kimi產品的周活躍使用者數已經跌至450萬,其排名也由一年前的第二降至第七,被豆包、DeepSeek、元寶、螞蟻阿福、阿里千問等擠到身後。另據七麥資料,今年4月份至今,Kimi整體下載量出現了大幅度下滑,且長期維持在較低水平。在這背後,技術壁壘的薄弱和“燒錢換增長”模式的失效,或許成為其下載量及日活下滑的主要原因。有人工智慧行業投資人在與《BUG》欄目溝通中指出,月之暗面眼下最大的問題在於:“它有的(產品或技術),別人都有,但它卻不是最好的。”下載量、活躍使用者雙降2024年初,月之暗面憑藉旗下Kimi智能助手出色的長文字處理能力,迅速引發全網熱議,隨後順利斬獲阿里超10億美元巨額投資,一度成為國內最被看好的“AI明星”創企。在獲得阿里等機構的巨額融資後,月之暗面行銷層面的動作也變得“瘋狂”。資料顯示,其單月廣告投放金額最高時接近2億元,一度在B站等平台形成“刷屏”之勢。而這種“撒錢”式的行銷戰術,也在去年10月左右將Kimi月活使用者規模推到了3600萬以上。高速增長之下,因聯合創始人張予彤與金沙江創投主管合夥人朱嘯虎之間“利益衝突”導致的公司治理內務,以及豆包等大廠派玩家迅速反撲帶來的外部競爭擠壓,月之暗面Kimi的技術光環開始褪色,市場地位也開始下滑。據QuestMobile近日發佈的《2025下半年AI應用互動革新與生態落地報告》,在最新統計周期(2025.12.08-12.14)內,國內AI原生App周活躍使用者排名中,豆包以15520萬、DeepSeek以8156萬、元寶以2084萬位居前三,螞蟻阿福、阿里千問分列第四、五位,而去年還排名第二的月之暗面Kimi,則滑落至第七名,周活躍使用者僅450萬,淪為二線大模型產品。而在此之前,同為QuestMobile發佈的《2025年三季度AI應用價值榜》資料顯示,Kimi智能助手的月活躍使用者規模,也從2025年第二季度的1407.2萬,下降至第三季度的992.6萬,環比下降約30%。《BUG》欄目通過七麥資料查詢發現,在下載量方面,在經歷了今年2月份的高速增長後,今年4月份以來,Kimi整體下載量也出現了大幅度下滑,且長期維持在較低水平。“燒錢”模式失效下載量與使用者活躍度雙雙下滑背後,技術領先優勢不再和“燒錢換增長”模式的失效,成為最為主要的原因。2024年,Kimi憑藉“長文字處理”這一殺手鐧技術建構起階段性領先優勢,在百萬字合同解析、長篇研報解讀等領域精準切中專業人士痛點,使其快速成為資本追捧的“AI新貴”。然而,這一技術很快被字節、阿里等頭部大廠迅速突破並超越,直接削弱了kimi賴以稱道的“長文字處理”優勢。AI行業投資人李揚(化名)在與《BUG》欄目溝通中直言:“長文字處理在技術圈並不罕見,大家想做就能做。最開始只有Kimi去突破的主要原因,是因為長文字對算力消耗極大,成本太高了,沒有合適的場景,大家都不願意做”。當憑藉“長文字處理”建構起的技術壁壘被攻破,能推動Kimi使用者增長的,唯有“燒錢引流”或打造新的“技術差異壁壘”。但從過去一年的情況來看,Kimi雖然通過發佈K2等最新模型短暫建立過領先技術優勢,但很快就被OpenAI、Google以及DeepSeek、阿里、智譜等玩家迅速抹平甚至超越,技術層面的領先優勢無法長期保持。而在“燒錢引流”這條道路上,DeepSeek憑藉技術突破帶來的“7天使用者破億”爆發式增長故事,直接宣告了AI應用“燒錢換增長”模式的低效與難以持續。李揚透露,在投流激進的時候,Kimi每獲取一個使用者的成本約在10元左右,如果算上拉新後使用者問答或體驗長文字處理等產生的算力成本,每個使用者的綜合獲客成本大約在12-13元間,如果每天新增20萬使用者,Kimi一天就得燒掉約250萬元,“如果這些使用者無法轉化為付費使用者,長期虧損就是必然結果”。從如今周活躍使用者僅有450萬、行業排名跌至第七的情況來看,Kimi早期砸錢高價引流獲取到的使用者,已有大量流失或“休眠”。與之相對應的是,鮮有投流獲客的DeepSeek,如今仍有8156萬周活躍使用者,且已經頂替了此前Kimi佔據的行業“第二”位置。李揚直截了當地說,“月之暗面時下最為尷尬的情況在於它有的(產品或技術能力),別人都有,而且它還不是最好。”它,進退兩難當技術的差異化優勢不再,燒錢換增長的模式也不再行之有效。面對豆包、元寶、千問等大廠派AI的瘋狂圍剿,以及智譜、MiniMax等“AI大模型六小虎”的追趕擠壓。月之暗面時下的處境,也正變得越來越尷尬。《BUG》欄目注意到,在商業模式上,目前月之暗面C端主要通過推進Kimi智能助手打賞、訂閱收費,而B端主要通過大模型API呼叫進行收費。但在C端收費模式上,目前Kimi收費項中基本所有的功能,通過豆包、夸克、千問、靈光等產品均可免費獲得。這意味著,在國內使用者付費意識薄弱且存在大量同類可替代產品的情況下,只要大廠一天不收費,Kimi的付費使用者就難以長期留存,流失也就在所難免。而在B端收費模式上,除API呼叫外,目前月之暗面在定製化開發、大客戶合作推進等方面的進展,部分要弱於字節、阿里等大廠,較智譜等創企也存在些許差距。在行行AI董事長李明順看來,在全球範圍內,伴隨scaling law 見頂,AI大模型能力瓶頸越來越明顯,整個行業已經進入“明牌”階段。在這一階段,大廠比小廠將有著更強的優勢,創業者更應該做的是找到細分的強場景領域,去做AI應用的全流程閉環產品,而不是做大而全的產品。但從月之暗面所做的產品形態來看,無論C端還是B端產品,其與頭部網際網路大廠存在較高重合度,不似百川智能及早聚焦醫療,也不似智譜開始有意發力B端、G端業務,更不似零一萬物放棄兆參數大模型及早擁抱DeepSeek等廠商。一位資深AI從業者在與《BUG》欄目溝通中直言,月之暗面當前的處境,屬於明顯的“進退兩難”。進,做大模型,想實現創新提升卻不容易;退,去做應用,又會“犧牲”高估值。而這一境遇,也對應了整個AI創業群體的共同處境,一方面,要志存高遠去搏更大的機會,但如果缺乏充分的市場戰略認知,吃虧在所難免。在他看來,或許月之暗面該及早地避開巨頭已經盯上的主航道,轉而選擇更加垂直、聚焦的場景,做出更多有特色的功能,或者是更早地進行全球化,進入更為廣闊的全球市場。 (新浪科技)
MiniMax與月之暗面:中國AI新創公司的兩種路徑與共同難題
大會結束,月之暗面創始人楊植麟被觀眾層層圍住,有人舉著手機想加他微信,有人追到茶歇區要簽名。投資這家公司的機構,拉一整大巴的投資人去拜訪他,「讓第一線投資人見見好的創業家是什麼樣子」。MiniMax創辦人閔俊傑很少公開露面,網路上能搜到的照片沒幾張。這無礙他在投資業的熱度。 MiniMax估值長期排在中國大模型新創公司前列,投資人要靠「搶」 才能拿到份額。這一切都發生在DeepSeek爆火前。今年初,兩家明星新創公司一起被擠到聚光燈邊緣。春節後的第一​​個工作周,兩家公司的二號位各自召開了內部會議,討論DeepSeek之後該怎麼做成長。月之暗面在長達6小時的會議後,決定暫緩投放,回歸產品與科技本身。在MiniMax,DAU被稱為「虛榮指標」。兩家公司有員工覺得,這是一種「解脫」:不用再絕望地消耗資源與字節等巨頭競爭,也無需拚命證明「中國能誕生OpenAI」。問題已經失去意義。在這之後,兩家公司取得更好的技術進展。 MiniMax的影片產生模型,宣稱在某些場景超過Google的Veo3;其開源的M2文字模型,在部分評量中位列全球開源模型第一。月之暗面的K2模型,被稱為「中國又一個DeepSeek」;近期發布的K2 Thinking,宣稱部分基準測試得分超過GPT-5。他們的壓力並沒有消失。 MiniMax和月之暗面曾以較少的資源證明成長潛力。兩家公司因此拿到中國大模型創投領域大多數資金,總計超過200億元。這筆錢很少,讓他們難與字節、阿里,甚至是DeepSeek正面競爭,或是對標OpenAI、Anthropic這些海外同行。但這筆錢又夠多,讓他們無法收斂野心。閔俊傑和楊植麟是中國大模型領域的「雙子星」。他們幾乎在同一時間走進公眾視野,講著相似的理想——相信技術,追求AGI;也都在融資、流量、爭議與期待中長期被同一個問題拷問:中國的OpenAI,會誕生在那裡?兩人的相同之處並不多。閔俊傑崇尚“系統理性”,想要在龐雜的約束中尋找最優解。他把公司視為可以設計和最佳化的函數,堅信組織的力量能夠催生創新與成長。他敢於決斷,然後接受衝突,迅速迭代。他創辦的MiniMax,在技術路線上選擇多模態模型,是中國最早推出MoE模型的團隊之一。楊植麟則相信人才的力量,公司的核心產品「Kimi」 也是他的英文名,個人光環與公司品牌深度綁定。他看重“共識驅動”,相信少數精英能引領方向。與MiniMax不同,他創辦的月之暗面更執著於無損的語言模式本身的力量,一度不怎麼在意MoE。現在他們要解決的問題是一樣的。之前三年過山車般的經驗表明,一時的技術成果或使用者成長,很難成為競爭優勢。他們還要建立讓技術和使用者成長持續產生的組織能力。技術CEO、管家二號位2017年,在商湯擔任CEO助理的贠燁禕,就向雲啟資本合夥人、也是她在約翰霍普金斯的師兄陳昱提出過創業設想,但因為缺合夥人沒能推進。四年後,她再次找到陳昱:“我終於找到創業搭子了。”這個搭子,就是閔俊傑。閔俊傑是典型的「系統內優勝者」。他出生於1989年,在河南的縣城長大,博士就讀於中國科學院自動化所。2014年博士畢業後,髕俊傑加入商湯,在這家核心成員大多來自香港中文大學和海外高校博士生的公司中,他只用了五年時間,就從演算法工程師一路做到最年輕的副總裁、研究院副院長,負責智慧城市、遊戲等多個業務。他參與了商湯底層演算法到工程落地的體系建設,發表上百篇論文。MiniMax 創辦人閔俊傑閔俊傑第一次見陳昱,就給對方留下深刻印象:一是光頭,「一看就是絕頂聰明」;二是閔俊傑跟他講,可以用基礎模型,解決更加通用和泛化的問題。「現在看來當然是常識,但在業界都還在講用若干小模型解決複雜問題的2021年,令人耳目一新。」陳昱說。2021年底,閔俊傑離職創辦MiniMax。閔俊傑負責技術,贠燁禕負責技術以外的產品、融資等事務。一位MiniMax早期人士說:“閔俊傑想要做全世界最偉大的技術,贠燁禕想做全世界最偉大的公司。”閔俊傑把AGI視為「一般人每天都會使用的一個產品、一個服務」。一位MiniMax前員工說,他加入MiniMax,是被會議室牆上的一行字打動──Intelligence for Everyone。MiniMax的第一輪融資印證了這套故事的吸引力:閔俊傑在與高瓴創始人張磊聊過後,高瓴直接取代雲啟,拿下首輪2000萬美元融資的領投。 MiniMax投後估值達2億美元。月之暗面起步沒那麼順利。 2023年初,剛成立的月之暗面想融資2,000萬美元還不順利。在投資人眼裡,楊植麟只有「技術」 標籤,缺乏產品、管理、融資經驗。出生於1992年的楊植麟是廣東汕頭人,頭髮茂密,他在卡內基美隆讀博期間,發布的大語言模型相關論文XLNet和Transformer-XL,現在引用接近兩萬。月之暗面創辦人楊植麟同樣在讀博士期間,27歲的楊植麟參與創辦AI公司循環智能。他在自己的個人主頁上寫道:“我所有工作的目標,包括研究和商業,都是最大化人工智慧的價值。”月之暗面的起點,是楊植麟在循環智能負責的團隊。 2021年,楊植麟主導了華為雲合作的千億級盤古大模型,團隊就叫「Moonshot」。兩年後,他推動「Moonshot」 從循環獨立,成立月之暗面。他認為要“專門建一家公司,而不是從別的業務裡拐出一條支線。”起步融資遇挫,楊植麟想到循環智能的投資人、也是他的清華學姊張予彤。在2019年,在金沙江創投的張予彤就主導投資了循環智能。在張予彤的推動下,月之暗面最終在2023年上半年完成第一筆融資,紅杉、真格、Monolith的下注讓楊植麟趕上了窗口期。張予彤如今在月之暗面的角色是二號位,與贠燁禕在MiniMax類似,負責融資、成長等業務。不過張予彤的加入,後來也讓月之暗面陷入潛在的利益衝突與仲裁風波。雖然起步方式不同,兩位創辦人在公司的發展上做出了類似的選擇:用大半年時間研發基礎模型後,嘗試做C端產品,並迎來了第一個爆發點。2022年年中,MiniMax投入數名員工,用一個月的時間做出了AI對話產品Glow,用戶可以在這個產品上自由創建角色,並和角色對話。他們本來想用遊戲化的方式收集數據,「沒人想到這個產品會一炮而紅」。 Glow上線4個月後註冊用戶超過五百萬。「Glow出乎意料的成功讓公司的重心轉向了C端產品。」一位MiniMax員工說。 2023年底,MiniMax約有300名員工,其中近200人在產品線,遠超越同類大模型新創公司。月之暗面的故事類似。 2023年8月,他們第一個模型訓練到後期,開始立項做AI助理Kimi,當時整個公司只有50人,預期只是「展示模型能力」。上線之後,Kimi連續數月月活用戶季增超過100%。「用了最少的錢,最少的人,最少的卡,做到了最好的狀態。」Monolith創始合夥人曹曦曾如此評價月之暗面,他的基金跟進了月之暗面三輪融資。2023底再融資時,月之暗面成為資本追捧的對象。小紅書投前9億美元估值的價格很快就被阿里壓過:投資近8億美元,將月之暗面的估值抬升到23.4億美元。這讓它的估值與2021年就成立的MiniMax並駕齊驅,膨脹速度遠超上一代AI公司。同一時間,MiniMax也拿到阿里投資的6億美元資源,估值又超過月之暗面。兩筆融資2024年初完成,合計超14億美元(100億元人民幣),超過中國大模型創投領域上一年公開融資總額,改寫了產業格局。早期成長吸引大額投資也成了競爭中的弱點大額資本的注入放大了兩位創辦人的野心。 2024年初,閔俊傑定下激進目標:科技達到GPT-4的水平,把產品用戶規模翻十倍,單一產品能突破千萬DAU。這一年的MiniMax很像字節跳動:同時推進多條產品線,從Talkie、星野到海螺AI,還有幾個沒有上線過就放棄的產品。年中,MiniMax員工總數成長到400左右。公司成立剛一年,楊植麟定下覆蓋多個方向的目標:技術上深入無損長文字、視頻生成、多階段推理;產品上追求DAU增長、出海;並加大商業化力度。到年中,信奉菁英策略的月之暗面,員工也翻了一番。問題跟著爆發。 MiniMax陷入糾結與搖擺,這年1月,MiniMax視覺模型團隊開始押注視頻模型;3月,他們抽調星野/Talkie和開放平台的一部分研發人員,做產品形態類似即夢的視頻生成項目;5月,他們放棄這個產品形態項目。到了8月,高層要求在一周內讓模型“能用”,要趕上公司的Open Day。一位員工回憶,那時模型生成的人物“手腳還在亂飛”,而承載視頻模型的產品項目早已放棄。最後團隊先做了網頁版上線,讓使用者測試,移動端往後延,嫁接到原本主打語音互動的海螺AI。不過就像Glow 一樣,他們對這個產品期望不高。但第二個月,其網頁端瀏覽量就接近500萬。一位MiniMax員工回憶,2024年的大部分時間,他們都被這種「既要又要」 的氣氛影響——公司既想增長,又不想將模型往「軟色情」 方向調整,但「一健康就不增長」。高層一度要求暫停在Talkie、星野等產品上增加廣告位,但收入下滑後又陷入焦慮。閔俊傑說,他經歷過技術被資本裹挾的過程:“如果一家企業必須靠不斷融資才能前進,那它優化的就不再是產品,而是如何說服投資者繼續給錢。”月之暗面的精英策略也沒有在新方向上發揮太多效果。他們想要復現Sora的視頻模型,但效果一直未及預期,唯一的“亮相”,是幾位聯合創始人在朋友圈裡發布的幾條視頻,稱由自家視頻模型生成;月之暗面低調上線的兩款出海產品Ohai和Noisee,幾個月後便停止運營。在這段期間,月之暗面創始團隊出售股份,迅速在創投領域引發風波。關鍵不在於賣股份,而是月之暗面背後的敘事失調。產品未定型、格局未穩固的時刻,創始團隊出售股份,很容易被理解為「急於落袋為安」。在風波之中,我們曾問他此事,他以一句「Fake news」 簡短作答。2024年年中,「大模型進展放緩」 的論調開始流行。當技術可能很難帶來巨大突破時,市場和投資人衡量公司成長潛力的指標,轉向最直接的DAU數據。在月之暗面,張予彤主導大規模投流,拉高了B站等平台的AI產品投流價格。 MiniMax也在高層反覆的糾結後,最後決定跟進。他們再一次被資本看好。 MiniMax拿到騰訊等機構的投資;8月,月之暗面獲得騰訊、高榕創投等3億美元融資。資本意志開始更深地介入公司經營,部分投資人頻繁地提供他們成長「建議」:那些海外AI應用公司成長更快,那些投流策略更有效率,那類產品功能更能帶來留存。但一同出現的還有更強的對手。字節跳動發動了飽和式攻擊:產品線覆蓋一切,從生產力到娛樂,從助手到硬體。我們瞭解到,字節也嚴格控制外部AI產品在抖音上的投放,而豆包等作為字節產品,還能享有折扣。一位月之暗面員工回憶,那是公司的士氣低谷,「面對字節這樣的敵人,是打不過的。」一位投資人稱,如果不推動公司轉型,「除了硬著頭皮跟字節拼消耗,似乎別無他法」。到這一年10月,一場數位投了大模型的投資人參加的聚會中,他們開始討論“如何能賣掉部分手裡的大模型創業公司股份?”追求科技可以是一種選擇但空間越來越小DeepSeek「解救」 了MiniMax和月之暗面。他們靠著遠超市場預期的模型,沒花一分錢投流,就在一周內吸引了數千萬用戶,製造了中國自己的ChatGPT時刻。“如果你在對手更強的賽道,那你就沒有勝的可能。” 一位月之暗面員工說,DeepSeek帶來的熱潮,讓他明顯感覺到公司內部情緒有了好轉,“只要技術夠強,就有機會逆天改命。”月之暗面不再更新K1系列的模型,集中資源投入基礎演算法與新模型K2。這個新模型被寄予厚望,月之暗面研發團隊幾乎全員參與,楊植麟本人也親自下場寫程式碼。張予彤在社交平台上寫道,“小夥伴為了這次發布直接睡在公司裡”,配圖是一個帶有“離發布還有0天” 標語的圖片,標語下是一張沙發床。幾個月高強度開發後,月之暗面在7月發布並開源兆參數的MoE模型Kimi K2,宣稱在自主編程、工具調用和數學推理等維度上超過DeepSeek-V3和阿里Qwen3。在這之前,楊植麟相信「閉源是正確的路」。 《自然》雜誌網站的一篇文章稱其為「中國的另一個DeepSeek時刻」。MiniMax也完成了類似的對焦。他們將重點從“模型與產品並重” 收縮到“模型優先”。視訊、語音等多模態模型仍在研究,這是他們有優勢的方向。我們瞭解到,閔俊傑也把一部分產品的員工轉到模型團隊,並為文字模型重新分配算力,核心資源集中到語言模型的基礎能力上,增加數學與程式資料的比重。他之前說,MiniMax沒必要為了一篇新聞稿,就訓練一個類似o1那樣的推理模型。他們10月開源語言模型M2時,強調它的程式設計和推理能力突出,使用量在OpenRouter上已經成長到了前五名。 「應該創業第一天就開源。」髕俊傑年初說。兩家公司似乎回到了剛創業時的狀態,都把提升模型的能力當作主線,投資者也不再過度給公司提建議。公司的經營依賴創業者本身管理能力。髕俊傑看起來溫和,但一旦做出決定,執行起來極為堅決。在MiniMax創業初期,團隊曾嘗試3D數位人方向。工程尚未上線,閔俊傑判斷這條路與公司長期技術路線不符,就立即叫停。計畫解散,剛組成的團隊經歷第一輪震盪。2024年起,MiniMax的中層開始密集流動:產品負責人、商務負責人、資料科學負責人、成長負責人、戰投負責人等陸續離開。例如MiniMax對齊團隊兩年內換了三任負責人——第一任因與髕俊傑激烈爭論技術進展,被降為普通工程師;第二任由下屬提拔,半年後離職。 MiniMax早期的一百名員工,如今已走了一半。「不是同路人的這些同事,我會請他們離開。我已經請走了幾位。」閔俊傑曾在公司全員會上說。在他看來,好的成果不是某個人靈光一現的產物,而是科學方法和團隊配合下的必然發現,就算個人能力不算頂尖,只要能讓團隊跑得更快,就是合適的人才。閔俊傑認為,管理公司就是優化函數,目標是商業化效率、呼叫量等變量,管理的核心任務就是找到“梯度下降最快的方向”,不斷逼近最優解。MiniMax的許多決策,像是不做3D、選擇MoE架構、做視訊模型,都屬於「算出來的結果」。甚至MiniMax每兩周一次的全員分享會,也叫「CD」(Coordinate Decent演算法)。楊植麟相信那些能提出新想法的人才,「因為在這個領域,創新本身最有價值」。他願意為了招攬一名自己欣賞的技術人才,從北京飛到深圳,聊上十個小時,第二天趕早班機返回;也會讓優秀的研究者自己一個人在異地自由工作。他傾向於先達成共識,然後再迅速行動。月之暗面的第一款模型亮相時,主打20萬長文字上下文。但一開始,核心團隊有人並不看好這個方向。一位月之暗面早期員工回憶,2023年5月公司就有人提過做長文字,卻被其他人否決,理由是演算法視角裡,這只是壓縮問題,是工程活,不是技術突破。這個方向就沒有推進。兩個月後,Anthropic發布處理50萬文字的Claude模型,引發產業震動。長文字成為月之暗面內部共識。 「Lossless long context is everything」 成了楊植麟常提的一句話。但如今AI公司把追求模型能力當公司經營的核心變得愈發困難。早期的OpenAI是一個參考答案。他們的團隊延續了「學術式」 的工作節奏,用實驗和試錯推動技術研究,領先技術成果誕生後加上山姆·阿爾特曼(Sam Altman)從YC帶來的成長策略,推動公司持續發展。 DeepSeek的「學術循環」 模式——批判性思考、原子化創新、推動科學邊界——也是一種策略,但它不用太過於關注商業化和用戶成長。MiniMax和月之暗面很難找到這樣的空間和資源。這場資本密集遊戲裡,資金、算力和生態支援至關重要。 OpenAI的估值已達5,000億美元,要頂著兆美元估值上市;xAI和Anthropic的估值也都逼近2,000億美元。而MiniMax和月之暗面的估值都在40億美元左右。這讓誰能成為中國OpenAI的問題變得沒有意義。在體量較大的美元基金退潮後,中國擁有大規模資金的巨頭不願為新創公司持續輸血,反而成為AI公司的競爭對手。阿里、字節、騰訊,甚至是DeepSeek,研發基礎模型都有主營業務(電商、廣告、量化)供血,短期沒有獲利壓力。MiniMax和月之暗面都在嘗試用更專業的功能(月之暗面的OK Computer、深度研究;MiniMax的專業模式)吸引用戶付費訂閱。但只要字節等公司的同類產品免費,去年下半年的競爭問題必然會再次出現。他們還在繼續找錢。市場消息稱,MiniMax正籌備赴港上市。月之暗面又開了一輪新融資。大模型註定是需要幾百億美元,甚至是千億美元投入的遊戲。新創公司想要走完這條路,創辦人必須證明,這是一場需要他們參與的長期探索,才能獲得更多的理解和支援。這是一道更難的證明題:在巨頭林立、算力稀缺、資本收縮的市場中,是否還有空間容納一種既做基礎研究、又不屬於任何巨頭的AI公司?這不僅需要更多技術突破,也需要一種在當前中國環境下罕見的能力——靠投資機構和業務收入,維持一支高密度的研究團隊持續產出。 (創業邦)
揭秘楊植麟,技術理想主義的孤島還是燈塔
很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)