#月之暗面
MiniMax與月之暗面:中國AI新創公司的兩種路徑與共同難題
大會結束,月之暗面創始人楊植麟被觀眾層層圍住,有人舉著手機想加他微信,有人追到茶歇區要簽名。投資這家公司的機構,拉一整大巴的投資人去拜訪他,「讓第一線投資人見見好的創業家是什麼樣子」。MiniMax創辦人閔俊傑很少公開露面,網路上能搜到的照片沒幾張。這無礙他在投資業的熱度。 MiniMax估值長期排在中國大模型新創公司前列,投資人要靠「搶」 才能拿到份額。這一切都發生在DeepSeek爆火前。今年初,兩家明星新創公司一起被擠到聚光燈邊緣。春節後的第一​​個工作周,兩家公司的二號位各自召開了內部會議,討論DeepSeek之後該怎麼做成長。月之暗面在長達6小時的會議後,決定暫緩投放,回歸產品與科技本身。在MiniMax,DAU被稱為「虛榮指標」。兩家公司有員工覺得,這是一種「解脫」:不用再絕望地消耗資源與字節等巨頭競爭,也無需拚命證明「中國能誕生OpenAI」。問題已經失去意義。在這之後,兩家公司取得更好的技術進展。 MiniMax的影片產生模型,宣稱在某些場景超過Google的Veo3;其開源的M2文字模型,在部分評量中位列全球開源模型第一。月之暗面的K2模型,被稱為「中國又一個DeepSeek」;近期發布的K2 Thinking,宣稱部分基準測試得分超過GPT-5。他們的壓力並沒有消失。 MiniMax和月之暗面曾以較少的資源證明成長潛力。兩家公司因此拿到中國大模型創投領域大多數資金,總計超過200億元。這筆錢很少,讓他們難與字節、阿里,甚至是DeepSeek正面競爭,或是對標OpenAI、Anthropic這些海外同行。但這筆錢又夠多,讓他們無法收斂野心。閔俊傑和楊植麟是中國大模型領域的「雙子星」。他們幾乎在同一時間走進公眾視野,講著相似的理想——相信技術,追求AGI;也都在融資、流量、爭議與期待中長期被同一個問題拷問:中國的OpenAI,會誕生在那裡?兩人的相同之處並不多。閔俊傑崇尚“系統理性”,想要在龐雜的約束中尋找最優解。他把公司視為可以設計和最佳化的函數,堅信組織的力量能夠催生創新與成長。他敢於決斷,然後接受衝突,迅速迭代。他創辦的MiniMax,在技術路線上選擇多模態模型,是中國最早推出MoE模型的團隊之一。楊植麟則相信人才的力量,公司的核心產品「Kimi」 也是他的英文名,個人光環與公司品牌深度綁定。他看重“共識驅動”,相信少數精英能引領方向。與MiniMax不同,他創辦的月之暗面更執著於無損的語言模式本身的力量,一度不怎麼在意MoE。現在他們要解決的問題是一樣的。之前三年過山車般的經驗表明,一時的技術成果或使用者成長,很難成為競爭優勢。他們還要建立讓技術和使用者成長持續產生的組織能力。技術CEO、管家二號位2017年,在商湯擔任CEO助理的贠燁禕,就向雲啟資本合夥人、也是她在約翰霍普金斯的師兄陳昱提出過創業設想,但因為缺合夥人沒能推進。四年後,她再次找到陳昱:“我終於找到創業搭子了。”這個搭子,就是閔俊傑。閔俊傑是典型的「系統內優勝者」。他出生於1989年,在河南的縣城長大,博士就讀於中國科學院自動化所。2014年博士畢業後,髕俊傑加入商湯,在這家核心成員大多來自香港中文大學和海外高校博士生的公司中,他只用了五年時間,就從演算法工程師一路做到最年輕的副總裁、研究院副院長,負責智慧城市、遊戲等多個業務。他參與了商湯底層演算法到工程落地的體系建設,發表上百篇論文。MiniMax 創辦人閔俊傑閔俊傑第一次見陳昱,就給對方留下深刻印象:一是光頭,「一看就是絕頂聰明」;二是閔俊傑跟他講,可以用基礎模型,解決更加通用和泛化的問題。「現在看來當然是常識,但在業界都還在講用若干小模型解決複雜問題的2021年,令人耳目一新。」陳昱說。2021年底,閔俊傑離職創辦MiniMax。閔俊傑負責技術,贠燁禕負責技術以外的產品、融資等事務。一位MiniMax早期人士說:“閔俊傑想要做全世界最偉大的技術,贠燁禕想做全世界最偉大的公司。”閔俊傑把AGI視為「一般人每天都會使用的一個產品、一個服務」。一位MiniMax前員工說,他加入MiniMax,是被會議室牆上的一行字打動──Intelligence for Everyone。MiniMax的第一輪融資印證了這套故事的吸引力:閔俊傑在與高瓴創始人張磊聊過後,高瓴直接取代雲啟,拿下首輪2000萬美元融資的領投。 MiniMax投後估值達2億美元。月之暗面起步沒那麼順利。 2023年初,剛成立的月之暗面想融資2,000萬美元還不順利。在投資人眼裡,楊植麟只有「技術」 標籤,缺乏產品、管理、融資經驗。出生於1992年的楊植麟是廣東汕頭人,頭髮茂密,他在卡內基美隆讀博期間,發布的大語言模型相關論文XLNet和Transformer-XL,現在引用接近兩萬。月之暗面創辦人楊植麟同樣在讀博士期間,27歲的楊植麟參與創辦AI公司循環智能。他在自己的個人主頁上寫道:“我所有工作的目標,包括研究和商業,都是最大化人工智慧的價值。”月之暗面的起點,是楊植麟在循環智能負責的團隊。 2021年,楊植麟主導了華為雲合作的千億級盤古大模型,團隊就叫「Moonshot」。兩年後,他推動「Moonshot」 從循環獨立,成立月之暗面。他認為要“專門建一家公司,而不是從別的業務裡拐出一條支線。”起步融資遇挫,楊植麟想到循環智能的投資人、也是他的清華學姊張予彤。在2019年,在金沙江創投的張予彤就主導投資了循環智能。在張予彤的推動下,月之暗面最終在2023年上半年完成第一筆融資,紅杉、真格、Monolith的下注讓楊植麟趕上了窗口期。張予彤如今在月之暗面的角色是二號位,與贠燁禕在MiniMax類似,負責融資、成長等業務。不過張予彤的加入,後來也讓月之暗面陷入潛在的利益衝突與仲裁風波。雖然起步方式不同,兩位創辦人在公司的發展上做出了類似的選擇:用大半年時間研發基礎模型後,嘗試做C端產品,並迎來了第一個爆發點。2022年年中,MiniMax投入數名員工,用一個月的時間做出了AI對話產品Glow,用戶可以在這個產品上自由創建角色,並和角色對話。他們本來想用遊戲化的方式收集數據,「沒人想到這個產品會一炮而紅」。 Glow上線4個月後註冊用戶超過五百萬。「Glow出乎意料的成功讓公司的重心轉向了C端產品。」一位MiniMax員工說。 2023年底,MiniMax約有300名員工,其中近200人在產品線,遠超越同類大模型新創公司。月之暗面的故事類似。 2023年8月,他們第一個模型訓練到後期,開始立項做AI助理Kimi,當時整個公司只有50人,預期只是「展示模型能力」。上線之後,Kimi連續數月月活用戶季增超過100%。「用了最少的錢,最少的人,最少的卡,做到了最好的狀態。」Monolith創始合夥人曹曦曾如此評價月之暗面,他的基金跟進了月之暗面三輪融資。2023底再融資時,月之暗面成為資本追捧的對象。小紅書投前9億美元估值的價格很快就被阿里壓過:投資近8億美元,將月之暗面的估值抬升到23.4億美元。這讓它的估值與2021年就成立的MiniMax並駕齊驅,膨脹速度遠超上一代AI公司。同一時間,MiniMax也拿到阿里投資的6億美元資源,估值又超過月之暗面。兩筆融資2024年初完成,合計超14億美元(100億元人民幣),超過中國大模型創投領域上一年公開融資總額,改寫了產業格局。早期成長吸引大額投資也成了競爭中的弱點大額資本的注入放大了兩位創辦人的野心。 2024年初,閔俊傑定下激進目標:科技達到GPT-4的水平,把產品用戶規模翻十倍,單一產品能突破千萬DAU。這一年的MiniMax很像字節跳動:同時推進多條產品線,從Talkie、星野到海螺AI,還有幾個沒有上線過就放棄的產品。年中,MiniMax員工總數成長到400左右。公司成立剛一年,楊植麟定下覆蓋多個方向的目標:技術上深入無損長文字、視頻生成、多階段推理;產品上追求DAU增長、出海;並加大商業化力度。到年中,信奉菁英策略的月之暗面,員工也翻了一番。問題跟著爆發。 MiniMax陷入糾結與搖擺,這年1月,MiniMax視覺模型團隊開始押注視頻模型;3月,他們抽調星野/Talkie和開放平台的一部分研發人員,做產品形態類似即夢的視頻生成項目;5月,他們放棄這個產品形態項目。到了8月,高層要求在一周內讓模型“能用”,要趕上公司的Open Day。一位員工回憶,那時模型生成的人物“手腳還在亂飛”,而承載視頻模型的產品項目早已放棄。最後團隊先做了網頁版上線,讓使用者測試,移動端往後延,嫁接到原本主打語音互動的海螺AI。不過就像Glow 一樣,他們對這個產品期望不高。但第二個月,其網頁端瀏覽量就接近500萬。一位MiniMax員工回憶,2024年的大部分時間,他們都被這種「既要又要」 的氣氛影響——公司既想增長,又不想將模型往「軟色情」 方向調整,但「一健康就不增長」。高層一度要求暫停在Talkie、星野等產品上增加廣告位,但收入下滑後又陷入焦慮。閔俊傑說,他經歷過技術被資本裹挾的過程:“如果一家企業必須靠不斷融資才能前進,那它優化的就不再是產品,而是如何說服投資者繼續給錢。”月之暗面的精英策略也沒有在新方向上發揮太多效果。他們想要復現Sora的視頻模型,但效果一直未及預期,唯一的“亮相”,是幾位聯合創始人在朋友圈裡發布的幾條視頻,稱由自家視頻模型生成;月之暗面低調上線的兩款出海產品Ohai和Noisee,幾個月後便停止運營。在這段期間,月之暗面創始團隊出售股份,迅速在創投領域引發風波。關鍵不在於賣股份,而是月之暗面背後的敘事失調。產品未定型、格局未穩固的時刻,創始團隊出售股份,很容易被理解為「急於落袋為安」。在風波之中,我們曾問他此事,他以一句「Fake news」 簡短作答。2024年年中,「大模型進展放緩」 的論調開始流行。當技術可能很難帶來巨大突破時,市場和投資人衡量公司成長潛力的指標,轉向最直接的DAU數據。在月之暗面,張予彤主導大規模投流,拉高了B站等平台的AI產品投流價格。 MiniMax也在高層反覆的糾結後,最後決定跟進。他們再一次被資本看好。 MiniMax拿到騰訊等機構的投資;8月,月之暗面獲得騰訊、高榕創投等3億美元融資。資本意志開始更深地介入公司經營,部分投資人頻繁地提供他們成長「建議」:那些海外AI應用公司成長更快,那些投流策略更有效率,那類產品功能更能帶來留存。但一同出現的還有更強的對手。字節跳動發動了飽和式攻擊:產品線覆蓋一切,從生產力到娛樂,從助手到硬體。我們瞭解到,字節也嚴格控制外部AI產品在抖音上的投放,而豆包等作為字節產品,還能享有折扣。一位月之暗面員工回憶,那是公司的士氣低谷,「面對字節這樣的敵人,是打不過的。」一位投資人稱,如果不推動公司轉型,「除了硬著頭皮跟字節拼消耗,似乎別無他法」。到這一年10月,一場數位投了大模型的投資人參加的聚會中,他們開始討論“如何能賣掉部分手裡的大模型創業公司股份?”追求科技可以是一種選擇但空間越來越小DeepSeek「解救」 了MiniMax和月之暗面。他們靠著遠超市場預期的模型,沒花一分錢投流,就在一周內吸引了數千萬用戶,製造了中國自己的ChatGPT時刻。“如果你在對手更強的賽道,那你就沒有勝的可能。” 一位月之暗面員工說,DeepSeek帶來的熱潮,讓他明顯感覺到公司內部情緒有了好轉,“只要技術夠強,就有機會逆天改命。”月之暗面不再更新K1系列的模型,集中資源投入基礎演算法與新模型K2。這個新模型被寄予厚望,月之暗面研發團隊幾乎全員參與,楊植麟本人也親自下場寫程式碼。張予彤在社交平台上寫道,“小夥伴為了這次發布直接睡在公司裡”,配圖是一個帶有“離發布還有0天” 標語的圖片,標語下是一張沙發床。幾個月高強度開發後,月之暗面在7月發布並開源兆參數的MoE模型Kimi K2,宣稱在自主編程、工具調用和數學推理等維度上超過DeepSeek-V3和阿里Qwen3。在這之前,楊植麟相信「閉源是正確的路」。 《自然》雜誌網站的一篇文章稱其為「中國的另一個DeepSeek時刻」。MiniMax也完成了類似的對焦。他們將重點從“模型與產品並重” 收縮到“模型優先”。視訊、語音等多模態模型仍在研究,這是他們有優勢的方向。我們瞭解到,閔俊傑也把一部分產品的員工轉到模型團隊,並為文字模型重新分配算力,核心資源集中到語言模型的基礎能力上,增加數學與程式資料的比重。他之前說,MiniMax沒必要為了一篇新聞稿,就訓練一個類似o1那樣的推理模型。他們10月開源語言模型M2時,強調它的程式設計和推理能力突出,使用量在OpenRouter上已經成長到了前五名。 「應該創業第一天就開源。」髕俊傑年初說。兩家公司似乎回到了剛創業時的狀態,都把提升模型的能力當作主線,投資者也不再過度給公司提建議。公司的經營依賴創業者本身管理能力。髕俊傑看起來溫和,但一旦做出決定,執行起來極為堅決。在MiniMax創業初期,團隊曾嘗試3D數位人方向。工程尚未上線,閔俊傑判斷這條路與公司長期技術路線不符,就立即叫停。計畫解散,剛組成的團隊經歷第一輪震盪。2024年起,MiniMax的中層開始密集流動:產品負責人、商務負責人、資料科學負責人、成長負責人、戰投負責人等陸續離開。例如MiniMax對齊團隊兩年內換了三任負責人——第一任因與髕俊傑激烈爭論技術進展,被降為普通工程師;第二任由下屬提拔,半年後離職。 MiniMax早期的一百名員工,如今已走了一半。「不是同路人的這些同事,我會請他們離開。我已經請走了幾位。」閔俊傑曾在公司全員會上說。在他看來,好的成果不是某個人靈光一現的產物,而是科學方法和團隊配合下的必然發現,就算個人能力不算頂尖,只要能讓團隊跑得更快,就是合適的人才。閔俊傑認為,管理公司就是優化函數,目標是商業化效率、呼叫量等變量,管理的核心任務就是找到“梯度下降最快的方向”,不斷逼近最優解。MiniMax的許多決策,像是不做3D、選擇MoE架構、做視訊模型,都屬於「算出來的結果」。甚至MiniMax每兩周一次的全員分享會,也叫「CD」(Coordinate Decent演算法)。楊植麟相信那些能提出新想法的人才,「因為在這個領域,創新本身最有價值」。他願意為了招攬一名自己欣賞的技術人才,從北京飛到深圳,聊上十個小時,第二天趕早班機返回;也會讓優秀的研究者自己一個人在異地自由工作。他傾向於先達成共識,然後再迅速行動。月之暗面的第一款模型亮相時,主打20萬長文字上下文。但一開始,核心團隊有人並不看好這個方向。一位月之暗面早期員工回憶,2023年5月公司就有人提過做長文字,卻被其他人否決,理由是演算法視角裡,這只是壓縮問題,是工程活,不是技術突破。這個方向就沒有推進。兩個月後,Anthropic發布處理50萬文字的Claude模型,引發產業震動。長文字成為月之暗面內部共識。 「Lossless long context is everything」 成了楊植麟常提的一句話。但如今AI公司把追求模型能力當公司經營的核心變得愈發困難。早期的OpenAI是一個參考答案。他們的團隊延續了「學術式」 的工作節奏,用實驗和試錯推動技術研究,領先技術成果誕生後加上山姆·阿爾特曼(Sam Altman)從YC帶來的成長策略,推動公司持續發展。 DeepSeek的「學術循環」 模式——批判性思考、原子化創新、推動科學邊界——也是一種策略,但它不用太過於關注商業化和用戶成長。MiniMax和月之暗面很難找到這樣的空間和資源。這場資本密集遊戲裡,資金、算力和生態支援至關重要。 OpenAI的估值已達5,000億美元,要頂著兆美元估值上市;xAI和Anthropic的估值也都逼近2,000億美元。而MiniMax和月之暗面的估值都在40億美元左右。這讓誰能成為中國OpenAI的問題變得沒有意義。在體量較大的美元基金退潮後,中國擁有大規模資金的巨頭不願為新創公司持續輸血,反而成為AI公司的競爭對手。阿里、字節、騰訊,甚至是DeepSeek,研發基礎模型都有主營業務(電商、廣告、量化)供血,短期沒有獲利壓力。MiniMax和月之暗面都在嘗試用更專業的功能(月之暗面的OK Computer、深度研究;MiniMax的專業模式)吸引用戶付費訂閱。但只要字節等公司的同類產品免費,去年下半年的競爭問題必然會再次出現。他們還在繼續找錢。市場消息稱,MiniMax正籌備赴港上市。月之暗面又開了一輪新融資。大模型註定是需要幾百億美元,甚至是千億美元投入的遊戲。新創公司想要走完這條路,創辦人必須證明,這是一場需要他們參與的長期探索,才能獲得更多的理解和支援。這是一道更難的證明題:在巨頭林立、算力稀缺、資本收縮的市場中,是否還有空間容納一種既做基礎研究、又不屬於任何巨頭的AI公司?這不僅需要更多技術突破,也需要一種在當前中國環境下罕見的能力——靠投資機構和業務收入,維持一支高密度的研究團隊持續產出。 (創業邦)
揭秘楊植麟,技術理想主義的孤島還是燈塔
很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)
月之暗面:開啟新一輪融資,估值或飆至40億美元,明年IPO可期
據《華爾街日報》援引知情人士消息稱,AI初創企業月之暗面最新一輪融資已進入收尾階段,估值有望提升至約40億美元(約合284.7億元人民幣)。多名知情人士表示,月之暗面正與IDG資本等多家全球機構洽談資金,整體融資規模可能達到數億美元,潛在投資方包括現有股東騰訊。消息指出,月之暗面希望在今年年底前完成本輪融資。有知情人士透露,公司已向部分潛在出資方表示,目標是在明年下半年啟動IPO。月之暗面和IDG未立即回應置評請求。騰訊表示不予置評。月之暗面(Moonshot AI)於2023年初正式創立,其核心技術團隊堪稱AI領域的“夢之隊”,匯聚了Transformer-XL、RoPE、Group Normalization、ShuffleNet、MuonClip、Mooncake等多項關鍵AI技術的核心發明者。團隊始終秉持著探索精神,致力於尋求將能源高效轉化為智能的最優解決方案。依託兆參數的基礎模型Kimi K2,月之暗面為全球開源技術社區注入了強大的創新動力,帶來了先進的程式碼生成能力和Agentic能力,推動了AI技術在開源領域的進一步發展。同時,月之暗面精心打造的AI助手產品Kimi廣受專業使用者青睞,每月都有數千萬專業使用者借助Kimi不斷拓展自身的認知邊界,在知識的海洋中探索前行。日前,月之暗面再次展現其強大的技術實力,正式發佈並開源了思考模型Kimi K2 Thinking。這一模型的推出,標誌著智能體和推理能力實現了全面提升。Kimi K2 Thinking具備獨特的邊思考邊使用工具的能力,無需使用者進行任何干預,即可自主實現300輪工具呼叫和多輪思考。在自主網路瀏覽能力、複雜資訊收集推理等多項基準測試中,該模型均達到了行業領先水平。特別是在HLE測試中,Kimi K2 Thinking取得了44.9%的優異成績,成功超越了5、Claude4.5、Grok4等頂尖閉源模型。據專業評測機構Artificial Analysis的嚴格測試結果顯示,在智能體工具的呼叫測試中,Kimi K2 Thinking以93%的高分脫穎而出,成為目前第三方機構測量到的最高分;在智能指數測試中,該模型也以67分的成績排名第三,僅次於GPT-美國-5 Code和GPT-5。在訓練成本方面,Kimi K2 Thinking僅花費了460萬美元。在人工智慧全球最大的開源社區Hugging Face中,該模型上線短短兩天,下載量便超過了5萬次,充分展現了其強大的吸引力和市場潛力。月之暗面憑藉在長文字分析領域的顯著技術優勢,成功吸引了阿里巴巴集團、紅杉中國等重量級投資者的關注。此前,該公司於去年8月從騰訊、高榕資本等知名投資方獲得了逾3億美元的B輪融資,為公司的進一步發展提供了堅實的資金保障。作為中國AI產業快速崛起的傑出代表之一,月之暗面持續加大在技術研發和商業化處理程序方面的投入,不斷推動AI技術的創新與應用。與此同時,行業內多家技術公司也在加速推進上市計畫,中國AI產業呈現出蓬勃發展的良好態勢。過去數月,多家中國AI企業紛紛推出更具競爭力的模型產品,這些產品不僅定價低於美國頭部模型,還以開源形式免費發佈,進一步加劇了市場競爭,也為中國AI產業的發展注入了新的活力。目前,月之暗面已著手籌備下一代模型的研發工作。公司創始人楊植麟在Reddit平台的“Ask Me Anything”活動中,針對關於K3模型發佈時間的問題回應道:“會在奧爾特曼那座兆美中繼資料中心建好之前發佈。”這一表態無疑讓業界對K3模型的發佈充滿了期待。 (中概股港美上市)
罕見!月之暗面楊植麟、周昕宇、吳育昕回應一切:打假460萬美元、調侃OpenAI
Kimi現階段優先考慮絕對性能。智東西11月11日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動,月之暗面聯合創始人兼CEO楊植麟等人在Kimi K2 Thinking模型發佈後不久,正面回應了模型訓練成本、跑分與實際體驗差距等熱點議題。Kimi K2 Thinking模型訓練成本僅為460萬美元的網路傳言喊得響亮,不過,楊植麟已經打假了,他稱,這並非官方資料,訓練成本很難量化,因為其中很大一部分用於研究和實驗。他還透露,月之暗面已經在研究K2的VL(視覺-語言)版本了。有不少海外網友提出了十分尖銳的問題,比如Kimi K2 Thinking的推理長度過長,榜單成績與實際體驗不符等問題。楊植麟解釋了背後的原因,他稱現階段該模型優先考慮絕對性能,token效率會在後續得到改善。榜單高分與實測的脫節,也會在模型通用能力補齊後獲得改善。10月底,月之暗面開源了混合線性注意力架構Kimi Linear,首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了全注意力機制,引來不少開發者關注。楊植麟稱,Kimi Linear的KDA混合線性注意力模組,很可能會以某種形式出現在K3中。而當網友問及K3的發佈時間時,楊植麟戲謔地回應道:“在Sam價值兆美元的資料中心建成之前。”月之暗麵糰隊似乎還在另外幾條評論中調侃了OpenAI。當網友問及有無AI瀏覽器的開發計畫時,月之暗面聯合創始人兼演算法團隊負責人周昕宇稱,要做出更好的模型,並不需要再去套一層新的Chromium殼。而當網友好奇OpenAI為何要燒掉那麼多錢時,周昕宇稱:“這個問題只有Sam才知道。我們有自己的方式和節奏。”面對外界關於“開源是否會帶來安全風險”的提問,楊植麟回應稱,開放安全對齊技術堆疊有助於更多研究者在微調開源模型時保持安全性,同時他也強調需要建立機制,確保這些後續工作遵循安全協議。他還在另一條評論中補充道:“我們擁抱開源,因為我們相信對AGI(通用人工智慧)的追求,應該帶來團結,而不是分裂。”月之暗面聯合創始人吳育昕也一同參與了這場問答,楊植麟、周昕宇、吳育昕圍繞Kimi系列模型的架構創新、訓練細節、開源策略以及未來規劃與網友進行了交流。01. K2 Thinking現有優先順序是性能獨特文風背後有訣竅在這場活動中,最受關注的焦點是Kimi K2 Thinking模型,這是月之暗面最新發佈的開源推理模型。有網友稱,自己測試了Kimi K2 Thinking與GPT-5 Thinking,前者的正確率領先,但推理時間更長,像是在不停複查自己。對此,楊植麟稱,他們正在積極最佳化token使用效率。當前版本中,優先考慮的是絕對性能而非token效率。月之暗面會嘗試將效率納入獎勵機制,以便它能學習如何簡化思考過程。還有網友質疑,Kimi K2 Thinking是否經過專門訓練,以在HLE這一基準測試中取得好成績?它的高分似乎與實際使用中的智能水平不太相符。楊植麟回應道,Kimi K2 Thinking在提升智能體推理能力方面取得了一些進展,使其在HLE測試中得分較高。月之暗面正在努力進一步提升其通用能力,以便在更多實際應用場景中充分發揮智能的作用。另有網友問道:“為何K2 Thinking能在一次推理中保持如此長的思維鏈,而GPT-5不行?”楊植麟解釋道:“我認為推理時間取決於API吞吐,而推理token的數量取決於模型訓練方式。我們在訓練Kimi K2 Thinking時傾向於使用更多的思考token以獲得最佳效果。我們的Turbo API會更快,同時Kimi K2 Thinking原生採用INT4,這也提升了推理速度。Kimi K2 Thinking是一款純文字模型,有網友提問稱,這究竟是為了達到SOTA而做出的短期權衡,還是一項長期投資?楊植麟回應,獲得正確的VL資料和訓練需要時間,因此月之暗面選擇先發佈文字模型。Kimi K2系列模型不阿諛奉承、直接的文風在AI界算是一股清流,有不少網友認可這種風格。吳育昕稱,這種寫作風格是模型後訓練資料和評估的重要組成部分。談及KDA,楊植麟稱,從歷史上看,混合注意力在長輸入和長輸出任務上要超越全注意力一直很困難。KDA在所有維度上都展示了性能提升,包括長思維鏈RL場景,同時保持了線性注意力的高效性。另一位網友補充道,希望KDA能結合擴散模型使用。楊植麟認為這一想法是可行的,但文字擴散(text diffusion)比較困難,可能是因為在將擴散應用到文字上時,還沒有足夠好的先驗。周昕宇在技術層面進一步解釋了KDA的對比優勢。他稱,KDA混合架構結合NoPE MLA後,在預訓練和強化學習階段均優於採用RoPE的完整MLA。不僅基準得分更高,還更快、更經濟,使他們能夠更高效地訓練、部署並服務更多使用者。未來,月之暗面還有進一步改進,成熟後會公開。近期,DeepSeek、智譜都曾發佈以視覺方式作為輸入,以提升效率的探索。不過,周昕宇稱,他個人認為這種方法過於刻意,自己更傾向於繼續探索特徵空間,尋找更通用、與模態無關的方法來提高模型效率。此前,月之暗面曾經在模型中採用了Muon作為最佳化器,網友認為這一最佳化器相對來說未經測試,這一決定似乎有些瘋狂。周昕宇解釋了採用Muon的歷程。他稱,Muon是一個未經其他廠商測試的最佳化器,但月之暗面已經用它進行了所有的擴展測試,結果都通過了。他們對自己的研究成果充滿信心,網友或許認為Muon只是運氣好,但實際上有幾十種最佳化器和架構沒有經受住這樣的考驗。02. “被封禁”已超出控制範圍上下文窗口將進一步擴展月之暗面三位聯合創始人還集中回應了與模型服務、開源等相關話題的疑問。有網友稱,Kimi在自己的公司已經成為主要的測試模型,但生產環境會切換到美國本土的模型。這主要是因為領導層擔心Kimi是“中國大模型”,可能存在一些風險。這位網友還分享,自己很喜歡使用Kimi App,自己一位在亞馬遜工作的朋友也很喜歡這一應用,但由於亞馬遜有規定必須使用自家的AI助手,禁止在工作場合使用其他主流的AI助手App。網友擔心,隨著Kimi逐漸變得知名,她會不會再也無法在工作場合中使用呢?吳育昕回應稱:“雖然被“封禁”往往超出我們的控制範圍,但開源該模型有望成為消除部分顧慮的有效途徑(企業可以自行部署)。我們希望看到一個更加信任的世界,但這需要時間。”上下文一直是影響AI模型在生產環境應用的重要因素。目前,Kimi K2 Thinking最大支援256K的上下文,有網友反饋這對大型程式碼庫而言並不算大。楊植麟稱,月之暗面應該能在未來的版本中增加上下文長度。還有網友希望月之暗面能將模型上下文窗口提升到100萬個token,周昕宇回覆道,月之暗面之前已嘗試過100萬個token的上下文窗口,但當時的服務成本太高。未來他們會重新考慮更長的上下文窗口當被問及有無AI瀏覽器的開發計畫時,周昕宇十分犀利地回覆道:要做出更好的模型,並不需要再去套一層新的Chromium殼。楊植麟稱,月之暗面目前將專注於模型訓練,但會不斷更新kimi.com ,使其包含最新功能。還有不少網友提到,希望月之暗面能推出規模更小的模型。楊植麟稱,Kimi-Linear-48B-A3B-Instruct就是月之暗面發佈的小型模型之一,未來他們可能會訓練更多模型並加入更多功能。目前,Kimi已經提供了程式設計訂閱方案,這一計費方式是基於API請求次數,有網友稱這種模式導致資源消耗偏高。月之暗面回應稱,API請求次數計費能讓使用者看到費用明細,同時也更符合企業的成本結構。不過,他們會盡快找到更好的方案。03. 結語:中國AI創新能力獲得認可從社區中海外開發者的熱烈提問和尖銳反饋可以看出,以Kimi系列為代表的中國模型正受到前所未有的關注。月之暗面此次在Reddit平台的公開問答,集中回應了全球網友對Kimi技術細節的大量興趣和疑問。這種關注背後,也折射出全球開發者對中國AI創新能力的認可。 (智東西)
Kimi K2拿到了世界第一,也殺死了過去的自己
7月12日深夜,月之暗面更新了最新的大模型——Kimi K2,並將模型權重和程式碼全部開源。海內外AI圈瞬間炸鍋。在大模型競技場LMArena排行榜中,Kimi K2綜合排名斬獲全球第五,在開源大模型中位居全球第一,超越Claude 4、DeepSeek-R1-0528。海外AI圈大佬紛紛點贊,Perplexity CEO次日即宣佈將基於K2開啟後訓練。我們原本認為,K2的發佈只不過意味著月之暗面趕上了節奏,獲得了“短暫的呼吸權”。但當深入閱讀技術文件後我們卻發現,K2對於月之暗面以及行業的意義,遠比短暫的第一要更加重大。01 Kimi為何“遲到”?月之暗面曾憑藉獨樹一幟的長上下文技術和天才創始人背景,成為中國“AI六小虎”中最典型的代表。然而從今年1月份,Kimi的聲量卻逐漸式微,模型及產品的口碑開始出現下滑。要理解Kimi K2的轉向,我們必須先理解一個問題:為何Kimi陷入長達數月的沉寂。楊植麟以及月之暗面,在過去一直都是Scaling Law的忠實信徒。他們堅信,更大的模型、更多的資料,必然會湧現出更強的智能。通過卓越的產品體驗吸引使用者,利用使用者資料反哺模型訓練,從而形成“使用者資料”與“模型性能”的增長飛輪。因此月之暗面自創立之初起,就一直採取激進的“買量”策略,以期獲得更多使用者資料來驅動飛輪旋轉。2024年11月,楊植麟在接受採訪時表示,Kimi當前最核心的任務仍然是提升使用者留存。這個戰略聽起來很完美,但它建立在一個脆弱的前提之上——高品質的網際網路資料是取之不盡的。然而2024年底AI技術圈的風向徹底改變。前OpenAI科學家Ilya在演講中,預告了一個殘酷的現實:全球範圍內,可用於高品質預訓練的公開資料,已經被消耗殆盡。這與月之暗面一直堅持的Scaling信仰產生了巨大的矛盾。之後的故事我們已經很熟悉了。深度求索搶先佈局,依靠DeepSeek R1開闢了一種新的技術範式:依靠後訓練強化學習,讓大模型從“模仿學習”轉向更本質的“目標導向學習”來突破智能上限,是這個版本實現AGI的新路徑。儘管月之暗面也意識到強化學習的重要性,但在Kimi 1.5的訓練中,強化學習僅僅只是一個解決長文字 “上下文衰減問題”的輔助環節,而並非如R1那樣聚焦 “提升推理能力”,幫助模型突破智能上限。根據AppGrowing測算,2024年Kimi一年花掉的行銷預算接近9億人民幣,月活流量資料峰值為10月的 3600 萬。而一分廣告費沒花的DeepSeek,單單依靠產品實力和使用者口碑,月活一個月就暴漲至6181 萬。DeepSeek R1的出現直接引發了AI創業公司的存在主義危機。月之暗面的使用者增長策略開始備受質疑。這種巨大的壓力當然不僅僅只有月之暗面一家公司需要面對,R1給行業帶來挑戰是一視同仁的。當舊地圖已經無法通向羅馬,月之暗面必須找到一條全新的航線。02 Kimi K2 趟出的一條新航線Kimi K2 的“新”首先是在模型架構、演算法上的全面革新,更深層次則是月之暗面公司戰略甚至文化的重新出發。在大模型層面,K2取得了兩個突破性進展:(1)將模型參數量擴展到了超大的1T量級(2)K2原生具有呼叫各種工具的能力,提出了“模型即Agent”的新概念這兩個技術創新說起來容易,但真正實現卻十分困難,否則Kimi也不會消耗了大半年的時間才將K2端上來。Kimi是怎麼做到的呢?首先,為了實現K2 1T的參數量規模,Kimi果斷放棄了此前自研的模型架構,轉而積極擁抱DeepSeek V3。根據Kimi團隊的觀點,V3是一個被市場驗證過的、兼具性能和效率的選擇。於是,很多人抨擊K2就是DeepSeek V3的套殼,這顯然又是一種淺薄的傲慢。根據第一性原則,不拘泥於固有思維,只關注方案是否有效、可用,這恰恰反映了Kimi團隊的進步。合適的架構選擇只是第一步,K2與V3在具體參數上的差別非常大。根據團隊此前對Scaling的研究,為了在算力並不充裕的情況下突破智能上限,Kimi選擇減少DeepSeek V3 MoE結構中的Attention Heads(注意力頭)數量,將節省下來的參數空間全部用於增加專家的數量(Experts)。就理論而言,更多的專家數意味著模型擁有更龐大的知識,以及更強的處理複雜問題的潛力。然而,參數的輕微改動卻產生了巨大的麻煩。Kimi發現,此前內部已經驗證過的自研Muon最佳化器,在龐大的資料集的預訓練過程表現極不穩定,會頻繁崩潰。這困擾了Kimi團隊很長的時間,沒有公開的解決方案能應用於穩定15T量級的預訓練資料集。經過長期的嘗試,Kimi巧妙的將Muon與QK-Clip的組合,提出了一種新的MuonClip最佳化器。MuonClip最佳化器能很好地保持在預訓練的穩定性,最終保證了模型在15.5T tokens的巨量預訓練中,實現了零崩潰的穩定表現。它的Loss曲線是這樣的,海外AI圈大佬稱其為“完美的Loss曲線”。K2的第二個壯舉,是提出來一條通往原生Agentic Intelligence(智能體人工智慧)的新思路。眾所周知,繼推理大模型普及之後,Agent 在今年正式成為 AI 新的發展方向。AI Agent與對話類大模型最大的區別,就是AI Agent 能做到主動感知環境、影響環境,具備使用工具的能力。今年我們見證了MCP概念的火熱與普及,Cursor等 AI 程式設計產品開始大規模普及,OpenAI及國內廠商先後也發佈了不少通用Agent產品。在此前的認知中,大模型的使用工具的能力,大多需要通過複雜的提示工程(Prompt Engineering)或在預訓練後進行強化學習(RLHF)來“後補”。但Kimi K2 卻提出了訓練Agent的第三條路徑。在模型訓練之前,Kimi團隊依靠AI生成了成百上千個模擬場景,例如點外賣、寫程式碼、看視訊等,來模擬使用者的各種行為,並據此合成了覆蓋了數百個垂直領域的工具呼叫軌跡,其中既包括真實的MCP(模型上下文協議)工具,也包括合成工具。通俗點說,這就相當於直接將無數使用者未來可能使用Agent的所有場景,提前打包成了全新的、高品質的語料。最後再通過LLM從結果去評估每條模擬結果成功與否,以此篩選出高品質的訓練資料。基於此流程,月之暗面搭建出了一個完全自動化的Agent資料生產工廠!正如Kimi團隊研究員Flood Sung所言,這個生成無數個工作流的機制,十分契合老子的思想:一生二,二生三,三生萬物。這就讓Kimi K2在預訓練中,學到的不僅僅是知識,還包括工具和方法。最終我們看到,Kimi K2具備了很強的原生Agent能力。在我們的測試案例中,Kimi K2幾乎零失誤地實現了我們搭建前端網頁、開發小遊戲的需求。在官方公開的衡量程式碼任務執行能力的LiveCodeBench測試中,K2取得了53.7%的驚人成績,遠超GPT-4.1的44.7%和Claude 3.5 Opus的47.4%。不少從業者反饋,當K2的API完全接入Claude Code之後,能以更低的成本完美的取代原本Claude 3.5的能力,效果甚至直逼最先進的Claude 4.0。03 尾聲:先改變自己,再改變世界最後,我們想聊一聊月之暗面公司本身的戰略轉型。人們熟悉的月之暗面,是一家堅持產品、模型雙管齊下,有時候看起來甚至是更偏向產品驅動的AI公司。這當中自然有面對30億美元融資的無奈。參照過去網際網路時代行業“燒錢”換使用者的慣性思維,似乎只有使用者數量的持續增長,才能回應投資人的期待。網際網路可以通過平台免費+廣告變現的方式,將流量無痛轉化為收入,但AI與廣告在核心上就水火不容:前者強調效率提升,後者分散注意力。真正為AI創業公司創造價值的是付費使用者,付費使用者只會為效率和結果買單。C端使用者在乎的,是模型能力是否足夠聰明、通人性;B端使用者關心的,是AI能否幫企業賺更多錢。這也是為什麼DeepSeek R1能不花一分行銷預算就收穫巨量使用者——它足夠滿足需求,這就夠了。Kimi團隊在社交媒體上透露,公司在DeepSeek爆火後,內部對此前的決策進行了深刻乃至痛苦的反思。自2025年初開始,Kimi完全停掉了所有市場行銷和買量行為。“只要模型做的好,就會獲得市場認可”這是一個Kimi研究員從DeepSeek成功歸納出的結論。在反思會上,楊植麟果斷決定不再更新 K1 系列模型,集中資源搞基礎演算法和 K2,將全部資源和能力重新聚焦到大模型性能的提升上來。截至發稿日,Kimi開源第一的位置似乎已被阿里Qwen再次反超。但這些都不重要,從Kimi K2身上我們能夠看到月之暗面正在改變自己:放棄自研的架構去擁抱更優秀的架構;暫停買量,回歸技術研究,用實力說話;加入開源陣營,分享探索出的新技術路徑……無論是架構還是戰略上,我們可以肯定地說,是DeepSeek喚醒了Kimi。但我們更希望這是一個青出於藍而勝於藍的故事。 (新財富)