很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)