#楊植麟 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#楊植麟

Kimi K2.5登頂開源第一！15T資料訓練秘籍公開，楊植麟劇透K3

開源熱榜第一輪流做，現在花落Kimi。在Hugging Face上，Kimi K2.5登上了Trending榜首，下載量超過了5.3萬。Kimi K2.5主打Agent能力，在HLE-Full、BrowseComp等測試集中，成績超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗艦閉源模型。而且極具性價比，在BrowseComp上達到比GPT-5.2更高的表現，Kimi K2.5的資金消耗僅有不到5%。現在，官方的技術報告也已經亮相，Kimi K2.5怎樣練成，我們可以從中窺探一些答案。原生多模態，15T Token混合訓練Kimi K2.5在K2的架構基礎上，投入了15T的視覺與文字混合Token進行持續預訓練。它選擇了一條原生多模態的技術路線，讓同一套參數空間直接處理視覺訊號與文字邏輯。在15T這樣龐大的資料量級下，視覺理解與文字推理能力實現了同步增強，一改往日“此消彼長”的局面。這種統一的參數架構，讓模型能夠像理解語法結構一樣，精準解析像素背後的邏輯語義。有了這套原生底座，K2.5解鎖了“視覺程式設計”能力。因為能在像素層面進行推理，它具備了從視訊流直接逆向推導程式碼的能力。面對一段包含複雜滾動觸發特效或動態互動佈局的網頁演示視訊，模型能夠準確捕捉視覺元素隨時間軸變化的規律，並將其直接對應為可執行的前端程式碼。這一過程跳過了“視覺-文字”的中間環節，讓開發需求能夠以最直觀的視覺形式傳遞給模型，實現了從設計演示到程式碼實現的無損轉化，即便是極其複雜的動態互動邏輯也能被精準還原。為瞭解決程式碼能跑但樣式不對的問題，K2.5還整合了自主視覺偵錯機制，在程式碼生成並渲染出介面後，模型會呼叫視覺感知能力對實際運行的頁面進行驗收。一旦發現佈局錯位、樣式偏差或動畫異常，模型會自動觸發文件查詢工具，查閱相關技術文件定位問題，並對程式碼進行修正。這種“生成-觀察-查閱-修復”的自動化閉環，模擬了高級工程師的偵錯流程，讓模型具備了獨立完成端到端軟體工程任務的可靠性。超大規模“智能體叢集”為了能更好地解決複雜任務，Kimi K2.5還搭載了Agent Swarm架構。這是一套能自主建構百人規模數位化團隊的平行系統，讓模型獲得了“分身”能力，可以瞬間建立並編排多達100個子智能體，並支援呼叫1500個工具的平行工作流。這種機制將全網深度搜尋或海量資料分析等複雜任務，拆解為無數個同步進行的子任務，利用叢集算力大幅壓縮了處理時間。指揮這支龐大團隊運轉的是PARL（平行智能體強化學習）框架。該框架建立了一套嚴密的指揮體系，由核心的調度器和眾多子智能體構成。調度器如同指揮官，負責宏觀層面的任務拆解與分發；子智能體則作為執行層，在參數凍結的狀態下專注於高效完成具體指令。這種動靜結合的設計，既賦予了系統靈活規劃的能力，又保障了大規模平行操作的邏輯嚴密性。為了讓模型學會高效分工，訓練過程採用了一套階段性獎勵塑造策略。系統在初期會優先激勵調度器進行平行化探索，培養其“多管齊下”的直覺；隨著訓練深入，獎勵重心平滑過渡至任務的最終成功率。這種循序漸進的訓練方式，讓模型建立了在保證結果精準的前提下，最大化利用並行優勢的思維習慣。在效率評估上，系統引入了臨界步驟作為核心指標，基於平行計算的關鍵路徑原理，聚焦於調度開銷與最慢子智能體的耗時。這種機制倒逼模型在決策時，必須優先考慮如何縮短端到端的實際等待時間。只有在能切實提升響應速度的情況下，系統才會增加平行度，從而在極致速度與計算資源消耗之間找到了最佳平衡。楊植麟劇透Kimi K3K2.5上線後不久，月之暗面的三位創始人——楊植麟、周昕宇和吳育昕現身Reddit，來了一場長達3小時的AMA問答。面對全球開發者和的提問，他們直接把程式碼背後的思考、未來的劇透甚至尷尬的Bug都攤開來聊了個透。對於大家最關心的下一代Kimi K3，團隊給出了一個相當硬核的預告——它很可能基於線性注意力機制。楊植麟更是直言，雖然不敢打包票，但K3相比K2.5那怕沒有10倍的提升，也絕對會有質的飛躍。針對K2.5偶爾會自稱Claude的趣聞，團隊也給出了坦誠的解釋——這是因為Kimi“吃”了太多高品質的程式設計訓練資料，而這些資料裡充斥著Claude的名字。這就像讀了太多某位作家的書，說話難免帶上對方的口頭禪。此外他們也對算力焦慮問題進行了回應，演算法負責人周昕宇拋出了一句“創新往往誕生於約束之中（Innovation loves constraints）” 。在他們看來，堆砌算力不是通往AGI的唯一路徑，在有限的資源下逼出更高效的演算法、更聰明的架構，才是這家實驗室真正的“登月”野心。 (量子位)

月之暗面三位聯創深夜回應一切！3小時答全球網友23問，楊植麟劇透Kimi K3提升巨大

月之暗面的價值觀是“把事情真正做成並落地”。智東西1月29日報導，今天凌晨，月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答（AMA）活動。三位聯合創始人楊植麟（CEO）、周昕宇（演算法團隊負責人）和吳育昕與全球網友從0點聊到3點，把許多關鍵問題都給聊透了，比如Kimi K2.5是否蒸餾自Claude、Kimi K3將帶來的提升與改變，以及如何在快速迭代與長期基礎研究之間取得平衡。▲AMA欄目截圖（圖源：Reddit）一開始，便有網友拋出尖銳問題：Kimi K2.5有時會自稱為Claude，有人懷疑這是對Claude進行蒸餾的證據。楊植麟回應道，這一現象主要是由在預訓練階段對最新程式設計資料進行了上採樣，而這些資料似乎與“Claude”這個token的關聯性較強，事實上，K2.5在許多基準測試中似乎都優於Claude。談及Kimi K3，楊植麟沒透露太多細節，但提到了K3會在Kimi Linear上加入更多架構最佳化，他相信，就算Kimi K3沒比K2.5強10倍，也肯定會強很多。整場問答中，月之暗面的三位聯合創始人共回答了40多個問題。智東西也向他們提出了3個問題，並獲得了直接回應。當智東西問及月之暗面的算力儲備時，楊植麟稱，GPU數量的差距並未縮小，但實現AGI究竟需要多少算力，仍需拭目以待，而周昕宇補充了一句頗具哲理的話：創新往往誕生於約束之中。▲楊植麟、周昕宇回應智東西關於算力儲備的問題（圖源：Reddit）周昕宇還提到，月之暗面有“把事情真正做成並落地”的共同價值觀，而不僅僅是為了表面光鮮。此次AMA正值Kimi K2.5的發佈。這是月之暗面目前最強大的模型，在視覺、程式設計、Agent以及各種通用任務上都有不錯的表現，還通過一項名為智能體蜂群的技術實現一個模型對多達100個“子智能體”的調度，任務執行效率最高提升450%。發佈後2天左右，Kimi K2.5獲得權威AI評測榜單Artificial Analysis開源模型第一的成績，僅次於來自OpenAI、Anthropic和Google的4款模型。我們將AMA中的精華內容梳理歸納為23個關鍵問題，分為三章呈現，第一章聚焦月之暗面公司本身及AI行業相關話題，第二章介紹Kimi K2.5的技術細節，第三章展望月之暗面的未來規劃。完整問答連結：https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/01. GPU數量差距並未縮小但創新往往誕生於約束之中（1）智東西提問：在上次的AMA中，您提到月之暗面的GPU數量（相較其他企業）處於劣勢。在2026年，這種差距會縮小嗎？楊植麟：我認為差距並沒有縮小。但是，要實現通用人工智慧（AGI）究竟需要多少算力？我們拭目以待。周昕宇：可用算力受到太多因素的影響。但無論如何，創新往往誕生於約束之中（innovation loves constraints）。（2）網友提問：您對DeepSeek的Engram架構有何期待？您是否正在考慮採用這種架構？周昕宇：對嵌入進行Scaling是一個值得探索的有趣方向。但在我們通過Scaling階梯對其進行測試之前，我們還沒有太多可靠的資料。（3）智東西提問：這是一個關於你們研究文化的問題。大規模模型訓練會消耗大量的GPU時間，如何界定沉沒成本？比如說，某個方向經過三個月的實驗後沒有明顯的性能提升，你們的團隊會根據那些指標來決定是繼續、調整方向還是徹底放棄？鑑於行業內快速迭代的步伐，你們是否擔心追求短期成功的壓力，會影響那些需要多年才能見效的基礎研究？您如何使您的團隊免受這種壓力的影響？周昕宇：非常好的問題。針對第一個問題，我們會將所有相關實驗的結果分享給所有技術人員，並進行深入討論，直到最終決定是繼續、轉型還是徹底放棄。討論每天都會進行，我們鼓勵每個人對所有事情提出質疑，從目標設定到最細微的技術細節。針對第二個問題，長期以來，我們在押注技術基本面的走勢上有著相當不錯的記錄。MoBA幾乎從公司成立之初就開始了；Kimi Linear也經歷了將近一年的探索與掙扎。關鍵在於團隊要有“把事情真正做成並落地”的共同價值觀，而不僅僅是為了表面光鮮。我們的組織、文化和管理都是為了支撐這一價值觀而建立的。（4）網友提問：你們最喜歡工作中的那一部分？楊植麟：我們喜歡訓練模型，因為這讓人感覺在不斷接近真相：關於什麼是有效的、什麼是無效的真相，關於智能是如何被創造出來的真相。（5）網友提問：請問訓練視覺語言模型（VLM）的主要挑戰是什麼？為什麼Kimi如此致力於訓練視覺模型？楊植麟：主要挑戰在於如何同時提升文字和視覺性能。我們發現，當方法得當時，文字和視覺可以相互促進。例如，我們觀察到，在視覺任務上進行強化學習訓練可以提升文字知識基準測試的成績。另一方面，像K2這樣強大的文字庫對於提升視覺性能也至關重要。（6）網友提問：Kimi Code和Claude Code有什麼區別？為什麼Kimi要開發自己的程式設計工具？楊植麟：我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時，框架會不斷變化，相容性有時會成為問題。此外，Kimi Code還擁有一些獨有的功能，例如視訊輸入。我們認為video2code（視訊生程式碼）非常重要，代表著前端開發的未來。（7）網友提問：強化學習基礎設施已成為關注的焦點。考慮到訓練像智能體蜂群這樣的系統的複雜性，在像verl這樣的開源框架上實現起來會相當具有挑戰性。你們在強化學習基礎設施方面所做的具體改進是什麼？吳育昕：強化學習基礎設施的確是一項巨大的挑戰，我們力求在保持良好靈活性的同時實現高效率。在效率方面，我們嘗試在開發訓練和推理系統時充分考慮強化學習的實際應用場景，以便復用所有繁重的計算工作，從而實現規模化擴展。智能體蜂群的部署邏輯尤其複雜，但我們的系統具有極高的靈活性，允許我們將不同的框架和子智能體設定整合到訓練過程中。（8）網友提問：我想問一下與你們的Scaling階梯有關的問題。你們開始實驗的最小規模（主動/被動）是多少？通常步長是多少？另外，你們是否會根據所做的更改類型（資料、最佳化器、線性注意力機制等）採用不同的Scaling階梯？周昕宇：我們從非常小的規模開始。我個人有時會從小到可以在單個CPU上訓練的模型開始。核心目標是預測系統的可擴展性。有些架構無法擴展，有些最佳化器無法擴展，甚至有些資料也無法擴展。在低FLOPs下評估可擴展性是一個有趣的研究課題，它需要對訓練過程中的數學動態有深刻的理解，同時也需要兼顧嚴謹性和創造性。舉個例子：我們曾經急於將Kimi Linear移植到Kimi K2中，但它在達到一定規模後Scaling失敗了。我們不得不暫停開發，經過漫長的偵錯過程，最終歷經數月才使其達到如今Kimi Linear的水平。從統計學角度來看，大多數小規模行之有效的方案都無法突破規模化瓶頸。而那些能夠成功推廣的方案通常都簡單有效，並且有數學依據。研究的重點在於如何應對失敗，而不是慶祝成功。02. 模型自稱Claude並非因為蒸餾智能的上限取決於新學習演算法（9）智東西提問：Kimi K2.5使用了平行智能體強化學習技術。你們會不會將主要算力預算從預訓練轉向強化學習？在K3路線圖中，強化學習的算力規模是否會超越預訓練？楊植麟：強化學習的計算量將持續增長。更重要的是，增加強化學習計算量的方法有很多，而且有些方法比其他方法更有效。未來可能會出現更多新的目標函數來對模型進行強化訓練，尤其是在智能體領域。（10）網友提問：Kimi K2.5已經證明，通過強化學習擴展思考token是實現前沿推理的可行途徑。考慮到訓練CoT（思維鏈）策略的巨大工程開銷和生成思考token的推理延遲，你們是否正在探索架構遞迴作為一種在不將計算外部化到KV快取的情況下實現P/poly複雜度的方法？楊植麟：在當前的架構下，我們所關心的許多問題在計算意義上其實都是可解的。在很多情況下，模型能力的瓶頸並不在於其路線複雜度（circuit complexity），而在於任務本身是否是可驗證的。這意味著兩點：一方面，我們當然可以通過設計更高效的架構來降低特定任務所需的路線複雜度，從而提升token使用效率；不過，智能的上限更多地取決於能否發明新的學習演算法。這些演算法應當能夠超越預先定義的、可驗證的任務，而不僅僅是依賴更高效的模型架構。（11）網友提問：Kimi K2.5非常棒，但我看到有人說模型會自稱為Claude，並把這當作你們大量蒸餾（distill）自Claude模型的證據。這是怎麼回事？楊植麟：我們的觀察是，在正確的系統提示詞下，它有很高的機率回答“Kimi”，尤其是在思考模式下。但當系統提示為空時，它就進入了一個未定義區域，這更多地反映了預訓練資料的分佈情況。其中一項改進是，我們在預訓練階段對來自網際網路的最新程式設計資料進行了上採樣，而這些資料似乎與詞元“Claude”的關聯性更強。事實上，K2.5在許多基準測試中似乎都優於Claude，例如HLE、BrowseComp、MMMU Pro和MathVision等等。（12）網友提問：我想知道你們是如何降低K2的幻覺問題的？幻覺問題似乎是K2模型的主要弱點，也是我之前沒有使用Kimi的原因。但目前來看，2.5版本更加可靠。吳育昕：對於所有大模型來說，管理幻覺仍然是一個巨大的挑戰。我們已經通過提高資料質量（更多經過驗證的知識，更少低品質的說法）和獎勵機制（例如，當模型出現幻覺時進行懲罰）來改善這種情況，但我們認為仍然有很多方法可以進一步改進。（13）網友提問：Kimi K2.5使用了較高的參數比例（約470:1）。您認為我們目前是否因為使用15兆個token進行過度訓練而“浪費”了計算資源？吳育昕：我不確定1:1最優性是否仍然成立，但從這個意義上講，我們確實會“浪費”一些訓練計算資源。否則模型會更大，並且與我們現在的模型相比，會“浪費”大量的推理計算資源。周昕宇：如果你追求計算最優（compute-optimal）的訓練方式，那麼大多數有用的模型實際上都是被過度訓練的；更大的模型只是“過度訓練得沒那麼嚴重”。而計算最優訓練通常要求模型規模足夠大，這會對現有基礎設施帶來巨大的挑戰，同時也會顯著提高推理成本。我並不認為過度訓練是一種“浪費”，而更像是我們為了獲得更優整體權衡而主動支付的一種“成本”。（14）網友提問：Kimi K2.5的“智能體蜂群”功能最多可協調100個子智能體。在這種規模下，“協調器”模型往往會成為瓶頸。Kimi K2.5如何處理管理100個平行推理流所帶來的延遲和上下文資訊丟失問題？吳育昕：“智能體蜂群”的一個很酷的點在於，各個子智囊團可以在不“腐蝕”或污染主調度器上下文的情況下獨立執行子任務。它們本質上擁有各自的工作記憶，只在必要時將結果返回給調度器。這使我們能夠在一個全新的維度上擴展整體的上下文長度。（15）網友提問：在Kimi K2.5中，你們如何權衡強化程式設計能力與保持甚至提升非程式設計能力（如創意寫作和情緒理解）之間的關係？在K2發佈時你們在官方介紹中強調了創意寫作和情商。團隊是如何在訓練和最佳化過程中，確保這些對使用者體驗至關重要但更“軟性”的能力不發生退化的？楊植麟：在模型參數規模足夠的情況下，我認為程式設計能力和創意寫作之間不存在根本性的衝突。但確實，隨著我們不斷改進獎勵模型，要在不同模型版本之間保持一致的“寫作品味”本身就是一項挑戰。我們的一項做法是依賴內部基準評測（幾乎可以看作一種“元評測”）來反映模型在創意寫作方面的進展，並據此對獎勵模型進行相應調整。（16）網友提問：K2.5的個性和寫作風格明顯變得更加通用，更像其他模型的“貼心助手”風格了。我們非常喜歡K2的個性！K2.5到底發生了什麼？你們是否已經注意到這個問題並正在調查？吳育昕：遺憾的是，每次新版本發佈後，我們都會看到模型“個性”發生一定程度的變化。這是一個相當棘手的問題，因為個性是模型主觀且難以評估的特徵。我們正在努力解決這個問題，並且希望能夠讓產品更好地滿足每位使用者的個性化需求。03. K3將在Kimi Linear基礎上最佳化即便沒比K2.5強10倍也會強得多（17）網友提問：Kimi K3的重點會是什麼？原始性能？長期目標？還是上下文長度？楊植麟：我們正在嘗試新的架構和新功能。（18）網友提問：Kimi K3是否一定會採用線性架構或其他新架構？如果真是如此，您將如何確保K2.5 Thinking的性能得以保留，甚至進一步提升？尤其是在多模態性能方面。我擔心架構改變後可能會出現不穩定的情況。楊植麟：線性架構是一個非常不錯的選擇。我們做了很多研究，包括Kimi Linear。希望我們能在此基礎上加入更多架構最佳化。我相信Kimi K3就算沒有比K2.5強10倍，也肯定會強得多（I'm sure it will be much, if not 10x, better than K2.5）。（19）網友提問：你們未來對線上/持續學習方面有什麼計畫，特別是針對Agentic模型？Kimi Linear與K2.5有什麼關係？線性注意力仍然是主要研究方向之一，還是會發展成為一個獨立的研究分支？周昕宇：我們相信，持續學習能夠提升模型的自主性，並使它們能夠更長時間地高效工作。我們正在積極探索這一方向。Kimi Linear是與K2.5平行開展的一項專門研究項目。我們正大力投資於線性注意力機制，將其作為未來模型的一個關鍵方向。（20）網友提問：你們是如何考慮模型的角色塑造的？如果有的話，你們對“Kimi”這個角色有什麼目標？楊植麟：我認為模型的核心在於“品味”，因為智能本身是非同質化的（non-fungible）。我個人很喜歡K2.5打造的前端設計，它有著獨特的審美取向。模型的性格也是“品味”的一種體現。有報導稱，K2.5相比其他模型更少迎合使用者。這或許是一種好的性格特徵，因為持續不斷地強化使用者原有的觀點，在某些情況下可能是危險的。（21）網友提問：請問你們有計畫開源“智能體蜂群”或者將其作為一項功能加入到Kimi-cli中嗎？楊植麟：目前它還處於測試階段。待其更加穩定後，我們將向開發者提供框架。希望很快就能實現。（22）網友提問：為什麼不把視覺編碼器做得大於400M呢？吳育昕：小型編碼器在很多方面都有利於Scaling，所以我們甚至會問自己：為什麼不把它設為0呢？（23）網友提問：你們有計畫推出帶有原生音訊輸入功能的模型嗎？楊植麟：目前我們沒有足夠的資源來處理音訊輸入，所以可能會把重點放在訓練更好的智能體上。 (智東西)

Kimi狂攬5億美金融資，百億現金儲備劍指AGI

2025年12月31日，月之暗面（Moonshot AI）創始人楊植麟發佈內部信，官宣核心產品Kimi完成5億美元C輪融資，投後估值達43億美元，融資後公司現金儲備超100億元人民幣，短期明確不急於上市。楊植麟，1993年生，清華本科、卡內基梅隆大學電腦博士，前Google Brain、FAIR研究員，NLP領域頂級學者，2023年3月創立月之暗面。本輪融資由IDG資本領投1.5億美元，阿里、騰訊、王慧文等老股東超額認購，其中王慧文累計投資已達7000萬美元，全程耗時不足兩個月，成為一級市場AI賽道的“閃電融資案例”。資金將重點用於激進擴增算力、加速K3模型研發，同時2026年員工平均激勵將提升至2025年的2倍，並上調期權回購額度。技術與商業化雙線爆發成為融資底氣：K2 Thinking模型以兆參數規模斬獲開源模型SOTA成績，在權威基準測試中超越多款頂尖閉源模型；9-11月全球付費使用者數月均環比增長170%，海外API收入激增4倍，其49-199元多檔位會員制與企業級API服務形成清晰盈利路徑。作為國內AGI賽道頭部獨角獸，Kimi憑藉充足資金儲備，在行業從“技術炒作”向“價值落地”轉型的關鍵期，手握戰略主動權，劍指下一代模型與智能體領域的差異化競爭。 (才說資本)

揭秘楊植麟，技術理想主義的孤島還是燈塔

很多個“楊植麟”，組成了月之暗面。圖片來源｜視覺中國“在月之暗面（以下簡稱‘月暗’），天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是，“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”，技術大佬之間溝通直率，也充滿壓力。他們“坦白、激烈、高效”，會當面批評同事，也會把建議無情斃掉。交鋒中，“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後，一切又能像沒發生過。但他認為在月暗“別人‘噴’你，都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高，“大廠裡三五十人團隊干的事，在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”，但月暗仍有獨樹一幟的氣質。“（他們）文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底，楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司，被推到風口浪尖。2025年初，月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年，月暗一度淡出公眾視野，Kimi的C端月活也不斷下滑。據QuestMobile資料，截至2025年9月，豆包MAU突破1.72億，DeepSeek為1.45億，Kimi的MAU僅為967萬。但到7月，Kimi-K2模型的推出，讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔，更在各類基準性能測試上拿下SOTA成績。9月開始直到11月，Kimi又相繼發佈Agent模式“OK Computer”；混合線性注意力架構Kimi Linear；月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性，獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示，已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成？上半年，“大模型六小虎”的核心團隊發生不同程度的動盪，但月暗的聯創與技術梯隊整體穩定。雖然叫停投流，選擇在“模型即產品”上孤注一擲，讓月暗增加了商業化未知數；但在投資人眼中，楊植麟對AGI的偏執，仍讓其成為被追逐的標的。近日媒體獲悉，月之暗面正在進行新一輪融資，規模大約在6億美元，投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金，但在算力、人才消耗上，每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少，大家都在收斂，技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義，對衝擊AGI更加堅定。雖然他們有過商業化的波折，仍然是很稀缺的資產。”01 聚焦絕對性能回頭看，DeepSeek-R1的上線，既給月暗帶去了壓力，也是其重新聚焦技術長板的分水嶺——R1上線前，Kimi還沉浸在投流大法中。據《中國企業家》瞭解，Kimi的投流由張予彤主導，員工將她形容為精力極其旺盛，好像“永動機”。2024年10月、11月，Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包，向Kimi封鎖管道。Kimi只好猛攻B站，把CPA（使用者轉化人均成本）報價從年初的30元拉到了50元。“那時網際網路流量越來越貴，Kimi有趁著品牌紅利期，佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷，便成為國民應用的表現，讓楊植麟警醒。2025年2月中旬，他親自叫停投放，將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈，路線也跟DeepSeek的強化學習一致，但被R1意外“截胡”後，楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅，月暗用連續發佈一系列模型和突破技術，重回大模型牌桌。2025年7月11日，月暗發佈Kimi-K2“超大架構”模型，參數高達1T。目前，全球有實力研發1T參數的大模型公司屈指可數：除了海外的OpenAI、Google，僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T，達到了兆參數。9月底，月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日，月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破，該架構對算力成本實現了極大程度的降低，並能在短上下文、長上下文、強化學習擴展機制等場景中，超越同梯隊全注意力機制模型的表現。簡而言之，能讓使用者“花小錢，辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示：MiniMax的M2模型或由於對“多跳推理”的測試不足，又退回了全注意力機制。而月暗完成了突破，核心在於對線性注意力模組Kimi Delta Attention（KDA）的設計，在每3層KDA中，插入1層全注意力層；並通過更細粒度的門控機制，更有效地利用了有限狀態下的RNN（循環神經網路）記憶體。從而確保性能不掉點的情況下，最大程度節省算力。相比月暗，DeepSeek採用的是“稀疏注意力機制”。近期，DeepSeek也為行業提供了一種新思路——OCR路線研究（純像素輸入模型），把文字渲染成圖片，用視覺模態當壓縮媒介。有趣的是，月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間（Feature Space）裡下功夫，去找到更通用，並且與具體模態無關（Modality-agnostic）的方法，來提升模型效率。”11月11日，月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答（AMA）活動上，如此評價DeepSeek。11月6日，月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入，該模型訓練成本據傳僅為460萬美元。在技術層面，Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”，對MoE元件應用進行INT4權重量化，而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外，對推理硬體的相容性更強，對輝達低端GPU和國產加速計算晶片，也更加友好。雖然對460萬美元這個數字，楊植麟和兩位聯合創始人都下場闢謠：訓練成本很難量化，其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化，是顯而易見的。月暗表示：該模型是在有限數量的H800 GPU上訓練而來，他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平，且持續發佈，價格又足夠便宜，已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年，月暗為何可以衝出重圍？這由模型行業的人才特性決定。“這是個高精尖科技領域，堆人是沒有用的。沒有一個天才帶隊，來多少高級人才都沒用。”今年6月，Meta在矽谷開出了“1億美元”年薪，瘋狂挖角OpenAI的員工。但短短幾個月，被挖走的人又紛紛離開Meta，讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人，但多數都是做輔助工作。核心團隊就44個人，真正能主導技術路線的，應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同，人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家，越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承，在模型公司的人才招攬中變得格外重要。對月暗來說，最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系，獲得卡內基梅隆大學電腦博士學位，師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間，楊植麟便是一位學術風雲人物，拿遍了國內外各類獎項。他後來也曾在清華任職講師，“楊（植麟）老師的《自然語言處理（NLP）》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外，楊植麟對AGI的追求，也被視為“追求技術理想”的代表。“他非常有號召力，如果覺得清華某個實驗室的研究課題好，會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集，讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊，每人只說幾句話，大家就散了。”當然，簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外，底層基座、前後期資料的每一個環節，如果誰掉了鏈子，會很明確地感覺出來，一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化，已經開始有商業化、增長，乃至官僚的幾種文化混雜，但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”，有相當的容忍度。例如，Kimi的關鍵人物之一蘇劍林，在內部被稱為“蘇神”。他提出的RoPE（旋轉位置編碼），以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題，既保持了計算效率，又實現了更好的外推能力，如今已是絕大多數大語言模型的標配技術之一。因此，“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”，月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等，由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於，楊植麟並不是個“書呆子”。他在清華讀書期間，便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室，也以各種知名樂隊命名。創始人的趣味投射到產品中，也讓Kimi與市場的效率產品相比，更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為，K2的產品頁面設計極簡，“國內大模型廠商開始在頁面加入推薦產品，但K2仍然克制。”對於競爭對手，月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述，面試問題之一是：“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時，月暗的觀點與海拉魯的判斷一樣：“在程式設計能力上，Claude是一個很懂技術的產品經理，但Codex是一個真正的軟體工程師。”有使用者表示，K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥？”K2 Thinking會有理有據地，將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格，是月暗團隊刻意設計。為此，團隊在預訓練階段編碼了先驗知識（Priors），又在後訓練（Post-training）階段為其增添了獨特的“風味”（Flavor）。為了確保K2的智能“上限”，月暗在大模型追求效率之時，也反其道行之。許多使用者反映：K2-Thinking思考很慢，有時比同類產品甚至要慢5～10倍。月暗對此解釋：目前版本優先確保性能和精準性，在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑，犧牲了些速度，是為了讓模型能真正完成複雜推理。”雖然未來，團隊有可能會最佳化“令牌效率”（token-efficiency），讓 Kimi “想得少一點，答得快一點”。03 商業化仍是難題“往山頂，我們又走了一段距離。”K2發佈後，楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”，MiniMax和階躍星辰抓緊多模態；智譜紮根本土，走to B/to G的路線；百川智能和零一萬物減少了基礎模型迭代，專注於場景落地。越來越多公司放棄了對基座模型的追求，行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中，競爭卻沒有變得更容易。攀登技術高峰的同時，更殘酷的商業化命題擺在眼前。如何活下去，楊植麟也在尋找答案。2024年月暗投流掀起軒然大波，也證明楊植麟並非不問世事的天真極客。2024年6月，月暗決定：要用巨量投入，快速獲得市場，佔領使用者心智。據《中國企業家》瞭解，彼時月暗覆蓋了大量管道，“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下，月暗在2024年9月前後，使用量明顯領先對手。同時，公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”，讓楊植麟蒙受了巨額損失。到2024年12月，月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫，與更優質的機構和個人合作。但彼時，朱嘯虎對月暗發起訴訟，將計畫打斷。今年2月，DeepSeek-R1上線後，讓月暗痛下決心，砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁，負責增長開發，“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後，月暗更聚焦在極客群體中的影響力。據悉，K2模型發佈時，月暗未如過去一般高頻直播，而是選擇更多在社區營運，讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著，月暗破解了商業化難題。一方面，Kimi模型龐大，固然架構創新、技術最佳化可以降低部署成本，但客戶的儲存、傳輸成本仍然不低。另一方面，放棄投流後，Kimi的C端量級還在與大廠拉開距離。2025年9月，Kimi開啟了會員付費訂閱，將Kimi-reseahcher、OK Computer等能力打包分層，設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為，Kimi按照請求次數來計費的方法顯得“性價比不高”。對此，月暗回應：這符合他們的後端成本結構，也表示將考慮改進（比如按提問或按字數計費）。與大廠纏鬥，畢竟是一場非對稱戰爭，“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資，估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資，估值達到300億元。月暗融資後，是否將發起IPO計畫，楊植麟還有一些時間思考。當下，他的做法是，先用技術突破獲得資本市場認可，同時繼續向AGI行進。目前，月暗已經在思考用“模型訓模型”的可行性。8月，楊植麟在採訪中談到，希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態？月暗給出的答案是：公司已在研究K2的VL（視覺-語言）版本。 (中國企業家雜誌)

罕見！月之暗面楊植麟、周昕宇、吳育昕回應一切：打假460萬美元、調侃OpenAI

Kimi現階段優先考慮絕對性能。智東西11月11日報導，今天凌晨，月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答（AMA）活動，月之暗面聯合創始人兼CEO楊植麟等人在Kimi K2 Thinking模型發佈後不久，正面回應了模型訓練成本、跑分與實際體驗差距等熱點議題。Kimi K2 Thinking模型訓練成本僅為460萬美元的網路傳言喊得響亮，不過，楊植麟已經打假了，他稱，這並非官方資料，訓練成本很難量化，因為其中很大一部分用於研究和實驗。他還透露，月之暗面已經在研究K2的VL（視覺-語言）版本了。有不少海外網友提出了十分尖銳的問題，比如Kimi K2 Thinking的推理長度過長，榜單成績與實際體驗不符等問題。楊植麟解釋了背後的原因，他稱現階段該模型優先考慮絕對性能，token效率會在後續得到改善。榜單高分與實測的脫節，也會在模型通用能力補齊後獲得改善。10月底，月之暗面開源了混合線性注意力架構Kimi Linear，首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了全注意力機制，引來不少開發者關注。楊植麟稱，Kimi Linear的KDA混合線性注意力模組，很可能會以某種形式出現在K3中。而當網友問及K3的發佈時間時，楊植麟戲謔地回應道：“在Sam價值兆美元的資料中心建成之前。”月之暗麵糰隊似乎還在另外幾條評論中調侃了OpenAI。當網友問及有無AI瀏覽器的開發計畫時，月之暗面聯合創始人兼演算法團隊負責人周昕宇稱，要做出更好的模型，並不需要再去套一層新的Chromium殼。而當網友好奇OpenAI為何要燒掉那麼多錢時，周昕宇稱：“這個問題只有Sam才知道。我們有自己的方式和節奏。”面對外界關於“開源是否會帶來安全風險”的提問，楊植麟回應稱，開放安全對齊技術堆疊有助於更多研究者在微調開源模型時保持安全性，同時他也強調需要建立機制，確保這些後續工作遵循安全協議。他還在另一條評論中補充道：“我們擁抱開源，因為我們相信對AGI（通用人工智慧）的追求，應該帶來團結，而不是分裂。”月之暗面聯合創始人吳育昕也一同參與了這場問答，楊植麟、周昕宇、吳育昕圍繞Kimi系列模型的架構創新、訓練細節、開源策略以及未來規劃與網友進行了交流。01. K2 Thinking現有優先順序是性能獨特文風背後有訣竅在這場活動中，最受關注的焦點是Kimi K2 Thinking模型，這是月之暗面最新發佈的開源推理模型。有網友稱，自己測試了Kimi K2 Thinking與GPT-5 Thinking，前者的正確率領先，但推理時間更長，像是在不停複查自己。對此，楊植麟稱，他們正在積極最佳化token使用效率。當前版本中，優先考慮的是絕對性能而非token效率。月之暗面會嘗試將效率納入獎勵機制，以便它能學習如何簡化思考過程。還有網友質疑，Kimi K2 Thinking是否經過專門訓練，以在HLE這一基準測試中取得好成績？它的高分似乎與實際使用中的智能水平不太相符。楊植麟回應道，Kimi K2 Thinking在提升智能體推理能力方面取得了一些進展，使其在HLE測試中得分較高。月之暗面正在努力進一步提升其通用能力，以便在更多實際應用場景中充分發揮智能的作用。另有網友問道：“為何K2 Thinking能在一次推理中保持如此長的思維鏈，而GPT-5不行？”楊植麟解釋道：“我認為推理時間取決於API吞吐，而推理token的數量取決於模型訓練方式。我們在訓練Kimi K2 Thinking時傾向於使用更多的思考token以獲得最佳效果。我們的Turbo API會更快，同時Kimi K2 Thinking原生採用INT4，這也提升了推理速度。Kimi K2 Thinking是一款純文字模型，有網友提問稱，這究竟是為了達到SOTA而做出的短期權衡，還是一項長期投資？楊植麟回應，獲得正確的VL資料和訓練需要時間，因此月之暗面選擇先發佈文字模型。Kimi K2系列模型不阿諛奉承、直接的文風在AI界算是一股清流，有不少網友認可這種風格。吳育昕稱，這種寫作風格是模型後訓練資料和評估的重要組成部分。談及KDA，楊植麟稱，從歷史上看，混合注意力在長輸入和長輸出任務上要超越全注意力一直很困難。KDA在所有維度上都展示了性能提升，包括長思維鏈RL場景，同時保持了線性注意力的高效性。另一位網友補充道，希望KDA能結合擴散模型使用。楊植麟認為這一想法是可行的，但文字擴散（text diffusion）比較困難，可能是因為在將擴散應用到文字上時，還沒有足夠好的先驗。周昕宇在技術層面進一步解釋了KDA的對比優勢。他稱，KDA混合架構結合NoPE MLA後，在預訓練和強化學習階段均優於採用RoPE的完整MLA。不僅基準得分更高，還更快、更經濟，使他們能夠更高效地訓練、部署並服務更多使用者。未來，月之暗面還有進一步改進，成熟後會公開。近期，DeepSeek、智譜都曾發佈以視覺方式作為輸入，以提升效率的探索。不過，周昕宇稱，他個人認為這種方法過於刻意，自己更傾向於繼續探索特徵空間，尋找更通用、與模態無關的方法來提高模型效率。此前，月之暗面曾經在模型中採用了Muon作為最佳化器，網友認為這一最佳化器相對來說未經測試，這一決定似乎有些瘋狂。周昕宇解釋了採用Muon的歷程。他稱，Muon是一個未經其他廠商測試的最佳化器，但月之暗面已經用它進行了所有的擴展測試，結果都通過了。他們對自己的研究成果充滿信心，網友或許認為Muon只是運氣好，但實際上有幾十種最佳化器和架構沒有經受住這樣的考驗。02. “被封禁”已超出控制範圍上下文窗口將進一步擴展月之暗面三位聯合創始人還集中回應了與模型服務、開源等相關話題的疑問。有網友稱，Kimi在自己的公司已經成為主要的測試模型，但生產環境會切換到美國本土的模型。這主要是因為領導層擔心Kimi是“中國大模型”，可能存在一些風險。這位網友還分享，自己很喜歡使用Kimi App，自己一位在亞馬遜工作的朋友也很喜歡這一應用，但由於亞馬遜有規定必須使用自家的AI助手，禁止在工作場合使用其他主流的AI助手App。網友擔心，隨著Kimi逐漸變得知名，她會不會再也無法在工作場合中使用呢？吳育昕回應稱：“雖然被“封禁”往往超出我們的控制範圍，但開源該模型有望成為消除部分顧慮的有效途徑（企業可以自行部署）。我們希望看到一個更加信任的世界，但這需要時間。”上下文一直是影響AI模型在生產環境應用的重要因素。目前，Kimi K2 Thinking最大支援256K的上下文，有網友反饋這對大型程式碼庫而言並不算大。楊植麟稱，月之暗面應該能在未來的版本中增加上下文長度。還有網友希望月之暗面能將模型上下文窗口提升到100萬個token，周昕宇回覆道，月之暗面之前已嘗試過100萬個token的上下文窗口，但當時的服務成本太高。未來他們會重新考慮更長的上下文窗口當被問及有無AI瀏覽器的開發計畫時，周昕宇十分犀利地回覆道：要做出更好的模型，並不需要再去套一層新的Chromium殼。楊植麟稱，月之暗面目前將專注於模型訓練，但會不斷更新kimi.com ，使其包含最新功能。還有不少網友提到，希望月之暗面能推出規模更小的模型。楊植麟稱，Kimi-Linear-48B-A3B-Instruct就是月之暗面發佈的小型模型之一，未來他們可能會訓練更多模型並加入更多功能。目前，Kimi已經提供了程式設計訂閱方案，這一計費方式是基於API請求次數，有網友稱這種模式導致資源消耗偏高。月之暗面回應稱，API請求次數計費能讓使用者看到費用明細，同時也更符合企業的成本結構。不過，他們會盡快找到更好的方案。03. 結語：中國AI創新能力獲得認可從社區中海外開發者的熱烈提問和尖銳反饋可以看出，以Kimi系列為代表的中國模型正受到前所未有的關注。月之暗面此次在Reddit平台的公開問答，集中回應了全球網友對Kimi技術細節的大量興趣和疑問。這種關注背後，也折射出全球開發者對中國AI創新能力的認可。 (智東西)

三次考上清華的鼓手，痛擊美國AI巨頭

比AI技術發展更讓人驚訝的，是AI的造富速度！6月24日，《新財富》雜誌第二十三屆500創富榜的發佈，用具象化的排名把大佬們的身家呈現給了公眾。但與以往不同，這一次輿論的聚光燈偏離了首富寶座的更迭流轉，而是打在了新的技術造富樣本上——年僅40歲的梁文鋒，從年初DeepSeek的爆發到手握1846.2億持股估值高居創富榜第10，只用了不到6個月的時間。● 圖片來源：《新財富》雜誌在梁文鋒之外，月之暗面的創始人楊植麟，也以93.9億元身家首次上榜創富榜，排名第366位。這位曾三次考上清華的90後天才，比梁文鋒還要年輕7歲。他打造出2024年AI圈的頭號寵兒Kimi——其被描述為中國的Chat GPT，幫助月之暗面豪取240億人民幣的估值。● 楊植麟被清華三次錄取的樂隊鼓手作為一名90後，楊植麟兼具理工男和資深文青的雙重特質。在未成立月之暗面前，他最被人稱道的是考上了三次清華、成立了一支樂隊。2008年，15歲的楊植麟一腳踏入汕頭最好的高中——金山中學，在學霸扎堆的校園裡，“雖然我見過很多天才，但他們都稱我為天才”有了具象化體現：高一時，楊植麟加入了學校的資訊學奧賽班，僅訓練一年，就在全國青少年資訊學奧林匹克聯賽中獲得廣東賽區一等獎，首次獲得清華大學保送資格；緊接著，他又參加了清華大學的自主招生考試，再次超越錄取分數線拿到了錄取資格；高三時，已是清華保送生的他決定以普通高考生的身份參加高考，結果以667的高分考上汕頭市的理科狀元，第三次獲得了清華的錄取資格。站在三次被清華錄取光環背後的，並非書呆子型的學霸，相反，楊植麟的座右銘頗具伊壁鳩魯主義——“Just for Fun（娛樂至上）”。得益於父母開放的教育理念，楊植麟熱愛搖滾、電影和旅行，最喜歡的樂隊是平克·弗洛伊德，參加過學校樂隊，堅持在課餘時間練習打鼓，小時候的夢想是成為搖滾明星或流浪詩人。順利考取清華後，他創立了名為Splay的搖滾樂隊，並擔任樂隊的鼓手和詞曲作者，成功在清華校園歌手大賽中殺入前三。搖滾，不只是對壓力的宣洩方式，更是楊植麟自我表達的一種方式。在大學期間，他目睹身邊許多人為了實現階層跨越而拚命努力。面對這樣的大環境，他既感嘆其荒誕，又深感危機四伏。於是，他創作了一首歌，歌詞大致講述了一個關於創業成功、一夜暴富的白日夢，以此勉勵自己不要淪為功利主義的奴隸。● 作為樂隊鼓手的楊植麟清華上下幾屆的神中之神音樂之外，楊植麟的學術成就同樣耀眼，借用月之暗面投資人的評價，他是“清華上下幾屆的神中之神”。出於對未來就業的考慮，楊植麟在入學時選擇了熱能專業，但大二時突然轉系至電腦，師從中國大模型領域的領軍人物唐傑老師，而他轉系的理由非常“搖滾”：喜歡。這種喜歡來自村上春樹的小說——楊植麟曾在村上的一本小說裡看到一個很厲害的程式設計師的角色，這讓他對深夜寫程式碼讓技術落地這件事充滿了憧憬。● 現為清華大學基礎模型研究中心主任的唐傑教授。圖片來源：THU基礎模型在唐傑教授的影響下，楊植麟養成了“做學問要像喝咖啡一樣上癮”的習慣。由於轉系的緣故，楊植麟少學了一年功課，但他在熱能專業和電腦專業的成績都極為優異：在校四年成績保持年級第一，人工智慧核心課程穩居年級首列，90%專業課成績超過95分，在演算法、機器學習等硬核課程中展現統治力。在學術上，楊植麟手握二十多篇論文，十多篇一作，憑藉獨創的社交網路資料流演算法，在全球癌症預測大賽中將預測錯誤率壓降28％，大幅刷新了賽事紀錄，被賽事官方認可為“顛覆傳統預測模型的里程碑”。2014年，楊植麟以14票中13票的絕對優勢拿下畢業答辯獎學金，為自己四年的清華歲月畫上了完美句號。他在答辯中的一句話，正透露出這位21歲青年的科技野心：“這是電腦科學最好的時代，因為這是資料的時代。這是我人生中最好的時代，因為我懷揣夢想，做最好的事情，讓資料改變世界”。抱著用資料改變世界的夢想，楊植麟前往美國深造。拿到AI2.0時代的門票2015年，楊植麟赴美國卡耐基梅隆大學攻讀博士學位，在這裡，他遇到了兩位頂配導師——蘋果AI負責人Ruslan Salakhutdinov和Google首席科學家William Cohen。● 楊植麟與導師Ruslan Salakhutdinov（右）、William Cohen（左）合影在導師的幫助下，楊植麟深入Google實習。他在Google學到最關鍵的一課，就是把自己從死摳細節中釋放出來，把更多的精力和思考留給大方向與大梯度。2017年，楊植麟一改過去的發散型探索，判斷語言模型將是最重要的課題（事實證明，他的判斷無比正確），就把精力收斂到對大語言模型的研究上。對楊植麟這種層次的天才來說，只要找到了靶子，就有一萬種方式射中靶心。雖然還只是學生，但他靠著層出不窮的點子和踏實肯幹的研究精神，先後與圖靈獎得主、被譽為“人工智慧教父”的Yann LeCun（楊立昆）、Yoshua Bengio進行合作，並以第一作者的身份發表了兩篇里程碑式論文，成功拿到了通往AI2.0時代的門票。● “人工智慧教父”Yann LeCun 和 Yoshua Bengio 。圖片來源：NUS2022年年底，AI行業為整個世界帶來了一次震顫——隨著Chat GPT的發佈，AGI（通用人工智慧）技術正開始改變我們每一個人。因為走在行業前沿，楊植麟是第一批體驗Chat GPT的中國人，他敏銳察覺ChatGPT擴散需要時間，很多人對語言大模型能創造多大的財富和價值沒有概念，這讓手握資訊差的他既激動又焦慮。為了吃到行業的第一口紅利，楊植麟展示出了極強的決斷力和執行力，他立刻飛往美國，憑藉在行業內的口碑以及創業的經驗，迅速拿到1億美元融資。2023年4月，月之暗面誕生，主攻AGI領域。顛覆未知的決心所謂月之暗面，是由於地球引力分佈的不均勻，使得月地之間存在潮汐摩擦，讓月球自轉速度逐漸減慢，直到總是以同一面面對地球，另一面則始終不向人類展示。月背的這份黑暗給古今眾人留下了無盡的遐思，隨著天文學和航天技術的進步，人們對其認知也歷經了從恐懼、好奇到想要挑戰、徹底征服的演變。楊植麟將公司取名月之暗面，是對音樂偶像的致敬，更是對人類顛覆未知精神的拓撲回歸。● DARK SIDE OF MOON 專輯封面在他看來，通用人工智能技術的發展就像登月，需要長期主義的堅守。在公司內部，楊植麟把長文字稱為登月計畫的第一步。2023年10月，Kimi首次亮相，背靠千億參數大模型，支援輸入的長文字達到20萬字，首次將對話方塊容量做到了全球第一，而彼時Open AI的GPT-4則是約2.5萬字，相當於它的8倍。假如用手機記憶體做比喻，GPT-4的大小是128G，Kimi就是1TB——這正好是丐版iPhone和頂配iPhone的記憶體大小，讓使用者直觀感到了Kimi的強悍。5個月後，Kimi又跨了一大步，升級到200萬字——這是個什麼概念呢？一百二十回的全本《紅樓夢》約為71萬字，而Kimi能在短時間內處理約3本《紅樓夢》的資料量並給出答案，至今領先同行。憑藉面向使用者的獨特定位、實打實的技術領先，讓Kimi在2024年2月的訪問量高達305萬，較環比增長107.6%，在國內僅次於百度文心一言、阿里通義千問兩家大廠，位列AI大模型第3位。強勁的技術和使用者表現，也讓月之暗面備受資本青睞，天使輪獲得紅杉中國和真格基金等近20億人民幣的融資。2024年，月之暗面更是成為AI圈的頭號炸子雞，美團、阿里、騰訊、小紅書等企業接連投資，估值一路飆升至33億美元（約240億元人民幣），領跑一眾大模型企業。但在看似波瀾不驚的航行中，一場由DeepSeek掀起的AI風暴，很快吹向了一路順風順水的楊植麟。風暴下的月之暗面文藝青年身上總會帶點理想主義，文理雙修的楊植麟則是典型的技術理想主義者。他不認為月之暗面是為了競爭而建立的公司，而是為使用者提供好產品的公司。基於技術理想主義的純粹，他認為技術是這個時代唯一新變數，其他變數沒變。隨著年初DeepSeek-R1的橫空出世，他的這句話竟一語成讖：一條兇猛如麥爾維爾《白鯨》中莫比·迪克的巨鯨，以獨特的蒸餾技術與開源模式引爆了整個AGI領域，輝達、Open AI都倍受其害。站在大的維度上說，假如把中美AI技術的發展視作一場競賽，那麼Kimi、DeepSeek、豆包、千問等一眾國產大模型是並肩作戰的隊友。平心而論，月之暗面內部對DeepSeek的態度很樂觀，認為其加速了大模型在全國的落地，為行業營造了更好的環境。但矛盾之處在於，Kimi偏偏是被DeepSeek影響最深的那個——隨著全球使用者對Chat GPT祛魅，讓一直標榜中國版Chat GPT的Kimi商業價值同樣大打折扣。更嚴峻的是，DeepSeek改變了國內大模型的生態。過去的大模型廠商多面向企業，但隨著年初全民的關注，字節、阿里、騰訊等一眾網際網路頭部都在向To C（普通使用者）轉型，可這個市場，恰恰是Kimi砸入大量資金才啃下的基本盤。這導致Kimi也吃下了部分由DeepSeek帶來的增量市場，但市場佔有率卻大不如前，最近的月活也在下滑。● 圖片來源：QuestMobile有業內人士直言，月之暗面遇到的挑戰是：“從資源的維度，投流投不過大廠；從技術和產品心智的維度，目前被DeepSeek反超。”在風暴中，楊植麟也曾短暫迷失，但他沒有輕言放棄、畏懼變革，他曾用The Verve樂隊的一句歌詞勉勵自己，並將其分享給清華的學弟學妹們：“I’m a million different people from one day to the next”“不要懼怕改變，自己革自己的命，每天都不一樣，可能離美好的東西會更近一些。”理想主義的浪漫在重新研判市場和技術環境後，楊植麟明白眼前的路只有一條——突圍。但他沒有操之過急，失去戰略定力，而是繼續堅持長期主義。一方面，月之暗面在此前的多輪融資中稱得上實力雄厚，遠未到生死存亡的邊際；另一方面，他明白技術突破不可能一蹴而就，早在DeepSeek問世的前一年，楊植麟就說：“它（AGI發展）是個螺旋。看你投入多少分配在短期，多少分配在長期。要在你能活下去的情況下，追求長期。長期一定不能沒有，否則你會錯過整個時代。今天下結論，確實太早了。”如果說長文字是登月計畫的第一步，那麼月之暗面邁出的第二步就是個性化。具體而言，是切入垂直領域。早在去年，Kimi就針對知乎使用者進行了精準投放，試圖從網際網路高知群體中率先打開市場。今年則更進一步，先是在4月與財新傳媒達成合作，使用者提問財經相關內容時，Kimi將結合財新傳媒旗下專業報導內容生成答案，收穫了一大批財經媒體的青睞。近期，Kimi更是佈局AI醫療，針對醫學類的專業使用者需求，加強在專業領域的搜尋質量。● 圖片來源：Kimi官網切入垂直賽道之外，楊植麟也始終把技術視作第一要素，在沉默中打贏了一場技術突圍戰。在剛剛過去的6月份，月之暗面開源了Kimi-Dev-72B程式設計大模型，只用不到DeepSeek1/9的參數，就在AI程式設計能力測試中以60.4%的成績超越DeepSeek-R1。● 圖片來源：月之暗面GitHub項目此外，月之暗面還發佈了一款名為Kimi-Researcher的自主Agent（智能體），在號稱AI評測的天花板——《人類最後的考試》中以26.9%的精準率，實現了在全球範圍內的領先，並開始向使用者推出。● 不斷進化的Kimi。圖片來源：Moonshot官網Kimi和DeepSeek在技術上的你追我趕，實則是兩個技術理想主義者在AGI領域的思想碰撞。梁文鋒、楊植麟，抑或是每位AI領域的創業者，都希望自己能打造出最偉大的AGI公司。但我們應當相信，比起最終的結果，他們也都更享受追逐“用資料改變世界”夢想的過程。正如有人曾問楊植麟：“如果你沒有做成什麼，會覺得自己失敗了？”他的回答極具理想主義者的浪漫： “關係不是那麼大，我接受有失敗的機率……這個事情它已經完全改變了我的生命，我是充滿感激的。” (最華人)

梁文鋒和楊植麟再“撞車”

被追趕和超越，是創業者常面對的挑戰。繼2月論文“撞車”之後，梁文鋒和楊植麟又在另一個大模型賽道上相遇了。4月30日，DeepSeek上線新模型DeepSeek-Prover-V2，這是一個數學定理證明專用模型。Prover-V2的參數規模進一步擴展到671B（6710億規模參數），相較於前一代V1.5版本的7B規模增加了近百倍，這讓其在數學測試集上的效率和正確率更高，比如，該模型的miniF2F測試通過率達到88.9%，它還解決了PutnamBench（普特南測試）的49道題。巧合的是，4月中旬，月之暗面也曾推出一款用於形式化定理證明的大模型Kimina-Prover，這是Kimi團隊和Numina共同研發的大模型，該產品也開源了1.5B和7B參數的模型蒸餾版本。該模型的miniF2F測試通過率為80.7%，PutnamBench測試成績為10道題。兩者相比較，在miniF2F測試通過率以及普特南測試上，DeepSeek-Prover-V2的表現超過了Kimina-Prover預覽版。值得注意的是，兩家公司在技術報告中都提到了強化學習。比如DeepSeek的題目為《DeepSeek-Prover-V2：通過子目標分解的強化學習推進形式數學推理》，而月之暗面的題目為《Kimina-Prover Preview：基於強化學習技術的大型形式推理模型》。在2月的兩篇“撞車”論文中，梁文鋒和楊植麟都在作者行列，兩家公司都關注Transformer架構最核心的注意力機制，即如何讓模型更好地處理長上下文。作為中國大模型領域最受矚目的創業者，兩人也正在面臨不同的挑戰。對於梁文鋒而言，在R1模型推出三個多月後，外界對DeepSeek“魔法”的痴迷程度正在下降，阿里巴巴的開源模型正在迅速趕上以及超過DeepSeek，外界熱切期待其發佈R2或V4模型，以加強領先優勢。對於楊植麟和月之暗面，Kimi正在遭受來自字節跳動的豆包和騰訊元寶的挑戰，它也需要保持持續創新。01 程式設計與數學，實現AGI的兩條路徑對於AGI的實現路徑，2024年，DeepSeek創始人梁文鋒在接受《暗湧》採訪時曾說，他們確實押注了三個方向：一是數學和程式碼、二是多模態、三是自然語言本身。數學和程式碼是AGI天然的試驗場，有點像圍棋，是一個封閉的、可驗證的系統，有可能通過自我學習就能實現很高的智能。另一方面，多模態需要參與到人類真實世界裡學習。他們對一切可能性都保持開放。此次Prover-V2模型的推出，讓DeepSeek的各個模型矩陣保持了同步進化。Prover系列模型於2024年3月開始被發佈，2024年8月被更新為DeepSeek-Prover-V1.5（後簡稱為Prover-V1.5），2025年4月再被更新至DeepSeek-Prover-V2。DeepSeek程式碼系列模型Coder從2024年4月開始更新，6月升級為Coder-V2-0614，7月再次升級，9月，DeepSeek-V2-Chat和DeepSeek-Coder-V2合併，升級後的新模型為DeepSeek-V2.5，2024年12月，該模型更新至V3，今年3月，升級至V3-0324。通用推理大模型，以1月20日發佈的R1模型為代表，價格低廉，自然語言推理性能強勁，在數學、程式碼、自然語言推理等任務上，性能比肩OpenAI o1正式版。從Prover-V2的技術報告上看，其與DeepSeek的其他模型進化有關聯，其中，DeepSeek-Prover-V2-671B是以DeepSeek-V3作為基礎模型來做微調，如在冷啟動階段，DeepSeek-V3將複雜問題分解為一系列子目標，而後，已解決子目標的證明被合成到一個思維過程鏈中，結合DeepSeek-V3的逐步推理，為強化學習建立一個初始冷啟動。演算法工程師、知乎使用者“小小將”告訴《中國企業家》，推理模型在進行推理時，要進行複雜的思考，程式碼與數學模型可以檢驗推理大模型能力進展，因為數學與程式碼的結果是可驗證的。他認為，Prover-V2的推出與新模型R2或V4的上線沒有必然聯絡，它更像是一個獨立模型的更新。他預測，R2模型更像是GPT-o1到o3的過程，比如在提高強化學習的能力方面，DeepSeek可以基於V3，提升後訓練效果，因此R2的研發周期可能會比較短。但V4就是一個大版本的更新，其研發周期有可能更長，因為預訓練的工程量以及訓練方法可能都會發生變化。目前市場已經對DeepSeek的新模型充滿了想像和期待。市場上傳言，R2模型將基於華為昇騰系列GPU晶片而推出，但一位行業人士說，這個消息不太可靠，在輝達H20晶片被限之後，昇騰系列晶片在市場上也是一卡難求，“對於昇騰來說，如果用於大模型研發，可能魯棒性沒那麼強”。另有創業公司相關人士告訴《中國企業家》，華為昇騰晶片用於大模型的訓練，效果一般，原因在於生態系統沒那麼完善，但用於大模型的推理與部署，是沒有問題的。02 DeepSeek與Kimi還能保持領先嗎？DeepSeek與月之暗面作為明星初創公司，正在遭受大公司的追趕和超越。以月之暗面旗下的Kimi為例，據QuestMobile資料，Kimi上線不足1年，在2024年11月，月活突破2000萬，僅次於豆包的5600萬。QuestMobile資料顯示，截至2025年2月底，AI原生APP月活規模前三名從豆包、Kimi、文小言更迭為DeepSeek、豆包、騰訊元寶，規模分別是1.94億、1.16億、0.42億。2月中旬，騰訊元寶宣佈接入DeepSeek，隨後，在一個多月時間內，騰訊元寶利用超級產品微信引流加上瘋狂買量投流，在使用者數量上已經超過了Kimi，成為排名第三的AI產品。據AppGrowing資料，在今年一季度，騰訊元寶的投流費用為14億元，遠遠超過Kimi的1.5億元規模。目前，Kimi最新的舉動是內測社區功能，增加使用者粘性。DeepSeek同樣也避免不了被大公司追趕甚至超越的挑戰。近期，阿里巴巴在大模型方面展現出了強勁的競爭力。4月29日，阿里巴巴發佈新一代通義千問模型Qwen3，該模型被稱作首個“混合推理模型”，是“快思考”和“慢思考”整合的一個模型，參數量僅為DeepSeek-R1的1/3，性能全面超越R1、OpenAI o1等同行產品。此前，蔡崇信評價DeepSeek，它告訴了我們開放原始碼的價值。根據公開資料，阿里通義已開源200余個模型，全球下載量超3億次，千問衍生模型數超10萬個，已超越美國Llama，成為全球第一開源模型。一位AI創業者告訴《中國企業家》，DeepSeek受到了過多的關注，被賦予過多光環，中國大模型產業需要兩三個世界領先的大模型，而不是一個，這時候應鼓勵這個領域的競爭和創業。另一個重要玩家是百度。4月25日，百度發佈文心4.5 Turbo和深度思考模型X1 Turbo，這兩款模型性能更強大，成本更低，李彥宏更是數次提到DeepSeek，他說，DeepSeek也不是萬能的，它只能處理單一的文字，還不能理解聲音、圖片、視訊等多媒體內容，同時幻覺率比較高，很多場合不能放心使用。“DeepSeek最大的問題是慢和貴，中國市場上絕大多數大模型API的價格都更低，而且反應速度更快。”李彥宏在發佈會上說。儘管如此，百度仍決定學習DeepSeek，今年2月，百度決定在6月30日開源文心大模型4.5系列。越來越多的玩家參與大模型開源競賽，但只有技術最先進的玩家才能定義標準。 (中國企業家雜誌)

【DeepSeek】楊植麟翻身，還要靠OpenAI

圖片來源：由無界AI生成關於DeepSeek的連鎖反應還在繼續。大廠作為此輪DeepSeek直接爆發的受益者，在近日，紛紛拿出真金白銀，繼續加碼AI。 2月24日，阿里巴巴CEO吳泳名宣佈未來三年，阿里將投入超過3800億元，用於建設雲和AI硬體基礎設施，總額超過去十年總和。騰訊更是宣佈改組事業群，接入DeepSeek，開始all in AI。