#楊植麟
揭秘楊植麟,技術理想主義的孤島還是燈塔
很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)
罕見!月之暗面楊植麟、周昕宇、吳育昕回應一切:打假460萬美元、調侃OpenAI
Kimi現階段優先考慮絕對性能。智東西11月11日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動,月之暗面聯合創始人兼CEO楊植麟等人在Kimi K2 Thinking模型發佈後不久,正面回應了模型訓練成本、跑分與實際體驗差距等熱點議題。Kimi K2 Thinking模型訓練成本僅為460萬美元的網路傳言喊得響亮,不過,楊植麟已經打假了,他稱,這並非官方資料,訓練成本很難量化,因為其中很大一部分用於研究和實驗。他還透露,月之暗面已經在研究K2的VL(視覺-語言)版本了。有不少海外網友提出了十分尖銳的問題,比如Kimi K2 Thinking的推理長度過長,榜單成績與實際體驗不符等問題。楊植麟解釋了背後的原因,他稱現階段該模型優先考慮絕對性能,token效率會在後續得到改善。榜單高分與實測的脫節,也會在模型通用能力補齊後獲得改善。10月底,月之暗面開源了混合線性注意力架構Kimi Linear,首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了全注意力機制,引來不少開發者關注。楊植麟稱,Kimi Linear的KDA混合線性注意力模組,很可能會以某種形式出現在K3中。而當網友問及K3的發佈時間時,楊植麟戲謔地回應道:“在Sam價值兆美元的資料中心建成之前。”月之暗麵糰隊似乎還在另外幾條評論中調侃了OpenAI。當網友問及有無AI瀏覽器的開發計畫時,月之暗面聯合創始人兼演算法團隊負責人周昕宇稱,要做出更好的模型,並不需要再去套一層新的Chromium殼。而當網友好奇OpenAI為何要燒掉那麼多錢時,周昕宇稱:“這個問題只有Sam才知道。我們有自己的方式和節奏。”面對外界關於“開源是否會帶來安全風險”的提問,楊植麟回應稱,開放安全對齊技術堆疊有助於更多研究者在微調開源模型時保持安全性,同時他也強調需要建立機制,確保這些後續工作遵循安全協議。他還在另一條評論中補充道:“我們擁抱開源,因為我們相信對AGI(通用人工智慧)的追求,應該帶來團結,而不是分裂。”月之暗面聯合創始人吳育昕也一同參與了這場問答,楊植麟、周昕宇、吳育昕圍繞Kimi系列模型的架構創新、訓練細節、開源策略以及未來規劃與網友進行了交流。01. K2 Thinking現有優先順序是性能獨特文風背後有訣竅在這場活動中,最受關注的焦點是Kimi K2 Thinking模型,這是月之暗面最新發佈的開源推理模型。有網友稱,自己測試了Kimi K2 Thinking與GPT-5 Thinking,前者的正確率領先,但推理時間更長,像是在不停複查自己。對此,楊植麟稱,他們正在積極最佳化token使用效率。當前版本中,優先考慮的是絕對性能而非token效率。月之暗面會嘗試將效率納入獎勵機制,以便它能學習如何簡化思考過程。還有網友質疑,Kimi K2 Thinking是否經過專門訓練,以在HLE這一基準測試中取得好成績?它的高分似乎與實際使用中的智能水平不太相符。楊植麟回應道,Kimi K2 Thinking在提升智能體推理能力方面取得了一些進展,使其在HLE測試中得分較高。月之暗面正在努力進一步提升其通用能力,以便在更多實際應用場景中充分發揮智能的作用。另有網友問道:“為何K2 Thinking能在一次推理中保持如此長的思維鏈,而GPT-5不行?”楊植麟解釋道:“我認為推理時間取決於API吞吐,而推理token的數量取決於模型訓練方式。我們在訓練Kimi K2 Thinking時傾向於使用更多的思考token以獲得最佳效果。我們的Turbo API會更快,同時Kimi K2 Thinking原生採用INT4,這也提升了推理速度。Kimi K2 Thinking是一款純文字模型,有網友提問稱,這究竟是為了達到SOTA而做出的短期權衡,還是一項長期投資?楊植麟回應,獲得正確的VL資料和訓練需要時間,因此月之暗面選擇先發佈文字模型。Kimi K2系列模型不阿諛奉承、直接的文風在AI界算是一股清流,有不少網友認可這種風格。吳育昕稱,這種寫作風格是模型後訓練資料和評估的重要組成部分。談及KDA,楊植麟稱,從歷史上看,混合注意力在長輸入和長輸出任務上要超越全注意力一直很困難。KDA在所有維度上都展示了性能提升,包括長思維鏈RL場景,同時保持了線性注意力的高效性。另一位網友補充道,希望KDA能結合擴散模型使用。楊植麟認為這一想法是可行的,但文字擴散(text diffusion)比較困難,可能是因為在將擴散應用到文字上時,還沒有足夠好的先驗。周昕宇在技術層面進一步解釋了KDA的對比優勢。他稱,KDA混合架構結合NoPE MLA後,在預訓練和強化學習階段均優於採用RoPE的完整MLA。不僅基準得分更高,還更快、更經濟,使他們能夠更高效地訓練、部署並服務更多使用者。未來,月之暗面還有進一步改進,成熟後會公開。近期,DeepSeek、智譜都曾發佈以視覺方式作為輸入,以提升效率的探索。不過,周昕宇稱,他個人認為這種方法過於刻意,自己更傾向於繼續探索特徵空間,尋找更通用、與模態無關的方法來提高模型效率。此前,月之暗面曾經在模型中採用了Muon作為最佳化器,網友認為這一最佳化器相對來說未經測試,這一決定似乎有些瘋狂。周昕宇解釋了採用Muon的歷程。他稱,Muon是一個未經其他廠商測試的最佳化器,但月之暗面已經用它進行了所有的擴展測試,結果都通過了。他們對自己的研究成果充滿信心,網友或許認為Muon只是運氣好,但實際上有幾十種最佳化器和架構沒有經受住這樣的考驗。02. “被封禁”已超出控制範圍上下文窗口將進一步擴展月之暗面三位聯合創始人還集中回應了與模型服務、開源等相關話題的疑問。有網友稱,Kimi在自己的公司已經成為主要的測試模型,但生產環境會切換到美國本土的模型。這主要是因為領導層擔心Kimi是“中國大模型”,可能存在一些風險。這位網友還分享,自己很喜歡使用Kimi App,自己一位在亞馬遜工作的朋友也很喜歡這一應用,但由於亞馬遜有規定必須使用自家的AI助手,禁止在工作場合使用其他主流的AI助手App。網友擔心,隨著Kimi逐漸變得知名,她會不會再也無法在工作場合中使用呢?吳育昕回應稱:“雖然被“封禁”往往超出我們的控制範圍,但開源該模型有望成為消除部分顧慮的有效途徑(企業可以自行部署)。我們希望看到一個更加信任的世界,但這需要時間。”上下文一直是影響AI模型在生產環境應用的重要因素。目前,Kimi K2 Thinking最大支援256K的上下文,有網友反饋這對大型程式碼庫而言並不算大。楊植麟稱,月之暗面應該能在未來的版本中增加上下文長度。還有網友希望月之暗面能將模型上下文窗口提升到100萬個token,周昕宇回覆道,月之暗面之前已嘗試過100萬個token的上下文窗口,但當時的服務成本太高。未來他們會重新考慮更長的上下文窗口當被問及有無AI瀏覽器的開發計畫時,周昕宇十分犀利地回覆道:要做出更好的模型,並不需要再去套一層新的Chromium殼。楊植麟稱,月之暗面目前將專注於模型訓練,但會不斷更新kimi.com ,使其包含最新功能。還有不少網友提到,希望月之暗面能推出規模更小的模型。楊植麟稱,Kimi-Linear-48B-A3B-Instruct就是月之暗面發佈的小型模型之一,未來他們可能會訓練更多模型並加入更多功能。目前,Kimi已經提供了程式設計訂閱方案,這一計費方式是基於API請求次數,有網友稱這種模式導致資源消耗偏高。月之暗面回應稱,API請求次數計費能讓使用者看到費用明細,同時也更符合企業的成本結構。不過,他們會盡快找到更好的方案。03. 結語:中國AI創新能力獲得認可從社區中海外開發者的熱烈提問和尖銳反饋可以看出,以Kimi系列為代表的中國模型正受到前所未有的關注。月之暗面此次在Reddit平台的公開問答,集中回應了全球網友對Kimi技術細節的大量興趣和疑問。這種關注背後,也折射出全球開發者對中國AI創新能力的認可。 (智東西)
三次考上清華的鼓手,痛擊美國AI巨頭
比AI技術發展更讓人驚訝的,是AI的造富速度!6月24日,《新財富》雜誌第二十三屆500創富榜的發佈,用具象化的排名把大佬們的身家呈現給了公眾。但與以往不同,這一次輿論的聚光燈偏離了首富寶座的更迭流轉,而是打在了新的技術造富樣本上——年僅40歲的梁文鋒,從年初DeepSeek的爆發到手握1846.2億持股估值高居創富榜第10,只用了不到6個月的時間。● 圖片來源:《新財富》雜誌在梁文鋒之外,月之暗面的創始人楊植麟,也以93.9億元身家首次上榜創富榜,排名第366位。這位曾三次考上清華的90後天才,比梁文鋒還要年輕7歲。他打造出2024年AI圈的頭號寵兒Kimi——其被描述為中國的Chat GPT,幫助月之暗面豪取240億人民幣的估值。● 楊植麟被清華三次錄取的樂隊鼓手作為一名90後,楊植麟兼具理工男和資深文青的雙重特質。在未成立月之暗面前,他最被人稱道的是考上了三次清華、成立了一支樂隊。2008年,15歲的楊植麟一腳踏入汕頭最好的高中——金山中學,在學霸扎堆的校園裡,“雖然我見過很多天才,但他們都稱我為天才”有了具象化體現:高一時,楊植麟加入了學校的資訊學奧賽班,僅訓練一年,就在全國青少年資訊學奧林匹克聯賽中獲得廣東賽區一等獎,首次獲得清華大學保送資格;緊接著,他又參加了清華大學的自主招生考試,再次超越錄取分數線拿到了錄取資格;高三時,已是清華保送生的他決定以普通高考生的身份參加高考,結果以667的高分考上汕頭市的理科狀元,第三次獲得了清華的錄取資格。站在三次被清華錄取光環背後的,並非書呆子型的學霸,相反,楊植麟的座右銘頗具伊壁鳩魯主義——“Just for Fun(娛樂至上)”。得益於父母開放的教育理念,楊植麟熱愛搖滾、電影和旅行,最喜歡的樂隊是平克·弗洛伊德,參加過學校樂隊,堅持在課餘時間練習打鼓,小時候的夢想是成為搖滾明星或流浪詩人。順利考取清華後,他創立了名為Splay的搖滾樂隊,並擔任樂隊的鼓手和詞曲作者,成功在清華校園歌手大賽中殺入前三。搖滾,不只是對壓力的宣洩方式,更是楊植麟自我表達的一種方式。在大學期間,他目睹身邊許多人為了實現階層跨越而拚命努力。面對這樣的大環境,他既感嘆其荒誕,又深感危機四伏。於是,他創作了一首歌,歌詞大致講述了一個關於創業成功、一夜暴富的白日夢,以此勉勵自己不要淪為功利主義的奴隸。● 作為樂隊鼓手的楊植麟清華上下幾屆的神中之神音樂之外,楊植麟的學術成就同樣耀眼,借用月之暗面投資人的評價,他是“清華上下幾屆的神中之神”。出於對未來就業的考慮,楊植麟在入學時選擇了熱能專業,但大二時突然轉系至電腦,師從中國大模型領域的領軍人物唐傑老師,而他轉系的理由非常“搖滾”:喜歡。這種喜歡來自村上春樹的小說——楊植麟曾在村上的一本小說裡看到一個很厲害的程式設計師的角色,這讓他對深夜寫程式碼讓技術落地這件事充滿了憧憬。● 現為清華大學基礎模型研究中心主任的唐傑教授。圖片來源:THU基礎模型在唐傑教授的影響下,楊植麟養成了“做學問要像喝咖啡一樣上癮”的習慣。由於轉系的緣故,楊植麟少學了一年功課,但他在熱能專業和電腦專業的成績都極為優異:在校四年成績保持年級第一,人工智慧核心課程穩居年級首列,90%專業課成績超過95分,在演算法、機器學習等硬核課程中展現統治力。在學術上,楊植麟手握二十多篇論文,十多篇一作,憑藉獨創的社交網路資料流演算法,在全球癌症預測大賽中將預測錯誤率壓降28%,大幅刷新了賽事紀錄,被賽事官方認可為“顛覆傳統預測模型的里程碑”。2014年,楊植麟以14票中13票的絕對優勢拿下畢業答辯獎學金,為自己四年的清華歲月畫上了完美句號。他在答辯中的一句話,正透露出這位21歲青年的科技野心:“這是電腦科學最好的時代,因為這是資料的時代。這是我人生中最好的時代,因為我懷揣夢想,做最好的事情,讓資料改變世界”。抱著用資料改變世界的夢想,楊植麟前往美國深造。拿到AI2.0時代的門票2015年,楊植麟赴美國卡耐基梅隆大學攻讀博士學位,在這裡,他遇到了兩位頂配導師——蘋果AI負責人Ruslan Salakhutdinov和Google首席科學家William Cohen。● 楊植麟與導師Ruslan Salakhutdinov(右)、William Cohen(左)合影在導師的幫助下,楊植麟深入Google實習。他在Google學到最關鍵的一課,就是把自己從死摳細節中釋放出來,把更多的精力和思考留給大方向與大梯度。2017年,楊植麟一改過去的發散型探索,判斷語言模型將是最重要的課題(事實證明,他的判斷無比正確),就把精力收斂到對大語言模型的研究上。對楊植麟這種層次的天才來說,只要找到了靶子,就有一萬種方式射中靶心。雖然還只是學生,但他靠著層出不窮的點子和踏實肯幹的研究精神,先後與圖靈獎得主、被譽為“人工智慧教父”的Yann LeCun(楊立昆)、Yoshua Bengio進行合作,並以第一作者的身份發表了兩篇里程碑式論文,成功拿到了通往AI2.0時代的門票。● “人工智慧教父”Yann LeCun 和 Yoshua Bengio 。圖片來源:NUS2022年年底,AI行業為整個世界帶來了一次震顫——隨著Chat GPT的發佈,AGI(通用人工智慧)技術正開始改變我們每一個人。因為走在行業前沿,楊植麟是第一批體驗Chat GPT的中國人,他敏銳察覺ChatGPT擴散需要時間,很多人對語言大模型能創造多大的財富和價值沒有概念,這讓手握資訊差的他既激動又焦慮。為了吃到行業的第一口紅利,楊植麟展示出了極強的決斷力和執行力,他立刻飛往美國,憑藉在行業內的口碑以及創業的經驗,迅速拿到1億美元融資。2023年4月,月之暗面誕生,主攻AGI領域。顛覆未知的決心所謂月之暗面,是由於地球引力分佈的不均勻,使得月地之間存在潮汐摩擦,讓月球自轉速度逐漸減慢,直到總是以同一面面對地球,另一面則始終不向人類展示。月背的這份黑暗給古今眾人留下了無盡的遐思,隨著天文學和航天技術的進步,人們對其認知也歷經了從恐懼、好奇到想要挑戰、徹底征服的演變。楊植麟將公司取名月之暗面,是對音樂偶像的致敬,更是對人類顛覆未知精神的拓撲回歸。● DARK SIDE OF MOON 專輯封面在他看來,通用人工智能技術的發展就像登月,需要長期主義的堅守。在公司內部,楊植麟把長文字稱為登月計畫的第一步。2023年10月,Kimi首次亮相,背靠千億參數大模型,支援輸入的長文字達到20萬字,首次將對話方塊容量做到了全球第一,而彼時Open AI的GPT-4則是約2.5萬字,相當於它的8倍。假如用手機記憶體做比喻,GPT-4的大小是128G,Kimi就是1TB——這正好是丐版iPhone和頂配iPhone的記憶體大小,讓使用者直觀感到了Kimi的強悍。5個月後,Kimi又跨了一大步,升級到200萬字——這是個什麼概念呢?一百二十回的全本《紅樓夢》約為71萬字,而Kimi能在短時間內處理約3本《紅樓夢》的資料量並給出答案,至今領先同行。憑藉面向使用者的獨特定位、實打實的技術領先,讓Kimi在2024年2月的訪問量高達305萬,較環比增長107.6%,在國內僅次於百度文心一言、阿里通義千問兩家大廠,位列AI大模型第3位。強勁的技術和使用者表現,也讓月之暗面備受資本青睞,天使輪獲得紅杉中國和真格基金等近20億人民幣的融資。2024年,月之暗面更是成為AI圈的頭號炸子雞,美團、阿里、騰訊、小紅書等企業接連投資,估值一路飆升至33億美元(約240億元人民幣),領跑一眾大模型企業。但在看似波瀾不驚的航行中,一場由DeepSeek掀起的AI風暴,很快吹向了一路順風順水的楊植麟。風暴下的月之暗面文藝青年身上總會帶點理想主義,文理雙修的楊植麟則是典型的技術理想主義者。他不認為月之暗面是為了競爭而建立的公司,而是為使用者提供好產品的公司。基於技術理想主義的純粹,他認為技術是這個時代唯一新變數,其他變數沒變。隨著年初DeepSeek-R1的橫空出世,他的這句話竟一語成讖:一條兇猛如麥爾維爾《白鯨》中莫比·迪克的巨鯨,以獨特的蒸餾技術與開源模式引爆了整個AGI領域,輝達、Open AI都倍受其害。站在大的維度上說,假如把中美AI技術的發展視作一場競賽,那麼Kimi、DeepSeek、豆包、千問等一眾國產大模型是並肩作戰的隊友。平心而論,月之暗面內部對DeepSeek的態度很樂觀,認為其加速了大模型在全國的落地,為行業營造了更好的環境。但矛盾之處在於,Kimi偏偏是被DeepSeek影響最深的那個——隨著全球使用者對Chat GPT祛魅,讓一直標榜中國版Chat GPT的Kimi商業價值同樣大打折扣。更嚴峻的是,DeepSeek改變了國內大模型的生態。過去的大模型廠商多面向企業,但隨著年初全民的關注,字節、阿里、騰訊等一眾網際網路頭部都在向To C(普通使用者)轉型,可這個市場,恰恰是Kimi砸入大量資金才啃下的基本盤。這導致Kimi也吃下了部分由DeepSeek帶來的增量市場,但市場佔有率卻大不如前,最近的月活也在下滑。● 圖片來源:QuestMobile有業內人士直言,月之暗面遇到的挑戰是:“從資源的維度,投流投不過大廠;從技術和產品心智的維度,目前被DeepSeek反超。”在風暴中,楊植麟也曾短暫迷失,但他沒有輕言放棄、畏懼變革,他曾用The Verve樂隊的一句歌詞勉勵自己,並將其分享給清華的學弟學妹們:“I’m a million different people from one day to the next”“不要懼怕改變,自己革自己的命,每天都不一樣,可能離美好的東西會更近一些。”理想主義的浪漫在重新研判市場和技術環境後,楊植麟明白眼前的路只有一條——突圍。但他沒有操之過急,失去戰略定力,而是繼續堅持長期主義。一方面,月之暗面在此前的多輪融資中稱得上實力雄厚,遠未到生死存亡的邊際;另一方面,他明白技術突破不可能一蹴而就,早在DeepSeek問世的前一年,楊植麟就說:“它(AGI發展)是個螺旋。看你投入多少分配在短期,多少分配在長期。要在你能活下去的情況下,追求長期。長期一定不能沒有,否則你會錯過整個時代。今天下結論,確實太早了。”如果說長文字是登月計畫的第一步,那麼月之暗面邁出的第二步就是個性化。具體而言,是切入垂直領域。早在去年,Kimi就針對知乎使用者進行了精準投放,試圖從網際網路高知群體中率先打開市場。今年則更進一步,先是在4月與財新傳媒達成合作,使用者提問財經相關內容時,Kimi將結合財新傳媒旗下專業報導內容生成答案,收穫了一大批財經媒體的青睞。近期,Kimi更是佈局AI醫療,針對醫學類的專業使用者需求,加強在專業領域的搜尋質量。● 圖片來源:Kimi官網切入垂直賽道之外,楊植麟也始終把技術視作第一要素,在沉默中打贏了一場技術突圍戰。在剛剛過去的6月份,月之暗面開源了Kimi-Dev-72B程式設計大模型,只用不到DeepSeek1/9的參數,就在AI程式設計能力測試中以60.4%的成績超越DeepSeek-R1。● 圖片來源:月之暗面GitHub項目此外,月之暗面還發佈了一款名為Kimi-Researcher的自主Agent(智能體),在號稱AI評測的天花板——《人類最後的考試》中以26.9%的精準率,實現了在全球範圍內的領先,並開始向使用者推出。● 不斷進化的Kimi。圖片來源:Moonshot官網Kimi和DeepSeek在技術上的你追我趕,實則是兩個技術理想主義者在AGI領域的思想碰撞。梁文鋒、楊植麟,抑或是每位AI領域的創業者,都希望自己能打造出最偉大的AGI公司。但我們應當相信,比起最終的結果,他們也都更享受追逐“用資料改變世界”夢想的過程。正如有人曾問楊植麟:“如果你沒有做成什麼,會覺得自己失敗了?”他的回答極具理想主義者的浪漫: “關係不是那麼大,我接受有失敗的機率……這個事情它已經完全改變了我的生命,我是充滿感激的。” (最華人)
梁文鋒和楊植麟再“撞車”
被追趕和超越,是創業者常面對的挑戰。繼2月論文“撞車”之後,梁文鋒和楊植麟又在另一個大模型賽道上相遇了。4月30日,DeepSeek上線新模型DeepSeek-Prover-V2,這是一個數學定理證明專用模型。Prover-V2的參數規模進一步擴展到671B(6710億規模參數),相較於前一代V1.5版本的7B規模增加了近百倍,這讓其在數學測試集上的效率和正確率更高,比如,該模型的miniF2F測試通過率達到88.9%,它還解決了PutnamBench(普特南測試)的49道題。巧合的是,4月中旬,月之暗面也曾推出一款用於形式化定理證明的大模型Kimina-Prover,這是Kimi團隊和Numina共同研發的大模型,該產品也開源了1.5B和7B參數的模型蒸餾版本。該模型的miniF2F測試通過率為80.7%,PutnamBench測試成績為10道題。兩者相比較,在miniF2F測試通過率以及普特南測試上,DeepSeek-Prover-V2的表現超過了Kimina-Prover預覽版。值得注意的是,兩家公司在技術報告中都提到了強化學習。比如DeepSeek的題目為《DeepSeek-Prover-V2:通過子目標分解的強化學習推進形式數學推理》,而月之暗面的題目為《Kimina-Prover Preview:基於強化學習技術的大型形式推理模型》。在2月的兩篇“撞車”論文中,梁文鋒和楊植麟都在作者行列,兩家公司都關注Transformer架構最核心的注意力機制,即如何讓模型更好地處理長上下文。作為中國大模型領域最受矚目的創業者,兩人也正在面臨不同的挑戰。對於梁文鋒而言,在R1模型推出三個多月後,外界對DeepSeek“魔法”的痴迷程度正在下降,阿里巴巴的開源模型正在迅速趕上以及超過DeepSeek,外界熱切期待其發佈R2或V4模型,以加強領先優勢。對於楊植麟和月之暗面,Kimi正在遭受來自字節跳動的豆包和騰訊元寶的挑戰,它也需要保持持續創新。01 程式設計與數學,實現AGI的兩條路徑對於AGI的實現路徑,2024年,DeepSeek創始人梁文鋒在接受《暗湧》採訪時曾說,他們確實押注了三個方向:一是數學和程式碼、二是多模態、三是自然語言本身。數學和程式碼是AGI天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。另一方面,多模態需要參與到人類真實世界裡學習。他們對一切可能性都保持開放。此次Prover-V2模型的推出,讓DeepSeek的各個模型矩陣保持了同步進化。Prover系列模型於2024年3月開始被發佈,2024年8月被更新為DeepSeek-Prover-V1.5(後簡稱為Prover-V1.5),2025年4月再被更新至DeepSeek-Prover-V2。DeepSeek程式碼系列模型Coder從2024年4月開始更新,6月升級為Coder-V2-0614,7月再次升級,9月,DeepSeek-V2-Chat和DeepSeek-Coder-V2合併,升級後的新模型為DeepSeek-V2.5,2024年12月,該模型更新至V3,今年3月,升級至V3-0324。通用推理大模型,以1月20日發佈的R1模型為代表,價格低廉,自然語言推理性能強勁,在數學、程式碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。從Prover-V2的技術報告上看,其與DeepSeek的其他模型進化有關聯,其中,DeepSeek-Prover-V2-671B是以DeepSeek-V3作為基礎模型來做微調,如在冷啟動階段,DeepSeek-V3將複雜問題分解為一系列子目標,而後,已解決子目標的證明被合成到一個思維過程鏈中,結合DeepSeek-V3的逐步推理,為強化學習建立一個初始冷啟動。演算法工程師、知乎使用者“小小將”告訴《中國企業家》,推理模型在進行推理時,要進行複雜的思考,程式碼與數學模型可以檢驗推理大模型能力進展,因為數學與程式碼的結果是可驗證的。他認為,Prover-V2的推出與新模型R2或V4的上線沒有必然聯絡,它更像是一個獨立模型的更新。他預測,R2模型更像是GPT-o1到o3的過程,比如在提高強化學習的能力方面,DeepSeek可以基於V3,提升後訓練效果,因此R2的研發周期可能會比較短。但V4就是一個大版本的更新,其研發周期有可能更長,因為預訓練的工程量以及訓練方法可能都會發生變化。目前市場已經對DeepSeek的新模型充滿了想像和期待。市場上傳言,R2模型將基於華為昇騰系列GPU晶片而推出,但一位行業人士說,這個消息不太可靠,在輝達H20晶片被限之後,昇騰系列晶片在市場上也是一卡難求,“對於昇騰來說,如果用於大模型研發,可能魯棒性沒那麼強”。另有創業公司相關人士告訴《中國企業家》,華為昇騰晶片用於大模型的訓練,效果一般,原因在於生態系統沒那麼完善,但用於大模型的推理與部署,是沒有問題的。02 DeepSeek與Kimi還能保持領先嗎?DeepSeek與月之暗面作為明星初創公司,正在遭受大公司的追趕和超越。以月之暗面旗下的Kimi為例,據QuestMobile資料,Kimi上線不足1年,在2024年11月,月活突破2000萬,僅次於豆包的5600萬。QuestMobile資料顯示,截至2025年2月底,AI原生APP月活規模前三名從豆包、Kimi、文小言更迭為DeepSeek、豆包、騰訊元寶,規模分別是1.94億、1.16億、0.42億。2月中旬,騰訊元寶宣佈接入DeepSeek,隨後,在一個多月時間內,騰訊元寶利用超級產品微信引流加上瘋狂買量投流,在使用者數量上已經超過了Kimi,成為排名第三的AI產品。據AppGrowing資料,在今年一季度,騰訊元寶的投流費用為14億元,遠遠超過Kimi的1.5億元規模。目前,Kimi最新的舉動是內測社區功能,增加使用者粘性。DeepSeek同樣也避免不了被大公司追趕甚至超越的挑戰。近期,阿里巴巴在大模型方面展現出了強勁的競爭力。4月29日,阿里巴巴發佈新一代通義千問模型Qwen3,該模型被稱作首個“混合推理模型”,是“快思考”和“慢思考”整合的一個模型,參數量僅為DeepSeek-R1的1/3,性能全面超越R1、OpenAI o1等同行產品。此前,蔡崇信評價DeepSeek,它告訴了我們開放原始碼的價值。根據公開資料,阿里通義已開源200余個模型,全球下載量超3億次,千問衍生模型數超10萬個,已超越美國Llama,成為全球第一開源模型。一位AI創業者告訴《中國企業家》,DeepSeek受到了過多的關注,被賦予過多光環,中國大模型產業需要兩三個世界領先的大模型,而不是一個,這時候應鼓勵這個領域的競爭和創業。另一個重要玩家是百度。4月25日,百度發佈文心4.5 Turbo和深度思考模型X1 Turbo,這兩款模型性能更強大,成本更低,李彥宏更是數次提到DeepSeek,他說,DeepSeek也不是萬能的,它只能處理單一的文字,還不能理解聲音、圖片、視訊等多媒體內容,同時幻覺率比較高,很多場合不能放心使用。“DeepSeek最大的問題是慢和貴,中國市場上絕大多數大模型API的價格都更低,而且反應速度更快。”李彥宏在發佈會上說。儘管如此,百度仍決定學習DeepSeek,今年2月,百度決定在6月30日開源文心大模型4.5系列。越來越多的玩家參與大模型開源競賽,但只有技術最先進的玩家才能定義標準。 (中國企業家雜誌)