#周昕宇
月之暗面三位聯創深夜回應一切!3小時答全球網友23問,楊植麟劇透Kimi K3提升巨大
月之暗面的價值觀是“把事情真正做成並落地”。智東西1月29日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動。三位聯合創始人楊植麟(CEO)、周昕宇(演算法團隊負責人)和吳育昕與全球網友從0點聊到3點,把許多關鍵問題都給聊透了,比如Kimi K2.5是否蒸餾自Claude、Kimi K3將帶來的提升與改變,以及如何在快速迭代與長期基礎研究之間取得平衡。▲AMA欄目截圖(圖源:Reddit)一開始,便有網友拋出尖銳問題:Kimi K2.5有時會自稱為Claude,有人懷疑這是對Claude進行蒸餾的證據。楊植麟回應道,這一現象主要是由在預訓練階段對最新程式設計資料進行了上採樣,而這些資料似乎與“Claude”這個token的關聯性較強,事實上,K2.5在許多基準測試中似乎都優於Claude。談及Kimi K3,楊植麟沒透露太多細節,但提到了K3會在Kimi Linear上加入更多架構最佳化,他相信,就算Kimi K3沒比K2.5強10倍,也肯定會強很多。整場問答中,月之暗面的三位聯合創始人共回答了40多個問題。智東西也向他們提出了3個問題,並獲得了直接回應。當智東西問及月之暗面的算力儲備時,楊植麟稱,GPU數量的差距並未縮小,但實現AGI究竟需要多少算力,仍需拭目以待,而周昕宇補充了一句頗具哲理的話:創新往往誕生於約束之中。▲楊植麟、周昕宇回應智東西關於算力儲備的問題(圖源:Reddit)周昕宇還提到,月之暗面有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。此次AMA正值Kimi K2.5的發佈。這是月之暗面目前最強大的模型,在視覺、程式設計、Agent以及各種通用任務上都有不錯的表現,還通過一項名為智能體蜂群的技術實現一個模型對多達100個“子智能體”的調度,任務執行效率最高提升450%。發佈後2天左右,Kimi K2.5獲得權威AI評測榜單Artificial Analysis開源模型第一的成績,僅次於來自OpenAI、Anthropic和Google的4款模型。我們將AMA中的精華內容梳理歸納為23個關鍵問題,分為三章呈現,第一章聚焦月之暗面公司本身及AI行業相關話題,第二章介紹Kimi K2.5的技術細節,第三章展望月之暗面的未來規劃。完整問答連結:https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/01. GPU數量差距並未縮小 但創新往往誕生於約束之中(1)智東西提問:在上次的AMA中,您提到月之暗面的GPU數量(相較其他企業)處於劣勢。在2026年,這種差距會縮小嗎?楊植麟:我認為差距並沒有縮小。但是,要實現通用人工智慧(AGI)究竟需要多少算力?我們拭目以待。周昕宇:可用算力受到太多因素的影響。但無論如何,創新往往誕生於約束之中(innovation loves constraints)。(2)網友提問:您對DeepSeek的Engram架構有何期待?您是否正在考慮採用這種架構?周昕宇:對嵌入進行Scaling是一個值得探索的有趣方向。但在我們通過Scaling階梯對其進行測試之前,我們還沒有太多可靠的資料。(3)智東西提問:這是一個關於你們研究文化的問題。大規模模型訓練會消耗大量的GPU時間,如何界定沉沒成本?比如說,某個方向經過三個月的實驗後沒有明顯的性能提升,你們的團隊會根據那些指標來決定是繼續、調整方向還是徹底放棄?鑑於行業內快速迭代的步伐,你們是否擔心追求短期成功的壓力,會影響那些需要多年才能見效的基礎研究?您如何使您的團隊免受這種壓力的影響?周昕宇:非常好的問題。針對第一個問題,我們會將所有相關實驗的結果分享給所有技術人員,並進行深入討論,直到最終決定是繼續、轉型還是徹底放棄。討論每天都會進行,我們鼓勵每個人對所有事情提出質疑,從目標設定到最細微的技術細節。針對第二個問題,長期以來,我們在押注技術基本面的走勢上有著相當不錯的記錄。MoBA幾乎從公司成立之初就開始了;Kimi Linear也經歷了將近一年的探索與掙扎。關鍵在於團隊要有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。我們的組織、文化和管理都是為了支撐這一價值觀而建立的。(4)網友提問:你們最喜歡工作中的那一部分?楊植麟:我們喜歡訓練模型,因為這讓人感覺在不斷接近真相:關於什麼是有效的、什麼是無效的真相,關於智能是如何被創造出來的真相。(5)網友提問:請問訓練視覺語言模型(VLM)的主要挑戰是什麼?為什麼Kimi如此致力於訓練視覺模型?楊植麟:主要挑戰在於如何同時提升文字和視覺性能。我們發現,當方法得當時,文字和視覺可以相互促進。例如,我們觀察到,在視覺任務上進行強化學習訓練可以提升文字知識基準測試的成績。另一方面,像K2這樣強大的文字庫對於提升視覺性能也至關重要。(6)網友提問:Kimi Code和Claude Code有什麼區別?為什麼Kimi要開發自己的程式設計工具?楊植麟:我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時,框架會不斷變化,相容性有時會成為問題。此外,Kimi Code還擁有一些獨有的功能,例如視訊輸入。我們認為video2code(視訊生程式碼)非常重要,代表著前端開發的未來。(7)網友提問:強化學習基礎設施已成為關注的焦點。考慮到訓練像智能體蜂群這樣的系統的複雜性,在像verl這樣的開源框架上實現起來會相當具有挑戰性。你們在強化學習基礎設施方面所做的具體改進是什麼?吳育昕:強化學習基礎設施的確是一項巨大的挑戰,我們力求在保持良好靈活性的同時實現高效率。在效率方面,我們嘗試在開發訓練和推理系統時充分考慮強化學習的實際應用場景,以便復用所有繁重的計算工作,從而實現規模化擴展。智能體蜂群的部署邏輯尤其複雜,但我們的系統具有極高的靈活性,允許我們將不同的框架和子智能體設定整合到訓練過程中。(8)網友提問:我想問一下與你們的Scaling階梯有關的問題。你們開始實驗的最小規模(主動/被動)是多少?通常步長是多少?另外,你們是否會根據所做的更改類型(資料、最佳化器、線性注意力機制等)採用不同的Scaling階梯?周昕宇:我們從非常小的規模開始。我個人有時會從小到可以在單個CPU上訓練的模型開始。核心目標是預測系統的可擴展性。有些架構無法擴展,有些最佳化器無法擴展,甚至有些資料也無法擴展。在低FLOPs下評估可擴展性是一個有趣的研究課題,它需要對訓練過程中的數學動態有深刻的理解,同時也需要兼顧嚴謹性和創造性。舉個例子:我們曾經急於將Kimi Linear移植到Kimi K2中,但它在達到一定規模後Scaling失敗了。我們不得不暫停開發,經過漫長的偵錯過程,最終歷經數月才使其達到如今Kimi Linear的水平。從統計學角度來看,大多數小規模行之有效的方案都無法突破規模化瓶頸。而那些能夠成功推廣的方案通常都簡單有效,並且有數學依據。研究的重點在於如何應對失敗,而不是慶祝成功。02. 模型自稱Claude並非因為蒸餾 智能的上限取決於新學習演算法(9)智東西提問:Kimi K2.5使用了平行智能體強化學習技術。你們會不會將主要算力預算從預訓練轉向強化學習?在K3路線圖中,強化學習的算力規模是否會超越預訓練?楊植麟:強化學習的計算量將持續增長。更重要的是,增加強化學習計算量的方法有很多,而且有些方法比其他方法更有效。未來可能會出現更多新的目標函數來對模型進行強化訓練,尤其是在智能體領域。(10)網友提問:Kimi K2.5已經證明,通過強化學習擴展思考token是實現前沿推理的可行途徑。考慮到訓練CoT(思維鏈)策略的巨大工程開銷和生成思考token的推理延遲,你們是否正在探索架構遞迴作為一種在不將計算外部化到KV快取的情況下實現P/poly複雜度的方法?楊植麟:在當前的架構下,我們所關心的許多問題在計算意義上其實都是可解的。在很多情況下,模型能力的瓶頸並不在於其路線複雜度(circuit complexity),而在於任務本身是否是可驗證的。這意味著兩點:一方面,我們當然可以通過設計更高效的架構來降低特定任務所需的路線複雜度,從而提升token使用效率;不過,智能的上限更多地取決於能否發明新的學習演算法。這些演算法應當能夠超越預先定義的、可驗證的任務,而不僅僅是依賴更高效的模型架構。(11)網友提問:Kimi K2.5非常棒,但我看到有人說模型會自稱為Claude,並把這當作你們大量蒸餾(distill)自Claude模型的證據。這是怎麼回事?楊植麟:我們的觀察是,在正確的系統提示詞下,它有很高的機率回答“Kimi”,尤其是在思考模式下。但當系統提示為空時,它就進入了一個未定義區域,這更多地反映了預訓練資料的分佈情況。其中一項改進是,我們在預訓練階段對來自網際網路的最新程式設計資料進行了上採樣,而這些資料似乎與詞元“Claude”的關聯性更強。事實上,K2.5在許多基準測試中似乎都優於Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。(12)網友提問:我想知道你們是如何降低K2的幻覺問題的?幻覺問題似乎是K2模型的主要弱點,也是我之前沒有使用Kimi的原因。但目前來看,2.5版本更加可靠。吳育昕:對於所有大模型來說,管理幻覺仍然是一個巨大的挑戰。我們已經通過提高資料質量(更多經過驗證的知識,更少低品質的說法)和獎勵機制(例如,當模型出現幻覺時進行懲罰)來改善這種情況,但我們認為仍然有很多方法可以進一步改進。(13)網友提問:Kimi K2.5使用了較高的參數比例(約470:1)。您認為我們目前是否因為使用15兆個token進行過度訓練而“浪費”了計算資源?吳育昕:我不確定1:1最優性是否仍然成立,但從這個意義上講,我們確實會“浪費”一些訓練計算資源。否則模型會更大,並且與我們現在的模型相比,會“浪費”大量的推理計算資源。周昕宇:如果你追求計算最優(compute-optimal)的訓練方式,那麼大多數有用的模型實際上都是被過度訓練的;更大的模型只是“過度訓練得沒那麼嚴重”。而計算最優訓練通常要求模型規模足夠大,這會對現有基礎設施帶來巨大的挑戰,同時也會顯著提高推理成本。我並不認為過度訓練是一種“浪費”,而更像是我們為了獲得更優整體權衡而主動支付的一種“成本”。(14)網友提問:Kimi K2.5的“智能體蜂群”功能最多可協調100個子智能體。在這種規模下,“協調器”模型往往會成為瓶頸。Kimi K2.5如何處理管理100個平行推理流所帶來的延遲和上下文資訊丟失問題?吳育昕:“智能體蜂群”的一個很酷的點在於,各個子智囊團可以在不“腐蝕”或污染主調度器上下文的情況下獨立執行子任務。它們本質上擁有各自的工作記憶,只在必要時將結果返回給調度器。這使我們能夠在一個全新的維度上擴展整體的上下文長度。(15)網友提問:在Kimi K2.5中,你們如何權衡強化程式設計能力與保持甚至提升非程式設計能力(如創意寫作和情緒理解)之間的關係?在K2發佈時你們在官方介紹中強調了創意寫作和情商。團隊是如何在訓練和最佳化過程中,確保這些對使用者體驗至關重要但更“軟性”的能力不發生退化的?楊植麟:在模型參數規模足夠的情況下,我認為程式設計能力和創意寫作之間不存在根本性的衝突。但確實,隨著我們不斷改進獎勵模型,要在不同模型版本之間保持一致的“寫作品味”本身就是一項挑戰。我們的一項做法是依賴內部基準評測(幾乎可以看作一種“元評測”)來反映模型在創意寫作方面的進展,並據此對獎勵模型進行相應調整。(16)網友提問:K2.5的個性和寫作風格明顯變得更加通用,更像其他模型的“貼心助手”風格了。我們非常喜歡K2的個性!K2.5到底發生了什麼?你們是否已經注意到這個問題並正在調查?吳育昕:遺憾的是,每次新版本發佈後,我們都會看到模型“個性”發生一定程度的變化。這是一個相當棘手的問題,因為個性是模型主觀且難以評估的特徵。我們正在努力解決這個問題,並且希望能夠讓產品更好地滿足每位使用者的個性化需求。03. K3將在Kimi Linear基礎上最佳化 即便沒比K2.5強10倍也會強得多(17)網友提問:Kimi K3的重點會是什麼?原始性能?長期目標?還是上下文長度?楊植麟:我們正在嘗試新的架構和新功能。(18)網友提問:Kimi K3是否一定會採用線性架構或其他新架構?如果真是如此,您將如何確保K2.5 Thinking的性能得以保留,甚至進一步提升?尤其是在多模態性能方面。我擔心架構改變後可能會出現不穩定的情況。楊植麟:線性架構是一個非常不錯的選擇。我們做了很多研究,包括Kimi Linear。希望我們能在此基礎上加入更多架構最佳化。我相信Kimi K3就算沒有比K2.5強10倍,也肯定會強得多(I'm sure it will be much, if not 10x, better than K2.5)。(19)網友提問:你們未來對線上/持續學習方面有什麼計畫,特別是針對Agentic模型?Kimi Linear與K2.5有什麼關係?線性注意力仍然是主要研究方向之一,還是會發展成為一個獨立的研究分支?周昕宇:我們相信,持續學習能夠提升模型的自主性,並使它們能夠更長時間地高效工作。我們正在積極探索這一方向。Kimi Linear是與K2.5平行開展的一項專門研究項目。我們正大力投資於線性注意力機制,將其作為未來模型的一個關鍵方向。(20)網友提問:你們是如何考慮模型的角色塑造的?如果有的話,你們對“Kimi”這個角色有什麼目標?楊植麟:我認為模型的核心在於“品味”,因為智能本身是非同質化的(non-fungible)。我個人很喜歡K2.5打造的前端設計,它有著獨特的審美取向。模型的性格也是“品味”的一種體現。有報導稱,K2.5相比其他模型更少迎合使用者。這或許是一種好的性格特徵,因為持續不斷地強化使用者原有的觀點,在某些情況下可能是危險的。(21)網友提問:請問你們有計畫開源“智能體蜂群”或者將其作為一項功能加入到Kimi-cli中嗎?楊植麟:目前它還處於測試階段。待其更加穩定後,我們將向開發者提供框架。希望很快就能實現。(22)網友提問:為什麼不把視覺編碼器做得大於400M呢?吳育昕:小型編碼器在很多方面都有利於Scaling,所以我們甚至會問自己:為什麼不把它設為0呢?(23)網友提問:你們有計畫推出帶有原生音訊輸入功能的模型嗎?楊植麟:目前我們沒有足夠的資源來處理音訊輸入,所以可能會把重點放在訓練更好的智能體上。 (智東西)
罕見!月之暗面楊植麟、周昕宇、吳育昕回應一切:打假460萬美元、調侃OpenAI
Kimi現階段優先考慮絕對性能。智東西11月11日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動,月之暗面聯合創始人兼CEO楊植麟等人在Kimi K2 Thinking模型發佈後不久,正面回應了模型訓練成本、跑分與實際體驗差距等熱點議題。Kimi K2 Thinking模型訓練成本僅為460萬美元的網路傳言喊得響亮,不過,楊植麟已經打假了,他稱,這並非官方資料,訓練成本很難量化,因為其中很大一部分用於研究和實驗。他還透露,月之暗面已經在研究K2的VL(視覺-語言)版本了。有不少海外網友提出了十分尖銳的問題,比如Kimi K2 Thinking的推理長度過長,榜單成績與實際體驗不符等問題。楊植麟解釋了背後的原因,他稱現階段該模型優先考慮絕對性能,token效率會在後續得到改善。榜單高分與實測的脫節,也會在模型通用能力補齊後獲得改善。10月底,月之暗面開源了混合線性注意力架構Kimi Linear,首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了全注意力機制,引來不少開發者關注。楊植麟稱,Kimi Linear的KDA混合線性注意力模組,很可能會以某種形式出現在K3中。而當網友問及K3的發佈時間時,楊植麟戲謔地回應道:“在Sam價值兆美元的資料中心建成之前。”月之暗麵糰隊似乎還在另外幾條評論中調侃了OpenAI。當網友問及有無AI瀏覽器的開發計畫時,月之暗面聯合創始人兼演算法團隊負責人周昕宇稱,要做出更好的模型,並不需要再去套一層新的Chromium殼。而當網友好奇OpenAI為何要燒掉那麼多錢時,周昕宇稱:“這個問題只有Sam才知道。我們有自己的方式和節奏。”面對外界關於“開源是否會帶來安全風險”的提問,楊植麟回應稱,開放安全對齊技術堆疊有助於更多研究者在微調開源模型時保持安全性,同時他也強調需要建立機制,確保這些後續工作遵循安全協議。他還在另一條評論中補充道:“我們擁抱開源,因為我們相信對AGI(通用人工智慧)的追求,應該帶來團結,而不是分裂。”月之暗面聯合創始人吳育昕也一同參與了這場問答,楊植麟、周昕宇、吳育昕圍繞Kimi系列模型的架構創新、訓練細節、開源策略以及未來規劃與網友進行了交流。01. K2 Thinking現有優先順序是性能獨特文風背後有訣竅在這場活動中,最受關注的焦點是Kimi K2 Thinking模型,這是月之暗面最新發佈的開源推理模型。有網友稱,自己測試了Kimi K2 Thinking與GPT-5 Thinking,前者的正確率領先,但推理時間更長,像是在不停複查自己。對此,楊植麟稱,他們正在積極最佳化token使用效率。當前版本中,優先考慮的是絕對性能而非token效率。月之暗面會嘗試將效率納入獎勵機制,以便它能學習如何簡化思考過程。還有網友質疑,Kimi K2 Thinking是否經過專門訓練,以在HLE這一基準測試中取得好成績?它的高分似乎與實際使用中的智能水平不太相符。楊植麟回應道,Kimi K2 Thinking在提升智能體推理能力方面取得了一些進展,使其在HLE測試中得分較高。月之暗面正在努力進一步提升其通用能力,以便在更多實際應用場景中充分發揮智能的作用。另有網友問道:“為何K2 Thinking能在一次推理中保持如此長的思維鏈,而GPT-5不行?”楊植麟解釋道:“我認為推理時間取決於API吞吐,而推理token的數量取決於模型訓練方式。我們在訓練Kimi K2 Thinking時傾向於使用更多的思考token以獲得最佳效果。我們的Turbo API會更快,同時Kimi K2 Thinking原生採用INT4,這也提升了推理速度。Kimi K2 Thinking是一款純文字模型,有網友提問稱,這究竟是為了達到SOTA而做出的短期權衡,還是一項長期投資?楊植麟回應,獲得正確的VL資料和訓練需要時間,因此月之暗面選擇先發佈文字模型。Kimi K2系列模型不阿諛奉承、直接的文風在AI界算是一股清流,有不少網友認可這種風格。吳育昕稱,這種寫作風格是模型後訓練資料和評估的重要組成部分。談及KDA,楊植麟稱,從歷史上看,混合注意力在長輸入和長輸出任務上要超越全注意力一直很困難。KDA在所有維度上都展示了性能提升,包括長思維鏈RL場景,同時保持了線性注意力的高效性。另一位網友補充道,希望KDA能結合擴散模型使用。楊植麟認為這一想法是可行的,但文字擴散(text diffusion)比較困難,可能是因為在將擴散應用到文字上時,還沒有足夠好的先驗。周昕宇在技術層面進一步解釋了KDA的對比優勢。他稱,KDA混合架構結合NoPE MLA後,在預訓練和強化學習階段均優於採用RoPE的完整MLA。不僅基準得分更高,還更快、更經濟,使他們能夠更高效地訓練、部署並服務更多使用者。未來,月之暗面還有進一步改進,成熟後會公開。近期,DeepSeek、智譜都曾發佈以視覺方式作為輸入,以提升效率的探索。不過,周昕宇稱,他個人認為這種方法過於刻意,自己更傾向於繼續探索特徵空間,尋找更通用、與模態無關的方法來提高模型效率。此前,月之暗面曾經在模型中採用了Muon作為最佳化器,網友認為這一最佳化器相對來說未經測試,這一決定似乎有些瘋狂。周昕宇解釋了採用Muon的歷程。他稱,Muon是一個未經其他廠商測試的最佳化器,但月之暗面已經用它進行了所有的擴展測試,結果都通過了。他們對自己的研究成果充滿信心,網友或許認為Muon只是運氣好,但實際上有幾十種最佳化器和架構沒有經受住這樣的考驗。02. “被封禁”已超出控制範圍上下文窗口將進一步擴展月之暗面三位聯合創始人還集中回應了與模型服務、開源等相關話題的疑問。有網友稱,Kimi在自己的公司已經成為主要的測試模型,但生產環境會切換到美國本土的模型。這主要是因為領導層擔心Kimi是“中國大模型”,可能存在一些風險。這位網友還分享,自己很喜歡使用Kimi App,自己一位在亞馬遜工作的朋友也很喜歡這一應用,但由於亞馬遜有規定必須使用自家的AI助手,禁止在工作場合使用其他主流的AI助手App。網友擔心,隨著Kimi逐漸變得知名,她會不會再也無法在工作場合中使用呢?吳育昕回應稱:“雖然被“封禁”往往超出我們的控制範圍,但開源該模型有望成為消除部分顧慮的有效途徑(企業可以自行部署)。我們希望看到一個更加信任的世界,但這需要時間。”上下文一直是影響AI模型在生產環境應用的重要因素。目前,Kimi K2 Thinking最大支援256K的上下文,有網友反饋這對大型程式碼庫而言並不算大。楊植麟稱,月之暗面應該能在未來的版本中增加上下文長度。還有網友希望月之暗面能將模型上下文窗口提升到100萬個token,周昕宇回覆道,月之暗面之前已嘗試過100萬個token的上下文窗口,但當時的服務成本太高。未來他們會重新考慮更長的上下文窗口當被問及有無AI瀏覽器的開發計畫時,周昕宇十分犀利地回覆道:要做出更好的模型,並不需要再去套一層新的Chromium殼。楊植麟稱,月之暗面目前將專注於模型訓練,但會不斷更新kimi.com ,使其包含最新功能。還有不少網友提到,希望月之暗面能推出規模更小的模型。楊植麟稱,Kimi-Linear-48B-A3B-Instruct就是月之暗面發佈的小型模型之一,未來他們可能會訓練更多模型並加入更多功能。目前,Kimi已經提供了程式設計訂閱方案,這一計費方式是基於API請求次數,有網友稱這種模式導致資源消耗偏高。月之暗面回應稱,API請求次數計費能讓使用者看到費用明細,同時也更符合企業的成本結構。不過,他們會盡快找到更好的方案。03. 結語:中國AI創新能力獲得認可從社區中海外開發者的熱烈提問和尖銳反饋可以看出,以Kimi系列為代表的中國模型正受到前所未有的關注。月之暗面此次在Reddit平台的公開問答,集中回應了全球網友對Kimi技術細節的大量興趣和疑問。這種關注背後,也折射出全球開發者對中國AI創新能力的認可。 (智東西)