月之暗面的價值觀是“把事情真正做成並落地”。智東西1月29日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動。三位聯合創始人楊植麟(CEO)、周昕宇(演算法團隊負責人)和吳育昕與全球網友從0點聊到3點,把許多關鍵問題都給聊透了,比如Kimi K2.5是否蒸餾自Claude、Kimi K3將帶來的提升與改變,以及如何在快速迭代與長期基礎研究之間取得平衡。▲AMA欄目截圖(圖源:Reddit)一開始,便有網友拋出尖銳問題:Kimi K2.5有時會自稱為Claude,有人懷疑這是對Claude進行蒸餾的證據。楊植麟回應道,這一現象主要是由在預訓練階段對最新程式設計資料進行了上採樣,而這些資料似乎與“Claude”這個token的關聯性較強,事實上,K2.5在許多基準測試中似乎都優於Claude。談及Kimi K3,楊植麟沒透露太多細節,但提到了K3會在Kimi Linear上加入更多架構最佳化,他相信,就算Kimi K3沒比K2.5強10倍,也肯定會強很多。整場問答中,月之暗面的三位聯合創始人共回答了40多個問題。智東西也向他們提出了3個問題,並獲得了直接回應。當智東西問及月之暗面的算力儲備時,楊植麟稱,GPU數量的差距並未縮小,但實現AGI究竟需要多少算力,仍需拭目以待,而周昕宇補充了一句頗具哲理的話:創新往往誕生於約束之中。▲楊植麟、周昕宇回應智東西關於算力儲備的問題(圖源:Reddit)周昕宇還提到,月之暗面有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。此次AMA正值Kimi K2.5的發佈。這是月之暗面目前最強大的模型,在視覺、程式設計、Agent以及各種通用任務上都有不錯的表現,還通過一項名為智能體蜂群的技術實現一個模型對多達100個“子智能體”的調度,任務執行效率最高提升450%。發佈後2天左右,Kimi K2.5獲得權威AI評測榜單Artificial Analysis開源模型第一的成績,僅次於來自OpenAI、Anthropic和Google的4款模型。我們將AMA中的精華內容梳理歸納為23個關鍵問題,分為三章呈現,第一章聚焦月之暗面公司本身及AI行業相關話題,第二章介紹Kimi K2.5的技術細節,第三章展望月之暗面的未來規劃。完整問答連結:https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/01. GPU數量差距並未縮小 但創新往往誕生於約束之中(1)智東西提問:在上次的AMA中,您提到月之暗面的GPU數量(相較其他企業)處於劣勢。在2026年,這種差距會縮小嗎?楊植麟:我認為差距並沒有縮小。但是,要實現通用人工智慧(AGI)究竟需要多少算力?我們拭目以待。周昕宇:可用算力受到太多因素的影響。但無論如何,創新往往誕生於約束之中(innovation loves constraints)。(2)網友提問:您對DeepSeek的Engram架構有何期待?您是否正在考慮採用這種架構?周昕宇:對嵌入進行Scaling是一個值得探索的有趣方向。但在我們通過Scaling階梯對其進行測試之前,我們還沒有太多可靠的資料。(3)智東西提問:這是一個關於你們研究文化的問題。大規模模型訓練會消耗大量的GPU時間,如何界定沉沒成本?比如說,某個方向經過三個月的實驗後沒有明顯的性能提升,你們的團隊會根據那些指標來決定是繼續、調整方向還是徹底放棄?鑑於行業內快速迭代的步伐,你們是否擔心追求短期成功的壓力,會影響那些需要多年才能見效的基礎研究?您如何使您的團隊免受這種壓力的影響?周昕宇:非常好的問題。針對第一個問題,我們會將所有相關實驗的結果分享給所有技術人員,並進行深入討論,直到最終決定是繼續、轉型還是徹底放棄。討論每天都會進行,我們鼓勵每個人對所有事情提出質疑,從目標設定到最細微的技術細節。針對第二個問題,長期以來,我們在押注技術基本面的走勢上有著相當不錯的記錄。MoBA幾乎從公司成立之初就開始了;Kimi Linear也經歷了將近一年的探索與掙扎。關鍵在於團隊要有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。我們的組織、文化和管理都是為了支撐這一價值觀而建立的。(4)網友提問:你們最喜歡工作中的那一部分?楊植麟:我們喜歡訓練模型,因為這讓人感覺在不斷接近真相:關於什麼是有效的、什麼是無效的真相,關於智能是如何被創造出來的真相。(5)網友提問:請問訓練視覺語言模型(VLM)的主要挑戰是什麼?為什麼Kimi如此致力於訓練視覺模型?楊植麟:主要挑戰在於如何同時提升文字和視覺性能。我們發現,當方法得當時,文字和視覺可以相互促進。例如,我們觀察到,在視覺任務上進行強化學習訓練可以提升文字知識基準測試的成績。另一方面,像K2這樣強大的文字庫對於提升視覺性能也至關重要。(6)網友提問:Kimi Code和Claude Code有什麼區別?為什麼Kimi要開發自己的程式設計工具?楊植麟:我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時,框架會不斷變化,相容性有時會成為問題。此外,Kimi Code還擁有一些獨有的功能,例如視訊輸入。我們認為video2code(視訊生程式碼)非常重要,代表著前端開發的未來。(7)網友提問:強化學習基礎設施已成為關注的焦點。考慮到訓練像智能體蜂群這樣的系統的複雜性,在像verl這樣的開源框架上實現起來會相當具有挑戰性。你們在強化學習基礎設施方面所做的具體改進是什麼?吳育昕:強化學習基礎設施的確是一項巨大的挑戰,我們力求在保持良好靈活性的同時實現高效率。在效率方面,我們嘗試在開發訓練和推理系統時充分考慮強化學習的實際應用場景,以便復用所有繁重的計算工作,從而實現規模化擴展。智能體蜂群的部署邏輯尤其複雜,但我們的系統具有極高的靈活性,允許我們將不同的框架和子智能體設定整合到訓練過程中。(8)網友提問:我想問一下與你們的Scaling階梯有關的問題。你們開始實驗的最小規模(主動/被動)是多少?通常步長是多少?另外,你們是否會根據所做的更改類型(資料、最佳化器、線性注意力機制等)採用不同的Scaling階梯?周昕宇:我們從非常小的規模開始。我個人有時會從小到可以在單個CPU上訓練的模型開始。核心目標是預測系統的可擴展性。有些架構無法擴展,有些最佳化器無法擴展,甚至有些資料也無法擴展。在低FLOPs下評估可擴展性是一個有趣的研究課題,它需要對訓練過程中的數學動態有深刻的理解,同時也需要兼顧嚴謹性和創造性。舉個例子:我們曾經急於將Kimi Linear移植到Kimi K2中,但它在達到一定規模後Scaling失敗了。我們不得不暫停開發,經過漫長的偵錯過程,最終歷經數月才使其達到如今Kimi Linear的水平。從統計學角度來看,大多數小規模行之有效的方案都無法突破規模化瓶頸。而那些能夠成功推廣的方案通常都簡單有效,並且有數學依據。研究的重點在於如何應對失敗,而不是慶祝成功。02. 模型自稱Claude並非因為蒸餾 智能的上限取決於新學習演算法(9)智東西提問:Kimi K2.5使用了平行智能體強化學習技術。你們會不會將主要算力預算從預訓練轉向強化學習?在K3路線圖中,強化學習的算力規模是否會超越預訓練?楊植麟:強化學習的計算量將持續增長。更重要的是,增加強化學習計算量的方法有很多,而且有些方法比其他方法更有效。未來可能會出現更多新的目標函數來對模型進行強化訓練,尤其是在智能體領域。(10)網友提問:Kimi K2.5已經證明,通過強化學習擴展思考token是實現前沿推理的可行途徑。考慮到訓練CoT(思維鏈)策略的巨大工程開銷和生成思考token的推理延遲,你們是否正在探索架構遞迴作為一種在不將計算外部化到KV快取的情況下實現P/poly複雜度的方法?楊植麟:在當前的架構下,我們所關心的許多問題在計算意義上其實都是可解的。在很多情況下,模型能力的瓶頸並不在於其路線複雜度(circuit complexity),而在於任務本身是否是可驗證的。這意味著兩點:一方面,我們當然可以通過設計更高效的架構來降低特定任務所需的路線複雜度,從而提升token使用效率;不過,智能的上限更多地取決於能否發明新的學習演算法。這些演算法應當能夠超越預先定義的、可驗證的任務,而不僅僅是依賴更高效的模型架構。(11)網友提問:Kimi K2.5非常棒,但我看到有人說模型會自稱為Claude,並把這當作你們大量蒸餾(distill)自Claude模型的證據。這是怎麼回事?楊植麟:我們的觀察是,在正確的系統提示詞下,它有很高的機率回答“Kimi”,尤其是在思考模式下。但當系統提示為空時,它就進入了一個未定義區域,這更多地反映了預訓練資料的分佈情況。其中一項改進是,我們在預訓練階段對來自網際網路的最新程式設計資料進行了上採樣,而這些資料似乎與詞元“Claude”的關聯性更強。事實上,K2.5在許多基準測試中似乎都優於Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。(12)網友提問:我想知道你們是如何降低K2的幻覺問題的?幻覺問題似乎是K2模型的主要弱點,也是我之前沒有使用Kimi的原因。但目前來看,2.5版本更加可靠。吳育昕:對於所有大模型來說,管理幻覺仍然是一個巨大的挑戰。我們已經通過提高資料質量(更多經過驗證的知識,更少低品質的說法)和獎勵機制(例如,當模型出現幻覺時進行懲罰)來改善這種情況,但我們認為仍然有很多方法可以進一步改進。(13)網友提問:Kimi K2.5使用了較高的參數比例(約470:1)。您認為我們目前是否因為使用15兆個token進行過度訓練而“浪費”了計算資源?吳育昕:我不確定1:1最優性是否仍然成立,但從這個意義上講,我們確實會“浪費”一些訓練計算資源。否則模型會更大,並且與我們現在的模型相比,會“浪費”大量的推理計算資源。周昕宇:如果你追求計算最優(compute-optimal)的訓練方式,那麼大多數有用的模型實際上都是被過度訓練的;更大的模型只是“過度訓練得沒那麼嚴重”。而計算最優訓練通常要求模型規模足夠大,這會對現有基礎設施帶來巨大的挑戰,同時也會顯著提高推理成本。我並不認為過度訓練是一種“浪費”,而更像是我們為了獲得更優整體權衡而主動支付的一種“成本”。(14)網友提問:Kimi K2.5的“智能體蜂群”功能最多可協調100個子智能體。在這種規模下,“協調器”模型往往會成為瓶頸。Kimi K2.5如何處理管理100個平行推理流所帶來的延遲和上下文資訊丟失問題?吳育昕:“智能體蜂群”的一個很酷的點在於,各個子智囊團可以在不“腐蝕”或污染主調度器上下文的情況下獨立執行子任務。它們本質上擁有各自的工作記憶,只在必要時將結果返回給調度器。這使我們能夠在一個全新的維度上擴展整體的上下文長度。(15)網友提問:在Kimi K2.5中,你們如何權衡強化程式設計能力與保持甚至提升非程式設計能力(如創意寫作和情緒理解)之間的關係?在K2發佈時你們在官方介紹中強調了創意寫作和情商。團隊是如何在訓練和最佳化過程中,確保這些對使用者體驗至關重要但更“軟性”的能力不發生退化的?楊植麟:在模型參數規模足夠的情況下,我認為程式設計能力和創意寫作之間不存在根本性的衝突。但確實,隨著我們不斷改進獎勵模型,要在不同模型版本之間保持一致的“寫作品味”本身就是一項挑戰。我們的一項做法是依賴內部基準評測(幾乎可以看作一種“元評測”)來反映模型在創意寫作方面的進展,並據此對獎勵模型進行相應調整。(16)網友提問:K2.5的個性和寫作風格明顯變得更加通用,更像其他模型的“貼心助手”風格了。我們非常喜歡K2的個性!K2.5到底發生了什麼?你們是否已經注意到這個問題並正在調查?吳育昕:遺憾的是,每次新版本發佈後,我們都會看到模型“個性”發生一定程度的變化。這是一個相當棘手的問題,因為個性是模型主觀且難以評估的特徵。我們正在努力解決這個問題,並且希望能夠讓產品更好地滿足每位使用者的個性化需求。03. K3將在Kimi Linear基礎上最佳化 即便沒比K2.5強10倍也會強得多(17)網友提問:Kimi K3的重點會是什麼?原始性能?長期目標?還是上下文長度?楊植麟:我們正在嘗試新的架構和新功能。(18)網友提問:Kimi K3是否一定會採用線性架構或其他新架構?如果真是如此,您將如何確保K2.5 Thinking的性能得以保留,甚至進一步提升?尤其是在多模態性能方面。我擔心架構改變後可能會出現不穩定的情況。楊植麟:線性架構是一個非常不錯的選擇。我們做了很多研究,包括Kimi Linear。希望我們能在此基礎上加入更多架構最佳化。我相信Kimi K3就算沒有比K2.5強10倍,也肯定會強得多(I'm sure it will be much, if not 10x, better than K2.5)。(19)網友提問:你們未來對線上/持續學習方面有什麼計畫,特別是針對Agentic模型?Kimi Linear與K2.5有什麼關係?線性注意力仍然是主要研究方向之一,還是會發展成為一個獨立的研究分支?周昕宇:我們相信,持續學習能夠提升模型的自主性,並使它們能夠更長時間地高效工作。我們正在積極探索這一方向。Kimi Linear是與K2.5平行開展的一項專門研究項目。我們正大力投資於線性注意力機制,將其作為未來模型的一個關鍵方向。(20)網友提問:你們是如何考慮模型的角色塑造的?如果有的話,你們對“Kimi”這個角色有什麼目標?楊植麟:我認為模型的核心在於“品味”,因為智能本身是非同質化的(non-fungible)。我個人很喜歡K2.5打造的前端設計,它有著獨特的審美取向。模型的性格也是“品味”的一種體現。有報導稱,K2.5相比其他模型更少迎合使用者。這或許是一種好的性格特徵,因為持續不斷地強化使用者原有的觀點,在某些情況下可能是危險的。(21)網友提問:請問你們有計畫開源“智能體蜂群”或者將其作為一項功能加入到Kimi-cli中嗎?楊植麟:目前它還處於測試階段。待其更加穩定後,我們將向開發者提供框架。希望很快就能實現。(22)網友提問:為什麼不把視覺編碼器做得大於400M呢?吳育昕:小型編碼器在很多方面都有利於Scaling,所以我們甚至會問自己:為什麼不把它設為0呢?(23)網友提問:你們有計畫推出帶有原生音訊輸入功能的模型嗎?楊植麟:目前我們沒有足夠的資源來處理音訊輸入,所以可能會把重點放在訓練更好的智能體上。 (智東西)