Kimi現階段優先考慮絕對性能。
智東西11月11日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動,月之暗面聯合創始人兼CEO楊植麟等人在Kimi K2 Thinking模型發佈後不久,正面回應了模型訓練成本、跑分與實際體驗差距等熱點議題。
Kimi K2 Thinking模型訓練成本僅為460萬美元的網路傳言喊得響亮,不過,楊植麟已經打假了,他稱,這並非官方資料,訓練成本很難量化,因為其中很大一部分用於研究和實驗。他還透露,月之暗面已經在研究K2的VL(視覺-語言)版本了。
有不少海外網友提出了十分尖銳的問題,比如Kimi K2 Thinking的推理長度過長,榜單成績與實際體驗不符等問題。楊植麟解釋了背後的原因,他稱現階段該模型優先考慮絕對性能,token效率會在後續得到改善。榜單高分與實測的脫節,也會在模型通用能力補齊後獲得改善。
10月底,月之暗面開源了混合線性注意力架構Kimi Linear,首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了全注意力機制,引來不少開發者關注。楊植麟稱,Kimi Linear的KDA混合線性注意力模組,很可能會以某種形式出現在K3中。
而當網友問及K3的發佈時間時,楊植麟戲謔地回應道:“在Sam價值兆美元的資料中心建成之前。”
月之暗麵糰隊似乎還在另外幾條評論中調侃了OpenAI。當網友問及有無AI瀏覽器的開發計畫時,月之暗面聯合創始人兼演算法團隊負責人周昕宇稱,要做出更好的模型,並不需要再去套一層新的Chromium殼。而當網友好奇OpenAI為何要燒掉那麼多錢時,周昕宇稱:“這個問題只有Sam才知道。我們有自己的方式和節奏。”
面對外界關於“開源是否會帶來安全風險”的提問,楊植麟回應稱,開放安全對齊技術堆疊有助於更多研究者在微調開源模型時保持安全性,同時他也強調需要建立機制,確保這些後續工作遵循安全協議。
他還在另一條評論中補充道:“我們擁抱開源,因為我們相信對AGI(通用人工智慧)的追求,應該帶來團結,而不是分裂。”
月之暗面聯合創始人吳育昕也一同參與了這場問答,楊植麟、周昕宇、吳育昕圍繞Kimi系列模型的架構創新、訓練細節、開源策略以及未來規劃與網友進行了交流。
在這場活動中,最受關注的焦點是Kimi K2 Thinking模型,這是月之暗面最新發佈的開源推理模型。
有網友稱,自己測試了Kimi K2 Thinking與GPT-5 Thinking,前者的正確率領先,但推理時間更長,像是在不停複查自己。對此,楊植麟稱,他們正在積極最佳化token使用效率。當前版本中,優先考慮的是絕對性能而非token效率。月之暗面會嘗試將效率納入獎勵機制,以便它能學習如何簡化思考過程。
還有網友質疑,Kimi K2 Thinking是否經過專門訓練,以在HLE這一基準測試中取得好成績?它的高分似乎與實際使用中的智能水平不太相符。
楊植麟回應道,Kimi K2 Thinking在提升智能體推理能力方面取得了一些進展,使其在HLE測試中得分較高。月之暗面正在努力進一步提升其通用能力,以便在更多實際應用場景中充分發揮智能的作用。
另有網友問道:“為何K2 Thinking能在一次推理中保持如此長的思維鏈,而GPT-5不行?”
楊植麟解釋道:“我認為推理時間取決於API吞吐,而推理token的數量取決於模型訓練方式。我們在訓練Kimi K2 Thinking時傾向於使用更多的思考token以獲得最佳效果。我們的Turbo API會更快,同時Kimi K2 Thinking原生採用INT4,這也提升了推理速度。
Kimi K2 Thinking是一款純文字模型,有網友提問稱,這究竟是為了達到SOTA而做出的短期權衡,還是一項長期投資?楊植麟回應,獲得正確的VL資料和訓練需要時間,因此月之暗面選擇先發佈文字模型。
Kimi K2系列模型不阿諛奉承、直接的文風在AI界算是一股清流,有不少網友認可這種風格。吳育昕稱,這種寫作風格是模型後訓練資料和評估的重要組成部分。
談及KDA,楊植麟稱,從歷史上看,混合注意力在長輸入和長輸出任務上要超越全注意力一直很困難。KDA在所有維度上都展示了性能提升,包括長思維鏈RL場景,同時保持了線性注意力的高效性。
另一位網友補充道,希望KDA能結合擴散模型使用。楊植麟認為這一想法是可行的,但文字擴散(text diffusion)比較困難,可能是因為在將擴散應用到文字上時,還沒有足夠好的先驗。
周昕宇在技術層面進一步解釋了KDA的對比優勢。他稱,KDA混合架構結合NoPE MLA後,在預訓練和強化學習階段均優於採用RoPE的完整MLA。不僅基準得分更高,還更快、更經濟,使他們能夠更高效地訓練、部署並服務更多使用者。未來,月之暗面還有進一步改進,成熟後會公開。
近期,DeepSeek、智譜都曾發佈以視覺方式作為輸入,以提升效率的探索。不過,周昕宇稱,他個人認為這種方法過於刻意,自己更傾向於繼續探索特徵空間,尋找更通用、與模態無關的方法來提高模型效率。
此前,月之暗面曾經在模型中採用了Muon作為最佳化器,網友認為這一最佳化器相對來說未經測試,這一決定似乎有些瘋狂。
周昕宇解釋了採用Muon的歷程。他稱,Muon是一個未經其他廠商測試的最佳化器,但月之暗面已經用它進行了所有的擴展測試,結果都通過了。他們對自己的研究成果充滿信心,網友或許認為Muon只是運氣好,但實際上有幾十種最佳化器和架構沒有經受住這樣的考驗。
月之暗面三位聯合創始人還集中回應了與模型服務、開源等相關話題的疑問。有網友稱,Kimi在自己的公司已經成為主要的測試模型,但生產環境會切換到美國本土的模型。這主要是因為領導層擔心Kimi是“中國大模型”,可能存在一些風險。
這位網友還分享,自己很喜歡使用Kimi App,自己一位在亞馬遜工作的朋友也很喜歡這一應用,但由於亞馬遜有規定必須使用自家的AI助手,禁止在工作場合使用其他主流的AI助手App。網友擔心,隨著Kimi逐漸變得知名,她會不會再也無法在工作場合中使用呢?
吳育昕回應稱:“雖然被“封禁”往往超出我們的控制範圍,但開源該模型有望成為消除部分顧慮的有效途徑(企業可以自行部署)。我們希望看到一個更加信任的世界,但這需要時間。”
上下文一直是影響AI模型在生產環境應用的重要因素。目前,Kimi K2 Thinking最大支援256K的上下文,有網友反饋這對大型程式碼庫而言並不算大。楊植麟稱,月之暗面應該能在未來的版本中增加上下文長度。
還有網友希望月之暗面能將模型上下文窗口提升到100萬個token,周昕宇回覆道,月之暗面之前已嘗試過100萬個token的上下文窗口,但當時的服務成本太高。未來他們會重新考慮更長的上下文窗口
當被問及有無AI瀏覽器的開發計畫時,周昕宇十分犀利地回覆道:要做出更好的模型,並不需要再去套一層新的Chromium殼。楊植麟稱,月之暗面目前將專注於模型訓練,但會不斷更新kimi.com ,使其包含最新功能。
還有不少網友提到,希望月之暗面能推出規模更小的模型。楊植麟稱,Kimi-Linear-48B-A3B-Instruct就是月之暗面發佈的小型模型之一,未來他們可能會訓練更多模型並加入更多功能。
目前,Kimi已經提供了程式設計訂閱方案,這一計費方式是基於API請求次數,有網友稱這種模式導致資源消耗偏高。月之暗面回應稱,API請求次數計費能讓使用者看到費用明細,同時也更符合企業的成本結構。不過,他們會盡快找到更好的方案。
從社區中海外開發者的熱烈提問和尖銳反饋可以看出,以Kimi系列為代表的中國模型正受到前所未有的關注。
月之暗面此次在Reddit平台的公開問答,集中回應了全球網友對Kimi技術細節的大量興趣和疑問。這種關注背後,也折射出全球開發者對中國AI創新能力的認可。 (智東西)