#LMArena
Kimi K2拿到了世界第一,也殺死了過去的自己
7月12日深夜,月之暗面更新了最新的大模型——Kimi K2,並將模型權重和程式碼全部開源。海內外AI圈瞬間炸鍋。在大模型競技場LMArena排行榜中,Kimi K2綜合排名斬獲全球第五,在開源大模型中位居全球第一,超越Claude 4、DeepSeek-R1-0528。海外AI圈大佬紛紛點贊,Perplexity CEO次日即宣佈將基於K2開啟後訓練。我們原本認為,K2的發佈只不過意味著月之暗面趕上了節奏,獲得了“短暫的呼吸權”。但當深入閱讀技術文件後我們卻發現,K2對於月之暗面以及行業的意義,遠比短暫的第一要更加重大。01 Kimi為何“遲到”?月之暗面曾憑藉獨樹一幟的長上下文技術和天才創始人背景,成為中國“AI六小虎”中最典型的代表。然而從今年1月份,Kimi的聲量卻逐漸式微,模型及產品的口碑開始出現下滑。要理解Kimi K2的轉向,我們必須先理解一個問題:為何Kimi陷入長達數月的沉寂。楊植麟以及月之暗面,在過去一直都是Scaling Law的忠實信徒。他們堅信,更大的模型、更多的資料,必然會湧現出更強的智能。通過卓越的產品體驗吸引使用者,利用使用者資料反哺模型訓練,從而形成“使用者資料”與“模型性能”的增長飛輪。因此月之暗面自創立之初起,就一直採取激進的“買量”策略,以期獲得更多使用者資料來驅動飛輪旋轉。2024年11月,楊植麟在接受採訪時表示,Kimi當前最核心的任務仍然是提升使用者留存。這個戰略聽起來很完美,但它建立在一個脆弱的前提之上——高品質的網際網路資料是取之不盡的。然而2024年底AI技術圈的風向徹底改變。前OpenAI科學家Ilya在演講中,預告了一個殘酷的現實:全球範圍內,可用於高品質預訓練的公開資料,已經被消耗殆盡。這與月之暗面一直堅持的Scaling信仰產生了巨大的矛盾。之後的故事我們已經很熟悉了。深度求索搶先佈局,依靠DeepSeek R1開闢了一種新的技術範式:依靠後訓練強化學習,讓大模型從“模仿學習”轉向更本質的“目標導向學習”來突破智能上限,是這個版本實現AGI的新路徑。儘管月之暗面也意識到強化學習的重要性,但在Kimi 1.5的訓練中,強化學習僅僅只是一個解決長文字 “上下文衰減問題”的輔助環節,而並非如R1那樣聚焦 “提升推理能力”,幫助模型突破智能上限。根據AppGrowing測算,2024年Kimi一年花掉的行銷預算接近9億人民幣,月活流量資料峰值為10月的 3600 萬。而一分廣告費沒花的DeepSeek,單單依靠產品實力和使用者口碑,月活一個月就暴漲至6181 萬。DeepSeek R1的出現直接引發了AI創業公司的存在主義危機。月之暗面的使用者增長策略開始備受質疑。這種巨大的壓力當然不僅僅只有月之暗面一家公司需要面對,R1給行業帶來挑戰是一視同仁的。當舊地圖已經無法通向羅馬,月之暗面必須找到一條全新的航線。02 Kimi K2 趟出的一條新航線Kimi K2 的“新”首先是在模型架構、演算法上的全面革新,更深層次則是月之暗面公司戰略甚至文化的重新出發。在大模型層面,K2取得了兩個突破性進展:(1)將模型參數量擴展到了超大的1T量級(2)K2原生具有呼叫各種工具的能力,提出了“模型即Agent”的新概念這兩個技術創新說起來容易,但真正實現卻十分困難,否則Kimi也不會消耗了大半年的時間才將K2端上來。Kimi是怎麼做到的呢?首先,為了實現K2 1T的參數量規模,Kimi果斷放棄了此前自研的模型架構,轉而積極擁抱DeepSeek V3。根據Kimi團隊的觀點,V3是一個被市場驗證過的、兼具性能和效率的選擇。於是,很多人抨擊K2就是DeepSeek V3的套殼,這顯然又是一種淺薄的傲慢。根據第一性原則,不拘泥於固有思維,只關注方案是否有效、可用,這恰恰反映了Kimi團隊的進步。合適的架構選擇只是第一步,K2與V3在具體參數上的差別非常大。根據團隊此前對Scaling的研究,為了在算力並不充裕的情況下突破智能上限,Kimi選擇減少DeepSeek V3 MoE結構中的Attention Heads(注意力頭)數量,將節省下來的參數空間全部用於增加專家的數量(Experts)。就理論而言,更多的專家數意味著模型擁有更龐大的知識,以及更強的處理複雜問題的潛力。然而,參數的輕微改動卻產生了巨大的麻煩。Kimi發現,此前內部已經驗證過的自研Muon最佳化器,在龐大的資料集的預訓練過程表現極不穩定,會頻繁崩潰。這困擾了Kimi團隊很長的時間,沒有公開的解決方案能應用於穩定15T量級的預訓練資料集。經過長期的嘗試,Kimi巧妙的將Muon與QK-Clip的組合,提出了一種新的MuonClip最佳化器。MuonClip最佳化器能很好地保持在預訓練的穩定性,最終保證了模型在15.5T tokens的巨量預訓練中,實現了零崩潰的穩定表現。它的Loss曲線是這樣的,海外AI圈大佬稱其為“完美的Loss曲線”。K2的第二個壯舉,是提出來一條通往原生Agentic Intelligence(智能體人工智慧)的新思路。眾所周知,繼推理大模型普及之後,Agent 在今年正式成為 AI 新的發展方向。AI Agent與對話類大模型最大的區別,就是AI Agent 能做到主動感知環境、影響環境,具備使用工具的能力。今年我們見證了MCP概念的火熱與普及,Cursor等 AI 程式設計產品開始大規模普及,OpenAI及國內廠商先後也發佈了不少通用Agent產品。在此前的認知中,大模型的使用工具的能力,大多需要通過複雜的提示工程(Prompt Engineering)或在預訓練後進行強化學習(RLHF)來“後補”。但Kimi K2 卻提出了訓練Agent的第三條路徑。在模型訓練之前,Kimi團隊依靠AI生成了成百上千個模擬場景,例如點外賣、寫程式碼、看視訊等,來模擬使用者的各種行為,並據此合成了覆蓋了數百個垂直領域的工具呼叫軌跡,其中既包括真實的MCP(模型上下文協議)工具,也包括合成工具。通俗點說,這就相當於直接將無數使用者未來可能使用Agent的所有場景,提前打包成了全新的、高品質的語料。最後再通過LLM從結果去評估每條模擬結果成功與否,以此篩選出高品質的訓練資料。基於此流程,月之暗面搭建出了一個完全自動化的Agent資料生產工廠!正如Kimi團隊研究員Flood Sung所言,這個生成無數個工作流的機制,十分契合老子的思想:一生二,二生三,三生萬物。這就讓Kimi K2在預訓練中,學到的不僅僅是知識,還包括工具和方法。最終我們看到,Kimi K2具備了很強的原生Agent能力。在我們的測試案例中,Kimi K2幾乎零失誤地實現了我們搭建前端網頁、開發小遊戲的需求。在官方公開的衡量程式碼任務執行能力的LiveCodeBench測試中,K2取得了53.7%的驚人成績,遠超GPT-4.1的44.7%和Claude 3.5 Opus的47.4%。不少從業者反饋,當K2的API完全接入Claude Code之後,能以更低的成本完美的取代原本Claude 3.5的能力,效果甚至直逼最先進的Claude 4.0。03 尾聲:先改變自己,再改變世界最後,我們想聊一聊月之暗面公司本身的戰略轉型。人們熟悉的月之暗面,是一家堅持產品、模型雙管齊下,有時候看起來甚至是更偏向產品驅動的AI公司。這當中自然有面對30億美元融資的無奈。參照過去網際網路時代行業“燒錢”換使用者的慣性思維,似乎只有使用者數量的持續增長,才能回應投資人的期待。網際網路可以通過平台免費+廣告變現的方式,將流量無痛轉化為收入,但AI與廣告在核心上就水火不容:前者強調效率提升,後者分散注意力。真正為AI創業公司創造價值的是付費使用者,付費使用者只會為效率和結果買單。C端使用者在乎的,是模型能力是否足夠聰明、通人性;B端使用者關心的,是AI能否幫企業賺更多錢。這也是為什麼DeepSeek R1能不花一分行銷預算就收穫巨量使用者——它足夠滿足需求,這就夠了。Kimi團隊在社交媒體上透露,公司在DeepSeek爆火後,內部對此前的決策進行了深刻乃至痛苦的反思。自2025年初開始,Kimi完全停掉了所有市場行銷和買量行為。“只要模型做的好,就會獲得市場認可”這是一個Kimi研究員從DeepSeek成功歸納出的結論。在反思會上,楊植麟果斷決定不再更新 K1 系列模型,集中資源搞基礎演算法和 K2,將全部資源和能力重新聚焦到大模型性能的提升上來。截至發稿日,Kimi開源第一的位置似乎已被阿里Qwen再次反超。但這些都不重要,從Kimi K2身上我們能夠看到月之暗面正在改變自己:放棄自研的架構去擁抱更優秀的架構;暫停買量,回歸技術研究,用實力說話;加入開源陣營,分享探索出的新技術路徑……無論是架構還是戰略上,我們可以肯定地說,是DeepSeek喚醒了Kimi。但我們更希望這是一個青出於藍而勝於藍的故事。 (新財富)
AI圈驚天醜聞,Meta作弊刷分實錘?頂級榜單曝黑幕,斯坦福MIT痛斥
【新智元導讀】剛剛,LMArena陷入了巨大爭議,斯坦福MIT和Ai2等的研究者聯手發論文痛斥,這個排行榜已經被Meta等公司利用暗中操作排名!Karpathy也下場幫忙錘了一把。而LMArena官方立馬回應:論文存在多處錯誤,指控不實。已經有越來越多的人發現:大模型排行榜LMArena,可能已經被大廠們玩壞了!就在最近,來自Cohere、普林斯頓、斯坦福、滑鐵盧、MIT和Ai2等機構的研究者,聯手祭出一篇新論文,列出詳盡論據,痛斥AI公司利用LMArena作弊刷分,踩著其他競爭對手上位。論文地址:https://arxiv.org/abs/2504.20879與此同時,AI大佬、OpenAI創始成員Andrej Karpathy也直接下場,分享了一段自己的親身經歷。前一段時間,Gemini模型一度在LMArena排名第一,遠超第二名。但Karpathy切換使用後,感覺還不如他之前用的模型。相反,大約在同一時間,他的個人體驗是Claude 3.5是最好的,但在LMArena上的排名卻很低。他還發現一些其他相對隨機的模型,通常小得可疑,據他所知幾乎沒有現實世界的知識,但排名也很高。他開始懷疑,Google等AI巨頭在暗中操縱LMArena的排名。要知道,就在本月初,就有報導稱LMArena可能正在成立新公司,籌集資金。在這個時候曝出醜聞,不知對此是否會有影響。業內聯名痛斥巨頭巧鑽漏洞,暗箱操作這篇報告,研究者花費了5個月時間分析了競技場上的280萬場戰鬥,涵蓋了43家提供商的238個模型。結果表明,少數提供商實施的優惠政策,導致過度擬合競技場特定指標,而不是真正的AI進步。因為存在未公開的私下測試機制,少數公司能在模型公開發佈前測試多個變體,甚至選擇性地撤回低分模型的結果。如此一來,公司便可以「挑三撿四」,只公佈表現最好的模型得分,從而讓LMArena的排行榜的結果出現嚴重「偏見」。而這種優勢,會隨著變體數量的增加,而持續疊加。私下測試模型變體數量對最佳預期得分的影響「best-of-N」提交策略對排名的模擬影響允許撤回評分會導致提供商有意抬高競技場分數比如說,Meta在發佈Llama 4之前,曾私下在LMArena上測試了27個LLM變體。而最終只公佈了其中一個分數。巧的是,這個模型恰恰就在LMArena上名列前茅。Cohere的AI研究副總裁、論文合著者Sara Hooker在接受外媒採訪時抱怨說:「只有少數公司會被告知可以私下測試,而且部分公司獲得的私下測試機會,遠超其他公司。」「這就是赤裸裸的兒戲。」從「行業標準」到「人人喊打」?與此同時,研究者還發現:閉源商業模型(如Google、OpenAI的模型)在LMArena中參與次數更多與之對比,開源模型(開放權重)不僅對戰次數較少,而且更容易在Arena中被移除這導致了一個長期的資料訪問不平等現象不同模型提供者的最大觀測採樣率採樣率反映了模型在LMArena中被普通使用者看到的頻率,也直接決定了該模型開發者能獲取多少使用者互動資料。LMArena是一個開放的社區資源,提供免費反饋,但61.3%的所有資料都流向了特定的模型提供商。具體來說,他們估算:Google和OpenAI的模型分別獲得了Arena上約19.2%和20.4%的全部使用者對戰資料而83個開源模型的總資料佔比僅為29.7%模型開發者的資料可用性情況而保守估計那怕是有限的額外資料,也可能帶來高達112%的相對性能提升。這進一步說明模型在Arena上的表現很容易被「過擬合」——即最佳化的是排行榜表現,而不是真正的通用模型質量。值得注意的是,LMArena的建構和維護依賴於組織者和開源社區的大量努力。組織者可以通過修訂他們的政策來繼續恢復信任。論文還非常清楚地提出了五個必要的改變:公開全部測試限制變體數量確保移除模型的公平性公平抽樣提高透明性官方回應論文有大量錯誤和詆毀鋪天蓋地的質疑襲來,LMArena火速出來回應了!它的官號第一時間發推回應稱,這項研究存在諸多事實錯誤和誤導性陳述,充滿了「不確定和可疑的分析」。而他們的說法,得到了GoogleDeepMind首席研究員Armand Joulin的聲援。他表示,論文中的一些資料是不精準的,比如Google只向LMArena發過一個Gemma 3的模型,進行預發佈測試。具體來說,關於某些模型提供商未得到公平對待的說法:這不符合事實。LMArena表示他們一直盡力滿足所有收到的評估請求。如果一個模型提供商選擇提交比另一個模型提供商更多的測試,這並不意味著後者受到了不公平對待。每個模型提供商對如何使用和重視人類偏好都有不同的選擇。事實錯誤:LMArena的模擬(如圖7/8所示)存在缺陷。這就像說:「NBA的平均三分球命中率是35%。庫裡的三分球命中率是NBA中最高的,為42%。這不公平,因為他來自NBA球員的分佈,而他們都有相同的潛在均值。」論文中的許多數字與實際情況不符。LMArena在幾天前發佈了部落格,公佈了不同提供商的測試模型的實際統計資料。例如,開源模型佔40%,而不是8.8%!所謂112%性能提升的說法具有誤導性,論文的結果基於LLM-judge基準,而不是Arena中的實際人工評估。LMArena的政策並非「秘而不宣」。早在一年多前,LMArena就設計並公開分享了他們的政策。模型提供商不僅僅選擇「要披露的最佳分數」。公共排行榜上列出的任何模型都必須是所有人都可以使用的正式版本,並且計畫提供長期支援。LMArena會使用新的資料對模型進行至少一個月的持續測試。LMArena的政策中一直明確說明了這些要點。顯示無法通過API或開源權重公開獲取的預發佈模型的分數毫無意義,因為社區無法使用這些模型或自行進行測試。這將違反LMArena一年多以前制定的政策。LMArena制定這項規則正是為了明確這一點:如果模型在排行榜上,則必須保證可用性。模型下架並非不公正或缺乏透明度,這與事實不符。排行榜旨在反映社區對最佳AI模型進行排名的興趣。LMArena還會下架不再向公眾提供的模型。這些標準已在我們的政策中公開聲明,並且在社區進行私下測試期間始終有效。要不,換個平台試試?正如貝佐斯所說:「當資料與個人經驗不一致時,個人經驗通常是正確的。」Karpathy也有同感。他認為這些大團隊在LMArena分數上投入了太多的內部關注和決策精力。不幸的是,他們得到的不是更好的整體模型,而是更擅長在LMArena上獲得高分的模型,而不管模型是否更好。對此Karpathy表示,既然LMArena已經被操控了,那就給大家推薦一個有望成為「頂級評測」的新排行榜吧!它就是——OpenRouterAI。OpenRouter允許個人/公司在不同LLM提供商之間快速切換API。他們都有真實的用例(並非玩具問題或謎題),有自己的私有評測,並且有動力做出正確的選擇,因此選擇某個LLM就是在為該模型的性能和成本的組合投票。Karpathy表示,自己非常看好OpenRouter成為一個難以被操控的評測平台。創始成員離開初心或已不在如今的爆火,或許讓人早已忘記,LMArena最初只是UC Berkeley、斯坦福、UCSD和CMU等高校的幾位學生自己做出來的項目。和傳統評測不同,LMArena採用的則是一套完全不同的方式——使用者提出問題,兩個匿名AI模型給出答案,然後評判那個回答更好,並最終將這些評分被彙總到一個排行榜上。憑藉著這套創新性的方法,它一舉成為了當時幾乎唯一一個能較為客觀地反映LLM性能的榜單。在輸入框中輸入問題,兩個不同的模型A和B同時回答。之後,使用者可選A或B的不同評價:A更好,B更好,平局,都不好隨著科技公司投入數百億美元押注AI將成為未來幾十年的決定性技術,LMArena也迅速走紅。在吸引客戶和人才方面,任何領先競爭對手的優勢都可能帶來重大影響,這就是為什麼眾多科技高管和工程師像華爾街交易員盯盤一樣密切關注LMArena。之後的故事,大家就都知道了。問題在於,作為課餘項目的LMArena本身並不完善。之所以能在持續的爆炸性增長下不失客觀性,靠的是創始人們堅定的初心。隨著創始成員陸續畢業,新成員的加入,LMArena似乎也離它最初的路線,越來越遠。一方面,由於投票不公開、以及那些模型應該進入競技場是由某幾位成員獨斷決定的,導致LMArena自身機制就缺乏透明性。另一方面,新團隊在某個時間點突然決定,把LMArena開放給頭部大公司做匿名模型測試。這幫摸爬滾打了多年的老油條們,顯然不會錯失這一良機。基於對大量實測資料的分析,這些技術大佬們很快就「掌握」了LMArena的調性,紛紛刷起了高分。從此,質疑聲便開始此起彼伏。 (新智元)