DeepSeek終於失去了開源第一王座,但繼任者依然來自中國

幾千人盲投,Kimi K2超越DeepSeek拿下全球開源第一

歪果網友們直接炸了,留言區秒變誇誇打卡現場:

今天,競技場終於更新了Kimi K2的排名情況——

開源第一,總榜第五,而且緊追馬斯克Grok 4這樣的頂尖閉源模型

且各類單項能力也不差,能和一水兒閉源模型打得有來有回:

  • 連續多輪對話並列第一,o3和Grok 4均為第四;
  • 程式能力第二,和GPT 4.5、Grok 4持平;
  • 應對複雜提示詞能力第二,和o3、4o位於同一梯隊;
  • ……

連眼尖的朋友也發現了,唯二闖入總榜TOP 10的開源模式都來自中國。(DeepSeek R1總榜第8)

當然了,即使拋開榜單不談,Kimi這款新模型過去一周也確實火爆——

K2過去一周真熱啊

公開可查戰績包括但不限於以下這些:

從實打實的數據來看,發布這一周裡,Kimi K2在開源社群中獲得了相當關注度和下載量。

GitHub標星5.6K,Hugging Face下載量近10萬,這還不包括它在中國社區的應用。

連AI搜尋引擎明星創企Perplexity CEO也親自為它站台,並透露:

Kimi K2在內部評估中表現出色,Perplexity計劃接下來基於K2模型進行後訓練。

甚至因為造訪的用戶太多了,逼得Kimi官方也出來發公告:

訪問量大+模型體積大,導致API過慢。

……

不過就在一片向好之時,人們關於「Kimi K2採用了DeepSeek V3架構」的質疑聲再度升溫。

對此,我們也找到了Kimi團隊成員關於K2架構的相關回應。

總結下來就是,確實繼承了DeepSeek V3的架構,不過後續還有一系列參數調整。

ps 以下分享皆來自知乎@劉少偉,內容經概括總結如下~

一開始,他們嘗試了各種架構方案,結果發現V3架構是最能打的(其他頂多旗鼓相當)。

所以問題變成了,要不要為了不同而不同?

經過深思熟慮,團隊給了否定答案。理由有兩點:

一是V3架構珠玉在前且已經經過大規模驗證,沒必要強行「標新立異」;二是自己和DeepSeek一樣,訓練和推理資源非常有限,而經過評估V3架構符合相關成本預算。

所以他們選擇了完全繼承V3架構,並引入適合自己的模型結構參數。

具體而言,K2的結構參數改動有四點:

  • 增加專家數量:團隊驗證了在啟動參數量不變的情況下,MoE總參數增加仍有益於loss下降。
  • 注意力頭head數減半:減少head數節省的成本,剛好抵消MoE參數變大帶來的開銷,且效果影響很小。
  • 只保留第一層Dense:只保留第一層為dense,其餘都用MoE,結果對推理幾乎無影響。
  • 專家無分組:透過自由路由+動態重排(EPLB)可以處理負載不均衡,同時讓專家組合更靈活,模型能力更強。

最終得到的推理方案就是,在相同專家數量下:

雖然總參數增加到1.5倍,但除去通訊部分,理論的prefill和decode耗時都更小。即使考慮與通訊overlap等複雜因素,這個方案也不會比V3有顯著的成本增加。

就是說,這是一種更「精打細算」的結構調優。

而這種放棄自己的模型架構路線,徹底走DeepSeek路線的做法,也被國內網友評價為「相當大膽」

來源:知乎網友@蛙哥

OK,以上關於Kimi和DeepSeek架構之爭的問題落定後,我們再把目光拉回這次最新排名。

開源追平or超越閉源ing

一個很明顯的趨勢是:「開源=效能弱」的刻板印象正在被打破,開源模型已經越來越厲害了。

不僅榜單上的整體排名正在上升,而且分數差距也越來越小。

仔細看,模型TOP 10總分均為1400+,開源和閉源幾乎可以看成位於同一起跑線。

而這次拿下開源第一的Kimi K2,總分已經非常接近Grok 4、GPT 4.5等頂尖閉源模型了。

換句話說,以前我們可能還要在模型能力和成本之間作取捨,但隨著開源力量的崛起,多思考一秒鐘都是對開源的不尊重(doge)。

同時,越來越多的產業人士也表達了對開源崛起的判斷。

艾倫人工智慧研究所研究科學家Tim Dettmers表示:

開源擊敗閉源將變得越來越普遍。

Perplexity CEO也多次在公開場合表示:

開源模型將在塑造AI能力的全球擴散路徑中扮演重要角色。它們對於因地制宜地定製和本地化AI體驗至關重要。

而在已經逐漸崛起的開源模型領域,TOP 10中唯二開源、且都是國產模型的含金量還在上升。 (量子位元)