Kimi楊植麟「2026中關村論壇」演講全文

2026/03/26

•

大家好，今天很高興有機會分享我們在做開源模型和不斷訓練更好的大模型過程中的最新進展和思考。

其實做大模型本質上是把能源轉化成智能。轉化的過程中，最重要的事情是規模化。也就是說，把儘可能多的能源，經過算力和模型，變成更多的、更高程度的智能。

本質上，規模化定律（Scaling Law）是過去若干年，所有的模型和 AI 發展的一個很重要的基礎。

當然，規模化並不是代表我們只是去暴力地增加能源，或者去暴力的增加算力，而是涉及到我們如何有效地規模化。

我們會從三個維度去思考如何提高效率：

首先是提升 Token 效率。

它代表的是從同樣的資料中能夠學到多少智能。因為這個世界上的有效高品質資料，其實是一個常數，或者說是一個非常有限的值。如果你有更好的網路架構，或者有更好的最佳化器，那麼你就可以從有限的資料裡學到更多的智能。

第二是擴展上下文長度。

更長的上下文能力，意味著模型可以學會處理更複雜的任務。為此，我們設計了新的網路架構 Kimi Linear 和專門的訓練資料，來提升模型在長上下文時的表現。

第三是 Agent 叢集。

我們在最新模型 Kimi K2.5 中提出了一種新的規模化的方法，就是通過引入多個 Agent，讓很多個 Agent 可以一起去工作，形成 Agent 叢集。通過這種方式提升 AI 能完成的任務複雜度。

這是我們 K2.5 Agent 叢集的一個內部測試結果。橫坐標是任務複雜度，縱坐標是執行時間，如果我們用這種單一 Agent 的方式工作，可以看到隨著任務複雜度逐漸提升，完成時間是指數增加的。如果你需要做一個非常複雜的任務，比如從頭去寫一個程式碼倉庫，去實現一個很複雜的功能，需要幾天甚至幾周的時間。

但如果我們能夠平行，比如說開啟 100個 Agent 同時去做這個任務，然後在過程中它們會互相協作，互相協調和規劃接下來應該做的事情，就跟人類的組織一樣，那麼隨著任務複雜度的增加，執行時間其實沒有太大的變化。這意味著你可以在單位時間內去完成更加複雜的任務，使得原來一些完全不可能實現的任務變得有可能。

就像一家公司，如果你想做一個非常艱難的事情，完成一個很複雜的使命，比如說從 0 到 1 建造一家 100 億或者 1,000 億美元的公司，那麼你只靠一個人，可能要 100 年才能做出來，那你在市場上是沒有競爭力的，但這個時候如果你有100 或者 200 個非常聰明的人，能一起協作，那就有可能在短時間內完成。

通過 Agent 叢集能力，我們可以實現規模化的輸入，比如說你可以同時去調查幾百個不同的資料來源，在各種權威的資料來源裡面尋找答案；你也可以做規模化的輸出，比如說你可以通過閱讀這些資料來源，去撰寫一個幾百頁的論文；以及去規模化的執行或規模化的編排，去提升模型能處理的任務複雜度。

同時，我們非常注重研發更好的底層網路架構。這是我們最新開放原始碼的模型架構，叫做注意力殘差（Attention Residuals）。這項技術主要的靈感來自於 10 年前的技術 Resnet，或者叫殘差網路連線。

在十年之前，其實沒有任何人有辦法去訓練深度的神經網路。直到何凱明等研究者引入殘差網路，可以讓模型去訓練幾十、幾百層的網路，可以任意的增加層數。

這種殘差結構，其實可以認為是 LSTM 網路的一個變種，只是說 LSTM 是應用在時間的維度上，殘差網路更多體現在網路深度上，使得每一層可以用上一層的輸出，然後做一個函數的處理，得到當前這一層的輸出。

我們把類似的思路做一個自然的泛化，把注意力機制這種計算模式做 90 度的旋轉，從原來只是應用在時間軸上，現在我們可以把它應用在深度上。把注意力應用到深度上有很多好處，比如不僅僅只是基於前一層的輸出來進行計算，而是可以去結合之前的所有層的輸出進行計算，這樣在最佳化網路架構性能的時候就有非常多好處。

這是我們整個注意力殘差的架構圖。左邊是標準的殘差結構，右邊是我們提出來並開放原始碼的殘差結構。然後，我們也設計了基於塊狀的殘差結構，使它能夠非常高效地實現。基本上在只有 2% 額外成本的情況下，就大幅度提升了效果。

就像我剛才說的，大模型的第一性原理是規模化定律（Scaling Law），但我們不僅僅只是去暴力的做規模化，而是希望我們在規模化的同時也能夠去提升效率，所以我們一直致力於研發更強的模型架構。比如像 Adam 最佳化器或者像 Attention 架構、殘差連接這些都是有了 10 餘年歷史的技術。在電腦領域，十年其實是非常長的時間。過去十年的時間裡面，沒有任何人能夠去挑戰這些技術，大家都把它當成一個標準。

但隨著現在算力的提升和大家研發方式的變化，從原來的偏學術，單純從想法（idea）出發的研究，到變成現在更加重視與工程的結合，然後可以設計非常紮實的規模化驗證實驗，從而得到非常紮實的結論。因此，很多以前認為是標準的東西，現在都可以被挑戰。

我們看到，開源模型正在逐漸成為新的標準。這是幾張從剛剛結束的輝達 GTC 2026 大會上，黃仁勳的主題演講中裡面摘取的幻燈片。可以看到，以 Kimi K2.5 為代表的開源模型，已成為全世界所有晶片廠商測試硬體性能的基準：如果發佈新的晶片，就會通過 Kimi 或者其他開源模型來評測晶片性能提升幅度。

現在，全世界很多研究機構也在用 Kimi K2.5 或其他的開源模型去進行研究。我們通過開源，讓每一個企業、每一個研究者、每一個終端使用者，都能以非常低門檻獲取智能，是一個非常重要的事情。

同時我們做的很多重要的創新，包括我剛提到的新的架構也是開放的，可以被任何人所獲取。最終，大家能夠去形成一個開源生態系統，一起推動 AI 領域的發展。

最後想跟大家分享，從模型訓練的角度看，大模型領域仍在快速發展，現在的研發方式跟兩三年之前會有很大不同：

2023 年和 2024 年，大家主要使用「天然」資料。也就是從整個網際網路獲取的資料，加上一些少量的人工標註，比如去標註某一條資料是不是符合價值觀或者偏好。

2025年，大家更加重視搭建大規模的強化學習系統。但要靠人篩選高品質任務，然後在這些任務上做強化學習得到更好的效果。可以看到，在程式設計或者數學領域上得到的能力提升，主要就來自於這種技術路線。

從 2026 年開始，包括接下來的若干年時間內，整個 AI 研發的方式會發生重大變化：更多由 AI 去主導研究。每個研究員會配備非常多的 AI Token，然後這些 AI 的 Token 可以幫你去合成新的任務，幫你合成新的環境，幫你定義在這個環境下面最好、最合適的獎勵函數是什麼。甚至可以去幫你探索新的網路架構可能長什麼樣。

因此，整個 AI 的研發也會逐漸加速。我們希望也能夠跟整個開源社區一起，打造更好的生態系統，不斷把技術往前推進，加速探索智能的上限。

感謝大家。 (深科技)