#劉知遠
中國大模型團隊登Nature子刊封面,劉知遠語出驚人:期待明年“用AI造AI”
過去半個世紀,全球科技產業的資本開支與創新節奏,都和一個規律緊密相連,那就是摩爾定律——晶片性能每18個月翻一番。在摩爾定律之外,還有一個“安迪-比爾定律”,它講的是,摩爾定律所主導的硬體性能提升的紅利,會迅速被軟體複雜度的增加所抵消。安迪指的是英特爾前CEO安迪·格魯夫,而比爾,指的是微軟創始人比爾·蓋茲。這種“硬體供給、軟體消耗”的螺旋上升,驅動了PC與網際網路時代的產業進化。時移世易,安迪、比爾都已經退出產業一線,但是規律的底層邏輯並未改變,而且被新的“安迪·比爾”推向更高的極致。ChatGPT的爆發拉開了生成式人工智能時代的大幕,在Scaling Law(規模法則)的主導下,模型參數指數級膨脹,軟體對算力的索取遠超摩爾定律的供給速度,AI發展的邊際成本急劇上升。當硬體供給遭遇能源、資料等天花板時,舊的“安迪比爾”式增長範式開始失效。產業需要一場逆向革命。大模型作為AI時代的“軟體”,需要通過極致的演算法與工程化重構,在現有硬體上爆發更強的能力。2025年,中國大模型公司成為這一路徑的最堅定實踐者。從DeepSeek V3通過細粒度混合專家(MoE)架構以1/10算力成本對標頂尖模型,到Kimi等團隊在稀疏注意力機制上的突破,被稱為“東方力量”的中國大模型公司,正試圖用架構創新努力拉平客觀存在的算力差距。清華大學電腦系副教授劉知遠及其聯合創立的面壁智能團隊,也是其中的典型代表。他們發佈的MiniCPM("小鋼炮")系列模型,僅用約1/10的參數規模,即可承載對標雲端大模型的智能水平,成為端側高效AI的案例。2025年11月,劉知遠團隊的研究登上全球頂級學術期刊《自然·機器智能》(Nature Machine Intelligence)封面,正式提出大模型的“密度法則”(Densing Law)。基於對51個主流大模型的嚴謹回測,論文揭示了驚人的非線性進化規律:從2023年到2025年,大模型的智能密度以每3.5個月翻倍的速度狂飆。這是一條比摩爾定律陡峭5倍的進化曲線。這意味著,每100天,就可以用一半參數量實現當前最優模型相當的性能。每100天成本減半,一年後成本就可能降至原來的十分之一。如此快的迭代速度,對技術創新、產業落地提出了不同以往的挑戰。劉知遠在與騰訊科技的對話中直言:如果一家大模型公司發佈一款新的模型後“3到6個月無法收回成本”,這家公司的商業模式就不可持續,因為後來者很快就能以四分之一的資源實現同等能力。當研發迭代周期被壓縮至百天量級,人類的智力供給已逼近極限,產業的終極形態必將發生質變。工業革命的標誌是機器製造機器,而劉知遠期待的AI時代生產力標誌,將是“用AI製造AI”。唯有如此,才能支撐這場超越摩爾定律的智能風暴。騰訊科技:我們今天的主題是您和團隊最新發表在《自然·機器智能》上的關於大模型“能力密度”(Densing Law)的論文。您能介紹一下這項研究的背景嗎?劉知遠: 雖然這篇論文是 2025 年發表的,但這個想法早在 2024 年上半年就已經開始萌生。2023 年初,ChatGPT 的出現引發了全球對大模型的追逐,中國團隊也不例外,當時大家都在研究如何復現 ChatGPT。到了 2023 年下半年,一線的團隊基本完成了復現工作。那時候我們開始思考大模型未來的發展路徑。有些團隊可能會繼續沿用 ChatGPT 的技術路線,通過增加參數規模、投入更多資料來訓練 GPT-4 水平的模型。這條路線雖然確定性高,但意味著要花費更多經費,這顯然不是一條可持續的發展路徑。你不可能無限地增加成本來換取更強的能力。因此,我們開始探討如何用更低的成本、更高的質量來實現模型能力。2024 年初,我們推出的 Mini CPM 系列模型驗證了這一點:我們可以用更少的參數,實現歷史上需要幾倍甚至幾十倍參數才能達到的能力。這是經驗性的結果,我們想尋找其背後的規律,於是促成了 2024 年對“密度法則”的探索。圖:Densing Law論文登上Nature Machine Intelligence封面騰訊科技:這項研究是否因為中國的國情,使我們更重視大模型的效率問題?它在國內外是獨一無二的嗎?劉知遠: 追求效率當然有中國算力有限的國情因素。我們必須關注如何用更少的算力實現更高品質的模型。這也是為什麼 2024 年下半年,《經濟學人》的一篇封面文章提到,中國企業正通過技術創新繞過“算力牆”,並舉了面壁智能和 DeepSeek 的例子。但同時,追求效率也符合人工智慧本身的發展規律。人工智慧是一場堪比工業革命的科技浪潮,如果要讓每個人都受益,技術就不能昂貴。我們必須像歷史上任何一次科技革命那樣,用更低的成本實現更高品質的產品和服務。因此,我們自信地認為,密度法則對人工智慧的未來發展具有重要意義。騰訊科技:在“密度法則”中,一個關鍵概念是量化“智能”,但這本身是一個難題。在研究開始前,您為什麼覺得這件事是行得通的?劉知遠: 這個問題問得非常好。實際上,我們在密度法則這篇論文裡並沒有真正解決“如何度量智能總量”這個科學問題,而是找了一條取巧的辦法:找一個參照物(Reference Model)。我們假設用同一套技術方案訓練的模型,無論尺寸大小,其密度大致相同。我們將這套方案訓練出的模型作為 Reference Model,並假設其密度為 1。然後,我們觀察目標模型達到某種智能水平時,Reference Model 需要多大參數才能達到相同水平。通過比較兩者達到相同能力所需的參數量,我們就可以算出目標模型的相對密度。這種方法規避了直接計算模型內部智能總量的難題。當然,如何衡量智能的總量(Mass)是未來幾年人工智慧需要攻克的基礎科學問題。歷史上任何大的科技革命背後都有科學理論支撐,如資訊理論之於通訊,熱力學之於蒸汽機。智能科學未來也需要解決如何衡量智能總量的問題。騰訊科技:您在2024年WAIC期間曾提到模型的“密度法則”周期是8個月,但最終論文的結果是3.5個月。為什麼進化的速度比您預期的快這麼多?劉知遠: 2024年年中我們剛有這個想法時,研究尚在初期,觀測的時間跨度和模型數量都有限,所以當時的資料不夠穩定。我們2024年下半年發佈的版本算出來是3.3個月,到今年正式發表時,我們補充了2025年的新模型資料,周期修正為3.5個月。其實,具體的周期是三個月還是八個月並非最重要,最重要的是,這個速度遠遠快於摩爾定律的18個月。這意味著我們正以前所未有的速度迎來一場智能革命。每100天成本減半,一年後成本就可能降至原來的十分之一。同時,我們確實觀察到了一個加速現象。2023年之前,這個周期接近五個月;2023年之後,則縮短到三個多月。我們猜測,這是因為ChatGPT引發了全球性的關注,更多的資源和人才投入加速了技術創新。所以,“密度法則”並非自然規律,而是我們人類社會在該科技領域的一種“自我實現”:投入越多,密度增長越快。騰訊科技: 剛才提到投入,大模型有暴力美學的 Scaling Law,您覺得 Densing Law 和 Scaling Law 是統一的還是矛盾的?劉知遠:我認為它們是硬幣的兩面,相輔相成。“規模法則”的表像是模型越大、能力越強,其背後是我們找到了一條通用的智能構造方案(Transformer架構+序列預測學習),使得在一個模型內持續增加智能成為可能。它開啟了通往通用人工智慧的道路。在坐標系中,“規模法則”是一條參數規模越大、模型能力越強的持續上升曲線。而“密度法則”告訴我們,通過在模型架構、資料治理、學習方法等方面的持續技術創新,我們可以用更小的參數承載更多的智能,從而找到一條更加“陡峭”的“規模法則”曲線。也就是說,用相同的參數實現更強的能力,或者用更少的參數實現相同的能力。所以,沒有“規模法則”就不會有“密度法則”,兩者都是人工智慧發展中至關重要的規律。騰訊科技:“規模法則”似乎正面臨資料、算力和能源的天花板。密度法則何時會遇到瓶頸?劉知遠: Scaling Law的持續發展確實面臨電力、算力、資料等約束。而 Densing Law 正是實現更可持續Scaling Law 的方式。通過技術創新提高密度,我們可以在算力或成本基本不變的情況下,持續提升模型能力。例如DeepSeek V3宣稱用 1/10 的算力實現同等能力,OpenAI 的 API 價格持續下降,都反映了內部通過技術創新用更小的模型提供同等服務。當然,資料枯竭問題可能需要依賴另一項技術——大規模強化學習來解決,即讓模型通過自我探索生成高品質資料進行學習。騰訊科技:2025年有那些讓您覺得驚豔的技術突破,能讓 Densing Law 更加陡峭?劉知遠:今年是模型架構創新的大年,主要有三個方向:第一,以DeepSeek V3為代表的細粒度混合專家(MoE)架構走向成熟,通過稀疏啟動少數專家來大幅提升計算效率。第二,稀疏注意力(Sparse Attention)機制大行其道,通過減少注意力計算中的內容參與度,有效處理長序列。這兩者分別最佳化了Transformer的FFN層和Attention層,實現了計算的“按需分配”。第三,復興循環神經網路(RNN)思想,通過與Transformer混合架構,利用其“記憶”機制降低計算複雜度。這些創新都在變相地提升模型密度。此外,大規模強化學習的應用也取得了巨大飛躍,尤其在數學和程式碼領域,模型通過自我探索持續提升能力,暫時還看不到盡頭。這解決了資料枯竭的問題。騰訊科技: 您覺得密度法則能推廣到多模態模型或世界模型嗎?劉知遠: 我認為這是一個普遍規律。雖然不同領域的倍增周期可能不同,但只要是通用的、遵循 Scaling Law 的模型,未來也一定會遵循 Densing Law。就像晶片摩爾定律和電池密度提升一樣,技術創新總是追求用更少的資源實現更高的性能。騰訊科技:您如何看待Google最新發佈的Gemini 3?它是否可被稱為里程碑式的突破?劉知遠:我們內部認為Gemini 3是一個非常重要的里程碑。它在圖像生成中對文字的控制達到了前所未有的高度,這表明其模型的可控性和對世界的理解能力達到了一個新水平。我們推測,它不只依賴於Diffusion模型,很可能將自回歸(Auto-regressive)的思想融入其中,實現了生成過程的逐層細化和高度一致性。歷史上,所有文生圖模型都難以處理好文字內容,Gemini 3的突破,在我看來是一個非常值得關注的新範式。這也印證了密度法則:只要能實現某種智能,未來一定可以在更小的終端上運行。比如 Gemini 3 現在的能力,未來一定可以在手機、PC 或汽車晶片上跑起來。騰訊科技: 現在還沒有出現能替代智慧型手機的端側 AI 裝置,是不是因為 Densing Law 還沒進化到位?劉知遠: 端側裝置的發展受限於多個因素。第一,還沒有形成好的端側應用場景。現在的手機助手雖然使用者多,但並未與硬體緊密結合。第二,端側技術生態尚未形成。AGI 發展還沒收斂,模型能力還在持續提升,且在產品設計上還沒法完全規避錯誤。就像早期的搜尋引擎也是經過產品打磨才普及一樣,AGI 結合智能終端也需要一個過程。一旦產品形態成熟,智能終端的廣泛應用就會成為可能。騰訊科技: 您提到 MiniCPM 4 可以看作一種“模型製程”,這個怎麼理解?劉知遠: 我更願意把這一代模型比作晶片製程。通過技術創新,我們形成了一套新的模型製程,無論建構什麼尺寸的模型,其密度都更高。例如 MiniCPM 4 在處理長序列時速度提升了 5 倍,意味著可以用更少的計算量承載更強的能力。但目前的挑戰在於,硬體支援還不夠好。我們正在努力做軟硬協同最佳化,希望在消費級硬體上真正跑出理想狀態。騰訊科技: 這需要和高通、聯發科等硬體廠商協同創新嗎?劉知遠: 我們跟硬體廠商交流密切。但硬體廠商受摩爾定律 18 個月周期的影響,架構調整更審慎。而模型每 3 個月就進化一次。所以短期內是軟體適配硬體,長期看硬體會針對穩定的新技術做最佳化。現在端側晶片廠商已經在認真解決大模型運行的瓶頸,比如訪存問題。騰訊科技: 之前大家嘗試過剪枝、量化等方法來做小模型,這和原生訓練的高密度模型相比如何?劉知遠: 我們做過大量實驗,剪枝、蒸餾、量化都會降低模型密度。量化通過後訓練可以恢復一部分效果,是目前端側比較落地的做法。但蒸餾現在已經融合進資料合成體系,不再是簡單的“大蒸小”。剪枝目前還沒找到保持密度的好方法。就像你不能通過剪裁把 14nm 晶片變成 7nm 晶片一樣,要把密度做高,必須從頭建構一套複雜的原生技術體系,包括架構設計、資料治理、學習方法和軟硬協同。這本身就是技術護城河。騰訊科技:“密度法則”對產業界意味著什麼?對於創業公司來說,機會在那裡?劉知遠:3.5個月的迭代周期意味著,任何一個投入巨資訓練的大模型,如果不能在3到6個月內通過商業化收回成本,這種模式就很難持續。因為很快就會有技術更新的團隊用更低的成本實現同樣的能力。因此,雲端API服務的競爭會極其慘烈,最終可能只會剩下幾家擁有海量使用者和強大技術迭代能力的頭部廠商。對於創業公司而言,機會可能在於“端側智能”。端側場景的約束條件非常明確(如功耗、算力、響應時間),這使得技術優勢,即誰能把模型密度做得更高,成為唯一的競爭點,大廠的“鈔能力”(如不計成本的投入)在這裡難以發揮。雖然手機廠商也在高度關注,但它們的決策會更審慎。我們認為,端側智能會先從智能座艙等對功耗不那麼敏感的場景開始,而最終,AGI時代一定會有屬於它自己的智能終端形態,這是我們希望探索的星辰大海。騰訊科技: 面對算力軍備競賽和快速折舊,您怎麼看泡沫論?劉知遠: 快速發展肯定伴隨局部泡沫,但整體上我們正進入智能革命時代。如果以 18 個月為周期,資訊革命走了 50 個周期;如果 AI 也走 50 個周期,按現在的速度,大概到 2030-2035 年就能實現全球普惠的 AGI。未來網際網路的主體不再只是人,還有無數智能體。雖然訓練模型的廠商會收斂,但推理算力需求會爆炸式增長。騰訊科技: 李飛飛(美國國家工程院院士)說 AI 是文明級技術,您對這場革命樂觀嗎?劉知遠: 我相當樂觀。騰訊科技:如果AI變得無比強大,未來人類會不會無事可做?劉知遠:我不這樣認為。未來一定是人機協同,人是把關人。人類知識大爆炸導致我們只能成為細分專家,阻礙了跨領域創新。人工智慧可以幫助我們成為知識的主人而不是奴隸,去探索宇宙、生命等更多未解之謎。騰訊科技: 您2026年最期待的創新是什麼?劉知遠: 我最期待“用 AI 製造 AI”。明年一個重要節點是自主學習(Self-play)。目前的強化學習還依賴人類給標準答案,未來模型如果能自主判斷探索結果的價值,就實現了自主學習。在此基礎上,結合密度法則的提升,我們有可能為每個人建構專屬的、持續學習的個人大模型。未來的生產標誌就是“用 AI 製造 AI”。不再依賴有限的人力,而是由 AI 來賦能 AI 的研發和製造。這將是一個指數級加速的過程。 (騰訊科技)