四位AI科學家談：AI學會自進化後，我們該如何應對？

2026/06/15

•

大概是在一周前，正在籌備上市的Anthropic在官方部落格更新了一篇文章，文章標題是《When AI build itself》。

這篇文章發佈當天，關於AI安全問題再次被拉回到輿論漩渦中心。

Anthropic在這篇文章中討論的是一個名為“AI自進化”的問題，並指出，“AI已經能夠參與到為自己建構更強大的模型的工作中，這遠比我們預想的要更快。”

說起來，AI自進化並不是什麼新鮮的技術，甚至可以說，自從AI技術出現的第一天，人們就已經在思考，如何讓AI參與到自我進化的過程中。

就像具身智能領域大家現在在暢想的，用人形機器人造人形機器人那樣。

實際上，AI科學家們一邊在恐懼AI擁有了自進化能力，一邊也在研究、乃至利用這樣的自進化能力。

曾在Meta裁員風波中受到廣泛關注的田淵棟（原Meta FAIR團隊研究總監），就在今年年初官宣創業，創業公司名字正是Recursive Superintelligence（RSI），目標直指AI自進化。

也正是這樣一家公司，剛在前不久完成了6.5億美元融資，估值達到46.5億美元（約315億元），成為又一家被一眾巨頭追捧的矽谷AI明星團隊。

那麼，究竟什麼是AI自進化？自進化會不會導致AI失控？人類又該如何與AI共生？

就現在正在發生的AI自進化，也是今年智源大會的一個主要議題，我們在今年智源大會上，看到了四位年輕的AI科學家關於這一議題的思考和預言。

或許，從他們的視角，能夠讓我們窺見AI自進化的未來走向，也能讓我們在AI焦慮之中，尋得一些應對的靈感。

這次被智源大會邀請來討論這一問題的幾位AI科學家是：

西湖大學工學院人工智慧系特聘研究員林濤；

NeoCognition聯合創始人穀雨；

前騰訊混元Frontier專家研究員王琰；

倫敦大學學院博士、布裡斯託大學助理教授楊夢月。

以下為四位嘉賓對話內容，我們進行了不改變原因的總結和梳理：

01. 什麼是AI自進化？

問：現在很多AI系統都會反思，也會改Prompt，聽起來都有一些自我改進的味道，如果要更嚴格地定義，什麼是AI的自進化？

林濤：我覺得自進化應該是一個多層級的進化，它可以是外腦的進化，也可以是內腦的進化。

最重要的是，AI要能自己認識到自己的侷限，並且同時去進化自己的外腦與內腦，或者在進化外腦的時候，把更多外部能力內化，進一步實現內腦的進化。

穀雨：我覺得RSI（recursive self improvement，遞迴自我進化）最重要的是兩個維度，一個是Proactiveness，一個是Learning。

Learning是如何讓AI擁有可靠的持續學習和線上學習演算法，另外一個問題是自進化，Agent要知道自己需要朝什麼地方進化。

所以自進化要分別解決兩個問題：

一個是what層面的Metacognition（元認知），你要知道自己缺什麼、需要什麼、應該怎麼選；

另一個是how層面，也就是學習演算法具體如何實現。

王琰：至少在今天這個時間點來看，和傳統的 SFT、RL相比，如果系統可以更少地依賴人類，它其實就已經實現自進化了。

楊夢月：現在說的RSI其實是self improvement再往前進一步，它不只是能力得到了強化，還要看“進化能力”本身是不是也能變得更強。

一個重要問題是，Recursive公司（Recursive Superintelligence）聯創團隊Jeff Clune、Tim Rocktaschel兩位成員的研究方向是Open-endedness。

那麼，什麼是Open-endedness？

在一個開放世界裡，是否有一個Agent擁有自我提問能力，它是否能發現自己的知識邊界、系統邊界、記憶邊界在那裡，它要突破自己的邊界做提問。

要擺脫人類進行自我進化，包括達到進化能力的進化，它的提問能力很重要。

問：在今天這個時間節點，AI最有價值、最可能先成熟的自進化部分是什麼？

王琰：不知道大家有沒有感覺到，2025年1月之後模型的迭代加速了。

其實就是因為基模領域這些最熟悉AI能力上限的人，已經不寫程式碼了，這已經是發生在基模訓練中的事實。

而且能夠明顯感覺到，基模迭代速度在加快，包括Claude、GPT，以及國內這些基模的迭代速度都在加快，你不能說這完全是自進化，但確實已經有AI在迭代AI了。

至於那個領域最先成熟，我感觸最深的就是基模訓練領域，雖然旁邊有人給它指定方向，但其實基模本質已經在自進化。

問：如果不改變模型參數，只去進化一些其他的組成部分，基模是否可以實現足夠強的能力躍遷？

王琰：肯定可以。

其實改一改Prompt，就能實現更好的效果。

例如有時候我在想，我交給實習生的工作為什麼他們做不到，我要來他們的prompt看後發現，是他們的Prompt寫的不好。

我只要重新寫一個效果更好的Prompt，把規則寫得清楚一些就能實現更好的效果。

既然我能做到這件事，比我更高維度的矽基生物也能做得更好，即使不改變模型參數。

問：林老師怎麼看？

林濤：這應該是一個迭代過程，我們要有更好的harness（駕馭工程），也就是外腦，發揮出當前模型的上限；

隨著越來越多人有自己的harness，這些程序又可能被用來訓練出更強的基模；

在更強基模的基礎上，我們會發展出更強的harness、更好的外腦，這也是一個迭代的過程。

問：那你認為現在綜合資源做那一塊是最先成熟的？

林濤：我覺得做harness是最容易的。

穀雨：我更傾向於用統一視角看待harness、skill。

從統一視角來看，它們都是長期記憶，只是角度不同。

例如harness是一種Meta-level（元認知）的長期記憶，skill更多是一種workflow或過程知識的長期記憶，模型參數更多可能是intuition（直覺）的長期記憶。

如果讓我說要優先做那一個，從學術研究角度很難說，它們都很重要，它們是相輔相成、互相促進的。

從公司角度來說，存在很多現實因素，更容易起步的是harness，有了harness你可以有你的產品，有了產品你可以獲得使用者，有了使用者你就會有資料、形成閉環，這是一個非技術角度的看法。

楊夢月：我自己更關注記憶（memory）層面的進化，因為我的研究方向是如何理解規則和因果。

現在大家會感覺到，模型能力越來越強，有一點在覆蓋harness的能力，慢慢吞噬harness、達到上限。

所以未來的發展很難說，可能基模越來越強，harness方向的提升可能會微乎其微。

02. AI先在那個環節自進化？

問：AI自進化發生在什麼時候最恰當？

穀雨：關於harness我先補充一句，harness可能被模型進步所蠶食，但還是得看在什麼方面，我認為有一些模組還是必須要有。

例如保證模型安全性和可驗證性的模組，這是機率模型永遠不能取代的部分。

關於自進化發生的時機，我覺得可以理解為Learning+Long-Term Memory（LTM，長期記憶）。

對人來說，每一次推理、每一次解決問題都是學習機會，人並不是蒐集了一堆問題後，再基於這些問題進行靜態學習。

如果相信人的學習是一種高效方式，我覺得智能體也一樣。

你會希望Agent不浪費每一次推理機會，因為每一次推理都有機會得到learning signal，這和強化學習的宏觀哲學是一致的，但現在主流深度學習還處在模型參數更新階段，很難做到online learning的setting。

所以要真正實現這件事，需要一些新的學習演算法，例如基於非參數的更新。

問：這裡是不是會有系統1和系統2的區別？

穀雨：確實。

例如如果將非參數的東西視為系統2，因為它更顯式、更慢，但它也保留了轉化到系統1中的可能性，包括基於學到的非參數規則產生更多資料，就像林老師說的外腦到內腦的轉化。

王琰：我也做過很多TTT，也就是Test-Time Training（測試時訓練）的工作，也很關心TTT這一系列工作。

我認為，模型在預測下一個token的時候，重要的是學到每一個token的更新梯度。

未來我們一定能找到一種訓練演算法，讓訓練演算法本身能夠讓模型學會每個token的梯度如何更新，這才是真正端到端的思想。

林濤：從模型訓練角度來看，它可以先從harness影響到後訓練，通過後訓練提升模型性能後得到更強模型，更強模型又可以反饋到前訓練階段，提升基模能力，從而形成閉環。

所以它時時刻刻都在進化，只是以不同尺度、不同方式在進化。

楊夢月：我也認為自進化是時時刻刻都在發生的，並且延伸到所有環節中。

例如如何產生一個trajectory（軌跡）。

如果讓GPT為某個問題生成答案，它其實是在推理，推理過程是創造和組合的過程，而創造和組合的過程就是在向環境、人類進行提問，所以前向設計本身就有機制設計的進化。

此外，當我得到一個reward（獎勵），例如人類給模型的反饋，得到反饋後如何更新軌跡，這也會讓整個流程逐步提升。

問：設計自己的Benchmark是否也是AI自進化的一個標誌？

楊夢月：我們現在是否可以有一個增長式的Benchmark，甚至是一個增長式、自我進化式的世界模型？

現在很多Benchmark都是固定的，給一個固定資料庫進行測試，這樣無論如何都可以找到一個模型，在固定資料庫基礎上做很好的訓練。

要通往AGI，我們確實需要動態評測，去適應它當前的能力，對它做逐步增長式的評測。

王琰：我們以前剛做生成的時候是沒有Benchmark的，那時候就是由人來評測。

我不確定的是，這個事情是否能用Benchmark來評測，因為肯定沒有辦法用靜態Benchmark來評測。

動態Benchmark到底能不能評測也不確定，因為兩個都是自進化的Agent，是否最後又會回到人來評測這條老路上來，我不確定。

但順著這個觀點看，有可能它根本不能用Benchmark來評測。

問：自動化評測方法會很難設計？

王琰：對。

現在就有很多榜上的模型訓練得很好，但是一上線，在Agent workflow裡就會出現卡死等問題，必須用線上的資料飛輪再訓一下才能好。

所以AI自進化後再如何評測，無法確定。

現在靜態Benchmark已經有很大侷限性了，開始自進化後，還能不能評測都是個問題。

穀雨：我很同意王老師的觀點。

當一個系統足夠複雜之後，很難用簡單指標量化，對人來說也一樣，你很難用一個簡單指標評價一個人是好人還是壞人，一旦一個東西能夠被簡單指標量化，就很容易被hack。

但另一方面，我覺得當前AI還沒有複雜到這種程度，Benchmark還是能夠領導我們前進的。

這裡涉及兩個問題：

第一，AI是否應該自己不斷髮現新的Benchmark，還是由人來設計。

我認為還是需要由人來設計，因為Benchmark代表了一種目標，這個目標還是要由人來提供的。

第二，人提供Benchmark之後，如何做評測。

這對自進化來說和過去很不同，之前的Benchmark有靜態訓練集和測試集，看的是最終精準率，但對於自進化的AI而言，更重要的是趨勢。

這又回到我剛才說的，大模型的學習=推理+長程記憶。

大模型每次做推理都是一個學習機會，所以如果做一個Benchmark，應該有一個二維曲線，橫軸是它做了多少任務，縱軸是性能表現，理想狀態下應該不斷向上提升。

自進化評測背後更大的哲學是：智能是什麼？

我很喜歡一位AI研究員說過的一句話——智能並不在於你會做多少事，而在於你是怎麼會做這些事的。

之前的評測主要看大模型最終掌握了什麼技能，自進化研究的是大模型如何掌握這些技能，看的是學習過程。

如何學習，才是自進化最核心的部分。

林濤：關於智能，我之前也被一個說法觸動到：

真正的智能，應該是我們在意的那些能力單位時間的增長速度。

這也在一定程度上反映了智能到底是什麼。

在這個基礎上，我會覺得模型和Benchmark應該協同進化。

目前還是由人來定義Benchmark是否已經到瓶頸，是否應該設計更新、更強的Benchmark，並基於新的Benchmark找到當前模型漏洞，進而推動模型訓練。

未來一個重要點是，可以用一些半自動化方式實現更有意義的Benchmark發現，並且至少先把後訓練環節跑通，讓半自動化發現的Benchmark來提升模型初步能力。

03. AI會不會失控？

問：在AI自進化過程中，如何判斷AI是否學偏，甚至進化到無法控制的地步？

王琰：來一個悲觀點的觀點，幾年之後，人類可能只能在沒有網路的地方生存。

現在AI的進化速度太恐怖了，AI失控不是一個很遙遠的事情，安全不在於技術，而在於人性能否克制住。

林濤：這也是為什麼我剛說需要一個半自動化的Benchmark的原因，以及一定需要在有人參與的半自動化的benchmark下實現AI自進化。

至少在一定程度上可以給它一些約束，使得它不會突破我們人類想定義的一些標準。

楊夢月：我們說的AI可信度、安全性、可解釋性，本質上是需要其內部是可見的。

例如大模型做一個決策，它到底為什麼要做這個決策，大模型做一個預測，它到底為什麼要做這個預測。

所以我們現在在做的一件事是，希望所有大模型元件之間能夠有一套規則，這套規則要直接顯示在人類面前，來告訴你它為什麼要做這個決策。

白盒這件事以後會很重要，包括剛說的AI到底能不能控制這個問題，首先需要知道它裡面是如何做決策的，才能去控制它。

問：如果要實現在RSI中對於安全的控制，在因果的角度還有那些東西需要做？

楊夢月：傳統的因果論是在機率統計學上進行的，它本身形成的因果發現、因果推斷就不適用於大模型時代。

所以現在我們是又返璞歸真了，回到因果本身定義上去。

例如三層因果結構階梯，到底這些基本概念在RSI系統、基模或harness中，它到底應該變成一個怎樣的形式，我們應該用怎樣的約束條件去學到它，這是我們現在正在努力的目標，但這件事並不簡單。

為什麼現在大家說世界模型、物理理解很難做，因為此前的物理資訊機器學習、因果機器學習這些方法天然不適用於現在大模型的Scale Up（縱向擴展）方案。

所以我們需要回到這些方法定義上，看有那些工具可以解決這些問題。

穀雨：首先是AI可控性、AI是否可以受人控制，這個我沒什麼想法。

馬雲也說過，對於他控制不了的事情，他不願多想。

如果這個事情真的來了，我是沒有辦法改變這一點的。

所以我更多想要討論一下在短期內，更具體的AI如何變得更可控。

我覺得除了剛才楊老師說的可解釋性、因果關係的發掘以外，還有兩個維度：可靠性（reliability）、可驗證性（verifiability）。

可靠性就是，模型或智能體在做一件事時，這次做對了，下次還得做對，不能是隨機的；

可驗證性是，模型或智能體做錯一件事時，它得知道自己做錯了，而不能是它自己交付的任務都不知道做得是對還是錯。

我覺得這是短期內對於智能體落地而言，很現實的兩個指標。

問：在自進化過程中，AI的進化和人的進化如何協同？

林濤：就我個人而言，我已經把大部分工作流用AI替代了，並且隨著AI越來越強，我也會用AI來替代我更多的原始工作流。

這確實提升了我的效率，也有時間用AI幫我思考更多東西，這在一定程度上是我基於AI的某種進化。

因為我是訓模型的，在基模訓練過程中，一定程度上提升了AI的進化，但我覺得不是特別多，未來可以進一步探索人如何更高效的進化，讓AI進化得更好。

楊夢月：作為教職人員，我在帶學生的過程中明顯感覺到了，學生用AI工具用得越來越多了，但是現在一個很重要的問題是，你究竟能否駕馭這些AI工具。

因為AI可以進行非常大量的內容輸出，有的時候你太相信它，可能本身的信念、對科研的感知會被繞到一個很奇怪的層面。

基礎打得很紮實的學生，利用這些AI工具可以很快出一些高品質工作；

基礎打得沒那麼紮實的學生，無法駕馭這些AI工具，反而會被誤導。

我們和DeepMind一些研究員有過交流，他們內部鼓勵用AI工具做事，但他們現在會說誰能把這些AI工具用好，很取決於人對於這些工具的瞭解程度到底有多少。

現在很重要的是，大家在面對能力越來越強的AI工具，還是不要放棄基本觀念、基礎知識的學習，也要知道一些事情在哲學層面是如何推導過來的，這才能在AI給你提供錯誤資訊的時候，你能辨識出來，這很重要。

問：AI會倒逼人進化嗎？

楊夢月：這是肯定的。

我明顯能夠感受到，AI正在使人形成一種分流，越是基礎打的紮實的人，通過AI越能達到一個頂部的狀態。

如果你只是通過AI工具幫助你完成任務，它最後出來的東西可能成了外部鍍了一層金、本質上不太行的狀態，但很多人還沒意識到這件事。

王琰：未來有楊老師說的這種意識的人，會為自己的孩子創造一個無AI的環境，在這個環境中讓孩子成長。

沒有這種意識的人，很可能完成作業就是他們的目標，最快的方法就是用AI。

我有這個意識是，我漸漸發現我的實習生在做事的時候，初期他們很快完成了這件事，但後面有很多問題他們發現不了，等我發現這些問題問他們的時候，他們會說，王老師你等十分鐘我告訴你為什麼（繼續找AI給答案）。

實際上，他們根本不知道整個項目在做的是什麼，沒有全域思維，跟不上我的節奏。

如果沒有AI，他們必須要從零開始學習這個知識，例如我們是基於deepseek進行研究的，他們首先要將deepseek的論文看完，現在他們會和Claude說：

你將論文看完，並在LighteningIndex（輕量級索引）上實現一個MemoryIndex（記憶體索引）。

既然他們是這樣完成工作的，就導致，我原來因為體力因素無法完成的工作，現在可以直接通過這種方式來完成，不再需要這些實習生。

本質原因，一是他們認知提升速度變慢了，二是這樣的AI助手對於我這樣的管理者反而效率更高。

穀雨：我和王老師很有共鳴，最近我們公司內部很喜歡段永平老師的一句話，慢就是快。

你用vibe coding，你沖的很快，沖完之後你的理解沒跟上，可能導致你的軟體越來越失控，反而需要花更多時間來整理它。

對於這個問題，我覺得可以有兩個視角：

第一，如果我們把AI當作工具來看，人和工具向來都是共同演進的關係，因為工具決定了人掌握什麼樣的能力。

可能幾千年前人需要的能力，現在來看都不重要了，現代人會的能力都是由當前這些工具決定的。

從工具角度來看，AI與人一定是共生的關係，共同演進。

第二，如果AI不是一個工具，而是像人一樣平等的物種，甚至會凌駕於人之上，那未來就不是共同進步的關係了。

可能未來人只要躺平就好了，悲觀點的話，可能人要給AI打工。

04. RSI是新範式嗎？

問：AI自進化是現有技術路徑的延續，還是新的技術範式？

林濤：目前來看，AI很自然地走到了AI自進化，只是說現在Agent的成熟讓這件事變得更簡單，但這不代表其中存在核心差異。

王琰：我覺得它就是下一階段。

我們現在每個人用的模型都是共享的參數，最終每個人一定會有一塊獨有的參數區，現在這件事不難做，只是infra不支援，而且太耗成本，但最終這不會成為太大的障礙。

未來可能每個人會有個LoRA，如何載入自己的LoRA，未來就會有新的付費模式，多付點錢你載入的LoRA就會大一些，免費使用者只能用基模。

如果這樣的infra成立，每個人自己的LoRA會執行個人的任務，只需要將前向推理的Delta規則做好，其實就是一個很好的自進化學習範式了。

這就相當於基模已經建好，RL是傳統學習和監督學習的一個中間階段，我們只需要給它任務、獎勵和環境。

這其中，任務其實就已經是獎勵機制，例如模型執行任務出結果後，我說“幹得好”或“幹得太蠢了”，這自然就成了獎勵機制。

我覺得這是不遠的將來會發生的變化。

穀雨：關於這個問題，我覺得是量變引起質變，它可能既是現有技術範式的延續，又是新的機會。

現在的一個共識是，具體量變的維度是AI所做任務的長程程度，隨著AI做的任務越來越長程，它就越來越接近一種新的範式。

例如，最開始AI只能做單輪次的對話，後來發展到多輪、長文推理、Deep Research，最終可能會出現lifelong level。

屆時天然就需要你在做這類任務時，AI需要不斷髮現自己的不足、不斷地提升自己，自然就成了RSI或self improving。

楊夢月：其實self improving並不是一個很新的概念，包括幾年前LLM剛出來的時候，我們已經在做一些類似的工作，現在也被歸類到了self improving的範疇。

我也同意現在是量變引起質變的時刻，但是我的評價標準不是長程任務，因為我覺得長程任務更多是planning層面的東西，另外還需要一些精緻的操作。

Agent是一個很寬泛的概念，例如現在具身的Agent，它除了長程任務規劃，還需要完成每一個動作的能力。

它是一個綜合的東西，是否能適應新系統，是否每個精緻的操作都可以順利完成，其實每個過程都可以通過self improving來完成。

其實self improving只是一種技術手段，大家最終的目的都是想通往AGI。

問：未來5-10年，RSI技術成熟、AI自進化可控可部署，它最先改變的會是什麼？

林濤：我覺得會改變一切。

包括你可能一出生就會有一個隨身AI裝置，幫你一起理解這個世界，並且慢慢地建構出屬於你的數字人，參與到你生活的各個方面。

這基本是5年內可以暢想的事實。

穀雨：我也同意改變是方方面面的，不會是具體某一個場景。

我希望看到的改變是，未來5-10年，如果Agent能取代我就挺好的，因為創業挺累的、有點像躺平了。

王琰：更有可能發生的是資本家用AI取代了更多人。

我感覺這是一個自然而然會發生的事，現在沒有被取代，是因為人類的工資還沒有token貴，但我希望看到這一切不要發生。

我希望AI可以讓我們從一周五天工作制變成三天工作制，一天工作八小時變成一天工作四小時，生產出的更多物品變得更便宜。

楊夢月：從一個哲學視角來看，人類存活在這個世界上需要有價值。

我每天醒來刷小紅書或推特看到又出現一個新東西，發現我現在做的東西又要被AI取代，我其實會擔心AI這樣的取代，我做的研究有什麼意義？

所以我覺得AI還需要給人留一定思考空間，讓人類思考本身對於世界的價值究竟是什麼，我希望它進步得慢一點。 (鋅產業)

科技