“卡神”轉投Anthropic,工作崗位是“最危險的AI”

美國當地時間5月19日,OpenAI聯合創始人、前特斯拉AI負責人安德烈·卡帕西(Andrej Karpathy)宣佈加盟Anthropic。

“我加入了Anthropic。”卡帕西在X平台上寫道,“我認為未來幾年將是大語言模型前沿發展最具決定性意義的階段。我非常期待加入這個團隊,重回研發一線。”

根據外媒報導,卡帕西將在預訓練團隊負責人尼克·約瑟夫(Nick Joseph)的統籌下,組建一支新團隊,核心使命是利用Claude來加速預訓練研究。

換言之,他的工作是讓AI來最佳化AI的訓練過程本身。

這個方向在AI安全領域有一個流傳已久的正式名稱:遞迴自我改進(Recursive Self-Improvement,RSI)。其核心邏輯是,AI系統通過不斷最佳化自身的訓練過程,實現能力的迭代躍升。

數十年來,RSI更多地存在於學術論文和思想實驗之中。不過,Anthropic 聯合創始人 Jack Clark 5 月 4 日髮長文預測,到 2028 年底 AI 實現遞迴自我改進的機率約為 60%。5月13日,Meta FAIR 前研究總監田淵棟的新公司Recursive Superintelligence(簡稱 Recursive SI)正式官宣,核心方向也是遞迴自我改進。

隨著算力、資料和模型能力同步跨越臨界點,RSI正在被頂尖AI實驗室付諸實踐,成為真實的工程項目。

01 為什麼是卡帕西?

Karpathy的職業軌跡本身解釋了他為什麼是這個崗位的合適人選。

他是OpenAI最早的研究科學家之一,2015年至2017年專注於深度學習與電腦視覺。2017年被埃隆·馬斯克挖到特斯拉出任AI總監,主導Autopilot視覺團隊,將神經網路從論文推到了數百萬輛量產車上。

在特斯拉的五年中,他主導建構了被稱作“資料引擎”的閉環系統本質上是一套工程化的“模型自我改進”流水線,只不過改進對像是感知模型而非語言模型。他在2022年從Tesla離職,於2023年短暫回到OpenAI,在那裡待了約一年後再次離開,2024年創辦AI教育公司Eureka Labs。

預訓練是大模型流水線中最昂貴、最依賴算力,也最依賴工程經驗的環節。TechCrunch評價Karpathy是“少數能同時跨越LLM理論和大規模訓練實踐的研究者之一”。

02 RSI從論文走向工程

Karpathy入職的時間點並非偶然。兩周前,Anthropic 聯合創始人Jack Clark在他的newsletter《Import AI》第455期中給出了詳盡推演。

他寫道,自己花了幾周時間閱讀數百份公開資料來源,得出的判斷是:到2028年底,遞迴自我改進發生的機率為60%。

Clark的論證建立在一組可驗證的基準趨勢上。

在測試AI能否解決真實GitHub問題的SWE-Bench上,最佳成績從2023年底Claude 2的約2%上升到Claude Mythos Preview的93.9%;METR測量的“AI可靠完成任務的時間跨度”從2022年GPT-3.5的約30秒上升到2026年Opus 4.6的約12小時;CORE-Bench,測試AI復現學術論文的基準,在2024年9月推出時最高分僅21.5%,到2025年12月已被Opus 4.5以95.5%“解決”。

在Anthropic內部一項讓模型最佳化小型語言模型訓練實現的基準上,加速倍數從2025年5月Opus 4的2.9倍提升到2026年4月Claude Mythos Preview的52倍,而人類研究員在同一任務上做到4倍加速需要4到8小時。

Clark的論點是,AI研發中“99%的汗水”,包括資料清洗、實驗運行、參數搜尋、kernel最佳化已經落入當前模型的能力範圍。即便AI暫時缺乏顛覆範式的創造力,僅靠自動化工程部分就足以顯著加速迭代。

5月7日,Anthropic正式發佈《The Anthropic Institute研究綱要》,把“AI for AI R&D”列為四大研究方向之一,明確提出要建構測量AI研發加速度的telemetry,並將其作為RSI的早期預警訊號;同時探討如果“智能爆炸”逼近,存在那些干預節點,應該由政府、公司還是其他主體行使干預權。

Clark對Axios表示,“我的預測是,到2028年底,更有可能出現這樣的AI系統:你可以對它說‘去做一個更好的你自己’,它就完全自主地去完成。”

工程層面的伏筆更早。

2026年4月14日,Anthropic Fellows項目公開了一項實驗:測試Claude Opus 4.6是否能在“弱到強監督”這一對齊研究關鍵問題上自主推進,包括分解任務、生成假設、設計評估、迭代最佳化。讓AI agent整建制承擔一項研究過程。

03 全AI圈最關注的方向之一

競速在多條戰線同時進行。

除了文章最開頭提到的,前Meta FAIR研究總監田淵棟等八位創始人組建的Recursive Superintelligence正式出山。

更早一些的跡象同樣可見。Jack Clark在Import AI中提到,OpenAI內部目標是“到2026年9月建構一個自動化AI研究實習生”,DeepMind態度更謹慎但也表示“對齊研究自動化在可行時應推進”。從大廠內部目標到獨立創業項目,RSI已經成為前沿實驗室的共同戰略方向。

這裡有一個無法迴避的悖論。

Anthropic的創立敘事建立在“AI安全優先”之上。而RSI恰恰是AI安全社區長期最擔憂的能力之一。

華盛頓大學機器學習教授Pedro Domingos對Clark的60%機率判斷回應稱,“自1950年代LISP語言誕生以來,AI就有自我建構的能力。真正的問題是這一過程能否帶來遞增回報——目前沒有證據支援這一點。”

批評者的核心質疑不在於RSI“是否可能”,而在於“是否能產生指數級的邊際回報”,如果每一代AI自我最佳化的效率只是線性甚至遞減改善,那麼這條路線的影響力會被壓縮在可控範圍內。

AI安全研究者Eliezer Yudkowsky對Clark的60%判斷給出的回應簡短可怕:“那你將和我們其他人一起死去。”

Clark自己在文章中並未迴避。他在Import AI中給出的一組測算是:如果當今的對齊技術精準率為99.9%,在50代迭代之後會降到約95%,500代之後會降到約60%——一種類似基因突變的複利漂移。在AI參與自身訓練的循環中,對齊能否作為約束條件被可靠地傳遞給每一代後繼模型,目前沒有答案。

Anthropic的回答路徑,似乎是“最懂風險的人最適合做這件事”——同步推進能力研究和對齊研究,用工程節奏跑贏失控時點。這個回答能否成立,需要Karpathy團隊和Anthropic Institute後續公開的資料來驗證。

Anthropic在研究綱要中作出了一項相對罕見的承諾:公開發佈“我們的工作如何因新AI工具而加速”以及“AI系統潛在遞迴自我改進的相關資料”。它能不能被兌現,將是判斷Anthropic在RSI路線上的押注,究竟是工程項目還是定位策略的關鍵標尺。

眼下,Karpathy加入Anthropic,也能更明顯地看出AI產業的下一階段競爭重心——從“用更多算力訓練更大的模型”轉向“讓AI參與自己的訓練過程”。

不過,這可能是一條潛力巨大,也很危險的路。 (騰訊科技)