“卡神”轉投Anthropic，工作崗位是“最危險的AI”

2026/05/20

•

美國當地時間5月19日，OpenAI聯合創始人、前特斯拉AI負責人安德烈·卡帕西（Andrej Karpathy）宣佈加盟Anthropic。

“我加入了Anthropic。”卡帕西在X平台上寫道，“我認為未來幾年將是大語言模型前沿發展最具決定性意義的階段。我非常期待加入這個團隊，重回研發一線。”

根據外媒報導，卡帕西將在預訓練團隊負責人尼克·約瑟夫（Nick Joseph）的統籌下，組建一支新團隊，核心使命是利用Claude來加速預訓練研究。

換言之，他的工作是讓AI來最佳化AI的訓練過程本身。

這個方向在AI安全領域有一個流傳已久的正式名稱：遞迴自我改進（Recursive Self-Improvement，RSI）。其核心邏輯是，AI系統通過不斷最佳化自身的訓練過程，實現能力的迭代躍升。

數十年來，RSI更多地存在於學術論文和思想實驗之中。不過，Anthropic 聯合創始人 Jack Clark 5 月 4 日髮長文預測，到 2028 年底 AI 實現遞迴自我改進的機率約為 60%。5月13日，Meta FAIR 前研究總監田淵棟的新公司Recursive Superintelligence（簡稱 Recursive SI）正式官宣，核心方向也是遞迴自我改進。

隨著算力、資料和模型能力同步跨越臨界點，RSI正在被頂尖AI實驗室付諸實踐，成為真實的工程項目。

01 為什麼是卡帕西？

Karpathy的職業軌跡本身解釋了他為什麼是這個崗位的合適人選。

他是OpenAI最早的研究科學家之一，2015年至2017年專注於深度學習與電腦視覺。2017年被埃隆·馬斯克挖到特斯拉出任AI總監，主導Autopilot視覺團隊，將神經網路從論文推到了數百萬輛量產車上。

在特斯拉的五年中，他主導建構了被稱作“資料引擎”的閉環系統本質上是一套工程化的“模型自我改進”流水線，只不過改進對像是感知模型而非語言模型。他在2022年從Tesla離職，於2023年短暫回到OpenAI，在那裡待了約一年後再次離開，2024年創辦AI教育公司Eureka Labs。

預訓練是大模型流水線中最昂貴、最依賴算力，也最依賴工程經驗的環節。TechCrunch評價Karpathy是“少數能同時跨越LLM理論和大規模訓練實踐的研究者之一”。

02 RSI從論文走向工程

Karpathy入職的時間點並非偶然。兩周前，Anthropic 聯合創始人Jack Clark在他的newsletter《Import AI》第455期中給出了詳盡推演。

他寫道，自己花了幾周時間閱讀數百份公開資料來源，得出的判斷是：到2028年底，遞迴自我改進發生的機率為60%。

Clark的論證建立在一組可驗證的基準趨勢上。

在測試AI能否解決真實GitHub問題的SWE-Bench上，最佳成績從2023年底Claude 2的約2%上升到Claude Mythos Preview的93.9%；METR測量的“AI可靠完成任務的時間跨度”從2022年GPT-3.5的約30秒上升到2026年Opus 4.6的約12小時；CORE-Bench，測試AI復現學術論文的基準，在2024年9月推出時最高分僅21.5%，到2025年12月已被Opus 4.5以95.5%“解決”。

在Anthropic內部一項讓模型最佳化小型語言模型訓練實現的基準上，加速倍數從2025年5月Opus 4的2.9倍提升到2026年4月Claude Mythos Preview的52倍，而人類研究員在同一任務上做到4倍加速需要4到8小時。

Clark的論點是，AI研發中“99%的汗水”，包括資料清洗、實驗運行、參數搜尋、kernel最佳化已經落入當前模型的能力範圍。即便AI暫時缺乏顛覆範式的創造力，僅靠自動化工程部分就足以顯著加速迭代。

5月7日，Anthropic正式發佈《The Anthropic Institute研究綱要》，把“AI for AI R&D”列為四大研究方向之一，明確提出要建構測量AI研發加速度的telemetry，並將其作為RSI的早期預警訊號；同時探討如果“智能爆炸”逼近，存在那些干預節點，應該由政府、公司還是其他主體行使干預權。

Clark對Axios表示，“我的預測是，到2028年底，更有可能出現這樣的AI系統：你可以對它說‘去做一個更好的你自己’，它就完全自主地去完成。”

工程層面的伏筆更早。

2026年4月14日，Anthropic Fellows項目公開了一項實驗：測試Claude Opus 4.6是否能在“弱到強監督”這一對齊研究關鍵問題上自主推進，包括分解任務、生成假設、設計評估、迭代最佳化。讓AI agent整建制承擔一項研究過程。

03 全AI圈最關注的方向之一

競速在多條戰線同時進行。

除了文章最開頭提到的，前Meta FAIR研究總監田淵棟等八位創始人組建的Recursive Superintelligence正式出山。

更早一些的跡象同樣可見。Jack Clark在Import AI中提到，OpenAI內部目標是“到2026年9月建構一個自動化AI研究實習生”，DeepMind態度更謹慎但也表示“對齊研究自動化在可行時應推進”。從大廠內部目標到獨立創業項目，RSI已經成為前沿實驗室的共同戰略方向。

這裡有一個無法迴避的悖論。

Anthropic的創立敘事建立在“AI安全優先”之上。而RSI恰恰是AI安全社區長期最擔憂的能力之一。

華盛頓大學機器學習教授Pedro Domingos對Clark的60%機率判斷回應稱，“自1950年代LISP語言誕生以來，AI就有自我建構的能力。真正的問題是這一過程能否帶來遞增回報——目前沒有證據支援這一點。”

批評者的核心質疑不在於RSI“是否可能”，而在於“是否能產生指數級的邊際回報”，如果每一代AI自我最佳化的效率只是線性甚至遞減改善，那麼這條路線的影響力會被壓縮在可控範圍內。

AI安全研究者Eliezer Yudkowsky對Clark的60%判斷給出的回應簡短可怕：“那你將和我們其他人一起死去。”

Clark自己在文章中並未迴避。他在Import AI中給出的一組測算是：如果當今的對齊技術精準率為99.9%，在50代迭代之後會降到約95%，500代之後會降到約60%——一種類似基因突變的複利漂移。在AI參與自身訓練的循環中，對齊能否作為約束條件被可靠地傳遞給每一代後繼模型，目前沒有答案。

Anthropic的回答路徑，似乎是“最懂風險的人最適合做這件事”——同步推進能力研究和對齊研究，用工程節奏跑贏失控時點。這個回答能否成立，需要Karpathy團隊和Anthropic Institute後續公開的資料來驗證。

Anthropic在研究綱要中作出了一項相對罕見的承諾：公開發佈“我們的工作如何因新AI工具而加速”以及“AI系統潛在遞迴自我改進的相關資料”。它能不能被兌現，將是判斷Anthropic在RSI路線上的押注，究竟是工程項目還是定位策略的關鍵標尺。

眼下，Karpathy加入Anthropic，也能更明顯地看出AI產業的下一階段競爭重心——從“用更多算力訓練更大的模型”轉向“讓AI參與自己的訓練過程”。

不過，這可能是一條潛力巨大，也很危險的路。 (騰訊科技)

科技