AI預測權威：我還是低估了AI的速度，今年年底實現“AI研發自動化”真的有可能

2026/03/11

•

AI迭代正擊穿預測極限，受Claude Opus 4.6驚人表現衝擊，權威研究員Ajeya Cotra坦言其對2026年的AI進展預測已提前失效，今年底“AI研發自動化”的機率達10%，她表示“已找不到任何穩固趨勢能斷言這不會很快發生”！

人工智慧能力的躍升速度，正在讓最嚴謹的預測者也措手不及。

知名AI預測研究者Ajeya Cotra近日公開承認，她僅在兩個月前發佈的2026年AI進展預測已顯著偏於保守。觸發這一自我修正的，是Anthropic最新模型Claude Opus 4.6在權威評測機構METR基準測試中的表現，該模型的軟體工程"時間跨度"已達約12小時，遠超Cotra此前預測的2026年底約24小時水平。這意味著AI在軟體工程領域的實際進展，比她的預測提前了近十個月。

更具衝擊力的是，Cotra隨之上調了對"AI研發全面自動化"的機率判斷。她將今年年底前AI完全接管研究構想與實施、無需人類介入的機率維持在10%，並明確表示："這是我第一次找不到任何可以外推的穩固趨勢，來斷言這件事不會很快發生。"這一表態在AI預測圈引發廣泛關注。

Cotra曾在全球最大AI安全資助機構之一Coefficient Giving擔任AI安全研究資助負責人，目前供職於METR——一家專注於AI能力評估的機構。

01 預測落空：兩個月前的判斷已經過時

今年1月14日，Cotra基於2019年至2025年間時間跨度約每年翻倍不到兩次的歷史趨勢，預測2026年底最先進模型的50%成功率時間跨度約為24小時，80百分位預測為40小時。

然而，僅在她發佈預測約兩個月後，Opus 4.6便被評估為具備約12小時的時間跨度。在METR測試集中，19項被估計需要人類耗時超過8小時的軟體工程任務裡，Opus 4.6能夠至少部分完成其中14項，並穩定攻克其中4項。Cotra坦言，在此後還有整整十個月進展的情況下，AI代理仍在24小時任務上有一半時間失敗，"已經不再可信"。

值得注意的是，Cotra同時提示，當前時間跨度估算的不確定性顯著上升——Opus 4.6的95%置信區間為5.3小時至66小時，部分原因在於長任務數量稀少、人工完成時間多為估算，且基準測試本身已接近飽和。

02 能力邊界：傳統評估框架正在失效

隨著AI代理能力逼近乃至超越數十小時的任務量級，Cotra認為"時間跨度"這一概念本身的適用性正受到挑戰。

她指出，任務的可分解性隨規模增長而顯著提升：一小時的偵錯任務幾乎無法拆分平行，一天的開發任務勉強可以分工但邊界模糊，而一個月乃至數月的項目則天然適合拆解為多個平行子任務。一旦AI代理能夠穩定完成80小時量級的任務，理論上便可通過"管理層AI"分配任務、"執行層AI"平行推進的方式，持續推進任意規模的項目。

Cotra的同事Tom因此提出，以大型團隊完成任務所需的日曆時間，而非單人工時，作為衡量"內在難度"的更優指標。Cotra認為，隨著AI進入這一新量級，"單人時間"指標可能開始呈現超指數增長，使得年底前軟體工程能力的上限極難估算。

她同時承認，這種大規模任務分解在實踐中不會完美運作——項目參與者對全域背景的直覺性把握，難以被Jira工單或Asana任務完全替代。但她認為，對於相當大一類軟體項目而言，這種模式"可能出乎意料地有效"。

03 關鍵節點：AI研發自動化今年或成現實

在所有預測中，最受關注的是Cotra對"AI研發全面自動化"的機率判斷。

她將這一機率定義為：AI系統完全承擔研究構想與實施工作，無需人類參與。在1月的預測中，她給出了10%的機率，並在發佈後收到多位AI預測領域同行的反饋，認為這一數字偏高。但在Opus 4.6的表現出爐後，她表示10%"再次感覺處於合理區間"。

Cotra同時保持審慎。她指出，全面自動化AI研發不僅需要軟體工程能力，還需要在"研究判斷力"和"創造力"等方面取得突破，而這些恰恰是當前AI系統相對人類研究者仍明顯欠缺的領域。她認為，這一目標在未來三至五年內實現的可能性，遠高於今年之內。

但她的措辭已發生根本性轉變："這是我第一次，找不到任何可以外推的穩固趨勢，來斷言它不會很快發生。" (硬AI)

科技