AI預測權威:我還是低估了AI的速度,今年年底實現“AI研發自動化”真的有可能

AI迭代正擊穿預測極限,受Claude Opus 4.6驚人表現衝擊,權威研究員Ajeya Cotra坦言其對2026年的AI進展預測已提前失效,今年底“AI研發自動化”的機率達10%,她表示“已找不到任何穩固趨勢能斷言這不會很快發生”!

人工智慧能力的躍升速度,正在讓最嚴謹的預測者也措手不及。

知名AI預測研究者Ajeya Cotra近日公開承認,她僅在兩個月前發佈的2026年AI進展預測已顯著偏於保守。觸發這一自我修正的,是Anthropic最新模型Claude Opus 4.6在權威評測機構METR基準測試中的表現,該模型的軟體工程"時間跨度"已達約12小時,遠超Cotra此前預測的2026年底約24小時水平。這意味著AI在軟體工程領域的實際進展,比她的預測提前了近十個月。

更具衝擊力的是,Cotra隨之上調了對"AI研發全面自動化"的機率判斷。她將今年年底前AI完全接管研究構想與實施、無需人類介入的機率維持在10%,並明確表示:"這是我第一次找不到任何可以外推的穩固趨勢,來斷言這件事不會很快發生。"這一表態在AI預測圈引發廣泛關注。

Cotra曾在全球最大AI安全資助機構之一Coefficient Giving擔任AI安全研究資助負責人,目前供職於METR——一家專注於AI能力評估的機構。

01 預測落空:兩個月前的判斷已經過時

今年1月14日,Cotra基於2019年至2025年間時間跨度約每年翻倍不到兩次的歷史趨勢,預測2026年底最先進模型的50%成功率時間跨度約為24小時,80百分位預測為40小時。

然而,僅在她發佈預測約兩個月後,Opus 4.6便被評估為具備約12小時的時間跨度。在METR測試集中,19項被估計需要人類耗時超過8小時的軟體工程任務裡,Opus 4.6能夠至少部分完成其中14項,並穩定攻克其中4項。Cotra坦言,在此後還有整整十個月進展的情況下,AI代理仍在24小時任務上有一半時間失敗,"已經不再可信"。

值得注意的是,Cotra同時提示,當前時間跨度估算的不確定性顯著上升——Opus 4.6的95%置信區間為5.3小時至66小時,部分原因在於長任務數量稀少、人工完成時間多為估算,且基準測試本身已接近飽和。

02 能力邊界:傳統評估框架正在失效

隨著AI代理能力逼近乃至超越數十小時的任務量級,Cotra認為"時間跨度"這一概念本身的適用性正受到挑戰。

她指出,任務的可分解性隨規模增長而顯著提升:一小時的偵錯任務幾乎無法拆分平行,一天的開發任務勉強可以分工但邊界模糊,而一個月乃至數月的項目則天然適合拆解為多個平行子任務。一旦AI代理能夠穩定完成80小時量級的任務,理論上便可通過"管理層AI"分配任務、"執行層AI"平行推進的方式,持續推進任意規模的項目。

Cotra的同事Tom因此提出,以大型團隊完成任務所需的日曆時間,而非單人工時,作為衡量"內在難度"的更優指標。Cotra認為,隨著AI進入這一新量級,"單人時間"指標可能開始呈現超指數增長,使得年底前軟體工程能力的上限極難估算。

她同時承認,這種大規模任務分解在實踐中不會完美運作——項目參與者對全域背景的直覺性把握,難以被Jira工單或Asana任務完全替代。但她認為,對於相當大一類軟體項目而言,這種模式"可能出乎意料地有效"。

03 關鍵節點:AI研發自動化今年或成現實

在所有預測中,最受關注的是Cotra對"AI研發全面自動化"的機率判斷。

她將這一機率定義為:AI系統完全承擔研究構想與實施工作,無需人類參與。在1月的預測中,她給出了10%的機率,並在發佈後收到多位AI預測領域同行的反饋,認為這一數字偏高。但在Opus 4.6的表現出爐後,她表示10%"再次感覺處於合理區間"。

Cotra同時保持審慎。她指出,全面自動化AI研發不僅需要軟體工程能力,還需要在"研究判斷力"和"創造力"等方面取得突破,而這些恰恰是當前AI系統相對人類研究者仍明顯欠缺的領域。她認為,這一目標在未來三至五年內實現的可能性,遠高於今年之內。

但她的措辭已發生根本性轉變:"這是我第一次,找不到任何可以外推的穩固趨勢,來斷言它不會很快發生。" (硬AI)