多年來,AGI(通用人工智慧)如同科幻迷霧中的海市蜃樓——頂尖研究者們對其定義各執一詞,甚至以「看到才知道」的模糊共識迴避爭論。然而,一場靜默的革命正在發生:長程智能體(Long-horizon Agents)的突破,讓AGI從哲學辯題落地為功能現實。
多年前,一些頂尖研究者告訴紅杉,他們的目標是實現通用人工智慧(AGI)。
當時,紅杉天真地問:「你們如何定義AGI?」
他們停頓片刻,略帶猶豫地相視一眼,然後給出了一個後來幾乎成為AI領域某種信條的回答:
「嗯,我們各自都有自己的定義,但等我們看到它時,自然會知道。」
這就是大家對AGI具體定義的不懈追尋的見證之一。
事實證明,這個定義確實難以捉摸。
雖然定義難以明確,現實卻非如此。
AGI已經到來,就在當下。
編碼智能體是第一個例證。未來還會有更多。
長遠規劃智能體在功能上已相當於AGI,而2026年將屬於它們。
矽谷AI初創公司創始人馬克自述他的經歷,曾經招聘一個人,需要發佈職位描述,篩選數百份簡歷,初篩50人,面試15人,最後發出offer。總共要耗時數周,成本上萬。
如今只需要給智能體指令:「我需要一個懂Kubernetes、有開源貢獻、能在開發者社區建立影響力的工程總監」。
智能體按分鐘推進:
0-5分鐘:掃描GitHub,篩選5000+個Kubernetes相關倉庫,識別活躍貢獻者 。
5-15分鐘:交叉驗證LinkedIn、技術部落格、會議演講記錄,篩掉那些殭屍帳號。
15-25分鐘:分析推特互動質量,去掉以及只轉發僱主文章的人,識別真正有影響力的開發者。
25-31分鐘:發現目標人選剛結束大廠項目,撰寫個性化邀約郵件。
從接到需求到獲得精準候選名單,僅31分鐘。
上述場景,來自紅杉發佈的部落格。文中用「能把事兒搞定」,來通過功能性重新定義了AGI,稱當下的長程智能體已跨過關鍵門檻;AI應用將從「對話者」升級為「執行者」,可以被視為AGI了。
AGI的發展,有三個關鍵時刻。
第一個是知識,源於預訓練,代表事件是2022年末發佈的ChatGPT。
第二個是推理時計算,可以對應2024年OpenAI的o1及2025年初的DeepSeek R1。
第三個關鍵點是迭代/長程智能體,其代表事件是在過去的幾周內,Claude Code和其他程式設計智能體跨越能力閾值。
具有通用智能的人,能夠獨立工作數小時,自己犯錯後修正,並在無需被告知的情況下弄清楚下一步該做什麼。通用人工智慧也要能做到同樣的事情。
圖1:不同歷史階段的人工智慧能夠完成的任務耗時
2025年3月的一篇研究[2],發現了一個智能體領域的摩爾定律:
在過去6年中,智能體能夠完成的任務時長,一直呈指數級增長,約每7個月翻一番。
這可比摩爾定律的18個月翻一番快得多。這意味著智能體能力的增長,要遠快於硬體性能的增長。
這裡的任務,涵蓋了軟體程式設計上的各類問題,相當廣泛,而上述結果不依賴於特定的資料集,其結論相當魯棒。
根據這一趨勢預測,在未來不到十年內,我們將看到AI智能體能夠獨立完成當前需要人類花費數天或數周才能完成的軟體程式設計任務。
在2025年3月,那時的大模型在人類完成時間少於4分鐘的任務上幾乎有100%的成功率,但在人類需要花費超過大約4小時的任務上,成功率低於10%。
而按照歷史經驗外推,能以50%機率成功完成的多步任務數,大約每年增長1-4倍。
如果過去6年測量的趨勢在未來2-4年內繼續,2028年智能體可完成人類專家一天工作量;到2030年,通用型自主智能體將能夠執行一系列為期一周的任務,而2037年或能處理需專家百年時間的任務。
一個能夠替代人類專家終其一生才能解決問題的智能體,說什麼都該被視為通用人工智慧了。
這就是紅杉這篇文章真正想說的。不必糾結通用智能的定義及其哲學爭論。只要能把事兒搞定,就是通用智能。
這種強調結果的思考方式,更關注現實影響,無論是投資者,創業者還是打工人,都需要押注智能體能力的指數增長曲線,據此重估創業與商業機會。
2023-2024年的AI應用多為「對話工具」,而2026年後,智能體將成為「虛擬員工」。
醫學領域,OpenEvidence的深度諮詢功能可以進行醫療諮詢。
在法律界,智能體Harvey可以擔任助理律師。
即便是晶片設計,也有發表了AlphaChip的研究者創立了「Ricursive Intelligence」。
2026年和2027年的AI應用將從對話者成為行動者。它們將像同事一樣存在。使用頻率將從每天幾次增加到全天候,同時運行多個實例。
智能體將不止是讓使用者節省幾個小時,而是讓使用者角色從「個人貢獻者」轉為「管理一組智能體」。
對於打工人來說,能夠完成長任務周期的智能體,其能力與大模型的單次呼叫有著本質的不同。
每一個人都需要思考,在你的領域,長時程的智能體解鎖了那些新能力?那些任務需要持久的注意力,如今這些任務是時候外包給AI了。
等到這些任務外包給AI之後,需要人來思考並回答下面三個問題
1. 如何將AI自動化的工作產品化推廣出去?你能對此定價和包裝以創造價值嗎?
2. 工作介面從聊天機器人發展到智能體,將在你的領域如何影響人機互作?
3. 如何在智能體完成任務的過程中提供反饋,從而讓智能體能夠可靠而穩定地完成複雜任務,而非痴迷改進智能體的介面。
此外,能完成長時間任務的智能體的出現,也會帶來更多的隱患。曾經大模型的安全,只需要考慮會不會回覆有害問題,而在連續工作幾個小時,去解決複雜問題的智能體上,就要小心智能體「刪庫跑路」,或者侵犯個人隱私,將人類世界的偏見引入等問題了。
監管缺失也不容忽視,目前尚無法律定義「智能體作為員工」的權利義務。A呼叫B公司提供的智能體完成的特定任務,所引起的合同糾紛、責任認定等問題仍懸而未決。 (新智元)