最近在用 OpenClaw 的時候,我在想一個問題:AGI 已經來了嗎?
如果需要回答這個問題,可能還是要定義下什麼是 AGI。
然而關於什麼是 AGI,眾說紛紜。
比如最近,Google DeepMind 創始人提出了一個很有趣的 AGI 的定義:
訓練一個 AI 模型,將它的知識庫截斷到只到 1911 年,如果它能夠像愛因斯坦獨立發現廣義相對論,那麼它就是 AGI。
然而,專門訓練一個大模型來驗證一個人的觀點,即便對於Google來說,也未免太奢侈了。
直到昨天,我在紅杉社區看到了一篇文章,我突然有個感受:
也許 2026,AGI 已經來到了。
原文:https://sequoiacap.com/article/2026-this-is-agi/
幾年前,一些頂尖 AI 研究者告訴我們,他們的目標是通用人工智慧(AGI)。
當時我們迫切想知道一個清晰的定義,便天真地問:“你們怎麼定義 AGI?”,他們頓了頓,猶豫地對視一眼,然後給出了後來在 AI 領域廣為流傳的一句話:“嗯,我們每個人都有自己的定義,但看到它時我們就會知道。”
這一小插曲,正是我們探尋 AGI 具體定義時的典型縮影。這一目標一直沒有結果。雖然 AGI 的定義至今模糊不清,但現實已經毫無懸念:它就在這裡,此刻已然降臨。
程式設計智能體是第一個例子。還有更多正在路上。
Long-horizon agents,在功能意義上就是 AGI,2026 年將是它們的爆發之年。
在繼續討論之前,我們得先明確一點:我們沒有足夠的道德權威來為 AGI 提出技術定義。
我們是投資者,研究的是市場、創始人,以及這兩者碰撞孕育出的產物:企業。鑑於此,我們的定義是功能性的,而非技術性的。新的技術能力引出了唐·瓦倫丁的問題:那又怎樣?
答案的關鍵在於其現實世界的影響力。
通用人工智慧的功能定義
AGI,就是能把事情搞明白的能力。就這樣。
我們明白,這種模糊的定義解決不了任何哲學爭論。但從實用角度看,當你想做成一件事時,你到底需要什麼?不過是一個能自主解決問題的 AI 而已。至於它是怎麼做到的,遠不如“它能做到”這件事本身重要。
一個能解決問題的人,通常具備三個核心能力:
能解決問題的 AI 具備三方面核心能力:一是基礎知識(預訓練),二是基於該知識進行推理的能力(推理計算),三是通過逐步迭代得出答案的能力(長程智能體)。
具有通用智能的人可以連續幾小時自主工作:他們會犯錯,也會自己修正,不用別人吩咐就能知道下一步該做什麼。現在,通用智能體也能做到這一點。這是前所未有的。
什麼叫把事情想明白?
一位創始人給他的 Agent 發消息:“我需要一個開發者關係負責人。一個技術能力足夠高、能贏得資深工程師尊重的人,但又真正喜歡用 Twitter 的人。我們向平台團隊銷售產品。去吧。”
智能體的第一步操作很直接:在 LinkedIn 上搜尋 Datadog、Temporal、Langchain 等競爭對手公司的“開發者布道師”和“開發者關係”崗位。
結果出來好幾百份簡歷,但光看職位頭銜根本分不清誰真的能勝任這份工作。
它轉換了思路,開始關注真實表現而非資質:它會在 YouTube 上搜尋各類會議演講,找到 50 多位演講者後,再從中篩選出那些演講互動性強的人。
智能體將這些演講者與 Twitter 帳號進行了交叉比對。其中一半人的帳號要麼長期不活躍,要麼只是轉發公司的部落格文章,顯然這些不是我們想要的類型。
但有十幾個人擁有真正的粉絲群體:他們會發表真實觀點、回覆網友,還能吸引開發者互動,而且內容很有格調。
智能體進一步縮小了篩選範圍,開始排查過去三個月發帖頻率下降的使用者。活躍度降低往往意味著員工對當前崗位的投入度在下降。最終,三個名字浮出了水面。
智能體對這三位候選人做了背調:
Agent 寫了一封郵件,內容提及了對方最近的演講,以及這家初創公司理想客戶畫像的契合點,還特別提到小團隊能帶來的創作自由。郵件提議進行一次輕鬆的交流,而非正式的推銷。
總時長:31 分鐘。創始人並未在招聘網站發佈職位描述,而是已經鎖定了唯一的最終候選人。
這才是解決問題的真諦,在模糊中摸索著達成目標:提出假設、驗證假設、碰壁、調整方向,直到找到突破口。
智能體沒有按既定指令碼行事,它像頂尖招聘者那樣在腦海裡反覆推演,卻只用了 31 分鐘就不知疲倦地完成了全過程,而且沒人教過它該怎麼做。
值得注意的是:智能體智能體仍然會犯錯,它們會產生幻覺、丟失上下文,有時甚至自信滿滿地走錯方向。但發展趨勢清晰可見,這些問題也越來越容易解決。
走到今天,我們經歷了什麼?
去年的文章裡,我們曾指出推理模型是 AI 領域最重要的新前沿。而長程智能體則通過讓模型採取行動並隨時間迭代,將這一範式向前推進了一步。
想讓 AI 模型「思考」更久,可不是件簡單的事。基礎推理模型的「思考」時長通常只有幾秒到幾分鐘。
目前有兩種技術路徑,看起來都表現出良好的效果和可擴展性:強化學習(reinforcement learning)和智能體框架(agent harnesses)。
強化學習的思路是,在訓練過程中通過引導和督促,讓模型從根本上學會長時間保持專注、不偏離目標。而智能體框架則針對模型的已知短板:比如記憶交接、資訊壓縮等問題,搭建專門的支撐架構。
強化學習的規模化研究,目前仍是各大實驗室的主攻方向。他們在這一領域成果斐然:從多智能體系統的突破,到 AI 工具的可靠應用,都取得了顯著進展。
設計優秀的智能體應用框架是應用層的核心任務。如今市場上一些廣受歡迎的產品,正是憑藉其精心設計的智能體應用框架脫穎而出:比如 Manus、Claude Code、Factory 的 Droids 等。
如果要押注一條指數增長曲線,長程智能體的性能曲線絕對是首選。
METR 一直在持續密切跟蹤 AI 完成長程任務的能力:其進步速度呈指數級,每 7 個月就翻一倍。
按照這個指數趨勢推算:到 2028 年,智能體將能可靠完成人類專家耗時一整天的任務;2034 年可完成耗時一年的任務;到 2037 年,甚至能完成耗時百年的任務。
所以呢?
很快你就能僱傭一個 AI 智能體了。這正是通用人工智慧的試金石之一。你現在就能「僱傭」 GPT-5.2、Claude、Grok 或 Gemini 了:
從空談者到行動派:對創始人的啟示
這對創始人來說意義深遠。
2023 到 2024 年的 AI 應用都很會聊天,有些甚至是老練的對話高手!但它們的實際影響卻很有限。
2026 和 2027 年的 AI 應用將不再是工具,而是實幹夥伴。它們會像同事一樣,和你並肩工作。使用頻率也會從一天幾次,變成全天無間斷,甚至多個 AI 實例同時運行。使用者不再是偶爾省幾個小時,而是徹底轉變角色:從獨立貢獻者變成 AI Agent 團隊的管理者。
準備出發!
是時候把握長程智能體的指數級增長浪潮了。
如今,你的 AI 智能體大概能穩定工作 30 分鐘左右。但用不了多久,它們就能完成一整天的工作量,最終甚至能承擔相當於一個世紀的工作任務。
如果你的規劃能以百年為尺度,會帶來怎樣的改變?
一百年,可以把那 20 萬份從未交叉驗證過的臨床試驗資料徹底打通;
一百年,能把歷史上所有的客服工單都翻一遍,從中找出真正有價值的資訊;
再用一百年,美國的稅法體系也能被梳理得邏輯清晰、條理分明。
你之前那個看似遙不可及的路線圖,現在竟然變得切實可行了。 (特工宇宙)