紅杉資本:2026,這就是 AGI

最近在用 OpenClaw 的時候,我在想一個問題:AGI 已經來了嗎?

如果需要回答這個問題,可能還是要定義下什麼是 AGI。

然而關於什麼是 AGI,眾說紛紜。

比如最近,Google DeepMind 創始人提出了一個很有趣的 AGI 的定義:

訓練一個 AI 模型,將它的知識庫截斷到只到 1911 年,如果它能夠像愛因斯坦獨立發現廣義相對論,那麼它就是 AGI。

然而,專門訓練一個大模型來驗證一個人的觀點,即便對於Google來說,也未免太奢侈了。

直到昨天,我在紅杉社區看到了一篇文章,我突然有個感受:

也許 2026,AGI 已經來到了。

原文:https://sequoiacap.com/article/2026-this-is-agi/

幾年前,一些頂尖 AI 研究者告訴我們,他們的目標是通用人工智慧(AGI)。

當時我們迫切想知道一個清晰的定義,便天真地問:“你們怎麼定義 AGI?”,他們頓了頓,猶豫地對視一眼,然後給出了後來在 AI 領域廣為流傳的一句話:“嗯,我們每個人都有自己的定義,但看到它時我們就會知道。”

這一小插曲,正是我們探尋 AGI 具體定義時的典型縮影。這一目標一直沒有結果。雖然 AGI 的定義至今模糊不清,但現實已經毫無懸念:它就在這裡,此刻已然降臨。

程式設計智能體是第一個例子。還有更多正在路上。

Long-horizon agents,在功能意義上就是 AGI,2026 年將是它們的爆發之年。

在繼續討論之前,我們得先明確一點:我們沒有足夠的道德權威來為 AGI 提出技術定義。

我們是投資者,研究的是市場、創始人,以及這兩者碰撞孕育出的產物:企業。鑑於此,我們的定義是功能性的,而非技術性的。新的技術能力引出了唐·瓦倫丁的問題:那又怎樣?

答案的關鍵在於其現實世界的影響力。

通用人工智慧的功能定義

AGI,就是能把事情搞明白的能力。就這樣。

我們明白,這種模糊的定義解決不了任何哲學爭論。但從實用角度看,當你想做成一件事時,你到底需要什麼?不過是一個能自主解決問題的 AI 而已。至於它是怎麼做到的,遠不如“它能做到”這件事本身重要。

一個能解決問題的人,通常具備三個核心能力:

  • 紮實的基礎知識儲備;
  • 基於這些知識進行推理的能力;
  • 以及通過反覆試錯找到答案的能力。

能解決問題的 AI 具備三方面核心能力:一是基礎知識(預訓練),二是基於該知識進行推理的能力(推理計算),三是通過逐步迭代得出答案的能力(長程智能體)。

  • 第一個關鍵要素(知識/預訓練)正是 2022 年那個「ChatGPT 時刻」背後的驅動力。
  • 第二個要素(推理/推理時計算)隨 2024 年底 O1 模型的發佈登場。
  • 第三個要素(迭代/長程智能體)則在最近幾周浮出水面:Claude Code 等程式碼智能體已突破能力閾值。

具有通用智能的人可以連續幾小時自主工作:他們會犯錯,也會自己修正,不用別人吩咐就能知道下一步該做什麼。現在,通用智能體也能做到這一點。這是前所未有的。

什麼叫把事情想明白?

一位創始人給他的 Agent 發消息:“我需要一個開發者關係負責人。一個技術能力足夠高、能贏得資深工程師尊重的人,但又真正喜歡用 Twitter 的人。我們向平台團隊銷售產品。去吧。”

智能體的第一步操作很直接:在 LinkedIn 上搜尋 Datadog、Temporal、Langchain 等競爭對手公司的“開發者布道師”和“開發者關係”崗位。

結果出來好幾百份簡歷,但光看職位頭銜根本分不清誰真的能勝任這份工作。

它轉換了思路,開始關注真實表現而非資質:它會在 YouTube 上搜尋各類會議演講,找到 50 多位演講者後,再從中篩選出那些演講互動性強的人。

智能體將這些演講者與 Twitter 帳號進行了交叉比對。其中一半人的帳號要麼長期不活躍,要麼只是轉發公司的部落格文章,顯然這些不是我們想要的類型。

但有十幾個人擁有真正的粉絲群體:他們會發表真實觀點、回覆網友,還能吸引開發者互動,而且內容很有格調。

智能體進一步縮小了篩選範圍,開始排查過去三個月發帖頻率下降的使用者。活躍度降低往往意味著員工對當前崗位的投入度在下降。最終,三個名字浮出了水面。

智能體對這三位候選人做了背調:

  • 第一位剛官宣新職位,已經來不及了;
  • 第二位是一家剛融到資的公司創始人,顯然不會離開當前崗位;
  • 第三位是 D 輪公司的高級開發者關係負責人,他們公司剛裁了市場部。她最近分享的主題正好是這家初創公司瞄準的平台工程領域,推特上有 1.4 萬粉絲,發的梗圖還能吸引工程師互動,不過領英已經兩個月沒更新了。

Agent 寫了一封郵件,內容提及了對方最近的演講,以及這家初創公司理想客戶畫像的契合點,還特別提到小團隊能帶來的創作自由。郵件提議進行一次輕鬆的交流,而非正式的推銷。

總時長:31 分鐘。創始人並未在招聘網站發佈職位描述,而是已經鎖定了唯一的最終候選人。

這才是解決問題的真諦,在模糊中摸索著達成目標:提出假設、驗證假設、碰壁、調整方向,直到找到突破口。

智能體沒有按既定指令碼行事,它像頂尖招聘者那樣在腦海裡反覆推演,卻只用了 31 分鐘就不知疲倦地完成了全過程,而且沒人教過它該怎麼做。

值得注意的是:智能體智能體仍然會犯錯,它們會產生幻覺、丟失上下文,有時甚至自信滿滿地走錯方向。但發展趨勢清晰可見,這些問題也越來越容易解決。

走到今天,我們經歷了什麼?

去年的文章裡,我們曾指出推理模型是 AI 領域最重要的新前沿。而長程智能體則通過讓模型採取行動並隨時間迭代,將這一範式向前推進了一步。

想讓 AI 模型「思考」更久,可不是件簡單的事。基礎推理模型的「思考」時長通常只有幾秒到幾分鐘。

目前有兩種技術路徑,看起來都表現出良好的效果和可擴展性:強化學習(reinforcement learning)和智能體框架(agent harnesses)。

強化學習的思路是,在訓練過程中通過引導和督促,讓模型從根本上學會長時間保持專注、不偏離目標。而智能體框架則針對模型的已知短板:比如記憶交接、資訊壓縮等問題,搭建專門的支撐架構。

強化學習的規模化研究,目前仍是各大實驗室的主攻方向。他們在這一領域成果斐然:從多智能體系統的突破,到 AI 工具的可靠應用,都取得了顯著進展。

設計優秀的智能體應用框架是應用層的核心任務。如今市場上一些廣受歡迎的產品,正是憑藉其精心設計的智能體應用框架脫穎而出:比如 Manus、Claude Code、Factory 的 Droids 等。

如果要押注一條指數增長曲線,長程智能體的性能曲線絕對是首選。

METR 一直在持續密切跟蹤 AI 完成長程任務的能力:其進步速度呈指數級,每 7 個月就翻一倍。

按照這個指數趨勢推算:到 2028 年,智能體將能可靠完成人類專家耗時一整天的任務;2034 年可完成耗時一年的任務;到 2037 年,甚至能完成耗時百年的任務。

所以呢?

很快你就能僱傭一個 AI 智能體了。這正是通用人工智慧的試金石之一。你現在就能「僱傭」 GPT-5.2、Claude、Grok 或 Gemini 了:

  • 醫療領域:OpenEvidence 的 Deep Consult 智能體可充當專科醫生
  • 法律領域:Harvey 的智能體能作為初級律師開展工作
  • 網路安全領域:XBOW 智能體扮演滲透測試員角色
  • DevOps 領域:Traversal 的智能體充當站點可靠性工程師(SRE)
  • GTM 領域:Day AI 智能體可同時擔任業務開發代表(BDR)、解決方案工程師(SE)及營收營運負責人
  • 招聘領域:Juicebox 智能體作為招聘專員
  • 數學領域:Harmonic 的 Aristotle 智能體充當數學家
  • 半導體設計領域:Ricursive 的智能體扮演晶片設計師角色
  • AI 研究領域:GPT-5.2 和 Claude 可作為 AI 研究員

從空談者到行動派:對創始人的啟示

這對創始人來說意義深遠。

2023 到 2024 年的 AI 應用都很會聊天,有些甚至是老練的對話高手!但它們的實際影響卻很有限。

2026 和 2027 年的 AI 應用將不再是工具,而是實幹夥伴。它們會像同事一樣,和你並肩工作。使用頻率也會從一天幾次,變成全天無間斷,甚至多個 AI 實例同時運行。使用者不再是偶爾省幾個小時,而是徹底轉變角色:從獨立貢獻者變成 AI Agent 團隊的管理者。

  • 還記得之前大家熱議的“賣成果”嗎?現在這真的能實現了。
  • 長程智能體究竟能完成那些工作?它的能力與模型的單次前向傳播有天壤之別。在你的領域裡,這類智能體能夠解鎖那些新能力?那些任務需要持續投入,且瓶頸在於持久注意力?
  • 如何將這項工作產品化?隨著工作場景的使用者介面(UI)正從聊天機器人向智能體委託模式演進,你們領域內的應用介面又會發生怎樣的變化?
  • 你能否穩定完成這項工作?有沒有在「近乎偏執地」持續最佳化智能體框架?反饋閉環是否完善?
  • 這項服務該怎麼推廣出去?能不能圍繞價值和成果來定價和打包?

準備出發!

是時候把握長程智能體的指數級增長浪潮了。

如今,你的 AI 智能體大概能穩定工作 30 分鐘左右。但用不了多久,它們就能完成一整天的工作量,最終甚至能承擔相當於一個世紀的工作任務。

如果你的規劃能以百年為尺度,會帶來怎樣的改變?

一百年,可以把那 20 萬份從未交叉驗證過的臨床試驗資料徹底打通;

一百年,能把歷史上所有的客服工單都翻一遍,從中找出真正有價值的資訊;

再用一百年,美國的稅法體系也能被梳理得邏輯清晰、條理分明。

你之前那個看似遙不可及的路線圖,現在竟然變得切實可行了。 (特工宇宙)