紅杉資本：2026，這就是 AGI

2026/02/25

•

最近在用 OpenClaw 的時候，我在想一個問題：AGI 已經來了嗎？

如果需要回答這個問題，可能還是要定義下什麼是 AGI。

然而關於什麼是 AGI，眾說紛紜。

比如最近，Google DeepMind 創始人提出了一個很有趣的 AGI 的定義：

訓練一個 AI 模型，將它的知識庫截斷到只到 1911 年，如果它能夠像愛因斯坦獨立發現廣義相對論，那麼它就是 AGI。

然而，專門訓練一個大模型來驗證一個人的觀點，即便對於Google來說，也未免太奢侈了。

直到昨天，我在紅杉社區看到了一篇文章，我突然有個感受：

也許 2026，AGI 已經來到了。

原文：https://sequoiacap.com/article/2026-this-is-agi/

幾年前，一些頂尖 AI 研究者告訴我們，他們的目標是通用人工智慧（AGI）。

當時我們迫切想知道一個清晰的定義，便天真地問：“你們怎麼定義 AGI？”，他們頓了頓，猶豫地對視一眼，然後給出了後來在 AI 領域廣為流傳的一句話：“嗯，我們每個人都有自己的定義，但看到它時我們就會知道。”

這一小插曲，正是我們探尋 AGI 具體定義時的典型縮影。這一目標一直沒有結果。雖然 AGI 的定義至今模糊不清，但現實已經毫無懸念：它就在這裡，此刻已然降臨。

程式設計智能體是第一個例子。還有更多正在路上。

Long-horizon agents，在功能意義上就是 AGI，2026 年將是它們的爆發之年。

在繼續討論之前，我們得先明確一點：我們沒有足夠的道德權威來為 AGI 提出技術定義。

我們是投資者，研究的是市場、創始人，以及這兩者碰撞孕育出的產物：企業。鑑於此，我們的定義是功能性的，而非技術性的。新的技術能力引出了唐·瓦倫丁的問題：那又怎樣？

答案的關鍵在於其現實世界的影響力。

通用人工智慧的功能定義

AGI，就是能把事情搞明白的能力。就這樣。

我們明白，這種模糊的定義解決不了任何哲學爭論。但從實用角度看，當你想做成一件事時，你到底需要什麼？不過是一個能自主解決問題的 AI 而已。至於它是怎麼做到的，遠不如“它能做到”這件事本身重要。

一個能解決問題的人，通常具備三個核心能力：

紮實的基礎知識儲備；
基於這些知識進行推理的能力；
以及通過反覆試錯找到答案的能力。

能解決問題的 AI 具備三方面核心能力：一是基礎知識（預訓練），二是基於該知識進行推理的能力（推理計算），三是通過逐步迭代得出答案的能力（長程智能體）。

第一個關鍵要素（知識/預訓練）正是 2022 年那個「ChatGPT 時刻」背後的驅動力。
第二個要素（推理/推理時計算）隨 2024 年底 O1 模型的發佈登場。
第三個要素（迭代/長程智能體）則在最近幾周浮出水面：Claude Code 等程式碼智能體已突破能力閾值。

具有通用智能的人可以連續幾小時自主工作：他們會犯錯，也會自己修正，不用別人吩咐就能知道下一步該做什麼。現在，通用智能體也能做到這一點。這是前所未有的。

什麼叫把事情想明白？

一位創始人給他的 Agent 發消息：“我需要一個開發者關係負責人。一個技術能力足夠高、能贏得資深工程師尊重的人，但又真正喜歡用 Twitter 的人。我們向平台團隊銷售產品。去吧。”

智能體的第一步操作很直接：在 LinkedIn 上搜尋 Datadog、Temporal、Langchain 等競爭對手公司的“開發者布道師”和“開發者關係”崗位。

結果出來好幾百份簡歷，但光看職位頭銜根本分不清誰真的能勝任這份工作。

它轉換了思路，開始關注真實表現而非資質：它會在 YouTube 上搜尋各類會議演講，找到 50 多位演講者後，再從中篩選出那些演講互動性強的人。

智能體將這些演講者與 Twitter 帳號進行了交叉比對。其中一半人的帳號要麼長期不活躍，要麼只是轉發公司的部落格文章，顯然這些不是我們想要的類型。

但有十幾個人擁有真正的粉絲群體：他們會發表真實觀點、回覆網友，還能吸引開發者互動，而且內容很有格調。

智能體進一步縮小了篩選範圍，開始排查過去三個月發帖頻率下降的使用者。活躍度降低往往意味著員工對當前崗位的投入度在下降。最終，三個名字浮出了水面。

智能體對這三位候選人做了背調：

第一位剛官宣新職位，已經來不及了；
第二位是一家剛融到資的公司創始人，顯然不會離開當前崗位；
第三位是 D 輪公司的高級開發者關係負責人，他們公司剛裁了市場部。她最近分享的主題正好是這家初創公司瞄準的平台工程領域，推特上有 1.4 萬粉絲，發的梗圖還能吸引工程師互動，不過領英已經兩個月沒更新了。

Agent 寫了一封郵件，內容提及了對方最近的演講，以及這家初創公司理想客戶畫像的契合點，還特別提到小團隊能帶來的創作自由。郵件提議進行一次輕鬆的交流，而非正式的推銷。

總時長：31 分鐘。創始人並未在招聘網站發佈職位描述，而是已經鎖定了唯一的最終候選人。

這才是解決問題的真諦，在模糊中摸索著達成目標：提出假設、驗證假設、碰壁、調整方向，直到找到突破口。

智能體沒有按既定指令碼行事，它像頂尖招聘者那樣在腦海裡反覆推演，卻只用了 31 分鐘就不知疲倦地完成了全過程，而且沒人教過它該怎麼做。

值得注意的是：智能體智能體仍然會犯錯，它們會產生幻覺、丟失上下文，有時甚至自信滿滿地走錯方向。但發展趨勢清晰可見，這些問題也越來越容易解決。

走到今天，我們經歷了什麼？

去年的文章裡，我們曾指出推理模型是 AI 領域最重要的新前沿。而長程智能體則通過讓模型採取行動並隨時間迭代，將這一範式向前推進了一步。

想讓 AI 模型「思考」更久，可不是件簡單的事。基礎推理模型的「思考」時長通常只有幾秒到幾分鐘。

目前有兩種技術路徑，看起來都表現出良好的效果和可擴展性：強化學習（reinforcement learning）和智能體框架（agent harnesses）。

強化學習的思路是，在訓練過程中通過引導和督促，讓模型從根本上學會長時間保持專注、不偏離目標。而智能體框架則針對模型的已知短板：比如記憶交接、資訊壓縮等問題，搭建專門的支撐架構。

強化學習的規模化研究，目前仍是各大實驗室的主攻方向。他們在這一領域成果斐然：從多智能體系統的突破，到 AI 工具的可靠應用，都取得了顯著進展。

設計優秀的智能體應用框架是應用層的核心任務。如今市場上一些廣受歡迎的產品，正是憑藉其精心設計的智能體應用框架脫穎而出：比如 Manus、Claude Code、Factory 的 Droids 等。

如果要押注一條指數增長曲線，長程智能體的性能曲線絕對是首選。

METR 一直在持續密切跟蹤 AI 完成長程任務的能力：其進步速度呈指數級，每 7 個月就翻一倍。

按照這個指數趨勢推算：到 2028 年，智能體將能可靠完成人類專家耗時一整天的任務；2034 年可完成耗時一年的任務；到 2037 年，甚至能完成耗時百年的任務。

所以呢？

很快你就能僱傭一個 AI 智能體了。這正是通用人工智慧的試金石之一。你現在就能「僱傭」 GPT-5.2、Claude、Grok 或 Gemini 了：

醫療領域：OpenEvidence 的 Deep Consult 智能體可充當專科醫生
法律領域：Harvey 的智能體能作為初級律師開展工作
網路安全領域：XBOW 智能體扮演滲透測試員角色
DevOps 領域：Traversal 的智能體充當站點可靠性工程師（SRE）
GTM 領域：Day AI 智能體可同時擔任業務開發代表（BDR）、解決方案工程師（SE）及營收營運負責人
招聘領域：Juicebox 智能體作為招聘專員
數學領域：Harmonic 的 Aristotle 智能體充當數學家
半導體設計領域：Ricursive 的智能體扮演晶片設計師角色
AI 研究領域：GPT-5.2 和 Claude 可作為 AI 研究員

從空談者到行動派：對創始人的啟示

這對創始人來說意義深遠。

2023 到 2024 年的 AI 應用都很會聊天，有些甚至是老練的對話高手！但它們的實際影響卻很有限。

2026 和 2027 年的 AI 應用將不再是工具，而是實幹夥伴。它們會像同事一樣，和你並肩工作。使用頻率也會從一天幾次，變成全天無間斷，甚至多個 AI 實例同時運行。使用者不再是偶爾省幾個小時，而是徹底轉變角色：從獨立貢獻者變成 AI Agent 團隊的管理者。

還記得之前大家熱議的“賣成果”嗎？現在這真的能實現了。
長程智能體究竟能完成那些工作？它的能力與模型的單次前向傳播有天壤之別。在你的領域裡，這類智能體能夠解鎖那些新能力？那些任務需要持續投入，且瓶頸在於持久注意力？
如何將這項工作產品化？隨著工作場景的使用者介面（UI）正從聊天機器人向智能體委託模式演進，你們領域內的應用介面又會發生怎樣的變化？
你能否穩定完成這項工作？有沒有在「近乎偏執地」持續最佳化智能體框架？反饋閉環是否完善？
這項服務該怎麼推廣出去？能不能圍繞價值和成果來定價和打包？

準備出發！

是時候把握長程智能體的指數級增長浪潮了。

如今，你的 AI 智能體大概能穩定工作 30 分鐘左右。但用不了多久，它們就能完成一整天的工作量，最終甚至能承擔相當於一個世紀的工作任務。

如果你的規劃能以百年為尺度，會帶來怎樣的改變？

一百年，可以把那 20 萬份從未交叉驗證過的臨床試驗資料徹底打通；

一百年，能把歷史上所有的客服工單都翻一遍，從中找出真正有價值的資訊；

再用一百年，美國的稅法體系也能被梳理得邏輯清晰、條理分明。

你之前那個看似遙不可及的路線圖，現在竟然變得切實可行了。 (特工宇宙)