從 AI Agent 到 Agentic Economy，Google DeepMind 描繪智能體未來

2026/07/04

•

AI速讀

Google DeepMind 研究員 Nenad Tomasev 指出，AI 競爭重心正從模型能力轉向 AI Agent 的自主執行力。Agent 與 LLM 的核心差異在於其具備「觀察-行動」的閉環能力，使 AI 從被動諮詢者變為獨立決策者。Tomasev 預警，大規模部署 Agent 將帶來「認知單核化」導致的系統性崩潰，以及針對 Agent 的「智能體陷阱」攻擊。他提出前瞻性觀點：未來 AI 的終極形態可能不是單一超級 AGI，而是由通用智能體協調、專業智能體執行的「分佈式智能社會」，這種分工模式在經濟效率與可靠性上將遠超單一龐大模型。

過去兩年，大模型的競爭主要圍繞模型能力展開，而隨著 AI Agent 快速進入開發、辦公和科研等場景，行業關注點正在發生變化：如何讓Agent安全、自主、可靠地完成真實世界中的複雜任務，以及當數以百萬計的Agent開始在網際網路上相互協作、談判和交易時，人類社會將迎來怎樣的重塑？

在 Google DeepMind 最新一期播客中，研究科學家 Nenad Tomasev 圍繞 AI Agent 的未來展開了討論，內容涵蓋 Agent 的定義、科研應用、智能體安全（Agentic Security）、智能體經濟（Agentic Economy）、認知單一化（Cognitive Monoculture）以及分佈式智能（Distributed Intelligence）等多個話題，並提出一個值得關注的觀點：未來 AI 的演進方向，未必是單一的超級 AGI，而更可能是由大量專業智能體協作組成的智能體社會。

01. 從生成文字到執行行動，Agent相較於模型的重要意義

要洞察這場變革，首先要理解 LLM 與Agent之間的本質區別。雖然Agent在底層依然依賴 LLM 作為“大腦”來制定計畫，但其核心進化在於增加了一個能夠與現實世界互動的“外殼”（Harness）。

大語言模型本質上是機率性的回覆機器，而Agent則具備了觀察與行動的閉環能力。正如 Nenad Tomašev 提到的：

“智能體與單純的語言模型之間的主要概念區別在於：智能體觀察世界的狀態，並在其所處的環境中執行操作。而語言模型只是對提示或查詢給出延續性的回覆。”

這意味著，大語言模型關注的是生成下一段文字（next token），而Agent關注的是執行下一步行動（next action）。對於語言模型來說，完成一次回答意味著任務結束；對於Agent來說，一次回答只是整個任務流程中的一個環節，它需要不斷觀察環境、制定計畫、執行操作，並根據執行結果繼續推進，直到目標完成。

Nenad Tomašev 強調，目前絕大多數Agent底層依然運行著大語言模型，真正發生變化的是模型外增加了一層執行框架（harness）。這個“外殼”賦予了 AI 自主性，使其能夠連鎖呼叫 Gmail、日曆或程式碼編輯器。它讓 AI 從一個被動的諮詢者，變成了能夠獨立完成多步任務的決策者。“真正負責制定行動方案的仍然是語言模型，只是在外面增加了一層執行框架，負責把模型提出的行動真正執行出來。”

Agent改變的是人與 AI 的協作方式。Nenad Tomašev 提到，今天大多數智能體能夠完成的事情，人類其實也可以借助大語言模型完成，只是整個過程需要使用者不斷髮出新的指令，一步一步引導模型完成所有流程。“智能體把這一整套流程自動化了。它減少了你的工作量，同時賦予語言模型，也就是智能體，更大的自主權去完成整個任務。”

因此，使用者的角色也在發生變化。過去，人們需要持續充當 AI 的操作者，每完成一步都要重新輸入指令；隨著智能體的發展，使用者更多承擔目標設定者和決策者的角色。正如 Nenad 所說：“你的角色逐漸變成了決策者。你負責稽核和批准。批准之後，智能體就會開始執行各種任務。”

為什麼要建構Agent？

當越來越多企業開始投入Agent，真正值得思考的問題已經不再是"Agent能做什麼"，而是"為什麼我們需要Agent"。

對於這個問題，Nenad Tomašev 給出的答案並不侷限於提升辦公效率或自動化工作流程。在他看來，建構智能體最終指向的是一個更長期的目標——推動科學進步，改善醫療水平，提高整個人類的福祉。

他坦言，這個回答聽起來十分宏大，與開發Agent之間的聯絡並不直觀。行業內也一直存在一種觀點，認為 AI 不應該擁有過高的自主性。但 Nenad認為，如果能夠建立安全可靠的執行框架，讓Agent承擔越來越多複雜工作，那麼整個社會的生產效率都會提升。“如果我們能夠建構安全可靠的執行框架，讓智能體能夠自主完成複雜任務，那麼整個社會的發展速度都會加快。因為在同樣的人力投入下，我們能夠完成更多事情。”

這種價值已經開始在軟體開發中得到驗證。目前，整個 AI 行業投入最多資源的方向，並不是聊天機器人，而是Coding Agents。原因在於，大量正式的工作流程本質上都可以抽象為軟體和程式碼，因此程式設計成為智能體最容易創造實際價值的場景。

Agent在專業領域中的探索

Nenad認為，智能體真正能夠釋放巨大價值的領域，並不僅僅是軟體開發，而是科學研究。越來越多科學家已經開始將大語言模型作為研究夥伴，用於討論研究思路、整理文獻、完成數學推導。但在他看來，這只是AI參與科研的起點。“科學研究並不僅僅是提出幾個好想法，然後在模型有限的上下文窗口裡推理幾分鐘。”如果希望真正實現科研自動化，智能體還需要具備持續規劃、執行實驗、分析結果並不斷迭代的能力。

目前，一個正在快速發展的方向就是自主研究實驗室（Autonomous Research Laboratories）。在這樣的實驗室中，智能體不僅負責提出假設，還能夠自主制定實驗計畫、安排實驗流程、分析實驗資料，並根據結果設計下一輪實驗，從而形成完整的科研閉環（Closed Loop）。

從軟體開發到科學研究，Agent的發展方向始終圍繞同一個目標：將 AI 從回答問題的工具，逐漸發展為能夠持續完成複雜工作的執行系統。當越來越多重複性工作和標準化流程交由Agent承擔，人類將投入更多精力進行創造、判斷和探索，而這也是 Nenad 所期待的智能體真正能夠帶來的社會價值。

為什麼智能體直到今天才真正成熟？

Hannah Fry：

你剛才提到，其實智能體這個概念已經存在很多年了。為什麼直到最近，人們才真正開始使用它們？

Nenad Tomašev：

其實，歷史上已經部署過一些我們今天也會稱為智能體的系統。例如，用於最佳化資料中心運行效率的系統。只是它們能力非常有限。最大的區別在於，它們沒有語言能力，人類無法與它們溝通。

這些系統通常只是針對某一個具體任務訓練出來。它們擅長完成那個任務。除此之外，沒有任何互動能力。從這個意義上說，它們其實更像傳統軟體。甚至很多自動交易系統、量化投資演算法，也可以算作一種智能體。只是它們一直都在後台獨立運行。

如今最大的不同在於：今天的智能體建立在語言模型之上。因此，我們終於能夠與它們交流。能夠向它們學習。能夠影響它們。能夠不斷調整它們的行為。這也是為什麼現在普通人第一次開始真正頻繁接觸智能體。

02. Agent自動化：為什麼我們不能完全“放手”

Hannah Fry：

可是，我們距離真正意義上的 AI 助手還有距離。就是那種你交代一句，它就把所有事情全部辦完的智能體。為什麼還沒有廣泛落地？

Nenad Tomašev：

原因在於，我們現在需要把注意力，從單純提升模型能力，轉向如何管理這些模型。過去幾年，大量研究都集中在基礎模型本身。當然，它們依然還有很大的提升空間。但如今，我們已經擁有能力相當強的模型。接下來，更重要的問題是：

如何協調（coordinate）這些智能體；

如何編排（orchestrate）它們；

如何管理（manage）它們。

當你擁有這樣一支能力很強的Agent團隊之後，人類的角色越來越像一位管理者。我們需要學會管理一個由智能體組成的組織。這意味著，人類也需要培養新的管理能力。管理智能體和管理真人團隊並不完全一樣。共同點仍然存在。最大的區別是：智能體會犯一些人類根本不會犯的錯誤。

它們畢竟不是人類智能。與此同時，它們對你的瞭解也沒有深到能夠準確猜出你所有真實意圖。因此，人類依然必須參與整個過程。所以，我們真正需要提升的是對智能體工作流的編排能力

智能體執行任務，本質上是一連串決策和行動的組合。每一次推理、每一次工具呼叫、每一個執行動作都存在一定失敗機率，而隨著任務不斷延長，這些誤差會持續累積。因此，一個看似微小的錯誤，也可能沿著整個任務鏈不斷放大，最終影響最終結果。而編排（orchestrate）的價值正在於此。

03. 警惕“認知單核化”與智能體陷阱

隨著智能體的大規模部署，我們面臨著前所未有的系統性安全威脅。

首先是**認知單核化 (Cognitive Monoculture)**。當前 AI 領域由少數幾個頂級模型主導。如果數以百萬計的智能體基於相同的底層邏輯和訓練資料，它們的決策失效將表現出高度的“相關性”。當這種“群體思維”發生共振，金融市場或基礎設施可能會遭遇類似“閃崩”的連鎖反應。

其次是**智能體陷阱 (Agentic Traps)**。網路環境正變得日益險峻，惡意第三方正利用“動態遮蔽”（Dynamic Cloaking）技術精準獵殺智能體。這種攻擊之所以奏效，是因為人類是通過像素（視覺呈現）觀察網頁，而智能體則是直接消費網頁的原始格式和 Token。攻擊者可以為智能體定製一套隱藏的指令流，誘導其偏離目標，甚至劫持其權限。面對這種隱秘的威脅，我們必須建構“深度防禦”策略，在模型層、外殼層和權限控制層建立多重防火牆。

Hannah Fry：

我還想聊聊這個問題中的網路安全部分。隨著越來越多的智能體開始在網際網路上自主行動、彼此互動，必然會有人試圖利用智能體的漏洞。能介紹一下所謂的“智能體陷阱（agentic traps）”嗎？

Nenad Tomašev：

這是一個既令人擔憂又很有意思的話題。我認為，這也是為什麼大規模部署智能體系統如此困難的主要原因之一。

所謂智能體陷阱，是我們已經研究了很長時間的問題。它有很多不同的形式，但核心都在於：智能體是在某個環境中運行的，而對於網際網路智能體來說，這個環境就是整個 Web。

如果這個環境本身已經被污染、佈置了陷阱，那麼智能體在瀏覽網頁、執行任務時就可能誤入其中。惡意攻擊者，或者由攻擊者部署的惡意智能體，都可以提前佈置這些陷阱，從而最終攻陷整個系統。

事實上，我認為我們已經來到這樣一個階段：

今天網際網路上，大部分內容已經由智能體生成，也越來越多地由智能體消費。智能體對 Web 的使用量，很可能已經第一次超過了人類。

隨著智能體開始擁有瀏覽網頁、呼叫工具和自主執行任務的能力，一個新的安全問題也隨之出現：當智能體直接與網際網路互動時，它所面對的網路環境已經不再只是為人類設計的網際網路，而是一個同時存在人類與智能體的開放環境。

主持人 Hannah Fry 提出了一個值得關注的判斷。她認為，未來網際網路或許會逐漸演變成兩個平行的世界：“一個是面向人類的 Web；另一個是面向智能體的 Web。”在這個新的網際網路中，網頁可能會針對智能體動態調整內容，甚至主動偽裝、誤導或操縱智能體的行為。而傳統依賴吸引人類注意力的廣告模式也可能隨之改變，因為“廣告本來就是賣給人類眼球的，而不是賣給智能體。”

這意味著，智能體未來面臨的安全挑戰已經不僅是模型是否會產生幻覺（Hallucination），還包括如何在開放網際網路中識別可信資訊、抵禦惡意誘導、驗證工具和資料來源，以及避免被攻擊者操縱整個任務流程。當智能體逐漸成為網際網路中的活躍參與者，網路安全與 AI 安全也將越來越緊密地融合在一起。

Hannah Fry：

聽起來，你的意思是：當我們設計安全機制（guardrails）的時候，需要關注整個外部環境，而不僅僅是智能體本身。

Nenad Tomašev：

我認為，兩方面都必須考慮。我們在其他研究裡經常討論一個概念，叫做 Defense in Depth（縱深防禦）。這同樣不是一個新概念。問題過於複雜，因此不存在某一種萬能方案能夠解決所有安全問題。真正有效的方法，是一層又一層地疊加各種防護措施。防禦措施越多，最終形成的安全網就越嚴密，真正能夠漏過去的攻擊也就越少。

對於智能體來說，可以包括：

對網頁內容進行驗證和安全測試；
為所訪問的資源建立可靠的信任機制；
在智能體自身增加安全防護；
在底層基礎模型層面加入安全緩解機制；
保留人工干預能力，在異常發生時能夠及時介入；
嚴格限制智能體擁有的權限。

這樣，即使智能體真的因為某次互動而發生越獄，它能夠造成的損害也會被限制在較小範圍內。只有把所有這些安全措施組合在一起，才能達到人們能夠接受的安全水平。

04. 讓AI替你談判與花錢：多智能體協作催生的“智能體經濟”

當複雜的任務超出單一模型的能力時，智能體需要學會委派（Delegation）給其他專業智能體。當數以百萬計的智能體開始互相互動時，將催生一種全新的經濟形態。

以搶購熱門演唱會門票為例，未來的購票不再是人類拼手速，而是大量代表個人意願的智能體在後台進行複雜的博弈與拍賣。系統設計者需要制定公平的協議，讓智能體根據使用者的預算、時間限制和偏好來最佳化地分配資源。

Hannah Fry：

再詳細介紹一下你提出的“智能體經濟（Agentic Economy）”吧。它具體會如何運作？

Nenad Tomašev：

以普通使用者的日常使用場景為例。未來，每個人都可能擁有一個屬於自己的 AI 助手，它擁有關於你的長期記憶，瞭解你的偏好、需求和各種習慣。當然這取決於你願意賦予它多大的自主權。

如果授權足夠，它甚至可以代表你去協商一些事情。你可以為它設定預算。於是，就會出現一個由這些 AI 助手彼此協商、談判、交易組成的局部經濟系統。

05. 告別昂貴的超級模型：專業智能體結構下的“智能體分工社會”

Hannah Fry：

人類社會本身就是很多個體合作後，創造出遠遠超過個人能力的成果。智能體社會是不是也會如此？

Nenad Tomašev：

這正是多智能體系統（Multi-Agent Systems）存在的意義。前面提到過平行計算。如果所有智能體能力都差不多，只是平行完成相同工作，那麼相比單個智能體，只是速度快一些。

真正有趣的是：不同智能體擁有不同能力。這也是今天還沒有充分討論的一點。

智能體經濟中，不僅會有通用智能體（Generalists）。還會有大量專業智能體（Specialists）。當然，目前整個行業都希望建構越來越通用的智能體。

AGI 中的 "G"，本身就代表 General（通用）。

但從經濟學角度來看，我個人認為，這並不會成為最終形態。舉一個簡單例子。我非常喜歡國際象棋，甚至可以說有點沉迷。我也參與過相關 AI 研究。Gemini 會下棋。其他模型也會。相比幾年前，它們已經進步很多。但真正下棋時，你仍然會選擇專業棋類引擎（Chess Engine）。因為它速度更快，更準確，成本更低。它只做一件事情，而且做到極致。需要的參數更少。整個模型全部圍繞這一項能力最佳化。

很多人談論 AGI 時，一個誤區就是：大家想像的是一種擁有全人類全部能力的超級智能。

但 AGI 原本真正想表達的是達到普通人類的智能水平。現實中，沒有任何一個人能夠掌握所有技能。我自己也有很多不會的事情。比如我一直希望自己會演奏某些樂器。但人的大腦容量有限。時間也有限。因此，與其擁有一個巨大、昂貴、速度緩慢的超級模型。未來更合理的方式，很可能是擁有一個由大量專業智能體組成的社會。每個智能體都專精某項技能。它們依然可以不斷擴展能力。但重點在於分工。這些專業智能體經過認證，只負責自己的專業領域。運行成本更低且可靠性更高。

從經濟角度來看，沒有理由不採用這種模式。未來很可能會出現一種結構：上層存在一個較為通用的智能體。它像整個智能體經濟的神經網路和連接層，負責理解整體任務和協調所有資源。而真正執行具體工作的，則是大量專業模型。

Hannah Fry：

你的意思其實更接近於一種分佈式智能（Distributed Intelligence），而不是傳統意義上的 AGI。就像人類社會一樣。如果未來真的演化成這種形態，那麼安全和對齊（Alignment）的思路是否也需要改變？

Nenad Tomašev：

完全正確。過去，對齊主要針對單個模型。我們觀察一個模型的行為，再讓它符合我們認為合理、安全、符合價值觀的行為。但如果未來有一萬個智能體同時互動，情況就完全不同了。

今天，Agent A 可能與 Agent B 協作。明天，又換成 Agent C。C 再把部分任務交給 Agent D。D 又可能在某個步驟諮詢人類。整個系統不斷動態變化。因此，真正需要思考的是：如何協調整個智能體社會。在人類社會裡，一個成熟的方法就是經濟激勵。

結語

AI 正從簡單的對話模型轉向能夠自主執行複雜任務的實體。與傳統語言模型不同，AI 智能體可以觀察世界狀態並採取行動，通過自動化多步驟流程來減輕人類負擔。

在 Google DeepMind 看來，未來 AI 的終點未必是一個無所不能的超級模型，而更可能是一個由大量專業智能體共同組成的智能體社會。通用智能體負責理解需求、拆解任務，專業智能體負責執行具體工作，它們通過統一的協調機制完成協作。這種架構更接近現實世界的人類社會，也更符合技術和經濟效率的發展方向。 (梯度資本)

科技