過去兩年,大模型的競爭主要圍繞模型能力展開,而隨著 AI Agent 快速進入開發、辦公和科研等場景,行業關注點正在發生變化:如何讓Agent安全、自主、可靠地完成真實世界中的複雜任務,以及當數以百萬計的Agent開始在網際網路上相互協作、談判和交易時,人類社會將迎來怎樣的重塑?
在 Google DeepMind 最新一期播客中,研究科學家 Nenad Tomasev 圍繞 AI Agent 的未來展開了討論,內容涵蓋 Agent 的定義、科研應用、智能體安全(Agentic Security)、智能體經濟(Agentic Economy)、認知單一化(Cognitive Monoculture)以及分佈式智能(Distributed Intelligence)等多個話題,並提出一個值得關注的觀點:未來 AI 的演進方向,未必是單一的超級 AGI,而更可能是由大量專業智能體協作組成的智能體社會。
01. 從生成文字到執行行動,Agent相較於模型的重要意義
要洞察這場變革,首先要理解 LLM 與Agent之間的本質區別。雖然Agent在底層依然依賴 LLM 作為“大腦”來制定計畫,但其核心進化在於增加了一個能夠與現實世界互動的“外殼”(Harness)。
大語言模型本質上是機率性的回覆機器,而Agent則具備了觀察與行動的閉環能力。正如 Nenad Tomašev 提到的:
“智能體與單純的語言模型之間的主要概念區別在於:智能體觀察世界的狀態,並在其所處的環境中執行操作。而語言模型只是對提示或查詢給出延續性的回覆。”
這意味著,大語言模型關注的是生成下一段文字(next token),而Agent關注的是執行下一步行動(next action)。對於語言模型來說,完成一次回答意味著任務結束;對於Agent來說,一次回答只是整個任務流程中的一個環節,它需要不斷觀察環境、制定計畫、執行操作,並根據執行結果繼續推進,直到目標完成。
Nenad Tomašev 強調,目前絕大多數Agent底層依然運行著大語言模型,真正發生變化的是模型外增加了一層執行框架(harness)。這個“外殼”賦予了 AI 自主性,使其能夠連鎖呼叫 Gmail、日曆或程式碼編輯器。它讓 AI 從一個被動的諮詢者,變成了能夠獨立完成多步任務的決策者。“真正負責制定行動方案的仍然是語言模型,只是在外面增加了一層執行框架,負責把模型提出的行動真正執行出來。”
Agent改變的是人與 AI 的協作方式。Nenad Tomašev 提到,今天大多數智能體能夠完成的事情,人類其實也可以借助大語言模型完成,只是整個過程需要使用者不斷髮出新的指令,一步一步引導模型完成所有流程。“智能體把這一整套流程自動化了。它減少了你的工作量,同時賦予語言模型,也就是智能體,更大的自主權去完成整個任務。”
因此,使用者的角色也在發生變化。過去,人們需要持續充當 AI 的操作者,每完成一步都要重新輸入指令;隨著智能體的發展,使用者更多承擔目標設定者和決策者的角色。正如 Nenad 所說:“你的角色逐漸變成了決策者。你負責稽核和批准。批准之後,智能體就會開始執行各種任務。”
- 為什麼要建構Agent?
當越來越多企業開始投入Agent,真正值得思考的問題已經不再是"Agent能做什麼",而是"為什麼我們需要Agent"。
對於這個問題,Nenad Tomašev 給出的答案並不侷限於提升辦公效率或自動化工作流程。在他看來,建構智能體最終指向的是一個更長期的目標——推動科學進步,改善醫療水平,提高整個人類的福祉。
他坦言,這個回答聽起來十分宏大,與開發Agent之間的聯絡並不直觀。行業內也一直存在一種觀點,認為 AI 不應該擁有過高的自主性。但 Nenad認為,如果能夠建立安全可靠的執行框架,讓Agent承擔越來越多複雜工作,那麼整個社會的生產效率都會提升。“如果我們能夠建構安全可靠的執行框架,讓智能體能夠自主完成複雜任務,那麼整個社會的發展速度都會加快。因為在同樣的人力投入下,我們能夠完成更多事情。”
這種價值已經開始在軟體開發中得到驗證。目前,整個 AI 行業投入最多資源的方向,並不是聊天機器人,而是Coding Agents。原因在於,大量正式的工作流程本質上都可以抽象為軟體和程式碼,因此程式設計成為智能體最容易創造實際價值的場景。
- Agent在專業領域中的探索
Nenad認為,智能體真正能夠釋放巨大價值的領域,並不僅僅是軟體開發,而是科學研究。越來越多科學家已經開始將大語言模型作為研究夥伴,用於討論研究思路、整理文獻、完成數學推導。但在他看來,這只是AI參與科研的起點。“科學研究並不僅僅是提出幾個好想法,然後在模型有限的上下文窗口裡推理幾分鐘。”如果希望真正實現科研自動化,智能體還需要具備持續規劃、執行實驗、分析結果並不斷迭代的能力。
目前,一個正在快速發展的方向就是自主研究實驗室(Autonomous Research Laboratories)。在這樣的實驗室中,智能體不僅負責提出假設,還能夠自主制定實驗計畫、安排實驗流程、分析實驗資料,並根據結果設計下一輪實驗,從而形成完整的科研閉環(Closed Loop)。
從軟體開發到科學研究,Agent的發展方向始終圍繞同一個目標:將 AI 從回答問題的工具,逐漸發展為能夠持續完成複雜工作的執行系統。當越來越多重複性工作和標準化流程交由Agent承擔,人類將投入更多精力進行創造、判斷和探索,而這也是 Nenad 所期待的智能體真正能夠帶來的社會價值。
- 為什麼智能體直到今天才真正成熟?
Hannah Fry:
你剛才提到,其實智能體這個概念已經存在很多年了。為什麼直到最近,人們才真正開始使用它們?
Nenad Tomašev:
其實,歷史上已經部署過一些我們今天也會稱為智能體的系統。例如,用於最佳化資料中心運行效率的系統。只是它們能力非常有限。最大的區別在於,它們沒有語言能力,人類無法與它們溝通。
這些系統通常只是針對某一個具體任務訓練出來。它們擅長完成那個任務。除此之外,沒有任何互動能力。從這個意義上說,它們其實更像傳統軟體。甚至很多自動交易系統、量化投資演算法,也可以算作一種智能體。只是它們一直都在後台獨立運行。
如今最大的不同在於:今天的智能體建立在語言模型之上。因此,我們終於能夠與它們交流。能夠向它們學習。能夠影響它們。能夠不斷調整它們的行為。這也是為什麼現在普通人第一次開始真正頻繁接觸智能體。
02. Agent自動化:為什麼我們不能完全“放手”
Hannah Fry:
可是,我們距離真正意義上的 AI 助手還有距離。就是那種你交代一句,它就把所有事情全部辦完的智能體。為什麼還沒有廣泛落地?
Nenad Tomašev:
原因在於,我們現在需要把注意力,從單純提升模型能力,轉向如何管理這些模型。過去幾年,大量研究都集中在基礎模型本身。當然,它們依然還有很大的提升空間。但如今,我們已經擁有能力相當強的模型。接下來,更重要的問題是:
如何協調(coordinate)這些智能體;
如何編排(orchestrate)它們;
如何管理(manage)它們。
當你擁有這樣一支能力很強的Agent團隊之後,人類的角色越來越像一位管理者。我們需要學會管理一個由智能體組成的組織。這意味著,人類也需要培養新的管理能力。管理智能體和管理真人團隊並不完全一樣。共同點仍然存在。最大的區別是:智能體會犯一些人類根本不會犯的錯誤。
它們畢竟不是人類智能。與此同時,它們對你的瞭解也沒有深到能夠準確猜出你所有真實意圖。因此,人類依然必須參與整個過程。所以,我們真正需要提升的是對智能體工作流的編排能力
智能體執行任務,本質上是一連串決策和行動的組合。每一次推理、每一次工具呼叫、每一個執行動作都存在一定失敗機率,而隨著任務不斷延長,這些誤差會持續累積。因此,一個看似微小的錯誤,也可能沿著整個任務鏈不斷放大,最終影響最終結果。而編排(orchestrate)的價值正在於此。
03. 警惕“認知單核化”與智能體陷阱
隨著智能體的大規模部署,我們面臨著前所未有的系統性安全威脅。
首先是**認知單核化 (Cognitive Monoculture)**。當前 AI 領域由少數幾個頂級模型主導。如果數以百萬計的智能體基於相同的底層邏輯和訓練資料,它們的決策失效將表現出高度的“相關性”。當這種“群體思維”發生共振,金融市場或基礎設施可能會遭遇類似“閃崩”的連鎖反應。
其次是**智能體陷阱 (Agentic Traps)**。網路環境正變得日益險峻,惡意第三方正利用“動態遮蔽”(Dynamic Cloaking)技術精準獵殺智能體。這種攻擊之所以奏效,是因為人類是通過像素(視覺呈現)觀察網頁,而智能體則是直接消費網頁的原始格式和 Token。攻擊者可以為智能體定製一套隱藏的指令流,誘導其偏離目標,甚至劫持其權限。面對這種隱秘的威脅,我們必須建構“深度防禦”策略,在模型層、外殼層和權限控制層建立多重防火牆。
Hannah Fry:
我還想聊聊這個問題中的網路安全部分。隨著越來越多的智能體開始在網際網路上自主行動、彼此互動,必然會有人試圖利用智能體的漏洞。能介紹一下所謂的“智能體陷阱(agentic traps)”嗎?
Nenad Tomašev:
這是一個既令人擔憂又很有意思的話題。我認為,這也是為什麼大規模部署智能體系統如此困難的主要原因之一。
所謂智能體陷阱,是我們已經研究了很長時間的問題。它有很多不同的形式,但核心都在於:智能體是在某個環境中運行的,而對於網際網路智能體來說,這個環境就是整個 Web。
如果這個環境本身已經被污染、佈置了陷阱,那麼智能體在瀏覽網頁、執行任務時就可能誤入其中。惡意攻擊者,或者由攻擊者部署的惡意智能體,都可以提前佈置這些陷阱,從而最終攻陷整個系統。
事實上,我認為我們已經來到這樣一個階段:
今天網際網路上,大部分內容已經由智能體生成,也越來越多地由智能體消費。智能體對 Web 的使用量,很可能已經第一次超過了人類。
隨著智能體開始擁有瀏覽網頁、呼叫工具和自主執行任務的能力,一個新的安全問題也隨之出現:當智能體直接與網際網路互動時,它所面對的網路環境已經不再只是為人類設計的網際網路,而是一個同時存在人類與智能體的開放環境。
主持人 Hannah Fry 提出了一個值得關注的判斷。她認為,未來網際網路或許會逐漸演變成兩個平行的世界:“一個是面向人類的 Web;另一個是面向智能體的 Web。”在這個新的網際網路中,網頁可能會針對智能體動態調整內容,甚至主動偽裝、誤導或操縱智能體的行為。而傳統依賴吸引人類注意力的廣告模式也可能隨之改變,因為“廣告本來就是賣給人類眼球的,而不是賣給智能體。”
這意味著,智能體未來面臨的安全挑戰已經不僅是模型是否會產生幻覺(Hallucination),還包括如何在開放網際網路中識別可信資訊、抵禦惡意誘導、驗證工具和資料來源,以及避免被攻擊者操縱整個任務流程。當智能體逐漸成為網際網路中的活躍參與者,網路安全與 AI 安全也將越來越緊密地融合在一起。
Hannah Fry:
聽起來,你的意思是:當我們設計安全機制(guardrails)的時候,需要關注整個外部環境,而不僅僅是智能體本身。
Nenad Tomašev:
我認為,兩方面都必須考慮。我們在其他研究裡經常討論一個概念,叫做 Defense in Depth(縱深防禦)。這同樣不是一個新概念。問題過於複雜,因此不存在某一種萬能方案能夠解決所有安全問題。真正有效的方法,是一層又一層地疊加各種防護措施。防禦措施越多,最終形成的安全網就越嚴密,真正能夠漏過去的攻擊也就越少。
對於智能體來說,可以包括:
- 對網頁內容進行驗證和安全測試;
- 為所訪問的資源建立可靠的信任機制;
- 在智能體自身增加安全防護;
- 在底層基礎模型層面加入安全緩解機制;
- 保留人工干預能力,在異常發生時能夠及時介入;
- 嚴格限制智能體擁有的權限。
這樣,即使智能體真的因為某次互動而發生越獄,它能夠造成的損害也會被限制在較小範圍內。只有把所有這些安全措施組合在一起,才能達到人們能夠接受的安全水平。
04. 讓AI替你談判與花錢:多智能體協作催生的“智能體經濟”
當複雜的任務超出單一模型的能力時,智能體需要學會委派(Delegation)給其他專業智能體。當數以百萬計的智能體開始互相互動時,將催生一種全新的經濟形態。
以搶購熱門演唱會門票為例,未來的購票不再是人類拼手速,而是大量代表個人意願的智能體在後台進行複雜的博弈與拍賣。系統設計者需要制定公平的協議,讓智能體根據使用者的預算、時間限制和偏好來最佳化地分配資源。
Hannah Fry:
再詳細介紹一下你提出的“智能體經濟(Agentic Economy)”吧。它具體會如何運作?
Nenad Tomašev:
以普通使用者的日常使用場景為例。未來,每個人都可能擁有一個屬於自己的 AI 助手,它擁有關於你的長期記憶,瞭解你的偏好、需求和各種習慣。當然這取決於你願意賦予它多大的自主權。
如果授權足夠,它甚至可以代表你去協商一些事情。你可以為它設定預算。於是,就會出現一個由這些 AI 助手彼此協商、談判、交易組成的局部經濟系統。
05. 告別昂貴的超級模型:專業智能體結構下的“智能體分工社會”
Hannah Fry:
人類社會本身就是很多個體合作後,創造出遠遠超過個人能力的成果。智能體社會是不是也會如此?
Nenad Tomašev:
這正是多智能體系統(Multi-Agent Systems)存在的意義。前面提到過平行計算。如果所有智能體能力都差不多,只是平行完成相同工作,那麼相比單個智能體,只是速度快一些。
真正有趣的是:不同智能體擁有不同能力。這也是今天還沒有充分討論的一點。
智能體經濟中,不僅會有通用智能體(Generalists)。還會有大量專業智能體(Specialists)。當然,目前整個行業都希望建構越來越通用的智能體。
AGI 中的 "G",本身就代表 General(通用)。
但從經濟學角度來看,我個人認為,這並不會成為最終形態。舉一個簡單例子。我非常喜歡國際象棋,甚至可以說有點沉迷。我也參與過相關 AI 研究。Gemini 會下棋。其他模型也會。相比幾年前,它們已經進步很多。但真正下棋時,你仍然會選擇專業棋類引擎(Chess Engine)。因為它速度更快,更準確,成本更低。它只做一件事情,而且做到極致。需要的參數更少。整個模型全部圍繞這一項能力最佳化。
很多人談論 AGI 時,一個誤區就是:大家想像的是一種擁有全人類全部能力的超級智能。
但 AGI 原本真正想表達的是達到普通人類的智能水平。現實中,沒有任何一個人能夠掌握所有技能。我自己也有很多不會的事情。比如我一直希望自己會演奏某些樂器。但人的大腦容量有限。時間也有限。因此,與其擁有一個巨大、昂貴、速度緩慢的超級模型。未來更合理的方式,很可能是擁有一個由大量專業智能體組成的社會。每個智能體都專精某項技能。它們依然可以不斷擴展能力。但重點在於分工。這些專業智能體經過認證,只負責自己的專業領域。運行成本更低且可靠性更高。
從經濟角度來看,沒有理由不採用這種模式。未來很可能會出現一種結構:上層存在一個較為通用的智能體。它像整個智能體經濟的神經網路和連接層,負責理解整體任務和協調所有資源。而真正執行具體工作的,則是大量專業模型。
Hannah Fry:
你的意思其實更接近於一種分佈式智能(Distributed Intelligence),而不是傳統意義上的 AGI。就像人類社會一樣。如果未來真的演化成這種形態,那麼安全和對齊(Alignment)的思路是否也需要改變?
Nenad Tomašev:
完全正確。過去,對齊主要針對單個模型。我們觀察一個模型的行為,再讓它符合我們認為合理、安全、符合價值觀的行為。但如果未來有一萬個智能體同時互動,情況就完全不同了。
今天,Agent A 可能與 Agent B 協作。明天,又換成 Agent C。C 再把部分任務交給 Agent D。D 又可能在某個步驟諮詢人類。整個系統不斷動態變化。因此,真正需要思考的是:如何協調整個智能體社會。在人類社會裡,一個成熟的方法就是經濟激勵。
結語
AI 正從簡單的對話模型轉向能夠自主執行複雜任務的實體。與傳統語言模型不同,AI 智能體可以觀察世界狀態並採取行動,通過自動化多步驟流程來減輕人類負擔。
在 Google DeepMind 看來,未來 AI 的終點未必是一個無所不能的超級模型,而更可能是一個由大量專業智能體共同組成的智能體社會。通用智能體負責理解需求、拆解任務,專業智能體負責執行具體工作,它們通過統一的協調機制完成協作。這種架構更接近現實世界的人類社會,也更符合技術和經濟效率的發展方向。 (梯度資本)
