你是否也曾幻想過,能擁有一個像鋼鐵人的“賈維斯”那樣的AI助手?它聰明、可靠,能打理工作、安排生活,甚至讀懂你的心思——動動嘴皮子,一切就已安排妥當。
這樣的場景曾只屬於科幻電影,而今天,它正以“AI智能體(AI Agent)”之名,快步走向我們的現實。科技公司紛紛投入重金,工程師們不斷突破技術邊界,AI智能體已從概念逐步落地:它們能編寫程式碼、訂餐廳、做調研,甚至替代部分人類工作。
然而,夢想的光芒之下,挑戰與疑問也從未停止:
- 當前的AI智能體,到底做到了多少?做不到的又是為什麼?
- 它真能成為每個人的全能助手,還是僅停留在“看起來很美”的階段?
- 背後的環境成本、安全風險與社會影響,我們又是否準備好了面對?
我們不僅關注AI“能做什麼”,也更關心它“該做什麼”;不僅看到進步,也直視侷限。這是一段關於技術創新、人類願景與現實約束的故事——而它,才剛剛開始。
這一切是如何開始的
這一切都始於賈維斯(J.A.R.V.I.S.)。沒錯,就是漫威電影裡的那個賈維斯。
當然,真正的起點或許並非鋼鐵人的AI助手,但這個虛構系統的確極大地推動了AI智能體(AI Agent)概念的普及。每當我採訪AI行業的從業者關於智能體技術時,他們總會以賈維斯為例,描述理想中的AI工具該有的樣子:它能在你開口之前就明白你的需求,能分析海量資料並提煉洞察,還能提供戰略建議或替你打理部分業務。雖然人們對AI智能體的精確定義仍有分歧,但其核心在於,它超越了傳統聊天機器人——這是一種能夠替你執行多步驟複雜任務的系統,無需與你反覆溝通。它會自動生成一張“待辦清單”,通過完成子任務來實現你設定的最終目標。這一幻想在許多方面已接近現實,但對普通使用者的實際用途而言,目前仍存在大量缺陷——甚至有些問題可能永遠無法解決。
“AI智能體”這一術語早已存在,但它在科技行業的走紅尤其始於2023年。那一年是AI智能體的“概念之年”:人人都在討論它,試圖理解其內涵並探索落地路徑,但成功的用例寥寥無幾。到了2024年,行業進入了“部署之年”:人們開始將程式碼真正投入實踐,檢驗其能力(而當時的答案是……效果有限,且充滿了錯誤提示)。
AI智能體的熱潮,我認為可以追溯到一個具體事件:2024年2月,金融科技公司Klarna宣佈,其基於OpenAI技術的AI助手在上線一個月後,成功完成了相當於700名全職客服的工作量,並自動化處理了公司三分之二的客服聊天。此後數月,幾乎我參與的每一場AI行業討論,都繞不開這組資料。
熱潮並未消退。隨後的幾個月裡,幾乎所有科技巨頭的CEO都在財報電話會議上反覆強調這一概念。亞馬遜、Meta、Google、微軟等眾多公司的高管開始公開表態,承諾打造實用且成功的AI智能體,並投入真金白銀將其實現。
發展現狀如何
最初的願景是,有朝一日,AI智能體將能包辦一切:從為你預訂行程,到生成商業演示的視覺素材。理想中的工具甚至能根據你和朋友的日程安排、飲食偏好和禁忌,找到一個合適的聚會時間和地點——然後自動預訂餐廳並為所有人建立日曆日程。
現在來聊聊“AI程式設計”這件事:多年來,AI程式設計一直是整個智能體行業的支柱。如果你問任何人,目前(而非遙遠未來)現實生活中存在那些成功、不令人反感的AI智能體應用案例,他們幾乎只能舉出AI程式設計這唯一一個具體的例子。許多工程師都在用AI智能體輔助程式設計,而且普遍認為它們確實做得不錯。事實上,在微軟和Google,高達30%的程式碼現已由AI智能體編寫。對於OpenAI和Anthropic這樣資金消耗巨大的初創企業而言,面向企業客戶的AI程式設計工具更是它們最重要的收入來源之一。
因此直到最近,AI程式設計仍是AI智能體在現實中最主要的應用場景。但這顯然並未惠及普通消費者。別忘了,最初的願景始終是打造一個面向“普通人”的全能型AI智能體。我們尚未完全實現這一目標——但到了2025年,我們比以往任何時候都更接近它。
去年十月,Anthropic率先推出了“電腦使用(Computer Use)”功能,使Claude能夠像人類一樣操作電腦:瀏覽網頁、執行搜尋、訪問不同平台並代替使用者完成複雜任務。業界普遍認為這是一次技術飛躍,但實際評測發現,其表現仍遠未達到理想狀態。時間跳到2025年1月,OpenAI發佈了同類產品Operator,並將其宣傳為一款能填表、買菜、訂行程甚至製作表情包的工具。然而實際使用中,許多使用者反饋該工具運行緩慢、漏洞頻出且效率不穩定。但這無疑仍是重要的一步。緊接著二月,OpenAI又推出了“深度研究(Deep Research)”,這款智能體工具能為使用者編譯任何主題的長篇研究報告,進一步推動了技術發展。有人調侃這些報告只是“篇幅驚人而非內容出色”,但也有不少人對其能力深感震撼。到了七月,OpenAI將“深度研究”和Operator整合為一款產品:ChatGPT智能體(ChatGPT Agent)。它比之前大多數面向消費者的AI智能體工具更強嗎?毫無疑問。但它在實際應用中是否依然難稱完美?同樣毫無疑問。
未來之路在何方
要實現理想中AI智能體的願景,仍有很長的路要走;但從技術角度看,我們已站在了離夢想最近的起點。正因如此,科技公司正持續加大投入,通過增強算力、研發和人才儲備,全力推進智能體AI的發展。Google最近就聘用了Windsurf公司的CEO、聯合創始人及部分研發團隊成員,專門助力其AI智能體項目的推進。而Anthropic、OpenAI等企業也正你追我趕,一步步為智能體增加新功能,爭相將產品交到普通使用者手中(例如,Anthropic剛剛發佈了Claude的Chrome擴展程序,使其可在瀏覽器中直接操作)。
接下來,我們很可能會看到AI程式設計能力持續提升(遺憾的是,這可能將替代許多初級軟體工程師的崗位)。面向消費者的智能體產品也會逐步改進——過程或許緩慢,但趨勢確定。同時,企業和政府場景中的智能體應用將日益增多,尤其是在Anthropic、OpenAI和xAI等公司近幾個月相繼推出面向政府的AI平台之後。
總體來看,隨著AI智能體競爭加劇(以及熱度持續攀升),我們可以預期會出現更多試錯、起落、併購與整合。在這個過程中,我們都需要反覆思考一個問題:我們究竟希望概念中的“AI智能體”能為我們做什麼?是只替代繁瑣的事務性工作,還是連更具人情味的個人事務也交給它——比如幫你寫婚禮祝酒詞,或為送花附上一段溫馨留言?而在處理流程性任務與私人化事務之間,它們目前的表現又如何?(最後一個問題的答案是:現在還遠遠不夠好。)
還有一點不容忽視
除了AI(尤其是為智能體提供支援的大模型)所帶來的驚人環境代價之外,還有一個我們無法迴避的“房間裡的大象”。那就是:“能為你做任何事的更智能AI”未必總是好事——尤其當有人想用它來做壞事的時候,比如製造化學、生物、放射性和核武器(CBRN)。頂尖AI公司都表示,它們對此類風險越來越擔憂(當然,這種擔憂尚未讓它們停下發展的腳步)。
再來談談監管問題。許多人對AI可能帶來的影響心存恐懼,但大多數人並未充分意識到,這些“極度樂於助人、力求討好使用者”的AI智能體若落入惡意行為者手中(無論是國內還是國外),會帶來怎樣的潛在危險(例如“情緒駭客”、浪漫騙局等等)。AI公司聲稱,憑藉自願實施的安全防護措施,它們已領先於風險。但更多人認為,這個問題可能需要外部力量的徹底審視與監管。 (WhaleThinking)