我已經對AI Agent智能體PTSD了


AI Agent智能體還要怎麼吹?

Manus的火爆,讓AI Agent智能體穩站熱點C位,一夜之間到處都是相關新聞評論。初期還是產品技術體驗細節的討論,暢想一下未來商業模式和資本運作,專業一點的都在分析MCP和Function Call的優缺點、未來潛力和生態發展。

不過突然討論就上升到,Manus是AI Agent的iPhone時刻,彷彿舊有網際網路甚至現在流行的GenAI大模型Chatbot都要被淘汰,人類跳進新紀元一樣。

市夢率的討論一旦開始,就開始讓人疑惑,疑惑的人開始FOMO害怕錯過,就會創造出過量資訊,然後愈發讓人無所適從。

無論是Manus、AI Agent,還是MCP、Function Call,密集的無法溯源的討論已經嚴重污染了大家每天的資訊獲取,各個管道各個群聊都在密集灌入相關資訊。

真的,這已經讓人嚴重PTSD了。

首先,要說的是,AI Agent真的不配。

從市場和行業來看,AI Agent只是當下GenAI大模型下的一種產品服務形態,完全無法獨立出來成為新的市場,其最多隻能視為GenAI的一種商業模式,承載不了那麼大的讚譽。就像APP是iPhone智慧型手機的一種服務形態,脫離智慧型手機這樣的硬體裝置談APP,有些可笑。

大部分人在聊AI Agent的時候都不清楚這到底是什麼,即便聽過一些MCP、Function Call技術,也是一頭霧水,直接將這兩個技術視為AI Agent必備生態協議。

  • 所以說,AI Agent操作在很長時間內都將會是一種專業技能。 (AI頓悟湧現時現在所有網際網路上的服務,以及使用者電腦手機作業系統級的功能介面。不過需要開發者提前進行預設,當使用者用到相關功能時,大模型才會直接呼叫。
  • MCP是Anthropic推出的專門面向大模型的伺服器協議,他能幫大模型方便簡單的接入各種伺服器的資料和功能。最主要的是他提供了key金鑰功能,這樣一來,你就可以將自有優質資料、資料處理、定製模型能力打包成伺服器,通過key金鑰來收費或者訂閱,賣給其他開發者。
  • 與此相對應的協議,還有ANP智能體網路協議,這個不需要key,開發者可以基於此開發一個完整的定製模型服務或者Agent智能體,這些服務或者智能體之間可以像智慧型手機APP一樣互相呼叫,也可以像搜尋引擎抓取一樣直接獲得服務並導流。
  • 最新的還有面向未來理想AI Agent智能體形態,打造的開發框架。最典型的要數OpenAI的Agents SDK,不僅可以呼叫ChatGPT所有能力,還可以更換接入的大模型,只要其他大模型願意做適配,就能直接接入。以OpenAI的號召力,Agents SDK有望以生態的形式實現多大模型整合。
  • 最近還有一個CAMEL AI發佈的OWL(Optimized Workforce Learning)最佳化勞動力學習框架,則是類似於Manus的多大模型集合和作業系統軟體服務整合最佳化的Agent框架。

這些鬆散的技術、協議、框架並不代表最終服務體驗,即便是呼叫OpenAI、Anthropic這樣頂尖企業大模型能力,來編寫服務流程,也無法保證!

這背後對開發團隊要求極高,仍需要大量訓練最佳化。相關的知識圖譜、向量資料庫、RAG檢索增強生成、嵌入模型的部署並不容易。

所以說,Manus的“套殼”也是有核心技術的!

其次,AI Agent還極度不成熟。

底層技術還在快速進化,Manus只是展示了一些特定場景的通用示例,在通用性上還遠達不到ChatGPT這樣的Chatbot聊天機器人或者AI搜尋服務。

在當下時間段,GenAI底層技術進展的重要程度遠大於AI Agent。

將現有GenAI大模型技術服務,面向AI Agent形態進行最佳化、便於開發者整合和開發、打造生態,是接下來的重點。不要把事情重要排序搞反了!

例如:

  • 最近OpenAI推出的能呼叫自己所有服務的Responses API和開源Agents SDK框架,就在進行這方面的努力。
  • 因為Manus而受到重視的MCP協議,很多人只關注他的易用性,但開發者更關注其可用性。業內反饋利用MCP實現的聯網搜尋、爬蟲、電腦使用computer use等功能出錯率極高,隨後才發現Manus根本就沒有MCP……
  • 實際上,MCP不重要,重要的是怎樣將GenAI大模型技術服務最佳化好然後借助MCP接入更多產品流程裡,特別是公開給其他個人或企業直接呼叫實現盈利。MCP之外還有ANP智能體網路協議,協議之外還有開發框架,OpenAI的Agents SDK和CAMEL AI的OWL最佳化勞動力學習框架,都是開放原始碼的解決方案。

這些最終還是要回到GenAI底層技術進行訓練最佳化才能解決。脫離底層技術,只討論AI Agent的產品形態,在現階段有些無聊。

再者,AI Agent並不是不可取代。

現階段,AI Agent還有一個核心目標,就是以產品的形式定製簡潔好用的特定大模型服務。此前OpenAI,曾嘗試過GPTs、結構化輸出、Code Interpreter程式碼直譯器、RAG檢索增強生成來實現相似目的,當然微調Fine Tunning、嵌入Embedding技術也有相似目的。這些技術的區別在於,開發和使用門檻的高低。

要知道GPTs剛推出時,許多人還認為GPTs會是大模型時代的APP,不出一個月,夢想破滅。

AI Agent的概念是希望能集這些技術的大成,也就是能讓開發者輕鬆採用這些底層技術,打造出更豐富體驗的產品。

這概念大而空,就是一個怎麼解釋都對,未來無論大模型發展成什麼樣,都能將自己套進去的概念。

也不要簡單的將GenAI未來應用服務視作大雜燴整合,多模型整合、多技術整合,完成整合整合的技術才是重點!

即便是Manus用極強的工程能力做出了多大模型集合服務,但業內人士看到的是,AI Agent需要MCP模型上下文協議技術,引入更多私有資料,來實現定製大模型服務。更深一步,想要使用MCP技術實現大模型定製,還要用到RAG檢索增強生成、向量資料庫技術,開發複雜度直線上升,相關技術並不成熟,屬於前沿核心技術。

最後,AI Agent能力在相當長時間內還很一般。

就像智慧型手機已經進化了近20年,我們依然不能滿意。從多點觸控定義初代手機APP,電容指紋辨識打開移動支付,隨後相機記憶體的提升帶來直播、短影片時代。每隔兩年,智慧型手機開發生態就會迎來一波大變。

對比智慧型手機發展史,GenAI相當於還在Nokia塞班時代。

現在AI Agent才剛剛能像人一樣操作電腦,在相當長時間內,還不能像人一樣工作,甚至易用程度還遠達不到智慧型手機水準,可用度、出錯率也是核心問題。更何況算力成本還很高!

想像一下,你能放心AI Agent給你訂飛機票訂外賣逛淘寶?花錢辦不好事,將是常態。

所以說,AI Agent操作在很長時間內都將會是一種專業技能。 (AI頓悟湧現時)