Manus爆火:通用 AI Agent 為時尚早

一直關注 AI 領域的發展,最近爆火的 Manus 產品恰好在我目前聚焦的垂直領域中,幾點感想和思考:

1. Manus 產品層面是非常好的創新,通過工程能力整合了幾項業內相對成熟的技術:視覺理解、browser AI Agent、Tool use 和 thinking model,並通過極為優雅的 UI 表達出來,輔之以人脈豐富的自發宣傳,實現中文全網爆火,對產品本身和 AI Agent 概念在國內普及,都是一件好事;

2. 宣傳上,部分受眾的反感來自於與 Deepseek R1 基本面的差異和定調一致性上的反差。或許大家沒有意識到,Deepseek R1 實際上提高了我們對 AI 產品宣傳的標準:

Deepseek R1:開源、有論文、有重大技術突破、第一天即所有人都上手可用、英文區幾輪自來水傳播後爆火回到國內,這樣的宣傳效果,不要說對一個 AI 應用層產品,即使是對大模型廠商,甚至 Deepseek 自己,也是天時地利人和的產物,很難複製。

3. 至於 Manus 所在的 AI Agent 這一領域,海外產品去年亦有相當大的進展:

大廠有 Anthropic 的 computer use 在 10 月打響第一槍,Google 隨後推出了至今尚未全量開放的 Deep Research 和 Project Mariner,年底 OpenAI 的 Deep Research 和 Operator 以 200$/月的價格進一步讓人歎為觀止;

創業公司和開放原始碼專案方面:開放原始碼專案 Openhands (https://github.com/All-Hands-AI/OpenHands)Github 去年 6 月第一版 release,至今 5 萬 star,其 Slogan 為“Code Less, Make More”;閉源產品 convergence ai 的 proxy,定位為通用 AI 助理。

(proxy 的介面)

4. 當我第一次看到 Anthropic Computer use 的 demo 視訊時,AI 接手人類操作電腦,有一種強烈的科幻感:未來已來。然而,理想很豐滿,現實很骨感,目前這類產品最大的限制還是底層技術進化尚未成熟,視覺理解和底層模型的推理能力還有很大上升空間,而工程上在安全性等方面也尚未有一個業內共識的解決方案。

但在這個領域我們可以樂觀地相信,視覺理解和底層模型的能力將會迅速發展,今日看起來是一個玩具的產品,18-24個月之後會徹底成熟。

5. 展望未來,AI Agent 的發展路徑或許有以下幾種:

  • Proxy/Manus 式的虛擬機器或雲瀏覽器方案。
  • 本地優先、開放原始碼驅動程式的產品。
  • AI 原生的作業系統:徹底抽象掉GUI層

孰優孰劣,未有定論。這既取決於技術巨頭的戰略佈局,創業公司自上而下的規劃執行,也可能在開放社區的探索中找到答案。

我個人更傾向於後者:AI Agent 的進化,與其說是“設計”出來的,不如說是“生長”出來的。建設一個活躍的、國際化的開源社區,可能才是這種“生長”的最佳土壤。 (分佈共識)