狂熱過後,我和幾位硬體工程師聊了聊Manus 的價值和意義


「即便最終贏家不是它,它也足夠意義重大。」一位LAM 產品經理這樣評價Manus AI 的產業價值。

在昨天拿到Manus AI 的測試碼、連續進行了數個小時的測試之後,有不少在手機/PC 廠商的工程師/產品經理朋友,來找我「打聽」Manus AI 的真正能力如何。

為什麼硬體產業這麼關注Manus?這與當下硬體產業最受關注的概念—LAM 有關。 LAM 是從LLM 延伸而來的名詞,全名為大型行動模型(Large Action Models),也稱為大型智能體模型。

與LLM 致力於「超越人類」,因此在訓練方法上也經常突破人類經驗完全不同,現階段LAM 想要做到的,是成為人類的手,去作為人類使用者在數字世界中的代理人。

這與Manus 的核心理念有相通之處。目前而言,Manus AI 的體驗,圍繞在一個運行在雲端的Ubuntu 作業系統虛擬機器上,同時在作業系統中開啟Chrome 瀏覽器介面,在網頁中或呼叫其他軟體,來完成各種使用者的請求。

為了完成這個要求,Manus 需求同時具備「自然語義理解和電腦視覺」,以及「使用者行為習慣學習與場景感知」,同時擁有「意圖識別自主決策」的能力,當然最重要的,同時也是讓Manus AI 與先前的Computer Use 在體驗上拉開明顯差距的,還是「跨應用程式呼叫工具」的能力。

舉例來講,對於常見的「能不能用Manus AI 生成一段影片」這個問題,嚴格來講回答是「可以」,但Manus AI 去生成一段影片的方式,也是透過在網路上搜尋第三方AI 影片產生工具,並在這個過程中使用到各種工具,來完成使用者的請求。

01 LAM 真正的未來

進入2025 年,Agent AI,或者說LAM 在端側的落地,已經是再明顯不過的趨勢。但怎麼落地,以及最終呈現給使用者的會是怎樣的商業產品,還是有很多問題。

早在2024 年初,彼時發佈的Rabbit R1 硬體,以及對應的LAM 工具——Rabbit LAM Playground 其實已經展現了今天我們在Manus AI 中看到的能力雛形。

在官方的演示中,Rabbit R1 所搭載的LAM Playground,能主動幫助使用者完成類似音樂播放、打車等服務,實際上背後的技術原理,就是透過使用LAM 來訪問對應服務的網站,透過模擬人類與網站的互動方式,完成使用者指令中的工作內容。

Rabbit 發佈的LAM Playground,其實已經具備今天Manus AI 的初步能力| 圖片來源:Rabbit

但彼時的Rabbit Playground 受限於模型以及開發能力的限制,還不能做到像人類一樣,在網路中暢通無阻。

在實際使用者的測試中,面對類似人機驗證這樣的場景Rabbit Playground 仍然難以通過,也無法使用第三方工具,來完成產生複雜表格、匯出PPT 這樣的使用者需求。

由於在實際使用中面臨著諸多挑戰,Rabbit R1 作為一款明星AI 硬體,很快就退出主流使用者的視野,AI 時代的熱點變化的是如此之快,以至於到了2025 年年初,在網際網路上已經很難找到關於這款產品討論的聲音。

但LAM 這個概念,作為一個可能改變人類使用者與智慧硬體裝置互動的火種,留存了下來,仍然作為行業中一個重要的研究方向而存在。

Manus AI 的出現,尤其是它在自然語義理解,以及在網際網路存取網站時,面對各種各樣的人機識別,都能“暢行無阻”的能力,讓不少仍然在致力於LAM 產品開發、並希望在今年推出相關測試產品的人,再次看到了一個契機,並希望通過Manus AI 目前的能力以及展現出自己的完美產品。

Manus AI 已經能在遇到各種人機驗證時成功通過,大幅提升了對網際網路的訪問能力| 圖片來源:極客公園

目前,在致力於開發LAM 產品、來提升使用者對手機/電腦等產品使用體驗的硬體廠商中,系統級廠商在做LAM 中,有著最明顯的優勢。

「Manus AI 這種命令執行方式,對於算力要求非常高,但如果是瀏覽器或智慧型手機作業系統來做這件事,能透過獲得更多高品質資料的方式,大幅降低算力成本與提升運行速度」。

「做通用LAM 並不用針對某些單一網站去適配,雖然在某些場景下可能」

 Manus  AI 中的一些簡單的場景,並不需要完全搬到(雲端)上面去處理,反而是留在端側效果會更好」據這位面向桌面端開發LAM 應用的開發者介紹,當前的端側模型經過針對性訓練之後,目前也能實現簡單的通用網頁訪問並內容識別能力,已經能初步完成例如“旅遊相關網站並制定旅行計畫”的需求。

此外由於端側有著更便利的檔案管理系統,同時也有更強大的本機檔案管理工具,遇到類似「整理並分析履歷」這樣的需求,端側LAM 同樣能做到更好的效果。

在我的實際測試中,我想要讓Manus AI 幫我生成一個PPT 檔案,它就能自動在電腦上安裝對應的依賴環境,然後利用工具來自動完成PPT 生成,雖然最終仍然完成了使用者指令中的需求,但仍然因此大幅拉低了對請求的響應時間。

02 如何理解Manus 的意義

目前,Manus AI 展現的邏輯中,已經向外界展示了LAM 在「生產力」領域能帶來怎樣的改變,但仍有許多問題亟待解答。

其中最重要的,也是被問到最多的,或許就是商業化這件事:不少使用者對於Manus AI 這樣的服務,最終會定價多少有著諸多的猜測。

除了類似Manus AI 這樣,完全交給雲端運行,使用者端只需要「輸入命令- 返回成果」的模式,前面提到的不少硬體廠商,實際上是將端側/雲端混合運行的模式作為主流方案。

這其實也暗示了,未來LAM 的發展,或許將分為兩個不同的主流方向;不僅有基於現有硬體算力,在端側實現性能稍差的LAM,也有完全基於雲端的「數位代理」服務。

但這樣的服務,距離最終投向市場可能還有不小的距離。 「Manus AI 如果訂閱的話,這樣的服務20 美元(訂閱費)顯然是完全不夠的。」一位目前就職於手機廠商,研發LAM 端側應用的工程師對此評價道。

僅僅是全程虛擬機器運作以及以及即時顯示內容流的高昂成本,就足以成為此類服務現階段面向普通消費級市場的最大阻力。

對於以ChatGPT 為代表的LLM 產品來講,過去幾年已經迅速建立起一套行之有效的訂閱系統,使用者也在「每個月20 美元」的周期往復中,建立起了一個精準的心理預期。

如果LAM 未來想要以這種「前端硬體+ 後端雲端服務」的方式繼續存在,同樣也要經歷這樣一個過程,同時在這個過程中將訂閱成本快速拉低,最終將這一商業模式跑通。

隨著完全在雲端部署的LAM 進一步完善,我們大機率會再次看到像Rabbit R1 這樣、有著更靈活形態的AI 硬體裝置出現:它可以是智慧手錶、也可以是AI 眼鏡,甚至都可能是完全不需要螢幕的智慧耳機等裝置。

到這個階段,LAM 其實已經進化成了Agent UI:使用者並不再需要傳統手機桌面、瀏覽器那樣的使用者互動介面,只需要一個供使用者輸入指令的方式,以及接受LAM 最終交付成果的終端。

當初Rabbit R1 的展示場景中,就已經出現了一些Manus AI 的案例| 圖片來源:Rabbit

它或許不如LLM 那樣科幻,但它卻是在現有硬體的基礎上,短期內我們能看到最明顯、最有能力給使用者與硬體的互動,帶來改變的方向。

隨著Manus AI 進一步將LAM 以及Agent AI 能做到什麼,展現給更多普通使用者,這或許就是Manus AI 在這場浪潮最終退去之後,給我們留下的最重要的收穫。

「即便最終贏家不是它,它也足夠意義重大。」一位LAM 產品經理這樣評價Manus AI 的產業價值。 (極客公園)