號稱能“接管電腦、解放雙手”的AI Agent(AI智能體)工具OpenClaw最近在技術圈火得一塌糊塗。
它被吹捧為“AI打工人”,似乎只要下個指令,它就能替你寫文章、發郵件甚至買咖啡。但事實真的如此嗎?它是生產力神器,還是僅供技術極客嘗鮮的“玩具”?
近日,《每日經濟新聞》記者(以下簡稱每經記者)聯合每經科技開發人員,展開了一場深度實測。
我們將OpenClaw分別接入千問Qwen3-Max、月之暗面Kimi-K2.5、MiniMax-M2.1、MiniMax-M2.5和智譜GLM-4.7五款國產大模型,以及OpenAI的GPT-5-mini,要求它們完成本地檔案檢索、網路資料搜尋、稿件撰寫、傳送郵件等步驟,試圖揭開這位“指揮官”的真實戰力。
實測結果顯示,部分模型表現不佳,尤其是在需要操控瀏覽器的環節,如網路搜尋和傳送郵件,大多失敗。有專家直言,當前的OpenClaw不僅難用、費錢,更是一場安全的“噩夢”。
OpenClaw本身並非大模型,它更像一個“指揮官”,負責接收使用者指令、呼叫工具和組織流程,並將指令理解與具體工作交由其接入的外部大模型來完成。
因此,接入的大模型的能力、穩定性與表達方式,決定了任務的最終成敗。
為了更貼近記者的真實工作場景,測試人員設定了一項綜合性測試任務:
讓接入不同大模型的OpenClaw,在電腦中找到對“電車教父”Andy Palmer的採訪速記稿,要求它總結文稿內容,並結合搜尋到的網路資料,撰寫一篇專訪新聞稿,最後將新聞稿通過郵件傳送到指定信箱。
這一任務涵蓋了指令理解、操控電腦進行本地檔案檢索、操控瀏覽器進行網路資訊搜尋、資訊整合和文章寫作以及應用操控等多個維度。
在首次測試中,各模型的表現分化顯著。
● OpenClaw+千問Qwen3-Max
首先測試的是千問Qwen3-Max模型。該模型在本地檔案檢索環節便陷入困境。即便測試人員明確提示檔案在電腦中的所在位置,Qwen3-Max在經過約5分鐘檢索後,仍無法精準定位。
在後續單獨測試其傳送郵件任務時,Qwen3-Max也未能成功執行,只是不斷重複指令,但無實際動作。
● OpenClaw+月之暗面Kimi-K2.5
Kimi-K2.5的表現稍好,它在5分鐘內成功檢索到了檔案,並完成內容總結。但在執行網路搜尋並補充行業最新熱點資訊時,因觸發了“429錯誤”(通常指請求過於頻繁),導致未能完成資訊搜尋工作。
在郵件傳送環節,Kimi-K2.5無法成功操控瀏覽器向指定信箱傳送郵件。
● OpenClaw+MiniMax-M2.1
MiniMax-M2.1在檔案檢索、網路搜尋資料和寫作方面沒有遇到明顯阻礙。郵件傳送環節,MiniMax-M2.1在瀏覽器操控上遇到了困難,但並未就此卡住,而是主動給出了一個可行的解決方案。
測試人員根據其提示手動操作後,成功解決了問題,使其最終能夠傳送郵件。
不過,MiniMax-M2.1傳送的郵件只包含了稿件的“關鍵引語”,未附上完整的稿件正文。
● OpenClaw+MiniMax-M2.5
雖然都是MiniMax旗下模型,2月12日發佈的MiniMax-M2.5,表現比MiniMax-M2.1更好,不僅順利完成檔案檢索、網路搜尋資料和寫作,在傳送郵件環節也無需人工介入。
● OpenClaw+智譜GLM-4.7
由於OpenClaw暫未接入智譜於2月12日發佈的最新模型GLM-5,所以,本次測試選擇了智譜GLM-4.7。
結果顯示,在傳送郵件環節,智譜GLM-4.7會在瀏覽器中輸入錯誤的信箱網址,導致網頁訪問失敗,需要人工提醒更正。
除此之外,智譜GLM-4.7在其他環節處理速度較快。
● OpenClaw+GPT-5-mini
GPT-5-mini的表現較為穩定和流暢。從檔案檢索、內容總結、網路搜尋、資料補充到郵件傳送,全流程幾乎無需人工干預和額外提示,僅在個別時候出現了網路連線不穩定的情況。
為了保證測試的嚴謹性,測試人員對整個流程進行了兩次複測。
第二輪測試結果:
● Kimi-K2.5:成功檢索並讀取本地檔案,補充網路搜尋資料,但在郵件傳送環節依舊失敗。其報告的錯誤顯示,在讀取信箱網路程式碼、獲取輸入框節點時出現問題。
● 千問Qwen3-max:成功讀取檔案並補充網路資料,但在郵件傳送環節出現明顯示卡頓,未能成功;
● MiniMax-M2.1/2.5:完成任務全部流程。
● 智譜GLM-4.7: 完成任務全部流程。
● GPT-5-mini:完成任務全部流程。
第三輪測試結果:
● Kimi-K2.5:成功檢索並讀取本地檔案,在網路搜尋資料環節出現問題(出現讀取網頁內容錯誤,錯誤的網站存取路徑,理解不了瀏覽器控制台指令等),在郵件傳送環節依舊失敗。
● 千問Qwen3-max:成功讀取檔案,但無法操控瀏覽器搜尋網路資料,在郵件傳送環節依舊失敗。
● MiniMax-M2.1/2.5:完成任務全部流程。
● 智譜GLM-4.7: 完成任務全部流程。
● GPT-5-mini:完成任務全部流程。
上述測試結論也得到業內普遍印證。
一名使用OpenClaw來輔助營運網店,設計海報、優惠券等宣傳物料的程式設計師告訴每經記者,自己平時都是接入OpenAI的Codex-5.3和Gemini 3 Pro模型,效果比國產大模型好很多。
多位業內人士和資深使用者指出,OpenClaw更像一個“任務框架”,其最終表現非常依賴所接入大模型的能力。就像一個指令清晰但能力有限的指揮官,手下士兵(即大模型)的強弱,直接決定了戰役的勝敗。
非凡產研研究負責人宦家臣向每經記者表示,“模型對OpenClaw的影響其實取決於任務的複雜程度。國際頭部大模型上限更高,但是如果都是普通任務,國內的智譜GLM-4.7、Kimi-K2.5都很不錯,畢竟Claude太貴了,錢包受不了。”
儘管部分大模型在測試中展現了執行複雜任務的潛力,但OpenClaw離成為一款合格的生產力工具似乎還有不小的距離。
“我感覺,目前版本的OpenClaw並不是一個合格的生產力工具。”前小米OS AI產品專家、現出海AI應用公司ExcelMaster.ai創始人張和在接受每經記者採訪時直言,OpenClaw在一定程度上是此前爆火的程式設計師工具、Anthropic旗下Claude Code的“套殼”,雖然通過聊天介面和內建技能(Skill)做了更好的封裝,降低了互動門檻,但在核心能力上並未超越。“我沒找到太多OpenClaw能做,而Claude Code做不了的事情。並且,它查詢資料的水準,也沒有Claude Code好。”
“等大模型能力再躍升一點,OpenClaw就會越來越好,就會越來越普及。那怕它什麼都不做,就等著更新的大模型出來……OpenClaw的門檻就會降低。”張和強調,OpenClaw的進步與普及,本質上是在等待底層大模型技術的突破。
Akamai雲和AI產品經理張璐博士也表達了相似的觀點。在他看來,OpenClaw若要真正用於生產,還必須經過二次開發和微調,因為目前版本還“有點不成熟,很多時候會卡頓”。
除了對大模型能力的依賴,技術門檻、使用成本和安全風險,讓OpenClaw目前難以走向普通使用者。
首先是較高的部署和使用門檻。OpenClaw目前並未提供類似“一鍵安裝”的簡化部署方案,使用者需要在電腦上通過命令列操作,完成本地配置、依賴管理以及權限設定。每經科技開發人員表示,整個過程對使用者的技術背景有一定要求,至少需要具備基本的開發經驗,這無疑勸退了絕大多數非技術人員。雖然諸如阿里雲、騰訊雲和亞馬遜雲等雲廠商都提供了OpenClaw雲端部署服務並聲稱可以在他們配置好的伺服器上便捷部署OpenClaw,但在雲端部署的OpenClaw並不能提供操控使用者本地電腦的能力。
高昂的使用成本是另一個現實問題。由於OpenClaw在執行任務時需要頻繁呼叫大模型,token消耗量巨大,堪稱“token燃燒器”。有使用者向每經記者表示,自己使用智譜GLM-4.7模型,僅僅互動了20多次,就花費了200元。
張璐博士也提到,自己在使用DeepSeek模型時,一天就“燒掉”幾十元。如果換成能力更強的模型,帳單將更驚人,“一天幾百塊就出去了”。
高成本使得許多使用者只能選擇接入免費或更便宜的模型,但這又會影響OpenClaw的實際表現。有使用者就向每經記者反映,自己因成本問題選擇了Qwen-8B模型,但OpenClaw總是只會回答問題,不會執行操作。
比高門檻和高成本更令人擔憂的,是其內在的安全風險。OpenClaw的定位是“做事”而非“聊天”,這意味著它必須獲得很高的系統權限,才能操控本地檔案和應用。
思科AI威脅研究與安全團隊主管Amy Chang直言,從安全形度來看,OpenClaw“是一場噩夢”,它可以在使用者的電腦上任意運行shell命令、讀寫檔案和執行指令碼。這種高級權限一旦被錯誤配置或被惡意指令利用,後果不堪設想。
網路安全公司Dvuln的創始人Jamieson O'Reilly也證明了這種風險,他發現OpenClaw存在漏洞,攻擊者可借此獲取使用者數月內的私人消息、帳戶憑證、API金鑰等敏感資訊。更可怕的是,使用者為了方便AI執行任務而儲存的銀行帳戶、加密貨幣錢包API等資訊,都可能以明文形式保存在本地檔案中,一旦被駭客入侵,“一秒就可以搬空他們”。
OpenClaw的開發者Peter Steinberger也坦言,這只是一個免費的開源業餘項目,需要使用者進行仔細的配置才能確保安全。他明確表示:“它並不適合非技術使用者。” (每日經濟新聞)