我想給 OpenClaw 接上語音，結果有人先做了

2026/02/14

•

我一直在用 OpenClaw（龍蝦），通過飛書和電報來用，體驗不錯，已經在幫我做各種小雜事了。我這兩天還基於龍蝦做了個有點點意思的東西，還在打磨（vibe）中，過兩天分享出來。

在和龍蝦對話的過程中，我心裡一直有一個感受和念頭：人和 AI 之間，語音才是更 native 的互動方式。

這個念頭不是憑空來的。

早在 ChatGPT 剛發佈之際，我就做過一個真•全球首位的語音 ChatGPT 對話的軟體，發到 B 站後一天之內播放就破了10萬。

可以說，我對語音互動還是有一點兒執念的：語音的頻寬雖然不高，但它是高度壓縮的、靈感密度最大的。這其實就是我們人和人之間最高效、最自然的工作表達方式。文字當然更準確、更易理解，但很多時候，當你打下前幾個字的時候，當時的靈感已經忘了一半。

而靈感，則是 AI 時代最為重要的東西。

我自己就經常有過靈感突然飛走的經歷，所以我就一直偏愛語音輸入類的工具。

龍蝦出來之後我就在想，能不能給它接一個語音入口呢？

外網其實已經有人做過類似的嘗試，用瀏覽器接語音，用Web Speech API去調後端，再把結果顯示在網頁裡。技術上不複雜，甚至可以說挺優雅。

但我一直覺得，這種方式還是有點「隔著一層」。它更像是：

你坐在電腦前，對著電腦說話。

本質上還是「你在用電腦」而我真正想要的，是反過來——

不是我去靠近裝置，而是裝置貼近我。

讓它不只是「打字對話」，而是隨時隨地、張嘴就來。飛書可以發語音，電報也可以，但終究不夠 native，離那種真正「隨時隨地、開口即用」的體驗還有些距離。

我一直想自己做一個，但這幾天確實太忙了忙，一直沒動手（動嘴）。

然後今天，我發現，這件事，已經有人在往我認同的方向走了。

有個叫「光帆AI」的團隊在做一件事：

他們現在做的並不是“一個語音 APP”。更準確地說，是用 APP 先把「耳機 + 服務」的整條鏈路跑通並穩定下來。APP只是當前最便捷的載體，後續再把同一套能力自然遷移到更貼身的硬體入口上。

簡單來說就是，你對著手機說一句話，家裡或公司或遠端的龍蝦就開始幹活，幹完了把結果推到你手機上。

而這個 APP 粗看之下，可能會覺得這和在飛書裡發個語音消息有什麼不同？

但這裡有個關鍵的區別：它對接的不是一個 chatbot，而是 OpenClaw 這個真正能幹活的個人 Agent。這不只是語音版的 ChatGPT，也不是打通個聊天機器人就完了。

可以想像，這個入口以及未來的耳機背後，將會是一群不同的 Agent 在隨時聽從你的指令，全天候為你工作、解決問題。它用的是語音這種人和人之間最直接的溝通吩咐方式，自然到你甚至不覺得自己在「操作」什麼東西。

所以看到 Hi Light 的第一時間，我就要來安裝包上手一試了。

昨晚下載 APP 後，雖然該有的都有，但細節還需要打磨，玩了一會兒我就睡了。沒想到早上醒來，看到已經又更新了2個版本了……

這是要春節無休的節奏啊……這麼快速迭代的速度，我覺得再過幾天、過幾周，應該就能有一個不錯的、可以日常用起來的版本。

那實際用起來什麼感覺呢？來看幾個我試過的場景。

今天早上我照舊去家附近的公園跑步，跑著跑著突然想起一件事：最近想調研某個技術方案的競品情況，一直沒顧上。以前這種念頭只能先記在腦子裡，等跑完回去再說。但大機率回去就忘了，或者被別的事岔開。這次我掏出手機，打開 Hi Light APP，點了通話按鈕，說了一句：

“幫我調研一下海內外 AgentOS 的競品和技術方案，整理成文件放桌面。”

然後手機塞回口袋，繼續跑。等跑完回去一看，文件已經在那了。並且還成功直接呼叫了我之前的寫的Nanobanana_PPT的skill。

我們來看看效果

順便叮囑一句：AI 時代，建議大家還是要多跑步、多運動。萬一 AGI 真來了，你總得有個好身體去見證吧。

然後跑完步到家，我正洗澡滿手都是水的時候，然後阿里雲的電話告警來了：資料庫滿了，雖然是測試環境。

手上滿是水時的打字型驗和效率……懂的都懂……

不過現在就省事許多了，只需要點選電話按鈕，然後直接說：「查一下測試環境，資料庫滿了，把資料同步表的資料清一下只保留最近一周的。」然後我電腦端的OpenClaw 會用我提前配置好的 skills 自動去連資料庫、確定問題、清理資料、二次確認，然後在我還沒洗完澡，就把結果推到手機上，給我語音播報完成了。

用了幾次之後我發現，這真的是一個很爽的互動模式：我可以像打電話一樣直接給 Agent 說出指令，它接收到之後會告訴我說已收到，還讓我先去幹點別的或者玩一會兒，等它的好消息。然後過不久，結果就推送過來了，我隨時可以審閱。

如果還有需要調整的地方，繼續語音追加指示就行。真的就像一個人在管理著無數隨叫隨到的員工。說句不太謙虛的話，有那麼點君臨天下的感覺。

說完體驗，來聊聊怎麼接入。整個過程不複雜，電腦上裝好 OpenClaw 之後，安裝光帆的 hi-light 外掛：

npm i @art_style666/hi-lightopenclaw plugins install @art_style666/hi-light

然後去 Hi Light APP 裡獲取你的 API Key（設定 → 帳號管理 → 獲取 API Key），在 OpenClaw 配置檔案 ~/.openclaw/openclaw.json 裡加上 hi-light 的 channel 配置：

"channels":{"hi-light":{"enabled":true,"wsUrl":"wss://open.guangfan.com/open-apis/device-agent/v1/websocket","authToken":"你的 API KEY"}}

最後執行 openclaw gateway restart，沒報錯就說明接上了。

不過，其實，這裡許多操作我都是直接無腦扔給 Claude Code，然後它自己就搞定了。雖然我最近 coding 任務上 Codex 用得越來越多，但這類安裝配置的雜事還是 Claude Code 更順手，體驗也明顯更好。

但後面我計畫直接用耳機來控制龍蝦，然後就可以用它來控制 Claude Code 了。

（或者反過來，用 Claude Code 來控制龍蝦？）

從技術上看，完整的鏈路是這樣的：

我的語音 → Hi Light APP（或耳機）→ 光帆雲伺服器 → 你電腦上的 OpenClaw 客戶端 → 本地執行 → 結果回傳 → APP 展示。

中間走的是 WebSocket 長連接，響應及時。

另外，這套外掛 + WebSocket 通道，其實已經很像平台化能力的雛形。後面大機率會做成一個開放平台，把「裝置入口 + 指令通道 + 任務回傳」這整條鏈路開放給開發者，讓更多人可以接入類似 OpenClaw 這樣的 Agent 能力。現在看到的接入方式，本質上已經是在提前搭平台的骨架。

這裡其實沒有“絕對安全”。像 OpenClaw 這種能連本地環境、能執行動作的 Agent，本質上就是在 自由度、響應速度與安全邊界之間做取捨。

光帆提供了兩種部署模式：

Local Host：外掛跑在你自己的 Mac 上，資料儘量不出本地，安全邊界更可控，適合對資料敏感的極客。
Cloud Host：更省心、隨時線上，但需要更清晰的權限與隔離機制來約束風險邊界。換句話說：它不是“更安全”，而是“把權衡擺在檯面上”，讓不同人按需求選。

安全性方面，API Key 的機制會確保指令只會發到你繫結的裝置上。Local Host 模式資料完全不出域。Cloud Host 模式下使用者資料做了隔離處理。外掛程式碼在 GitHub 上開源，可以自己去看。

如果你沒什麼隱私而言，那你隨時，我則敏感且確實有許多我自己定製的東西，我建議還是用 Local Host 模式，資料不出域，個性化整合且踏實放心。

從行業角度看，AI 正在從「被動響應」走向「主動理解」，從螢幕走向穿戴，入口正在從鍵盤遷移到麥克風。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬體互動層面，方向是對的。

目前 Hi Light APP 已經上架，iOS 通過 TestFlight 安裝，Android 可在各大應用程式商店搜尋「Hi Light」下載。不需要耳機也能用，APP 本身就支援語音操控電腦的完整功能。耳機預計2026年 Q1-Q2 開售。現在處於公測階段，感興趣的可以先裝 APP 體驗一下。

如果你本身就在用 OpenClaw，而且也對語音入口有興趣，可以嘗試下這個產品。

語音不是為了更酷，而是為了更自然。當 AI 真正成為執行體，互動方式終究會回到人類最原始、也最直接的溝通方式——說話。因為那本來就是我們與世界協作的方式。 (AGI Hunt)