和 Codex、Claude Code 等 Coding Agent 溝通,很多時候就像站在許願池邊,對著池子裡的王八扔硬幣,嘴裡唸唸有詞,關鍵它還真給你兌現願望。
因此,對很多不懂程式碼的人來說,Codex 帶來的亢奮感是肉眼可見的——
它讓人第一次感覺,自己也能指揮電腦幹活。
近半年以來,社交媒體上,圍繞 Codex 的玩法越來越野。有人讓它寫網頁,有人讓它做報表,有人讓它管檔案,還有網友 @zhongerxin 折騰出了一種更直觀的玩法:
把畫布塞進 Codex。
他基於 tldraw 改造了一個叫 Cowart 的本地無限畫布外掛,讓 Codex 不唯讀文字提示詞,也能看到使用者在畫布上的箭頭、批註和位置標記。其作用在於讓 AI 改圖時,能夠指那打那。
逃離聊天框,Canvas 才是 AI 的應許之地
介紹 Cowart 之前,得先提一下 tldraw。
tldraw 可以理解為一塊跑在瀏覽器裡的無限白板。
它基於 React 建構,提供完整的畫布引擎,內建白板工具、壓感繪圖、幾何圖形、富文字、箭頭、形狀吸附、圖片與視訊支援,以及圖像匯出等能力。
開發者可以基於它自訂形狀、工具、繫結關係和 UI 元件,把它擴展成各種不同類型的畫布應用。
Cowart 做的事情,就是基於 tldraw 搭了一個本地可視化畫布,讓使用者在畫布裡構思、標註和生成圖片,再把標註交給 Codex 繼續修改。
玩法也不複雜。
安裝 Cowart 時,可以直接把下面這段話發給 Codex,讓它自動完成外掛安裝:
請從 https://github.com/zhongerxin/cowart.git 安裝 Cowart Codex 外掛。
請 clone 倉庫到 ~/plugins/cowart,確認 .codex-plugin/plugin.json 存在,
把外掛加入 personal marketplace,先運行 codex plugin marketplace add ~,
再運行 codex plugin add cowart@personal。
安裝後請校驗外掛,並告訴我是否需要開啟一個新對話來載入新技能和 MCP 工具。
安裝完成後,通常需要開啟一個新的 Codex 對話,讓新的 skill 和 MCP 工具完整載入。使用時,可以直接在 Codex 中輸入:
幫我打開 Cowart 畫布。
實測中,Cowart 會啟動一個本地網頁服務,並在對話裡給出預覽入口。然後接下來的操作就非常簡單了。
比如呼叫 Cowart 外掛,繼續在對話中輸入:
幫我生成一張達文西原汁原味風格的《蒙娜麗莎》油畫
隨後,Codex 生成圖片,並把它放進 Cowart 畫布,右側畫布中可以看到生成後的《蒙娜麗莎》圖片。後續修改可以直接圍繞這張圖進行。
接下來,我在 Cowart 畫布裡對這張圖做兩處標註。
第一處,在人物眼睛位置畫箭頭,並寫上「給眼睛戴上墨鏡」。第二處,在手部位置畫箭頭,並寫上「手裡拿著一杯果汁」。
標註完成後,把這張 Cowart 標註截圖發給 Codex,並輸入:
使用我的 Cowart 標註截圖,生成一張乾淨的修訂版圖片,並將它放在原圖旁邊。
Codex 隨後根據標註截圖生成新的修訂圖。
2002 年斯皮爾伯格的《少數派報告》裡,湯姆·克魯斯飾演的角色站在懸浮螢幕前,用手勢拖曳、圈選、調取資料。原本抽象的檢索、判斷和資訊整理,被拍成了一種直接的空間操作:看到那裡,手伸過去,資訊就跟著移動。
Cowart 的畫布標註當然沒有那麼科幻,但它對應的互動直覺是一致的。
過去使用者得把腦子裡的畫面翻譯成一長串提示詞,現在只要把箭頭畫到圖上,把要求寫在旁邊。AI 看到的不再只是「把這裡改一下」這樣的模糊描述,還有位置、方向和上下文關係。
再來看一個商品圖製作的案例。
依舊是讓 Cowart 先生成一張極簡風格的空白牛皮紙外帶咖啡杯,放在木質桌面上;隨後在背景區域標註「背景換為露營地」,在杯身中間標註「加上一個柴犬 logo」。
最終的結果也不出所料。
當 Cowart 把 AI 改圖裡的位置描述變成了畫布標註,使用者也不需要反覆解釋「左上角」「中間偏右」「手的位置」這類空間關係,直接在圖上指給 Codex 看即可。
Cowart 這套「畫布加標註加生圖」的互動,也不只是繫結在 Codex 上。只要 Agent 客戶端能呼叫本地 MCP 工具、能訪問本地畫布服務、能使用圖像生成能力,類似玩法就可以遷移過去。
開發者 Chloe Tian(@tllll64)就搞了個 WorkBuddy 適配版,感興趣的可以試試。
不過,儘管 Cowart 未來可期,但目前體驗還比較粗糙的:
響應慢,從開畫布到生成、修改都得等;額度消耗高,多試幾個版本成本肉眼可見地往上漲;還容易斷聯——畫布、本地服務和 MCP 工具偶爾不同步,Codex 無法讀取選區或插入結果,得重開畫布或重啟對話才能緩過來。
Codex 正在變成打工人的 AI「工作台」
Codex 的外掛和應用案例,其實一直被市場低估。翻一翻 OpenAI 官網也能發現許多有趣案例,覆蓋收件箱管理、電腦自動操作、前端開發、遊戲開發、原生應用開發、生產系統維護等一系列場景。
在這些案例裡,Codex 承擔的任務已經不只是寫幾段程式碼。它可以幫使用者管理收件箱,找出重要郵件,並按照使用者的語氣草擬回覆;可以在 Mac 上點選、輸入和操作應用;
可以跟隨一個長期目標,持續處理複雜任務;也可以清洗表格資料、查詢 CSV 和電子表格、審查 GitHub pull request、根據截圖生成前端介面,甚至自動生成 slide decks。
OpenAI 發佈的《How OpenAI uses Codex》白皮書顯示,Codex 已在安全、產品工程、前端、API、基礎設施和性能等團隊中日常使用,基於內部訪談與資料總結。其主要應用可歸為七類:
最佳實踐包括:先用 Ask Mode 規劃,再用 Code Mode 執行;最佳化運行環境與權限配置;Prompt 類似 GitHub Issue,需提供充分上下文。團隊還將任務佇列當作輕量 backlog,借助 AGENTS.md 提供長期上下文,複雜任務用 Best-of-N 生成多方案篩選。
Cowart 這類功能外掛本質上也契合這個方向。
對話是線性的,而創造往往是空間性的、發散的。使用者在畫布上指出位置,Codex 呼叫本地工具讀取狀態、生成圖片、插入畫布,並把結果保存在當前項目目錄中。
往後看,很多輕量功能可能不會以獨立應用的形態存在,而是成為 Agent 可以呼叫的一組本地能力,並被裝進同一個工作流裡。
當畫布、表格、網頁、郵件、程式碼倉庫等等桌面環境都能被 Agent 理解和呼叫,Codex 也就演變成了一個可以被不斷加裝能力的本地工作台。
至於現在該準備點啥?或許就是備好自己的想像力,往 AI「許願池」裡,投下一枚枚更大膽的硬幣。 (愛范兒)
