Codex 學會這一招,比 PS 更好用

和 Codex、Claude Code 等 Coding Agent 溝通,很多時候就像站在許願池邊,對著池子裡的王八扔硬幣,嘴裡唸唸有詞,關鍵它還真給你兌現願望。

因此,對很多不懂程式碼的人來說,Codex 帶來的亢奮感是肉眼可見的——

它讓人第一次感覺,自己也能指揮電腦幹活。

🔗 https://x.com/zhongerxin/status/2068027614300893383

近半年以來,社交媒體上,圍繞 Codex 的玩法越來越野。有人讓它寫網頁,有人讓它做報表,有人讓它管檔案,還有網友 @zhongerxin 折騰出了一種更直觀的玩法:

把畫布塞進 Codex。

他基於 tldraw 改造了一個叫 Cowart 的本地無限畫布外掛,讓 Codex 不唯讀文字提示詞,也能看到使用者在畫布上的箭頭、批註和位置標記。其作用在於讓 AI 改圖時,能夠指那打那。

逃離聊天框,Canvas 才是 AI 的應許之地

介紹 Cowart 之前,得先提一下 tldraw。

tldraw 可以理解為一塊跑在瀏覽器裡的無限白板。

它基於 React 建構,提供完整的畫布引擎,內建白板工具、壓感繪圖、幾何圖形、富文字、箭頭、形狀吸附、圖片與視訊支援,以及圖像匯出等能力。

Github 地址 🔗 https://github.com/tldraw/tldraw

開發者可以基於它自訂形狀、工具、繫結關係和 UI 元件,把它擴展成各種不同類型的畫布應用。

Cowart 做的事情,就是基於 tldraw 搭了一個本地可視化畫布,讓使用者在畫布裡構思、標註和生成圖片,再把標註交給 Codex 繼續修改。

玩法也不複雜。

安裝 Cowart 時,可以直接把下面這段話發給 Codex,讓它自動完成外掛安裝:

請從 https://github.com/zhongerxin/cowart.git 安裝 Cowart Codex 外掛。

請 clone 倉庫到 ~/plugins/cowart,確認 .codex-plugin/plugin.json 存在,

把外掛加入 personal marketplace,先運行 codex plugin marketplace add ~,

再運行 codex plugin add cowart@personal。

安裝後請校驗外掛,並告訴我是否需要開啟一個新對話來載入新技能和 MCP 工具。

安裝完成後,通常需要開啟一個新的 Codex 對話,讓新的 skill 和 MCP 工具完整載入。使用時,可以直接在 Codex 中輸入:

幫我打開 Cowart 畫布。

實測中,Cowart 會啟動一個本地網頁服務,並在對話裡給出預覽入口。然後接下來的操作就非常簡單了。

比如呼叫 Cowart 外掛,繼續在對話中輸入:

幫我生成一張達文西原汁原味風格的《蒙娜麗莎》油畫

隨後,Codex 生成圖片,並把它放進 Cowart 畫布,右側畫布中可以看到生成後的《蒙娜麗莎》圖片。後續修改可以直接圍繞這張圖進行。

接下來,我在 Cowart 畫布裡對這張圖做兩處標註。

第一處,在人物眼睛位置畫箭頭,並寫上「給眼睛戴上墨鏡」。第二處,在手部位置畫箭頭,並寫上「手裡拿著一杯果汁」。

標註完成後,把這張 Cowart 標註截圖發給 Codex,並輸入:

使用我的 Cowart 標註截圖,生成一張乾淨的修訂版圖片,並將它放在原圖旁邊。

Codex 隨後根據標註截圖生成新的修訂圖。

2002 年斯皮爾伯格的《少數派報告》裡,湯姆·克魯斯飾演的角色站在懸浮螢幕前,用手勢拖曳、圈選、調取資料。原本抽象的檢索、判斷和資訊整理,被拍成了一種直接的空間操作:看到那裡,手伸過去,資訊就跟著移動。

Cowart 的畫布標註當然沒有那麼科幻,但它對應的互動直覺是一致的。

過去使用者得把腦子裡的畫面翻譯成一長串提示詞,現在只要把箭頭畫到圖上,把要求寫在旁邊。AI 看到的不再只是「把這裡改一下」這樣的模糊描述,還有位置、方向和上下文關係。

再來看一個商品圖製作的案例。

依舊是讓 Cowart 先生成一張極簡風格的空白牛皮紙外帶咖啡杯,放在木質桌面上;隨後在背景區域標註「背景換為露營地」,在杯身中間標註「加上一個柴犬 logo」。

最終的結果也不出所料。

當 Cowart 把 AI 改圖裡的位置描述變成了畫布標註,使用者也不需要反覆解釋「左上角」「中間偏右」「手的位置」這類空間關係,直接在圖上指給 Codex 看即可。

Cowart 這套「畫布加標註加生圖」的互動,也不只是繫結在 Codex 上。只要 Agent 客戶端能呼叫本地 MCP 工具、能訪問本地畫布服務、能使用圖像生成能力,類似玩法就可以遷移過去。

開發者 Chloe Tian(@tllll64)就搞了個 WorkBuddy 適配版,感興趣的可以試試。

Github 地址🔗 https://github.com/tllll64/cowart\_workbuddy

不過,儘管 Cowart 未來可期,但目前體驗還比較粗糙的:

響應慢,從開畫布到生成、修改都得等;額度消耗高,多試幾個版本成本肉眼可見地往上漲;還容易斷聯——畫布、本地服務和 MCP 工具偶爾不同步,Codex 無法讀取選區或插入結果,得重開畫布或重啟對話才能緩過來。

Codex 正在變成打工人的 AI「工作台」

Codex 的外掛和應用案例,其實一直被市場低估。翻一翻 OpenAI 官網也能發現許多有趣案例,覆蓋收件箱管理、電腦自動操作、前端開發、遊戲開發、原生應用開發、生產系統維護等一系列場景。

在這些案例裡,Codex 承擔的任務已經不只是寫幾段程式碼。它可以幫使用者管理收件箱,找出重要郵件,並按照使用者的語氣草擬回覆;可以在 Mac 上點選、輸入和操作應用;

可以跟隨一個長期目標,持續處理複雜任務;也可以清洗表格資料、查詢 CSV 和電子表格、審查 GitHub pull request、根據截圖生成前端介面,甚至自動生成 slide decks。

🔗 https://developers.openai.com/codex/use-cases

OpenAI 發佈的《How OpenAI uses Codex》白皮書顯示,Codex 已在安全、產品工程、前端、API、基礎設施和性能等團隊中日常使用,基於內部訪談與資料總結。其主要應用可歸為七類:

🔗 https://cdn.openai.com/pdf/6a2631dc-783e-479b-b1a4-af0cfbd38630/how-openai-uses-codex.pdf

最佳實踐包括:先用 Ask Mode 規劃,再用 Code Mode 執行;最佳化運行環境與權限配置;Prompt 類似 GitHub Issue,需提供充分上下文。團隊還將任務佇列當作輕量 backlog,借助 AGENTS.md 提供長期上下文,複雜任務用 Best-of-N 生成多方案篩選。

Cowart 這類功能外掛本質上也契合這個方向。

對話是線性的,而創造往往是空間性的、發散的。使用者在畫布上指出位置,Codex 呼叫本地工具讀取狀態、生成圖片、插入畫布,並把結果保存在當前項目目錄中。

往後看,很多輕量功能可能不會以獨立應用的形態存在,而是成為 Agent 可以呼叫的一組本地能力,並被裝進同一個工作流裡。

當畫布、表格、網頁、郵件、程式碼倉庫等等桌面環境都能被 Agent 理解和呼叫,Codex 也就演變成了一個可以被不斷加裝能力的本地工作台。

至於現在該準備點啥?或許就是備好自己的想像力,往 AI「許願池」裡,投下一枚枚更大膽的硬幣。 (愛范兒)