#Codex | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Codex

當 AI，開始設計 AI

這不是科幻片，而是 2026 年 2 月剛剛發生的現實。如果有人在 2020 年告訴你，「六年後，AI 會自己設計下一代 AI」，你大概會覺得這是天方夜譚。但就在上周，OpenAI 的 GPT-5.3-Codex 和 Anthropic 的 Claude Opus 4.6 同日發佈，兩家公司不約而同地宣佈了一個令人震驚的消息：這些 AI 模型，已經能夠有意義地參與改進自己。這只是 2026 年初，中國農曆馬年春節之前的「AI 春運」大戰的開始，但很有可能多年後重新回頭看，這可能是一個 AI 進化史上的重要節點——人工智慧，已經開始非常熟練地，設計和並建造下一代人工智慧了。更重要的是，這對使用者——人類——來說，到底意味著什麼？作者 Matt Shumer 在文章中為大家拆解了，為什麼現在，可能正是這樣一個節點時刻。01自我進化的「潘多拉魔盒」已開啟OpenAI CEO Sam Altman 在 Twitter 上興奮地表示：「我喜歡用這個模型建構；感覺比基準測試所示的進展更大。能以 5.3-Codex 來開發 5.3-Codex 的速度，這是未來的一個訊號。」這句話背後的含義讓人細思極恐。Anthropic CEO Dario Amodei 更是直接承認：「我們基本上已經讓 Claude 設計下一版本的 Claude 本身，不是完全地，也不是在所有方式上，但在很多方面，這個循環開始快速閉合。」或許，我們正在見證 AI 發展史上最重要的一個拐點：從人類設計 AI，到 AI 協助設計 AI，再到 AI 主導設計 AI。這個過程比任何人預想的都要快。但現實遠比宣傳複雜。Medium 分析師 Alex Carter 在 48 小時實測後潑了一盆冷水：Codex 5.3「感覺倉促。行銷承諾與現實不符。它聲稱『幫助自己建設』聽起來令人印象深刻，直到你意識到它無法可靠地建構登錄系統。」這種巨大的期望差距恰恰暴露了當前 AI 自我改進的真實狀態：概念已經突破，但實際能力仍在爬坡。02知識工作體系的重構更值得關注的是這背後的連鎖反應。如果 AI 真的能自我迭代最佳化，那麼依賴知識積累和經驗傳承的工作，將面臨根本性衝擊。這不是簡單的「AI 取代人類」，而是整個知識工作體系的重構。技術分析師 Sebastian Raschka 在《State of LLMs 2025》中指出，2026 年的進展「主要來自推理而非純粹的訓練方面」，進步出現在「架構調整、資料質量改進、推理訓練、推理擴展和工具呼叫」等多個維度。這意味，AI 不再是單純的工具，而是開始具備「思考如何更好地思考」的元認知能力。我們可以想像這樣的場景：一個法律 AI 不僅能處理案例，還能分析自己在處理過程中的不足，並設計改進方案；一個醫療診斷 AI 不僅能看病，還能反思自己的診斷邏輯，最佳化決策路徑。當 AI 開始擁有自我反思和改進的能力，人類在知識工作中的獨特優勢——經驗積累、模式識別、創新思維——還能保持多久？03掌控權還在人類手中... 嗎？但最讓人擔憂的不是就業問題，而是控制權問題。AI 安全研究者 Jared Kaplan 一針見血地指出：「當 AI 開始獨立設計下一代 AI 時，它使用的最佳化路徑可能完全超出人類認知範圍... 我們無法檢查是否有『特洛伊木馬』或錯位的目標函數隱藏其中。」這就是 AI 自我改進的核心悖論：我們需要足夠智能的 AI 來解決複雜問題，但當 AI 智能到可以改進自己時，我們可能就失去了理解和控制它的能力。HackerNews 和 Reddit 社區的討論也反映了這種擔憂。使用者們質疑基準測試結果，認為 GPT-5.3 和 Claude Opus 4.6 的性能資料，可能存在「不同的基準測試或資料解釋」問題。更重要的是，當 AI 能夠自我改進時，傳統的評估和監管體系都可能失效。Interconnects AI 分析師 Nathan Lambert 的觀察很有啟發性：「我們正在走向一個 AI 世界，其中與模型發佈相關的基準，不再對使用者傳達有意義的訊號。」換句話說，我們甚至可能無法精準衡量，這些自我改進的 AI 到底有多強。Fello AI 的分析報告顯示，2024 年近 90% 的著名 AI 模型來自工業界，OpenAI 不再主要與研究實驗室競爭，而是「與超大規模計算公司、晶片製造商和資金充足的 AI 優先公司競爭」。在這場競賽中，自我改進能力已經成為必爭之地。誰先實現真正的 AI 自我迭代，誰就能在未來五年的知識工作革命中佔據主導地位。就像 Matt Shumer 在文章開頭提到的 2020 年 2 月——如果你當時足夠敏銳，你會注意到「有幾個人在談論海外傳播的病毒（新冠）」。現在，我們也處在這樣一個歷史轉折點：AI 自我改進的種子已經種下，接下來的五年，整個知識工作的生態都將被重新定義。問題不再是「會不會發生」，而是「我們準備好了嗎」。 (極客公園)

完全取代Claude Code？OpenAI反擊來了，推出Codex app「限時免費使用」

多年來我一直是終端/Emacs 的忠實使用者，但自從使用 Codex 應用程式後，再回到終端就感覺像是回到了過去。這簡直是專為Agent打造的原生開發介面體驗這是OpenAI總裁Greg Brockman為剛剛推出的Codex App的彩虹屁，當然了好不好還要使用者說了算行業內的人應該有個基本共識，codex程式碼能力非常強，但是體驗比較差勁，基本上這一段時間讓Claude code 壓著打，終於OpenAI的反擊還是來了，還是搶在據傳Claude sonnet 5發佈前一天推出MagicPath CEO 說他最近幾周一直在使用 Codex 應用。這已經成為在大型複雜程式碼庫中進行編碼的首選方法。正因如此，他們才能在 MagicPath 中推出如此多的功能。它完全取代了Cursor使用方式和 Claude Code這次OpenAI 推出的是macOS版Codex應用，這是一個全新的互動介面，旨在幫助開發者輕鬆管理多個AI Agents，支援平行運行任務，並與智能體協作處理長時間運行的複雜工作，通過skills擴展 Codex 的功能帶來的是旗艦級體驗。介面長這樣：一個好消息，在限定時間內，ChatGPT免費版和Go版使用者將能使用Codex。對於Plus、Pro、商業、企業和教育版使用者，速率限制將翻倍（這些更高的限制適用於所有使用Codex的場景——包括桌面應用、CLI、IDE以及雲端）OpenAI表示，Codex應用正在改變軟體的建構方式和建構者——從與單個編碼智能體配對進行有針對性的編輯，到在設計、建構、發佈和維護軟體的整個生命周期中，監督協同工作的智能體團隊。定位：Codex應用為Agent的指揮中心自2025年4月Codex發佈以來，開發者與智能體的工作方式發生了根本性變化。模型現在能夠端到端地處理複雜的長期任務，開發者則開始在項目中編排多個智能體：分配工作、平行運行任務，並信任智能體承擔可能跨越數小時、數天或數周的實質性項目。核心挑戰已從智能體能做什麼，轉變為人類如何大規模地指導、監督和與它們協作。現有的IDE和基於終端的工具並非為支援這種工作方式而建構。這種新的建構方式與新的模型能力需要一種不同的工具，因此OpenAI推出了Codex桌面應用，一個專為智能體打造的指揮中心1. 與多個智能體平行工作Codex應用提供了一個專注於與智能體進行多工處理的空間。智能體在按項目組織的獨立線程中運行，因此使用者可以在任務之間無縫切換而不會丟失上下文。使用者可以線上程中審查智能體的更改、對差異（diff）發表評論，甚至在編輯器中打開它進行手動修改。它還內建了對worktrees的支援，因此多個智能體可以在同一個程式碼倉庫上工作而不會產生衝突。每個智能體都在程式碼的隔離副本上工作，允許使用者探索不同的實現路徑，而無需追蹤它們對本地程式碼庫的影響。在智能體工作時，使用者可以在本地檢出（check out）其更改，或者讓它在不觸動本地git狀態的情況下繼續推進。該應用會自動同步使用者在Codex CLI和IDE擴展中的會話歷史和配置，因此使用者可以立即在現有項目上開始使用。2. 通過Skills超越程式碼生成Codex正在從一個編寫程式碼的智能體，演變為一個使用程式碼在電腦上完成工作的智能體。通過技能（skills），使用者可以輕鬆地將Codex的能力從程式碼生成擴展到需要收集和綜合資訊、解決問題、寫作等更多工。skill捆綁了指令、資源和指令碼，使Codex能夠可靠地連接到工具、運行工作流，並根據團隊的偏好完成任務。Codex應用包含一個專門用於建立和管理技能的介面。使用者可以明確要求Codex使用特定技能，或者讓它根據當前任務自動使用為了展示其能力，OpenAI讓Codex製作了一款賽車遊戲，一句話消耗700萬Token，從零手搓3D賽車遊戲！要求包含不同的賽車手、八張地圖，甚至還有玩家可以用空格鍵使用的道具，Codex利用一個圖像生成技能（由GPT Image驅動）和一個網頁遊戲開發技能，僅憑一個初始使用者提示，便獨立工作並消耗了超過700萬個token來建構這款遊戲。在此過程中，它扮演了設計師、遊戲開發者和QA測試員的角色，通過實際玩遊戲來驗證自己的工作以下是用於建立遊戲的、為清晰起見經過總結的初始提示：> 將Voxel Velocity實現為一款使用Three.js的3D體素卡丁車賽車遊戲，只設定一種模式：單人賽（固定3圈，1名人類玩家對7名CPU，所有8條賽道立即解鎖，無進度系統）。建構一個最簡化的賽前流程，僅包含：賽道（8個）、角色（8個）、難度（休閒/標準/困難）、可選的鏡像模式、可選的允許克隆角色，以及開始比賽按鈕。另外需要一個選項菜單和一個賽內暫停菜單（繼續/重新開始/退出）。> 建立一個街機風格的駕駛模型，具有響應靈敏的操控、對輕微撞牆的容錯、以有意義的漂移為主要技巧，以及一個能產生精確增壓等級的漂移充能系統（1級0.7秒，2級1.1秒，3級1.5秒），同時保持基礎速度“快但可讀”，並在寬闊的道路上保持持續的超車機會。> 實現8種道具，單道具容量，具有微妙的位置加權分佈和溫和的效果（最大失控時間≤1.2秒，最大轉向停用≤0.6秒），旨在創造有趣的混亂而非硬控。越野減速效果在增壓期間減少50%。> 定義8個角色的給定屬性和AI傾向，實現CPU難度預設和賽道編寫的賽車/變化樣條線、漂移區和障礙規避，以便AI能利用多車道寬度進行乾淨的超車。> 最後，交付HUD/音訊等基本要素（位置、圈數/最後一圈橫幅、小地圖、道具槽、計時器/分段時間、清晰的音效，以及每條賽道一個音樂循環）。隨後，Codex被從一個包含十個通用提示的列表中隨機抽取提示，進行持續的重新提示，以使其繼續解決問題。其中一個示例提示是：> 你的工作是加入新功能，使遊戲更接近原始設計。首先，玩遊戲並確定與原始設計相比缺少了什麼。然後選擇幾個缺失的功能並實現它們。每實現一個功能後，通過玩遊戲進行徹底測試，確認它能正常工作。如果在玩的過程中發現任何錯誤，也要優先修復它們。在OpenAI內部，團隊已經建構了數百個技能，幫助多個團隊將那些原本難以一致定義的工作放心地委託給Codex——從運行評估、監控訓練過程，到起草文件和報告增長實驗。Codex應用包含了一個技能庫，涵蓋了在OpenAI內部流行的工具和工作流，部分重點skill如下：實現設計：從Figma獲取設計上下文、資產和截圖，並將其轉化為具有1:1視覺保真度的生產級UI程式碼管理項目：在Linear中分類錯誤、跟蹤發佈、管理團隊工作量等，以保持項目推進部署到雲端：讓Codex將你建立的Web應用部署到Cloudflare、Netlify、Render和Vercel等流行的雲託管服務商生成圖像：使用由GPT Image驅動的圖像生成技能，建立和編輯用於網站、UI模型、產品視覺和遊戲資產的圖像使用OpenAI API建構：在建構時參考最新的OpenAI API文件建立文件：一套用於讀取、建立和編輯具有專業格式和佈局的PDF、電子表格和docx檔案的技能。當使用者在應用中建立一個新skill時，該技能可以在任何工作環境中使用：應用內、CLI或IDE擴展中。使用者還可以將技能檢入程式碼倉庫，使其對整個團隊可用。3. 通過自動化委託重複性工作借助Codex應用，使用者還可以設定自動化（Automations），讓Codex按照自動計畫在後台工作。自動化將指令與可選技能相結合，並按使用者定義的時間表運行。當自動化完成時，結果會進入一個審查佇列，以便使用者在需要時可以返回並繼續工作。在OpenAI內部，自動化已被用於處理重複但重要的任務，例如每日問題分類、尋找和總結CI失敗、生成每日發佈簡報、檢查錯誤等。4. 適配個人工作風格的個性開發者在與智能體協作時有不同的偏好。一些人想要一個直截了當、注重執行的夥伴；另一些人則更喜歡溝通性強、更具互動性的交流。Codex現在允許開發者在兩種個性之間進行選擇——一種是簡潔務實的風格，另一種是更健談、更具共情力的風格，兩者在能力上沒有差異。使用者只需在應用、CLI和IDE擴展中使用 /personality 命令即可切換。請參閱文件，瞭解更多關於如何設定和使用 Codex 應用的資訊https://developers.openai.com/codex/app默認安全，可配置設計OpenAI正在整個Codex智能體技術堆疊中整合設計即安全的理念。Codex應用使用與Codex CLI中相同的原生、開源且可配置的系統級沙盒。默認情況下，Codex智能體僅限於編輯其工作所在資料夾或分支中的檔案，並使用快取的Web搜尋。當需要運行網路訪問等需要提升權限的命令時，它會請求許可。使用者可以為項目或團隊配置規則，允許某些命令自動以提升的權限運行。下一步計畫企業和開發者越來越依賴Codex進行端到端開發。自去年12月中旬GPT-5.2-Codex推出以來，Codex的總體使用量翻了一番，在過去一個月裡，有超過一百萬名開發者使用了Codex。OpenAI表示將繼續擴展開發者可以使用Codex的場景和方式，包括在Windows上推出該應用、推動模型能力的前沿，並推出更快的推理速度。在應用內部，團隊將根據真實世界反饋繼續完善多智能體工作流，使其更容易管理平行工作並在智能體之間切換而不丟失上下文。同時，他們也在建構支援基於雲的觸發器的自動化功能，這樣Codex就可以在後台持續運行，而不僅僅是在電腦開著的時候。Codex建立在一個簡單的前提上：一切都由程式碼控制。一個智能體在推理和生成程式碼方面越出色，它在所有形式的技術和知識工作中就越有能力。然而，當今的一個關鍵挑戰是，前沿模型的能力與人們在實踐中輕鬆使用它們之間的差距。Codex旨在通過簡化指導、監督和將模型全部智能應用於實際工作的方式來縮小這一差距。OpenAI表示，他們專注於使Codex成為最好的編碼智能體，這也為它成為一個能夠處理超出編寫程式碼範圍的廣泛知識工作任務的強大智能體奠定了基礎。 (AI寒武紀)

OpenAI Codex桌面版深夜突襲！一人指揮Agent軍團，程式設計師徹底告別996

太帶勁了！搶先Claude 5，OpenAI深夜祭出了一個編碼殺器——Codex。它可以讓一人指揮多Agent平行協作，自帶Skills，編碼從此進入自動化時代。Claude 5的腳步聲越來越近，奧特曼終於坐不住了。就在剛剛，OpenAI毫無預警地拋出「王炸」——Codex正式進化為獨立的桌面App。這不僅僅是一個寫程式碼的窗口，更是一個能同時指揮千軍萬馬（多個Agent）的「全能指揮部」。Codex定位非常明確：要做Agent的「指揮中心」具體來說，Codex可以做到以下幾點：多工平行切換，毫不費力：同時呼叫多個AI智能體開展工作，並通過「工作樹」（worktrees）實現變更隔離，互不干擾；建立並呼叫Skills：將工具和開發規範封裝成可復用的能力；設定自動化流程：通過後台定時工作流，把那些重複性的瑣事統統交給Codex處理。假設想要為相簿裡的照片加入「拖曳」功能，選擇「工作樹」，即可讓AI在同一倉庫中各司其職。Codex的進化令人毛骨悚然，它不僅生成程式碼，還學會了利用程式碼作為「Skills」來操控電腦。比如想要解決項目中的Comment，直接呼叫安裝好的Skills，Codex立刻就把問題破解了。不僅如此，OpenAI僅憑一句話，就讓Codex消耗700萬 token，徒手搓出一個3D版賽車遊戲。這一次，Codex的誕生，並非是新瓶裝舊酒，更不是一次毫無誠意的「套殼」包裝。它標誌著AI程式設計正式從「對話助手」進化為「指揮中心」。奧特曼激動表示，「真是愛了愛了，它比我想像中還要驚喜」！「AI程式設計師就是不會耗盡多巴胺。他們不會感到沮喪，也不會耗盡能量。它們會一直堅持下去，直到解決問題」。OpenAI總裁Greg牆裂推薦——我多年來一直是終端和Emacs的鐵粉，但自從用了Codex之後，再回到終端簡直感覺像穿越回了過去，代差太明顯了。這種感覺，就像是一個專門為開發而生的AI智能體原生介面。OpenAI Codex代表著一種全新的AI Coding範式，極有可能重塑開發者與程式碼互動的邏輯。甚至，Codex還可與Claude Cowork狂飆能力，把雜亂桌面瞬間清理乾淨。目前，Codex正式在macOS上線，Windows版即將推出。OpenAI還放出了「限時福利」，ChatGPT免費使用者和Go版本也可用上Codex，Plus、Pro、Business、Enterprise和Edu計畫的使用者，速率直接翻倍。編碼殺器Codex APP震撼登場一人指揮所有AgentmacOS版Codex應用，是一個功能強大的新介面。它能讓開發者能輕鬆駕馭多個AI智能體，平行處理任務，並與AI協作搞定那些耗時的大活兒。過去一直以來，開發者和AI的關係是「結對程式設計」，你寫一段，它接一段。如今，Codex的出世將徹底改變軟體建構的方式——人類不再與AI緊密結對，直接給AI委派任務，貫穿於軟體設計、建構、發佈和維護的全生命周期。這一轉變的苗頭，實際上從2025年4月發佈Codex以來，便已初見端倪。開發者與AI的協作方式已發生了根本性轉變。現有模型可以端到端地處理複雜的、長流程的任務，開發者也開始在跨項目中指揮多個AI智能體：分派工作、平行跑任務，並放心地把耗時數小時、數天甚至數周的重大項目交給 AI 。核心挑戰已不再是AI能做什麼，而是人們如何大規模地指揮、監督並與它們協作——遺憾的是，現有的IDE和終端工具並非為此而生。這種全新的建構方式，加上模型能力的提升，呼喚著一種全新的互動載體。這正是OpenAI要推出Codex桌面應用的原因，主打「一個AI智能體的指揮中心」。多智能體平行，狂飆程式碼不亂套Codex為與AI智能體多工平行，建構了一個專注的空間。所有AI在按項目組織的獨立線程中運行，確保你無縫地在任務間切換，而不會丟失上下文。你可以在應用裡直接檢查AI的改動，在diff上寫評論，甚至用編輯器打開進行手動調整。它還內建了對Git worktree的支援，所以多個AI可以在同一個倉庫（repo）上開工而互不衝突。每個AI都在你程式碼的隔離副本上工作，讓你能探索不同的開發路徑，而無需操心它們會如何影響你的主程式碼庫。當AI智能體幹活時，可以把改動拉（checkout）到本地，或者讓它繼續推進，完全不動本地的git狀態。應用會自動從Codex CLI和IDE擴展中同步會話歷史和配置，這樣你馬上就能在現有項目中用起來。解鎖Skills外掛，手搓3D賽車遊戲Codex正從一個只會寫程式碼的AI，進化為一個能用程式碼在電腦上真正解決問題的AI。通過Skills（技能），可以輕鬆擴展Codex的能力。今後，Codex不再侷限於程式碼生成，還能處理資訊收集與整合、問題解決、寫作等任務。Skills就像是打包好的指令、資源和指令碼，讓Codex能可靠地連接工具、運行工作流，並按照團隊的習慣完成任務。Codex應用裡有一個專門的介面來建立和管理Skills。你可以明確要求Codex使用某個Skill，或者讓它根據手頭的任務自動呼叫。OpenAI舉了一個例子，曾讓Codex做一個賽車遊戲——要有不同的車手、八張地圖，甚至還有玩家能用空格鍵觸發的道具。利用圖像生成 Skill（由GPT Image驅動）和網頁遊戲開發Skill，Codex僅憑最初的一個使用者提示詞，就獨立工作並消耗了超過700萬個Token，把遊戲做了出來。它身兼數職，既是設計師、遊戲開發者，又是QA測試員，通過實際試玩來驗證成果。6萬Token可以看到，在只消耗了6萬token的這個版本裡，畫面非常粗糙。很窄的賽道中間，塞滿了撞上去會穿模的「障礙物」。技能箱可以吃，也可以發射，但好像沒有什麼效果。最尷尬的是，你會永遠在「第二圈」無限循環下去……80萬Token在80萬token的版本裡，畫面似乎好了一些，賽道也寬敞了不少，更接近大家平時玩的賽車遊戲了。但是箱子吃到的技能好像沒什麼用，發射出去之後，小車們還是各跑各的……而且依舊會在第二圈陷入循環，永遠跑不完。700萬Token最後這個700萬token的版本，畫質明顯好了很多。不僅有清晰的賽道，技能箱也更精緻了。這次，技能箱確實有用了。比賽剛開始，我們就吃了AI扔出的一個大招，沒有閃。於是，喜提倒數第一，不過，比起前兩個陷入無限循環的世界來說，這次至少能完賽了。從跑評測和盯著模型訓練，到起草文件和匯報增長實驗，OpenAI內部建構了數百個Skills，來幫助多個團隊自信地把以前很難統一定義的工作委派給Codex。Codex應用內建了一個Skills庫，涵蓋了OpenAI內部流行的工具和工作流，下面重點介紹幾個。實現設計：從Figma拉取設計上下文、資源和截圖，並將其轉化為視覺上1:1還原的生產級UI程式碼。管理項目：在Linear中處理Bug分類、追蹤發佈、管理團隊工作負載等，推動項目進展。部署到雲端：讓Codex把你做好的Web應用部署到流行的雲主機，如Cloudflare、Netlify、Render和Vercel。生成圖像：使用由GPT Image驅動的圖像生成Skill來建立和編輯圖像，用於網站、UI原型、產品配圖和遊戲素材。使用OpenAI API建構：在使用OpenAI API開發時，參考最新的文件。建立文件：一套用於閱讀、建立和編輯PDF、電子表格和檔案的Skills，排版佈局專業。使用Vercel和圖像生成Skills更新網站使用電子表格Skill建立表格以生成購物清單使用Linear管理你的Issue Backlog當你在應用中建立一個新Skill時，Codex可以在你工作的任何地方使用它：應用內、CLI或IDE擴展中。你也可以把Skills提交到程式碼倉庫，讓整個團隊都能用上。OpenAI分享的Agent Skills：https://github.com/openai/skills一鍵自動化，24h為你打工Codex可以設定Automations（自動化），按計畫在後台自動幹活。Automations將指令與可選的Skills結合，會按照你設定的時間表運行。當Automation完成時，結果會進入審查佇列，可以隨時切回來查看並根據需要繼續後續工作。設定自動化以定期建立新Skills在OpenAI，團隊一直用Automations來處理那些重複但重要的任務，比如每日Issue分類、尋找和總結CI失敗原因、生成每日發佈簡報、檢查Bug等等。雙人格模式，秒切換開發者在與AI合作時口味各不相同。有人喜歡直截了當、只講執行的搭檔；有人則喜歡話多一點、更有互動感的風格。Codex現在允許開發者在兩種個性間選擇——一種是簡潔務實風，另一種是更具對話感和同理心的風格。兩者的能力完全一樣，只為貼合你的喜好。只需在應用、CLI和IDE擴展中輸入/personality命令即可切換。默認安全，按需配置此外，OpenAI還將「設計即安全」（Security by Design）的理念融入了Codex AI智能體棧的方方面面。Codex 應用採用了原生的、開源且可配置的系統級沙箱（Sandboxing），這就跟在Codex CLI裡一樣。默認情況下，Codex AI 智能體只能編輯它當前工作的資料夾或分支裡的檔案，並使用快取的網頁搜尋。如果需要運行像聯網訪問這類需要更高權限的命令，它會先請求你的許可。你可以為項目或團隊配置規則，允許特定命令自動以提升的權限運行。一切皆由程式碼控制如今，企業和開發者正越來越依賴Codex進行端到端開發。自12月中旬發佈GPT-5.2-Codex以來，Codex的總使用量翻了一番，過去一個月裡有超過100萬開發者使用Codex。下一步，團隊繼續擴展Codex使用場景，包括上線Windows版應用、不斷突破模型能力邊界，以及實現更快的推理速度。OpenAI科學家感慨，過去幾周寫的程式碼比過去幾年還要多。而且，還用Codex修復了Prism多個bug和功能更新在應用內部，OpenAI還將根據實際反饋持續打磨多AI智能體工作流，讓管理平行任務和在AI間切換變得更容易，且不丟失上下文。他們還在為Automations開發基於雲端的觸發器支援，這樣Codex就能在後台持續運行——而不僅僅是在你電腦開著的時候。Codex建立在一個簡單的前提之上：一切皆由程式碼控制。一個AI智能體在推理和生成程式碼方面越強，它在各類技術和知識工作中的能力就越強。OpenAI全家桶然而，當今的一個關鍵挑戰在於，前沿模型的能力與人們在實際中輕鬆使用它們之間存在差距。Codex旨在縮小這一差距，讓人們更容易指揮、監督並將OpenAI模型的全部智慧應用到實際工作中。OpenAI致力於將Codex打造成最強的程式設計AI智能體，這也為它成為能處理程式碼之外廣泛知識工作的全能AI奠定了基礎。附錄在製作上面這款賽車遊戲時，Codex使用的初始提示詞如下（總結精煉版）：使用Three.js實現Voxel Velocity作為一個3D體素卡丁車賽車遊戲，只有一種模式：單人比賽（總是3圈，1個人類對7個CPU，所有8條賽道立即在這個模式下可用，沒有進度限制）。建構一個最小的賽前流程，僅包括：賽道（8），角色（8），難度（輕鬆/標準/刻薄），可選的鏡像模式，可選的允許克隆，和開始比賽，加上一個選項菜單和一個賽中暫停菜單（恢復/重新開始/退出）。建立一個街機駕駛模型，具有靈敏的操控，寬容的擦牆碰撞，有意義的漂移作為主要技能，以及一個漂移充電系統，產生精確的加速等級（1級0.7秒，2級1.1秒，3級1.5秒），同時保持基準速度「快但可讀」，並且在寬闊的道路上保持持續的超車。實現正好8個道具，單道具容量，微妙的位置加權分佈，和溫和的效果（最大失控≤1.2秒，最大轉向停用≤0.6秒），創造滑稽的混亂而沒有硬眩暈，加上在加速期間減少50%的越野減速。定義8個角色及其給定的統計資料和AI傾向，實現CPU難度預設和賽道編寫的賽車/變化樣條線，漂移區和危險迴避，以便AI使用多車道寬度進行乾淨的超車，並行布HUD/音訊要素（位置，圈數/最後一圈橫幅，小地圖，道具槽，計時器/分段，可讀的音效，和每個賽道一個音樂循環）。隨後，Codex不斷地被從10個通用提示詞的隨機列表中重新提示，以繼續處理這個問題。其中一個提示詞的例子是：你的工作是加入新功能，使遊戲更接近原作。首先，玩遊戲並確定與原作相比缺少了什麼。然後挑選幾個缺失的功能並實現它們。在每個功能之後，徹底測試它，通過玩遊戲並確認它工作正常。如果你在玩的時候注意到任何錯誤，也要優先修復它們。 (新智元)

再見，人類程式設計師！OpenAI自曝：一行程式碼都不寫了，100%用Codex

【新智元導讀】100%是用Codex寫的。還有內部爆料說，Codex讓他們僅用三天時間就搭出了伺服器，三周就發佈了APP。人類程式設計師，真的要退出歷史舞台了？矽谷的空氣裡再次充滿了躁動，而這一次的震源中心，回到了OpenAI。OpenAI的奇點時刻，也要來了？就在剛剛，X被一條爆料徹底刷屏——Codex，已經正式接管了OpenAI研究員「Roon」100%的程式碼編寫工作！Roon發出了感慨萬千的宣告：程式設計一直很痛苦，然而卻是必經之路。我很高興，它終於結束了。我驚訝於自己竟然這麼快就擺脫了程式設計的陰影，而且一點都不懷念它。甚至我有點遺憾，從前的電腦為什麼不是這樣的。早在去年12月，Claude Code之父Boris Cherny就曾投下一枚震撼彈——自己對Claude Code的貢獻100%都是由Claude Code完成的。這一「套娃式」的自我進化，直接引爆了矽谷的自動編碼狂潮。面對如此巨大的蛋糕，OpenAI顯然不會拱手相讓。如今，反擊已經開始。在剛剛過去的周末，Sam Altman已經公開預告：接下來一個月會發佈一堆關於Codex編碼模型的新產品。社區的風向也開始發生微妙的轉變。一些資深開發者評論道：在90%的情況下，GPT-5.2-Codex都能一次性完成我提出的請求。Claude雖然不錯，但它偶爾會偷偷插入「壞程式碼」；相比之下，OpenAI的新方案更像蘋果——主打一個開箱即用。看來，Codex和Claude Code的大戰，已經一觸即發！人類寫程式碼的時代，徹底結束？OpenAI研究員Roon的這個爆料，也讓網友們直言：AI終於到達了這個奇點！看來，人類直接手寫程式碼的時代，真的結束了。經過多年的模型迭代與資料積累，我們似乎真的站在了一個臨界點上：人類直接手寫程式碼，正在變得不再有任何意義，甚至是一種效率的浪費。在Roon的評論區，人們開始集體對程式設計時代說再見。是的，我熱愛電腦，熱愛軟體開發，對我而言，程式設計只是實現目標的手段，僅此而已。複雜的語法只是是我們為了讓邏輯得以執行而必須付出的昂貴代價。如今，這些中間商終於可以退場了。激進的觀點開始湧現。甚至有人建議，既然不需要人類閱讀程式碼了，我們就該讓模型跳過人類可讀的彙編語言，直接使用機器程式碼。今天的程式設計就像曾經的打孔卡一樣，應該永遠消失了。與此同時，另一個炸裂的消息從OpenAI內部流出——一位研究員爆料，在Codex的輔助下，他們僅用了三天時間，就從零搭建了OpenAI的MCP伺服器，並完成了規模驗證。不僅如此，他們還在3周內推出了Sora的Android應用；此外，還有一大波由Codex建構、甚至由Codex自我稽核的內部工具正在排隊上線。如果沒有Codex的話，很難想像OpenAI能以如此驚人的速度發佈產品。有趣的是，這位大佬似乎還玩起了Claude Code之父的梗：過去30天，我花了大量時間稽核Plan和PR，幾乎沒寫一行程式碼！有人評價，這正是「起飛」第一階段的樣子。而下一步，或許就是真正的端到端AI自主研究。還有人問，確定你們這不是行銷？這位研究者詳細解釋說，絕對不是。具體的使用過程是這樣的：首先，他會花很多時間來撰寫規格說明，並在腦海中構想輸出應該是什麼樣子。然後，會啟動一個「4×Codex」的雲端並行任務。這樣不僅可以一次性看到多種不同的變體，也能補上自己一開始遺漏的細節。接下來，就是讓Codex自己發揮。等它跑完，人類再介入進行測試和驗證。Codex CLI 0.9+來了！既然「人機協作」的範式已經改變，那麼承載這種範式的工具自然也要升級。面對Anthropic在的步步緊逼，OpenAI顯然有備而來。就在今天，Codex CLI連續推送了兩次更新，版本號直接來到了0.91.0。其中，Codex 0.9.0帶來了最受大家期待的功能——Plan Mode（計畫模式）！Code模式是Codex的默認體驗，它的工作方式和其他AI智能體一樣。這點咱們就不多費口舌了。但Plan模式則完全不同，它將程式設計任務拆解為兩個截然不同的階段：第一階段：理解意圖（明確目標、劃定範圍、識別約束條件、制定驗收標準）第二階段：技術規格（生成決策完備的實施方案）在這種模式下，輸出的內容非常詳盡，無需任何後續追問即可直接執行。Plan模式最聰明的地方在於：它堅持「證據優先探索」。在開口問問題之前，Codex會先在你的程式碼庫中進行2次以上的針對性搜尋，檢查配置、Schema結構、程序入口等。此外，Plan模式還可以呼叫全套工具：它可以（並且將會）呼叫各種技能、子智能體和後台終端，從而建構高層級的實施計畫。當Codex確實需要你輸入時，它是結構化的，而且只有關鍵且聚焦的問題：· 儘可能提供選項· 總是包含一個推薦選項（對新手極其友好）· 只問那些會實質性改變計畫的問題為了實現這一互動，它利用了新的request_user_input工具。這個工具會暫停執行流程，拋出一道有針對性的多項選擇題，並支援你在選擇時補充反饋或上下文。更貼心的是，一旦它在任何時候檢測到歧義，尤其是當你在引導它時指令模糊，它會立即停下來確認，而不是盲目執行。現在，開發流程變成了這樣：使用者請求一個計畫 -> AI研究程式碼庫與規劃 -> 針對性詢問使用者 -> AI完善並完成計畫 -> 提示是否執行？但是，程式碼誰來審？看起來完美無缺，對吧？Codex負責思考，Codex負責執行，Codex負責填滿你的GitHub。但就在我們為這種極致的效率歡呼時，一個被忽視的深淵正在腳下裂開——在這個新時代，最大的懸念不再是誰在寫程式碼，而是誰來稽核程式碼。當AI火力全開，每天向倉庫甩出10+個PR時，人類開發者面臨的實際上是一場針對注意力的DDoS攻擊。AI生成程式碼是毫秒級的，而人類理解程式碼上下文是分鐘級甚至小時級的。這種「生產與審查的極度不對稱」帶來了兩個可怕的後果：審查者被淹沒，開始習慣性點「Approve」，Code Review淪為形式。那些看起來能跑、但缺乏系統性思考的程式碼塊，正在像癌細胞一樣在程式碼庫中擴散。利益衝突顯而易見，但我們需要看透這一層。Claude Code的創造者吹捧自己的工具天經地義——這是商業的本能。但作為受眾，我們不能把「Demo裡的完美世界」當成日常。畢竟，Demo不會展示偵錯三小時都找不到的競態條件，也不會展示由於上下文丟失導致的邏輯斷層。除此之外，資料裡還藏著一個迷人的悖論。Ars Technica曾報導稱，開發者對AI工具的使用量在漲，信任度卻在跌。為什麼？因為AI正在跨越「恐怖谷」。以前的AI程式碼爛得很明顯，現在的AI程式碼爛得很隱蔽——它引用了不存在的庫，或者在一個極其邊緣的Case上埋了雷。人們用得越多，踩的坑越多，信得自然越少。正如Jaana Dogan所警示的，我們正在面臨軟體工程「瑣碎化」的風險。100個提交，可能讓GitHub的綠格子很好看。1個架構變更，可能需要三天思考，零行程式碼產出。前者廉價如塵土，後者珍貴如黃金。問題從來不是AI能不能寫程式碼，而是它寫的程式碼，是不是我們系統真正需要的，以及我們是否有能力維護它。這對我們意味著什麼？無論我們是否準備好，這個時代已經來了。對於不同的人群，這意味著完全不同的生存法則。致開發者AI編碼工具不是「即將來臨」，它們已經破門而入。問題在於，如何在不丟失自身核心價值的前提下整合它們。技術大牛們依然在做那些艱難的思考工作，AI只是接過了「打字員」的工作。如果你只會「搬運程式碼」，那你確實該慌了。致非開發者「技術工作」與「非技術工作」的邊界正在消融。Claude Cowork這類工具創造了新物種。曾經需要開發者才能搞定的任務，可能很快只需要你能清晰描述出你想要什麼。清晰描述需求的能力，將成為新的程式語言。最後的話雖然OpenAI的研究員和Claude Code的創造者都在宣稱AI包辦了100%的程式碼，但請記住——那是他們的實驗室環境，不是你的生產環境。唯一可以確定的是，我們正在經歷從「寫程式碼」到「指揮寫程式碼」的不可逆的轉變。而且，正在加速。 (新智元)

騰訊研究院AI速遞 20260126

生成式AI一、OpenAI Codex預告，今先揭秘Codex CLI核心智能體循環1. OpenAI CEO奧特曼預告下周起將發佈Codex相關重磅內容，官方同步發佈技術部落格揭秘Codex CLI核心架構——智能體循環；2. 智能體循環通過Responses API協呼叫戶指令、模型推理與本地工具執行，採用"提示詞前綴一致"策略觸發快取最佳化性能；3. Codex支援零資料保留配置保障隱私，利用自動壓縮技術管理上下文窗口，後續將深入介紹工具呼叫和沙箱模型。二、Google DeepMind 發佈 D4RT，徹底顛覆了動態 4D 重建範式1. GoogleDeepMind發佈D4RT，將3D重建、相機追蹤、動態物體捕捉統一成"查詢"動作，速度比現有SOTA快18至300倍；2. 核心創新是統一的時空查詢介面，AI先全域"閱讀"視訊生成場景表徵，再按需搜尋任意像素的3D軌跡、深度和位姿；3. 該技術對具身智能、自動駕駛和AR意義重大，讓AI即時理解動態環境，但訓練仍需10億參數模型和64個TPU。三、Claude Code 宣佈重磅升級：將內部的Todos升級為 Tasks1. Claude Code將內部"Todos"升級為"Tasks"，支援多會話或子代理協作完成跨越多個上下文窗口的長期複雜項目；2. Tasks儲存在檔案系統中便於多個會話協同，當一個會話更新Task時會廣播給所有處理同一任務列表的會話；3. 新功能適配Opus 4.5更強的自主運行能力，使用者可通過環境變數讓多個會話在同一任務列表上協作。四、文心5.0正式版發佈，霸榜LMArena的最強文科生強在那1. 百度文心5.0正式版上線，參數量達2.4兆，採用原生全模態統一建模技術，支援文字、圖像、音訊、視訊的理解與生成；2. 在LMArena文字和視覺理解榜單五次登頂，進入全球第一梯隊，語言與多模態理解能力穩居國際領先；3. 實測顯示模型在複雜情感理解、弦外之音分析、創意寫作等文科任務表現突出，被稱為"最強文科生"。五、Clawdbot刷屏，AI智能體+閘道器，現階段使用請注意風險1. 開放原始碼專案Clawdbot在矽谷爆火，可在Mac mini上運行，兼具本地AI智能體和聊天閘道器雙重身份，通過WhatsApp、iMessage等隨時對話；2. Clawdbot解決了大模型記憶力痛點，能記住兩周前的對話，還會主動推送郵件、日程提醒，並可直接操控電腦執行任務；3. 項目GitHub獲9.2k星，最低月成本約25美元，但需要一定技術基礎部署，使用者反饋它能自動管理生意、寫程式碼替代Zapier等付費服務。六、LeCun創業官宣核心方向，掀起對Next-token範式的「叛變」1. 圖靈獎得主LeCun創立的AMI Labs官宣核心方向為"世界模型"，旨在建構理解現實世界、具備持久記憶和推理規劃能力的智能系統；2. 該路線認為僅靠預測下一個token無法真正理解現實，需在更高層次表徵空間進行預測與推理，過濾不可預測的噪聲資訊；3. AMI Labs據傳正以35億美元估值融資，目標應用於工業控制、機器人、醫療等對可靠性要求極高的領域。七、實測：Claude in Excel，能聯網、能做表、辦公完全自動化1. Anthropic推出Claude in Excel外掛，支援Pro、Max、Team、Enterprise使用者，基於Opus 4.5模型，可通過Microsoft Marketplace安裝啟動；2. 外掛能聯網搜尋並自動填充表格，支援讀取公式、Debug錯誤、從零建模、製作透視表等功能，支援.xlsx和.xlsm格式；3. 當前不支援條件格式、宏和VBA，官方提醒存在prompt injection風險，建議只用可信來原始檔，高危函數會彈確認框。報告觀點八、Claude Code之父最新私教課：手把手教你Claude Cowork1. Claude Code創造者Boris Cherny詳解Cowork使用方法，強調將其當作"執行者"而非聊天工具，可直接操控檔案、瀏覽器和各類工具；2. 在之前X推文基礎上，再次強調：核心工作流是平行運行多個任務照看Claude們，先用"計畫模式"來回溝通直到滿意，再切換"自動接受編輯"模式執行；3. 強調Claude.md作為團隊複利式知識庫的重要性，任何Claude犯的錯都應加入進去，以及給Claude驗證輸出的方式能顯著提升質量。九、Google總監警告：只會寫Prompt的程式設計師，2026年將被淘汰1. Google雲AI總監Addy Osmani警告"氛圍程式設計"已撞南牆，AI能完成70%前期工作但剩餘30%只有經驗豐富的工程師能搞定；2. Stack Overflow調查顯示開發者對AI精準性信任度從40%降至29%，73%受訪者遇到過氛圍編碼導致的程式碼理解問題；3. 2026年真正核心競爭力是把模糊問題轉化為明確執行意圖、設計好上下文結構，以及區分真正重要的東西。十、「AI 無處不在」的達沃斯論壇，科技巨頭們都說了那些金句？1. 馬斯克預測2026年底前AI將超越人類智慧，到2030年AI將比全人類集體智慧更聰明，特斯拉明年底將開售人形機器人Optimus；2. 微軟CEO納德拉警告若AI只消耗資源不改善結果社會會失去容忍，黃仁勳稱具身智能是"一代人一次的機會"；3. DeepMind CEO哈薩比斯認為AGI還需5-10年，Anthropic CEO達里奧稱只差6-12個月模型就能端到端完成軟體開發。 (騰訊研究院)

超級應用的平台野心！OpenAI版小程序誕生！奧特曼深夜五連發！ChatGPT可內建應用，Codex超強更新，AI建構者時代已至

一不留神，OpenAI 正式直接將ChatGPT聊天變成了各大app的平台入口了。就在 5 個小時前，OpenAI 再次更新了超級AI原生應用的定義！！！剛進入10月，OpenAI接連甩出了5連炸。Sora2隻是開胃菜！就在昨天凌晨2點，大洋彼岸的舊金山再次被OpenAI點燃了！Sam Altman 帶領著OpenAI終於實現了驚豔一跳：AI時代，超級AI原生應用已經從聊天進化成了內建應用入口平台了！“我們希望今天能給你一些新的靈感，去創造屬於你的作品。我們希望 OpenAI 能成為這個全新創造時代的理想平台。”OpenAI DevDay上，50分鐘左右的keynote，掌聲接連不斷。看得出來這次開發者對於OpenAI的發佈是真的太喜歡了！可以說，時隔兩年，這是最親民的一次發佈。奧特曼特別挑明了這次DevDay的主題：“讓AI建構變得更容易”。今天，我們要聚焦一件對你們最重要的事：讓 AI 建構變得更容易。我們一直在傾聽開發者的聲音——瞭解你們遇到的瓶頸，以及下一步想建構什麼。小編特地一早為大家整理了會上的發佈內容。這次發佈有四項精彩的主題：首先，OpenAI展示了開發者已經可以在 ChatGPT 裡直接建構應用，同時可以幫助更高效地觸達使用者。其次，如何更快、更好地建立智能體（Agents）。第三，如何讓寫程式碼變得更輕鬆——讓 AI 處理那些重複性工作，從而讓你專注於系統和創造力。第四，OpenAI帶來了新的模型和 API 的更新。這是有史以來最適合當“建構者”的時代！奧特曼用加速度來形容這場發佈——“從想法到產品，從未如此快速。你能真切地感受到這種加速度。”ChatGPT中直接建構App：應用直接裝在Chat中OpenAI 宣佈推出一種全新的方式，讓開發者可以在 ChatGPT 內直接建構應用程式。從周一開始，ChatGPT 使用者將能在聊天介面中訪問來自 Booking.com、Expedia、Spotify、Figma、Coursera、Zillow 和 Canva 等公司的互動式應用。同時，OpenAI 也發佈了 Apps SDK 的預覽版——這是一套供開發者使用的工具包，用於建立這些應用。據悉，開發者今天就可以開始使用了。至於推出的理由，奧特曼這樣描述這個新發佈：“我們希望 ChatGPT 成為一個幫助人們更好地前進的平台——讓他們更高效、更有創造力、更快地學習，更好地完成自己想做的事情。嵌入 ChatGPT 的應用程式，將讓新一代的應用變得更加互動、適應性更強、更加個性化，而且使用者可以直接通過聊天與它們互動。”但不難想像，這套新系統是 OpenAI 最新一次試圖在其旗艦 AI 產品 ChatGPT 周圍建構“應用生態”的努力。此前，OpenAI 曾通過 GPT Store 讓開發者製作互動式應用（當然最後市場的反應似乎並不是很成功）。但與那種獨立的應用程式商店不同，這次推出的“內嵌應用”直接整合進 ChatGPT 的回答中，讓使用者在日常對話時即可呼叫第三方工具。這樣既為開發者提供了更好的分發管道，也讓 ChatGPT 的使用者體驗更加豐富。具體怎麼操作？使用者只需在 ChatGPT 中輸入不同應用的名稱，就能調取來自各種服務的內容。例如，使用者可以說：“Figma，把這張草圖變成一個可用的流程圖”，以呼叫 Figma 應用。也可以輸入：“Coursera，教我一點機器學習相關的內容”，來呼叫 Coursera 應用。在 Zillow 的應用演示中，使用者可以用自然語言讓 ChatGPT 搜尋符合特定價格區間的公寓。隨後，ChatGPT 會生成一張互動式地圖展示結果，使用者還能通過對話瞭解各個房源的更多細節。此外，ChatGPT 還會在對話中主動推薦可能有幫助的應用。例如，當使用者請求“幫我為這周末的派對生成一個歌單”時，ChatGPT 可能會自動呼叫 Spotify 應用。未來，OpenAI 計畫將 DoorDash、Instacart、Uber 和 AllTrails 等更多應用引入 ChatGPT。OpenAI同時表示，這一系統是基於 Model Context Protocol（模型上下文協議，MCP）建構的——該協議允許開發者將他們的資料來源連接到 AI 系統。ChatGPT 應用不僅能觸發特定動作，還能在聊天介面中直接渲染完整的互動式介面。有些應用甚至可以在 ChatGPT 中播放視訊，視訊會固定在網頁頂部，並可根據使用者的需求進行動態調整。如果使用者已經訂閱了某項服務，他們將能夠直接在 ChatGPT 中登錄帳戶，使用部分特定功能。奧特曼還透露，OpenAI 未來會支援在 ChatGPT 內對應用進行商業化，包括通過公司最近推出的“即時結帳”（Instant Checkout）功能來付費購買。此外OpenAI還同步上線了一份開發者建構指南。地址：https://developers.openai.com/apps-sdk/app-developer-guidelines不過，圍繞 ChatGPT 應用系統的關鍵問題仍在於隱私和資料訪問範圍。OpenAI 表示，開發者“必須僅收集最低限度所需的資料，並對權限保持透明”。但目前尚不清楚開發者能訪問到使用者的全部聊天內容、最近幾條消息，還是僅能看到觸發該應用的提示語。此外，ChatGPT 在面對多個競爭服務（例如 DoorDash 與 Instacart）時如何選擇也仍是未知數。外界推測公司未來可能允許品牌付費提升曝光，但 OpenAI 表示，它的首要原則仍是“以使用者體驗為中心”。奧特曼這樣評價 Apps SDK：這是一種“在正確時間找到正確應用”的全新方式，同時也為開發者提供了新的曝光途徑。當然，小編髮現只有Plus或Teams使用者可以使用，相信漫漫就會向免費用放開。Agentkit：更快更好地建構部署智能體接下來的Agentkit也是本場DevDay的精彩看點。奧特曼上來就指出了現在建構生產級Agent的痛處：跟數千個團隊交流後，OpenAI在思考一個問題：既然 Agent 正在重新定義“工作”，那麼 OpenAI 能不能讓建構 Agent 變得更容易？所以這次全新的解決方案 AgentKit，就是專為希望“從想法快速到成品”的開發者而生。AgentKit 是 OpenAI 平台中的一整套模組化建構工具，幫助你將 Agent 從原型快速推向生產。建構、部署、最佳化，全流程也都有了。ps：大家都知道市面上的已經不少Agent框架發佈了，這次OpenAI的下場，勢必會加劇該領域市場的競爭。AgentKit 有三大核心元件。第一，Agent Builder。一個快速的可視化工具，讓你能直觀地設計邏輯步驟、測試流程、實現創意。它基於 OpenAI 廣泛使用的 Responses API 建構——已有數十萬開發者熟悉並使用它。第二，ChatKit。通過它，開發者可以輕鬆地把優質對話體驗整合到自己的應用中。你將獲得一個簡潔、可嵌入的聊天介面，可以自由定製品牌風格、工作流邏輯，專注於讓你的產品更具獨特性。下面視訊中可以看到，ChatKit 如何在每個 Agent 節點之間流暢工作，甚至呼叫工具，以生成最優回覆。第三，Evals for Agents。專門用於評估 Agent 性能的新功能。包括：Trace Grading（跟蹤評分）：逐步分析 Agent 的決策邏輯；Datasets（資料集）：評估單個 Agent 節點表現；自動提示最佳化（Automated Prompt Optimization）；甚至可以在 OpenAI Evals 平台內直接評估外部模型。“這是我們在最初建構 Agent 時夢寐以求的一整套工具。”除此之外，在安全的資料訪問方面，也十足重要。OpenAI表示，通過此前發佈的 Connector Registry（連接器註冊中心），開發者可以安全地將 Agent 與內部系統或第三方服務連接，所有訪問都可通過管理員面板進行控制，既靈活又安全。奧特曼還親自展示了幾個例子。他提到了一家非常具有規模化的連鎖店智能體使用的例子。不同資料來源、不同系統協同運作，生成真正有用、合理的答案。這也是使用 AgentKit 能實現的體驗。“目前，已有多家出色的首發合作夥伴借助 AgentKit 成功規模化部署了 Agent。從今天起，所有人都可以開始使用。”更強大的 CodexApp、Agent 之後，下面則是軟體開發領域的智能體Codex。奧特曼特別提到了，軟體開發智能體降低開發門檻這件事。在日本，一位 89 歲的退休老人在 ChatGPT 的幫助下自學程式設計，他已經為老年人開發了 11 款 iPhone 應用，把自己一生的智慧變成了幫助他人獨立生活的工具。但這並不是重點，重點是，今天OpenAI終於全面開放了自家內部在使用的Codex，而不僅僅是預覽版！上一次Codex推出大量新功能還是8月份，跟隨GPT-5一起發佈： GPT-5 Codex 模型。該模型在程式碼重構和程式碼審查等任務上表現更佳，還能根據任務複雜度動態調整思考時間。奧特曼透露道，開發者非常喜歡這個新模型。Codex 的使用量增長極快。“我們關注的一個關鍵指標是每日消息量——也就是開發者每天與 Codex 的任務和對話次數。自 8 月初以來，這個數字增長了 10 倍。這種快速增長也讓 GPT-5 Codex 成為了我們增長最快的模型之一。自發佈以來，我們已處理超過 40 兆 tokens。”那這一次帶來的 Codex 版本自然也有一系列新功能，主要有以下幾點，主要是面向工程團隊推出的更新。第一，Slack 整合。這是很多人強烈要求的功能。現在你可以在團隊的 Slack 對話中直接讓 Codex 寫程式碼或回答問題。第二，新的 Codex SDK，幫助團隊在自己的工作流中擴展和自動化 Codex。第三，新的管理與報告工具，包括環境控制、監控和分析儀表盤等，幫助企業更好地管理 Codex。此外值得一提的是，與Anthropic的定位不同，奧特曼將Codex的使用者定位更廣——最鼓舞人心的一點，是 Codex 使用者的廣度：從周末寫 side project 的獨立開發者，到高速成長的初創公司，再到全球企業。比如 Cisco 已經在整個工程組織內部署了 Codex，他們的程式碼審查速度提升了 50%，項目周期從數周縮短到了幾天。通過 Codex 和 OpenAI 的 API，把你身邊的任何東西都變成可運行的軟體。OpenAI負責人還展示了幾個非常有意思的功能：比如在IDE環境裡的Codex，提示詞可以很簡短，自動理解上下文。另外還可以通過語音即時的氛圍互動，此外也可以接入已經開發好的MCP。這位負責人在語音模式過程中，全程沒有敲一行字，Codex可以即時的進行互動，並完美的按照語音指令，連接起了草稿、裝置，完成了現場拍攝照片的任務，可以說達到了一個小高潮！回到語音模式——“你能讓 Codex 顯示一個像電影片尾那樣的字幕動畫，演員名單就是在場的觀眾嗎？”“我正在用 Codex 處理，很快告訴你結果。”“太好了。那能同時倒數並給我們拍張合影嗎？”——搞定！（歡呼與掌聲）API 中新增的模型：GPT5-Pro、Sora2、精簡版語音模型為了極大拓展 AI 的可能性，OpenAI這次還在API中新發佈了GPT-5 Pro、Sora 2 和 Realtime Mini。其中 GPT-5 Pro被奧特曼成為有史以來最智能的模型。而Realtime Mini 則是一款高級語音模型的精簡版。Sora2自然不用說了，國慶節剛剛宣佈，現在算是終於上線API了。寫在最後：可怕的OpenAI時隔第一次 OpenAI Dev Day，已經過去兩年。OpenAI 給業界帶來的想像力真的可以說是恍如隔世。用奧特曼的話來形容，OpenAI的開發者生態已經發展到足以讓Google、蘋果都難以小覷的程度：回到 2023 年，當時我們有 200 萬開發者，1 億 ChatGPT 周活使用者。我們的 API 每分鐘處理約 3 億個 token，當時我們覺得這已經很多了。如今，已有 400 萬開發者在使用 OpenAI。每周有超過 8 億人使用 ChatGPT。我們的 API 每分鐘處理超過 60 億個 token。400萬開發者、8億周活躍使用者、每分鐘API呼叫量超過60億Token。而，這些數字自然是OpenAI作為最強大的模型供應商所帶來的虹吸效應，但僅僅只是如此嗎？這次開發者日的發佈，顯然說明，OpenAI的版圖遠不止於模型這麼簡單。從GPTs的嘗試，再到如今的直接將應用裝到ChatGPT的Apps SDK、再到一站式的Agentkit、視訊領域的Sora2、音訊領域的Realtime API，據說在硬體領域奧特曼和ive也已經開發出了全新一代的智能互動終端。可以說ChatGPT已經從一個聊天軟體逐漸演變成一個無所不能、無所不包含的超級平台。Apps SDK，幫助你在 ChatGPT 中建構原生應用；AgentKit，讓你能更自信地部署智能體；更強大的 Codex，助你和團隊更快完成產品發佈；在 API 中新增的模型：GPT-5 Pro、Sora 2 和 Realtime Mini，它們將極大拓展 AI 的可能性。所有這一切，奧特曼如是說：“OpenAI的目標，是讓 AI 對每個人都有用。”那對於我們技術人而言，請不要遲疑，沒錯，正在見證一場重大變革。網際網路時代，大家搞起了LAMP框架；移動開發時代，大家紛紛成為Android開發者、iOS開發者；而如今，相信地球上開始誕生一種名曰“OpenAI”開發者或者“ChatBot”開發者的稱謂。因為時代的車輪推進如此之快，以前需要幾年、幾個月的軟體開發，現在通過ChatGPT，只需幾分鐘。“之前複雜的基礎設施似乎再也不用多加考慮了，你只需要一個好的idea！”多麼可怕的未來，多麼可怕的OpenAI！AGI時代的巨頭已然成型了！ (51CTO技術堆疊)

GPT-5-Codex免費了！

深夜的程式碼世界又被OpenAI點燃了！🔥還在為複雜的程式碼重構頭疼？還在擔心bug漏掉被老闆罵？GPT-5-Codex橫空出世，直接把程式設計體驗拉到科幻等級！想像一下：你隨手丟個需求，它能獨立工作7小時不間斷，從零搭建完整項目、加入功能、寫測試、偵錯bug...甚至比資深工程師還細心！💡最炸裂的是什麼？它的程式碼審查能力簡直是顯微鏡等級——能穿透整個程式碼庫，理解依賴關係，運行測試驗證正確性。OpenAI內部每天靠它揪出數百個潛在問題，效率爆表！更牛的是，GPT-5-Codex會"看臉色"：簡單任務秒回應，複雜項目深度思考。資料顯示，簡單任務用時比GPT-5少93.7%，複雜任務思考時間翻倍——這就是AI隊友的智慧！從命令列到IDE，從網頁端到手機APP，Codex現在無處不在。Cisco、Duolingo這些大廠已經用它提速開發，小團隊也能享受企業級程式設計體驗。最關鍵？它還超級安全，沙盒環境運行，資料不洩露，讓你放心把"苦活累活"交給它！🛡️(澤問科技)

OpenAI Codex徹底火了，4個官方前端提示示例給你

gpt-5-codex徹底火了，很多人已經從Claude code 轉向 codex了，只能說使用者都是牆頭草，只要工具好，一秒切換，毫不猶豫，OpenAI 趁熱打鐵，官方codex示例和提示詞也來了gpt-5-codex在響應式和移動端前端開發方面表現非常好，以下是一些示例和提示詞1.像素遊戲English:Make a pixel art game where I can walk around and talk to other villagers, and catch wild bugs.中文:做一個像素風遊戲，我可以在裡面四處走動，和村民們交談，還能捕捉野生的昆蟲2.工作管理平台English:Give me a work management platform that helps teams organize, track, and manage their projects and tasks. Give me the platform with a kanban board, not the landing page.中文:給我一個工作管理平台，用來幫助團隊組織、跟蹤和管理項目與任務。我想要的是帶有看板的平台本身，而不是它的介紹頁3.根據草圖製作網頁English:Given this image as inspiration. Build a simple html page joke-site.html here that includes all the assets/javascript and content to implement a showcase version of this webapp. Delightful animations and a responsive design would be great but don't make things too busy.中文:以這張圖片為靈感，在這裡建立一個名為 joke-site.html 的簡單 HTML 頁面。頁面需要包含所有必要的資原始檔（assets）、JavaScript 和內容，用以實現這個網頁應用的展示版本。如果能有令人愉悅的動畫和響應式設計就更好了，但別把頁面弄得太花哨4.根據線框圖轉化為應用程式English:"I have this wireframe, can you convert it to a real app for me? Generate HTML / inline CSS code for this website. Include CDN links for Tailwind / Bootstrap etc. Save your output to a file called index.html in the container's current directory."中文:我有一個線框圖，你能幫我把它轉換成一個真正的應用程式嗎？請為這個網站生成 HTML 和內聯 CSS（inline CSS）程式碼，並引入 Tailwind、Bootstrap 等框架的 CDN 連結。然後，將輸出結果保存到容器當前目錄下一個名為 index.html 的檔案中可以試試以上提示詞，看看是否可以復現 (AI寒武紀)