#Codex
Codex不打算讓Claude Code好過
2月6日,OpenAI總裁Greg Brockman在X上公開發了一條面向全公司工程團隊的帖子,設了一個deadline:到3月31日,任何技術任務,工程師的第一工具應該是agent,而不是編輯器或終端。這是OpenAI對自己下的動員令。如果只看這句話,你可能會覺得又是一條矽谷式的願景聲明。但接下來六周發生的事情表明,Brockman不是在喊口號。OpenAI的Coding Agent平台Codex,正在經歷一輪罕見的產品衝刺,密度之高,節奏之快,甚至讓一些長期關注AI編碼工具的開發者開始重新審視自己的工具鏈。與此同時,Codex在程式設計師群體中的熱度和口碑也在肉眼可見地上升。一切動作都指向“狙擊”Anthropic 如日中天的Claude Code。六周的瘋狂迭代拉一下時間線就能感受到這個節奏。2月2日,Codex桌面App發佈(macOS),OpenAI同時宣佈向ChatGPT免費和Go使用者開放Codex,所有付費使用者的速率限制翻倍。2月5日,GPT-5.3-Codex發佈,OpenAI稱它為"第一個幫助創造了自身的模型"。同一天,Anthropic發佈Claude Opus 4.6。2月12日,Codex-Spark發佈,與AI推理硬體公司Cerebras合作,推理速度超過每秒1000 tokens。OpenAI的說法是,“當模型能力越來越強,互動速度就成了明確的瓶頸。”2月14日,OpenClaw創始人Peter Steinberger宣佈加入OpenAI。據Pragmatic Engineer報導,Steinberger用Codex編寫了OpenClaw的全部程式碼,偏好長時間運行的agentic loop。Sam Altman在X上稱他為“天才”,說他將“推動下一代personal agents”。3月4日,Codex桌面App登陸Windows。3月5日,GPT-5.4發佈,是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支援100萬token上下文。3月6日,Codex Security進入research preview。這是OpenAI推出的應用安全代理,前身為內測階段的Aardvark,能夠分析程式碼倉庫、建構項目級威脅模型、在沙盒中驗證漏洞並提出修復建議。過去30天的beta測試中,它掃描了超過120萬次commits,發現792個critical等級漏洞和超過10000個高危問題,覆蓋OpenSSH、GnuTLS、Chromium等重量級開放原始碼專案。誤報率降低超過50%,噪音降低84%。使用資料也在同步攀升。Sam Altman在X上確認,Codex的周活使用者自年初以來增長超過三倍;Codex團隊負責人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月以來它的使用量增長了5倍,周活開發者超過100萬。Tibo還在播客中提到,Super Bowl周日播出的Codex廣告讓系統幾乎立即承受了巨大負載。六周,七次重大產品動作,這成了OpenAI在產品上最激進的衝刺之一。要理解這個節奏,一方面要看供給側的變化。GPT-5系列模型的agent能力在過去幾個月出現了質的飛躍,從上下文窗口、工具呼叫到長時間自主執行,模型本身的能力到了一個可以支撐Coding Agent這個產品形態的臨界點。另一方面,需求側的訊號同樣強烈。據SemiAnalysis報導,Anthropic的Claude Code已經做出25億美元的年化收入,佔其企業收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對於估值據報已達數千億美元的OpenAI來說,放棄這個賽道不是一個現實的選項。根據SemiAnalysis的預測AnthropicARR增速一度超過OpenAI時間點上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發佈。Codex Security和Claude Code Security幾乎同期推出。這種節奏本身就是訊號,兩家公司正在把Coding Agent平台視為正面戰場。開發者開始從Claude Code的單一模式變成混合模式在很長一段時間,Anthropic旗下的Claude Code看起來似乎已經沒有了對手,使用者對它的依賴變得越來越重。而OpenAI顯然不想讓Anthropic 這麼舒服。在Codex的一通激進衝刺後,開發者社區的反應也開始發生一些變化。過去一個月,Reddit和Hacker News上關於Codex和Claude Code的討論,出現頻率最高的詞不是更好或替代,而是stacking。也就是說,越來越多的開發者不是在兩者之間選擇,而是同時使用。Calvin French-Owen是一個典型案例。他是Segment聯合創始人,曾在OpenAI參與Codex web產品的發佈,同時也是Claude Code的深度使用者。他在今年2月寫的一篇部落格裡說,自己選擇工具的核心標準是“我有多少時間,以及我想讓它多自主地跑”。他的日常工作流是用Claude Code做規劃、編排終端和管理git操作,然後切到Codex做實際編碼。他說Opus在跨上下文窗口的工作中效率更高,會同時啟動多個子代理平行探索程式碼庫;而Codex在長時間自主編碼任務上更穩定。Reddit上也出現了更具體的分工模式。有開發者詳細描述了一個五段式workflow,先讓Claude Code出計畫,再讓Codex review計畫,然後由Claude實施,最後交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個CLI bridge,因為手動在兩者之間複製貼上太累了。一篇社區分析總結了500多條Reddit評論後的結論,Claude Code在一組小樣本盲測中勝率達到67%,質量更高;但Codex 20美元的套餐能編碼一整天不斷,而Claude Code同價位十幾個prompt就用完了。“Claude Code質量更高但用不完,Codex稍弱但全天能用”,這是2026年3月開發者社區最真實的共識。在Cursor官方的benchmark中,GPT系列整體領先其他模型。開發者社區還流傳著一個比喻來描述兩者的氣質差異,Claude像美國人,適合做充滿創造力的探索和頭腦風暴,Codex像德國人,代表極致的效率和專注執行。“它就像一條咬住骨頭不放的狗,非常固執,會一直嘗試直到解決問題。”當然也有反面聲音。Hacker News上有開發者說Codex對自己來說“每一項都比Claude Code差”,尤其是code review會製造看似合理但實際不存在的問題,他最後只把Codex用來覆核Claude的產出。但大方向已經很明確了,社區討論正在從那個更好就用那個,變成兩個都用,各佔一個工位。比的不再是benchmark,是誰是更實用的產品只看模型benchmark,你不太容易理解Codex為什麼起勢。在SWE-Bench這類編碼評測上,Claude Opus 4.6仍然領先。真正讓Codex拉開差異的地方在別處,OpenAI正在圍繞它建構一整套工程系統。Orosz今年2月發表了一篇對Codex團隊的深度報導。其中最引人注目的事實是,Codex超過90%的程式碼是由Codex自己編寫的。Anthropic方面也有類似的說法,Claude Code的建立者Boris Cherny告訴Orosz,Claude Code的資料大致相當。當然,這裡的90%需要打個折扣理解,在一個成熟項目中,樣板程式碼、測試用例、常規重構佔了大量行數,核心架構決策仍然由人來做。但兩家AI實驗室都在用自己的coding 工具來編寫自己的coding 工具,這種自舉本身就說明了這些工具已經深度嵌入了日常工程流程。Codex 的基本工作原理Codex團隊在工程組織層面走得更遠。Orosz的報導描述了一種新的工作方式,Codex團隊的典型工程師同時運行4到8個平行agent,分別處理feature開發、code review、安全審計、程式碼庫理解、bug修復等任務。工程師的角色正在從寫程式碼的人變成管理agent的人。技術選型上,Codex CLI選擇了Rust(Claude Code使用的是TypeScript)。團隊負責人Tibo給出的理由不僅是性能和正確性,還有工程文化,選擇Rust是為了給團隊設定一個高工程標準,同時減少對npm依賴生態的依賴。他們甚至招募了Rust終端UI庫Ratatui的維護者全職加入團隊。更值得關注的是分層程式碼審查機制。Codex團隊訓練了一個定製的code review模型,據Tibo說約9/10的評論能指出有效問題。審查分兩層,非關鍵程式碼在AI review後可以直接merge,核心agent程式碼和開源元件仍然要求強制人工審查。這套機制的意義在於,審查本身開始分層了。還有兩個細節能說明Codex正在從工具走向系統。Codex可以運行自己的完整測試套件來測試自身;團隊還設定了夜間巡檢,讓Codex自動掃描程式碼庫並生成待審修復建議,工程師每天早上進公司時就有一批修復等著review。一家名為Wonderful的AI開發公司的首席架構師在今年3月寫了一篇文章,描述了他們四個月前禁止手動coding後的經驗。他對兩個工具的定位是,Codex是坐在房間後面戴耳機的工程師,默默讀完你整個程式碼庫15分鐘才寫第一行程式碼,Claude則更有產品感,更擅長判斷什麼感覺對。他們把Codex用於低延遲系統工作、即時語音管線、性能敏感程式碼,Claude則用於UI和前端。從coding工具到Agent平台拉遠來看,Codex六周衝刺的方向指向一個更大的野心。Peter Steinberger的加入是一個人事訊號。他日常同時平行5到10個agent,加入OpenAI後的方向是下一代personal agents,不是coding工具。OpenAI正在用Codex作為agent戰略的入口。Codex Security則是另一個方向的延伸。當Codex從幫你寫程式碼走向幫你審計安全,它的定位就已經變了。GPT-5.4進一步加速了這個轉變。作為OpenAI第一個具備原生computer use能力的通用模型,它在Codex中不僅能寫程式碼,還能操作電腦、跨應用執行工作流。配合正在成型的外掛/skills生態系統和企業級權限管理,Codex的輪廓越來越像一個AI原生的開發平台。Codex團隊在Every的播客中透露了他們眼中的下一個瓶頸,就是程式碼審查。模型生成程式碼的速度已經遠超人類review的速度,驗證產出的正確性成了最緊迫的問題。他們已經在嘗試讓模型通過重現使用者操作路徑來“證明”修復有效,而不是讓人類逐行讀程式碼。這些野心和Claude Code已經越來越清楚的發展方向有很多重合,在從Claude Code那裡迅速搶走了一些使用者和使用場景之後,Codex的勢頭正在起來。回到Greg Brockman 2月6日的那條帖子。他設的deadline是3月31日,目前距離deadline還有兩周多,而從過去六周的節奏來看,Codex的衝刺還遠沒有結束。OpenAI把曾經在模型上呈現出的狠勁兒和卷王的氣質,都放到了Codex上,接下來它和Claude code之間短兵相接的故事,會更精彩了。 (硅星人Pro)
Agentic AI時代,“老大”OpenAI成了“老登”?
ChatGPT的發佈讓OpenAI一戰封神,所有人都覺得這家AI公司會一直贏下去。然而在AI程式設計這條賽道上,佔據先機的卻並非OpenAI。2025年2月份,競爭對手Anthropic低調發佈了Claude Code。這款能夠直接操作電腦、自主完成程式設計任務的AI智能體,在短短幾個月內為Anthropic帶來了超過25億美元的年化收入。與之相比,OpenAI的同類產品Codex,同期年化收入約為10億美元。雙方的差距不止一倍。更令OpenAI尷尬的是,Anthropic的核心創始團隊,正是幾年前從OpenAI離開的那批人。OpenAI位於舊金山Mission Bay的新總部大樓是一棟現代化的玻璃幕牆建築。接待處擺放著介紹公司發展歷程的宣傳資料,樓梯間的牆壁上掛滿了一系列里程碑事件的紀念海報:GPT系列、DALL·E、ChatGPT——每一幅都記錄著這家公司過去幾年的高光時刻。但其中沒有AI程式設計。01. 從Codex到Copilot,OpenAI錯失的先發優勢OpenAI其實很早就開始了AI程式設計方向的探索。2021年,奧特曼和OpenAI聯合創始人格雷格·布羅克曼(Greg Brockman)還在舊金山Mission區的老辦公室,向《連線》雜誌記者展示了一個叫Codex的項目。它是GPT-3的一個分支版本,在GitHub的數十億行開放原始碼上訓練而成。使用者輸入一句自然語言描述,它就能生成一段相應的程式碼。“它可以代表你在電腦世界裡執行操作,”布羅克曼當時說,“你擁有一個可以執行命令的系統。”但這個早期的技術積累,最終沒有轉化為產品層面的持續投入。Codex被微軟看中了。這家軟體公司當時正在開發一個叫GitHub Copilot的產品,這是一款能嵌入程式設計師編輯器、提供程式碼補全功能的工具。一位早期加入OpenAI的員工回憶,當時的Codex“除了自動補全之外做不了太多事情”,但微軟已經將其視為未來產品的重要方向。2022年6月,GitHub Copilot正式發佈,幾個月內就吸引了數十萬使用者。正常情況下,OpenAI應該會加大對這一方向的投入。但接下來發生的事情,讓後來負責Codex產品的團隊感到遺憾。最初的Codex團隊被解散了。一部分成員轉去做DALL·E 2圖像生成項目,一部分去參與GPT-4的訓練。當時公司的首要目標是實現AGI,AI程式設計沒有被視為需要獨立投入的領域。一位前團隊成員說,之後的幾年裡,OpenAI沒有專門的團隊在開發AI程式設計產品。“當時的感覺是,這個領域已經被GitHub Copilot覆蓋了,”畢竟微軟會繼續使用OpenAI的模型來迭代這個產品,不需要OpenAI自己操心。幾個月後,ChatGPT上線,兩個月內使用者數突破1億。OpenAI完全被這次成功轉移了注意力。接下來的2023年和2024年,OpenAI把主要資源投入到多模態模型的研發上,致力於讓AI理解圖像、視訊、音訊,像人一樣操作游標和鍵盤。當時Midjourney等產品正在興起,行業普遍認為大語言模型需要具備處理多模態資訊的能力,才能邁向更高層次的智能。這個方向的選擇本身沒有問題。只是在這段時間裡,AI程式設計這條賽道正在悄然生長,而OpenAI的注意力並不在這裡。02. 競爭對手Anthropic突圍Coding賽道Anthropic選擇了另一條發展路徑。這家公司也做多模態模型和聊天機器人,但有一個方向始終沒有放鬆:程式設計能力。布羅克曼後來在一個播客節目裡談到,Anthropic“從早期就非常專注在程式設計上”。他們不僅用演算法競賽題目訓練模型,還往訓練資料裡加入了真實項目中那些結構混亂的程式碼,就像普通開發者日常面對的那種。“這是我們沒有及時意識到重要性的地方,”他說。2024年6月,Anthropic發佈Claude Sonnet 3.5。很多開發者試用後發現,這個模型的程式設計能力確實突出。一家叫Cursor的初創公司最先受益於此。幾個二十多歲的年輕人做了一款產品:在程式碼編輯器裡用自然語言提需求,AI直接幫忙修改程式碼。他們接入Sonnet 3.5後,使用者量開始快速增長。據熟悉Cursor的人士透露,幾個月內,Anthropic就開始內部測試自己的獨立版本了,也就是後來的Claude Code。Cursor火起來之後,OpenAI曾試圖收購這家公司,但遭到拒絕。對方認為程式設計賽道潛力巨大,希望保持獨立。收購未能達成,OpenAI內部也開始有團隊嘗試AI程式設計方向。2024年底,幾個小型團隊陸續啟動。一個是安德烈·米申科(Andrey Mishchenko)和蒂博·索蒂奧(Thibault Sottiaux)帶領的團隊,這兩人分別是Codex的研究負責人和前GoogleDeepMind研究員。他們最初的動機比較務實:用AI程式設計來加速AI研究,讓AI自動管理訓練任務、監控GPU叢集,研究員就能騰出時間做更有創造性的工作。另一個是亞歷山大·恩比里科斯(Alexander Embiricos)帶領的團隊,他之前負責多模態智能體的研發。他做了一個叫Jam的演示項目,在公司內部引起了不少關注。Jam和2021年的Codex有本質區別。Codex是輸出程式碼讓人來執行,Jam則可以直接進入命令列,自己運行程式碼。恩比里科斯看著電腦螢幕上那個跟蹤Jam操作的自建頁面一遍遍自動更新,感到有些不可思議。“我以前一直以為多模態互動可能是實現AGI的路徑,也許我們以後就是整天和AI共享螢幕,”他說,“但後來逐漸意識到,讓模型以程式設計方式直接訪問電腦,可能是更有效的方向。”這幾個團隊磨合了幾個月後合併在一起。等OpenAI在2025年初完成o3(比o1更針對程式設計任務最佳化的模型)的訓練,他們終於有了建構產品的技術基礎。但這時,Claude Code已經準備公開發佈了。03. 收購受阻與內部衝刺,OpenAI的雙線應對2025年2月,Claude Code以“有限研究預覽”的形式首次亮相。5月,全面開放使用。這個產品和之前流行的“氛圍編碼”模式不同。氛圍編碼是人主導、AI輔助的程式設計模式,由人做決策,AI執行具體操作。而Claude Code可以直接在命令列工作,訪問使用者的所有檔案和應用程式,開發者可以把部分工作真正交給AI來完成。OpenAI也開始加快節奏。索蒂奧在3月組建了一個“衝刺團隊”,把內部幾個小組整合在一起,計畫在幾周內推出競品。與此同時,奧特曼開始尋找收購目標,他們看上了一家叫Windsurf的AI程式設計初創公司,報價30億美元。如果收購完成,產品、團隊、企業客戶都能快速補齊。但這筆交易被微軟擱置了數月。據《華爾街日報》報導,微軟希望獲得Windsurf的智慧財產權。這家雲巨頭從2021年起就用OpenAI的模型支撐著GitHub Copilot,每次財報電話會都會提及這個產品。但Cursor、Windsurf、Claude Code陸續出現後,GitHub Copilot的產品形態顯得有些過氣。此時OpenAI再推一個新的編碼產品,微軟的態度自然變得複雜。Windsurf的交易正趕上OpenAI和微軟重新談判合作協議。OpenAI希望從微軟那裡爭取更多自主權,不希望產品和算力資源被過度控制。這筆收購成了雙方博弈過程中的犧牲品。到7月,交易正式告吹。後來Google招攬了Windsurf的創始人,剩餘團隊則被另一家編碼初創公司Cognition收入麾下。“我本來挺希望做成這筆交易的,”奧特曼說,“但不是每一筆交易都能控制。”不過他提到,Codex團隊的表現讓他有些意外。談判那幾個月,索蒂奧和恩比里科斯一直在迭代產品,沒有停下來。到8月,OpenAI開始加速推進自己的產品。04. 從5%到40%:Codex猛追市場份額布羅克曼有一個自己設計的測試方法,叫“反向圖靈測試”。他多年前親自編寫了這套程序,規則是這樣的:兩台電腦前各坐一個人,每人螢幕上有兩個聊天窗口,一個連接著對面的人,一個連接著AI。目標是判斷那個窗口是AI,同時還得讓對方以為你才是AI。去年大部分時間,OpenAI最好的模型要完成這個遊戲的程式碼編寫,需要好幾個小時,中間還得有人一步步引導。到12月,Codex用GPT-5.2做引擎,一個結構清晰的提示詞輸入後,就能直接生成一個可運行的遊戲。感受到變化的不僅僅是布羅克曼。開發者社區裡開始頻繁討論AI程式設計智能體的能力提升,話題從矽谷擴散到更廣的範圍。一些沒有程式設計背景的人,也開始嘗試用這些工具做些簡單的軟體項目。Anthropic和OpenAI都在爭搶使用者。有開發者表示,自己每月支付200美元的Codex或Claude Code訂閱費,實際能用到價值1000多美元的服務。兩家公司都在用慷慨的用量限制把使用者往工作流裡引導,等人用習慣了,再按實際用量收費。從資料上看,OpenAI確實在縮小差距。2025年9月,Codex的使用量大約是Claude Code的5%。到2026年1月,這個比例上升到接近40%。Notion的聯合創始人西蒙·拉斯特(Simon Last)說,他和團隊在GPT-5.2發佈後從Claude Code切換到了Codex,主要原因是後者更穩定。“我發現Claude Code有時候會給出不精準的資訊,”他說,“它說自己正在處理任務,實際上並沒有進展。”在OpenAI負責Codex行為研究的凱蒂·施(Katy Shi)說,有些使用者覺得Codex的回應風格偏“干”,但越來越多人開始接受這種不刻意迎合的特點。“工程領域的工作,本來就需要能夠接受批評性反饋,不能因為表達方式直接就覺得被冒犯。”企業客戶也在逐步進入。OpenAI應用部門的CEO菲吉·西莫(Fidji Simo)稱:“ChatGPT已經成為AI領域的代表性產品,這在B2B市場是一個明顯優勢,多數企業傾向於使用員工已經熟悉的技術。”OpenAI銷售Codex的策略,主要是將其打包進ChatGPT的企業套件中一併提供。思科的總裁傑圖·帕特爾(Jeetu Patel)告訴員工,不用太在意使用Codex產生的費用,關鍵是要熟悉這個工具。有員工問他用了之後會不會失業,他的回答是:“不會,但不用一定會失業。不熟悉這些工具的人,慢慢會失去競爭力。”有開發者認為,OpenAI在B端市場的管道優勢正在發揮作用。不少公司已經採購了ChatGPT的企業版,在此基礎上增加一個Codex功能,決策成本並不高。也有分析指出,Codex最近的能力提升與GPT-5.2的推理能力最佳化直接相關。o系列模型採用的訓練方法,即讓模型在結果可驗證的程式設計任務中不斷試錯、獲得反饋,這對程式碼生成的質量有明顯幫助。程式設計本身就是一個反饋訊號明確的領域,程式碼要麼能運行要麼不能,這種特性對模型迭代很有利。05. 奧特曼的難題:既要速度,又怕失控AI程式設計智能體的影響已經不限於開發者社區。《華爾街日報》上個月將科技股1兆美元的拋售部分歸因於Claude Code,因為投資者擔心軟體本身的價值可能被壓縮。之後Anthropic宣佈,Claude Code可以對IBM那些運行COBOL語言的老系統進行現代化改造,IBM的股票遭遇了25年來最大單日跌幅。OpenAI也在加大投入。今年的超級碗廣告,他們投放的是Codex,而不是ChatGPT。在OpenAI總部,Codex的使用已經相當普遍。多位工程師提到,他們現在很少手寫程式碼,每天的工作主要是和Codex互動。一位參與了內部駭客馬拉松的工程師描述說,現場大約100人,用四小時時間通過Codex搭建一個可用的演示項目。不少項目既是用Codex開發的,目標也是為了讓工程師更好使用Codex。有的團隊做了個工具,把Slack消息自動彙總成周報,有的團隊用AI生成了一個內部服務的百科式指南。以前這些事情可能需要幾天才能完成,現在一個下午就能跑通流程。凱文·維爾(Kevin Weil)是前Instagram高管,目前負責OpenAI for Science部門,為研究人員開發AI產品。他說Codex現在會在夜間幫他處理一些項目,早上到公司檢查進度就行。這種做法已經成了他和幾百名同事的日常工作方式。OpenAI 2026年的目標之一是開發一個能夠自主進行AI研究的AI實習生。西莫表示,Codex最終會整合進ChatGPT和所有產品線,不僅是用來程式設計,而是協助處理各種任務。奧特曼說他想發佈一個通用版本的Codex,但對安全性還有些顧慮。1月底,他一個非技術背景的朋友請他幫忙安裝OpenClaw,但他沒有答應,認為“現在還不是時候”,那個智能體可能會誤刪重要檔案。但這件事過去幾周後,OpenAI就把OpenClaw的創作者招進了公司。不少開發者認為,Codex和Claude Code之間的差距確實在縮小,但也有機構對OpenAI的進度表示擔憂。一個叫Midas Project的非營利組織發佈報告稱,OpenAI在GPT-5.3-Codex上沒有完整披露網路安全風險,安全承諾的落實情況不夠透明。OpenAI的對齊負責人阿米莉亞·格拉澤(Amelia Glaese)否認為了推進Codex而犧牲安全,表示Midas對公司的承諾存在誤解。布羅克曼對AGI的進展保持樂觀,認為“項目正在按計畫推進”。但在不少矽谷工程師的印象裡,他一直是那種產品發佈前夜還在檢查程式碼庫細節的負責人。現在的狀況不太一樣了。布羅克曼面對的是幾十萬個AI智能體,在執行具體的任務和項目。他說這種新的工作方式“讓人感覺輕鬆了一些,因為以前確實需要記住很多細節”。但有時候,“你不太清楚那些事情具體是怎麼被解決的”。他說,這種變化會讓你“感覺對問題的感知不像以前那麼敏銳了”。 (騰訊科技)
當 AI,開始設計 AI
這不是科幻片,而是 2026 年 2 月剛剛發生的現實。如果有人在 2020 年告訴你,「六年後,AI 會自己設計下一代 AI」,你大概會覺得這是天方夜譚。但就在上周,OpenAI 的 GPT-5.3-Codex 和 Anthropic 的 Claude Opus 4.6 同日發佈,兩家公司不約而同地宣佈了一個令人震驚的消息:這些 AI 模型,已經能夠有意義地參與改進自己。這只是 2026 年初,中國農曆馬年春節之前的「AI 春運」大戰的開始,但很有可能多年後重新回頭看,這可能是一個 AI 進化史上的重要節點——人工智慧,已經開始非常熟練地,設計和並建造下一代人工智慧了。更重要的是,這對使用者——人類——來說,到底意味著什麼?作者 Matt Shumer 在文章中為大家拆解了,為什麼現在,可能正是這樣一個節點時刻。01自我進化的「潘多拉魔盒」已開啟OpenAI CEO Sam Altman 在 Twitter 上興奮地表示:「我喜歡用這個模型建構;感覺比基準測試所示的進展更大。能以 5.3-Codex 來開發 5.3-Codex 的速度,這是未來的一個訊號。」這句話背後的含義讓人細思極恐。Anthropic CEO Dario Amodei 更是直接承認:「我們基本上已經讓 Claude 設計下一版本的 Claude 本身,不是完全地,也不是在所有方式上,但在很多方面,這個循環開始快速閉合。」或許,我們正在見證 AI 發展史上最重要的一個拐點:從人類設計 AI,到 AI 協助設計 AI,再到 AI 主導設計 AI。這個過程比任何人預想的都要快。但現實遠比宣傳複雜。Medium 分析師 Alex Carter 在 48 小時實測後潑了一盆冷水:Codex 5.3「感覺倉促。行銷承諾與現實不符。它聲稱『幫助自己建設』聽起來令人印象深刻,直到你意識到它無法可靠地建構登錄系統。」這種巨大的期望差距恰恰暴露了當前 AI 自我改進的真實狀態:概念已經突破,但實際能力仍在爬坡。02知識工作體系的重構更值得關注的是這背後的連鎖反應。如果 AI 真的能自我迭代最佳化,那麼依賴知識積累和經驗傳承的工作,將面臨根本性衝擊。這不是簡單的「AI 取代人類」,而是整個知識工作體系的重構。技術分析師 Sebastian Raschka 在《State of LLMs 2025》中指出,2026 年的進展「主要來自推理而非純粹的訓練方面」,進步出現在「架構調整、資料質量改進、推理訓練、推理擴展和工具呼叫」等多個維度。這意味,AI 不再是單純的工具,而是開始具備「思考如何更好地思考」的元認知能力。我們可以想像這樣的場景:一個法律 AI 不僅能處理案例,還能分析自己在處理過程中的不足,並設計改進方案;一個醫療診斷 AI 不僅能看病,還能反思自己的診斷邏輯,最佳化決策路徑。當 AI 開始擁有自我反思和改進的能力,人類在知識工作中的獨特優勢——經驗積累、模式識別、創新思維——還能保持多久?03掌控權還在人類手中... 嗎?但最讓人擔憂的不是就業問題,而是控制權問題。AI 安全研究者 Jared Kaplan 一針見血地指出:「當 AI 開始獨立設計下一代 AI 時,它使用的最佳化路徑可能完全超出人類認知範圍... 我們無法檢查是否有『特洛伊木馬』或錯位的目標函數隱藏其中。」這就是 AI 自我改進的核心悖論:我們需要足夠智能的 AI 來解決複雜問題,但當 AI 智能到可以改進自己時,我們可能就失去了理解和控制它的能力。HackerNews 和 Reddit 社區的討論也反映了這種擔憂。使用者們質疑基準測試結果,認為 GPT-5.3 和 Claude Opus 4.6 的性能資料,可能存在「不同的基準測試或資料解釋」問題。更重要的是,當 AI 能夠自我改進時,傳統的評估和監管體系都可能失效。Interconnects AI 分析師 Nathan Lambert 的觀察很有啟發性:「我們正在走向一個 AI 世界,其中與模型發佈相關的基準,不再對使用者傳達有意義的訊號。」換句話說,我們甚至可能無法精準衡量,這些自我改進的 AI 到底有多強。Fello AI 的分析報告顯示,2024 年近 90% 的著名 AI 模型來自工業界,OpenAI 不再主要與研究實驗室競爭,而是「與超大規模計算公司、晶片製造商和資金充足的 AI 優先公司競爭」。在這場競賽中,自我改進能力已經成為必爭之地。誰先實現真正的 AI 自我迭代,誰就能在未來五年的知識工作革命中佔據主導地位。就像 Matt Shumer 在文章開頭提到的 2020 年 2 月——如果你當時足夠敏銳,你會注意到「有幾個人在談論海外傳播的病毒(新冠)」。現在,我們也處在這樣一個歷史轉折點:AI 自我改進的種子已經種下,接下來的五年,整個知識工作的生態都將被重新定義。問題不再是「會不會發生」,而是「我們準備好了嗎」。 (極客公園)
完全取代Claude Code?OpenAI反擊來了,推出Codex app「限時免費使用」
多年來我一直是終端/Emacs 的忠實使用者,但自從使用 Codex 應用程式後,再回到終端就感覺像是回到了過去。這簡直是專為Agent打造的原生開發介面體驗這是OpenAI總裁Greg Brockman為剛剛推出的Codex App的彩虹屁,當然了好不好還要使用者說了算行業內的人應該有個基本共識,codex程式碼能力非常強,但是體驗比較差勁,基本上這一段時間讓Claude code 壓著打,終於OpenAI的反擊還是來了,還是搶在據傳Claude sonnet 5發佈前一天推出MagicPath CEO 說他最近幾周一直在使用 Codex 應用。  這已經成為在大型複雜程式碼庫中進行編碼的首選方法。  正因如此,他們才能在 MagicPath 中推出如此多的功能。  它完全取代了Cursor使用方式和 Claude Code這次OpenAI 推出的是macOS版Codex應用,這是一個全新的互動介面,旨在幫助開發者輕鬆管理多個AI Agents,支援平行運行任務,並與智能體協作處理長時間運行的複雜工作,通過skills擴展 Codex 的功能帶來的是旗艦級體驗。介面長這樣:一個好消息,在限定時間內,ChatGPT免費版和Go版使用者將能使用Codex。對於Plus、Pro、商業、企業和教育版使用者,速率限制將翻倍(這些更高的限制適用於所有使用Codex的場景——包括桌面應用、CLI、IDE以及雲端)OpenAI表示,Codex應用正在改變軟體的建構方式和建構者——從與單個編碼智能體配對進行有針對性的編輯,到在設計、建構、發佈和維護軟體的整個生命周期中,監督協同工作的智能體團隊。定位:Codex應用為Agent的指揮中心自2025年4月Codex發佈以來,開發者與智能體的工作方式發生了根本性變化。模型現在能夠端到端地處理複雜的長期任務,開發者則開始在項目中編排多個智能體:分配工作、平行運行任務,並信任智能體承擔可能跨越數小時、數天或數周的實質性項目。核心挑戰已從智能體能做什麼,轉變為人類如何大規模地指導、監督和與它們協作。現有的IDE和基於終端的工具並非為支援這種工作方式而建構。這種新的建構方式與新的模型能力需要一種不同的工具,因此OpenAI推出了Codex桌面應用,一個專為智能體打造的指揮中心1. 與多個智能體平行工作Codex應用提供了一個專注於與智能體進行多工處理的空間。智能體在按項目組織的獨立線程中運行,因此使用者可以在任務之間無縫切換而不會丟失上下文。使用者可以線上程中審查智能體的更改、對差異(diff)發表評論,甚至在編輯器中打開它進行手動修改。它還內建了對worktrees的支援,因此多個智能體可以在同一個程式碼倉庫上工作而不會產生衝突。每個智能體都在程式碼的隔離副本上工作,允許使用者探索不同的實現路徑,而無需追蹤它們對本地程式碼庫的影響。在智能體工作時,使用者可以在本地檢出(check out)其更改,或者讓它在不觸動本地git狀態的情況下繼續推進。該應用會自動同步使用者在Codex CLI和IDE擴展中的會話歷史和配置,因此使用者可以立即在現有項目上開始使用。2. 通過Skills超越程式碼生成Codex正在從一個編寫程式碼的智能體,演變為一個使用程式碼在電腦上完成工作的智能體。通過技能(skills),使用者可以輕鬆地將Codex的能力從程式碼生成擴展到需要收集和綜合資訊、解決問題、寫作等更多工。skill捆綁了指令、資源和指令碼,使Codex能夠可靠地連接到工具、運行工作流,並根據團隊的偏好完成任務。Codex應用包含一個專門用於建立和管理技能的介面。使用者可以明確要求Codex使用特定技能,或者讓它根據當前任務自動使用為了展示其能力,OpenAI讓Codex製作了一款賽車遊戲,一句話消耗700萬Token,從零手搓3D賽車遊戲!要求包含不同的賽車手、八張地圖,甚至還有玩家可以用空格鍵使用的道具,Codex利用一個圖像生成技能(由GPT Image驅動)和一個網頁遊戲開發技能,僅憑一個初始使用者提示,便獨立工作並消耗了超過700萬個token來建構這款遊戲。在此過程中,它扮演了設計師、遊戲開發者和QA測試員的角色,通過實際玩遊戲來驗證自己的工作以下是用於建立遊戲的、為清晰起見經過總結的初始提示:> 將Voxel Velocity實現為一款使用Three.js的3D體素卡丁車賽車遊戲,只設定一種模式:單人賽(固定3圈,1名人類玩家對7名CPU,所有8條賽道立即解鎖,無進度系統)。建構一個最簡化的賽前流程,僅包含:賽道(8個)、角色(8個)、難度(休閒/標準/困難)、可選的鏡像模式、可選的允許克隆角色,以及開始比賽按鈕。另外需要一個選項菜單和一個賽內暫停菜單(繼續/重新開始/退出)。> 建立一個街機風格的駕駛模型,具有響應靈敏的操控、對輕微撞牆的容錯、以有意義的漂移為主要技巧,以及一個能產生精確增壓等級的漂移充能系統(1級0.7秒,2級1.1秒,3級1.5秒),同時保持基礎速度“快但可讀”,並在寬闊的道路上保持持續的超車機會。> 實現8種道具,單道具容量,具有微妙的位置加權分佈和溫和的效果(最大失控時間≤1.2秒,最大轉向停用≤0.6秒),旨在創造有趣的混亂而非硬控。越野減速效果在增壓期間減少50%。> 定義8個角色的給定屬性和AI傾向,實現CPU難度預設和賽道編寫的賽車/變化樣條線、漂移區和障礙規避,以便AI能利用多車道寬度進行乾淨的超車。> 最後,交付HUD/音訊等基本要素(位置、圈數/最後一圈橫幅、小地圖、道具槽、計時器/分段時間、清晰的音效,以及每條賽道一個音樂循環)。隨後,Codex被從一個包含十個通用提示的列表中隨機抽取提示,進行持續的重新提示,以使其繼續解決問題。其中一個示例提示是:> 你的工作是加入新功能,使遊戲更接近原始設計。首先,玩遊戲並確定與原始設計相比缺少了什麼。然後選擇幾個缺失的功能並實現它們。每實現一個功能後,通過玩遊戲進行徹底測試,確認它能正常工作。如果在玩的過程中發現任何錯誤,也要優先修復它們。在OpenAI內部,團隊已經建構了數百個技能,幫助多個團隊將那些原本難以一致定義的工作放心地委託給Codex——從運行評估、監控訓練過程,到起草文件和報告增長實驗。Codex應用包含了一個技能庫,涵蓋了在OpenAI內部流行的工具和工作流,部分重點skill如下:實現設計:從Figma獲取設計上下文、資產和截圖,並將其轉化為具有1:1視覺保真度的生產級UI程式碼管理項目:在Linear中分類錯誤、跟蹤發佈、管理團隊工作量等,以保持項目推進部署到雲端:讓Codex將你建立的Web應用部署到Cloudflare、Netlify、Render和Vercel等流行的雲託管服務商生成圖像:使用由GPT Image驅動的圖像生成技能,建立和編輯用於網站、UI模型、產品視覺和遊戲資產的圖像使用OpenAI API建構:在建構時參考最新的OpenAI API文件建立文件:一套用於讀取、建立和編輯具有專業格式和佈局的PDF、電子表格和docx檔案的技能。當使用者在應用中建立一個新skill時,該技能可以在任何工作環境中使用:應用內、CLI或IDE擴展中。使用者還可以將技能檢入程式碼倉庫,使其對整個團隊可用。3. 通過自動化委託重複性工作借助Codex應用,使用者還可以設定自動化(Automations),讓Codex按照自動計畫在後台工作。自動化將指令與可選技能相結合,並按使用者定義的時間表運行。當自動化完成時,結果會進入一個審查佇列,以便使用者在需要時可以返回並繼續工作。在OpenAI內部,自動化已被用於處理重複但重要的任務,例如每日問題分類、尋找和總結CI失敗、生成每日發佈簡報、檢查錯誤等。4. 適配個人工作風格的個性開發者在與智能體協作時有不同的偏好。一些人想要一個直截了當、注重執行的夥伴;另一些人則更喜歡溝通性強、更具互動性的交流。Codex現在允許開發者在兩種個性之間進行選擇——一種是簡潔務實的風格,另一種是更健談、更具共情力的風格,兩者在能力上沒有差異。使用者只需在應用、CLI和IDE擴展中使用 /personality 命令即可切換。請參閱文件,瞭解更多關於如何設定和使用 Codex 應用的資訊https://developers.openai.com/codex/app默認安全,可配置設計OpenAI正在整個Codex智能體技術堆疊中整合設計即安全的理念。Codex應用使用與Codex CLI中相同的原生、開源且可配置的系統級沙盒。默認情況下,Codex智能體僅限於編輯其工作所在資料夾或分支中的檔案,並使用快取的Web搜尋。當需要運行網路訪問等需要提升權限的命令時,它會請求許可。使用者可以為項目或團隊配置規則,允許某些命令自動以提升的權限運行。下一步計畫企業和開發者越來越依賴Codex進行端到端開發。自去年12月中旬GPT-5.2-Codex推出以來,Codex的總體使用量翻了一番,在過去一個月裡,有超過一百萬名開發者使用了Codex。OpenAI表示將繼續擴展開發者可以使用Codex的場景和方式,包括在Windows上推出該應用、推動模型能力的前沿,並推出更快的推理速度。在應用內部,團隊將根據真實世界反饋繼續完善多智能體工作流,使其更容易管理平行工作並在智能體之間切換而不丟失上下文。同時,他們也在建構支援基於雲的觸發器的自動化功能,這樣Codex就可以在後台持續運行,而不僅僅是在電腦開著的時候。Codex建立在一個簡單的前提上:一切都由程式碼控制。一個智能體在推理和生成程式碼方面越出色,它在所有形式的技術和知識工作中就越有能力。然而,當今的一個關鍵挑戰是,前沿模型的能力與人們在實踐中輕鬆使用它們之間的差距。Codex旨在通過簡化指導、監督和將模型全部智能應用於實際工作的方式來縮小這一差距。OpenAI表示,他們專注於使Codex成為最好的編碼智能體,這也為它成為一個能夠處理超出編寫程式碼範圍的廣泛知識工作任務的強大智能體奠定了基礎。 (AI寒武紀)
OpenAI Codex桌面版深夜突襲!一人指揮Agent軍團,程式設計師徹底告別996
太帶勁了!搶先Claude 5,OpenAI深夜祭出了一個編碼殺器——Codex。它可以讓一人指揮多Agent平行協作,自帶Skills,編碼從此進入自動化時代。Claude 5的腳步聲越來越近,奧特曼終於坐不住了。就在剛剛,OpenAI毫無預警地拋出「王炸」——Codex正式進化為獨立的桌面App。這不僅僅是一個寫程式碼的窗口,更是一個能同時指揮千軍萬馬(多個Agent)的「全能指揮部」。Codex定位非常明確:要做Agent的「指揮中心」具體來說,Codex可以做到以下幾點:多工平行切換,毫不費力:同時呼叫多個AI智能體開展工作,並通過「工作樹」(worktrees)實現變更隔離,互不干擾;建立並呼叫Skills:將工具和開發規範封裝成可復用的能力;設定自動化流程:通過後台定時工作流,把那些重複性的瑣事統統交給Codex處理。假設想要為相簿裡的照片加入「拖曳」功能,選擇「工作樹」,即可讓AI在同一倉庫中各司其職。Codex的進化令人毛骨悚然,它不僅生成程式碼,還學會了利用程式碼作為「Skills」來操控電腦。比如想要解決項目中的Comment,直接呼叫安裝好的Skills,Codex立刻就把問題破解了。不僅如此,OpenAI僅憑一句話,就讓Codex消耗700萬 token,徒手搓出一個3D版賽車遊戲。這一次,Codex的誕生,並非是新瓶裝舊酒,更不是一次毫無誠意的「套殼」包裝。它標誌著AI程式設計正式從「對話助手」進化為「指揮中心」。奧特曼激動表示,「真是愛了愛了,它比我想像中還要驚喜」!「AI程式設計師就是不會耗盡多巴胺。他們不會感到沮喪,也不會耗盡能量。它們會一直堅持下去,直到解決問題」。OpenAI總裁Greg牆裂推薦——我多年來一直是終端和Emacs的鐵粉,但自從用了Codex之後,再回到終端簡直感覺像穿越回了過去,代差太明顯了。這種感覺,就像是一個專門為開發而生的AI智能體原生介面。OpenAI Codex代表著一種全新的AI Coding範式,極有可能重塑開發者與程式碼互動的邏輯。甚至,Codex還可與Claude Cowork狂飆能力,把雜亂桌面瞬間清理乾淨。目前,Codex正式在macOS上線,Windows版即將推出。OpenAI還放出了「限時福利」,ChatGPT免費使用者和Go版本也可用上Codex,Plus、Pro、Business、Enterprise和Edu計畫的使用者,速率直接翻倍。編碼殺器Codex APP震撼登場一人指揮所有AgentmacOS版Codex應用,是一個功能強大的新介面。它能讓開發者能輕鬆駕馭多個AI智能體,平行處理任務,並與AI協作搞定那些耗時的大活兒。過去一直以來,開發者和AI的關係是「結對程式設計」,你寫一段,它接一段。如今,Codex的出世將徹底改變軟體建構的方式——人類不再與AI緊密結對,直接給AI委派任務,貫穿於軟體設計、建構、發佈和維護的全生命周期。這一轉變的苗頭,實際上從2025年4月發佈Codex以來,便已初見端倪。開發者與AI的協作方式已發生了根本性轉變。現有模型可以端到端地處理複雜的、長流程的任務,開發者也開始在跨項目中指揮多個AI智能體:分派工作、平行跑任務,並放心地把耗時數小時、數天甚至數周的重大項目交給 AI 。核心挑戰已不再是AI能做什麼,而是人們如何大規模地指揮、監督並與它們協作——遺憾的是,現有的IDE和終端工具並非為此而生。這種全新的建構方式,加上模型能力的提升,呼喚著一種全新的互動載體。這正是OpenAI要推出Codex桌面應用的原因,主打「一個AI智能體的指揮中心」。多智能體平行,狂飆程式碼不亂套Codex為與AI智能體多工平行,建構了一個專注的空間。所有AI在按項目組織的獨立線程中運行,確保你無縫地在任務間切換,而不會丟失上下文。你可以在應用裡直接檢查AI的改動,在diff上寫評論,甚至用編輯器打開進行手動調整。它還內建了對Git worktree的支援,所以多個AI可以在同一個倉庫(repo)上開工而互不衝突。每個AI都在你程式碼的隔離副本上工作,讓你能探索不同的開發路徑,而無需操心它們會如何影響你的主程式碼庫。當AI智能體幹活時,可以把改動拉(checkout)到本地,或者讓它繼續推進,完全不動本地的git狀態。應用會自動從Codex CLI和IDE擴展中同步會話歷史和配置,這樣你馬上就能在現有項目中用起來。解鎖Skills外掛,手搓3D賽車遊戲Codex正從一個只會寫程式碼的AI,進化為一個能用程式碼在電腦上真正解決問題的AI。通過Skills(技能),可以輕鬆擴展Codex的能力。今後,Codex不再侷限於程式碼生成,還能處理資訊收集與整合、問題解決、寫作等任務。Skills就像是打包好的指令、資源和指令碼,讓Codex能可靠地連接工具、運行工作流,並按照團隊的習慣完成任務。Codex應用裡有一個專門的介面來建立和管理Skills。你可以明確要求Codex使用某個Skill,或者讓它根據手頭的任務自動呼叫。OpenAI舉了一個例子,曾讓Codex做一個賽車遊戲——要有不同的車手、八張地圖,甚至還有玩家能用空格鍵觸發的道具。利用圖像生成 Skill(由GPT Image驅動)和網頁遊戲開發Skill,Codex僅憑最初的一個使用者提示詞,就獨立工作並消耗了超過700萬個Token,把遊戲做了出來。它身兼數職,既是設計師、遊戲開發者,又是QA測試員,通過實際試玩來驗證成果。6萬Token可以看到,在只消耗了6萬token的這個版本裡,畫面非常粗糙。很窄的賽道中間,塞滿了撞上去會穿模的「障礙物」。技能箱可以吃,也可以發射,但好像沒有什麼效果。最尷尬的是,你會永遠在「第二圈」無限循環下去……80萬Token在80萬token的版本裡,畫面似乎好了一些,賽道也寬敞了不少,更接近大家平時玩的賽車遊戲了。但是箱子吃到的技能好像沒什麼用,發射出去之後,小車們還是各跑各的……而且依舊會在第二圈陷入循環,永遠跑不完。700萬Token最後這個700萬token的版本,畫質明顯好了很多。不僅有清晰的賽道,技能箱也更精緻了。這次,技能箱確實有用了。比賽剛開始,我們就吃了AI扔出的一個大招,沒有閃。於是,喜提倒數第一,不過,比起前兩個陷入無限循環的世界來說,這次至少能完賽了。從跑評測和盯著模型訓練,到起草文件和匯報增長實驗,OpenAI內部建構了數百個Skills,來幫助多個團隊自信地把以前很難統一定義的工作委派給Codex。Codex應用內建了一個Skills庫,涵蓋了OpenAI內部流行的工具和工作流,下面重點介紹幾個。實現設計:從Figma拉取設計上下文、資源和截圖,並將其轉化為視覺上1:1還原的生產級UI程式碼。管理項目:在Linear中處理Bug分類、追蹤發佈、管理團隊工作負載等,推動項目進展。部署到雲端:讓Codex把你做好的Web應用部署到流行的雲主機,如Cloudflare、Netlify、Render和Vercel。生成圖像:使用由GPT Image驅動的圖像生成Skill來建立和編輯圖像,用於網站、UI原型、產品配圖和遊戲素材。使用OpenAI API建構:在使用OpenAI API開發時,參考最新的文件。建立文件:一套用於閱讀、建立和編輯PDF、電子表格和檔案的Skills,排版佈局專業。使用Vercel和圖像生成Skills更新網站使用電子表格Skill建立表格以生成購物清單使用Linear管理你的Issue Backlog當你在應用中建立一個新Skill時,Codex可以在你工作的任何地方使用它:應用內、CLI或IDE擴展中。你也可以把Skills提交到程式碼倉庫,讓整個團隊都能用上。OpenAI分享的Agent Skills:https://github.com/openai/skills一鍵自動化,24h為你打工Codex可以設定Automations(自動化),按計畫在後台自動幹活。Automations將指令與可選的Skills結合,會按照你設定的時間表運行。當Automation完成時,結果會進入審查佇列,可以隨時切回來查看並根據需要繼續後續工作。設定自動化以定期建立新Skills在OpenAI,團隊一直用Automations來處理那些重複但重要的任務,比如每日Issue分類、尋找和總結CI失敗原因、生成每日發佈簡報、檢查Bug等等。雙人格模式,秒切換開發者在與AI合作時口味各不相同。有人喜歡直截了當、只講執行的搭檔;有人則喜歡話多一點、更有互動感的風格。Codex現在允許開發者在兩種個性間選擇——一種是簡潔務實風,另一種是更具對話感和同理心的風格。兩者的能力完全一樣,只為貼合你的喜好。只需在應用、CLI和IDE擴展中輸入/personality命令即可切換。默認安全,按需配置此外,OpenAI還將「設計即安全」(Security by Design)的理念融入了Codex AI智能體棧的方方面面。Codex 應用採用了原生的、開源且可配置的系統級沙箱(Sandboxing),這就跟在Codex CLI裡一樣。默認情況下,Codex AI 智能體只能編輯它當前工作的資料夾或分支裡的檔案,並使用快取的網頁搜尋。如果需要運行像聯網訪問這類需要更高權限的命令,它會先請求你的許可。你可以為項目或團隊配置規則,允許特定命令自動以提升的權限運行。一切皆由程式碼控制如今,企業和開發者正越來越依賴Codex進行端到端開發。自12月中旬發佈GPT-5.2-Codex以來,Codex的總使用量翻了一番,過去一個月裡有超過100萬開發者使用Codex。下一步,團隊繼續擴展Codex使用場景,包括上線Windows版應用、不斷突破模型能力邊界,以及實現更快的推理速度。OpenAI科學家感慨,過去幾周寫的程式碼比過去幾年還要多。而且,還用Codex修復了Prism多個bug和功能更新在應用內部,OpenAI還將根據實際反饋持續打磨多AI智能體工作流,讓管理平行任務和在AI間切換變得更容易,且不丟失上下文。他們還在為Automations開發基於雲端的觸發器支援,這樣Codex就能在後台持續運行——而不僅僅是在你電腦開著的時候。Codex建立在一個簡單的前提之上:一切皆由程式碼控制。一個AI智能體在推理和生成程式碼方面越強,它在各類技術和知識工作中的能力就越強。OpenAI全家桶然而,當今的一個關鍵挑戰在於,前沿模型的能力與人們在實際中輕鬆使用它們之間存在差距。Codex旨在縮小這一差距,讓人們更容易指揮、監督並將OpenAI模型的全部智慧應用到實際工作中。OpenAI致力於將Codex打造成最強的程式設計AI智能體,這也為它成為能處理程式碼之外廣泛知識工作的全能AI奠定了基礎。附錄在製作上面這款賽車遊戲時,Codex使用的初始提示詞如下(總結精煉版):使用Three.js實現Voxel Velocity作為一個3D體素卡丁車賽車遊戲,只有一種模式:單人比賽(總是3圈,1個人類對7個CPU,所有8條賽道立即在這個模式下可用,沒有進度限制)。建構一個最小的賽前流程,僅包括:賽道(8),角色(8),難度(輕鬆/標準/刻薄),可選的鏡像模式,可選的允許克隆,和開始比賽,加上一個選項菜單和一個賽中暫停菜單(恢復/重新開始/退出)。建立一個街機駕駛模型,具有靈敏的操控,寬容的擦牆碰撞,有意義的漂移作為主要技能,以及一個漂移充電系統,產生精確的加速等級(1級0.7秒,2級1.1秒,3級1.5秒),同時保持基準速度「快但可讀」,並且在寬闊的道路上保持持續的超車。實現正好8個道具,單道具容量,微妙的位置加權分佈,和溫和的效果(最大失控≤1.2秒,最大轉向停用≤0.6秒),創造滑稽的混亂而沒有硬眩暈,加上在加速期間減少50%的越野減速。定義8個角色及其給定的統計資料和AI傾向,實現CPU難度預設和賽道編寫的賽車/變化樣條線,漂移區和危險迴避,以便AI使用多車道寬度進行乾淨的超車,並行布HUD/音訊要素(位置,圈數/最後一圈橫幅,小地圖,道具槽,計時器/分段,可讀的音效,和每個賽道一個音樂循環)。隨後,Codex不斷地被從10個通用提示詞的隨機列表中重新提示,以繼續處理這個問題。其中一個提示詞的例子是:你的工作是加入新功能,使遊戲更接近原作。首先,玩遊戲並確定與原作相比缺少了什麼。然後挑選幾個缺失的功能並實現它們。在每個功能之後,徹底測試它,通過玩遊戲並確認它工作正常。如果你在玩的時候注意到任何錯誤,也要優先修復它們。 (新智元)
再見,人類程式設計師!OpenAI自曝:一行程式碼都不寫了,100%用Codex
【新智元導讀】100%是用Codex寫的。還有內部爆料說,Codex讓他們僅用三天時間就搭出了伺服器,三周就發佈了APP。人類程式設計師,真的要退出歷史舞台了?矽谷的空氣裡再次充滿了躁動,而這一次的震源中心,回到了OpenAI。OpenAI的奇點時刻,也要來了?就在剛剛,X被一條爆料徹底刷屏——Codex,已經正式接管了OpenAI研究員「Roon」100%的程式碼編寫工作!Roon發出了感慨萬千的宣告:程式設計一直很痛苦,然而卻是必經之路。我很高興,它終於結束了。我驚訝於自己竟然這麼快就擺脫了程式設計的陰影,而且一點都不懷念它。甚至我有點遺憾,從前的電腦為什麼不是這樣的。早在去年12月,Claude Code之父Boris Cherny就曾投下一枚震撼彈——自己對Claude Code的貢獻100%都是由Claude Code完成的。這一「套娃式」的自我進化,直接引爆了矽谷的自動編碼狂潮。面對如此巨大的蛋糕,OpenAI顯然不會拱手相讓。如今,反擊已經開始。在剛剛過去的周末,Sam Altman已經公開預告:接下來一個月會發佈一堆關於Codex編碼模型的新產品。社區的風向也開始發生微妙的轉變。一些資深開發者評論道:在90%的情況下,GPT-5.2-Codex都能一次性完成我提出的請求。Claude雖然不錯,但它偶爾會偷偷插入「壞程式碼」;相比之下,OpenAI的新方案更像蘋果——主打一個開箱即用。看來,Codex和Claude Code的大戰,已經一觸即發!人類寫程式碼的時代,徹底結束?OpenAI研究員Roon的這個爆料,也讓網友們直言:AI終於到達了這個奇點!看來,人類直接手寫程式碼的時代,真的結束了。經過多年的模型迭代與資料積累,我們似乎真的站在了一個臨界點上:人類直接手寫程式碼,正在變得不再有任何意義,甚至是一種效率的浪費。在Roon的評論區,人們開始集體對程式設計時代說再見。是的,我熱愛電腦,熱愛軟體開發,對我而言,程式設計只是實現目標的手段,僅此而已。複雜的語法只是是我們為了讓邏輯得以執行而必須付出的昂貴代價。如今,這些中間商終於可以退場了。激進的觀點開始湧現。甚至有人建議,既然不需要人類閱讀程式碼了,我們就該讓模型跳過人類可讀的彙編語言,直接使用機器程式碼。今天的程式設計就像曾經的打孔卡一樣,應該永遠消失了。與此同時,另一個炸裂的消息從OpenAI內部流出——一位研究員爆料,在Codex的輔助下,他們僅用了三天時間,就從零搭建了OpenAI的MCP伺服器,並完成了規模驗證。不僅如此,他們還在3周內推出了Sora的Android應用;此外,還有一大波由Codex建構、甚至由Codex自我稽核的內部工具正在排隊上線。如果沒有Codex的話,很難想像OpenAI能以如此驚人的速度發佈產品。有趣的是,這位大佬似乎還玩起了Claude Code之父的梗:過去30天,我花了大量時間稽核Plan和PR,幾乎沒寫一行程式碼!有人評價,這正是「起飛」第一階段的樣子。而下一步,或許就是真正的端到端AI自主研究。還有人問,確定你們這不是行銷?這位研究者詳細解釋說,絕對不是。具體的使用過程是這樣的:首先,他會花很多時間來撰寫規格說明,並在腦海中構想輸出應該是什麼樣子。然後,會啟動一個「4×Codex」的雲端並行任務。這樣不僅可以一次性看到多種不同的變體,也能補上自己一開始遺漏的細節。接下來,就是讓Codex自己發揮。等它跑完,人類再介入進行測試和驗證。Codex CLI 0.9+來了!既然「人機協作」的範式已經改變,那麼承載這種範式的工具自然也要升級。面對Anthropic在的步步緊逼,OpenAI顯然有備而來。就在今天,Codex CLI連續推送了兩次更新,版本號直接來到了0.91.0。其中,Codex 0.9.0帶來了最受大家期待的功能——Plan Mode(計畫模式)!Code模式是Codex的默認體驗,它的工作方式和其他AI智能體一樣。這點咱們就不多費口舌了。但Plan模式則完全不同,它將程式設計任務拆解為兩個截然不同的階段:第一階段:理解意圖(明確目標、劃定範圍、識別約束條件、制定驗收標準)第二階段:技術規格(生成決策完備的實施方案)在這種模式下,輸出的內容非常詳盡,無需任何後續追問即可直接執行。Plan模式最聰明的地方在於:它堅持「證據優先探索」。在開口問問題之前,Codex會先在你的程式碼庫中進行2次以上的針對性搜尋,檢查配置、Schema結構、程序入口等。此外,Plan模式還可以呼叫全套工具:它可以(並且將會)呼叫各種技能、子智能體和後台終端,從而建構高層級的實施計畫。當Codex確實需要你輸入時,它是結構化的,而且只有關鍵且聚焦的問題:· 儘可能提供選項· 總是包含一個推薦選項(對新手極其友好)· 只問那些會實質性改變計畫的問題為了實現這一互動,它利用了新的request_user_input工具。這個工具會暫停執行流程,拋出一道有針對性的多項選擇題,並支援你在選擇時補充反饋或上下文。更貼心的是,一旦它在任何時候檢測到歧義,尤其是當你在引導它時指令模糊,它會立即停下來確認,而不是盲目執行。現在,開發流程變成了這樣:使用者請求一個計畫 -> AI研究程式碼庫與規劃 -> 針對性詢問使用者 -> AI完善並完成計畫 -> 提示是否執行?但是,程式碼誰來審?看起來完美無缺,對吧?Codex負責思考,Codex負責執行,Codex負責填滿你的GitHub。但就在我們為這種極致的效率歡呼時,一個被忽視的深淵正在腳下裂開——在這個新時代,最大的懸念不再是誰在寫程式碼,而是誰來稽核程式碼。當AI火力全開,每天向倉庫甩出10+個PR時,人類開發者面臨的實際上是一場針對注意力的DDoS攻擊。AI生成程式碼是毫秒級的,而人類理解程式碼上下文是分鐘級甚至小時級的。這種「生產與審查的極度不對稱」帶來了兩個可怕的後果:審查者被淹沒,開始習慣性點「Approve」,Code Review淪為形式。那些看起來能跑、但缺乏系統性思考的程式碼塊,正在像癌細胞一樣在程式碼庫中擴散。利益衝突顯而易見,但我們需要看透這一層。Claude Code的創造者吹捧自己的工具天經地義——這是商業的本能。但作為受眾,我們不能把「Demo裡的完美世界」當成日常。畢竟,Demo不會展示偵錯三小時都找不到的競態條件,也不會展示由於上下文丟失導致的邏輯斷層。除此之外,資料裡還藏著一個迷人的悖論。Ars Technica曾報導稱,開發者對AI工具的使用量在漲,信任度卻在跌。為什麼?因為AI正在跨越「恐怖谷」。以前的AI程式碼爛得很明顯,現在的AI程式碼爛得很隱蔽——它引用了不存在的庫,或者在一個極其邊緣的Case上埋了雷。人們用得越多,踩的坑越多,信得自然越少。正如Jaana Dogan所警示的,我們正在面臨軟體工程「瑣碎化」的風險。100個提交,可能讓GitHub的綠格子很好看。1個架構變更,可能需要三天思考,零行程式碼產出。前者廉價如塵土,後者珍貴如黃金。問題從來不是AI能不能寫程式碼,而是它寫的程式碼,是不是我們系統真正需要的,以及我們是否有能力維護它。這對我們意味著什麼?無論我們是否準備好,這個時代已經來了。對於不同的人群,這意味著完全不同的生存法則。致開發者AI編碼工具不是「即將來臨」,它們已經破門而入。問題在於,如何在不丟失自身核心價值的前提下整合它們。技術大牛們依然在做那些艱難的思考工作,AI只是接過了「打字員」的工作。如果你只會「搬運程式碼」,那你確實該慌了。致非開發者「技術工作」與「非技術工作」的邊界正在消融。Claude Cowork這類工具創造了新物種。曾經需要開發者才能搞定的任務,可能很快只需要你能清晰描述出你想要什麼。清晰描述需求的能力,將成為新的程式語言。最後的話雖然OpenAI的研究員和Claude Code的創造者都在宣稱AI包辦了100%的程式碼,但請記住——那是他們的實驗室環境,不是你的生產環境。唯一可以確定的是,我們正在經歷從「寫程式碼」到「指揮寫程式碼」的不可逆的轉變。而且,正在加速。 (新智元)
騰訊研究院AI速遞 20260126
生成式AI一、OpenAI Codex預告,今先揭秘Codex CLI核心智能體循環1. OpenAI CEO奧特曼預告下周起將發佈Codex相關重磅內容,官方同步發佈技術部落格揭秘Codex CLI核心架構——智能體循環;2. 智能體循環通過Responses API協呼叫戶指令、模型推理與本地工具執行,採用"提示詞前綴一致"策略觸發快取最佳化性能;3. Codex支援零資料保留配置保障隱私,利用自動壓縮技術管理上下文窗口,後續將深入介紹工具呼叫和沙箱模型。二、Google DeepMind 發佈 D4RT,徹底顛覆了動態 4D 重建範式1. GoogleDeepMind發佈D4RT,將3D重建、相機追蹤、動態物體捕捉統一成"查詢"動作,速度比現有SOTA快18至300倍;2. 核心創新是統一的時空查詢介面,AI先全域"閱讀"視訊生成場景表徵,再按需搜尋任意像素的3D軌跡、深度和位姿;3. 該技術對具身智能、自動駕駛和AR意義重大,讓AI即時理解動態環境,但訓練仍需10億參數模型和64個TPU。三、Claude Code 宣佈重磅升級:將內部的Todos升級為 Tasks1. Claude Code將內部"Todos"升級為"Tasks",支援多會話或子代理協作完成跨越多個上下文窗口的長期複雜項目;2. Tasks儲存在檔案系統中便於多個會話協同,當一個會話更新Task時會廣播給所有處理同一任務列表的會話;3. 新功能適配Opus 4.5更強的自主運行能力,使用者可通過環境變數讓多個會話在同一任務列表上協作。四、文心5.0正式版發佈,霸榜LMArena的最強文科生強在那1. 百度文心5.0正式版上線,參數量達2.4兆,採用原生全模態統一建模技術,支援文字、圖像、音訊、視訊的理解與生成;2. 在LMArena文字和視覺理解榜單五次登頂,進入全球第一梯隊,語言與多模態理解能力穩居國際領先;3. 實測顯示模型在複雜情感理解、弦外之音分析、創意寫作等文科任務表現突出,被稱為"最強文科生"。五、Clawdbot刷屏,AI智能體+閘道器,現階段使用請注意風險1. 開放原始碼專案Clawdbot在矽谷爆火,可在Mac mini上運行,兼具本地AI智能體和聊天閘道器雙重身份,通過WhatsApp、iMessage等隨時對話;2. Clawdbot解決了大模型記憶力痛點,能記住兩周前的對話,還會主動推送郵件、日程提醒,並可直接操控電腦執行任務;3. 項目GitHub獲9.2k星,最低月成本約25美元,但需要一定技術基礎部署,使用者反饋它能自動管理生意、寫程式碼替代Zapier等付費服務。六、LeCun創業官宣核心方向,掀起對Next-token範式的「叛變」1. 圖靈獎得主LeCun創立的AMI Labs官宣核心方向為"世界模型",旨在建構理解現實世界、具備持久記憶和推理規劃能力的智能系統;2. 該路線認為僅靠預測下一個token無法真正理解現實,需在更高層次表徵空間進行預測與推理,過濾不可預測的噪聲資訊;3. AMI Labs據傳正以35億美元估值融資,目標應用於工業控制、機器人、醫療等對可靠性要求極高的領域。七、實測:Claude in Excel,能聯網、能做表、辦公完全自動化1. Anthropic推出Claude in Excel外掛,支援Pro、Max、Team、Enterprise使用者,基於Opus 4.5模型,可通過Microsoft Marketplace安裝啟動;2. 外掛能聯網搜尋並自動填充表格,支援讀取公式、Debug錯誤、從零建模、製作透視表等功能,支援.xlsx和.xlsm格式;3. 當前不支援條件格式、宏和VBA,官方提醒存在prompt injection風險,建議只用可信來原始檔,高危函數會彈確認框。報告觀點八、Claude Code之父最新私教課:手把手教你Claude Cowork1. Claude Code創造者Boris Cherny詳解Cowork使用方法,強調將其當作"執行者"而非聊天工具,可直接操控檔案、瀏覽器和各類工具;2. 在之前X推文基礎上,再次強調:核心工作流是平行運行多個任務照看Claude們,先用"計畫模式"來回溝通直到滿意,再切換"自動接受編輯"模式執行;3. 強調Claude.md作為團隊複利式知識庫的重要性,任何Claude犯的錯都應加入進去,以及給Claude驗證輸出的方式能顯著提升質量。九、Google總監警告:只會寫Prompt的程式設計師,2026年將被淘汰1. Google雲AI總監Addy Osmani警告"氛圍程式設計"已撞南牆,AI能完成70%前期工作但剩餘30%只有經驗豐富的工程師能搞定;2. Stack Overflow調查顯示開發者對AI精準性信任度從40%降至29%,73%受訪者遇到過氛圍編碼導致的程式碼理解問題;3. 2026年真正核心競爭力是把模糊問題轉化為明確執行意圖、設計好上下文結構,以及區分真正重要的東西。十、「AI 無處不在」的達沃斯論壇,科技巨頭們都說了那些金句?1. 馬斯克預測2026年底前AI將超越人類智慧,到2030年AI將比全人類集體智慧更聰明,特斯拉明年底將開售人形機器人Optimus;2. 微軟CEO納德拉警告若AI只消耗資源不改善結果社會會失去容忍,黃仁勳稱具身智能是"一代人一次的機會";3. DeepMind CEO哈薩比斯認為AGI還需5-10年,Anthropic CEO達里奧稱只差6-12個月模型就能端到端完成軟體開發。 (騰訊研究院)
超級應用的平台野心!OpenAI版小程序誕生!奧特曼深夜五連發!ChatGPT可內建應用,Codex超強更新,AI建構者時代已至
一不留神,OpenAI 正式直接將ChatGPT聊天變成了各大app的平台入口了。就在 5 個小時前,OpenAI 再次更新了超級AI原生應用的定義!!!剛進入10月,OpenAI接連甩出了5連炸。Sora2隻是開胃菜!就在昨天凌晨2點,大洋彼岸的舊金山再次被OpenAI點燃了!Sam Altman 帶領著OpenAI終於實現了驚豔一跳:AI時代,超級AI原生應用已經從聊天進化成了內建應用入口平台了!“我們希望今天能給你一些新的靈感,去創造屬於你的作品。我們希望 OpenAI 能成為這個全新創造時代的理想平台。”OpenAI DevDay上,50分鐘左右的keynote,掌聲接連不斷。看得出來這次開發者對於OpenAI的發佈是真的太喜歡了!可以說,時隔兩年,這是最親民的一次發佈。奧特曼特別挑明了這次DevDay的主題:“讓AI建構變得更容易”。今天,我們要聚焦一件對你們最重要的事:讓 AI 建構變得更容易。我們一直在傾聽開發者的聲音——瞭解你們遇到的瓶頸,以及下一步想建構什麼。小編特地一早為大家整理了會上的發佈內容。這次發佈有四項精彩的主題:首先,OpenAI展示了開發者已經可以在 ChatGPT 裡直接建構應用,同時可以幫助更高效地觸達使用者。其次,如何更快、更好地建立智能體(Agents)。第三,如何讓寫程式碼變得更輕鬆——讓 AI 處理那些重複性工作,從而讓你專注於系統和創造力。第四,OpenAI帶來了新的模型和 API 的更新。這是有史以來最適合當“建構者”的時代!奧特曼用加速度來形容這場發佈——“從想法到產品,從未如此快速。你能真切地感受到這種加速度。”ChatGPT中直接建構App:應用直接裝在Chat中OpenAI 宣佈推出一種全新的方式,讓開發者可以在 ChatGPT 內直接建構應用程式。從周一開始,ChatGPT 使用者將能在聊天介面中訪問來自 Booking.com、Expedia、Spotify、Figma、Coursera、Zillow 和 Canva 等公司的互動式應用。同時,OpenAI 也發佈了 Apps SDK 的預覽版——這是一套供開發者使用的工具包,用於建立這些應用。據悉,開發者今天就可以開始使用了。至於推出的理由,奧特曼這樣描述這個新發佈:“我們希望 ChatGPT 成為一個幫助人們更好地前進的平台——讓他們更高效、更有創造力、更快地學習,更好地完成自己想做的事情。嵌入 ChatGPT 的應用程式,將讓新一代的應用變得更加互動、適應性更強、更加個性化,而且使用者可以直接通過聊天與它們互動。”但不難想像,這套新系統是 OpenAI 最新一次試圖在其旗艦 AI 產品 ChatGPT 周圍建構“應用生態”的努力。此前,OpenAI 曾通過 GPT Store 讓開發者製作互動式應用(當然最後市場的反應似乎並不是很成功)。但與那種獨立的應用程式商店不同,這次推出的“內嵌應用”直接整合進 ChatGPT 的回答中,讓使用者在日常對話時即可呼叫第三方工具。這樣既為開發者提供了更好的分發管道,也讓 ChatGPT 的使用者體驗更加豐富。具體怎麼操作?使用者只需在 ChatGPT 中輸入不同應用的名稱,就能調取來自各種服務的內容。例如,使用者可以說:“Figma,把這張草圖變成一個可用的流程圖”,以呼叫 Figma 應用。也可以輸入:“Coursera,教我一點機器學習相關的內容”,來呼叫 Coursera 應用。在 Zillow 的應用演示中,使用者可以用自然語言讓 ChatGPT 搜尋符合特定價格區間的公寓。隨後,ChatGPT 會生成一張互動式地圖展示結果,使用者還能通過對話瞭解各個房源的更多細節。此外,ChatGPT 還會在對話中主動推薦可能有幫助的應用。例如,當使用者請求“幫我為這周末的派對生成一個歌單”時,ChatGPT 可能會自動呼叫 Spotify 應用。未來,OpenAI 計畫將 DoorDash、Instacart、Uber 和 AllTrails 等更多應用引入 ChatGPT。OpenAI同時表示,這一系統是基於 Model Context Protocol(模型上下文協議,MCP)建構的——該協議允許開發者將他們的資料來源連接到 AI 系統。ChatGPT 應用不僅能觸發特定動作,還能在聊天介面中直接渲染完整的互動式介面。有些應用甚至可以在 ChatGPT 中播放視訊,視訊會固定在網頁頂部,並可根據使用者的需求進行動態調整。如果使用者已經訂閱了某項服務,他們將能夠直接在 ChatGPT 中登錄帳戶,使用部分特定功能。奧特曼還透露,OpenAI 未來會支援在 ChatGPT 內對應用進行商業化,包括通過公司最近推出的“即時結帳”(Instant Checkout)功能來付費購買。此外OpenAI還同步上線了一份開發者建構指南。地址:https://developers.openai.com/apps-sdk/app-developer-guidelines不過,圍繞 ChatGPT 應用系統的關鍵問題仍在於隱私和資料訪問範圍。OpenAI 表示,開發者“必須僅收集最低限度所需的資料,並對權限保持透明”。但目前尚不清楚開發者能訪問到使用者的全部聊天內容、最近幾條消息,還是僅能看到觸發該應用的提示語。此外,ChatGPT 在面對多個競爭服務(例如 DoorDash 與 Instacart)時如何選擇也仍是未知數。外界推測公司未來可能允許品牌付費提升曝光,但 OpenAI 表示,它的首要原則仍是“以使用者體驗為中心”。奧特曼這樣評價 Apps SDK:這是一種“在正確時間找到正確應用”的全新方式,同時也為開發者提供了新的曝光途徑。當然,小編髮現只有Plus或Teams使用者可以使用,相信漫漫就會向免費用放開。Agentkit:更快更好地建構部署智能體接下來的Agentkit也是本場DevDay的精彩看點。奧特曼上來就指出了現在建構生產級Agent的痛處:跟數千個團隊交流後,OpenAI在思考一個問題:既然 Agent 正在重新定義“工作”,那麼 OpenAI 能不能讓建構 Agent 變得更容易?所以這次全新的解決方案 AgentKit,就是專為希望“從想法快速到成品”的開發者而生。AgentKit 是 OpenAI 平台中的一整套模組化建構工具,幫助你將 Agent 從原型快速推向生產。建構、部署、最佳化,全流程也都有了。ps:大家都知道市面上的已經不少Agent框架發佈了,這次OpenAI的下場,勢必會加劇該領域市場的競爭。AgentKit 有三大核心元件。第一,Agent Builder。一個快速的可視化工具,讓你能直觀地設計邏輯步驟、測試流程、實現創意。它基於 OpenAI 廣泛使用的 Responses API 建構——已有數十萬開發者熟悉並使用它。第二,ChatKit。通過它,開發者可以輕鬆地把優質對話體驗整合到自己的應用中。你將獲得一個簡潔、可嵌入的聊天介面,可以自由定製品牌風格、工作流邏輯,專注於讓你的產品更具獨特性。下面視訊中可以看到,ChatKit 如何在每個 Agent 節點之間流暢工作,甚至呼叫工具,以生成最優回覆。第三,Evals for Agents。專門用於評估 Agent 性能的新功能。包括:Trace Grading(跟蹤評分):逐步分析 Agent 的決策邏輯;Datasets(資料集):評估單個 Agent 節點表現;自動提示最佳化(Automated Prompt Optimization);甚至可以在 OpenAI Evals 平台內直接評估外部模型。“這是我們在最初建構 Agent 時夢寐以求的一整套工具。”除此之外,在安全的資料訪問方面,也十足重要。OpenAI表示,通過此前發佈的 Connector Registry(連接器註冊中心),開發者可以安全地將 Agent 與內部系統或第三方服務連接,所有訪問都可通過管理員面板進行控制,既靈活又安全。奧特曼還親自展示了幾個例子。他提到了一家非常具有規模化的連鎖店智能體使用的例子。不同資料來源、不同系統協同運作,生成真正有用、合理的答案。這也是使用 AgentKit 能實現的體驗。“目前,已有多家出色的首發合作夥伴借助 AgentKit 成功規模化部署了 Agent。從今天起,所有人都可以開始使用。”更強大的 CodexApp、Agent 之後,下面則是軟體開發領域的智能體Codex。奧特曼特別提到了,軟體開發智能體降低開發門檻這件事。在日本,一位 89 歲的退休老人在 ChatGPT 的幫助下自學程式設計,他已經為老年人開發了 11 款 iPhone 應用,把自己一生的智慧變成了幫助他人獨立生活的工具。但這並不是重點,重點是,今天OpenAI終於全面開放了自家內部在使用的Codex,而不僅僅是預覽版!上一次Codex推出大量新功能還是8月份,跟隨GPT-5一起發佈: GPT-5 Codex 模型。該模型在程式碼重構和程式碼審查等任務上表現更佳,還能根據任務複雜度動態調整思考時間。奧特曼透露道,開發者非常喜歡這個新模型。Codex 的使用量增長極快。“我們關注的一個關鍵指標是每日消息量——也就是開發者每天與 Codex 的任務和對話次數。自 8 月初以來,這個數字增長了 10 倍。這種快速增長也讓 GPT-5 Codex 成為了我們增長最快的模型之一。自發佈以來,我們已處理超過 40 兆 tokens。”那這一次帶來的 Codex 版本自然也有一系列新功能,主要有以下幾點,主要是面向工程團隊推出的更新。第一,Slack 整合。這是很多人強烈要求的功能。現在你可以在團隊的 Slack 對話中直接讓 Codex 寫程式碼或回答問題。第二,新的 Codex SDK,幫助團隊在自己的工作流中擴展和自動化 Codex。第三,新的管理與報告工具,包括環境控制、監控和分析儀表盤等,幫助企業更好地管理 Codex。此外值得一提的是,與Anthropic的定位不同,奧特曼將Codex的使用者定位更廣——最鼓舞人心的一點,是 Codex 使用者的廣度:從周末寫 side project 的獨立開發者,到高速成長的初創公司,再到全球企業。比如 Cisco 已經在整個工程組織內部署了 Codex,他們的程式碼審查速度提升了 50%,項目周期從數周縮短到了幾天。通過 Codex 和 OpenAI 的 API,把你身邊的任何東西都變成可運行的軟體。OpenAI負責人還展示了幾個非常有意思的功能:比如在IDE環境裡的Codex,提示詞可以很簡短,自動理解上下文。另外還可以通過語音即時的氛圍互動,此外也可以接入已經開發好的MCP。這位負責人在語音模式過程中,全程沒有敲一行字,Codex可以即時的進行互動,並完美的按照語音指令,連接起了草稿、裝置,完成了現場拍攝照片的任務,可以說達到了一個小高潮!回到語音模式——“你能讓 Codex 顯示一個像電影片尾那樣的字幕動畫,演員名單就是在場的觀眾嗎?”“我正在用 Codex 處理,很快告訴你結果。”“太好了。那能同時倒數並給我們拍張合影嗎?”——搞定!(歡呼與掌聲)API 中新增的模型:GPT5-Pro、Sora2、精簡版語音模型為了極大拓展 AI 的可能性,OpenAI這次還在API中新發佈了GPT-5 Pro、Sora 2 和 Realtime Mini。其中 GPT-5 Pro被奧特曼成為有史以來最智能的模型。而Realtime Mini 則是一款高級語音模型的精簡版。Sora2自然不用說了,國慶節剛剛宣佈,現在算是終於上線API了。寫在最後:可怕的OpenAI時隔第一次 OpenAI Dev Day,已經過去兩年。OpenAI 給業界帶來的想像力真的可以說是恍如隔世。用奧特曼的話來形容,OpenAI的開發者生態已經發展到足以讓Google、蘋果都難以小覷的程度:回到 2023 年,當時我們有 200 萬開發者,1 億 ChatGPT 周活使用者。我們的 API 每分鐘處理約 3 億個 token,當時我們覺得這已經很多了。如今,已有 400 萬開發者在使用 OpenAI。每周有超過 8 億人使用 ChatGPT。我們的 API 每分鐘處理超過 60 億個 token。400萬開發者、8億周活躍使用者、每分鐘API呼叫量超過60億Token。而,這些數字自然是OpenAI作為最強大的模型供應商所帶來的虹吸效應,但僅僅只是如此嗎?這次開發者日的發佈,顯然說明,OpenAI的版圖遠不止於模型這麼簡單。從GPTs的嘗試,再到如今的直接將應用裝到ChatGPT的Apps SDK、再到一站式的Agentkit、視訊領域的Sora2、音訊領域的Realtime API,據說在硬體領域奧特曼和ive也已經開發出了全新一代的智能互動終端。可以說ChatGPT已經從一個聊天軟體逐漸演變成一個無所不能、無所不包含的超級平台。Apps SDK,幫助你在 ChatGPT 中建構原生應用;AgentKit,讓你能更自信地部署智能體;更強大的 Codex,助你和團隊更快完成產品發佈;在 API 中新增的模型:GPT-5 Pro、Sora 2 和 Realtime Mini,它們將極大拓展 AI 的可能性。所有這一切,奧特曼如是說:“OpenAI的目標,是讓 AI 對每個人都有用。”那對於我們技術人而言,請不要遲疑,沒錯,正在見證一場重大變革。網際網路時代,大家搞起了LAMP框架;移動開發時代,大家紛紛成為Android開發者、iOS開發者;而如今,相信地球上開始誕生一種名曰“OpenAI”開發者或者“ChatBot”開發者的稱謂。因為時代的車輪推進如此之快,以前需要幾年、幾個月的軟體開發,現在通過ChatGPT,只需幾分鐘。“之前複雜的基礎設施似乎再也不用多加考慮了,你只需要一個好的idea!”多麼可怕的未來,多麼可怕的OpenAI!AGI時代的巨頭已然成型了! (51CTO技術堆疊)