Agentic AI時代,“老大”OpenAI成了“老登”?

ChatGPT的發佈讓OpenAI一戰封神,所有人都覺得這家AI公司會一直贏下去。然而在AI程式設計這條賽道上,佔據先機的卻並非OpenAI。

2025年2月份,競爭對手Anthropic低調發佈了Claude Code。這款能夠直接操作電腦、自主完成程式設計任務的AI智能體,在短短幾個月內為Anthropic帶來了超過25億美元的年化收入。

與之相比,OpenAI的同類產品Codex,同期年化收入約為10億美元。雙方的差距不止一倍。

更令OpenAI尷尬的是,Anthropic的核心創始團隊,正是幾年前從OpenAI離開的那批人。

OpenAI位於舊金山Mission Bay的新總部大樓是一棟現代化的玻璃幕牆建築。接待處擺放著介紹公司發展歷程的宣傳資料,樓梯間的牆壁上掛滿了一系列里程碑事件的紀念海報:GPT系列、DALL·E、ChatGPT——每一幅都記錄著這家公司過去幾年的高光時刻。

但其中沒有AI程式設計。

01. 從Codex到Copilot,OpenAI錯失的先發優勢

OpenAI其實很早就開始了AI程式設計方向的探索。

2021年,奧特曼和OpenAI聯合創始人格雷格·布羅克曼(Greg Brockman)還在舊金山Mission區的老辦公室,向《連線》雜誌記者展示了一個叫Codex的項目。它是GPT-3的一個分支版本,在GitHub的數十億行開放原始碼上訓練而成。使用者輸入一句自然語言描述,它就能生成一段相應的程式碼。

“它可以代表你在電腦世界裡執行操作,”布羅克曼當時說,“你擁有一個可以執行命令的系統。”

但這個早期的技術積累,最終沒有轉化為產品層面的持續投入。

Codex被微軟看中了。這家軟體公司當時正在開發一個叫GitHub Copilot的產品,這是一款能嵌入程式設計師編輯器、提供程式碼補全功能的工具。一位早期加入OpenAI的員工回憶,當時的Codex“除了自動補全之外做不了太多事情”,但微軟已經將其視為未來產品的重要方向。

2022年6月,GitHub Copilot正式發佈,幾個月內就吸引了數十萬使用者。

正常情況下,OpenAI應該會加大對這一方向的投入。但接下來發生的事情,讓後來負責Codex產品的團隊感到遺憾。

最初的Codex團隊被解散了。一部分成員轉去做DALL·E 2圖像生成項目,一部分去參與GPT-4的訓練。當時公司的首要目標是實現AGI,AI程式設計沒有被視為需要獨立投入的領域。

一位前團隊成員說,之後的幾年裡,OpenAI沒有專門的團隊在開發AI程式設計產品。“當時的感覺是,這個領域已經被GitHub Copilot覆蓋了,”畢竟微軟會繼續使用OpenAI的模型來迭代這個產品,不需要OpenAI自己操心。

幾個月後,ChatGPT上線,兩個月內使用者數突破1億。OpenAI完全被這次成功轉移了注意力。

接下來的2023年和2024年,OpenAI把主要資源投入到多模態模型的研發上,致力於讓AI理解圖像、視訊、音訊,像人一樣操作游標和鍵盤。當時Midjourney等產品正在興起,行業普遍認為大語言模型需要具備處理多模態資訊的能力,才能邁向更高層次的智能。

這個方向的選擇本身沒有問題。只是在這段時間裡,AI程式設計這條賽道正在悄然生長,而OpenAI的注意力並不在這裡。

02. 競爭對手Anthropic突圍Coding賽道

Anthropic選擇了另一條發展路徑。

這家公司也做多模態模型和聊天機器人,但有一個方向始終沒有放鬆:程式設計能力。

布羅克曼後來在一個播客節目裡談到,Anthropic“從早期就非常專注在程式設計上”。他們不僅用演算法競賽題目訓練模型,還往訓練資料裡加入了真實項目中那些結構混亂的程式碼,就像普通開發者日常面對的那種。“這是我們沒有及時意識到重要性的地方,”他說。

2024年6月,Anthropic發佈Claude Sonnet 3.5。很多開發者試用後發現,這個模型的程式設計能力確實突出。

一家叫Cursor的初創公司最先受益於此。幾個二十多歲的年輕人做了一款產品:在程式碼編輯器裡用自然語言提需求,AI直接幫忙修改程式碼。他們接入Sonnet 3.5後,使用者量開始快速增長。據熟悉Cursor的人士透露,幾個月內,Anthropic就開始內部測試自己的獨立版本了,也就是後來的Claude Code。

Cursor火起來之後,OpenAI曾試圖收購這家公司,但遭到拒絕。對方認為程式設計賽道潛力巨大,希望保持獨立。

收購未能達成,OpenAI內部也開始有團隊嘗試AI程式設計方向。2024年底,幾個小型團隊陸續啟動。

一個是安德烈·米申科(Andrey Mishchenko)和蒂博·索蒂奧(Thibault Sottiaux)帶領的團隊,這兩人分別是Codex的研究負責人和前GoogleDeepMind研究員。他們最初的動機比較務實:用AI程式設計來加速AI研究,讓AI自動管理訓練任務、監控GPU叢集,研究員就能騰出時間做更有創造性的工作。

另一個是亞歷山大·恩比里科斯(Alexander Embiricos)帶領的團隊,他之前負責多模態智能體的研發。他做了一個叫Jam的演示項目,在公司內部引起了不少關注。

Jam和2021年的Codex有本質區別。Codex是輸出程式碼讓人來執行,Jam則可以直接進入命令列,自己運行程式碼。恩比里科斯看著電腦螢幕上那個跟蹤Jam操作的自建頁面一遍遍自動更新,感到有些不可思議。

“我以前一直以為多模態互動可能是實現AGI的路徑,也許我們以後就是整天和AI共享螢幕,”他說,“但後來逐漸意識到,讓模型以程式設計方式直接訪問電腦,可能是更有效的方向。”

這幾個團隊磨合了幾個月後合併在一起。等OpenAI在2025年初完成o3(比o1更針對程式設計任務最佳化的模型)的訓練,他們終於有了建構產品的技術基礎。

但這時,Claude Code已經準備公開發佈了。

03. 收購受阻與內部衝刺,OpenAI的雙線應對

2025年2月,Claude Code以“有限研究預覽”的形式首次亮相。5月,全面開放使用。

這個產品和之前流行的“氛圍編碼”模式不同。氛圍編碼是人主導、AI輔助的程式設計模式,由人做決策,AI執行具體操作。而Claude Code可以直接在命令列工作,訪問使用者的所有檔案和應用程式,開發者可以把部分工作真正交給AI來完成。

OpenAI也開始加快節奏。

索蒂奧在3月組建了一個“衝刺團隊”,把內部幾個小組整合在一起,計畫在幾周內推出競品。與此同時,奧特曼開始尋找收購目標,他們看上了一家叫Windsurf的AI程式設計初創公司,報價30億美元。如果收購完成,產品、團隊、企業客戶都能快速補齊。

但這筆交易被微軟擱置了數月。

據《華爾街日報》報導,微軟希望獲得Windsurf的智慧財產權。這家雲巨頭從2021年起就用OpenAI的模型支撐著GitHub Copilot,每次財報電話會都會提及這個產品。但Cursor、Windsurf、Claude Code陸續出現後,GitHub Copilot的產品形態顯得有些過氣。此時OpenAI再推一個新的編碼產品,微軟的態度自然變得複雜。

Windsurf的交易正趕上OpenAI和微軟重新談判合作協議。OpenAI希望從微軟那裡爭取更多自主權,不希望產品和算力資源被過度控制。這筆收購成了雙方博弈過程中的犧牲品。到7月,交易正式告吹。後來Google招攬了Windsurf的創始人,剩餘團隊則被另一家編碼初創公司Cognition收入麾下。

“我本來挺希望做成這筆交易的,”奧特曼說,“但不是每一筆交易都能控制。”

不過他提到,Codex團隊的表現讓他有些意外。談判那幾個月,索蒂奧和恩比里科斯一直在迭代產品,沒有停下來。到8月,OpenAI開始加速推進自己的產品。

04. 從5%到40%:Codex猛追市場份額

布羅克曼有一個自己設計的測試方法,叫“反向圖靈測試”。他多年前親自編寫了這套程序,規則是這樣的:兩台電腦前各坐一個人,每人螢幕上有兩個聊天窗口,一個連接著對面的人,一個連接著AI。目標是判斷那個窗口是AI,同時還得讓對方以為你才是AI。

去年大部分時間,OpenAI最好的模型要完成這個遊戲的程式碼編寫,需要好幾個小時,中間還得有人一步步引導。到12月,Codex用GPT-5.2做引擎,一個結構清晰的提示詞輸入後,就能直接生成一個可運行的遊戲。

感受到變化的不僅僅是布羅克曼。開發者社區裡開始頻繁討論AI程式設計智能體的能力提升,話題從矽谷擴散到更廣的範圍。一些沒有程式設計背景的人,也開始嘗試用這些工具做些簡單的軟體項目。

Anthropic和OpenAI都在爭搶使用者。有開發者表示,自己每月支付200美元的Codex或Claude Code訂閱費,實際能用到價值1000多美元的服務。兩家公司都在用慷慨的用量限制把使用者往工作流裡引導,等人用習慣了,再按實際用量收費。

從資料上看,OpenAI確實在縮小差距。

2025年9月,Codex的使用量大約是Claude Code的5%。到2026年1月,這個比例上升到接近40%。

Notion的聯合創始人西蒙·拉斯特(Simon Last)說,他和團隊在GPT-5.2發佈後從Claude Code切換到了Codex,主要原因是後者更穩定。“我發現Claude Code有時候會給出不精準的資訊,”他說,“它說自己正在處理任務,實際上並沒有進展。”

在OpenAI負責Codex行為研究的凱蒂·施(Katy Shi)說,有些使用者覺得Codex的回應風格偏“干”,但越來越多人開始接受這種不刻意迎合的特點。“工程領域的工作,本來就需要能夠接受批評性反饋,不能因為表達方式直接就覺得被冒犯。”

企業客戶也在逐步進入。OpenAI應用部門的CEO菲吉·西莫(Fidji Simo)稱:“ChatGPT已經成為AI領域的代表性產品,這在B2B市場是一個明顯優勢,多數企業傾向於使用員工已經熟悉的技術。”OpenAI銷售Codex的策略,主要是將其打包進ChatGPT的企業套件中一併提供。

思科的總裁傑圖·帕特爾(Jeetu Patel)告訴員工,不用太在意使用Codex產生的費用,關鍵是要熟悉這個工具。有員工問他用了之後會不會失業,他的回答是:“不會,但不用一定會失業。不熟悉這些工具的人,慢慢會失去競爭力。”

有開發者認為,OpenAI在B端市場的管道優勢正在發揮作用。不少公司已經採購了ChatGPT的企業版,在此基礎上增加一個Codex功能,決策成本並不高。

也有分析指出,Codex最近的能力提升與GPT-5.2的推理能力最佳化直接相關。o系列模型採用的訓練方法,即讓模型在結果可驗證的程式設計任務中不斷試錯、獲得反饋,這對程式碼生成的質量有明顯幫助。程式設計本身就是一個反饋訊號明確的領域,程式碼要麼能運行要麼不能,這種特性對模型迭代很有利。

05. 奧特曼的難題:既要速度,又怕失控

AI程式設計智能體的影響已經不限於開發者社區。

《華爾街日報》上個月將科技股1兆美元的拋售部分歸因於Claude Code,因為投資者擔心軟體本身的價值可能被壓縮。之後Anthropic宣佈,Claude Code可以對IBM那些運行COBOL語言的老系統進行現代化改造,IBM的股票遭遇了25年來最大單日跌幅。

OpenAI也在加大投入。今年的超級碗廣告,他們投放的是Codex,而不是ChatGPT。

在OpenAI總部,Codex的使用已經相當普遍。多位工程師提到,他們現在很少手寫程式碼,每天的工作主要是和Codex互動。

一位參與了內部駭客馬拉松的工程師描述說,現場大約100人,用四小時時間通過Codex搭建一個可用的演示項目。不少項目既是用Codex開發的,目標也是為了讓工程師更好使用Codex。有的團隊做了個工具,把Slack消息自動彙總成周報,有的團隊用AI生成了一個內部服務的百科式指南。以前這些事情可能需要幾天才能完成,現在一個下午就能跑通流程。

凱文·維爾(Kevin Weil)是前Instagram高管,目前負責OpenAI for Science部門,為研究人員開發AI產品。他說Codex現在會在夜間幫他處理一些項目,早上到公司檢查進度就行。這種做法已經成了他和幾百名同事的日常工作方式。OpenAI 2026年的目標之一是開發一個能夠自主進行AI研究的AI實習生。

西莫表示,Codex最終會整合進ChatGPT和所有產品線,不僅是用來程式設計,而是協助處理各種任務。

奧特曼說他想發佈一個通用版本的Codex,但對安全性還有些顧慮。1月底,他一個非技術背景的朋友請他幫忙安裝OpenClaw,但他沒有答應,認為“現在還不是時候”,那個智能體可能會誤刪重要檔案。但這件事過去幾周後,OpenAI就把OpenClaw的創作者招進了公司。

不少開發者認為,Codex和Claude Code之間的差距確實在縮小,但也有機構對OpenAI的進度表示擔憂。一個叫Midas Project的非營利組織發佈報告稱,OpenAI在GPT-5.3-Codex上沒有完整披露網路安全風險,安全承諾的落實情況不夠透明。OpenAI的對齊負責人阿米莉亞·格拉澤(Amelia Glaese)否認為了推進Codex而犧牲安全,表示Midas對公司的承諾存在誤解。

布羅克曼對AGI的進展保持樂觀,認為“項目正在按計畫推進”。但在不少矽谷工程師的印象裡,他一直是那種產品發佈前夜還在檢查程式碼庫細節的負責人。

現在的狀況不太一樣了。布羅克曼面對的是幾十萬個AI智能體,在執行具體的任務和項目。他說這種新的工作方式“讓人感覺輕鬆了一些,因為以前確實需要記住很多細節”。但有時候,“你不太清楚那些事情具體是怎麼被解決的”。

他說,這種變化會讓你“感覺對問題的感知不像以前那麼敏銳了”。 (騰訊科技)