OpenAI曝光「自進化」AI！6周精準率翻三倍，Bug全自己修

2026/06/06

•

沒人重訓模型，沒人重寫程式碼，OpenAI的AI系統六周內自己把精準率從25%拉到86%。Codex自己定位bug、寫修復、跑測試，AI自我進化已在生產環境跑起來了。

最近，OpenAI悄悄幹了一件細思極恐的事。

一個AI系統，沒人重新訓練模型，沒人重寫程式碼，六周內自己把精準率從25%拉到了86%。

在官方部落格中，OpenAI把「怎麼讓AI自己變強」的完整方法論，白紙黑字全寫出來了。

結合今年2月GPT-5.3-Codex「參與建構自身」、4月Symphony開源、5月MOSS原始碼級自我改寫，一條被OpenAI藏了半年的暗線，終於浮出水面。

AI自我進化，已經在生產環境裡跑起來了。

180→15小時，6周精準率翻三倍

這個AI報稅系統叫Tax AI，OpenAI和Thrive Holdings聯合做的，服務於Crete會計師聯盟旗下30多家事務所。

先看一個人的故事。

去年，Crete的一位資深會計師花了整整180小時準備客戶稅表。

今年，同樣的工作量，15個小時搞定。

省下來的時間她做了件以前根本不可能的事，逐一給每位客戶打電話，親自講解報稅細節。剩下的精力，全拿來開拓新客戶。

整個賽季，Tax AI處理了7000份稅表，精準率最高97%，產能提升約50%。

但真正炸裂的不是這些數字，是增長曲線。

六周前只能處理最簡單的W-2和1099表格，連K-1都搞不定。六周後，欄位完成精準率從25%飆到86%。

系統越用越強，而且在加速。

Bug自己修，測試報告自己寫

怎麼做到的？

Thrive Holdings的老闆Joshua Kushner，同時也是OpenAI最大投資方之一。

去年12月，OpenAI入股了Thrive Holdings，直接把工程團隊派駐到會計師的辦公桌旁邊。

看著真實的稅表、真實的客戶資料、真實的報錯，一起打磨了六個月。

傳統AI產品改進是這樣的，上線，出bug，使用者投訴，工程師排查，改程式碼，重新部署。

整個循環慢得要命，每一步都卡在人身上。

Tax AI用了三招，就把這個循環的大部分環節自動化了。

第一招，讓從業者的每次糾錯變成結構化資料。

會計師稽核Tax AI的輸出時，每改一個欄位，系統完整記錄三件事，AI預測了什麼、會計師改成了什麼、最終報稅用了什麼。

關鍵在於，系統把每次修改都當作改進的起點，而不是終點。

第二招，生產環境裡的每一步都留痕。

從原始檔上傳，到欄位提取，到引用溯源，到稅務引擎對應，到會計師糾正，到最終報稅。

整條鏈路的每個節點都有trace。

出錯的時候，可以精確定位到底是OCR讀錯了手寫筆記，還是欄位對應邏輯有gap，還是壓根不支援這種表格類型。

第三招，用Codex把發現變成修復。

當系統發現某類錯誤反覆出現，比如Tax AI總是漏掉租賃房產的「公平出租天數」欄位，而會計師每次都手動補上。

這個pattern就會被打包成一個有明確成功標準的工程任務，扔給Codex。

Codex拿到的不是一個模糊的bug報告。

它拿到的是完整的生產trace、出錯的原始檔樣本、期望輸出、相關程式碼路徑，外加一套專門針對這個問題的eval測試集。

然後Codex自己檢查提取邏輯、對應規則、評分器，提出修複方案，跑targeted eval驗證，再跑回歸測試確認沒引入新問題，最後生成一個PR等人類工程師review。

如果證據模糊，任務會路由回產品團隊，而不是硬塞進流程。

你沒看錯。bug修完了，還自帶測試報告。

效果立竿見影。租賃房產相關欄位處理，從幾乎不可用到90%精確率和召回率，六周。

而這六周積累下來的抽象能力和eval規範，又讓後續支援Schedule C和Schedule A變得更快。

系統越用，能處理的問題越複雜。越複雜的問題被解決，每份稅表省下的人工時間越多。

這是一條加速曲線。

AI進入自我改進時代

2月，OpenAI發佈GPT-5.3-Codex的時候寫道：「GPT-5.3-Codex是我們第一個在創造自身過程中發揮了關鍵作用的模型。」

Codex團隊用這個模型的早期版本來偵錯自己的訓練流程、管理部署、診斷測試結果。

模型參與了自己的建構。

4月，OpenAI開源了Symphony，一個把Codex和Linear項目管理工具連起來的編排層。

起因很現實。OpenAI的工程師發現，一個人同時管3到5個Codex會話就已經是極限了，再多就陷入上下文切換的泥潭。

人的注意力，成了Agent產能的天花板。

而Symphony的思路很暴力，別管Agent了，管工作本身。

它監控issue tracker，給每個ticket分配一個獨立的Agent工作空間，Agent自己幹活、跑CI、生成PR。工程師只負責review產出物。

當Agent失敗了，工程師不去改prompt讓它「再試一次」，而是去想「它缺了什麼能力、什麼上下文、什麼結構」。然後修harness，不是修prompt。

OpenAI內部用Symphony之後，部分團隊的工程產出直接翻倍。

同樣是4月，學術界也跟上了。ICLR 2026在里約專門辦了一個「AI遞迴自我改進」的workshop。

緊接著5月，一篇叫MOSS的研究把這件事推到了更極端的位置。它讓Agent不只改prompt或workflow配置，而是直接改寫自己的原始碼。

在OpenClaw平台上，MOSS在一個無人干預的進化周期內，把四個任務的平均評分從0.25拉到了0.61。

Tax AI不是孤例。「Agent自我改進」已經成了2026年上半年最密集的技術主線。

模型層面，GPT-5.3-Codex參與自身建構。

工程層面，Symphony加上Tax AI的生產閉環。

學術層面，MOSS實現原始碼級自我改寫。

不動模型權重，照樣越來越強

這裡有個關鍵區分。

過去大家談AI進化，說的是fine-tuning，是RLHF，是改模型權重。那條路需要海量資料、大量GPU、專業團隊，門檻極高。

現在OpenAI展示的這條路完全不同。

模型權重紋絲不動。

改的是模型周圍的一切。提取邏輯、對應規則、eval標準、工作流配置，甚至Agent自己的程式碼。

打個比方，模型是引擎，harness是車身。即便不用換引擎也能讓車跑得更快，改底盤調懸掛就行。

如此一來，自我改進的門檻就被大幅拉低了。

你不需要自己訓練模型，只需要三件事，設計好eval體系、留好生產trace、讓一個足夠強的coding agent去跑「發現→定位→修復→驗證」的閉環。

模型智能是起點系統智能才是終局

回到Tax AI。

如果你只看「AI幫人報稅」這個表層敘事，競爭壁壘看起來很薄，換個大模型接上去似乎也能幹。

但如果你看到的是底層那套自我改進的閉環，結論完全不同。

Tax AI的全部智慧財產權歸Thrive Holdings所有。OpenAI派了半年工程師，最後連IP都沒留。

這在矽谷大廠的AI合作裡極其罕見。

Thrive Capital是OpenAI最大投資方之一，去年12月OpenAI反手入股Thrive Holdings，不給現金，給工程師、給模型、給深度整合，最後產品歸你。

OpenAI圖什麼？

答案就藏在Tax AI的增長曲線裡。

每處理一份稅表，每收到一次會計師的糾正，系統就多了一份改進自己的證據。這個飛輪一旦轉起來，OpenAI就拿到了一個完整的、經過生產驗證的Agent自我進化範式。

一個報稅產品的IP不值錢。一套可複製的自我改進方法論，才是真正的戰略資產。

現在範式跑通了。Thrive Holdings已經在把同樣的閉環複製到記帳、審計、IT維運。

而另一邊，Anthropic也沒閒著。

Conway，那個7x24小時永不下線的Agent平台，底下搭的是Memory Files持久記憶加上Dreams非同步整合。

說白了，也是在給Agent裝上一個能自我維護、自我進化的「永久大腦」。

兩條路線，殊途同歸。

OpenAI用Codex驅動的eval閉環，讓Agent在生產中自己修bug。Anthropic用檔案記憶加夢境機制，讓Agent在會話間自己整理經驗。

方法不同，賭的是同一件事，Agent能不能從「一次性工具」變成「越用越強的系統」。

在通往ASI的路上，模型智能只是起點。

真正的終局，是系統智能，一個能從環境中持續學習、持續進化、持續變強的整體。

參考資料：
https://openai.com/index/building-self-improving-tax-agents-with-codex/ (新智元)

科技