不藏了!OpenAI 2025開發者日:ChatGPT要變成作業系統,8分鐘拖曳可建構超複雜Agent

今天OpenAI的開發者日簡直太硬核了,OpenAI的開發者已經達到了驚人的400萬,ChatGPT周活躍使用者達到8億,每分鐘API處理的60億token

主要有四個方面內容

1.在 ChatGPT 內部建構應用 :Apps inside ChatGPT,OpenAI推出自己的App SDK。這可以說是驚雷消息,OpenAI不但要革蘋果Appstore的命,還要直接把ChatGPT變為作業系統,看大神怎麼說:

2.直接拖曳建構Agent工具:AgentKit。這裡有個8分鐘拖曳演示,我把視訊扒下來了並且翻譯好了,大家直接看視訊是最直觀的,(可以玩了,連結:https://platform.openai.com/agent-builder/)

3.codex更新,關於codex最新能力演示視訊,我也已經扒下來

4.API支援 :sora 2,gpt-5 pro

Apps in ChatGPT:開啟一個全新的應用分發與互動生態

我認為這是最震撼的,標誌ChatGPT正式進軍作業系統,簡單來說,OpenAI的野心是以後你只需要一個應用夠了,這個應用就是ChatGPT,這樣ChatGPT就變成事實上作業系統了,蘋果Appstore瑟瑟發抖,毫無疑問這是OpenAI戰略性的賭注

在過去,OpenAI 曾嘗試通過 GPTs 和 MCP 等方式,將開發者的服務與 ChatGPT 連接起來。這些嘗試有的成功,有的則不盡人意,但都為 OpenAI 積累了寶貴的經驗。今天,OpenAI 邁出了決定性的一步,正式向開發者開放 ChatGPT,允許他們在其中建構原生應用 (Apps)

這將催生新一代的應用形態,它們具備三大核心特質:互動性 (interactive)、適應性 (adaptive) 和個性化 (personalized)。使用者不再是單純地與一個聊天機器人對話,而是可以直接在對話中與功能豐富的應用進行互動。為了實現這一點,OpenAI 推出了全新的 Apps SDK (軟體開發工具包),現已開放預覽

Apps SDK 為開發者提供了一套完整的全端解決方案,其主要特性包括:

連線據:開發者可以將自己的資料來源和後端服務無縫接入

觸發動作:應用可以執行具體的後端操作,例如建立一個設計、預訂一個行程或分析一份資料

渲染完整 UI:開發者可以在 ChatGPT 的對話流中渲染完全互動的使用者介面,而不僅僅是文字或卡片。這意味著媒體播放器、互動地圖、設計畫板等複雜的 UI 都可以被直接嵌入

基於 MCP 標準:Apps SDK 建立在 MCP 這一開放標準之上,開發者對其後端邏輯和前端 UI 擁有完全的控制權。由於標準是公開的,任何人都可以將其整合到自己的平台

對於開發者而言,最大的吸引力在於分發管道。一旦應用建構完成,它就有機會觸及 ChatGPT 全球數億的使用者群體。這將極大地改變產品的規模化擴展方式。同時,OpenAI 也考慮到了商業化的需求。如果使用者已經是開發者現有產品的訂閱者,他們可以直接在對話中登錄帳戶。未來,OpenAI 還將支援多種變現方式,包括新的Agentic Commerce Protocol (智能體商業協議),該協議將允許在 ChatGPT 內部實現即時結帳

在現場演示中,軟體工程師 Alexi 展示了幾個首批合作夥伴的應用,生動地詮釋了這種新模式的魔力:

Coursera (線上課程平台):當使用者想要學習某個主題時,可以直接呼叫 Coursera 應用。應用會在對話中直接嵌入課程視訊,並支援子母畫面或全螢幕播放。與應用對話功能:當使用者觀看視訊時,可以隨時向 ChatGPT 提問關於視訊當前內容的問題,例如“請解釋一下他們現在正在說的概念”。由於 Apps SDK 允許應用將上下文 (context) 暴露給模型,ChatGPT 能夠準確理解使用者正在觀看的視訊片段,並給出精準的回答。這將學習體驗提升到了全新的高度

Canva (設計平台):在一個為寵物狗遛彎業務進行頭腦風暴的對話中,使用者可以直接呼叫 Canva,並用自然語言下達指令,例如“Canva,用這個名字為我製作一個作品集,我希望它色彩豐富、異想天開、明亮,並使用無襯線字型”。Canva 應用會直接在對話中生成設計選項。使用者還可以進一步迭代,比如將一張海報轉化為一個用於種子輪融資的完整 Pitch Deck (簡報)。整個創意流程在同一個對話窗口中無縫完成

Zillow (房地產平台):當對話延伸到業務擴張,ChatGPT 建議將新城市選在匹茲堡。使用者可以接著呼叫 Zillow 應用,要求“顯示那裡的待售房屋”。Zillow 會在對話中嵌入一個互動地圖。使用者可以切換到全螢幕模式,瀏覽房屋詳情,甚至可以直接在地圖上發起預約看房。更強大的是,使用者可以繼續用自然語言對 Zillow 應用進行操作,例如“將地圖篩選為僅顯示帶院子的三居室房屋”。ChatGPT 會理解指令並更新地圖。此外,當使用者選定一處房產時,可以詢問“這處房產離狗狗公園有多遠?”。ChatGPT 會將來自 Zillow 應用的房屋位置資訊與其自身的搜尋工具結合,提供綜合性的答案

這些演示清晰地表明,Apps in ChatGPT 不僅僅是 API 的簡單呼叫,而是將語言模型的理解能力與應用的豐富功能和互動介面深度融合,創造出前所未有的動態體驗

目前,Apps SDK 已向開發者提供預覽版。今年晚些時候,開發者將能夠提交應用進行稽核和發佈,屆時還會推出一個應用目錄 (Directory) 供使用者瀏覽。符合基本標準的應用都將被收錄,而那些在設計和功能上表現更出色的應用,將會獲得更顯著的推薦位置,甚至在對話中被主動建議給使用者

https://developers.openai.com/apps-sdk

AgentKit:在幾分鐘內將智能體從原型帶入生產環境

智能體 (Agent),即能夠理解上下文、使用工具並自主完成任務的軟體,被普遍認為是 AI 的下一個重要發展方向。然而,儘管圍繞它的討論非常火,但真正能投入生產並被大規模使用的智能體卻寥寥無幾。原因在於其開發過程異常複雜,開發者需要處理諸多難題:從選擇合適的框架,到編排複雜的工作流、建立評估循環、連接各種工具,再到建構一個友好的使用者介面,每一步都充滿了挑戰

為瞭解決這些痛點,讓每位開發者都能更快速地將想法轉化為可用的智能體,OpenAI 推出了全新的 AgentKit。這是一套內建於 OpenAI 平台中的完整建構模組,旨在幫助開發者以更少的時間和精力,完成從原型設計到生產部署的全過程

AgentKit 核心包含三大元件,以及一個強大的連接器生態系統:

1.Agent Builder (智能體建構器):這是一個可視化的工作流設計工具。開發者不再需要從頭編寫複雜的協調程式碼,而是可以通過拖曳節點的方式來設計智能體的邏輯步驟、測試流程。這些節點包括工具呼叫、需要人類介入的環節、安全護欄和邏輯判斷等。它建立在已有數十萬開發者使用的 Responses API 之上,對於平台老使用者來說非常容易上手

2.ChatKit (聊天工具包):為了讓智能體擁有一個精美的使用者介面,OpenAI 提供了 ChatKit。它是一個簡單、可嵌入的聊天介面元件,開發者可以輕鬆地將其整合到自己的應用中,並進行品牌化定製,例如修改顏色、Logo 和提示語。這讓開發者可以專注於核心業務邏輯,而無需在前端介面上花費過多時間

3.Evals for Agents (智能體評估):衡量智能體的性能至關重要。AgentKit 提供了一套專門的評估功能,包括:

Trace Grading (追蹤評分):可以逐一審視智能體每一步的決策過程,深入理解其行為

Datasets (資料集):允許開發者針對工作流中的某個特定節點進行性能評估

Automated Prompt Optimization (自動化提示最佳化):幫助自動調整和改進提示詞,以獲得更好的性能

External Model Evals (外部模型評估):甚至支援在 OpenAI Evals 平台內直接對外部模型進行評估

Connector Registry (連接器註冊中心):智能體需要安全地訪問資料和工具。通過這個管理控製麵板,企業可以安全地將智能體連接到內部工具和第三方系統,同時確保資料安全和權限可控

現場演示,Christina 發起一項挑戰:在 8 分鐘內為 DevDay 的官方網站建構並部署一個問答智能體 "Ask Froge"

我已經貼心的把這8分鐘視訊扒下來了,並且做好的翻譯,大家就看吧,不用感謝我

設計工作流 (在 Agent Builder 中)

1.  她首先拖入一個分類器節點,用來判斷使用者的提問是關於“會議日程”還是“一般資訊”。
2.  接著,她建立了兩個專門的智能體節點。一個是“日程智能體”,為其上傳了包含所有會議資訊的文件作為知識源;另一個是“DevDay 通用智能體”,為其提供了通用資訊檔案,並設定了其角色風格(像一隻名為 Froge 的青蛙一樣說話,會發出 "ribbit" 的聲音)。
3.  為了讓日程推薦更具視覺吸引力,她使用 **Widget Builder (小元件建構器)** 設計了一個精美的日程卡片,並將其附加到“日程智能體”的輸出格式中。
4.  為了增強安全性,她加入了一個預置的 **Guardrail (護欄)** 節點,用於自動遮蔽個人身份資訊 (PII)。
5.  整個工作流設計完成後,她在 Agent Builder 的預覽窗口中進行了測試,確認其能夠正確回答問題並以預期的方式呈現結果。

部署到網站

1.  她點選“發佈”,AgentKit 為這個工作流生成了一個唯一的 ID。
2.  然後,她來到 DevDay 網站的程式碼中,僅用了幾行程式碼就完成了部署:她引入了 **ChatKit** 的 React 元件,將剛剛生成的工作流 ID 傳入,並加入了一些自訂樣式,如 Froge 主題的顏色和提示語。
3.  刷新網站,一個名為 "Ask Froge" 的聊天機器人已經出現在頁面右下角,並完全可用。

整個過程從設計到部署,耗時不到 8 分鐘。這個演示完美地展示了 AgentKit 如何將一個原本需要數周開發時間的複雜任務,縮短到幾分鐘。更重要的是,後續的迭代可以直接在可視化的 Agent Builder 中完成,修改後的智能體無需重新部署程式碼即可在網站上生效

Codex

Codex更新

今天,Codex 正式結束研究預覽,進入通用可用階段。推出了一系列新功能:

1.Slack 整合:開發者可以直接在 Slack 的團隊對話中要求 Codex 編寫程式碼或回答問題

2.Codex SDK:一個新的開發工具包,幫助團隊將 Codex 的能力擴展和自動化到自己的工作流中

3.新的管理工具和報告:包括環境控制、監控和分析儀表板,幫助企業更好地管理 Codex 的使用

現場演示codex強大的程式設計能力: Romain 展示了如何利用 Codex 和 OpenAI 的 API,將周圍的物理世界變成可互動的軟體

同樣給大家奉上演示視訊全過程:

**從草圖到 UI**:Romain 首先展示了一張他手繪的 UI 草圖,然後使用 `Codex CLI` (命令列工具) 將其轉換成一個帶有攝影機畫面的控製麵板介面
**控制物理裝置**:他的第一個挑戰是發佈會控制舞台上方的 Sony FR7 攝影機。他對如何開始一無所知,只知道這款攝影機有一個 C++ SDK。他直接向 Codex 下達了任務,Codex 自主研究了有 30 年歷史的 VISCA 協議,並用 JavaScript 實現了控制邏輯。Romain 強調,Codex 能夠不知疲倦地執行長達數小時的複雜任務
**即時加入新功能**:接著,Romain 在 VS Code 中向 Codex 外掛下達了一個新任務:“將一個無線控製器連接起來以控制攝影機”。Codex 在後台開始分析現有程式碼,制定計畫並實現功能。幾分鐘後,Romain 拿起一個 Xbox 手把,成功地控制了攝影機的移動
**多模態與多工具協作**:演示的高潮是引入了語音控制。他利用 OpenAI 的即時語音 API 和 Agent SDK,為應用加入了語音互動能力。然後,他向 Codex 發出指令,要求為舞台的燈光系統建立一個 MCP 伺服器,並提供了燈光系統的參考文件。Codex 在執行任務時,發現文件資訊不全,於是自主上網搜尋 GitHub 上的文件,補全了所需資訊,最終成功建立了伺服器
**人機協同程式設計的未來**:演示的最後,Romain 通過語音嚮應用下達指令:“讓 Codex 顯示一個類似電影結尾的演職員表,演員是現場的觀眾們”。應用中的語音智能體將這個請求轉發給了 **Codex SDK**。Codex 即時地分析了前端應用的程式碼,注入了新的 React 元件,並在螢幕上滾動顯示出了“演職員表”

這個現場演示展示codex開發全過程:從草圖、物理裝置、語音指令到即時應用重構,整個過程幾乎沒有手寫一行程式碼。Codex 真正成為了一位能夠理解意圖、解決未知問題並與開發者並肩工作的智能隊友

模型與 API 更新

GPT-5 Pro API 開放

GPT-Realtime-Mini API 開放

Sora 2 API 預覽版發佈

寫在最後

DevDay 2025 的所有發佈都指向一個共同的目標:OpenAI要為為這個新的開發者時代提供最好的平台。從在 ChatGPT 內部分發應用的 Apps SDK,到簡化智能體開發的 AgentKit,再到 Codex,以及 GPT-5 Pro、Sora 2 和 Realtime-Mini 等更強大的模型 API,OpenAI 正在全方位地為開發者賦能

就像Sam Altman說的,軟體開發曾經是一個需要數月甚至數年才能完成的漫長過程,但今天,我們親眼見證了它可以在幾分鐘內完成。在這個新時代,你所需要的,僅僅是一個好的想法。

這是一個屬於所有新開發者的黃金時代,注意是新開發者,我們都要問自己一句,我們屬於這個新行列嗎? (AI寒武紀)