OpenAI深夜大招暴打Manus！智能體全家桶殺器一統API，4行程式碼輕鬆上手

2025/03/12

•

OpenAI給開發者的深夜大禮：一套全新API和工具上線，智能體的開發更簡單了！從此無需從不同來源拼湊各種底層API。一個全新API、三個內建工具，以及一個開源SDK，讓智能體開發進入next level。

Manus掀起的智能體風暴，再次逼急了OpenAI。

凌晨，OpenAI突然開啟線上直播，正式放出開發者自主建構智能體的大禮包——

一個全新API、三個內建工具，以及一個開源SDK。

具體包括：

全新Responses API⁠：將Chat Completions API簡單性與Assistants API工具使用功能相結合，用於建構智能體
內建三大工具：網路搜尋⁠、檔案搜尋⁠和電腦使用
全新Agents SDK⁠：用於編排單智能體和多智能體工作流程
整合可視化工具：用於追蹤和檢查智能體工作流程執行情況

以往，開發者建構一款智能體應用，需要從不同來源拼湊各種底層API。

這個過程不僅耗時耗力，就像搭積木一樣「搖搖欲墜」，如果一個環節出錯，搭出的智能體系統隨時可能崩盤。

而現在，OpenAI推出的Responses API和一系列工具，直接簡化了核心智能體的邏輯、編排和互動。

與o1 Pro、Deep Research、Operator不同，Responses API是一個「統一API」，可支援多輪互動和工具呼叫。

其中，「網路搜尋工具」可讓模型即時訪問網際網路資訊，與驅動ChatGPT Search是同一個工具，在Simple QA中，經過微調後的GPT-4o拿下90%高分，GPT-4o mini得分為88%。

「檔案搜尋工具」曾在Assistance API中推出，便捷上傳、分塊、嵌入文件，以及RAG。現在，新增了兩個新功能「中繼資料過濾」和「直接搜尋端點」。

「電腦使用工具」在API中被稱為Operator，並配備了專門的電腦使用模型（CUA），跟ChatGPT中的Operator使用的是同一款。

結果顯示，模型在多項基準測試中刷新了SOTA——OSWorld中成功率38.1%，在WebArena中達到58.1%，在WebVoyager基於網路的互動中達到87%。

從今天開始，電腦使用工具研究預覽版，將向3-5級⁠的特定開發者開放，輸入價格3美元/每百萬個token，輸出價格12美元/每百萬個token。

另外，奧特曼開放原始碼的諾言終於兌現了一部分——Agents SDK⁠，簡化多智能體工作流管理。

OpenAI還預告，未來幾周和幾個月裡，還計畫發佈更多工具和功能，進一步簡化和加速在平台上建構智能體應用。

OpenAI現場演示：幾大全新工具，建構更強大智能體

ChatGPT中已經推出的兩個智能體，我們並不陌生。一個是可以瀏覽網頁、完成各種任務的Operator，一個是能針對任何主題生成詳細報告的Deep Research。

但現在，OpenAI希望把這些工具和更多工具以API的形式發佈給開發者。

過去一年裡，OpenAI也已經推出了高級推理、多模態互動、新的安全技術等全新功能，這就已經打好了建構智能體所需要的複雜多步驟任務的基礎。

然而，有很多客戶卻反饋說，這些功能很難直接轉換為可以直接工作的智能體，而是需要大量的大量的提示詞迭代和自訂編排邏輯，而且缺乏足夠的可見性和內建支援。

而今天這套全新工具，將把智能體建構帶入next level。

首先介紹的，就是網路搜尋工具。

它允許OpenAI的模型訪問網際網路上的資訊，保證使用者得到的結果是最新的和精準的。

網路搜尋工具與驅動ChatGPT Search的是同一個工具，它在底層由一個經過微調的模型驅動，此模型就是經過微調的GPT-4o 或4o mini。

它非常擅長處理從網路獲取的大量資料，找到相關的資訊片段，並在響應中清晰地引用它們。

在Simple QA中，GPT-4o達到了90%的最佳水平。

接下來介紹的，是檔案搜尋工具。

負責展示的OpenAI研究者表示，這是自己最喜歡的工具。

去年，OpenAI就在Assistance API中推出了檔案搜尋工具，為開發者提供簡便的方式來上傳、分塊和嵌入文件，並且輕鬆實現RAG操作。

而今天，他們在檔案搜尋工具中推出兩個新功能。

第一個是中繼資料過濾。此功能讓使用者可以為檔案加入屬性，輕鬆篩選出與查詢最相關的內容。

第二個是直接搜尋端點。這樣我們就可以直接搜尋您的向量儲存，而無需先通過模型過濾查詢。

也就是說，我們可以使用網路搜尋來處理公共資料，用檔案搜尋來處理私有資料了。

第三個介紹的，就是Computer Use工具。

它是API中的Operator，可以讓你控制正在操作的電腦，比如一個虛擬機器，或者僅有圖形使用者介面而沒有API存取權的傳統應用程式。

如果想要自動化這類任務，並在此基礎上建構應用程式，就可以直接使用Computer Use。

Responses API

另外，OpenAI還希望從基本原則出發，為這些工具設計最佳的API。

2023年推出的Chat Completions和GPT-3.5 Turbo中，所有的API互動都僅限於文字輸入和輸出。

此後，OpenAI又引入了多模態功能，包括圖像、音訊。

此外，像o1 Pro、Deep Research Operator這樣的產品，都需要在後台執行多輪模型互動和多次工具呼叫。

因此，他們希望建構一個足夠靈活的API基礎介面，能支援多輪互動和工具呼叫。

這個新的API，就被命名為Responses API。

在此前的Chat Completions中，只需選擇上下文，選擇一個模型，就能獲得響應。

而接下來，研究者將展示如何用Responses API建構一個個人造型師助手。

然後就可以直接問它：現在時尚圈的最新流行趨勢是什麼？

不過，它還應該瞭解使用者的個人喜好。

為此，他們建立了一個向量儲存庫，裡面記錄了團隊成員的日常穿搭記錄。在操作中，可以篩選向量儲存中的檔案，只顯示與目標使用者相關的內容。

然後就可以問造型助手：Ilan喜歡穿什麼，你能總結一下嗎？它立刻給出了準確的總結。

但是要打造一個更好的助手，我們還需要讓他能從網上獲取最新資料。為此，就要加入網路搜尋工具。

接下來，他們考驗了是否能用檔案搜尋工具，來瞭解Kevin小哥的穿衣喜好，然後用網路搜尋工具找到附近讓他感興趣的商店。

模型呼叫了檔案搜尋工具，瞭解Kevin的穿衣風格，然後呼叫網路搜尋工具，根據他的位置——東京，尋找他喜歡的商店。

讓人驚喜的是，模型只用了一次API呼叫，就在東京找到了好幾家巴塔哥尼亞專賣店，完全符合Kevin的品味。

但是，這還不夠！一個稱職的個人造型助手，應該可以直接幫你購物。

為此，他們加入了Computer Use工具，要求助手幫Kevin買一件黑色巴塔哥尼亞夾克。

在電腦本地運行Docker容器後，把截圖發給模型，它就會分析電腦的狀態，發出下一步指令。

研究者執行操作後，再拍一張截圖發給模型，它就會循環操作，直到任務完成。

Agents SDK

在實際開發任務中，應用會更複雜，比如我們需要開發一個客服智能體，它要能處理退款，還能回答常見的客服問題、處理訂單和帳單。

為此，OpenAI去年已經發佈了一個名為Swarm的SDK，讓智能體的協同調度變得簡單。

今天，他們家決定將Swarm升級為Agents SDK。

研究者Ilan介紹說，自己曾投入大量時間合作企業和開發者，幫他們建構智能體，也親身體會到看似簡單的想法想落地卻十分複雜。

Agents SDK的理念就是：保持簡單，同時用直觀簡便的方式建構更複雜強大的功能。

比如接下來的考驗就是，不小心訂了太多件巴塔哥尼亞的衣服，所以需要退貨。

本來，可以直接加入一個退貨工具，在提示詞中指示就能實現了，但這就存在一個問題：業務邏輯都混在一起，會讓智能體更難測試。

而如果採用多智能體指令碼，就能獨立開發和測試各個模組。

為此，他們專門引入了一個退貨智能體。Swarm中特別受歡迎的標準Python函數，都被引入了Agents SDK。

現在，他們已經有了一個造型師智能體，和一個退貨智能體，然後需要實現一個簡單卻強大的概念——任務交接。

它的強大之處就在於，一個智能體處理對話後，將其轉交給另一個智能體時，對話內容保持不變，只需在後台替換指令和工具，這就能為對話的每個環節載入上下文。

整個流程是這樣的：分類智能體將任務轉到了客服智能體，然後客服智能體主動呼叫了getPastOrders函數，讓我們看到了Kevin所有的巴塔哥尼亞商品。

本來這種情況需要手動加入偵錯語句的，但Agents SDK的一大優勢就是內建了監控和追蹤功能。

在儀表盤中，我們可以看到所有具體交接的過程

以上展示的，都是Agents SDK 提供的開箱即用功能，它甚至還組態了安全防護機制和生命周期事件處理。

而且，它是一個開源框架。只需執行pip install openai-agents，就可以安裝使用了。

在結束之前，Ilan實際執行了一下退款操作。

「你知道嗎？抱歉了，Kevin。把這些都退掉吧。」Ilan打趣的說。「那我穿什麼呀？Kevin要被凍著了，」現場大家都笑了出來。

「是啊，讓我們看看。商品還真不少。好了，退回這麼多巴塔哥尼亞的商品確實需要點時間。」Ilan開始執行退款。

他在智能體中打出了「get rid of all of them」指令。幾秒鐘後，Kevin的巴塔哥尼亞就全都退款成功了。

「那麼系統內部是如何運作的？如何進行偵錯？如何更深入地瞭解整個過程？」Kevin問道。

對此，Ilan回答說，「我們可以通過追蹤介面來查看所有這些資訊。這提供了一種非常簡潔直觀的方式來建構這類應用。」

統一API，4行程式碼即可上手

Responses API是OpenAI最新的API基礎元件，旨在利用OpenAI內建的工具建構智能體。

它結合了Chat Completions的簡單性與Assistants API的工具使用能力。隨著模型能力不斷髮展，他們相信Responses API將為開發者建構具備自主能力的應用提供更加靈活的基礎。

通過一次Responses API呼叫，開發者即可借助多個工具和模型互動回合，解決日益複雜的任務。

作為開始，Responses API將支援新的內建工具，包括網頁搜尋、檔案搜尋和電腦使用。

這些工具旨在協同工作，將模型與現實世界連接起來，從而更高效地完成任務。

此外，它還帶來了若干易用性改進，比如統一的基於項目的設計、更簡單的多型機制、更直觀的流式事件，以及SDK輔助功能（例如response.output_text），以便輕鬆獲取模型生成的文字輸出。

Responses API專為那些希望在應用中輕鬆結合OpenAI模型和內建工具的開發者設計，避免了整合多個API或外部供應商的複雜性。

這個API還使得資料更易於儲存在OpenAI平台上，以便開發者通過追蹤（tracing）和評估（evaluations）等功能衡量智能體的性能。

此外，他們也特別提醒，即使資料儲存在OpenAI上，他們的模型默認也不會使用企業的資料進行訓練。

從今天起，所有開發者均可使用Responses API，且無額外使用費用——相關的token和工具呼叫將按照他們定價頁面上的標準費率計費。

下圖是Responses API呼叫文字模型的價格。全部模型的定價可以參考他們的定價頁面。

地址：https://platform.openai.com/docs/pricing

如需瞭解更多，可以查看Responses API快速入門指南。

地址：https://platform.openai.com/docs/quickstart?api-mode=responses

2年磨一劍

OpenAI的研究員Atty Eleti還在X上分享了設計Responses API的故事。

如今，模型不再侷限於文字，而是多模態——能處理圖像、音訊，甚至更多。

他們具備了智能體的能力，可以呼叫一個或多個工具，甚至在「說話」之前會「思考」。

這些變化，讓OpenAI過去兩年開發的Chat Completions API和Assistants API的短板暴露無遺。

Chat Completions API是一個無狀態的API，每次呼叫都需要傳遞全部上下文，對於多模態資料效率極低。而且，它也不支援工具呼叫，流式處理的實現異常複雜

Assistants API雖然支援工具，但由於設計過於複雜，高抽象帶來的學習曲線讓人望而卻步。後台處理的架構雖然強大，卻犧牲了速度。

由此，⁠Responses API誕生了，它是OpenAI過去兩年經驗結晶，集合了前者簡潔性和後者強大功能，既容易上手，又能滿足複雜需求。

只需4行程式碼，即可上手⁠Responses API，檔案搜尋、網路搜尋、函數呼叫、結構化輸出功能，只要一個參數就搞定。

這對現有API意味著什麼

· Chat Completions API⁠

OpenAI依舊為Chat Completions API加入新模型和功能。不需要使用內建工具的開發者，可以放心使用Chat Completions。

只要新模型的功能不依賴於內建工具或多次模型呼叫，就會持續在Chat Completions中發佈這些新模型。

不過，Responses API是Chat Completions的超集，且具備相同出色的性能，因此，對於新的整合，OpenAI建議開發者優先選擇Responses API。

· Assistants API

根據開發者在Assistants API測試版期間的反饋，OpenAI將其關鍵的改進融入到了Responses API，使其更加靈活、快速且易於使用。

目前，OpenAI正致力於實現Assistants API與Responses API之間完整的功能對齊，包括對Assistant和Thread等對象，以及Code Interpreter工具的支援。

當這一處理程序完成後，OpenAI計畫正式宣佈棄用Assistants API，預計在2026年中停止使用。屆時，他們將提供清晰的遷移指南，幫助開發者從Assistants API平穩遷移到Responses API，同時完整保留所有資料並遷移應用程式。

在OpenAI正式宣佈棄用Assistants API之前，仍將繼續為其提供新的模型更新。

Responses API中的內建工具

網路搜尋

當使用GPT-4o和GPT-4o mini模型時，網路搜尋功能可作為內建工具，並支援與其他工具或函數呼叫進行組合使用。

值得一提的是，Responses API中的網路搜尋，使用的是和「ChatGPT搜尋」同款的模型。

基於此，開發者可以獲得快速、最新的答案，並附帶來自網路的清晰相關引用。

在早期測試中，開發者利用網路搜尋建構了各種應用場景，包括購物助手、研究智能體和旅行預訂助手——所有需要網路即時資訊的應用。

API中使用網路搜尋生成的響應包含源連結，如新聞文章和部落格文章，讓使用者能夠深入瞭解更多資訊。通過這些清晰的內聯引用，使用者可以更直觀地獲取資訊，同時內容所有者也獲得了接觸更廣泛受眾的新機會。

任何網站或發佈者都可以選擇⁠在API的網路搜尋中顯示。

目前，所有開發者都可在Responses API預覽版中使用網路搜尋工具，並且還可以在Chat Completions API中直接使用微調搜尋模型gpt-4o-search-preview和gpt-4o-mini-search-preview。

價格⁠方面，GPT-4o搜尋每千次查詢起價30美元，4o mini搜尋每千次查詢起價25美元。

檔案搜尋

檔案搜尋工具支援多種檔案類型、查詢最佳化、中繼資料過濾和自訂重排序，可以提供快速、精準的搜尋結果。

而且，通過 Responses API，只需幾行程式碼就能完成整合。

在經過改進的檔案搜尋的加持下，開發者可以輕鬆地從大量文件中檢索相關資訊。

檔案搜尋工具可用於多種實際場景，包括使客服人員輕鬆訪問常見問題解答、幫助法律助理為專業人士快速參考往期案例，以及協助程式設計智能體查詢技術文件。

同樣的，所有的開發者都可以在Responses API中使用檔案搜尋工具。

此外，OpenAI還為向量儲存API對象加入了新的搜尋端點，可以直接查詢資料用於其他應用程式和API。

價格方面，每千次查詢為2.50美元，檔案儲存費用為0.10美元/GB/天，首個GB免費。

電腦使用（CUA）

為了建構能夠完成電腦任務的智能體，開發者可以在Responses API中使用電腦使用工具，該工具由支援Operator的電腦使用智能體（CUA）模型提供支援。

如前所述，這個研究預覽版模型在多項基準上刷新了SOTA。

內建的電腦使用工具能夠捕獲模型生成的滑鼠和鍵盤操作，讓開發者能夠將這些操作直接轉換為環境中的可執行命令，從而實現電腦任務的自動化。

開發者可以使用電腦使用工具，來自動化基於瀏覽器的工作流程，如執行網路應用程式的質量保證或在傳統系統中執行資料錄入任務。

對於那些缺乏API和標準化資料的企業，就可以利用電腦使用工具自動化複雜的營運流程。

在最近與一家主要社區服務組織的試點項目中，Luminai僅用幾天時間就實現了申請處理和使用者註冊流程的自動化——這是傳統 RPA（機器人流程自動化）經過數月努力都難以實現的。

在去年通過Operator推出CUA之前，OpenAI進行了廣泛的安全測試和紅隊測試，解決了三個關鍵風險領域：濫用、模型錯誤和前沿風險。

為了應對通過API將CUA功能擴展到本地作業系統帶來的風險，他們又進行了額外的安全評估和紅隊測試。

研究人員還為開發者加入了多重防護措施，包括防止提示詞注入的安全檢查、敏感任務的確認提示、環境隔離工具，以及增強對潛在違規行為的檢測。

儘管採取了這些防護措施，但模型在非瀏覽器環境中仍可能出現意外錯誤。

例如，CUA在OSWorld中成功率僅為38.1%，這表明該模型在作業系統任務自動化方面尚未達到高度可靠性。因此在這些場景中，OpenAI建議還需要有人類的監督。

開源Agents SDK

除了建構智能體的核心邏輯並為其提供工具存取權以確保實用性外，開發者還需要管理智能體工作流程。

全新Agents SDK簡化了多智能體工作流程的管理，較2024年發佈的實驗性SDK Swarm⁠有了顯著改進。

目前，Swarm在GitHub上已經有19k星，⁠已被開發者社區廣泛採用，並在多個客戶中成功部署。

此次，Agents SDK的改進包括：

智能體：易於組態的LLM，具有清晰的指令和內建工具
交接：智能體之間的智能控制轉移
防護機制：可組態的輸入輸出驗證安全檢查
追蹤和可視化：通過可視化智能體執行軌跡來偵錯和最佳化性能

Agents SDK適用於各種實際應用場景，包括客戶支援自動化、多步驟研究、內容生成、程式碼審查和銷售潛客開發。

例如，Coinbase⁠使用Agents SDK快速開發並部署了 AgentKit，這是一個讓AI智能體能夠無縫連接加密錢包和各種區塊鏈活動的工具包。

Coinbase僅用幾小時就將其開發者平台SDK的自訂操作整合到了一個功能完備的智能體中。

AgentKit的精簡架構簡化了加入新智能體操作的流程，讓開發者能夠更專注於有價值的整合，而不是消耗在複雜的智能體組態上。

Agents SDK可與Responses API和Chat Completions API協同工作。

同時，該SDK也支援其他提供商的模型，只要它們提供Chat Completions類型的API端點。開發者現在就能將其整合到Python程式碼庫中，Node.js支援也即將推出。

在設計Agents SDK 時，OpenAI團隊從社區中其他優秀項目獲得啟發，包Pydantic⁠、Griffe⁠和MkDocs⁠。

2025年，無疑是智能體元年。

OpenAI最新動向，已經釋放出了一個清晰的訊號，標誌著ChatGPT和開發者工具從簡單問答系統，升級為能在現實世界中實際行動的助手。

參考資料：

https://x.com/OpenAI/status/1899476049584599462 (新智元)