GPT-5淘汰所有OpenAI模型，地表最強程式設計驚豔全場，馬斯克不服開懟

2025/08/08

•

人人免費，博士級智能，4種人格定製，迄今最強程式設計和Agent能力。

GPT-5終於來了！

智東西8月8日報導，今天凌晨1點，OpenAI發佈了萬眾矚目的新一代旗艦模型GPT-5，即日起向所有免費、Plus、Pro、Team使用者推出，企業和教育使用者將在一周內獲得存取權。一經發佈，GPT-5便沖上大模型競技場榜首，並在文字、程式設計、數學等全方面排名第一。

GPT-5將非推理模型與推理模型融為一體，支援“按需思考”，即根據任務難度，自行判斷是否進行思考，並提供合適的回答。它還擁有4種“人格”，分別為憤世嫉俗者、機器人、傾聽者和書呆子。

OpenAI CEO Sam Altman認為，GPT-5已經達到了博士等級的智能，與其對話就像是與一位在任何領域都擁有博士學位的專家溝通。同時，GPT-5不僅是用來“問問題”的，現在還能“為你做事”，完成日常規劃、傳送邀請函、採購物資等任務。

OpenAI研究員Tina Kim在發佈中稱：“有了GPT-5，我們將淘汰所有舊模型。”一個GPT-5模型就整合多模態、推理等多種能力，相當於融合GPT和o系列模型，使用者無需再為複雜的產品族選擇糾結。

多項基準測試中，GPT-5超過了OpenAI o3、GPT-4o等OpenAI最強大的模型，在數學、編碼、視覺感知和健康方面表現尤其出色。憑藉GPT-5-pro的擴展推理，該模型還在科學知識基準測試GPQA上獲得了新的SOTA，無需工具即可得分88.4%。

不過，GPT-5也可能是OpenAI歷史上最複雜的模型家族之一，擁有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個版本。免費使用者的GPT-5用量有限，超過限額後將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱使用者使用，可憑藉擴展推理功能，提供更全面、更準確的答案。

GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服務，GPT-5的輸入、輸出價格分別為每百萬token 1.25美元/10美元，GPT-5-mini的定價為GPT-5的1/5，而GPT-5-nano的定價為GPT-5的1/25。與主要競爭對手Anthropic和Google相比，OpenAI的GPT-5模型對於開發人員來說成本相當甚至更低。

▲GPT-5 API與Anthropic、Google模型價格對比（圖源：VentureBeat）

GPT-5剛剛發佈，馬斯克就在X社交平台發起攻勢，稱“Grok 4在ARC-AGI上擊敗了GPT-5”。對此，有網友認為這是對Grok 4更強推理和泛化能力的證實，也有網友認為氪金300美元才能用上的Grok 4趕不上免費的GPT-5更有性價比。

發佈會上，Altman分享了一組資料：32個月之前，OpenAI發佈了ChatGPT，並在發佈首周獲得超100萬使用者。而如今，ChatGPT在全球範圍內已有超過7億使用者。GPT-5是對GPT-4的一次重大升級，也是邁向AGI的重要一步。

但GPT-5不是AGI。Altman稱：“我有點討厭‘通用人工智慧（AGI）’這個詞，因為現在每個人都用它來指代略有不同的事物，但GPT-5是朝著真正強大的模型邁出的重要一步。我們仍然缺少一些非常重要的東西。”這一重要的東西就是模型在部署過程中能夠持續學習，而GPT-5卻沒有。

01. 靠自主判斷規避“過度思考”程式設計能力獲Cursor創始人認可

現場演示中，OpenAI首先展示了GPT-5按需思考的能力。工作人員讓GPT-5解釋伯努利現象（流體力學裡的一個基本原理），這對其而言相對簡單。GPT-5判斷無需思考，並迅速給出答案。

緊接著，工作人員提出想讓GPT-5打造一張動態SVG演示圖，來進一步解釋這一概念。此時，無需手動調整，GPT-5便會自動進行思考，只需一個簡單的提示，GPT-5就建立了互動式的演示。使用者也可以在提示詞中引導GPT-5是否開啟思考，只需輸入認真想想、仔細思考等類似表述即可。

在其給出的演示中，使用者可以拉動進度條改變空氣速度，以查看升力和壓力變化，也可以調整迎角，看模擬的飛機是否真的會墜毀。所以GPT-5可以隨時將任何硬核概念帶入生活，讓學習物化生和數學變得更加容易。

GPT-5在寫作方面得到顯著提升。比如OpenAI研發人員現場讓GPT-5為GPT-4o寫了一篇悼文。研究人員稱，從生成內容來看，這不像在跟AI聊天，而像一位高智商、高情商的朋友在交流和上課。

研發人員稱，GPT-5是迄今為止最好的程式設計模型。比如他讓GPT-5建立了一個學習法語的網路應用，同時要求GPT-5嵌入一款教育遊戲。大約兩分鐘後，GPT-5生成了一個帶有標籤、抽認卡、測試等功能的應用，並且成功嵌入了一款貪吃蛇遊戲。

為了進一步證明GPT-5在生產場景中的程式設計能力，OpenAI還特地邀請了明星AI程式設計創企Cursor聯合創始人兼首席執行官Michael Truell進行現場演示。Truell打開了OpenAI API GitHub頁面上的一則PR。這一問題歷經3周還未被修復，說明存在一定難度。

Truell認為，GPT-5在API呼叫中展現出了不錯的穩定性，在Cursor裡解決上述問題時，它面對的是一組從未見過的定製模型、從未見過的定製工具，還需要從網上抓取文字、在程式碼庫裡搜尋等，解決問題的速度比他本人要快很多。

在官網上，OpenAI也分享了更多程式設計案例。其開發出的小遊戲畫面精美，遊戲機制也比較合理。

還能遵循使用者指令，打造出Lofi視覺化效果器。從官方Demo來看，GPT-5的前端能力較此前的OpenAI模型有了不錯的提升。

GPT-5改進了語音功能，聽起來就像跟人對話一樣自然。免費使用者每天可以聊上幾個小時。比如，結合ChatGPT學習模式，使用者可以以引導的方式教使用者學習韓語，OpenAI現場對此進行了演示。

OpenAI還宣佈一項新功能，面向付費使用者推出更加定製化的ChatGPT，支援自訂聊天功能，可調整模型的性格，四項初始選項包括：憤世嫉俗者、機器人、傾聽者和書呆子，還能改變聊天介面的顏色。

為了讓GPT-5更符合個人使用者的溝通方式，研發團隊記憶體方面做了很多改進，使其具備更強的記憶功能。比如這使GPT-5在為使用者指定日程時，能顧考慮到此前提及的安排，更符合定製化需求。下周起Pro使用者可先接入Gmail和Google日曆，自動規劃日程、回覆郵件。

在API中，所有GPT‑5模型最多可接受272000個（272k）tokens，並生成最多128000個（128k）推理及輸出tokens，總上下文長度為400000個（400k）tokens。

通用Agent明星創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱，GPT‑5“在各種智能體任務中表現出色，即使在未修改任何程式碼或調整提示的情況下”。

OpenAI在API中引入了新功能，讓開發人員對模型回覆具有更多控制權。GPT‑5支援新的verbosity參數（取值：低、中、高），幫助控制控制回答是簡短扼要還是詳盡全面。GPT‑5還支援最低模式，該模式會將GPT‑5的推理強度降到到最低，以快速返回答案。

02. 多項基準測試實現業界SOTA事實性錯誤較o3減少80%

OpenAI稱，GPT‑5是其迄今為止在編碼和智能體任務方面表現最佳的模型。它在編碼基準測試和實際應用場景中均優於o3，並且經過專門最佳化，在Cursor、Windsurf和Codex CLI等智能體編碼產品中表現尤為出色。

GPT‑5在關鍵編碼基準測試中處於行業領先水平（SOTA），在SWE-bench驗證測試中得分74.9%，較o3版本的69.1%有所提升。值得注意的是，GPT‑5以更高的效率和速度獲得了高分：與o3在高推理強度下相比，GPT‑5的輸出tokens數量減少了22%，工具呼叫次數減少了45%。

同時，GPT‑5在Aider polyglot測試中得分88%。在內部測試中，其在70%的Web任務開發中表現和OpenAI o3。此外，GPT‑5在深度分析程式碼庫方面表現出色，能夠精準解答關於程式碼模組運作機制及相互協作的問題。

GPT‑5在長背景資訊性能方面也展現出顯著提升。在OpenAI-MRCR（一種衡量長背景資訊檢索能力的指標）中，GPT‑5的表現優於o3和GPT‑4.1，且隨著輸入長度的增加，這種優勢會顯著擴大。

OpenAI與一些客戶就程式設計功能進行了合作。Cursor首席執行官Truell稱，GPT‑5“具有顯著的智能，易於操控，甚至擁有其他模型中不具備的人格特質”。AI程式設計公司Windsurf相關負責人稱，GPT‑5在其評估中達到最先進水平，且“與其他前沿模型相比，工具呼叫錯誤率僅為其一半”。

GPT‑5在持續型智能體任務中同樣表現卓越，在兩個月前剛發佈的工具呼叫基準測試τ2-bench telecom中，以96.7%的成績刷新了業界最優水平。

在事實性方面，GPT‑5比其之前的模型更值得信賴。在事實精準性基準測試LongFact和FActScore中，GPT‑5的錯誤率僅為o3的五分之一。這使得GPT‑5尤其適用於正確性要求高的智能體任務場景，特別是在程式碼生成、資料處理和決策支援等關鍵領域。

GPT‑5改進的工具智能使其能夠可靠地串聯數十次工具呼叫（無論序列還是平行），保持路徑一致性，這使其在執行複雜的現實世界端到端任務時表現得遠優於其他模型。它還更精確地遵循工具指令，更好地處理工具錯誤，並在長背景資訊內容檢索方面表現出色。

OpenAI還開源了BrowseComp Long Context⁠，這是一個用於評估長背景資訊問答的新基準。在此基準中，模型會收到使用者查詢、一長串相關搜尋結果，並必須基於搜尋結果回答問題。

以下是GPT-5的一些基準測試成績。但OpenAI研發人員稱，GPT-5訓練的重點是現實的實用性，而不是基準測試。

03. 解決GPT“阿諛奉承”問題靠新方法減少非必要“拒絕回覆”

OpenAI的多名研究人員分享了GPT-5背後的技術創新。

在安全問題上，ChatGPT過去主要依賴於基於拒絕的安全訓練：根據使用者的提示，模型應該要麼遵守，要麼拒絕。

這種類型的訓練適用於明顯的惡意提示詞，但是在使用者意圖模棱兩可的情況下，可能出現問題。比如拒絕應該回答的問題，或是給有風險的問題做出回答。

對於GPT-5，OpenAI引入了一種新的安全訓練形式——安全完成（safe completions）。這種訓練形式教會模型儘可能給出最有用的答案，同時仍然保持在安全範圍內。

如今，對於一些可能有潛在風險的問題，GPT-5會減少不必要的過度拒絕，轉而告訴拒絕的原因，並提供安全的替代方案。

GPT-5還改善了GPT系列模型阿諛奉承的問題，減少了過度討好和無意義的表情符號的使用。OpenAI已經開發出新的評估方法，來衡量模型阿諛奉承的程度，並改進訓練方法了，使模型更少地阿諛奉承。

在針對阿諛奉承問題的專門評估中，GPT-5顯著減少了此類回覆的比例（從14.5%降至不到6%）。

GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品，能提出給出更為全面、高品質的答案，這得益於一項名為平行測試時計算的技術（同時進行多項推理）。

在多個具有挑戰性的基準測試中，GPT-5 Pro實現了同家族模型中的最佳性能。OpenAI還進行了1000個實際測試，67.8%外部專家更偏好GPT-5 pro的回答，而非開啟思考模式的GPT-5。GPT-5 pro犯下重大錯誤的比例降低了22%，在健康、科學、數學和程式設計方面表現尤為出色。

在發佈會的尾聲，OpenAI首席科學家Jakub Pachocki做了一番總結。他稱，GPT-5的模型的誕生，是多年研究的結果，這些研究不僅以推出新版本為目的，還旨在建構對底層技術本身的理解。GPT-5呈現的許多技術，會在未來得到進一步發展。

Pochocki稱，OpenAI仍然有很多需要瞭解的東西，並期待AI能夠發現全新的知識，並真正地使我們的生活變得更好。

04. 結語：靠“視覺欺騙”誇大性能提升？GPT-5實際表現有待進一步驗證

GPT-5的發佈，毫無疑問是今年AI圈最受關注的事件之一。GPT-5官宣推文發佈2小時後，已經獲得超160萬瀏覽，並且仍在持續增長。然而，這一發佈也帶來了一定爭議——OpenAI在發佈會使用了“視覺騙局”的方式呈現基準測試，柱狀圖中OpenAI o3的高度被不成比例地壓縮了，這從某種程度上誇大了GPT-5實現的能力提升。

GPT-5在真實使用場景中的性能與體驗，尚待市場反饋，但OpenAI的估值已經飆升。此前周三外媒The Information消息稱，OpenAI正洽談潛在的二級股票發行，估值飆升至5000億美元（約合3.6兆人民幣），比年初翻了一倍。 (智東西)