人人免費,博士級智能,4種人格定製,迄今最強程式設計和Agent能力。
GPT-5終於來了!
智東西8月8日報導,今天凌晨1點,OpenAI發佈了萬眾矚目的新一代旗艦模型GPT-5,即日起向所有免費、Plus、Pro、Team使用者推出,企業和教育使用者將在一周內獲得存取權。一經發佈,GPT-5便沖上大模型競技場榜首,並在文字、程式設計、數學等全方面排名第一。
GPT-5將非推理模型與推理模型融為一體,支援“按需思考”,即根據任務難度,自行判斷是否進行思考,並提供合適的回答。它還擁有4種“人格”,分別為憤世嫉俗者、機器人、傾聽者和書呆子。
OpenAI CEO Sam Altman認為,GPT-5已經達到了博士等級的智能,與其對話就像是與一位在任何領域都擁有博士學位的專家溝通。同時,GPT-5不僅是用來“問問題”的,現在還能“為你做事”,完成日常規劃、傳送邀請函、採購物資等任務。
OpenAI研究員Tina Kim在發佈中稱:“有了GPT-5,我們將淘汰所有舊模型。”一個GPT-5模型就整合多模態、推理等多種能力,相當於融合GPT和o系列模型,使用者無需再為複雜的產品族選擇糾結。
多項基準測試中,GPT-5超過了OpenAI o3、GPT-4o等OpenAI最強大的模型,在數學、編碼、視覺感知和健康方面表現尤其出色。憑藉GPT-5-pro的擴展推理,該模型還在科學知識基準測試GPQA上獲得了新的SOTA,無需工具即可得分88.4%。
不過,GPT-5也可能是OpenAI歷史上最複雜的模型家族之一,擁有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個版本。免費使用者的GPT-5用量有限,超過限額後將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱使用者使用,可憑藉擴展推理功能,提供更全面、更準確的答案。
GPT-5、GPT-5-mini、GPT-5-nano三款模型也提供API服務,GPT-5的輸入、輸出價格分別為每百萬token 1.25美元/10美元,GPT-5-mini的定價為GPT-5的1/5,而GPT-5-nano的定價為GPT-5的1/25。與主要競爭對手Anthropic和Google相比,OpenAI的GPT-5模型對於開發人員來說成本相當甚至更低。
GPT-5剛剛發佈,馬斯克就在X社交平台發起攻勢,稱“Grok 4在ARC-AGI上擊敗了GPT-5”。對此,有網友認為這是對Grok 4更強推理和泛化能力的證實,也有網友認為氪金300美元才能用上的Grok 4趕不上免費的GPT-5更有性價比。
發佈會上,Altman分享了一組資料:32個月之前,OpenAI發佈了ChatGPT,並在發佈首周獲得超100萬使用者。而如今,ChatGPT在全球範圍內已有超過7億使用者。GPT-5是對GPT-4的一次重大升級,也是邁向AGI的重要一步。
但GPT-5不是AGI。Altman稱:“我有點討厭‘通用人工智慧(AGI)’這個詞,因為現在每個人都用它來指代略有不同的事物,但GPT-5是朝著真正強大的模型邁出的重要一步。我們仍然缺少一些非常重要的東西。”這一重要的東西就是模型在部署過程中能夠持續學習,而GPT-5卻沒有。
現場演示中,OpenAI首先展示了GPT-5按需思考的能力。工作人員讓GPT-5解釋伯努利現象(流體力學裡的一個基本原理),這對其而言相對簡單。GPT-5判斷無需思考,並迅速給出答案。
緊接著,工作人員提出想讓GPT-5打造一張動態SVG演示圖,來進一步解釋這一概念。此時,無需手動調整,GPT-5便會自動進行思考,只需一個簡單的提示,GPT-5就建立了互動式的演示。使用者也可以在提示詞中引導GPT-5是否開啟思考,只需輸入認真想想、仔細思考等類似表述即可。
在其給出的演示中,使用者可以拉動進度條改變空氣速度,以查看升力和壓力變化,也可以調整迎角,看模擬的飛機是否真的會墜毀。所以GPT-5可以隨時將任何硬核概念帶入生活,讓學習物化生和數學變得更加容易。
GPT-5在寫作方面得到顯著提升。比如OpenAI研發人員現場讓GPT-5為GPT-4o寫了一篇悼文。研究人員稱,從生成內容來看,這不像在跟AI聊天,而像一位高智商、高情商的朋友在交流和上課。
研發人員稱,GPT-5是迄今為止最好的程式設計模型。比如他讓GPT-5建立了一個學習法語的網路應用,同時要求GPT-5嵌入一款教育遊戲。大約兩分鐘後,GPT-5生成了一個帶有標籤、抽認卡、測試等功能的應用,並且成功嵌入了一款貪吃蛇遊戲。
為了進一步證明GPT-5在生產場景中的程式設計能力,OpenAI還特地邀請了明星AI程式設計創企Cursor聯合創始人兼首席執行官Michael Truell進行現場演示。Truell打開了OpenAI API GitHub頁面上的一則PR。這一問題歷經3周還未被修復,說明存在一定難度。
Truell認為,GPT-5在API呼叫中展現出了不錯的穩定性,在Cursor裡解決上述問題時,它面對的是一組從未見過的定製模型、從未見過的定製工具,還需要從網上抓取文字、在程式碼庫裡搜尋等,解決問題的速度比他本人要快很多。
在官網上,OpenAI也分享了更多程式設計案例。其開發出的小遊戲畫面精美,遊戲機制也比較合理。
還能遵循使用者指令,打造出Lofi視覺化效果器。從官方Demo來看,GPT-5的前端能力較此前的OpenAI模型有了不錯的提升。
GPT-5改進了語音功能,聽起來就像跟人對話一樣自然。免費使用者每天可以聊上幾個小時。比如,結合ChatGPT學習模式,使用者可以以引導的方式教使用者學習韓語,OpenAI現場對此進行了演示。
OpenAI還宣佈一項新功能,面向付費使用者推出更加定製化的ChatGPT,支援自訂聊天功能,可調整模型的性格,四項初始選項包括:憤世嫉俗者、機器人、傾聽者和書呆子,還能改變聊天介面的顏色。
為了讓GPT-5更符合個人使用者的溝通方式,研發團隊記憶體方面做了很多改進,使其具備更強的記憶功能。比如這使GPT-5在為使用者指定日程時,能顧考慮到此前提及的安排,更符合定製化需求。下周起Pro使用者可先接入Gmail和Google日曆,自動規劃日程、回覆郵件。
在API中,所有GPT‑5模型最多可接受272000個(272k)tokens,並生成最多128000個(128k)推理及輸出tokens,總上下文長度為400000個(400k)tokens。
通用Agent明星創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱,GPT‑5“在各種智能體任務中表現出色,即使在未修改任何程式碼或調整提示的情況下”。
OpenAI在API中引入了新功能,讓開發人員對模型回覆具有更多控制權。GPT‑5支援新的verbosity參數(取值:低、中、高),幫助控制控制回答是簡短扼要還是詳盡全面。GPT‑5還支援最低模式,該模式會將GPT‑5的推理強度降到到最低,以快速返回答案。
OpenAI稱,GPT‑5是其迄今為止在編碼和智能體任務方面表現最佳的模型。它在編碼基準測試和實際應用場景中均優於o3,並且經過專門最佳化,在Cursor、Windsurf和Codex CLI等智能體編碼產品中表現尤為出色。
GPT‑5在關鍵編碼基準測試中處於行業領先水平(SOTA),在SWE-bench驗證測試中得分74.9%,較o3版本的69.1%有所提升。值得注意的是,GPT‑5以更高的效率和速度獲得了高分:與o3在高推理強度下相比,GPT‑5的輸出tokens數量減少了22%,工具呼叫次數減少了45%。
同時,GPT‑5在Aider polyglot測試中得分88%。在內部測試中,其在70%的Web任務開發中表現和OpenAI o3。此外,GPT‑5在深度分析程式碼庫方面表現出色,能夠精準解答關於程式碼模組運作機制及相互協作的問題。
GPT‑5在長背景資訊性能方面也展現出顯著提升。在OpenAI-MRCR(一種衡量長背景資訊檢索能力的指標)中,GPT‑5的表現優於o3和GPT‑4.1,且隨著輸入長度的增加,這種優勢會顯著擴大。
OpenAI與一些客戶就程式設計功能進行了合作。Cursor首席執行官Truell稱,GPT‑5“具有顯著的智能,易於操控,甚至擁有其他模型中不具備的人格特質”。AI程式設計公司Windsurf相關負責人稱,GPT‑5在其評估中達到最先進水平,且“與其他前沿模型相比,工具呼叫錯誤率僅為其一半”。
GPT‑5在持續型智能體任務中同樣表現卓越,在兩個月前剛發佈的工具呼叫基準測試τ2-bench telecom中,以96.7%的成績刷新了業界最優水平。
在事實性方面,GPT‑5比其之前的模型更值得信賴。在事實精準性基準測試LongFact和FActScore中,GPT‑5的錯誤率僅為o3的五分之一。這使得GPT‑5尤其適用於正確性要求高的智能體任務場景,特別是在程式碼生成、資料處理和決策支援等關鍵領域。
GPT‑5改進的工具智能使其能夠可靠地串聯數十次工具呼叫(無論序列還是平行),保持路徑一致性,這使其在執行複雜的現實世界端到端任務時表現得遠優於其他模型。它還更精確地遵循工具指令,更好地處理工具錯誤,並在長背景資訊內容檢索方面表現出色。
OpenAI還開源了BrowseComp Long Context,這是一個用於評估長背景資訊問答的新基準。在此基準中,模型會收到使用者查詢、一長串相關搜尋結果,並必須基於搜尋結果回答問題。
以下是GPT-5的一些基準測試成績。但OpenAI研發人員稱,GPT-5訓練的重點是現實的實用性,而不是基準測試。
OpenAI的多名研究人員分享了GPT-5背後的技術創新。
在安全問題上,ChatGPT過去主要依賴於基於拒絕的安全訓練:根據使用者的提示,模型應該要麼遵守,要麼拒絕。
這種類型的訓練適用於明顯的惡意提示詞,但是在使用者意圖模棱兩可的情況下,可能出現問題。比如拒絕應該回答的問題,或是給有風險的問題做出回答。
對於GPT-5,OpenAI引入了一種新的安全訓練形式——安全完成(safe completions)。這種訓練形式教會模型儘可能給出最有用的答案,同時仍然保持在安全範圍內。
如今,對於一些可能有潛在風險的問題,GPT-5會減少不必要的過度拒絕,轉而告訴拒絕的原因,並提供安全的替代方案。
GPT-5還改善了GPT系列模型阿諛奉承的問題,減少了過度討好和無意義的表情符號的使用。OpenAI已經開發出新的評估方法,來衡量模型阿諛奉承的程度,並改進訓練方法了,使模型更少地阿諛奉承。
在針對阿諛奉承問題的專門評估中,GPT-5顯著減少了此類回覆的比例(從14.5%降至不到6%)。
GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出給出更為全面、高品質的答案,這得益於一項名為平行測試時計算的技術(同時進行多項推理)。
在多個具有挑戰性的基準測試中,GPT-5 Pro實現了同家族模型中的最佳性能。OpenAI還進行了1000個實際測試,67.8%外部專家更偏好GPT-5 pro的回答,而非開啟思考模式的GPT-5。GPT-5 pro犯下重大錯誤的比例降低了22%,在健康、科學、數學和程式設計方面表現尤為出色。
在發佈會的尾聲,OpenAI首席科學家Jakub Pachocki做了一番總結。他稱,GPT-5的模型的誕生,是多年研究的結果,這些研究不僅以推出新版本為目的,還旨在建構對底層技術本身的理解。GPT-5呈現的許多技術,會在未來得到進一步發展。
Pochocki稱,OpenAI仍然有很多需要瞭解的東西,並期待AI能夠發現全新的知識,並真正地使我們的生活變得更好。
GPT-5的發佈,毫無疑問是今年AI圈最受關注的事件之一。GPT-5官宣推文發佈2小時後,已經獲得超160萬瀏覽,並且仍在持續增長。然而,這一發佈也帶來了一定爭議——OpenAI在發佈會使用了“視覺騙局”的方式呈現基準測試,柱狀圖中OpenAI o3的高度被不成比例地壓縮了,這從某種程度上誇大了GPT-5實現的能力提升。
GPT-5在真實使用場景中的性能與體驗,尚待市場反饋,但OpenAI的估值已經飆升。此前周三外媒The Information消息稱,OpenAI正洽談潛在的二級股票發行,估值飆升至5000億美元(約合3.6兆人民幣),比年初翻了一倍。 (智東西)