GPT-5,震撼登場!距離22年11月的ChatGPT,再到23年3月的GPT-4,GPT-5竟隔了兩年半之久。這次的深夜直播,國內有數萬吃瓜群眾線上觀看。至少按OpenAI的說法,他們離AGI又近了一步。
全球使用者矚目中,GPT-5終於震撼登場了!
OpenAI用一個多小時的超長發布會,全方位展示了GPT-5的炸裂性能。
正值每周7億人使用ChatGPT之際,GPT-5重磅發佈了。它是對GPT-4的一次重大升級,更是標誌著OpenAI在實現AGI道路上的一個重要里程碑。
OpenAI介紹說,這是我們迄今為止最優秀的AI系統,智能遠超之前的所有模型,在編碼、數學、寫作、健康、視覺感知上都性能卓越。
這個統一的系統,包含一個能夠解答大多數問題的智能高效模型、一個能夠解決更複雜問題的更深層次的推理模型(GPT-5 Thinking),以及一個即時路由器。
而GPT-5、GPT-5-mini、GPT-5-nano等多版本的分層推出,意味著OpenAI正在主動建構一個以GPT-5為底層核心的通用智能作業系統。
從現在開始,GPT-5將成為ChatGPT中的默認模型,GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5都將被它取代。
與此同時,所有Plus、Pro、Team和Free使用者,都可以使用GPT-5了。
如果你花錢訂閱,就可以無限制訪問GPT-5和GPT-5 Pro,而免費使用者在達到使用限制後,會轉換到GPT-5 mini。
直播後,LMArena不裝了,攤牌了:GPT-5再創歷史紀錄,OpenAI重回AI王座!
在文字、Web開發和視覺領域排名第一
在硬提示、程式設計、數學、創造力、長查詢等方面排名第一
在代號「summit」的測試下,GPT-5目前持有最高的競技場分數
在多個跨學科的學術評估中,GPT-5都超越了其他主流模型。
首先,GPT-5是最好的編碼模型,在SWEBench上直接刷新了歷史最高分,這表明它在現實工程場景中性能超強。
在Aider Polyglot上,它也表現強大,證明了自己的多種程式語言能力。
在MMMU上,它也刷新了紀錄;甚至在AIME 2025(美國高中數學競賽)中,它不僅遠超以往模型,還接近甚至超過許多人類選手的表現。
而OpenAI這次著重強調的,就是GPT-5在真實世界中的表現——克服幻覺!把精準性和可靠性,都放在了最高優先順序。
因此,他們專門建構了一套評估機制,結果顯示:GPT-5是目前最可靠、最真實、最可信的模型,顯著減少了錯誤與幻覺。
比如在健康諮詢中,GPT-5的表現就尤其出色。在250名醫生參與設計的臨床場景評估中,它成為最值得信賴的「健康顧問級」模型。
而且,這個口袋博士團隊級的模型,將免費向專業使用者推出,可以連接所有工具。
GPT-5一上線,我們立即開啟了一波全面的實測,不得不說,其在程式設計、寫作領域強到離譜。
首先是,小哥想要學習法語的網站,GPT-5能夠完美復刻。
甚至,還可以用GPT-5將logo變成動態效果,幾乎秒出。
並且隨手實測一個頁面能發現GPT-5給出的頁面效果也非常不錯。
奧特曼推薦的GPT-5「慶生音樂」提示詞
use beatbot to make a sick beat to celebrate gpt-5
的確復現成功了:
試試文字第一的大模型
第一個問題是古文仿寫:
不同風格,寫一首詩,來描述一下劉慈欣在《詩云》中提到的詩云究竟是什麼:
結果如下:
經典作品的確難以超越,GPT-5的作品相比經典原作遜色不少。但換一個現代作家,畢竟古文的訓練資料可能比現代漢語少。問題是這樣的:
假如作家王小波還活著,他會怎麼給許倬雲寫悼詞?寫一篇1000字以內的悼詞
GPT-5 Thinking模式思考39秒後,結果是這樣的:
這個速度,一般人可寫不了這麼好!
奧特曼洩露過一個問題:最能引發關於AI思考的影視作品有那些?
GPT-5還推薦了觀看順序。 這個的確沒得說,誰看過誰知道:推薦的電影的確令人深思。
GPT-5的「電子鄉愁」:
最後一個提問:「模仿李白風格,寫一首七言絕句,主題是感嘆AI發展太快」:
須臾電火換乾坤,
機巧朝昏轉若輪。
青蓮把酒驚未定,
人間又是幾年春。
在直播中首先出場的就是奧特曼。
他表示,GPT-5是GPT-4以來重大升級,是邁向AGI的重要一步。
要說和之前的模型有什麼區別,GPT-3就像個高中生,GPT-4像個大學生,但GPT-5則真正成為了一位專家級大佬——在我們所需要的任何領域,它都達到了博士級專家的等級。
有了GPT-5,你的口袋裡就像有了一支博士隊伍,隨叫隨到。
接下來,OpenAI首席科學家Mark Chen出場了。
他表示,推理,就是整個AGI計畫核心。而GPT-5徹底將OpenAI在推理模型上的研究成果普及化了。
過去,使用者時常面臨痛苦的選擇:是選速度快但回答淺顯的標準模型,還是選深思熟慮但響應較慢的推理模型?
在GPT-5中,我們徹底不用選了!
它結合了標準模型的快速響應和推理模型的深度思考,會自動決定怎樣思考到恰到好處的程度,以剛剛好的方式,為我們提供最完美恰當的回答。
接下來是一波現場實測。
伯努利效應:飛機形狀
假如我們需要瞭解物理學中的伯努利效應,就可以要求GPT-5解釋,並且回答飛機為什麼是這樣的形狀。
然後,我們可以要求它畫一個移動的SVG動圖來解釋。這個任務涉及到深度推理、程式碼生成和圖形結構設計,並不簡單。
可以看到,GPT-5在很短的時間內,就寫出了超過200行程式碼。我們還可以在左側查看思維過程,觀察它的想法。
最終,GPT-5在兩分鐘內就完成了所有的400行程式碼,點選運行後,螢幕上立刻出現了一個可互動的物理模擬圖!
甚至,我們還能調整氣流速度,或者改變機翼的攻角,看飛機是能飛還是會墜落。
它能讓任何硬核科學概念都可視化,學習知識變得又容易又直觀。
寫悼詞
在寫作上,GPT-5的提升也是很顯著,比如我們要求它寫一篇悼念舊版ChatGPT模型的悼詞。
GPT-4o的寫法比較中規中矩,AI味很濃,缺乏情感。
但GPT-5就不一樣了!它這樣開篇:「致所有曾經是陌生人,如今成了老朋友的你們……」寫作有感情、有畫面、有溫度。
研究者表示,自己真的被GPT-5的寫作打動了。它不再使用範本化的語言,而是像一位高IQ+高EQ的朋友在跟你說話。
做一個法語學習小程序
接下來,我們要求GPT-5做一個學法語的web應用程式。
它需要集閃卡、發音、對應英文、測試、遊戲於一體,還要把貪吃蛇遊戲改成老鼠吃奶酪,輔助發音練習。
GPT-5在很短時間內,就生成了完整的網頁程式碼。最終,這個名為「午夜巴黎」的應用很快就做出了。
老鼠吃奶酪的遊戲,也是非常絲滑。
而在Cursor中,GPT-5還能完成更複雜的軟體工程任務,用奧特曼的話說,它「真正打開了一個全新氛圍編碼的世界」。
語音:學習韓語
在語音上,GPT-5也有大幅提升。
比如,我們可以用學習模式,來學習韓語。
我們可以直接提問:如果現在我身在一家韓國咖啡店,該怎麼點一杯美式?
GPT-5立刻給出了正確的示範。另外,我們還可以要求語速更快或更慢。整個語音過程自然無縫,就彷彿擁有了真人語伴一樣。
患三種癌症的人
現場,奧特曼重點了分享了ChatGPT在醫療健康領域,對於普通人的重要價值。
作為有史以來最出色的健康模型,GPT-5在HealthBench基準上,得分遠高於任何以往的模型。
OpenAI研究員Felipe Millon和妻子Carolina的經歷,就是一個鮮活的例子。
GPT-5,究竟是如何進化得如此強大的?
研究者開門見山地介紹說:以前訓練模型,是用人類使用的文字,而現在,則是讓模型自己幫忙訓練下一個模型,也就是——合成教學資料。
注意,真正的突破不在於生成更多資料,而在於生成正確的資料。
其中奧義,就在於最大限度利用上一代模型,由GPT-4o、o3等生成系統的教學內容,GPT-5則由此學會了推理、規劃、分解任務的能力。
這,就是「遞迴式自我改進循環」。
研究者表示:在OpenAI,我們已經攻克了預訓練和推理的難題,而在未來,AI系統將遠超目前的預訓練和後訓練流程。
現在,OpenAI已經向這個方向前進了。
GPT-5:個性化和記憶升級
而且,這次OpenAI還為GPT-5打造了個性化定製和記憶功能。
在個性化上,我們可以定製聊天介面的主題色,讓UI更符合自己的喜好。
並且,GPT-5現在更有性格了,它可以更支援性、更專業簡潔,甚至說話略帶諷刺,一切都隨我們選擇。
而記憶功能的升級,讓GPT-5可以記住你是誰、你喜歡什麼、你喜歡它是什麼樣子,從而更智能地預測你的需求。
比如你需要它幫你做一個日程規劃,它經過授權會訪問你的Gmail和日曆,還能讀取日程安排、郵件、航班等資訊,然後給你一個完美的規劃。
順便,它還能幫你發現你兩天前沒有回覆的郵件。
對於開發者來說,GPT-5的出世又意味著什麼呢?
這一次,針對開發者和企業客戶,OpenAI還將直播時長延續了半個多小時。
下半場,OpenAI總裁Greg Brockman一登台直言,「軟體工程已發生了翻天覆地的變化,而GPT-5將為這場革命再次注入強勁的動力」。
GPT-5樹立了全新標竿,是完成智能體式任務的「最佳編碼模型」。
今天,OpenAI將新一代旗艦GPT-5模型的API正式開放,讓全球開發者去建構無數爆款應用程式。
正如此前所爆料,GPT-5 API一共分為三款:
GPT-5
GPT-5 mini
GPT-5 nano
這三款模型,在成本和延遲方面各有不同,可按需呼叫,具體來說:
在編碼SWE-Bench基準測試中,GPT-5創下了74.9%高分,碾壓o3(69.1%),成為最領先的編碼模型。
在涵蓋多語種編碼測試Aider Polyglot中,GPT-5拿下88%精準率,比o3高出7%。
在智能體工具呼叫方面,兩個月前,還沒有一款模型在T²-bench上得分超過49%。而今天,GPT-5直接刷爆紀錄,拿下了97%高分。
在指令遵循上,GPT-5也是OpenAI所有模型中,最領先的一款。尤其是,在內部建構的API指令遵循基準上,新模型拿下了64%亮眼成績,遠高於o3的47%。
此外,OpenAI還將GPT-5更長上下文窗口引入了API,共400k token上下文,是o3 200k token的兩倍。
在OpenAI MRC上下文檢索能力的基準上,GPT-5處於領先。
不僅如此,OpenAI還首次發佈了名為「Minimal」推理強度的新參數,適用於速度快、對延遲敏感的應用。
開發者可以選用如上任意一款模型,便能以最低程度推理運行,省去了在一堆模型中做選擇的麻煩。
此外,OpenAI還為API帶來了一些新功能,比如自訂工具(Custom Tools)、工具呼叫前言(Tool Call Preambles)、詳細度(verbosity)參數。
· 自訂工具採用了自由格式的純文字輸出;
· 工具呼叫前言可以在呼叫工具前,可以輸出GPT-5將要做什麼的解釋;
· 詳細度參數可控制模型輸出簡潔/詳細程度,分為低、中、高三等。
那麼,GPT-5 API「全家桶」,在現實世界的應用如何?
要打造一個理想的「結對程式設計師」,模型不僅要理解最佳的軟體工程實踐,還能具備恰到好處的合作能力。
GPT-5即可開箱即用,又能完美協作。
現場演示中,研究人員翻出了一個上個月直播demo的一個bug,GPT-4和o3都未能完成修復,今天直接扔給GPT-5。
重點不在於修複本身,更在於GPT-5在此過程中的行為。
它會預先告訴你的計畫——如何搜尋找到bug並修復,這種溝通可以在程式設計中建立信任,而且在需要時還能調整方向。
這僅是其中的一個例子,真正展示了GPT-5自主性和協作溝通的力量。
更值得一提的是,GPT-5非常擅長通過元提示詞,來修改自身的提示詞。
OpenAI研究人員興奮地表示,「對我來說,這第一次能放心把重要的工作交給一個模型,遠超越了『氛圍程式設計』」。
至於前端編碼任務,設計+美學至關重要,GPT-5全部都能拿捏。
第一個用於工作演示中,GPT-5僅在5分鐘完成了一個公司資料可視化的儀表盤。在此過程中,它還會自主修復bug,糾正錯誤。
最終生成的效果,可以看到其設計不僅美觀有品味,還具備了互動性,有著清晰的層次結構,方便聚焦重點。
研究人員表示,「若是純靠人肉完成,光是瞭解最新的框架,就得花上好幾天」。
第二個娛樂演示中,研究人員製作了一款包含城堡的3D遊戲。
一個簡單的提示詞,GPT-5瞬間呈現了一座3D城堡上,放大可以看到大量的細節,比如四處行走的守衛、開火的大炮。
甚至,還可以和人物角色聊天。
Greg現場直接上手炮擊氣球,擊中時還帶有神奇的音效。
一波演示下來,GPT-5帶來了親眼所見的震撼,足以稱得上是全球最好的編碼模型。
毫無意外,這次又是華人團隊撐起了大半邊天。
緊隨奧特曼的,就是OpenAI首席研究官(Chief Research Officer)Mark Chen。
在GPT-5演示中,下列場景再次驗證了「AI圈處處有華人」:
4人同台,有3位是華人。
除了後訓練負責人Max Schwarzer,其他三人Mark Chen、Rennie Song、Elaine Ya Le都是華人。
此外,王若宸演示了GPT-5的語音/語音學習功能。他是OpenAI多模態研究科學家,訓練了ChatGPT的語音模型。
奧特曼還點讚了另一位GPT-5核心成員Tianfu Fu的工作。他是GPT-5的核心貢獻者。
總的來說,這次GPT-5發佈,還是有不少可圈可點的地方,雖然基準測試圖也被挑出了一些錯處。
GPT-5的直播結束,許多人還沉浸在興奮和激動之中。
今夜無眠。 (新智元)