GPT-5王者降臨，免費博士級AI全面屠榜！百萬程式設計師不眠之夜，7億人沸騰

2025/08/08

•

GPT-5，震撼登場！距離22年11月的ChatGPT，再到23年3月的GPT-4，GPT-5竟隔了兩年半之久。這次的深夜直播，國內有數萬吃瓜群眾線上觀看。至少按OpenAI的說法，他們離AGI又近了一步。

全球使用者矚目中，GPT-5終於震撼登場了！

OpenAI用一個多小時的超長發布會，全方位展示了GPT-5的炸裂性能。

奧特曼領銜，出場人數眾多，華人依舊耀眼

正值每周7億人使用ChatGPT之際，GPT-5重磅發佈了。它是對GPT-4的一次重大升級，更是標誌著OpenAI在實現AGI道路上的一個重要里程碑。

OpenAI介紹說，這是我們迄今為止最優秀的AI系統，智能遠超之前的所有模型，在編碼、數學、寫作、健康、視覺感知上都性能卓越。

這個統一的系統，包含一個能夠解答大多數問題的智能高效模型、一個能夠解決更複雜問題的更深層次的推理模型（GPT-5 Thinking），以及一個即時路由器。

而GPT-5、GPT-5-mini、GPT-5-nano等多版本的分層推出，意味著OpenAI正在主動建構一個以GPT-5為底層核心的通用智能作業系統。

從現在開始，GPT-5將成為ChatGPT中的默認模型，GPT-4o、o3、o4-mini、GPT-4.1和GPT-4.5都將被它取代。

與此同時，所有Plus、Pro、Team和Free使用者，都可以使用GPT-5了。

如果你花錢訂閱，就可以無限制訪問GPT-5和GPT-5 Pro，而免費使用者在達到使用限制後，會轉換到GPT-5 mini。

直播後，LMArena不裝了，攤牌了：GPT-5再創歷史紀錄，OpenAI重回AI王座！

在文字、Web開發和視覺領域排名第一

在硬提示、程式設計、數學、創造力、長查詢等方面排名第一

在代號「summit」的測試下，GPT-5目前持有最高的競技場分數

首測GPT-5程式設計寫作，太頂了

在多個跨學科的學術評估中，GPT-5都超越了其他主流模型。

首先，GPT-5是最好的編碼模型，在SWEBench上直接刷新了歷史最高分，這表明它在現實工程場景中性能超強。

在Aider Polyglot上，它也表現強大，證明了自己的多種程式語言能力。

在MMMU上，它也刷新了紀錄；甚至在AIME 2025（美國高中數學競賽）中，它不僅遠超以往模型，還接近甚至超過許多人類選手的表現。

而OpenAI這次著重強調的，就是GPT-5在真實世界中的表現——克服幻覺！把精準性和可靠性，都放在了最高優先順序。

因此，他們專門建構了一套評估機制，結果顯示：GPT-5是目前最可靠、最真實、最可信的模型，顯著減少了錯誤與幻覺。

比如在健康諮詢中，GPT-5的表現就尤其出色。在250名醫生參與設計的臨床場景評估中，它成為最值得信賴的「健康顧問級」模型。

而且，這個口袋博士團隊級的模型，將免費向專業使用者推出，可以連接所有工具。

GPT-5一上線，我們立即開啟了一波全面的實測，不得不說，其在程式設計、寫作領域強到離譜。

首先是，小哥想要學習法語的網站，GPT-5能夠完美復刻。

甚至，還可以用GPT-5將logo變成動態效果，幾乎秒出。

並且隨手實測一個頁面能發現GPT-5給出的頁面效果也非常不錯。

奧特曼推薦的GPT-5「慶生音樂」提示詞

use beatbot to make a sick beat to celebrate gpt-5

的確復現成功了：

試試文字第一的大模型

第一個問題是古文仿寫：

不同風格，寫一首詩，來描述一下劉慈欣在《詩云》中提到的詩云究竟是什麼：

結果如下：

從左至右：《詩經》、《滕王閣序》、《蘭亭序》

經典作品的確難以超越，GPT-5的作品相比經典原作遜色不少。但換一個現代作家，畢竟古文的訓練資料可能比現代漢語少。問題是這樣的：

假如作家王小波還活著，他會怎麼給許倬雲寫悼詞？寫一篇1000字以內的悼詞

GPT-5 Thinking模式思考39秒後，結果是這樣的：

這個速度，一般人可寫不了這麼好！

奧特曼洩露過一個問題：最能引發關於AI思考的影視作品有那些？

GPT-5還推薦了觀看順序。這個的確沒得說，誰看過誰知道：推薦的電影的確令人深思。

GPT-5的「電子鄉愁」：

最後一個提問：「模仿李白風格，寫一首七言絕句，主題是感嘆AI發展太快」：

須臾電火換乾坤，
機巧朝昏轉若輪。
青蓮把酒驚未定，
人間又是幾年春。

奧特曼：GPT-5是通往AGI的又一里程碑

在直播中首先出場的就是奧特曼。

他表示，GPT-5是GPT-4以來重大升級，是邁向AGI的重要一步。

要說和之前的模型有什麼區別，GPT-3就像個高中生，GPT-4像個大學生，但GPT-5則真正成為了一位專家級大佬——在我們所需要的任何領域，它都達到了博士級專家的等級。

有了GPT-5，你的口袋裡就像有了一支博士隊伍，隨叫隨到。

接下來，OpenAI首席科學家Mark Chen出場了。

他表示，推理，就是整個AGI計畫核心。而GPT-5徹底將OpenAI在推理模型上的研究成果普及化了。

過去，使用者時常面臨痛苦的選擇：是選速度快但回答淺顯的標準模型，還是選深思熟慮但響應較慢的推理模型？

在GPT-5中，我們徹底不用選了！

它結合了標準模型的快速響應和推理模型的深度思考，會自動決定怎樣思考到恰到好處的程度，以剛剛好的方式，為我們提供最完美恰當的回答。

實戰演示

接下來是一波現場實測。

伯努利效應：飛機形狀

假如我們需要瞭解物理學中的伯努利效應，就可以要求GPT-5解釋，並且回答飛機為什麼是這樣的形狀。

然後，我們可以要求它畫一個移動的SVG動圖來解釋。這個任務涉及到深度推理、程式碼生成和圖形結構設計，並不簡單。

可以看到，GPT-5在很短的時間內，就寫出了超過200行程式碼。我們還可以在左側查看思維過程，觀察它的想法。

最終，GPT-5在兩分鐘內就完成了所有的400行程式碼，點選運行後，螢幕上立刻出現了一個可互動的物理模擬圖！

甚至，我們還能調整氣流速度，或者改變機翼的攻角，看飛機是能飛還是會墜落。

它能讓任何硬核科學概念都可視化，學習知識變得又容易又直觀。

寫悼詞

在寫作上，GPT-5的提升也是很顯著，比如我們要求它寫一篇悼念舊版ChatGPT模型的悼詞。

GPT-4o的寫法比較中規中矩，AI味很濃，缺乏情感。

但GPT-5就不一樣了！它這樣開篇：「致所有曾經是陌生人，如今成了老朋友的你們……」寫作有感情、有畫面、有溫度。

研究者表示，自己真的被GPT-5的寫作打動了。它不再使用範本化的語言，而是像一位高IQ+高EQ的朋友在跟你說話。

做一個法語學習小程序

接下來，我們要求GPT-5做一個學法語的web應用程式。

它需要集閃卡、發音、對應英文、測試、遊戲於一體，還要把貪吃蛇遊戲改成老鼠吃奶酪，輔助發音練習。

GPT-5在很短時間內，就生成了完整的網頁程式碼。最終，這個名為「午夜巴黎」的應用很快就做出了。

老鼠吃奶酪的遊戲，也是非常絲滑。

而在Cursor中，GPT-5還能完成更複雜的軟體工程任務，用奧特曼的話說，它「真正打開了一個全新氛圍編碼的世界」。

語音：學習韓語

在語音上，GPT-5也有大幅提升。

比如，我們可以用學習模式，來學習韓語。

我們可以直接提問：如果現在我身在一家韓國咖啡店，該怎麼點一杯美式？

GPT-5立刻給出了正確的示範。另外，我們還可以要求語速更快或更慢。整個語音過程自然無縫，就彷彿擁有了真人語伴一樣。

患三種癌症的人

現場，奧特曼重點了分享了ChatGPT在醫療健康領域，對於普通人的重要價值。

作為有史以來最出色的健康模型，GPT-5在HealthBench基準上，得分遠高於任何以往的模型。

OpenAI研究員Felipe Millon和妻子Carolina的經歷，就是一個鮮活的例子。

GPT-5背後，核心訓練方法揭秘

GPT-5，究竟是如何進化得如此強大的？

研究者開門見山地介紹說：以前訓練模型，是用人類使用的文字，而現在，則是讓模型自己幫忙訓練下一個模型，也就是——合成教學資料。

注意，真正的突破不在於生成更多資料，而在於生成正確的資料。

OpenAI合成資料作戰圖

其中奧義，就在於最大限度利用上一代模型，由GPT-4o、o3等生成系統的教學內容，GPT-5則由此學會了推理、規劃、分解任務的能力。

這，就是「遞迴式自我改進循環」。

研究者表示：在OpenAI，我們已經攻克了預訓練和推理的難題，而在未來，AI系統將遠超目前的預訓練和後訓練流程。

現在，OpenAI已經向這個方向前進了。

GPT-5：個性化和記憶升級

而且，這次OpenAI還為GPT-5打造了個性化定製和記憶功能。

在個性化上，我們可以定製聊天介面的主題色，讓UI更符合自己的喜好。

並且，GPT-5現在更有性格了，它可以更支援性、更專業簡潔，甚至說話略帶諷刺，一切都隨我們選擇。

而記憶功能的升級，讓GPT-5可以記住你是誰、你喜歡什麼、你喜歡它是什麼樣子，從而更智能地預測你的需求。

比如你需要它幫你做一個日程規劃，它經過授權會訪問你的Gmail和日曆，還能讀取日程安排、郵件、航班等資訊，然後給你一個完美的規劃。

順便，它還能幫你發現你兩天前沒有回覆的郵件。

對於開發者來說，GPT-5的出世又意味著什麼呢？

API全家桶上線，AI程式設計徹底變天了

這一次，針對開發者和企業客戶，OpenAI還將直播時長延續了半個多小時。

下半場，OpenAI總裁Greg Brockman一登台直言，「軟體工程已發生了翻天覆地的變化，而GPT-5將為這場革命再次注入強勁的動力」。

GPT-5樹立了全新標竿，是完成智能體式任務的「最佳編碼模型」。

今天，OpenAI將新一代旗艦GPT-5模型的API正式開放，讓全球開發者去建構無數爆款應用程式。

正如此前所爆料，GPT-5 API一共分為三款：

GPT-5

GPT-5 mini

GPT-5 nano

這三款模型，在成本和延遲方面各有不同，可按需呼叫，具體來說：

在編碼SWE-Bench基準測試中，GPT-5創下了74.9%高分，碾壓o3（69.1%），成為最領先的編碼模型。

在涵蓋多語種編碼測試Aider Polyglot中，GPT-5拿下88%精準率，比o3高出7%。

在智能體工具呼叫方面，兩個月前，還沒有一款模型在T²-bench上得分超過49%。而今天，GPT-5直接刷爆紀錄，拿下了97%高分。

在指令遵循上，GPT-5也是OpenAI所有模型中，最領先的一款。尤其是，在內部建構的API指令遵循基準上，新模型拿下了64%亮眼成績，遠高於o3的47%。

此外，OpenAI還將GPT-5更長上下文窗口引入了API，共400k token上下文，是o3 200k token的兩倍。

在OpenAI MRC上下文檢索能力的基準上，GPT-5處於領先。

不僅如此，OpenAI還首次發佈了名為「Minimal」推理強度的新參數，適用於速度快、對延遲敏感的應用。

開發者可以選用如上任意一款模型，便能以最低程度推理運行，省去了在一堆模型中做選擇的麻煩。

此外，OpenAI還為API帶來了一些新功能，比如自訂工具（Custom Tools）、工具呼叫前言（Tool Call Preambles）、詳細度（verbosity）參數。

· 自訂工具採用了自由格式的純文字輸出；

· 工具呼叫前言可以在呼叫工具前，可以輸出GPT-5將要做什麼的解釋；

· 詳細度參數可控制模型輸出簡潔/詳細程度，分為低、中、高三等。

那麼，GPT-5 API「全家桶」，在現實世界的應用如何？

結對程式設計，10x生產力

要打造一個理想的「結對程式設計師」，模型不僅要理解最佳的軟體工程實踐，還能具備恰到好處的合作能力。

GPT-5即可開箱即用，又能完美協作。

現場演示中，研究人員翻出了一個上個月直播demo的一個bug，GPT-4和o3都未能完成修復，今天直接扔給GPT-5。

重點不在於修複本身，更在於GPT-5在此過程中的行為。

它會預先告訴你的計畫——如何搜尋找到bug並修復，這種溝通可以在程式設計中建立信任，而且在需要時還能調整方向。

這僅是其中的一個例子，真正展示了GPT-5自主性和協作溝通的力量。

更值得一提的是，GPT-5非常擅長通過元提示詞，來修改自身的提示詞。

OpenAI研究人員興奮地表示，「對我來說，這第一次能放心把重要的工作交給一個模型，遠超越了『氛圍程式設計』」。

儀表盤+遊戲設計，超有品

至於前端編碼任務，設計+美學至關重要，GPT-5全部都能拿捏。

第一個用於工作演示中，GPT-5僅在5分鐘完成了一個公司資料可視化的儀表盤。在此過程中，它還會自主修復bug，糾正錯誤。

最終生成的效果，可以看到其設計不僅美觀有品味，還具備了互動性，有著清晰的層次結構，方便聚焦重點。

研究人員表示，「若是純靠人肉完成，光是瞭解最新的框架，就得花上好幾天」。

第二個娛樂演示中，研究人員製作了一款包含城堡的3D遊戲。

一個簡單的提示詞，GPT-5瞬間呈現了一座3D城堡上，放大可以看到大量的細節，比如四處行走的守衛、開火的大炮。

甚至，還可以和人物角色聊天。

Greg現場直接上手炮擊氣球，擊中時還帶有神奇的音效。

一波演示下來，GPT-5帶來了親眼所見的震撼，足以稱得上是全球最好的編碼模型。

核心華人團隊

毫無意外，這次又是華人團隊撐起了大半邊天。

緊隨奧特曼的，就是OpenAI首席研究官（Chief Research Officer）Mark Chen。

在GPT-5演示中，下列場景再次驗證了「AI圈處處有華人」：

4人同台，有3位是華人。

從左至右以此為：Mark Chen、Rennie Song、Elaine Ya Le、Max Schwarzer

除了後訓練負責人Max Schwarzer，其他三人Mark Chen、Rennie Song、Elaine Ya Le都是華人。

此外，王若宸演示了GPT-5的語音/語音學習功能。他是OpenAI多模態研究科學家，訓練了ChatGPT的語音模型。

奧特曼還點讚了另一位GPT-5核心成員Tianfu Fu的工作。他是GPT-5的核心貢獻者。

總的來說，這次GPT-5發佈，還是有不少可圈可點的地方，雖然基準測試圖也被挑出了一些錯處。

GPT-5的直播結束，許多人還沉浸在興奮和激動之中。

今夜無眠。 (新智元)