台北時間8月8日凌晨1點的發佈會上,GPT-5 總算在萬眾期待中姍姍而至,此時,距離GPT-4的發佈已過去了兩年半。
但這一次,比起ChatGPT 的驚豔亮相、GPT-4 的跨越式升級、o1 發佈時的震撼全場,這場發佈會顯得格外平淡:不太驚豔的Benchmark,毫無新範式的影子;很難激起興趣以及看出與競品區別的用例展示;甚至還有被網友抓包的PPT展示錯誤,共同構成了這1小時20分鐘的發佈會。
但這並不意味著GPT-5沒有進步。極低的幻覺率、前端能力的加強、上下文能力的躍升和極為有競爭力的價格,都是這次難得的亮點。
尤其是價格,在GPT-5 精彩的程式設計表現之下,其API價格僅為昨天發佈的Claude Opus 4.1的1/15,也比Gemini 2.5 Pro價格低。
這可以說是對Anthropic的致命一擊。
今晚的OpenAI,雖失去了魔法的節奏、但依然在和其他廠商的肉搏中站穩了腳跟。
本次GPT-5共有4個版本,分為GPT-5 、 GPT-5 mini、 GPT-5 nano,以及只對企業版和每月 200 美元高級版開放的GPT-5 Pro模式。
對於一般使用者而言,默認的是統一模型GPT-5,它是由多個模型組成的系統,包括用於大多數問題的“智能且快速”模型(GPT-5-main)和用於更複雜問題的“更深層推理”模型(GPT-5-thinking)。
這種統一的實現,是由一個即時路由器決定針對特定查詢使用那個模型。
mini、nano的具體選擇則是API使用者可選。而GPT-5 Pro模式,則類似於Grok 4 Hard模式,使用了平行測試計算,一次多個模型一起平行計算更長時間。它用更大的算力,提供了最全面、最精準的答案。在超高難度的科學問題(GPQA)上,它刷新了世界紀錄。在與人類專家的「盲測」中,10 次裡有近 7 次被認為更優。
而在能力和評分上,GPT-5 幾乎在每一項上都有提升,但都只比當下SOTA高了一點點,也只比o3強得很有限。
智力水平:體驗最佳,但不是智力最佳
在智力的水平,各種主流評測集裡,GPT-5都高於o3水平,但整體差距沒有非常大。
細拆下來,其中提升最明顯的前沿數學測試集裡,我們能看到,GPT-5的效果還不如ChatGPT Agent,只有使用Pro模式下才會更強。
當與其他模型做比較時,我們就能發現,GPT-5大多數“智力”能力僅僅稍微高出競爭對手一點,部分能力甚至還並非SOTA,只能說整體以微小幅度領先。很難說是什麼跨越式的能力提升。
綜合來看,根據Artificial Analysis的排名,GPT-5 目前領先第一,但綜合分僅比o3高了兩分、比Grok 4僅高一分。
另一個顯示出GPT-5能力不及預期的是Arc Prize的測試,在這個號稱是AGI終極測試中,GPT-5不敵 Grok 4,而且是遠遠落後。
不過從這裡我們也能看到,相對於o3,GPT-5在計算效率上確實有所提高,能以更少的token消耗,獲得超過o3的效果,其效率也領先於Anthropic的模型。
根據OpenAI的介紹,GPT-5 thinking在解決複雜問題時,使用的token數量可以減少了50%-80%。
這引得馬斯克都激動的發推。
最近,Grok在AI國際象棋大賽上披荊斬棘,這次又壓了OpenAI一頭,感覺這個發佈會過後,Grok反而獲利最大。
不過在使用者體驗上,GPT-5扳回一城。
在LMArena這個主要由使用者雙盲比較不同模型優劣的排行榜上,GPT-5在所有項目上都得到了第一名。
而在本次OpenAI著重強調的程式設計領域,GPT-5在thinking(思考)模式下,也較前代有比較明顯的提升。
但同樣,如果把一直強調程式設計的競爭對手Anthropic最新的Claude 4.1 Opus也算進來,優勢又極其微小了。兩者僅有0.3%的分差。
雖然在整體程式設計基準上,GPT-5的表現並不特別突出,但OpenAI確實在程式設計實際體驗上做出了很多最佳化。發佈會上,OpenAI介紹了程式設計的幾個重要提升,主要體現在對程式設計要求的理解、對錯誤的改正能力和更多工具使用能力上。
這主要是歸功於智能體式編碼(Agentic Coding)系統的成熟。GPT-5擅長處理“智能體式”編碼任務,可以呼叫多種工具,連續工作數分鐘甚至更長時間來完成一個複雜的指令。
模型在編碼時甚至會主動溝通,解釋它的計畫、步驟和發現,像一個協作的團隊一樣行動。
為了實現這種類似協作夥伴的行為,OpenAI的團隊專門針對幾個特性對模型進行了微調,提升了包括自主性(autonomy)、協作與溝通(collaboration and communication)、以及測試(testing)的能力。
程式設計要求的理解和指令遵循上的提升,讓GPT-5能將模糊或詳細的指令轉化為實際可用的程式碼,幫助讓即使不懂程式設計的人也能實現他們的想法。
推特上的部分使用者也有相應的反饋。
而工具呼叫能力,經過OpenAI的特別微調後,也凸顯出來了。
這一點在Tau這個測試集中表現明顯。它是用來評估一個AI模型在模擬真實世界場景中,與使用者進行動態對話,並有效使用外部工具(即API或函數呼叫)來完成任務能力的測試集。在電信領域,它的能力提升明顯。
另一個非常重要的更新是“修Bug”能力的大幅提升。
在演示中,GPT-5能夠深入一個真實的程式碼庫(OpenAI Python SDK),通過搜尋和讀取檔案來理解程式碼的結構和邏輯,並最終定位到問題的根源。它甚至能理解人類工程師做出某些架構決策的深層原因,例如為了加強安全性。
而且它還可以自動修復自己的bug。在演示一個前端應用開發任務時,GPT-5在編寫完程式碼後,會自己嘗試建構(build)項目。當建構過程中出現錯誤時,它能將這些錯誤資訊反饋給自己,然後基於這些錯誤來修改和迭代自己的程式碼。這被OpenAI的演示人員描述為一個“深刻的時刻”和一個“自我改進的循環”。
在修復特定bug的過程中,模型也表現出了很高的智能。例如,它在運行程式碼檢查(lints)時發現了其他一些問題,但它能判斷出這些問題與當前要修復的bug無關,因此不會進行不必要的修改。
這一點對於當下的vibe coding而言十分重要。在今年的一篇論文中就曾提到一個反直覺的事實:用AI輔助程式設計反而可能會降低工作效率,而非提升。這其中最主要的原因是,日常程式設計師所面對的往往並非一個全新項目,而是要在一堆舊程式碼上迭代。
因此,如果沒有對於複雜程序的的整體把握以及自我bug修復功能的話,AI程式設計在這類項目上的能力就會大受限制。
可見,這次OpenAI真是在程式設計上用上了產品經理的心思,針對痛點做了大幅調整和升級。在沃頓商學院教授Ethan Mollick的測試中,他也體驗到了GPT-5程式設計“讓人省心”的特點。
GPT-5在程式設計上的另一個提升點是前端能力。現場展示中,OpenAI的研究員讓GPT-5現場生成了一系列的內容,包括飛機空氣動力學動態展示。
這一內容足足有400行程式碼,GPT-5寫了2分鐘。
還有一個教法語的貪吃蛇遊戲,整體表現都很不錯。
之前在各種洩露中被廣泛認為會大幅提升的多模態能力方面,GPT-5的提升也並不太顯著。
而且與Gemini 這種大一統模型不同,GPT-5仍然是一個主要能進行文字和圖像理解的模型。當下,它仍然不支援音訊輸入/輸出和圖像生成,視訊就更別說了。
想短期內能追上剛發佈的Genie 3,看起來對OpenAI來說還是太難了。
雖然綜合實力並不驚豔,只能說勉強保住了第一的位置。
但在一些小的方面,GPT-5的提升確實非常可圈可點。而且這些小的方面,也許能起到決定性的作用。
首先是幻覺和安全。GPT-5 顯著減少了幻覺的發生,它出現事實錯誤的機率比 GPT-4o 低約 45%,比 OpenAI o3 低約 80%。
這是個相當了不起的成就。僅有不到1%的幻覺率,這對於實際落地應用來講極其重要,在工業環境以及實際工作環境中,幻覺都是致命的。
所以,也難怪OpenAI的核心研究員Noam Brown把針對發佈會的唯一評論,獻給了GPT-5在消除幻覺上的進步。
GPT-5在System Card中簡要地提到了他們使用的大概方法。
他們一方面強化訓練模型能夠有效地使用瀏覽工具來獲取最新的資訊。另外,當模型不使用瀏覽工具,而是依賴其自身的內部知識時,訓練的重點是減少在這種情況下產生的幻覺。
更底層的原因,可能是GPT5 thinking經歷的強化學習訓練。在這些訓練裡,OpenAI似乎利用了一些最新的訓練方法,讓這些模型學會了“完善自己的思考過程,嘗試不同的策略,並認識到自己的錯誤”。
也正是因為這個訓練模式,GPT-5模型的“欺騙”行為也大幅減少,部分維度上居然可以減少近90%。(欺騙:在這裡指的是模型可能會向使用者謊報其行為,或者在任務無法完成、資訊不足的情況下悄悄地不執行任務。這也和幻覺的下降直接相關。)
另一個非常重要的進步是上下文能力。
首先,所有的GPT-5版本目前支援的上下文都拓展到了400k,遠超o3、4o的128k默認版本上下文。雖然趕不上Gemini 1M的上下文量,但相比於其他對手也已經算是領先一步了。
而且從測試上看,上下文的精準度提升堪稱飛躍。大海撈針測試裡,GPT-5的精準率比o3提升了將近一倍。這意味著GPT-5處理長文字的能力會有比較明顯的強化。這對於需要處理複雜任務的程式設計、寫作、分析都影響頗大。
這兩點特別的小點,雖然不能提升GPT-5的綜合智力,但可能會給GPT-5帶來護城河式的優秀體驗。
如果說能力項上,我們還是可以在程式設計和幻覺上找到些許亮點,那GPT-5的新功能基本就只能說食之無味了。
首先是寫作上的最佳化。OpenAI在演示中表示,與之前的模型相比,GPT-5在寫作質量上有顯著提升,能更好地幫助使用者潤色草稿、郵件乃至故事。
最重要的是,GPT-5更有人味兒,更少AI味兒。它生成的回應更有節奏感和韻律感,語言更真誠、更能引起情感共鳴。而且因為整體能力的提升,它能更好地理解情境的細微差別,讓回應感覺不那麼像AI。
然而,在演示過程中,這個其實很不直觀。就像前兩天奧特曼秀出GPT-5推薦的電影時候,大家看不太出來和4o有什麼大的區別。
然後是語音功能。GPT-5的聲音聽起來極其自然,就像和真人對話。它還新增了視訊輸入功能,可以讓語音助手看到你所看到的東西。這基本屬於標配,現場感覺還是Grok 4的超高語音回應速度更讓人印象深刻。
記憶能力升級。雖然OpenAI在發佈會上提到了對記憶功能進行了大量增強,但實際演示來看只是推出了與Gmail和Google Calendar的整合功能,允許ChatGPT訪問使用者的郵件和日曆來幫助規劃日程。也是一種未來標配的水平,而且和“記憶”關聯性並不強。
最後是個性化功能:現在GPT-5允許使用者自訂聊天介面的顏色了。它不禁讓人想到,當一個前沿技術公司開始整這些花活兒的時候,這只能說明,它真的沒有別的可展示了。
在之前Information的爆料中,GPT-5開發失速的主要原因之一,就是資料瓶頸。對此,OpenAI發佈會上也給了一個解釋。
他們揭示了在GPT-5的訓練中,OpenAI試驗了新的訓練技術,讓模型可以利用前一代模型創造資料。與填充型的資料不同,OpenAI專注生成的是“正確類型的資料”,其目的在於“教導”模型。他們利用其模型打造了一個高品質的“合成流程”,生成了以教導GPT-5的複雜資料。
而且他們這種跨代模型間的互動預示著一個遞迴式的改進循環,即前一代模型越來越多地幫助改善和生成下一代模型的訓練資料。
也就是在o1模型推出時,大家一直猜想的由推理模型產生高品質資料,讓預訓練模型越來越強,再由此通過強化學習加強下一代推理模型的“左腳踩右腳”式訓練方法,被OpenAI證實了。
不過從效果上看,這個方法明顯Scaling的不那麼有效。資料的困境,還沒有被完全解決。
如果說GPT-5的性能提升不盡人意,至少在價格上,它做到了皆大歡喜。
首先是對C端使用者,免費使用者也可以使用GPT-5,但有使用次數限制,這個限額也相當慷慨,每天可以聊“幾個小時”。當達到上限後,會自動切換到GPT-5 mini模型。而對於Plus使用者,將擁有比免費使用者“高得多”的使用額度 ,基本滿足日常應用。
而對與API使用者來講,GPT-5 幾乎給出了一個難以拒絕的價格。每百萬token輸入1.25美元,輸出10美元。
這個價格比起GPT 4o還要便宜。甚至比一直以“低價”著稱的Gemini 2.5 Pro都更便宜。而mini和nano的價格,也都低於主要競爭對手的同等級模型。
如果GPT-5的程式設計能力確實如測試般強大,那對於價格高出15倍的Anthropic而言,將是毀滅性打擊。
不過,誰能想到,一個一直以技術領先為核心定義的公司,居然開始打價格戰了。這也是OpenAI這次發佈會上實際上最大的亮點,也是最大的讓人嘆息之處。
先行者變得務實,也許才是技術快速發展期結束的最明顯標誌。
比起GPT-5的平平表現,這場長達1小時20分的發佈會堪稱災難。
首先是發佈會上的“圖表欺詐”。發佈會剛開始沒多久,眼尖的網友們就在發佈會展示的PPT裡發現,SWE Benchmark資料被以不成比例的方式展示,以凸顯GPT-5的提升。
這裡的比例完全錯誤,很快網友就還原了一個真實比例。
而且這樣的錯誤還不止一處。在Tau 2 Benchmark的展示中,同樣出現了55%比58.1%大的情況。
針對這些致命錯誤,很快,網友們就開始了嘲諷的狂歡。比如拿GPT序號建表,來諷刺OpenAI的“表格魔法”。
對於已經經歷過IMO金牌風波,深陷在“炒作大師”印象中的OpenAI來說,這種錯誤簡直就是火上澆油,更坐實了他們炒作、不可信的形象。
除此之外,這次的演示過程,只有最後用了GPT-5的Cursor生成的城堡小遊戲稍微比較亮眼。其他的所有展示都冗長、過分專業、且效果平平。
對比Anthropic的讓Claude營運自動售貨機實驗、Gemnini的寶可夢通關展示Agent性能這些更有衝擊力,更能展示前沿探索的發佈會環節來講,實在是缺乏看點。
而期間充斥的無聊的冷笑話、漫長的推理等待時間,更是讓發佈會的沉悶到了一種前所未有的水平。
如果說奧特曼是個行銷大師,那這場發佈會確實是名不副實了。
正是因為奧特曼在會前給出的“GPT-5比我都強”的高期待,和發佈會時平淡表現的反差。加上錯誤連連的問題,這次OpenAI明顯被輿論反噬。據Polymarkt的調查,發佈會後,大家對OpenAI的模型能力評價甚至都一路下滑。
對於整個AI產業而言,這次發佈會可能意味著一個陰影籠罩的未來。
從GPT-4.5(Orion)項目的失敗,我們已經看到了參數Scaling Law逐漸放緩的跡象。而用了十倍算力堆強化學習的Grok-4儘管在某些測試中表現亮眼,但整體上也沒有展現出革命性的跨越,這暗示著Test-Time Compute(TTC)Scaling Law也開始見頂。
到今天,GPT-5“小步前進"式的常規進步。這似乎說明著低垂的果實已經摘完了。
那堵看不見的AI快速增長之牆,從未像今天這般明顯。
這也許意味著,我們不得不從那個"指數級增長"的狂歡中清醒過來,迎接一個更加務實、更加競爭激烈的新階段。也許AI行業真的需要一個新的突破,才能重回如夢如幻般的AI一代一個大跨越的節奏中去。
但突破何時到來、以何種形式到來,已經變得頗為難測。
能確定的只有GPT-5,還遠不是AGI。 (騰訊科技)