在「能力超人類」的預期中,GPT-5趕在8月上線了。
8月8日凌晨,OpenAI正式發表GPT-5模型,全家桶包含GPT-5、GPT-5 mini、GPT-5 nano和GPT-5 Pro四個版本。
OpenAI用「最聰明、最快、最實用」 來評估新模型,如果在這個基礎上還要加一個標籤,業界普遍認為是「平價」。首先是對C端使用者限量免費,其次是對API使用者「大降價」-輸入1.25美元/百萬tokens,而輸出只要10美元。
那麼,除了讓奧特曼成為業界的「價格屠夫」之外,OpenAI交出的這份作業究竟是否符合預期?
“量變而非質變” “更便宜的OpenAI與回歸開源” “安全與可用性更好的平衡”
8月8日,在騰訊科技、智源社群、清華大學人工智慧國際治理研究院共同發起的AGI之路解讀直播中,智源研究院資料研究小組負責人劉廣、華中師範大學人工智慧教育學部助理教授熊宇軒、中科大墨子青年學者、清華大學人工智慧治理研究院青年科學家張輝研究院分別給出了自己的科學家張輝總結。
「(之前)預期過高,實際效果雖有提升(推理、工具呼叫),但未達預期屬於『意料之中的進步』。」劉廣說。張輝也給予了類似的評價,“GPT-5 的進步不夠'驚豔',邊際效率不高,未滿足使用者因長期鋪墊產生的高預期。”
在劉廣看來,GPT-5大量使用合成資料、建立資料分級分類體系,以及開發通用的資料品質評估模型,這些工程層面的最佳化在一定程度上緩解了高品質資料稀缺的問題,但作為OpenAI的期間模型,GPT-5也表現不足的地方,例如推理相關的研究。
「我們既不清楚推理能力的真正來源,也無法確定什麼才是真正有效的推理形式。」劉廣說。
GPT-5上線前,Anthropic與Google先後卡位,分別推出Claude opus 4.1、Genie 3世界模型,尤其是前者,公開預熱未來還會有新動作,暗示8月份將出現基座模型「熱戰」。
「OpenAI 受壓力不得不推出(GPT-5),」熊宇軒說。
在熊宇軒看來,Anthropic、Google、DeepSeek、Kimi等的這些國內外的競爭對手都在推著OpenAI上新。同時,外界對安全的擔憂也在逐漸緩和,再加上“多模型路由(Router)”也屬於更偏商業的考慮,“這些都在推動OpenAI 走向'更便宜、更開放',對行業是好事。”
對於新的多模型路由能力,熊宇軒將其定義為早期MoE的延伸,不屬於顛覆性技術突破。“有時像開跑車,有時像用越野車,根據任務靈活調配。”
張輝長期從事安全研究,他和熊宇軒一樣關注安全,尤其是GPT-5的「安全補全」 能力。
“它在安全與可用性之間實現了較好的平衡。”張輝說,尤其是對於GPT-5從“拒絕” 轉向“安全補全”,張輝認為這是一個積極的訊號。「過去強拒答會損害正常使用, '安全補全' 透過動態閾值、使用者意圖分類,實現了安全與性能的雙向提升,證明安全與創新可共存。”
以下為直播實錄全文(在不改變原意的情況下有調整刪減):
騰訊科技: 首先,可以做一個快速填空題。 GPT-3帶來了ScalingLaw,GPT-3.5帶來了RLHF,GPT-4 帶來了MoE,GPT-4o帶來了全模態,o1開闢了推理的新範式。那麼,GPT-5帶來了什麼?可以用一到兩個關鍵字組合來回答,最多不超過兩個。
熊宇軒:這次GPT-5上線,比較像是OpenAI商業策略的轉向:更便宜、更開放。配合先前的GPT-OSS,可視為對開源社群的一次回歸與擁抱。
張輝:我覺得它的安全補全(safecompletion)機制很值得關注,也給了我不少啟發——在安全性與可用性之間找到了一個相對良好的平衡。
劉廣: 各項都有增量,但沒有超出預期。能力的量變而不是質變。
騰訊科技:奧特曼對GPT-5進行了多次隆重的鋪墊,那這個模型對OpenAI來說到底意味著什麼?
劉廣: GPT-4o發表已經有一段時間,大家一直期待GPT-5。據說內部經歷了多輪“賽馬”,淘汰了不少版本,主要因為數據問題和訓練過程中的意外導致性能達不到預期。其中一個關鍵障礙是「資料牆」——高品質資料幾乎沒有增量。後來,團隊透過合成數據等手段緩解了這個問題。
從最新版本來看,GPT-5在推理能力和調用工具能力上都有顯著提升。技術報告和system card 中提到,訓練中不僅使用了學者貢獻的數據,也利用了模型產生的數據;在數據處理上,還進行了分級分類,將可信和非可信來源區分開,並輔以人工與模型聯合篩選。經過這一系列資料工作的打磨,GPT-5在安全性和推理能力上的提升是可以預期的。
只是因為研發周期拉得很長,外界期望值又很高,所以發布後的效果更像是一種「情理之中」的結果。
張輝: 我比較贊同劉老師的看法-GPT-5的確不夠驚艷。
在奧特曼連續一兩年營造情緒期待之後,用戶對它的期望值被推得很高。實事求是地說,它沒有達到預期。不過,從個人零星的測試和體驗來看,仍有一些值得學習和借鏡的地方,甚至包括它失敗的經驗。
就這款產品而言,未達預期其實也是意料之中的。尤其值得注意的是,奧特曼自己的表述也發生了變化——從最初的“已經實現通用人工智慧”,到後來的“還沒有實現”。這種話術轉變,本身就說明了外界期望與實際進展之間的落差。
熊宇軒: 我認為,GPT-5更像是一個訊號,標誌著產業進入新的轉捩點。它或許不是顛覆性的技術創新,但從模型架構到資料收集,都顯示出大模型發展已進入新的階段。
回想GPT-4發佈時,安全問題曾引發廣泛擔憂,甚至有人呼籲暫停GPT-5 的研發,奧特曼當時也說短期內不會推出。但幾年過去,GPT-5還是來了,至少說明兩點:
第一,產業變化極快、競爭激烈,迫使OpenAI不得不加速前進;
第二,從安全形度來看,許多曾經的擔憂被證明沒有想像中那樣直接威脅人類,且已有多種可行的控製手段。
對OpenAI 來說,GPT-5比較是商業層面的佈局。例如新版的模型路由(Router),本質上只是早期MoE 的延伸——有時像開跑車,有時像用越野車,根據任務靈活調配,並非顛覆性技術突破。
但它帶來的結果是模型更便宜、更開放、更容易使用。這不僅對OpenAI本身有益,也會推動整個產業朝著更可用、更普及的方向發展。
騰訊科技: Plus用戶在帳號上只能看到GPT-5,其他的歷史模型都不見了。是未來OpenAI想用這樣大一統的模型去統一所有的模型?
張輝: 我覺得原因可能有多面向。直覺上,首先是站在用戶角度做了操作簡化——在商業競爭激烈、競品紛紛簡化設定的背景下,這樣做能提升易用性。其次,從品牌管理來看,OpenAI現在的品牌效應極大,把系列產品整合進GPT-5,有助於形成統一品牌形象,這在管理上是科學合理的。
最後,也不能排除技術創新的因素──例如Router的引入,到底是屬於什麼樣的創新?它如何自動識別使用者提示詞和意圖?這裡面是否隱藏著更深的技術突破,還需要繼續觀察。
騰訊科技:怎麼看這種多模型路由架構?它可以根據需求自由選擇調用那個模型的能力,這算是多大的創新?
熊宇軒:其實模型之間本來就有分工,體現在功能和規模。這個想法並不新,例如清華黃高老師很早就提出過「動態神經網路」——根據任務難度動態選擇網路結構。到了大模型時代,理念還是一樣的。
GPT-5 中既有需要thinking的推理模型,也有不需要thinking的模型;前者資源佔用更高、運行時間更長。這樣做,一方面能幫用戶省錢,另一方面也能降低自身營運負載,進而提供更好的整體體驗。所謂「大統一模型」比較是一個概念包裝,背後既有技術考量,也有商業營運上的策略因素。
劉廣:路由這個概念,學術界早就有研究,工業界也早有實踐,例如前段時間360 就嘗試過多Agent 或多模型融合的路由機制。 OpenAI的不同之處,可能是在效果、體驗和工程優化上做得更好。
從創新角度來看,它更多是把已有思路做到極致──就像GPT-3時代,透過單純擴大規模就顯著提升了能力一樣。在這個方向上,GPT-5屬於工程層面的極致優化,由此帶來更好的體驗和一定的能力提升,這是一種偏工程性的創新。
騰訊科技:讓GPT-5 計算“9.9 − 9.11”,不開thinking模式是錯的,開啟後就對了。為什麼?這裡的技術難度是不是還是很大?
劉廣:困難在於何時需要推理、何時不需要。人類會本能判斷並在需要時用工具;模型沒有先驗,且不擅長精確數值計算。從這個角度來看,它算錯並不令人意外。照理說它可以呼叫內建工具(如Python),但如何在適當的時機自動呼叫合適的工具、以及是否觸發推理,目前仍是瓶頸。
騰訊科技:像這種“小學數學題”,或者“識別圖片裡有幾根手指”這類人類一眼就能看出的任務還沒完全解決,這是不是大模型“刻在基因裡”的缺陷?
張輝:從安全治理角度來看,這更像是內生風險。模型缺乏人類的先驗與世界常識,對「什麼時候需要推理」本身的理解不足。它主要透過「刷題」式學習,資料裡可能很少遇到「9.9 − 9.11」這樣的邊界案例。
至於你點開 thinking 按鈕後,背後到底是架構級的創新,還是只是觸發了外部工具,兩者意義差異很大。但根子上,這依然是內生性問題:沒有先驗、難以自適應地判斷是否需要推理與何時調用工具。
騰訊科技:在AI for醫療或for science這樣的複雜領域,GPT-5 的能力演化能在多大程度上提供幫助?發布後是否解鎖了新的應用程式場景?
熊宇軒:OpenAI自己宣稱,在醫療和經濟數據等領域的表現都非常好,達到SOTA水準。但這些領域最核心的問題是結果是否可信。過去我們談到幻覺問題,可以透過RAG引入外部知識來緩解。 GPT-5在資料構造、清洗和品質提升上確實有自己的方法,但這更多是工程優化。
至於推理,我們當然希望它能真正發揮作用,但它究竟能做到那一步,仍有待驗證。現在的CoT(思考鏈)是不是真正的推理,學術界也有爭議。尤其在醫療這種關乎生命安全的領域,更需要以謹慎而樂觀的態度看待它的發展。
騰訊科技:所以OpenAI目前也還沒真正解決──究竟什麼時候該讓模型進行推理,什麼才是最適合的推理?
熊宇軒:它確實把這個問題拋了出來,並且聲稱現在的模型Router 就是在解決這件事。但效果到底如何,還需要觀察一段時間。
劉廣:順著熊老師的觀點,現在學界還在探討──什麼才是真正的大模型推理?是顯性的CoT(思考鏈),還是隱式的推理?推理的形式究竟應該是什麼樣子?更關鍵的是,我們其實並不清楚推理能力是怎麼產生的,那又該如何提升?這是一個很大的謎。
例如Bengio 的文章就指出,現在的CoT往往並不忠實(faithful)。如果推理過程和最終答案不一致,那麼基於推理鏈的監控也就失效。這樣一些原理性問題不解決,很難為下一步發展鋪路。
從資料角度來看,是否建構大量推理資料就能提升推理能力?這又引出了新問題:這種能力是自然出現的,還是透過強化學習得來的?答案並不確定。所以,OpenAI 提出的許多功能,背後的機制可能還是缺乏足夠解釋。
騰訊科技:這次GPT-5在數據領域有那些創新?又是如何應對高品質數據不夠用的問題?
劉廣:過去大家都說遇到了“數據牆”,高品質數據基本上用完了。一條可行路徑就是使用合成資料-當模型能力夠強時,就可以產生接近人類產出的資料。我認為GPT-5很可能大量採用了這種方式。事實上,國內不少公司,如DeepSeek、千問,也都在預訓練中引入合成數據,這已經成為業界公認的手段。
另一個有趣的例子是IMO數學競賽金牌事件。 OpenAI 搶先宣佈獲獎,背後依賴的是一套通用的強化學習方法和一個通用推理模型。這類模型的困難在於如何給沒有標準答案的問題評分;如果解決了這個機制,就能用來篩選和評估數據。
從GPT-5的技術報告看,他們對資訊來源進行了分類,並用統計方法和模型評分,這與reward model的設計密切相關。有人認為,這可能是先前「超級對齊」團隊留下的技術遺產。
張輝:從安全形度來看,資料來源保真是很必要的。這次GPT-5的一大亮點,是提出以輸出為中心的安全策略。聽起來像常識,但它之所以特別提,是因為在輸入階段,涉及用戶意圖識別的問題。可能一開始模型在這方面有所偏差,現在又回到正確路徑上來。
這對我有啟發——從輸出端來談內容安全確實沒錯。至於現實中的挑戰,例如資料來源和幻覺問題,技術上都可以處理。 GPT-5 強調的意圖識別,如果真的能準確分類使用者意圖,就能讓安全策略更加多元。
不過,OpenAI也承認,即便做了意圖分類,仍會出現有害輸出,這是不可避免的,我覺得這種承認本身體現了實事求是的態度。
騰訊科技:即使GPT-5這次能力躍升低於預期,從商業角度,它能否帶來更多用戶和API收入?
熊宇軒:在全球範圍內,應該還是會有成長的。畢竟OpenAI是業界的領導者,一旦發布新產品,總有人會去嘗試。但在國內,這個效果就不一定了。現在國內的大模型已經很強,日常工作場景完全能勝任。
有時差距不大,我反而更傾向用國內模型,像是DeepSeek、豆包、千問,這些在日常程式設計等任務中已經非常好用。
劉廣:OpenAI在一些應用場景上依然是斷檔式領先,例如deep research、資訊收集整理,幻覺率極低。但競爭壓力同樣巨大,尤其是來自Claude。 GPT-5 這次提出了並行Agent 的支援,但還需要時間驗證,到底能否在實際表現上超越Claude。
國內很多公司,像是Kimi 的K2,已經相容Claude的生態。這背後其實反映了兩個理念的差異:OpenAI堅持一個大模型打天下,而Claude走的是工業化路徑——小步快跑、建構工俱生態。目前來看,產業界和個人開發者更偏向Claude這種路線。
熊宇軒:但這次也能看出,OpenAI正在嘗試新的方向。它的這個router,在某種程度上可以看作是對Agent的一種編排。從這一點來看,OpenAI確實已經被逼到必須去做這樣的嘗試。
騰訊科技:未來這些模型公司是否會轉向「通用Agent 生態+ 平台」的模式?
熊宇軒:有可能會走向通用Agent生態,也可能像劉老師說的那樣,在模型研發上大家已經差不多了。接下來競爭的重點,可能會落在數據上,例如數據的合成、多樣性、有效性、安全性,以及與人類價值的對齊。
此外,也要關注資料與模型之間的匹配問題——並不是簡單產生更多資料就一定好,還需要和模型的架構、規模相適配。
騰訊科技:從一般人的角度看,現在這些模型公司好像又走回了相似的路線,變得越來越同質化,而且價格可能會越捲越低?
劉廣:是的,我認為價格肯定會越來越低。現在很多模型都免費了,甚至連開源了。 DeepSeek 開源之後,反而變成——如果你不把最好的模型開源出來,你就很難在檯面上競爭。
但開源有兩面性:一方面,它對市場推廣很有幫助,可以讓許多傳統企業快速用起來;另一方面,對ToB 商業模式是很大的衝擊。開源是否可持續,我還不好判斷,但可以確定的是,它會讓模型的使用成本持續下降,也會讓它更加普及。
騰訊科技:那這些頭部模型公司,核心競爭力現在體現在那裡?
劉廣:我覺得目前還處於起步階段,不能說完全沒有差距。例如Google最近推出的視訊模型,可能就是一個新的方向──不再捲文字,而是捲視頻生成。語言模型是不是已經「捲」到頭了?現在還不能下這個結論。
熊宇軒:我們也不是說以後就不研發模型了,只是現階段,從使用者使用的角度來看,差異並沒有那麼大。就像開法拉利和開普通車,在城市限速的情況下,跑得再快也有限。使用者的需求就在那,所以即使模型在效能上還有差異,最後也很可能走向同質化。
例如Google做出了視訊模型,你覺得Meta 後面不會做嗎?當大家都做起來之後,又會回到我們剛才提到的循環——從模型到數據,再到安全,數據、演算法和算力都會以螺旋式的方式不斷上升。
騰訊科技:我們進入下一個更難解決的問題,就是這次提出的「安全補齊」(Safe Completion)。過去模型遇到一些嚴重的安全問題會直接拒答,而現在轉變為安全完成。這種做法能真正實現可用性和安全性的平衡嗎?還是說,它是在犧牲安全性、更多地遷就可用性?
張輝:從GPT-5公佈的資訊來看,它確實在這方面做了努力嘗試。以前那種過於強硬的拒答,其實並不好——很多時候用戶並不是在作惡,比如一個小學生學習化學時提出某個問題,如果直接拒答,反而會損害它的有用性。
我們常有慣性思維,覺得安全和創新是對立的,但其實不是。從GPT-5的結果來看,安全補齊透過演算法上的一些創新,不僅沒有降低效能,反而帶來了整體提升。這說明安全和創新是可以相輔相成的。
我認為這是一個好開始。即使只是做一個簡單的安全補齊,例如設定動態變化的有害閾值等一系列小的微創新,也能同時提升安全性和效能。這對後續的Agent研發也很有啟發意義。
騰訊科技:昨天OpenAI被吐槽的那個錯誤圖表,到底是什麼樣的失誤,才會讓他們在這麼重要的發表會上犯下這樣低階的錯誤?
劉廣:我剛才也和幾位老師聊過,這種低級錯誤,很可能是他們自己畫完圖後,覺得自己的表現特別好,就把分數拉高了一點。至於其他團隊成員有沒有復核,或者乾脆是用GPT-5 自己去檢查的,這就不好說了,但這都有可能導致這樣的結果。
張輝:我覺得這不算意外,畢竟OpenAI 以前也出現過類似的「觀感失誤」。有可能是提示詞的風格設定,讓模型傾向於強調“我特別好,對方特別差”,於是它就在柱狀圖裡不斷放大自己的優勢。模型自己對這個結果很滿意,覺得實現了使用者意圖。
熊宇軒:我反而覺得更大的可能是他們內部確實太著急了,也說明這次發表會的壓力很大,準備得比較倉促。
騰訊科技:前段時間奧特曼接受採訪時說,他自己有一種「比起AI 毫無用處」的感覺。AI 的能力是不是已經迭代到讓人類開始懷疑自己的目標感了?留給我們的時間窗口還有多久?
張輝:這個問題確實比較致命,也不好預測。有的人說是2025 年,有的人說是2027 年。在我看來,可能奧特曼用大模型的方式和我不太一樣。我更多是用它來幫我檢索文獻,雖然它會生成很多不存在的文獻,但也有一些是真的,還會附上原始鏈接,對做RAG 很有幫助。你要說用大模型用到瑟瑟發抖、懷疑人生,我目前倒還沒遇過。
熊宇軒:我覺得這個事情要從兩個方面來看。第一,AI 越強,只要我們可控,一定是好事,能提升我們的工作效率。至於害怕,我覺得應該用動態的觀點去看。它確實會取代一些職業,但也可能催生新的業態。
例如教師這個職業,未來可能會演變成「師-機-生」三方互動的形態,老師的角色會從單純的知識傳授者變成既傳授知識,也教導學生如何和大模型打交道。所以它既可能讓人擔憂,也有可喜的一面。我還是傾向於謹慎而樂觀地看待它。
劉廣:我整體是比較樂觀的。就像剛才熊老師提到教育的例子,我注意到OpenAI的GPT-5裡也專門有一個面向教育的入口,可能會把思考過程寫得更詳細,甚至提供API 去檢查作業是否由AI 生成。一方面是為了輔助學生學習,一方面又要防止學生作弊,這中間本身就有矛盾。
我認為關鍵還是可控性。如果AI 在可控範圍內去做這些事,就沒問題;但如果不可控,例如之前傳聞它拒絕關機、假裝關機但實際上沒有,那就非常讓人毛骨悚然。不過從目前來看,我還是偏樂觀的,只要安全機制、沙箱機制設計得夠好,這類風險是有可能在某種程度上被規避的。
騰訊科技:最後三位能不能再分別總結GPT-5的亮點?
熊宇軒:我還是回到開頭提到的router(路由)機制。雖然從學術上看,它的創新性並不算特別大,但實際上卻重新引領了業界的競爭方向,也為後續的Agentic AI 發展起到很大推動作用。從商業角度來看,它可能會讓更多人用得起GPT,這點意義不小。
張輝:拋開效能不談,我覺得它在安全措施和安全治理上有所進步。它透過安全補齊這樣的機制創新,讓滿足使用者體驗的效能和內容安全實現了同步提升,也為我們提供了一種新的思路——安全不一定要犧牲可用性。
劉廣:我認為OpenAI 在AGI 的定義和路徑上做了一些妥協。過去它強調一個模型能做所有事,現在則是打包一系列模型,再結合agent 和工具呼叫往前推進。這種路線調整,本身也是現實選擇。 (騰訊科技)