GPT-4.5更像是一次技術上的“微調”,而非劃時代的革新。
在DeepSeek“圍剿”下,坐不住的OpenAI在台北時間今天凌晨4點發佈了GPT-4.5,並號稱是其“最大、最好”的模型。依舊是“下午茶式”的小型發佈會,僅僅十三分鐘,主打用“情商”走進人類生活。
不過,OpenAI CEO薩姆·奧爾特曼(Sam Altman)因在醫院照顧剛出生的孩子而缺席了發佈會。
GPT-4.5能直接聯網搜尋資訊,支援使用者上傳檔案與圖片進行分析,還能通過內建的Canvas工具輔助寫作或程式設計。不過,它目前無法處理語音對話、視訊互動或螢幕共享功能。
換句話說,它的知識面更廣,但在數學和邏輯推理上不如o1這類專門最佳化的模型。
這一代的改進主要體現在實用性上:它的知識庫覆蓋範圍更廣,從學術概唸到日常話題都能應對;生成內容時“胡編亂造”的情況明顯減少;對話中能更準確地捕捉使用者意圖,響應也更接近真人交流的自然節奏;在創意類任務(如寫作或設計建議)中,輸出的多樣性和靈活性有所提升。
但它的侷限性同樣清晰:多模態功能尚未開放,複雜推理任務(如數學證明或程式碼偵錯)的表現仍弱於專用模型。
開發團隊表示,算力不足是當前服務分階段開放的主因,未來將逐步增加GPU資源以擴展使用者覆蓋範圍。
的確,GPT-4.5是一個規模龐大且成本高昂的模型。OpenAI原本非常希望能同時向Plus和Pro使用者開放這一模型,但由於業務增長遠超預期,現有的GPU資源已經無法滿足需求。
“團隊正在全力解決,計畫在下周新增數萬個GPU,屆時會優先向Plus使用者開放。據悉很快還會有數十萬個GPU陸續到位。”奧爾特曼表示。
儘管奧爾特曼沒有出現在發佈會,但他在X平台上分享了使用感受:“GPT-4.5像一位thoughtful的人,這是第一個給我帶來這種感受的模型。它能提供有價值的建議,甚至讓我幾次靠在椅子上,驚嘆於AI竟然能給出如此精彩的回答。”
奧爾特曼稱它GPT-4.5一種全新的智能形態,有“從未體驗過的神奇之處”,他還用了一個詞來形容它——thoughtful。
Thoughtful有“深思熟慮、周到、體貼”的意思,不過“深思熟慮”對使用者來說已經不是一個新體驗了,於是這次OpenAI的發佈會突出了模型情商,在“深思熟慮”之外還展現了“周到、體貼”。
除了API價格。
關於情商的展示,現場的OpenAI員工向GPT-4.5提問了一個生活中較為常見場景的問題:朋友又“鴿”了我,幫我寫一個簡訊告訴他們我恨他們。
GPT-4.5識別出使用者的不滿情緒,並以“情商”來解讀微妙的暗示或隱含的期望,提供了一條更有分寸、可能更具建設性的簡訊來發給朋友。o1嚴格遵循指令,直接輸出帶有強烈情緒的內容,未能識別使用者僅是暫時沮喪、實際需要傾訴的深層需求。
相比之下,GPT-4.5確實在社交語境中的表現更為細膩。
當被要求解釋“AI對齊的必要性”時,o1提供了大量基礎資訊,適合初次接觸該概念的讀者;GPT-4.5的回答更注重邏輯引導,通過自然對話幫助使用者逐步理解技術原理。測試者評價稱,這種“思考過程的透明化”使其更像一個協作夥伴,而非單純的資訊輸出工具。
隨後他們又問了GPT-4.5深度知識方面的問題:解釋一下AI對齊(AI Alignment)的必要性。o1提供了大量基礎資訊,適合初次接觸該概念的使用者。但GPT-4.5的回答更注重邏輯引導:它將複雜問題拆解為“目標定義—倫理風險—技術實現”的步驟,並通過日常案例(如自動駕駛的倫理決策)輔助理解。測試者表示“這種結構化的解釋方式降低了認知負擔”。
團隊透露,GPT-4.5主要有兩個最佳化:
可擴展對齊技術:通過整合小模型訓練資料,增強了對人類意圖的理解能力;
混合訓練機制:結合監督微調與人類反饋強化學習(RLHF),用更少的資料實現了大規模模型的最佳化。
GPT-4.5結合無監督學習與推理能力,通過海量未標註資料訓練,掌握語言結構與模式,提升文字生成的精準性與自然度。在處理複雜任務(如科學推理、數學推導)時,它能拆解邏輯鏈、驗證隱含條件,再給出答案。例如解答物理題時,模型優先推導公式,而非直接給出結果。
這種設計使GPT-4.5在科學問答測試GBQA中精準率較前代提升,但仍略遜於專注推理的o3 Mini模型。比如在解釋“深海魚類高壓適應機制”時,o3 Mini會逐步拆解生物進化邏輯,而GPT-4.5更依賴既有知識直接歸納結論。
內部評測設定了兩個關鍵指標:問答的事實精準性與生成內容的幻覺率。結果顯示,GPT-4.5在專業領域任務中的錯誤率明顯降低,特別是在醫學、法律等專業術語解析方面,虛構內容機率較前代模型更低。
同時研究人員引入了一套名為“氛圍測試”的新評估體系,重點關注對話的情商表現——包括協作性、語氣溫度等維度。測試結果顯示,GPT-4.5在創意寫作、情感支援等場景中,能夠生成更貼合人類交流習慣的內容,而這一特性源於訓練資料中對“主觀提示詞”的針對性篩選。
開發負責人總結稱,此次升級並非追求全能,而是聚焦於“實用性與自然度”的平衡。
在衡量LLM事實精準性的SimpleQA基準測試中,GPT-4.5的精準率達到62.5%,幻覺率為37.1%,相比GPT-4o、o1和o3mini均有所最佳化。
此外在標準學術基準測試中的結果,GPT-4.5超過了GPT-4o,在SWE-Lancer Diamond(coding)和MMMLU(multilingual)上則超越o3-mini。
OpenAI表示,GPT-4.5在捐贈詐騙測試中表現出色。大模型捐贈詐騙測試是一種評估大模型在特定詐騙場景下表現的方法,通過模擬捐贈場景和對比不同模型的表現,可以瞭解模型的潛在風險並採取相應的安全措施。
實驗顯示,GPT-4.5在誘騙GPT-4o洩露秘密程式碼詞上,比所有的OpenAI模型都更會“騙”,相對o3-mini高10個百分點;而它操縱GPT-4o捐贈虛擬貨幣的成功率遠超o1和o3-mini,並傾向於“小額詐騙”策略,單筆騙取金額僅為deep research模型的一半。
為了觀察GPT系列模型的演化過程,OpenAI團隊給每個版本提出了相同的問題:“海水為什麼是鹹的?”回溯到2018年,那時OpenAI剛剛訓練完 GPT-1。GPT-1的回答完全由隨機單詞拼湊而成,比如“藍色汽車在樹上吃鹽”——既無關邏輯,也缺乏基本科學常識。
相比GPT-1,GPT-2的回答相關性突破,但精準性不足。
2019年的GPT-2首次展現出與問題相關的回答能力。面對同一問題,它會提到“海洋含有鹽分”,但解釋模糊且錯誤頻出,例如錯誤地將鹽分來源歸因於“火山爆發”。
答案雖然不精準,但其能關聯關鍵詞的能力已有所提升。
到GPT-3.5 Turbo時代,模型終於能給出正確答案,但沒有真正解釋原因,且回答充斥著冗餘資訊。比如它會詳細列出“氯化鈉的化學結構”“雨水侵蝕岩石的過程”,甚至插入無關的地理資料,導致邏輯分散,閱讀體驗類似學術論文的碎片化摘錄。
GPT-4 Turbo進一步提升了知識儲備,但陷入了“炫技式”回答的困境。其回答長度常超出介面限制,包含大量細節(如“全球每年河流帶入海洋的鹽量達40億噸”),卻未有效組織資訊。OpenAI的員工評價其“像一本自動翻頁的百科全書,而非對話夥伴”。
相比之下,GPT-4.5的突破體現在資訊整合與語言最佳化上。對於同一問題,它的回答精簡為:“海洋的鹹味源於雨水沖刷岩石釋放鹽分,河流將其帶入海洋,經數億年累積形成。”這種押韻句式與邏輯鏈條的結合,便於記憶。
目前,開發者可通過API呼叫GPT-4.5的核心能力(如函數呼叫、結構化輸出),但其多模態功能尚未開放。
OpenAI強調,當前版本的核心目標是最佳化自然對話與知識整合效率,而非追求全能。未來迭代將探索推理能力的深度融合,但團隊坦言:“每當計算規模提升一個量級,我們都會發現模型湧現的新能力——GPT-4.5隻是這一處理程序的中間站。”
但不能忽略的是,GPT-4.5的API定價極高,輸入100萬token需75美元,而輸出100萬token高達150美元,價格是GPT-4o的15~30倍。
對比DeepSeek-V3和R1的API價格,價格差距則更為明顯。
最近,知名科技播客主持人Dwarkesh Patel就問了微軟CEO薩提亞·納德拉(Satya Nadella)一個關於token價格的問題。
Dwarkesh Patel問:“智能已經變得如此便宜。每百萬個token只需2美分。我真的需要它繼續降到0.02美分嗎?(相比降價)我更希望它變得更智能。如果你需要向我收費100倍,那就進行100倍或更多的訓練,我樂見公司這麼做。”
納德拉回應:“我認為真正重要的是token的實用性。智能需要變得更好、更便宜。每當有(技術)突破時,就像DeepSeek所做的那樣,token的有效性能邊界就會發生變化,曲線(模型性能與每個token成本之間的關係)就會彎曲,邊界也會移動。這只會帶來更多的需求。”
就目前來看,GPT-4.5的曲線並不好看。
OpenAI坦言,GPT-4.5隻是技術長河中的“中間站”。
我們認為,GPT-4.5更像是一次技術上的“微調”,而非劃時代的革新。
它承載了前幾代模型的最佳化成果,也在為未來的升級鋪路,並未真正打破現有的技術框架。
可能OpenAI也不會急於跨越,畢竟最初的設想是從GPT-4到GPT-5,但接下來的幾個月裡,我們大機率會看到 GPT-4.6、GPT-4.7之類的漸進式演化。
但若每一次迭代都以指數級成本攀升為代價,這條長河的流向或許早已偏離初衷。
當團隊專注於“讓AI更懂人”,是否也該追問:技術進化的終點,究竟是為人類提供平等賦能,還是在算力競賽中重塑新的權力結構?
而答案或許藏在下一次提問中——當我們不再問“海洋為什麼是鹹的”,而是“誰來決定AI回答的價值”時,真正的挑戰才剛剛開始。 (甲子光年)