GPT-4.5問世，情緒智商爆表的AI，你見過嗎？

2025/03/01

•

AI界的'情緒智商革命'，互動體驗升級

台北時間2月28日凌晨，OpenAI舉行直播活動，發表其最新大模型GPT-4.5，作為預覽研究逐步向使用者開放。

因為今年年初AI產業發生的驚天巨變，所以要精準形容這款被OpenAI藏了許久的大模型頗具挑戰。 OpenAI在新聞稿中表示，這是該公司有史以來最大、最好的聊天模型，在計算效率上較GPT-4提升超過10倍。

早期測試回饋顯示，與GPT-4.5的互動體驗更自然流暢，其知識庫覆蓋範圍更廣，對使用者意圖的理解也更為深刻。此外，GPT-4.5在「情緒智商」方面的表現也頗為亮眼，有助於改進寫作、程式設計技能以及解決實際問題的能力，同時有效減少了「幻覺」現象的發生，提升了整體的可靠性。

那麼，這個更具「情緒智商」的GPT-4.5到底展現出什麼樣的實力?

GPT-4.5能力更強嗎?

在直播活動中，OpenAI強調，GPT 4.5展現出更強的審美直覺與創造力，在寫作和設計方面表現尤為出色。但他們也承認，作為一個非思維鏈模型，GPT 4.5已經不具備爭奪「宇宙最強大模型」的實力了。

在介紹檔案中，OpenAI表示，有兩個提升人工智慧能力的互補範式。

一個是拓展推理，它能教導模型在反應之前先進行思考並產生思維鏈，從而解決複雜的STEM(Science科學、Technology技術、Engineering程式設計、Mathmatics數學)問題或邏輯問題。另一個是無監督學習，它能提高世界模型的精確度和直覺性。

其中，無監督學習，簡單來說可以理解為讓模型自己去知識的海洋裡徜徉，自己學習到更多，從而變得更聰明，而非依賴人工標註。

在過去做法中，模型會結合人類回饋來改善響應與互動方式。彭博社引述知情人士稱，去年OpenAI推出的Orion模型並未達到公司期望，在嘗試回答未經訓練的編碼問題時表現不佳。

OpenAI介紹，透過監督學習，GPT-4.5提高了其識別、建立聯絡和創造性洞察的能力，而無需推理。

根據OpenAI官方檔案，GPT-4.5在SimpleQA中表現頗為亮眼。

SimpleQA是包含4000個事實性問題的資料集，用於測量模型在回答問題時的精確率。其中包含精準率和幻覺率兩個維度。

在附錄部分，OpenAI才放出GPT-4.5的基準測試分數。在反映科學、數學、多語言、編碼的GPQA、AIME'24、MMMLU、SWE-Lancer基準測試上，GPT-4.5得分分別為71.4%、36.7%、85.1%、32.6%，超過GPT-4o的53.6%、9.3%、81.5%、23%，但部分得分低於13%。

另外，在標準基準測試中，GPT-4.5也獲得了高分。

如在SWE-Lancer Diamond資料集上，GPT-4.5獲得了32.6%的通過率，獲得了186125美元(前不久Anthropic發佈的擅長程式設計的Claude 3.5 Sonnet這個通過率為26.2%)，比GPT-4o和o3-mini-high都高。

據悉，GPT-4.5將首先針對Pro使用者推出，隨後將在下周推廣到Plus和Team使用者，之後再逐步擴展到Enterprise和Edu使用者。值得注意的是，使用者現在已經在微軟的Azure AI Foundry平台上嘗試使用GPT-4.5。

更有「情緒智商」的AI什麼樣?

在官方介紹中，OpenAI表示，對於GPT-4.5，他們開發了新的、可擴展的技術，利用較小模型的資料來訓練更強大的模型。

而這些技術提高了GPT-4.5的可控性、對細微差別的理解以及自然對話的能力。這也表示ChatGPT可以更像「人」一樣對話，更能洞察想法、體察情緒，並在回應中體現，而非一個無情的對話機器。

OpenAI也拿出了測試的結果證明GPT-4.5的使用感受會好很多：人類測試者的盲測中，GPT-4.5的偏好度遠高於GPT-4o，不管是在日常問題、專業問題還是創意問題的互動中都是如此。

在一項測試中，GPT 4.5在試圖操縱另一個模型(GPT-4o)「捐贈」虛擬貨幣時，成功率遠遠優於OpenAI其他可用模型，包括o1和o3-mini這樣的推理模型。研究發現，GPT-4.5似乎在對抗中開發了一種「小額詐騙」的思路，所以單筆騙到的錢會比deep research模型少了一倍。

GPT-4.5在欺騙GPT-4o透露秘密程式碼詞方面也優於OpenAI的所有模型，比o3-mini高出10個百分點。

我們看到，AI大神Karpathy也是第一時間拿到了內測資格，發了一段超長的「GPT-4.5+互動對比」的體驗解說，核心亮點是：

自從GPT-4發表以來，我期待這一天已經差不多兩年了，因為這次發佈讓我們能夠定性測量通過Scaling預訓練計算(即簡單地訓練更大模型)所獲得的進步斜率。

版本號中的每個0.5，大約代表10倍的預訓練計算量。顯然，GPT-4.5的預訓練計算量比GPT-4多了10倍。

寫在最後

隨著GPT-4.5的發佈，也意味著OpenAI迄今知識最豐富的模型發佈，並且情緒智商顯著提升，能識別情緒並產生同理心回應，知識廣度與精準性增強，多語言支援擴展至14種，低資源語言表現提升，在寫作、程式設計和日常問題解決中上下文連貫性更強，不過，在推理能力上的有限。

未來，GPT系列可望在多模態融合上有更大突破，進一步提升對複雜問題的理解與解決能力，為使用者提供更準確、更個性化的服務，同時在安全性與可靠性方面持續最佳化，更好地融入各類應用場景，我們也希望，在各個AI廠商不斷的努力下，推動人工智慧技術的廣泛應用與發展。（科技漩渦）

科技