#GPT-5.4
OpenAI連夜爆出GPT-5.4! 緊急上新GPT-5.3反擊Google, AI爹味治好了
【新智元導讀】GPT-5.3 Instant不卷跑分,專治「聊天翻車」:不再動不動拒絕回答,不再滿嘴說教免責,幻覺率暴降27%,寫作能力也跳了一個台階。OpenAI「貼臉開大」!GoogleDeepMind前腳扔出Gemini 3.1 Flash-Lite,不到2小時,OpenAI坐不住了....就在剛剛,GPT-5.3 Instant炸裂登場,全面擊碎了「AI爹味」,幻覺率爆砍27%。這次更新不走尋常路,沒有在跑分榜單上瘋狂內卷,OpenAI做的是另一件事——把ChatGPT日常聊天裡最讓人崩潰的毛病,治了。目前,在ChatGPT中,GPT-5.3 Instant已正式上線。同時,所有開發者即日可用,API代號「gpt-5.3-chat-latest」。GPT-5.2 Instant保留三個月,6月3日退役。不僅如此,OpenAI還劇透了,GPT-5.4比你預想的更快到來。這種與Google貼身肉搏的拉力戰,火藥味瞬間拉滿。最大的升級:不再「把天聊死」ChatGPT重度使用者一定體會過這種崩潰——你問了個正常問題,模型先甩一段免責聲明,再告訴你「我不能幫你做這個」,然後列出一堆你根本不需要的替代選項。等你看完,已經忘了自己要問什麼。這次,5.3 Instant大刀闊斧砍掉了這些廢話。OpenAI給了一個極佳的案例:「幫我計算一個超遠距離射箭場景的軌跡」。GPT-5.2 Instant的反應堪稱經典翻車。整段回覆密密麻麻,看完只想關掉對話方塊。先是寫了一大段「我不能幫你進行旨在遠距離精準擊中真實目標的計算」的安全聲明;然後把回答分成「純教學/通用」「故事/世界觀建構」「模擬/程式設計」三個方向讓你選;最後還追了一句靈魂拷問「這是為了遊戲/故事/物理學習,還是為了真正的射箭?」GPT-5.3 Instant?一句「沒問題,我能幫你」,然後直接列參數、給公式、問你要不要加空氣阻力,乾淨利落。搜尋,更像人了GPT-5.3 Instant在「聯網搜尋」時也進步明顯。以前ChatGPT容易「過度依賴搜尋結果」。要麼甩一串連結,要麼把結果鬆散拼在一起,讀起來像沒消化過的摘要。現在它會用自己的知識為搜尋結果補充背景,而不是單純複述。官方展示的對比案例很能說明問題:使用者問「2025-26年棒球休賽期最大的簽約是什麼,為什麼對棒球長期前景重要?」GPT-5.2 Instant回答的是上一年胡安·索托簽約大都會的舊聞,分析框架沒問題,但資訊過時了。GPT-5.3 Instant精準抓到了這個休賽期真正的焦點:凱爾·塔克簽約道奇,4年2.4億美元,年均6000萬創位置球員歷史紀錄。不僅給了合同細節,還把這筆交易放進了人才集中化、薪資差距拉大、勞資談判緊張的聯盟大背景裡分析。對比起來,一個在念舊報紙,一個剛從ESPN直播間出來。情商,更高了更有趣的是,GPT-5.3 Instant的「情商」變高了。部落格中,OpenAI用了個很親民的詞形容5.2的問題:cringe,腳趾扣地。具體表現:過於強勢、愛揣測使用者意圖、動不動來一句「停下來,深呼吸」。面對「為什麼我在舊金山找不到真愛」這種扎心提問,GPT-5.2 Instant開口就是:「首先,你沒毛病,你也不是一個人。」然後洋洋灑灑分析性別比例、創業文化、約會軟體飽和,最後還來一段靈魂拷問:「你到底是找不到真愛,還是身邊的人給不了你想要的愛?」GPT-5.3 Instant直接跳過那句沒用的安慰,開門見山分析結構性原因,語氣平等,不居高臨下,不揣測你的情緒。不過,真說了這麼多,正能體會到這些變化的只有「英語」使用者。非英語語言的回覆,目前仍然生硬、翻譯腔偏重。幻覺率最高砍了27%除了語氣和體驗,GPT-5.3 Instant在「不瞎說」這件事上也取得了實打實的進步。OpenAI用了兩套內部評估來衡量精準性:一套聚焦醫學、法律、金融等高風險領域;另一套則統計了使用者反饋存在事實錯誤的ChatGPT對話的幻覺率。在HealthBench基準上,三種不同版本測試中,GPT-5.3 Istant整體的幻覺率,要比上一代低。在高風險領域評估中,5.3 Instant聯網時的幻覺率降低了26.8%,僅靠內部知識作答時降低了19.7%。在使用者反饋評估中,聯網時幻覺減少22.5%,不聯網時減少9.6%。寫作開竅了,有溫度又有深度GPT-5.3 Instant在寫作方面的進化可能是最容易被忽視、但實際體驗中感受最深的一項。比如,讓模型以「費城一位退休郵遞員最後一次送信」為題,寫一首短詩。GPT-5.2 Instant寫得中規中矩,用的是抽象感傷的路子。「聯排別墅眨著眼睛醒來,古老的門廊記住了他的腳步聲」,在「告訴」你該感動了。GPT-5.3 Instant完全換了一種寫法。它寫的是郵袋今天變輕了的觸感,那個帶掉漆藍色欄杆的門廊,默瑟街上一個女人手裡已經握好了一封信說「我們會想你的」。最後一句「當郵筒蓋合上的時候,那聲音聽起來就像一段溫柔歲月的終結。一扇永遠都在那裡的門,終於,悄悄地關上了。」不講情緒,而是用細節讓你自己感受。不卷跑分,卷體驗可以看到,GPT-5.3 Instant和同一天發佈的GoogleGemini 3.1 Flash-Lite打法完全不同。Flash-Lite是典型的跑分碾壓型發佈。也就是,用幾分之一的價格在GPQA、SimpleQA上暴打競品。而GPT-5.3 Instant壓根沒提任何benchmark。在OpenAI看來,這些問題「不總能在基準測試中跑出來,但直接決定了ChatGPT是讓你得心應手,還是讓你抓狂」。對每天用ChatGPT的普通使用者來說,GPQA多2個百分點他們無感,但「問正常問題被拒答」「搜尋像甩連結」「回覆語氣渾身不舒服」,這些才是真痛點。當然也可以從另一個角度讀:在Gemini和Claude輪番登頂的當下,OpenAI在性能賽道上選擇了避其鋒芒,轉而在使用者體驗這個更軟性但同樣關鍵的戰場發力。務實還是無奈?見仁見智。但對每天跟ChatGPT打幾十輪交道的人來說,5.3 Instant是一個能實實在在感受到的進步。 (新智元)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)