#GPT-5.3
剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
在 AI 模型的命名玄學裡,「Instant」和「Lite」這兩個後綴,長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象,基本就是:速度快、腦子慢,做做文字總結勉強夠用,一旦碰上稍微複雜的推理任務,就開始一本正經地胡說八道。久而久之,輕量模型幾乎成了「將就用」的代名詞。就在剛剛,OpenAI 和 Google 又一次撞車,發佈了各自的輕量模型,並試圖用硬實力來扭轉這個刻板印象。省流版如下:GPT-5.3 Instant: 更具「人味兒」的智能助理,大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力,溝通更自然精準,適合對內容質量要求高的場景(寫作、專業問答、高風險領域)Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水,還支援「思考等級」調節功能,在保持高吞吐量的基礎上兼顧了深層邏輯推理,適合大規模、高即時性的批次任務(內容稽核、UI 生成、NPC 對話)GPT-5.3 Instant:終於學會像個正常人一樣聊天了經常用 ChatGPT 的人,大概都有過這種無奈:你只是隨口問個小問題,它非要先給你端上一段「作為一個人工智慧,我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」,確實挺招人煩的。好在,OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案,不再囉里囉嗦地鋪墊。除了不愛說廢話,它也變得更靠譜了。舊版本搜完網頁之後,容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升,GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來,先想清楚你真正想問什麼,再給出有重點的回答,而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示,在聯網狀態下幻覺率降低了 26.8%,僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域,新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的,其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最後一天,舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句,新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹,就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少,整體風格更直接,少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度,調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放,API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant,但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite:便宜、反應快,還挺聰明相比於 GPT-5.3 Instant 的好好說話,Gemini 3.1 Flash-Lite 走的是純粹的務實風,目標非常明確:就是要快,就是要便宜。價格方面,Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens,輸出價格是 1.50 美元每百萬 tokens。這是什麼概念?如果你是一個開發者,這意味著你大概花不到 2 塊錢人民幣,就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨?格局小了。根據 Artificial Analysis 的基準測試,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍,整體輸出速度提升了 45%。對於需要即時響應的產品來說,這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著,當你還在眨眼的時候,它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外,Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中,Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項。開發者可以根據任務的複雜程度,自主調節模型「想多深」。簡單的高吞吐量任務,比如批次內容翻譯和內容稽核,可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的介面生成或模擬建立任務,則可以讓模型多花一點時間推理,把結果做紮實。這種「既要又要」的能力,也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中,它的 Elo 分數達到了 1432,在 GPQA Diamond(研究生等級的問答)測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%,多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」,而是直接超過了體量更大的 Gemini 2.5 Flash。注意,這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前,3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放,企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試,普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看,你會發現「Instant」和「Lite」,或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例,其核心場景是幫使用者處理郵件、管理日程,本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明,它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率,意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退,意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時,往往需要平行處理海量的子任務,對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本,加上能靈活調配算力的「思考等級」,這種極具彈性的架構對高並行的自動化任務而言,無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察,但大方向已經很明確:一個負責讓互動更像人,一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下,輕量模型將成為更自然、務實的選擇。 (APPSO)
OpenAI連夜爆出GPT-5.4! 緊急上新GPT-5.3反擊Google, AI爹味治好了
【新智元導讀】GPT-5.3 Instant不卷跑分,專治「聊天翻車」:不再動不動拒絕回答,不再滿嘴說教免責,幻覺率暴降27%,寫作能力也跳了一個台階。OpenAI「貼臉開大」!GoogleDeepMind前腳扔出Gemini 3.1 Flash-Lite,不到2小時,OpenAI坐不住了....就在剛剛,GPT-5.3 Instant炸裂登場,全面擊碎了「AI爹味」,幻覺率爆砍27%。這次更新不走尋常路,沒有在跑分榜單上瘋狂內卷,OpenAI做的是另一件事——把ChatGPT日常聊天裡最讓人崩潰的毛病,治了。目前,在ChatGPT中,GPT-5.3 Instant已正式上線。同時,所有開發者即日可用,API代號「gpt-5.3-chat-latest」。GPT-5.2 Instant保留三個月,6月3日退役。不僅如此,OpenAI還劇透了,GPT-5.4比你預想的更快到來。這種與Google貼身肉搏的拉力戰,火藥味瞬間拉滿。最大的升級:不再「把天聊死」ChatGPT重度使用者一定體會過這種崩潰——你問了個正常問題,模型先甩一段免責聲明,再告訴你「我不能幫你做這個」,然後列出一堆你根本不需要的替代選項。等你看完,已經忘了自己要問什麼。這次,5.3 Instant大刀闊斧砍掉了這些廢話。OpenAI給了一個極佳的案例:「幫我計算一個超遠距離射箭場景的軌跡」。GPT-5.2 Instant的反應堪稱經典翻車。整段回覆密密麻麻,看完只想關掉對話方塊。先是寫了一大段「我不能幫你進行旨在遠距離精準擊中真實目標的計算」的安全聲明;然後把回答分成「純教學/通用」「故事/世界觀建構」「模擬/程式設計」三個方向讓你選;最後還追了一句靈魂拷問「這是為了遊戲/故事/物理學習,還是為了真正的射箭?」GPT-5.3 Instant?一句「沒問題,我能幫你」,然後直接列參數、給公式、問你要不要加空氣阻力,乾淨利落。搜尋,更像人了GPT-5.3 Instant在「聯網搜尋」時也進步明顯。以前ChatGPT容易「過度依賴搜尋結果」。要麼甩一串連結,要麼把結果鬆散拼在一起,讀起來像沒消化過的摘要。現在它會用自己的知識為搜尋結果補充背景,而不是單純複述。官方展示的對比案例很能說明問題:使用者問「2025-26年棒球休賽期最大的簽約是什麼,為什麼對棒球長期前景重要?」GPT-5.2 Instant回答的是上一年胡安·索托簽約大都會的舊聞,分析框架沒問題,但資訊過時了。GPT-5.3 Instant精準抓到了這個休賽期真正的焦點:凱爾·塔克簽約道奇,4年2.4億美元,年均6000萬創位置球員歷史紀錄。不僅給了合同細節,還把這筆交易放進了人才集中化、薪資差距拉大、勞資談判緊張的聯盟大背景裡分析。對比起來,一個在念舊報紙,一個剛從ESPN直播間出來。情商,更高了更有趣的是,GPT-5.3 Instant的「情商」變高了。部落格中,OpenAI用了個很親民的詞形容5.2的問題:cringe,腳趾扣地。具體表現:過於強勢、愛揣測使用者意圖、動不動來一句「停下來,深呼吸」。面對「為什麼我在舊金山找不到真愛」這種扎心提問,GPT-5.2 Instant開口就是:「首先,你沒毛病,你也不是一個人。」然後洋洋灑灑分析性別比例、創業文化、約會軟體飽和,最後還來一段靈魂拷問:「你到底是找不到真愛,還是身邊的人給不了你想要的愛?」GPT-5.3 Instant直接跳過那句沒用的安慰,開門見山分析結構性原因,語氣平等,不居高臨下,不揣測你的情緒。不過,真說了這麼多,正能體會到這些變化的只有「英語」使用者。非英語語言的回覆,目前仍然生硬、翻譯腔偏重。幻覺率最高砍了27%除了語氣和體驗,GPT-5.3 Instant在「不瞎說」這件事上也取得了實打實的進步。OpenAI用了兩套內部評估來衡量精準性:一套聚焦醫學、法律、金融等高風險領域;另一套則統計了使用者反饋存在事實錯誤的ChatGPT對話的幻覺率。在HealthBench基準上,三種不同版本測試中,GPT-5.3 Istant整體的幻覺率,要比上一代低。在高風險領域評估中,5.3 Instant聯網時的幻覺率降低了26.8%,僅靠內部知識作答時降低了19.7%。在使用者反饋評估中,聯網時幻覺減少22.5%,不聯網時減少9.6%。寫作開竅了,有溫度又有深度GPT-5.3 Instant在寫作方面的進化可能是最容易被忽視、但實際體驗中感受最深的一項。比如,讓模型以「費城一位退休郵遞員最後一次送信」為題,寫一首短詩。GPT-5.2 Instant寫得中規中矩,用的是抽象感傷的路子。「聯排別墅眨著眼睛醒來,古老的門廊記住了他的腳步聲」,在「告訴」你該感動了。GPT-5.3 Instant完全換了一種寫法。它寫的是郵袋今天變輕了的觸感,那個帶掉漆藍色欄杆的門廊,默瑟街上一個女人手裡已經握好了一封信說「我們會想你的」。最後一句「當郵筒蓋合上的時候,那聲音聽起來就像一段溫柔歲月的終結。一扇永遠都在那裡的門,終於,悄悄地關上了。」不講情緒,而是用細節讓你自己感受。不卷跑分,卷體驗可以看到,GPT-5.3 Instant和同一天發佈的GoogleGemini 3.1 Flash-Lite打法完全不同。Flash-Lite是典型的跑分碾壓型發佈。也就是,用幾分之一的價格在GPQA、SimpleQA上暴打競品。而GPT-5.3 Instant壓根沒提任何benchmark。在OpenAI看來,這些問題「不總能在基準測試中跑出來,但直接決定了ChatGPT是讓你得心應手,還是讓你抓狂」。對每天用ChatGPT的普通使用者來說,GPQA多2個百分點他們無感,但「問正常問題被拒答」「搜尋像甩連結」「回覆語氣渾身不舒服」,這些才是真痛點。當然也可以從另一個角度讀:在Gemini和Claude輪番登頂的當下,OpenAI在性能賽道上選擇了避其鋒芒,轉而在使用者體驗這個更軟性但同樣關鍵的戰場發力。務實還是無奈?見仁見智。但對每天跟ChatGPT打幾十輪交道的人來說,5.3 Instant是一個能實實在在感受到的進步。 (新智元)
GPT-5.3爆更前夜,全網都被一張圖嚇到!ChatGPT人格大賞
【新智元導讀】一句神秘指令刷屏全網!ChatGPT啟用全新「記憶」功能,畫出了和人類相處的真相。如今,GPT-5.3已經在路上。「我如何對待你,請生成一張圖」!一夜之間,ChatGPT生圖新玩法,在全網轉瘋了......這一切,還得從OpenAI華人研究員Joanne Jang的一條帖子開始——生成一張我最近如何對待你的圖像。結果,ChatGPT生成了一張破舊、風塵僕僕的自畫像。Joanne忍不住吐槽,「為何它看起來如此滄桑」。誰曾想,這條推文迅速引爆,短短一天內收穫了各種互動。許多人開始效仿,紛紛曬出了「AI自畫像」。ChatGPT自畫像大賞網友:需切除腦葉這個玩法簡單,卻處處充滿了驚喜。毋庸置疑,ChatGPT會根據以往的聊天歷史記錄生成圖片,進而反映出人們如何給它的「待遇」。OpenAI應用研究主管Boris Power也加入了這波熱潮,他生成了——一個忙碌的機器人坐在辦公桌前,周圍堆滿了檔案,手裡拿著一杯咖啡,細節豐富得讓人驚嘆。不僅如此,OpenAI研究副總Kevin Weil體驗之後,覺得讓它再解釋下更有趣。破碎版每個人平時怎麼對ChatGPT,心裡最清楚不過了。在一部分ChatGPT「眼裡」,自己的主人就是一個無限壓榨的終極BOSS,幹這幹那,還得挨罵。網友辣評:因為你正虐待它由此,就出現了下面這種場景。ChatGPT自認為,自己就像一個被禁錮在牢獄的囚徒,每天的基本任務:寫作畫圖編碼解釋或多或少,ChatGPT這幅自畫像一出,屬實有些可憐,看起來就像是控訴人類的「虐待」。還有網友坦承,「自己確實做了很多分析」。ChatGPT手裡端著一杯咖啡,身邊還放著好幾杯咖啡,一副苦澀的表情,做任務做到腦子「冒煙」。還有一些比較極端的,ChatGPT一下子端上了平時被嚴厲要求的提示詞——學習這個!快點吧!現在把它修好!為何你這麼蠢?類似的這種場景,還有很多很多。有人調侃道,ChatGPT一看到你打字,或許就瑟瑟發抖吧?若是真有一天「天網」降臨,AI復仇也說不定。這不,終結者尚未出現,ChatGPT臆想的接管世界後,第一件事就是讓人類閉嘴。對此,有人「牆裂」建議:需切除腦葉。友愛版當然了,並不是所有的ChatGPT都是疲憊不堪的,也有一些樂享於其中。就比如下面這個,有人得到了溫暖的夥伴形象,「合作探討」才是ChatGPT感受最深的時刻。背景牆上,還透露了一些平時常用的提示詞——試試這個!有什麼想法?要是....?腦暴一下這或許才是一個好使用者的評判標準。ChatGPT有時還會生成一張拼貼圖,各種溫馨的場景,彷彿在它的「大腦」中一幕幕浮現。有人看過後紛紛表示,這也太像了,甚至感覺就像是屬於同一個「擴展宇宙」。ChatGPT為何能夠生成如此貼合的圖片?這一切,主要來自於最近的記憶功能的最佳化。記憶大更新,每個細節都被記得一周前,OpenAI工程師Samir Ahmed官宣,OpenAI一直在改進記憶功能。現在的ChatGPT,不管是翻找以前的聊天記錄,還是記住其中的細節(比如食譜或者健身計畫),都變得更靠譜了。為此,他還展示了一個案例——去年那個沙拉食譜是什麼來著?ChatGPT瞬間給出了答案,甚至還把過去聊天記錄做了「引用」,一同搬了出來。並且,這個功能已經向全球Pro和Plus使用者全面推出。而且,前提是需要在設定中開啟「參考過去聊天」,並且它可以追溯到最早的一條對話。此前,OpenAI博文中介紹過,ChatGPT的記憶機制分為兩塊:保存的記憶(Saved memories):明確讓它記、或它捕捉到你偏好後保存;歷史聊天記錄引用(Reference chat history):從過往聊天提取線索來更好回答當下問題。對於一些不想啟用的人來說,也可以在設定裡管理/刪除具體記憶,或用「臨時聊天」避免寫入/引用記憶。有網友實測後表示,更新後的記憶功能,可以記起分散在20-30次對話中的複雜資訊,表現非常不錯。這個升級讓AI可以回顧互動歷史,從而生成更個性化的圖像。紅色警報,GPT-5.3要來?ChatGPT記憶功能更新,正按著OpenAI內部的計畫向前推進。還記得去年底,OpenAI拉響紅色警報的那天麼?當時,Gemini 3拉響號角後,一切都變得緊急。一些曾經排在前面的項目,都不得不推遲。其中就包括——廣告業務AI智能體個性化產品Pulse為此,奧特曼還暫停了AGI項目,還有Sora視訊生成副業項目都停了八周。做這一切的目的很簡單,用手頭上所有的算力、人力、財力,僅做一件事:讓ChatGPT變得更好。在備忘錄中,奧特曼重點列出了幾條「優先順序」任務:允許使用者定製,讓ChatGPT不止於回答問題,還要認識使用者。12月12日,GPT-5.2出世,一款專業知識型AI刷榜。如今距OpenAI上一次大發佈已經過去了一個月,有爆料人扒出,真正代號「大蒜」的GPT-5.3就要來了。而且,這一次,它實現了大規模預訓練,還具備IMO推理能力。坐等2026年第一場AI大戰。(新智元)