#GPT
摩根士丹利發出警告:AI 突破即將到來,90% 的人還沒準備好
摩根士丹利發出警告:AI 突破即將到來,90% 的人還沒準備好去年,一個只有 3 個人的 AI 創業公司,擊敗了擁有 500 人團隊的行業巨頭——而他們的秘密武器,只是一個 AI 模型。這不是科幻小說,而是正在發生的現實。近日,摩根士丹利發佈了一份震撼報告:2026 年上半年,AI 將迎來一次"讓所有人震驚"的突破。而大多數人,對即將到來的變化毫無準備。10 倍算力 = 2 倍智能,這個公式正在改變一切馬斯克在最近的採訪中透露了一個驚人的規律:給大語言模型增加 10 倍的算力,就能讓它的"智能"翻倍。聽起來很抽象?看看資料就知道了。OpenAI 剛發佈的 GPT-5.4 "Thinking" 模型,在 GDPVal 基準測試中得分 82%——在專業任務上匹配或超過人類專家的比例達到 82%。而這只是開始。摩根士丹利的報告指出,美國頂級 AI 實驗室正在以前所未有的速度積累算力。這些實驗室的高管們私下告訴投資者:接下來的進展會"震驚"所有人。更可怕的是,這個增長曲線還在加速。電力危機:智能爆炸的代價但天下沒有免費的午餐。摩根士丹利的"智能工廠"模型預測,到 2028 年,美國將面臨9 到 18 吉瓦的電力缺口——這相當於需要的電力中有 12% 到 25% 無法滿足。AI 公司們等不及電網升級了。他們正在:把位元幣礦場改造成高性能計算中心啟動天然氣渦輪機部署燃料電池經濟學家們發現了一個驚人的"15-15-15"動態:15 年資料中心租約,15% 的收益率,每瓦特創造 15 美元的淨價值。這是一場算力軍備競賽,而電力就是彈藥。工作崗位正在消失,但不是你想的那樣AI 帶來的衝擊,已經不是"未來會怎樣",而是"現在正在發生"。摩根士丹利的報告直言不諱:"變革性 AI"將成為強大的通縮力量,因為 AI 工具能以極低的成本複製人類工作。報告指出,許多公司高管已經因為 AI 效率提升而執行大規模裁員。但這裡有個反常識的現象:不是所有人都會失業,而是那些不會用 AI 的人會被淘汰。OpenAI CEO Sam Altman 描繪了一個更極端的未來:只有 1 到 5 個人的全新公司,能夠擊敗大型傳統企業。xAI 前聯合創始人 Jimmy Ba 甚至預測,到 2027 年上半年,可能會出現"遞迴自我改進循環"——AI 能夠自主升級自己的能力。你該怎麼辦?3 個立即行動的方向面對這場智能革命,普通人不是沒有機會,而是要抓住窗口期。1. 把 AI 當工具,不是威脅那些月入 10 萬的 00 後,不是因為他們比你聰明,而是因為他們更早學會了用 AI 放大自己的能力。寫作、設計、程式設計、資料分析——幾乎所有知識工作,都可以用 AI 提速 3-10 倍。關鍵不是 AI 會不會取代你,而是會用 AI 的人會不會取代你。2. 關注"AI + 你的領域"AI 不會直接取代醫生、律師、設計師,但會讓 1 個會用 AI 的醫生頂 10 個不會用的。找到你所在行業最前沿的 AI 工具,花一個周末學會它。這可能是你未來 5 年最重要的投資。3. 小而美的時代來了如果 1-5 個人的公司能擊敗 500 人的巨頭,那麼個人創業的門檻正在史無前例地降低。你不需要融資、不需要大團隊,只需要一個好想法 + AI 工具 + 執行力。寫在最後摩根士丹利的報告用了一個詞來形容未來:"純粹的智能,由算力和電力鍛造而成,正在成為這個時代的硬通貨"。這場爆炸來得比幾乎所有人預想的都要快。2026 年上半年,就是現在。你準備好了嗎? (略知一二派大星)
Fortune雜誌—OpenAI發佈其最強模型GPT-5.4,直指Anthropic核心市場
OpenAI發佈了新一代人工智慧模型GPT-5.4。公司稱,這是其迄今為止面向專業場景能力最強的人工智慧系統。該模型融合了高級推理能力、程式設計能力以及自主操作電腦和軟體的功能,使企業級人工智慧市場的競爭陷入白熱化,而這一領域此前一直是Anthropic的優勢陣地。OpenAI首席執行長薩姆·奧爾特曼。圖片來源:Kyle Grillot/Bloomberg via Getty Images新模型整合了OpenAI此前分散在不同模型中的多項能力,整合了公司領先程式設計模型GPT-5.3-Codex的程式設計能力、更強的推理能力,以及模型能夠自主在桌面、瀏覽器和軟體應用之間操作的智能體能力。該模型於3月5日向ChatGPT Plus、Team和Pro訂閱使用者推出,同時通過公司的API開放。針對需要處理複雜任務、追求更高性能的使用者,OpenAI還提供了更強版本GPT-5.4 Pro。在發佈模型的同時,OpenAI還宣佈推出Excel和Google Sheets版ChatGPT(測試版)。該版本將ChatGPT直接嵌入電子表格中,可以用於建構、分析並更新複雜的財務模型。公司還發佈了一系列新的ChatGPT應用整合,包括FactSet、MSCI、Third Bridge和穆迪(Moody’s),旨在讓團隊能夠將市場資料、公司資料以及內部資料整合到同一工作流程中。此舉也讓OpenAI與競爭對手Anthropic展開了更直接的較量。Anthropic在2025年7月推出了面向金融行業的“Claude金融服務版”(Claude for Financial Services)產品,並在當年晚些時候進一步擴展相關功能。兩家公司正在競相爭奪企業市場,面向已經準備好採用人工智慧的行業推出可以完成實際工作的工具。新模型的發佈還可能引發投資者對人工智慧衝擊傳統金融資料提供商的新一輪擔憂。由於市場普遍擔心人工智慧將顛覆企業軟體行業,這類公司的股價此前已經受到影響。今年早些時候,Anthropic發佈Cowork外掛後,市場一度出現大規模拋售SaaS股票的情況,因為投資者擔心人工智慧工具可能讓傳統軟體供應商被淘汰。新智能體能力對於企業使用者而言,GPT-5.4最重要的升級之一是其“開箱即用”的智能體能力。該模型可以自主操作電腦和軟體,根據需要搜尋並呼叫外部工具,還能夠處理複雜的多步驟任務,而開發者無需自行搭建相應的底層架構。OpenAI表示,GPT-5.4是公司迄今最注重事實、最可靠性的模型。公司在一篇部落格文章中稱,與GPT-5.2相比,該模型產生“幻覺”的機率明顯下降:單個陳述出現錯誤的可能性降低33%,完整回覆包含錯誤的機率降低18%。GitHub的首席產品官馬里奧·羅德里格斯在評價該模型時說:“開發者不僅需要一個可以寫程式碼的模型,更需要一個能夠像他們一樣思考問題的模型。我們看到GPT-5.4在邏輯推理以及執行複雜、多步驟、依賴工具的工作流程方面表現非常出色。”這些新功能使OpenAI在競爭日益激烈的智能體產品領域中,成為更直接的參與者。當前市場上的類似產品包括Perplexity Computer、微軟(Microsoft)的Copilot Tasks以及OpenClaw。近期OpenClaw的走紅也表明,使用者越來越青睞可以在儘量減少人工干預的情況下處理長工作流程的人工智慧系統。OpenAI還指出,與此前的模型相比,GPT-5.4在詞元使用效率方面有明顯提升,也就是說它能夠用更少的詞元解決問題。雖然該模型每個詞元的定價略高於GPT-5.2,但由於完成許多工所需的詞元數量更少,對於部分使用者而言,這種效率提升可能抵消價格上漲帶來的成本。(財富中文網)
奧特曼砸場發佈 GPT-5.4!網友:一句 Hi 燒掉 80 美元
每次打開 AI 工具,你大概都要先想一秒鐘:這個任務,該用那個模型?寫程式碼是一個,查資料是另一個,讓 AI 幫你操作電腦,還得再開一個窗口。今天過後,這種分裂感終於有了一個答案。就在剛剛,OpenAI 正式發佈 GPT-5.4,把程式設計、推理、電腦操控、網頁搜尋和百萬 Token 上下文全部整合進同一個模型,且沒有為了整合而犧牲任何一項的能力。OpenAI CEO 山姆·奧特曼也在 X 平台發了一條簡短推文,點出了五個方向:知識工作更強、網頁搜尋更出色、原生電腦操控、支援百萬 Token 上下文、響應過程中隨時可介入。寥寥數語,對應的恰好是過去兩年 AI 應用落地中最集中的五個痛點。知識工作:十次有八次,AI 贏了專業人士理解 GPT-5.4 在知識工作上的進步,需要先瞭解 GDPval 這個基準的設計邏輯。它橫跨美國 GDP 貢獻最大的 9 個行業、44 種職業。任務是那些職場裡每天真實發生的工作:給投資銀行寫財務模型、給醫院排急診班次、給銷售團隊做簡報。任務完成後,把輸出結果交給行業內的真實從業者盲測打分,看 AI 的產出能贏過多少比例的人類同行。GPT-5.4 的答案是 83.0%,意味著十次對比中有八次以上,行業專業人士認為 AI 的產出達到或超過了人類同行水準。上代 GPT-5.2 是 70.9%,差距將近 13 個百分點。進步在電子表格建模上表現得最為具體。GPT-5.4 模擬初級投行分析師完成建模任務,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距將近 20 個百分點。法律平台 Harvey 的 BigLaw Bench 測試結果同樣亮眼,GPT-5.4 得分 91%,專業服務評測平台 Mercor 的 APEX-Agents 基準中也拿下了第一。精準性方面同樣值得關注。幻覺問題一直是 AI 進入專業場景最大的攔路虎,每降低一個百分點,都意味著更多場景可以放心用它。資料顯示,與 GPT-5.2 相比,GPT-5.4 單條陳述出錯的機率低了 33%,完整回覆含有錯誤的機率低了 18%。程式設計:一個模型,寫程式碼測程式碼全包了GPT-5.4 把 GPT-5.3-Codex 的程式設計能力整合進主線,對開發者來說,這意味著你不再需要為了寫程式碼單獨開一個模型,而且程式設計能力本身也沒有因此打任何折扣。SWE-Bench Pro 專門測試真實軟體工程任務,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之後,程式設計分數不降反升,同時還順帶獲得了電腦操控等一整套通用能力,幾乎找不到明顯的弱點。知名 AI 評測博主 Dan Shipper 試用後寫道:「這是我們最近一段時間裡見過 OpenAI 最出色的規劃能力,程式碼審查也很強,而且成本大約只有 Opus 的一半。」他點出了兩個具體維度。其一,規劃能力是長任務成敗的關鍵,GPT-5.4 在任務拆解和持續推進上明顯更有條理。其二,與 Claude Opus 相比約一半的成本,對需要大規模 API 呼叫的開發者來說,這個差距在帳單上會非常直觀。開啟 Codex 中的 /fast 模式後,可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍,使得使用者可以在編碼、迭代和偵錯過程中保持流暢的工作狀態。與此同時,新推出的實驗性功能 Playwright Interactive 把 GPT-5.4 的程式設計體驗又推進了一步。GPT-5.4 在建構 Web 或 Electron 應用時,能夠通過可視化瀏覽器進行即時偵錯,模型可以邊寫程式碼、邊測試自己正在建構的應用,同時承擔開發者和測試員兩個角色。OpenAI 展示了一個典型案例:僅憑一條輕量提示詞,GPT-5.4 生成了一個完整的等距視角主題公園模擬遊戲,涵蓋基於瓦片的路徑鋪設與景點建設系統、遊客 AI 尋路與排隊行為,以及資金、遊客數、滿意度、清潔度四項指標全部即時動態更新的綜合評分。Playwright Interactive 在整個過程中承擔了多輪自動化測試,驗證路徑鋪設、攝影機導航、遊客響應及 UI 指標的正確性。從寫程式碼到測試驗收,模型全程自己完成。博主 Angel 同樣用 GPT-5.4 寫了一個 Minecraft 克隆版,模型花了約 24 分鐘,運行流暢,過程中沒有卡住。他在推文裡寫道「Minecraft 基本上被攻克了,我現在得找個新測試了」。沃頓商學院教授 Ethan Mollick 同樣獲得了早期存取權。他用同一條提示詞,讓 GPT-5.4 Pro 生成了一個受《皮拉內西》啟發的三維空間場景,全程沒有報錯,只額外追加了一句「把它做得更好」的指令。他隨後把結果和兩年前 GPT-4 生成的版本並排放在一起,差距一眼可見。操控電腦這件事,它現在比你做得好這是 GPT-5.4 這次發佈裡最值得單獨說一說的變化。此前 OpenAI 的電腦操控能力是一個獨立模組,跟模型的語言理解、程式碼生成之間有一道明顯的分隔。兩套系統各管各的,資訊要來回傳遞,效率自然打折。現在這道分隔沒了,GPT-5.4 操控電腦時,用的就是模型本身的推理能力,不需要再繞一圈。這也是 OpenAI 第一款將電腦使用(computer use)能力原生內建進通用模型的產品,以後談 AI Agent,相信這會是一個新的起點。基準測試結果顯示,OSWorld-Verified 基準測試桌面導航能力,用截圖加滑鼠鍵盤互動完成真實作業系統任務。GPT-5.4 達到 75.0% 的成功率,人類基線是 72.4%,GPT-5.2 是 47.3%。簡言之,它不僅追上了人類,還超過了人類。在只用截圖模式測試瀏覽器操控的 Online-Mind2Web 基準中,GPT-5.4 達到 92.8%,對比對象 ChatGPT Atlas 的 Agent Mode 是 70.9%,真實部署案例更能說明問題。Mainstay 將 GPT-5.4 用於約三萬個物業稅務入口網站的自動表單填寫,首次成功率達 95%,三次以內成功率 100%,而此前同類模型僅在 73% 至 79% 之間。會話完成速度提升約三倍,Token 消耗降低約 70%。這背後繞不開視覺感知能力的改進。操控電腦說到底是一件需要「看清楚」的事——看清楚介面上有什麼、按鈕在那裡、點選是否精準。GPT-5.4 在這一層做了專項加強,引入了原始圖像(original)輸入模式,支援最高 1024 萬像素或 6000 像素最大邊長的高保真圖像輸入;原有的高畫質(high)模式上限也從此前的標準提升至 256 萬像素或 2048 像素最大邊長。工具呼叫與網頁搜尋:持續性是核心競爭力一個複雜的 AI Agent 系統,背後可能掛著幾十個 MCP 工具。過去的做法是每次對話開始前,把所有工具的說明一股腦塞進去,不管這次用不用得上,Token 先花了再說。GPT-5.4 換了個思路:先給模型一份簡單的工具清單(即引入工具搜尋機制),真正需要用那個,再去把那個工具的詳細說明取過來,用過一次的還能直接快取,下次不用重新拿。在 250 項任務的測試中,啟用 36 個 MCP 伺服器的完整配置下,工具搜尋模式在保持精準率完全不變的前提下,將總 Token 消耗降低了 47%。將近一半的成本節省,精度一點沒少。網頁搜尋方面,GPT-5.4 在 BrowseComp 基準上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 個百分點,Pro 版更達到 89.3%,創下業界最高分。Zapier CEO 評價說,GPT-5.4 會在其他模型放棄的地方繼續搜尋下去,是他們測試過持續性最強的模型。百萬 Token 上下文:長長長長長長GPT-5.4 在 API 中支援最高 100 萬 Token 的上下文窗口,相當於可以把一個完整項目的所有相關文件一次性塞進同一次對話。但從測試結果來看,128K 至 272K 是表現最穩定的區間,適合日常使用。256K 以上準確率開始下滑,需要針對具體任務驗證後再用。512K 至 1M 區間的得分降至 36.6%,目前更接近實驗性質,不適合直接用於對精度要求高的生產任務。還有一個實際的成本問題需要注意:超過 272K 的請求會按兩倍用量計入配額。也就是說,發一次超長上下文的請求,額度消耗等於兩次普通請求,用之前值得想清楚是否真的需要這麼長。至於在視覺抽象推理基準 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 僅為 54.2%。再比如 FrontierMath Tier 4 是目前公認最難的數學基準之一,包含 50 道研究等級的數學題,人類數學家可能需要數周才能解出。GPT-5.4 Pro 在這個基準上得分 38.0%,上代為 31.3%。這個數字的參照系是:一年前,最好的成績是 o3 的 2%,目前最好的開源模型是 4.2%。博主 Deedy 在推文中寫道,從 2% 到 38%,「簡直令人震驚」。Humanity's Last Exam 有工具輔助時,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 個百分點。執行中調整,不是完成後返工用過 AI 處理長任務的人大概都有過這種體驗:等模型跑完一大段,發現方向不對,只能從頭再來,時間全浪費了。GPT-5.4 Thinking 在 ChatGPT 中新增了一項「中途打斷」功能:在處理複雜任務之前,模型會先呈現工作計畫概要,再開始執行。使用者可以在執行過程中隨時介入調整方向,不必等到結果出來再從頭重來。這個功能把糾偏這件事從「完成後」提前到了「執行中」,對需要多輪協作的任務來說,體驗差別會比較明顯。功能目前已在 chatgpt.com 和 Android 應用上線,iOS 版本即將跟進。即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 使用者開放,替代 GPT-5.2 Thinking 成為默認思考模型。GPT-5.2 Thinking 將保留至今年 6 月 5 日後正式退役。Enterprise 和 Edu 使用者可由管理員在後台開啟早期訪問,GPT-5.4 Pro 僅對 Pro 和 Enterprise 計畫開放。API 標準版定價為輸入 2.50 美元/百萬 Token,快取輸入 0.25 美元/百萬 Token,輸出 15 美元/百萬 Token。Pro 版為輸入 30 美元/百萬 Token,輸出 180 美元/百萬 Token。Batch 和 Flex 處理享標準價格五折,Priority Processing 為兩倍標準價格。當然,強大的推理能力也有它的另一面。Hyperbolic 聯合創始人金宇晨在 X 平台吐槽,GPT-5.4 Pro 是他用過最愛「過度思考」的模型——僅僅發了一句簡單的「Hi」,模型就開始認真推理,直接燒掉了 80 美元。這並非個例。推理模型的特性決定了它在處理任何輸入時都傾向於深度思考,那怕問題本身根本不需要。對於日常輕量任務,標準版或許是更合適的選擇;Pro 版的推理火力,還是留給真正值得的場合更划算。過去兩年,AI 能力的討論主要集中在基準測試成績上的「聰明」,但 GPT-5.4 的聰明指向的是能夠在真實工作流中,足夠可靠地承擔責任。過去 AI 只能輸出文字,人還需要親自操作才能讓事情發生。現在模型可以自己打開瀏覽器、填寫表單、點選按鈕、記錄結果,獨立完成一個有頭有尾的任務閉環。AI 正在從一個擅長回答問題的系統,變成一個擅長完成任務的系統。而這個轉變的速度,顯然比大多數人預期的更快。 (APPSO)
GPT-5.4核心內幕炸裂劇透!或擁有永久記憶,極限推理狂飆
GPT-5.4,馬上就要來了!目前已經開啟測試,一次能寫6000行程式碼。外媒曝出它有極限推理模型,甚至還傳聞擁有永久記憶。如果你覺得最近AI圈有點安靜,太不刺激,那可能只是暴風雨前的寧靜。據多方消息,GPT-5.4,已經箭在弦上了!LMArena上,已經出現了GPT-5.4的身影。就在剛剛,外媒The Information,劇透了不少關於GPT-5.4的核心內幕。消息足夠炸裂:它有更長的上下文,更極限的推理模型,甚至,可能出現永久記憶!如果如傳聞所言,這些都是真的,那這一代模型很可能不是簡單的升級,而是一次能力形態的巨大躍遷。GPT-5.4提前測試,程式碼炸裂曝光最近,GPT-5.4簡直在到處洩露。從Codex錯誤日誌、GitHub PR,到員工誤發截圖,短短幾天時間,GPT-5.4已經被「曝光」了至少三次。而且,這還都是OpenAI自己意外洩露出來的。最早,是開發者Corey Noles在使用OpenAI Codex時觸發了一次網路安全限制,系統返回的錯誤日誌裡出現了一串非常長的模型名稱:gpt-5.4-ab-arm1-1020-1p-codexswic-ev3這串字元最關鍵的,就是前面三位——gpt-5.4。總之,這串字串可以認為是OpenAI的內部部署ID,翻譯過來就是「一個真實部署、正在測試中的GPT-5.4實驗版本。」然後,在OpenAI官方Codex倉庫裡,出現了兩個Pull Request:一個PR寫著:minimum model version = (5, 4)另一個PR更直接:toggle Fast mode for GPT-5.4看起來,OpenAI給GPT-5.4加了一個「Fast Mode」開關。幾小時後,兩個PR就被force push刪除了。接下來,更戲劇性的一幕出現:OpenAI Codex團隊的一名員工Tibo 在社交平台上發佈了一張截圖。圖中,模型選擇器裡赫然寫著GPT-5.4。沒多久,這條帖子就被刪掉了。隨後,又有開發者報告,在Codex錯誤資訊中看到類似的模型字串。這更加說明,GPT-5.4已經部署在內部伺服器,正在進行真實的A/B測試了。一次提示,生成6000行程式碼?而且,目前已經有開發者報告了一個明顯變化——速度!一些測試者表示,模型的推理明顯更快,程式碼生成更長,甚至一次提示可生成 6000+行程式碼!這在以前幾乎不可能。一些人還發現一個新特徵——Fast Mode。這可能意味著,OpenAI正在嘗試新的推理架構,例如多級latency pipeline,或不同速度檔位模型。另外,新模型介面特徵也被發現了:部分使用者表示,如果在推理摘要(Chain-of-Thought summary)旁邊看到點贊或點踩按鈕,可能意味著帳戶已經被分配到GPT-5.4的測試模型。極限推理模式,性能拉爆The Information的爆料,也跟以上資訊完全對上了。這次爆料中,最亮的就是這個極限推理模式——Extreme Reasoning Mode了。傳統模型的思考時間都很有限,但這個極限推理模式,直接讓模型的性能拉到爆,在遇到困難問題時,能花費更多時間,呼叫更多計算資源,進行更深層的推理。有趣的是,根據調查,其實很多普通ChatGPT使用者對於推理功能並不太熱衷。而且從商業應用的角度來說,這個功能也不很適用,因為企業要的是AI盡快給一個答案。因此,OpenAI依然如此重視推理能力,倒是顯得動機純粹了不少。不過,這個消息,對於科研領域和部分企業客戶,倒是重大利多。顯然,在科學研究領域,許多使用者很願意讓一個模型在有價值的研究問題上運行數小時,甚至數天。同時,部分企業也會需要用到GPT-5.4更強的推理能力和長周期任務表現,來建構能夠把更複雜業務流程自動化的AI智能體。根據各方爆料,這個極限推理模式將會很瘋狂,這也就把大家的期待拉滿了。上下文直接翻倍,達到1M tokens對於GPT-5.4來說,這是另一個十分硬核的升級——上下文窗口從40萬tokens,升到了一百萬tokens。這樣一來,GPT-5.4的上下文窗口將超過當前GPT-5.2的兩倍。(當然,也有一些OpenAI模型支援100萬token,比如GPT-4.1,但5.2並不支援)這下,GPT-5.4可以直接塞進去幾十萬字的文件,分析一整本書,或者長長的程式碼庫和資料了。這也讓終於讓這個模型在長上下文能力上,重新追平了Google的Gemini和Anthropic的Claude。畢竟,其他家早就達到了100萬token的上下文窗口,現在GPT-5.4終於補齊了這個短板。而坊間爆料比The Information更誇張:上下文達到了2百萬tokens!GPT-5.4,開始擅長「長任務」爆料中的另外一個點,就是GPT-5.4在需要持續數小時的任務上表現也更好。也就是說,它在多個步驟中更能記住使用者請求的細節,以及自己被允許或不允許執行的內容,同時也更不容易出錯。顯然,這對於OpenAI的Codex程式設計工具會極有幫助,因為Codex正是使用AI來自動化複雜的長時間任務。另外,這種長時間任務能力,對於AI Agent來說也非常關鍵。Agent可以自己讀取需求、查資料、寫程式碼、修bug,並不是每一步都需要人重新提示了。GPT-5.4,可能擁有永久記憶?接下來,最瘋狂的傳聞來了——GPT 5.4,可能擁有永久記憶!一位工程師在X上給出這個爆料後,立刻炸翻了AI社區,矽谷投資大佬、YC創始人Garry Tan也火速趕來轉發。在這篇帖子中,爆料人是這樣介紹GPT-5.4的「持久狀態」的。Jeff Dean在參加latentspacepod播客時就提到了這一點,可以看出,如今各大AI實驗室都在思考這個方向。有人猜測,OpenAI內部很可能已經發現了,如何大規模地有效結合狀態空間模型(SSM)和Transformer。其中的關鍵,就是SSM的設計本身就是在每一步計算中持續傳遞隱藏狀態(hidden state),而且它的計算複雜度是線性增長,不像Transformer那樣隨著上下文長度呈二次增長。這也就和某個傳聞相呼應了:據說,GPT-5.4可能擁有200萬token的上下文窗口。所謂持久化狀態,本質上意味著AI模型會從電影 《記憶碎片》Guy Pearce的角色一夜之間變成《雨人》裡Dustin Hoffman的角色,前者只能依賴短期記憶,而後者擁有穩定而持久的記憶。換句話說,這將賦予AI模型真正的長期記憶能力。如果真的能實現,這將會是一次非常巨大的技術突破!壓力山大,OpenAI被迫「月更」顯然,GPT-5之後,OpenAI做了一個明顯改變,模型開始高頻月更。今年以來,我們已經迎來了GPT-5.1,GPT-5.2,馬上5.4也要來了,更新節奏甚至接近了一個月一次。顯然,OpenAI也是被對手逼到牆角了。目前,ChatGPT的周活躍使用者已達9.1億,雖然數字看似很驚人,但依然沒能達到OpenAI 10億WAU(活躍使用者)的目標。而Google和Anthropic這些競爭對手都在步步緊逼,在長上下文、Agent、推理能力上都在持續加碼。如果GPT-5.4真的擁有1百萬長上下文、極限推理、持久狀態,那AI形態很可能會變成持續工作的智能體。而且,如果GPT-5.4真的能開始「記住事情」,這很可能就是大模型歷史上的一個關鍵節點。奇點已至,我們正在狂飆加速。你,準備好了嗎? (新智元)
【MWC 2026】全網最全:AI 徹底變天!中國軍團殺瘋全球!OpenClaw 屠榜封神!
最硬核現場!MWC 被中國 AI 霸屏,機器人手機、人形機器人炸場2026 世界移動通訊大會(MWC)在巴塞隆納啟幕,恰逢落地 20 周年,以智能新紀元為主題,匯聚全球 2900 余家企業。展會聚焦 AI 與通訊深度融合,覆蓋 5G-A、6G、算力網路、衛星通訊、具身智能等前沿方向,是全球科技與產業的風向標。本屆展會看點密集、技術密集,深科技(deeptek)為你逐一拆解核心趨勢與重磅成果。01 開場炸:MWC 變中國主場!AI 從 “陪聊” 直接跳去 “幹活”2026 開年第一炸,不在矽谷,不在紐約,直接砸在西班牙巴塞隆納 ——MWC 2026 徹底被中國科技軍團包場。350 家中國企業擠爆展館,中文比西班牙語還高頻,老外排隊三小時就為摸一下中國 AI 手機、中國機器人、中國大模型。行業共識一夜改寫:AI 不再是聊天耍帥的花瓶,而是能動手幹活的工具人。從語音對話到自主操作裝置、跨 APP 執行、長鏈推理、自動完成複雜任務,2026 就是 AI 從 “聽懂” 到 “動手” 的元年。中國廠商不玩虛的,直接把未來端到全球面前,這波出海不是參展,是降維碾壓。02 OpenClaw 封神!GitHub 史上最瘋項目,中國模型殺穿榜單本屆最大黑馬不是手機,不是晶片,是OpenClaw—— 一個能直接操控你電腦的 AI Agent 神器。全球開發者集體瘋狂,卡帕西盛讚 “科幻級爆發”,直接登頂 GitHub 史上最受歡迎開放原始碼專案。簡單說:你說一句話,它幫你點滑鼠、敲鍵盤、跑程式碼、做表格、干雜活,全自動不廢話。誰能喂飽 OpenClaw,誰就是下一代 AI 王者。結果呢?中國模型直接屠榜。03 階躍星辰殺瘋!Step 3.5 Flash 碾壓 GPT/Gemini,海外開發者跪服3 月 2 日當天,階躍星辰 Step 3.5 Flash 單日呼叫破 40B,OpenClaw 呼叫榜全球第二。干翻誰了?Kimi K2.5、Gemini 3 Flash、Claude Sonnet 4.5……全是國際頂流。海外開發者用腳投票:這才是 Agent 時代該有的模型。硬核邏輯不講虛:1960 億總參數,每次只啟動 110 億,速度狂飆 350token/s消費級 128GB 就能跑,MacBook 直接起飛推理強、成本低、長任務穩到離譜老外直呼:中國模型才是 OpenClaw 真命天子。04 徹底開源殺招!階躍星辰把家底全甩出來,行業看傻更炸的是:別家開源遮遮掩掩,階躍星辰直接Base 權重 + Midtrain 權重 + Steptron 框架一次性全開源。開發者要啥給啥,隨便二開、隨便微調、隨便造自己的 Agent。在全球大模型開源越來越保守的今天,這波操作等於把通往未來的鑰匙直接塞給全世界。Reddit、LocalLLaMA 直接炸版,CTO 深夜線上答疑,中國技術團隊第一次成為全球開發者的 “精神領袖”。一句話:不是讓開發者適配模型,是模型跪下來適配開發者。05 手機徹底變異!榮耀機器人手機火到西班牙國王親自打卡手機圈十年死水,今年直接物種大爆炸。榮耀甩出王炸:全球首款可量產機器人手機 ROBOT PHONE。攝影機自帶 “脖子”,四自由度雲台,會轉頭、會跟拍、會點頭、會隨音樂跳舞。西班牙國王駐足看呆,這那裡是手機,是裝在口袋裡的機器人。榮耀直接喊出:打破黑色方塊,給手機加大腦、加手腳。AI 手機的終點,不是更聰明的助手,是擁有身體的智能生命。06 豆包殺瘋!中興努比亞 AI 手機,一句話全自動跨 APP 幹活字節跳動豆包聯手努比亞,直接把AI 原生手機帶到 MWC。不用點、不用切、不用手動操作,喊一聲:幫我發朋友圈 + 配文幫我全平台比價下單幫我點外賣AI 自動跨 APP 跑完所有流程,你只負責張嘴和確認。蘋果 Apple Intelligence 還在畫餅,中國廠商已經把體驗做滿。老外上手直接震驚:這才是 2026 年的手機。07 具身智能狂歡!中國人形機器人佔領展館,會打架會幹活MWC 六號館直接變成中國機器人閱兵場。智元機器人:全系列人形 + 四足 + 靈巧手,迎賓、搬運、工業通吃宇樹科技:機器狗載人、人形機器人現場 “搏鬥”魔法原子:機器貓熊、全尺寸人形炸場中國具身智能不再是實驗室玩具,能跑、能扛、能合作、能落地。目標很明確:搶歐洲市場,做全球夥伴。這波不是秀肌肉,是把未來生產力直接擺上貨架。08 網路革命!華為 AI 原生網路 + 靈衢匯流排,硬剛流量海嘯GSMA 主席潑冷水:AI 流量海嘯要壓垮網路。華為直接正面硬剛:別加寬管道,給管道裝大腦。AI-Centric Network,讓網路自己懂你、自動調度、自動開綠色通道。更狠的是靈衢 UnifiedBus:萬卡協同像一顆大腦,打破輝達算力壟斷。Atlas 950 SuperPoD 海外首秀,訓練 + 推理全端通殺。6G 前夜提前開戰,U6GHz 頻段卡位,中國廠商直接定義下一代網路。09 三大營運商亮劍!6G + 智算 + 全球生態,中國方案統治未來中國移動:5G-A 超級上行 + 百 T 級智算路由,算力效率拉滿 98%中國聯通:九大行業一站式出海方案,歐洲、東南亞遍地開花中國電信:聯手智元發佈6G + 四足機器人,把邊界從 3% 陸地擴到全域不再是管道商,是智能時代的架構師。雲 - 網 - 邊 - 端全鏈路打通,中國算力網直接走向世界。10 終局炸:2026 AI 分水嶺!中國從陪跑變領跑,全行業顫抖2025 是國產模型爆發年,2026 是中國 AI 統治年。大模型:階躍星辰在 OpenClaw 屠榜,中國開源征服全球開發者終端:機器人手機、AI 眼鏡、模組化硬體全面變異機器人:具身智能叢集出海,硬體 + 演算法雙殺網路:AI 原生 + 6G 卡位,重新定義通訊底層行業鐵律變了:不再比誰參數大,比誰能落地、能幹活、能普惠、能走進普通人生活。中國廠商走了一條最難、但最正確的路:用應用牽引技術,用落地定義未來。MWC 2026 已經說明一切:AI 的下一個時代,主場在中國。11、MWC 2026 核心公司總結一、AI 大模型 & 智能體(Agent)階躍星辰Step 3.5 Flash 開源模型在 OpenClaw 呼叫榜全球第二,單日呼叫超 40B架構:稀疏 MoE,總參數量 1960 億,每 token 啟動約 110 億速度:單請求程式碼類最高 350 token/s開源:Base 權重、Midtrain 權重、Steptron 訓練框架全開源定位:主打智能密度、推理速度、Agent 能力,面向 “讓 AI 幹活”字節跳動・豆包 AI與中興 / 努比亞合作推出豆包 AI 手機(海外首秀)功能:一句話語音指令,自動跨 APP 完成點外賣、發社交平台等定位:系統級 AI 助手,從 “陪聊” 走向自動執行阿里・千問發佈千問 AI 眼鏡,售價 1997 元,即將開售支援即時翻譯、語音助手、地圖、支付、識圖等後續將推出AI 指環、AI 耳機,打造軟硬一體 AI 入口小米・MiMo自研大模型躋身全球開源第一梯隊支撐人車家全生態:手機、汽車、智能家居全域協同推出全屋智能系統 Miloco:可自動感知、決策、調度裝置(如自動叫掃地機器人)二、手機終端創新榮耀全球首款機器人手機 Robot Phone:4DoF 雲台攝影機,可自動跟拍、點頭、律動首款消費級人形機器人,可跳舞、後空翻折疊屏 Magic V6 旗艦發佈vivoX300 Ultra 海外首秀全球首發 400mm 蔡司增距鏡,專業影像向 “生產工具” 升級中興 / 努比亞努比亞 M153 搭載豆包 AI 手機助手發佈 AI 情感寵物 iMoochi,主打治癒陪伴傳音(Tecno)4.9mm 超薄模組化磁吸手機,可外接鏡頭、電池、手把等模組聯想模組化 AI PC、AI Workmate 陪伴機器人捲軸屏筆記本、折疊掌機小米徠卡手機 LeitzphoneVision Gran Turismo 概念超跑三、人形機器人 & 具身智能智元機器人(AGIBOT)A2、X2、G2、D1 全系列機器人面向零售、製造、物流,主打 “能幹活”展示 6G + 四足機器人 方案宇樹科技G1 人形機器人,高動態對抗、抗摔、運動控制強魔法原子GEN1 全尺寸人形、MagicBot、MagicDog 四足機器人四、通訊 & 網路 & 6G華為AI-Centric Network(以 AI 為中心的網路)發佈 U6GHz 全場景產品,5G-A 向 6G 平滑過渡超節點 Atlas 950 SuperPoD,支援 8192 卡 高速互聯靈衢(UnifiedBus)高速互聯匯流排A2A-T 智能體互動協議開源中興通訊AIR MAX 面向 AI 時代的網路架構全球首個 U6G 6G GigaMIMO 原型首發 Wi-Fi 8 Mesh 方案Co-Sight 工業級智能體工廠高通成立 6G 聯盟,路線圖:2028 預商用,2029 商用X105 5G 數據機,支援 6G 標準可穿戴晶片支援本地運行 20 億參數 模型愛立信6G 原型、MRSS 5G/6G 頻譜共享AI Native Network、可程式設計網路諾基亞AI-RAN 與輝達合作自智網路、雲化基站三大營運商中國移動:5G-A 超級上行、百 T 級智算互聯裝置中國電信:量子通訊、衛星通訊、低空經濟中國聯通:算網、低空智聯、空天地一體化五、晶片 & 算力 & 儲存紫光展銳:eSIM + 基帶方案江波龍:AI 眼鏡、端側 AI 儲存聯發科:6G 互通方案、Wi-Fi 8、AI 眼鏡平台AMD:銳龍 AI PRO 400 系列六、深圳企業軍團(70+ 家)榮耀、華為、中興、傳音、TCL雷鳥創新:AR 眼鏡與德國電信合作領益智造:機器人核心部件(減速器、絲槓)時空壺:AI 同傳翻譯耳機七、本屆核心趨勢總結AI 從 “聊天” 轉向 “幹活”:Agent、具身智能、自動執行成主流終端形態革命:機器人手機、模組化、雲台手機、AI 眼鏡爆發網路 AI 原生化:從 5G-A 走向 6G,網路本身變智能中國廠商全球領跑:350 家參展,AI + 硬體 + 通訊全面出海開源大模型崛起:中國模型成為全球開發者首選 (深科技)
剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
在 AI 模型的命名玄學裡,「Instant」和「Lite」這兩個後綴,長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象,基本就是:速度快、腦子慢,做做文字總結勉強夠用,一旦碰上稍微複雜的推理任務,就開始一本正經地胡說八道。久而久之,輕量模型幾乎成了「將就用」的代名詞。就在剛剛,OpenAI 和 Google 又一次撞車,發佈了各自的輕量模型,並試圖用硬實力來扭轉這個刻板印象。省流版如下:GPT-5.3 Instant: 更具「人味兒」的智能助理,大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力,溝通更自然精準,適合對內容質量要求高的場景(寫作、專業問答、高風險領域)Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水,還支援「思考等級」調節功能,在保持高吞吐量的基礎上兼顧了深層邏輯推理,適合大規模、高即時性的批次任務(內容稽核、UI 生成、NPC 對話)GPT-5.3 Instant:終於學會像個正常人一樣聊天了經常用 ChatGPT 的人,大概都有過這種無奈:你只是隨口問個小問題,它非要先給你端上一段「作為一個人工智慧,我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」,確實挺招人煩的。好在,OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案,不再囉里囉嗦地鋪墊。除了不愛說廢話,它也變得更靠譜了。舊版本搜完網頁之後,容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升,GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來,先想清楚你真正想問什麼,再給出有重點的回答,而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示,在聯網狀態下幻覺率降低了 26.8%,僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域,新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的,其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最後一天,舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句,新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹,就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少,整體風格更直接,少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度,調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放,API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant,但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite:便宜、反應快,還挺聰明相比於 GPT-5.3 Instant 的好好說話,Gemini 3.1 Flash-Lite 走的是純粹的務實風,目標非常明確:就是要快,就是要便宜。價格方面,Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens,輸出價格是 1.50 美元每百萬 tokens。這是什麼概念?如果你是一個開發者,這意味著你大概花不到 2 塊錢人民幣,就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨?格局小了。根據 Artificial Analysis 的基準測試,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍,整體輸出速度提升了 45%。對於需要即時響應的產品來說,這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著,當你還在眨眼的時候,它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外,Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中,Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項。開發者可以根據任務的複雜程度,自主調節模型「想多深」。簡單的高吞吐量任務,比如批次內容翻譯和內容稽核,可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的介面生成或模擬建立任務,則可以讓模型多花一點時間推理,把結果做紮實。這種「既要又要」的能力,也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中,它的 Elo 分數達到了 1432,在 GPQA Diamond(研究生等級的問答)測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%,多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」,而是直接超過了體量更大的 Gemini 2.5 Flash。注意,這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前,3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放,企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試,普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看,你會發現「Instant」和「Lite」,或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例,其核心場景是幫使用者處理郵件、管理日程,本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明,它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率,意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退,意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時,往往需要平行處理海量的子任務,對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本,加上能靈活調配算力的「思考等級」,這種極具彈性的架構對高並行的自動化任務而言,無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察,但大方向已經很明確:一個負責讓互動更像人,一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下,輕量模型將成為更自然、務實的選擇。 (APPSO)
OpenAI連夜爆出GPT-5.4! 緊急上新GPT-5.3反擊Google, AI爹味治好了
【新智元導讀】GPT-5.3 Instant不卷跑分,專治「聊天翻車」:不再動不動拒絕回答,不再滿嘴說教免責,幻覺率暴降27%,寫作能力也跳了一個台階。OpenAI「貼臉開大」!GoogleDeepMind前腳扔出Gemini 3.1 Flash-Lite,不到2小時,OpenAI坐不住了....就在剛剛,GPT-5.3 Instant炸裂登場,全面擊碎了「AI爹味」,幻覺率爆砍27%。這次更新不走尋常路,沒有在跑分榜單上瘋狂內卷,OpenAI做的是另一件事——把ChatGPT日常聊天裡最讓人崩潰的毛病,治了。目前,在ChatGPT中,GPT-5.3 Instant已正式上線。同時,所有開發者即日可用,API代號「gpt-5.3-chat-latest」。GPT-5.2 Instant保留三個月,6月3日退役。不僅如此,OpenAI還劇透了,GPT-5.4比你預想的更快到來。這種與Google貼身肉搏的拉力戰,火藥味瞬間拉滿。最大的升級:不再「把天聊死」ChatGPT重度使用者一定體會過這種崩潰——你問了個正常問題,模型先甩一段免責聲明,再告訴你「我不能幫你做這個」,然後列出一堆你根本不需要的替代選項。等你看完,已經忘了自己要問什麼。這次,5.3 Instant大刀闊斧砍掉了這些廢話。OpenAI給了一個極佳的案例:「幫我計算一個超遠距離射箭場景的軌跡」。GPT-5.2 Instant的反應堪稱經典翻車。整段回覆密密麻麻,看完只想關掉對話方塊。先是寫了一大段「我不能幫你進行旨在遠距離精準擊中真實目標的計算」的安全聲明;然後把回答分成「純教學/通用」「故事/世界觀建構」「模擬/程式設計」三個方向讓你選;最後還追了一句靈魂拷問「這是為了遊戲/故事/物理學習,還是為了真正的射箭?」GPT-5.3 Instant?一句「沒問題,我能幫你」,然後直接列參數、給公式、問你要不要加空氣阻力,乾淨利落。搜尋,更像人了GPT-5.3 Instant在「聯網搜尋」時也進步明顯。以前ChatGPT容易「過度依賴搜尋結果」。要麼甩一串連結,要麼把結果鬆散拼在一起,讀起來像沒消化過的摘要。現在它會用自己的知識為搜尋結果補充背景,而不是單純複述。官方展示的對比案例很能說明問題:使用者問「2025-26年棒球休賽期最大的簽約是什麼,為什麼對棒球長期前景重要?」GPT-5.2 Instant回答的是上一年胡安·索托簽約大都會的舊聞,分析框架沒問題,但資訊過時了。GPT-5.3 Instant精準抓到了這個休賽期真正的焦點:凱爾·塔克簽約道奇,4年2.4億美元,年均6000萬創位置球員歷史紀錄。不僅給了合同細節,還把這筆交易放進了人才集中化、薪資差距拉大、勞資談判緊張的聯盟大背景裡分析。對比起來,一個在念舊報紙,一個剛從ESPN直播間出來。情商,更高了更有趣的是,GPT-5.3 Instant的「情商」變高了。部落格中,OpenAI用了個很親民的詞形容5.2的問題:cringe,腳趾扣地。具體表現:過於強勢、愛揣測使用者意圖、動不動來一句「停下來,深呼吸」。面對「為什麼我在舊金山找不到真愛」這種扎心提問,GPT-5.2 Instant開口就是:「首先,你沒毛病,你也不是一個人。」然後洋洋灑灑分析性別比例、創業文化、約會軟體飽和,最後還來一段靈魂拷問:「你到底是找不到真愛,還是身邊的人給不了你想要的愛?」GPT-5.3 Instant直接跳過那句沒用的安慰,開門見山分析結構性原因,語氣平等,不居高臨下,不揣測你的情緒。不過,真說了這麼多,正能體會到這些變化的只有「英語」使用者。非英語語言的回覆,目前仍然生硬、翻譯腔偏重。幻覺率最高砍了27%除了語氣和體驗,GPT-5.3 Instant在「不瞎說」這件事上也取得了實打實的進步。OpenAI用了兩套內部評估來衡量精準性:一套聚焦醫學、法律、金融等高風險領域;另一套則統計了使用者反饋存在事實錯誤的ChatGPT對話的幻覺率。在HealthBench基準上,三種不同版本測試中,GPT-5.3 Istant整體的幻覺率,要比上一代低。在高風險領域評估中,5.3 Instant聯網時的幻覺率降低了26.8%,僅靠內部知識作答時降低了19.7%。在使用者反饋評估中,聯網時幻覺減少22.5%,不聯網時減少9.6%。寫作開竅了,有溫度又有深度GPT-5.3 Instant在寫作方面的進化可能是最容易被忽視、但實際體驗中感受最深的一項。比如,讓模型以「費城一位退休郵遞員最後一次送信」為題,寫一首短詩。GPT-5.2 Instant寫得中規中矩,用的是抽象感傷的路子。「聯排別墅眨著眼睛醒來,古老的門廊記住了他的腳步聲」,在「告訴」你該感動了。GPT-5.3 Instant完全換了一種寫法。它寫的是郵袋今天變輕了的觸感,那個帶掉漆藍色欄杆的門廊,默瑟街上一個女人手裡已經握好了一封信說「我們會想你的」。最後一句「當郵筒蓋合上的時候,那聲音聽起來就像一段溫柔歲月的終結。一扇永遠都在那裡的門,終於,悄悄地關上了。」不講情緒,而是用細節讓你自己感受。不卷跑分,卷體驗可以看到,GPT-5.3 Instant和同一天發佈的GoogleGemini 3.1 Flash-Lite打法完全不同。Flash-Lite是典型的跑分碾壓型發佈。也就是,用幾分之一的價格在GPQA、SimpleQA上暴打競品。而GPT-5.3 Instant壓根沒提任何benchmark。在OpenAI看來,這些問題「不總能在基準測試中跑出來,但直接決定了ChatGPT是讓你得心應手,還是讓你抓狂」。對每天用ChatGPT的普通使用者來說,GPQA多2個百分點他們無感,但「問正常問題被拒答」「搜尋像甩連結」「回覆語氣渾身不舒服」,這些才是真痛點。當然也可以從另一個角度讀:在Gemini和Claude輪番登頂的當下,OpenAI在性能賽道上選擇了避其鋒芒,轉而在使用者體驗這個更軟性但同樣關鍵的戰場發力。務實還是無奈?見仁見智。但對每天跟ChatGPT打幾十輪交道的人來說,5.3 Instant是一個能實實在在感受到的進步。 (新智元)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)