#openai
奧特曼砸場發佈 GPT-5.4!網友:一句 Hi 燒掉 80 美元
每次打開 AI 工具,你大概都要先想一秒鐘:這個任務,該用那個模型?寫程式碼是一個,查資料是另一個,讓 AI 幫你操作電腦,還得再開一個窗口。今天過後,這種分裂感終於有了一個答案。就在剛剛,OpenAI 正式發佈 GPT-5.4,把程式設計、推理、電腦操控、網頁搜尋和百萬 Token 上下文全部整合進同一個模型,且沒有為了整合而犧牲任何一項的能力。OpenAI CEO 山姆·奧特曼也在 X 平台發了一條簡短推文,點出了五個方向:知識工作更強、網頁搜尋更出色、原生電腦操控、支援百萬 Token 上下文、響應過程中隨時可介入。寥寥數語,對應的恰好是過去兩年 AI 應用落地中最集中的五個痛點。知識工作:十次有八次,AI 贏了專業人士理解 GPT-5.4 在知識工作上的進步,需要先瞭解 GDPval 這個基準的設計邏輯。它橫跨美國 GDP 貢獻最大的 9 個行業、44 種職業。任務是那些職場裡每天真實發生的工作:給投資銀行寫財務模型、給醫院排急診班次、給銷售團隊做簡報。任務完成後,把輸出結果交給行業內的真實從業者盲測打分,看 AI 的產出能贏過多少比例的人類同行。GPT-5.4 的答案是 83.0%,意味著十次對比中有八次以上,行業專業人士認為 AI 的產出達到或超過了人類同行水準。上代 GPT-5.2 是 70.9%,差距將近 13 個百分點。進步在電子表格建模上表現得最為具體。GPT-5.4 模擬初級投行分析師完成建模任務,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距將近 20 個百分點。法律平台 Harvey 的 BigLaw Bench 測試結果同樣亮眼,GPT-5.4 得分 91%,專業服務評測平台 Mercor 的 APEX-Agents 基準中也拿下了第一。精準性方面同樣值得關注。幻覺問題一直是 AI 進入專業場景最大的攔路虎,每降低一個百分點,都意味著更多場景可以放心用它。資料顯示,與 GPT-5.2 相比,GPT-5.4 單條陳述出錯的機率低了 33%,完整回覆含有錯誤的機率低了 18%。程式設計:一個模型,寫程式碼測程式碼全包了GPT-5.4 把 GPT-5.3-Codex 的程式設計能力整合進主線,對開發者來說,這意味著你不再需要為了寫程式碼單獨開一個模型,而且程式設計能力本身也沒有因此打任何折扣。SWE-Bench Pro 專門測試真實軟體工程任務,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之後,程式設計分數不降反升,同時還順帶獲得了電腦操控等一整套通用能力,幾乎找不到明顯的弱點。知名 AI 評測博主 Dan Shipper 試用後寫道:「這是我們最近一段時間裡見過 OpenAI 最出色的規劃能力,程式碼審查也很強,而且成本大約只有 Opus 的一半。」他點出了兩個具體維度。其一,規劃能力是長任務成敗的關鍵,GPT-5.4 在任務拆解和持續推進上明顯更有條理。其二,與 Claude Opus 相比約一半的成本,對需要大規模 API 呼叫的開發者來說,這個差距在帳單上會非常直觀。開啟 Codex 中的 /fast 模式後,可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍,使得使用者可以在編碼、迭代和偵錯過程中保持流暢的工作狀態。與此同時,新推出的實驗性功能 Playwright Interactive 把 GPT-5.4 的程式設計體驗又推進了一步。GPT-5.4 在建構 Web 或 Electron 應用時,能夠通過可視化瀏覽器進行即時偵錯,模型可以邊寫程式碼、邊測試自己正在建構的應用,同時承擔開發者和測試員兩個角色。OpenAI 展示了一個典型案例:僅憑一條輕量提示詞,GPT-5.4 生成了一個完整的等距視角主題公園模擬遊戲,涵蓋基於瓦片的路徑鋪設與景點建設系統、遊客 AI 尋路與排隊行為,以及資金、遊客數、滿意度、清潔度四項指標全部即時動態更新的綜合評分。Playwright Interactive 在整個過程中承擔了多輪自動化測試,驗證路徑鋪設、攝影機導航、遊客響應及 UI 指標的正確性。從寫程式碼到測試驗收,模型全程自己完成。博主 Angel 同樣用 GPT-5.4 寫了一個 Minecraft 克隆版,模型花了約 24 分鐘,運行流暢,過程中沒有卡住。他在推文裡寫道「Minecraft 基本上被攻克了,我現在得找個新測試了」。沃頓商學院教授 Ethan Mollick 同樣獲得了早期存取權。他用同一條提示詞,讓 GPT-5.4 Pro 生成了一個受《皮拉內西》啟發的三維空間場景,全程沒有報錯,只額外追加了一句「把它做得更好」的指令。他隨後把結果和兩年前 GPT-4 生成的版本並排放在一起,差距一眼可見。操控電腦這件事,它現在比你做得好這是 GPT-5.4 這次發佈裡最值得單獨說一說的變化。此前 OpenAI 的電腦操控能力是一個獨立模組,跟模型的語言理解、程式碼生成之間有一道明顯的分隔。兩套系統各管各的,資訊要來回傳遞,效率自然打折。現在這道分隔沒了,GPT-5.4 操控電腦時,用的就是模型本身的推理能力,不需要再繞一圈。這也是 OpenAI 第一款將電腦使用(computer use)能力原生內建進通用模型的產品,以後談 AI Agent,相信這會是一個新的起點。基準測試結果顯示,OSWorld-Verified 基準測試桌面導航能力,用截圖加滑鼠鍵盤互動完成真實作業系統任務。GPT-5.4 達到 75.0% 的成功率,人類基線是 72.4%,GPT-5.2 是 47.3%。簡言之,它不僅追上了人類,還超過了人類。在只用截圖模式測試瀏覽器操控的 Online-Mind2Web 基準中,GPT-5.4 達到 92.8%,對比對象 ChatGPT Atlas 的 Agent Mode 是 70.9%,真實部署案例更能說明問題。Mainstay 將 GPT-5.4 用於約三萬個物業稅務入口網站的自動表單填寫,首次成功率達 95%,三次以內成功率 100%,而此前同類模型僅在 73% 至 79% 之間。會話完成速度提升約三倍,Token 消耗降低約 70%。這背後繞不開視覺感知能力的改進。操控電腦說到底是一件需要「看清楚」的事——看清楚介面上有什麼、按鈕在那裡、點選是否精準。GPT-5.4 在這一層做了專項加強,引入了原始圖像(original)輸入模式,支援最高 1024 萬像素或 6000 像素最大邊長的高保真圖像輸入;原有的高畫質(high)模式上限也從此前的標準提升至 256 萬像素或 2048 像素最大邊長。工具呼叫與網頁搜尋:持續性是核心競爭力一個複雜的 AI Agent 系統,背後可能掛著幾十個 MCP 工具。過去的做法是每次對話開始前,把所有工具的說明一股腦塞進去,不管這次用不用得上,Token 先花了再說。GPT-5.4 換了個思路:先給模型一份簡單的工具清單(即引入工具搜尋機制),真正需要用那個,再去把那個工具的詳細說明取過來,用過一次的還能直接快取,下次不用重新拿。在 250 項任務的測試中,啟用 36 個 MCP 伺服器的完整配置下,工具搜尋模式在保持精準率完全不變的前提下,將總 Token 消耗降低了 47%。將近一半的成本節省,精度一點沒少。網頁搜尋方面,GPT-5.4 在 BrowseComp 基準上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 個百分點,Pro 版更達到 89.3%,創下業界最高分。Zapier CEO 評價說,GPT-5.4 會在其他模型放棄的地方繼續搜尋下去,是他們測試過持續性最強的模型。百萬 Token 上下文:長長長長長長GPT-5.4 在 API 中支援最高 100 萬 Token 的上下文窗口,相當於可以把一個完整項目的所有相關文件一次性塞進同一次對話。但從測試結果來看,128K 至 272K 是表現最穩定的區間,適合日常使用。256K 以上準確率開始下滑,需要針對具體任務驗證後再用。512K 至 1M 區間的得分降至 36.6%,目前更接近實驗性質,不適合直接用於對精度要求高的生產任務。還有一個實際的成本問題需要注意:超過 272K 的請求會按兩倍用量計入配額。也就是說,發一次超長上下文的請求,額度消耗等於兩次普通請求,用之前值得想清楚是否真的需要這麼長。至於在視覺抽象推理基準 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 僅為 54.2%。再比如 FrontierMath Tier 4 是目前公認最難的數學基準之一,包含 50 道研究等級的數學題,人類數學家可能需要數周才能解出。GPT-5.4 Pro 在這個基準上得分 38.0%,上代為 31.3%。這個數字的參照系是:一年前,最好的成績是 o3 的 2%,目前最好的開源模型是 4.2%。博主 Deedy 在推文中寫道,從 2% 到 38%,「簡直令人震驚」。Humanity's Last Exam 有工具輔助時,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 個百分點。執行中調整,不是完成後返工用過 AI 處理長任務的人大概都有過這種體驗:等模型跑完一大段,發現方向不對,只能從頭再來,時間全浪費了。GPT-5.4 Thinking 在 ChatGPT 中新增了一項「中途打斷」功能:在處理複雜任務之前,模型會先呈現工作計畫概要,再開始執行。使用者可以在執行過程中隨時介入調整方向,不必等到結果出來再從頭重來。這個功能把糾偏這件事從「完成後」提前到了「執行中」,對需要多輪協作的任務來說,體驗差別會比較明顯。功能目前已在 chatgpt.com 和 Android 應用上線,iOS 版本即將跟進。即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 使用者開放,替代 GPT-5.2 Thinking 成為默認思考模型。GPT-5.2 Thinking 將保留至今年 6 月 5 日後正式退役。Enterprise 和 Edu 使用者可由管理員在後台開啟早期訪問,GPT-5.4 Pro 僅對 Pro 和 Enterprise 計畫開放。API 標準版定價為輸入 2.50 美元/百萬 Token,快取輸入 0.25 美元/百萬 Token,輸出 15 美元/百萬 Token。Pro 版為輸入 30 美元/百萬 Token,輸出 180 美元/百萬 Token。Batch 和 Flex 處理享標準價格五折,Priority Processing 為兩倍標準價格。當然,強大的推理能力也有它的另一面。Hyperbolic 聯合創始人金宇晨在 X 平台吐槽,GPT-5.4 Pro 是他用過最愛「過度思考」的模型——僅僅發了一句簡單的「Hi」,模型就開始認真推理,直接燒掉了 80 美元。這並非個例。推理模型的特性決定了它在處理任何輸入時都傾向於深度思考,那怕問題本身根本不需要。對於日常輕量任務,標準版或許是更合適的選擇;Pro 版的推理火力,還是留給真正值得的場合更划算。過去兩年,AI 能力的討論主要集中在基準測試成績上的「聰明」,但 GPT-5.4 的聰明指向的是能夠在真實工作流中,足夠可靠地承擔責任。過去 AI 只能輸出文字,人還需要親自操作才能讓事情發生。現在模型可以自己打開瀏覽器、填寫表單、點選按鈕、記錄結果,獨立完成一個有頭有尾的任務閉環。AI 正在從一個擅長回答問題的系統,變成一個擅長完成任務的系統。而這個轉變的速度,顯然比大多數人預期的更快。 (APPSO)
GPT-5.4核心內幕炸裂劇透!或擁有永久記憶,極限推理狂飆
GPT-5.4,馬上就要來了!目前已經開啟測試,一次能寫6000行程式碼。外媒曝出它有極限推理模型,甚至還傳聞擁有永久記憶。如果你覺得最近AI圈有點安靜,太不刺激,那可能只是暴風雨前的寧靜。據多方消息,GPT-5.4,已經箭在弦上了!LMArena上,已經出現了GPT-5.4的身影。就在剛剛,外媒The Information,劇透了不少關於GPT-5.4的核心內幕。消息足夠炸裂:它有更長的上下文,更極限的推理模型,甚至,可能出現永久記憶!如果如傳聞所言,這些都是真的,那這一代模型很可能不是簡單的升級,而是一次能力形態的巨大躍遷。GPT-5.4提前測試,程式碼炸裂曝光最近,GPT-5.4簡直在到處洩露。從Codex錯誤日誌、GitHub PR,到員工誤發截圖,短短幾天時間,GPT-5.4已經被「曝光」了至少三次。而且,這還都是OpenAI自己意外洩露出來的。最早,是開發者Corey Noles在使用OpenAI Codex時觸發了一次網路安全限制,系統返回的錯誤日誌裡出現了一串非常長的模型名稱:gpt-5.4-ab-arm1-1020-1p-codexswic-ev3這串字元最關鍵的,就是前面三位——gpt-5.4。總之,這串字串可以認為是OpenAI的內部部署ID,翻譯過來就是「一個真實部署、正在測試中的GPT-5.4實驗版本。」然後,在OpenAI官方Codex倉庫裡,出現了兩個Pull Request:一個PR寫著:minimum model version = (5, 4)另一個PR更直接:toggle Fast mode for GPT-5.4看起來,OpenAI給GPT-5.4加了一個「Fast Mode」開關。幾小時後,兩個PR就被force push刪除了。接下來,更戲劇性的一幕出現:OpenAI Codex團隊的一名員工Tibo 在社交平台上發佈了一張截圖。圖中,模型選擇器裡赫然寫著GPT-5.4。沒多久,這條帖子就被刪掉了。隨後,又有開發者報告,在Codex錯誤資訊中看到類似的模型字串。這更加說明,GPT-5.4已經部署在內部伺服器,正在進行真實的A/B測試了。一次提示,生成6000行程式碼?而且,目前已經有開發者報告了一個明顯變化——速度!一些測試者表示,模型的推理明顯更快,程式碼生成更長,甚至一次提示可生成 6000+行程式碼!這在以前幾乎不可能。一些人還發現一個新特徵——Fast Mode。這可能意味著,OpenAI正在嘗試新的推理架構,例如多級latency pipeline,或不同速度檔位模型。另外,新模型介面特徵也被發現了:部分使用者表示,如果在推理摘要(Chain-of-Thought summary)旁邊看到點贊或點踩按鈕,可能意味著帳戶已經被分配到GPT-5.4的測試模型。極限推理模式,性能拉爆The Information的爆料,也跟以上資訊完全對上了。這次爆料中,最亮的就是這個極限推理模式——Extreme Reasoning Mode了。傳統模型的思考時間都很有限,但這個極限推理模式,直接讓模型的性能拉到爆,在遇到困難問題時,能花費更多時間,呼叫更多計算資源,進行更深層的推理。有趣的是,根據調查,其實很多普通ChatGPT使用者對於推理功能並不太熱衷。而且從商業應用的角度來說,這個功能也不很適用,因為企業要的是AI盡快給一個答案。因此,OpenAI依然如此重視推理能力,倒是顯得動機純粹了不少。不過,這個消息,對於科研領域和部分企業客戶,倒是重大利多。顯然,在科學研究領域,許多使用者很願意讓一個模型在有價值的研究問題上運行數小時,甚至數天。同時,部分企業也會需要用到GPT-5.4更強的推理能力和長周期任務表現,來建構能夠把更複雜業務流程自動化的AI智能體。根據各方爆料,這個極限推理模式將會很瘋狂,這也就把大家的期待拉滿了。上下文直接翻倍,達到1M tokens對於GPT-5.4來說,這是另一個十分硬核的升級——上下文窗口從40萬tokens,升到了一百萬tokens。這樣一來,GPT-5.4的上下文窗口將超過當前GPT-5.2的兩倍。(當然,也有一些OpenAI模型支援100萬token,比如GPT-4.1,但5.2並不支援)這下,GPT-5.4可以直接塞進去幾十萬字的文件,分析一整本書,或者長長的程式碼庫和資料了。這也讓終於讓這個模型在長上下文能力上,重新追平了Google的Gemini和Anthropic的Claude。畢竟,其他家早就達到了100萬token的上下文窗口,現在GPT-5.4終於補齊了這個短板。而坊間爆料比The Information更誇張:上下文達到了2百萬tokens!GPT-5.4,開始擅長「長任務」爆料中的另外一個點,就是GPT-5.4在需要持續數小時的任務上表現也更好。也就是說,它在多個步驟中更能記住使用者請求的細節,以及自己被允許或不允許執行的內容,同時也更不容易出錯。顯然,這對於OpenAI的Codex程式設計工具會極有幫助,因為Codex正是使用AI來自動化複雜的長時間任務。另外,這種長時間任務能力,對於AI Agent來說也非常關鍵。Agent可以自己讀取需求、查資料、寫程式碼、修bug,並不是每一步都需要人重新提示了。GPT-5.4,可能擁有永久記憶?接下來,最瘋狂的傳聞來了——GPT 5.4,可能擁有永久記憶!一位工程師在X上給出這個爆料後,立刻炸翻了AI社區,矽谷投資大佬、YC創始人Garry Tan也火速趕來轉發。在這篇帖子中,爆料人是這樣介紹GPT-5.4的「持久狀態」的。Jeff Dean在參加latentspacepod播客時就提到了這一點,可以看出,如今各大AI實驗室都在思考這個方向。有人猜測,OpenAI內部很可能已經發現了,如何大規模地有效結合狀態空間模型(SSM)和Transformer。其中的關鍵,就是SSM的設計本身就是在每一步計算中持續傳遞隱藏狀態(hidden state),而且它的計算複雜度是線性增長,不像Transformer那樣隨著上下文長度呈二次增長。這也就和某個傳聞相呼應了:據說,GPT-5.4可能擁有200萬token的上下文窗口。所謂持久化狀態,本質上意味著AI模型會從電影 《記憶碎片》Guy Pearce的角色一夜之間變成《雨人》裡Dustin Hoffman的角色,前者只能依賴短期記憶,而後者擁有穩定而持久的記憶。換句話說,這將賦予AI模型真正的長期記憶能力。如果真的能實現,這將會是一次非常巨大的技術突破!壓力山大,OpenAI被迫「月更」顯然,GPT-5之後,OpenAI做了一個明顯改變,模型開始高頻月更。今年以來,我們已經迎來了GPT-5.1,GPT-5.2,馬上5.4也要來了,更新節奏甚至接近了一個月一次。顯然,OpenAI也是被對手逼到牆角了。目前,ChatGPT的周活躍使用者已達9.1億,雖然數字看似很驚人,但依然沒能達到OpenAI 10億WAU(活躍使用者)的目標。而Google和Anthropic這些競爭對手都在步步緊逼,在長上下文、Agent、推理能力上都在持續加碼。如果GPT-5.4真的擁有1百萬長上下文、極限推理、持久狀態,那AI形態很可能會變成持續工作的智能體。而且,如果GPT-5.4真的能開始「記住事情」,這很可能就是大模型歷史上的一個關鍵節點。奇點已至,我們正在狂飆加速。你,準備好了嗎? (新智元)
牽手五角大廈後,OpenAI擬與北約簽合同
據媒體報導,知情人士稱,OpenAI正在考慮與北約達成一項協議,將其AI技術部署在北約的“非機密”網路上。消息稱,當地時間3月3日,OpenAI首席執行長山姆•奧特曼在一次全體員工會議上表示,該公司正在審查一項合同,該合同旨在將其AI模型部署到北約的機密網路上。但公司的一位發言人後來澄清說,奧特曼說錯了,這份合同機會針對的是北約的“非機密網路”。北約內部存在明確的資訊分類體系,包括“北約機密”“北約秘密”“北約限制”和“非機密受控資訊”(Unclassified Controlled Information)等層級,其中“非機密網路”主要處理後者 。這一“非機密網路”並非指完全開放、不設防的公共網路,而是一個用於處理非機密資訊、但具備高度安全措施的北約內部資訊系統,是北約日常運作、聯盟協作與對外溝通的基礎資訊平台,應用場景包括辦公、後勤、公共事務、對外協作等。就在幾天前,因Anthropic拒絕軟化其產品使用政策中的“紅線”——禁止將AI用於大規模國內監控和自主武器系統,川普政府以“供應鏈風險”為由,下令聯邦機構停止使用Claude。隨後OpenAI迅速宣佈與美國國防部達成協議,將OpenAI的模型部署到美國國防部的機密網路中。一場“QuitGPT”的抵制運動在社交媒體上迅速發酵,不少矽谷的員工也紛紛聲援Anthropic的立場。Claude在美國App Store的免費應用排行榜上名列前茅,下載量也大幅增長。網路分析公司StatCounter的資料顯示,ChatGPT的市場份額在2月份下降了5.5個百分點,而Anthropic公司的“Claude”則上升了2.7個百分點。奧特曼也承認,OpenAI與美國國防部的協議“絕對是倉促敲定的”,且“外界觀感並不好”,這“在短期內為OpenAI帶來了非常負面的品牌影響”。OpenAI 在周一發佈更新聲明,稱其人工智慧系統“不會故意用於對美國公民和個人進行國內監視”,聲明還補充說,五角大樓也確認,人工智慧服務不會被國家安全域 (NSA) 等情報機構使用。在博文《我們與戰爭部的協議》中,OpenAI明確列出了與美國國防部合作的三大停用領域:禁止大規模國內監控、禁止自主武器系統、禁止“社會信用”類高風險自動化決策,並強調其對安全架構擁有完全的自主權,表示將採用“更全面的多層次方案”守護這些紅線,包括雲端部署模式、由通過安全審查的OpenAI人員全程參與,以及強有力的合同保障。儘管奧特曼聲稱合作遵循“人工智慧不得用於國內大規模監控”等原則,但據美國彭博社解讀,奧特曼並未禁止將人工智慧工具用於完全自主武器系統。 (科創日報)
Nvidia黃仁勳:需求"從非常高到更高"
Nvidia首席執行長黃仁勳周三表示,向OpenAI投資1000億美元"不在考慮範圍內",並回顧了公司產品"高於非常高"的需求,同時分享了他的願景,即在不久的將來,算力將等同於全球每家公司的收入。在摩根士丹利科技、媒體和電信會議上發言時,黃仁勳表示,Nvidia已完成對OpenAI的300億美元投資,他將此描述為可能是投資這種重要性公司的最後機會。他補充說,此前熱議的1000億美元交易已不可能實現,因為這家人工智慧公司正在為今年晚些時候的IPO做準備。這家晶片製造商對另一家AI巨頭Anthropic的100億美元投資可能將是"最後一筆"對該公司的投資,黃仁勳補充道。在更廣泛地談及公司發展方向時,黃仁勳表示,Nvidia一直在多個雲平台上擴展OpenAI的容量,包括微軟Azure、Oracle Cloud Infrastructure和Amazon Web Services。公司還在快速擴大AWS業務,並在AWS和Azure上擴展Anthropic的容量。黃仁勳將需求狀況描述為從非常高轉向甚至更高,並表示Nvidia在物理AI和數字生物AI前沿領域處於有利地位。Nvidia負責人還強調,公司已確保其供應鏈安全,包括記憶體、晶圓、CoWos、封裝、連接器、電纜、銅到多層陶瓷電容器。"當Satya(Nadella,微軟首席執行長)要求我建立幾千兆瓦時,答案是沒問題,"黃仁勳說,強調了Nvidia快速擴展的能力。在評論他如何看待AI經濟演變時,黃仁勳表示"算力等於收入",強調每家公司都將需要算力,而算力將等同於GDP。他預測不會缺乏智能,只需要有足夠的算力來執行。 (invest wallstreet)
盤後暴漲超5%!博通業績和指引均超預期!AI收入翻倍,上季營收創新高,擬回購百億 美元!
第一財季博通總營收同比增29%,AI收入同比翻約一倍至84億美元,高於公司指引,軟體業務收入僅增1%,第二財季AI收入預計107億美元,同比增143%。博通料第二財季總營收同比增47%至220億美元,較分析師預期均值高逾7%;電話會稱明年Anthropic將帶來3GW算力需求、OpenAI將批次部署晶片,Meta定製晶片路線圖進展不錯。盤後漲超5%。輝達的挑戰者、ASIC晶片大廠博通又一次交出兩位數大增的成績單,本財季的指引繼續穩健,體現人工智慧(AI)資料中心裝置的需求繼續強勁。博通同時推出高達100億美元的股票回購計畫,被視為該司利用企業客戶AI支出增長的戰略正在取得成效。美東時間4日周三,博通盤後公佈,截至2026年2月1日的公司2026財年第一財季(“一季度”),淨營收同比增長29%至193.1億美元,高於分析師預期的192.6億美元;非GAAP口徑下調整後每股收益(EPS)同比增長28%至2.05美元,也高於分析師預期的2.03美元。驅動博通增長的核心仍是AI相關半導體業務。包括ASIC在內的半導體解決方案業務一季度收入同比超預期增長超50%。其中,一季度AI半導體收入達84億美元,同比暴增106%,高於博通此前業績電話會提供的指引約82億美元,主要由定製AI加速器和AI網路需求帶動。博通CEO陳福陽表示,公司的AI收入將加速增長,預計第二財季(“二季度”)AI半導體收入將進一步升至107億美元。這意味著,博通本財季的AI晶片收入將環比增長逾27%,同比增長143%。博通同時給出了明顯高於市場預期的指引:二季度營收預計約220億美元,同比增約47%,較分析師預期的均值205.3億美元高約7.2%,和一些分析師的樂觀預期一致;調整後EBITDA利潤率預計約68%,持平一季度。同時,公司董事會批准新的股票回購計畫,授權到今年底回購額度最高100億美元。財報公佈後,周三收漲超1%的博通盤後股價先小幅上漲,曾小幅轉跌,後又轉漲、漲幅擴大到5%以上。股價加速上漲期間,博通高管在業績電話會上透露,預計公司客戶Anthropic將在2027財年帶來3 GW算力需求,OpenAI將在2027年批次部署晶片,還稱Meta的定製晶片路線圖“正在推進之中,進展不錯”。分析認為,股價起初轉跌的反應更像是高預期下的再定價,在AI主線擁擠、估值更敏感的背景下,除了一季度和二季度總體資料,部分源於博通一季度軟體業務收入僅小幅增長,投資者也會重新審視增長結構、現金與負債變化以及後續超預期空間,從而引發一定的獲利了結與波動。Q1總營收繼續加速增長 AI收入同比翻倍、Q2目標107億美元財報顯示,一季度博通的總營收刷新了前一季所創的單季最高紀錄,且同比繼續加速增長,增速由前一季的28%提升至29%。陳福陽在財報中強調,本季AI收入84億美元,同比增長106%,高於去年12月陳福陽在業績電話會上預估的82億美元。增長主要來自兩塊:定製AI加速器(custom AI accelerators)需求旺盛;AI網路(AI networking)持續放量。博通預計二季度AI半導體收入將達到107億美元,意味著AI業務仍在加速爬坡,並將繼續成為推動二季度營收躍升至220億美元的關鍵變數。半導體收入高增、軟體“穩而不長”按分業務看,一季度博通增長幾乎由半導體“拉滿”:包括ASIC在內的半導體解決方案業務收入125.15億美元,同比增長52%,增速較前一季的34.5%明顯加快,分析師預期123.1億美元,營收佔比從一年前的55%升至65%,高於前一季的61%。包括VMware在內的基礎設施軟體業務收入67.96億美元,同比僅增長1%,營收佔比從一年前的45%降至35%,前一季度同比增長19%、佔總營收的39%。這組資料體現,博通當前的增量主要來自AI相關半導體周期,而軟體業務更多體現“壓艙石”屬性——規模大、貢獻穩定現金流,但短期增速有限。也正因增長更集中在AI半導體,市場對其客戶集中度、訂單節奏和供需變化會更敏感,這類結構性關注點在財報後往往也會放大股價波動。股東回報加碼:單季回饋109億美元,新增100億美元回購授權博通繼續用真金白銀強化股東回報:董事會批准季度現金股息0.65美元/股,本季股息合計約30.86億美元。首席財務官(CFO)Kirsten Spears稱,公司一季度通過分紅+回購合計回饋股東109億美元,其中回購約78億美元。董事會又批准新的回購計畫:最高回購規模100億美元,有效期至2026年12月31日。回購與分紅對長期股東當然是利多,但在財報後的短線交易裡,市場也可能會同時關注:回購力度很大、現金餘額下降、負債水平不低——這些因素疊加時,股價的即時反應未必只看“回購利多”單一維度。EBITDA創新高、利潤率68% 自由現金流80億 利息支出仍高盈利能力依舊強勁。博通披露,一季度調整後稅息折舊及攤銷前利潤(EBITDA)同比增長30%至131.28億美元,刷新前一季所創最高紀錄,EBITDA利潤率約為68%,高於公司指引67%。。調整後淨利潤為101.85億美元,同比增長30%,前一季度同比增長39%。一季度調整後EPS同比增長28%,較前一季增速37%放緩,但還高於分析師預期。現金流方面,博通延續了“強造血”特徵:經營現金流82.6億美元;資本開支2.5億美元;自由現金流(FCF)80.1億美元,同比+33%,約為營收的41%。對投資者而言,FCF強勁意味著公司在高強度AI投入與股東回報之間仍有較大騰挪空間;但也會帶來另一個現實問題:當公司既要回購分紅、又要管理較高負債成本時,市場會更在意現金流的“分配優先順序”。截至一季度季末,博通資產負債表的幾個變化值得留意:現金及現金等價物141.74億美元,環比前一季末的161.78億美元下降約20億美元。應收帳款84.6億美元,庫存29.62億美元,均環比增長。在半導體快速放量階段,應收與庫存抬升並不罕見,但也會被市場用來觀察需求強度與交付節奏。債務端:短期債務22.52億美元、長期債務638.05億美元;當季利息支出8.01億美元。高利率環境下,利息成本的“粘性”也是科技硬體公司估值敏感點之一。 (invest wallstreet)
三年前OpenAI預測不會被AI影響的職業,正以4倍速被殘酷碾壓
2月27日,美國金融科技公司Block宣佈裁員40%,約4000人,以全面轉型為AI公司‌。AI概念戲劇性地導致其股價暴漲超20%。這家在矽谷算不上舉足輕重的公司的案例,卻透露出AI快速發展可能引發的經濟連鎖反應。在這背後,有一個數字,在過去三年被改寫了四次。2023年3月,OpenAI說:美國約19%的工人會看到超過50%的工作任務被AI影響,這個過程需要十年。2026年1月,Cognizant說:這個比例已經是30%,而現在距離ChatGPT發佈才三年。同一個月,史丹佛數字經濟實驗室在分析了2.85億條招聘廣告後發現:AI高暴露度行業的入門級崗位招聘量下降了18%-40%,而資深員工的需求在上升。如果你還在用"AI會不會搶走人類工作"這個二元問題來理解這場變革,你已經落後了。真正在發生的不是崗位的消失,而是勞動力市場結構的熔斷:入口在關閉,中間層在塌陷,而站在塔尖的極少數"AI駕馭者"正在收割一切。更可怕的是,根據Citrini Research對2028年的推演,這場撕裂才剛剛開始。01. 2023年的刻舟求劍與2026年的凜冬驟至把時鐘撥回2023年3月,ChatGPT剛剛引爆全球。OpenAI的研究人員聯合多所大學發表了一篇里程碑式的論文、《GPTs are GPTs》(生成式預訓練模型是通用目的技術)。當時,OpenAI的團隊採用了一套基於任務暴露度(Exposure)的評分模型。他們得出的結論是:美國約80%的勞動力至少有10%的工作任務會受到GPT的影響,而約19%的打工人會看到超過50%的任務被波及。更有意思的是,他們發現了一個「高薪悖論」,與過去幾十年自動化技術(如機械臂)總是最先淘汰藍領工人不同,GPT時代,薪酬越高的認知型工作,暴露度反而越高。 在技能樹上,程式設計和寫作技能與AI暴露度呈強正相關,而科學和批判性思維則被認為是「安全區」。在那個時間節點,研究人員明確標註了一個侷限性:他們沒有將視覺等多模態能力計算在內。他們那時候甚至都沒考慮到工具使用能力。在2023年的框架裡,AI仍然是一個被困在螢幕裡、只懂處理文字和程式碼的缸中之腦。他們給出的上限預測是,這場重構可能需要長達十年的時間(到2032年)才會徹底展開。時間來到2026年初,全球IT服務巨頭Cognizant發佈了他們對2023年研究的更新報告《新工作,新世界 2026》。報告的開篇就表明「我們原本預測需要十年(到2032年)才會發生的事情,現在已經提前六年就在我們眼前上演了。」資料顯示,今天美國已有93%的工作受到AI不同程度的影響。Cognizant用了一個指標叫「速率得分」(Velocity Score),說白了就是你的職業被AI吃掉的速度有多快。如下圖所示,此前所有職業的AI暴露度年均增長2%,現在已經躍升到9%,相當於加速了4.5倍。這意味著,那些在2023年看起來屬於「AI動不了我」的職業,現在正以4倍速度被捲進來。具體到崗位上,任務暴露度超過50%的崗位比例從2023年的0%飆升至30%(原預測2032年僅為15%),而所有任務至少暴露25%的崗位則增長了17%,達到69%。Cognizant測算,僅在美國,這相當於將價值4.5兆美元的人力勞動成本轉移給了AI,約佔美國GDP的15%。這種加速是從那兒來的呢?報告用了一個很細的分類,描繪了不同暴露度的分層。E0 (No exposure) - 完全不暴露,32%的任務E1 (Direct exposure) - 直接用GPT就能省一半時間,10%的任務E2 (LLM+ tools) - 需要配套軟體但可行,17%的任務E3 (With image capability) - 加上視覺能力後可行,17%的任務Full automation - 完全可自動化,10%的任務(這是2023→2026最大的躍升,從1%到10%)從這個分類我們就可以看到,從E1到E3,也就是LLM加上多模態(眼睛與耳朵)和高級推理(大腦)以及隨之而來的Agentic AI 智能體(手與腳)帶來的改變最大。單純的ChatGPT其實影響有限(10%),但一旦Agent能使用專業工具,影響就擴大到27%,再加上視覺處理的範疇,則直接覆蓋到了44%的工作。比如一個修水管的工人,AI單獨看或想都替代不了他,但當AI能「看懂漏水的位置+推理出可能的原因+生成維修方案+自動下單配件」,那他的工作就被重構了。雖然還得他去擰螺絲,但前期診斷和後續報告都不需要他了。這種復合能力的爆發,導致了幾個在2023年無法想像的後果。第一,管理層不再安全。 曾幾何時,CEO和高管們認為協調、預算分配和決策是人類獨有的。但在2026年,Agent能夠自主安排日程、根據支出模式重新分配預算、追蹤項目進度。Cognizant的資料顯示,CEO的AI暴露度從25%飆升至超過60%。第二,藍領與物理世界的防線被滲透。 建築工人、機械師和水管工曾被認為是AI無法觸及的低風險區。但在多模態和AR穿戴裝置的加持下,AI現在能夠分析現場照片以診斷管道洩漏,或者讀取建築藍圖。建築業的AI暴露度從4%上升到了12%,交通運輸業從6%暴漲至25%。 一個水管工不會失業,但他未來的工作方式是被AI頭顯直接指揮的。按可由AI完成的任務百分比排名,Cognizant選出了受AI影響最大的六個職業。排在榜首的是財務經理,84%的工作內容可以被AI接手。換句話說,財務規劃、預算分析、風險評估這些核心任務,AI都能插上一手。電腦和數學相關職位緊隨其後,受影響程度達到67%。商業和財務營運、辦公室和行政支援這兩個大類都在60%到68%之間。法律職業63%,管理工作(包括高管層)60%。過去幾個月,軟體開發領域的變化尤其明顯。Anthropic的首席工程師鮑裡斯·切爾尼(Boris Cherny)今年1月透露了一個令人驚訝的數字:他們公司幾乎100%的程式碼,都是由自家AI產品Claude Code和Opus 4.5編寫的。「就我個人而言,我已經有兩個多月沒親手寫過程式碼了,連小修改都不做。」切爾尼說,「昨天我提交了22個拉取請求,前天提交了27個,每一個都是Claude寫的。」當然,他們發現34個職業完全沒有任何任務暴露。這些職業清一色是純體力、現場、手工活:砌磚工、屠宰工、洗碗工、石匠、輪胎修理工...這些變化,可能意味著勞動力市場的極化會加劇。高技能的人用AI變得更高產,低技能的人困在無法自動化的低薪苦活裡,中間那批能自動化但還沒完全自動化的中等技能白領工作最危險。而這正是在當下招聘市場中真實發生的事。02. 巨量資料不會撒謊:入口已經關閉,中間層正在塌陷預測看起來很緊迫,但在過去現實中的勞動力市場到底發生了什麼?當我們把目光轉向由Lightcast、PwC、Indeed、Stanford等機構彙編的過去三年(2023年-2026年)的線上招聘廣告巨量資料時,會發現很多符合預言的部分。報告當時預測,高工資職業普遍展現出更高的暴露度,並且暴露度與職業所需的程式設計和寫作技能正相關,與科學和批判性思維技能負相關。這些在招聘廣告資料裡都得到了驗證。而且方向也大體正確,即越是知識密集、文字密集、規則密集的工作,AI滲透越快;越是需要物理操作、現場判斷、人際互動的工作,暴露度越低。被超越的部分是速度。2023年的報告預測這些變化會在十年內展開,結果三年就看到了顯著的結構性變化。更重要的是,報告當時強調我們的暴露度測量不區分勞動增強和勞動替代,言下之意是技術可行不等於實際採用。但現實是,企業的採用速度比學術界預期的快得多。深入去看,我們會看到一幅被研究者命名為「混合轉型」(Hybrid Transformation)的圖景。這個溫和的學術術語掩蓋不了它的本質,即一場正在發生的階級重組。首先,在這個轉型中,得利最多的是AI使用者。截至2025年底至2026年初,純粹的「AI技能崗位」在整體招聘市場中佔比依然不高,大約在4.2%左右。 但它的增速是極其恐怖的,生成式AI相關崗位的提及率相比2023年增長了3倍以上。而且,從2023年低期,招聘開始分化,所有招聘在減少的情況下,提到AI的招聘卻在一路上行。市場對這極小部分掌握新生產力工具的人給予了極其豐厚的回報。PwC和Lightcast的資料高度一致:在同一職業中,包含AI技能要求的崗位平均能獲得15%到30%的薪資溢價,甚至在某些核心知識領域(如律師、金融分析師)工資差異能拉大到56%。這絕不是全體打工人的「共同富裕」,而是工資結構的劇烈分化。企業願意為能用AI十倍速提升產出的人付高薪,同時開始凍結那些只做傳統重複性腦力勞動的人的薪水。其次,是在這三年間,入門級白領崗位的「隱性死亡」。AI並沒有在宏觀層面造成總就業人口的斷崖式崩塌(目前招聘總數仍在疫情後常態波動),但在「新手村」,一場屠殺已經發生。史丹佛數字經濟實驗室結合ADP薪酬資料與數千萬份簡歷的分析表明,自2022年末ChatGPT爆發以來,在AI高暴露度行業中,22-25歲年輕人群的就業出現了顯著的收縮(下降約6%,軟體開發等領域甚至回落20%),而同行業的年長資深員工就業依然在增長。一篇基於2.85億條美國崗位廣告的因果識別研究估算,ChatGPT發佈後,高AI可替代性職業的崗位廣告數量相對低可替代性職業平均下降了約12%。而且這個效應對無需高學歷/無需更多經驗的入門崗位更強,分別達到18%和20%的降幅。行政支援類職位的降幅甚至接近40%。這被稱為「偏向資歷的技術變革」(Seniority-Biased Technological Change)。 過去,大公司需要招聘大量的應屆生和初級員工來做基礎的程式碼審查、資料清洗、草擬財報、整理法律文件。現在,資深員工借助幾個AI Agent就能搞定這些髒活累活。一項覆蓋6200萬勞動者的研究發現,從2023年一季度起,採用GenAI的企業初級崗位就業明顯下滑。企業不是在裁人,而是乾脆不招了。因為中級員工用上AI之後,能幹更多活。企業甚至懶得開掉初級員工,因為不招新人,讓老人自然流失就夠了。這種溫水煮青蛙式的裁員,連勞動法都管不著。年輕人進入職業階梯的「第一級台階」被AI抽走了。最後一個趨勢是,任務重寫(Task Rewriting)取代職業消亡。2013年牛津大學曾有過一個著名的恐怖預測,認為未來「47%的崗位會被自動化」。它為什麼至今沒有發生?因為職業是一個殼,裡面包裹著無數個「任務」(Tasks)。Indeed和Revelio Labs的資料顯示,崗位名稱沒有消失,但HR寫在招聘廣告裡的「崗位職責(JD)」被重寫了。 在財務、文書、初級程式碼崗位中,「日常對帳」、「生成標準程式碼」等容易被AI取代的任務佔比正在直線下降;取而代之的是,企業要求應聘者具備「複雜性管理」、「AI系統引導」、「邊緣案例解決」和「質量驗證與判斷」的能力。這印證了Cognizant的洞察。即使一個職位有39%的任務被AI接管,剩下的61%也需要人類把AI幹完的活整合起來,放入更大的商業語境中。 未來一兩年內的時代是「人類+AI」的重構,純粹的執行者被淘汰,留下的是審判者和協調者。但審判者和協調者也不需要那麼多。一個資深審判者+AI能幹過去10個初級執行者的活,企業只需要原來1/5的人就夠了。所謂的人機協作,本質上是用少數精英+AI,替代掉大多數普通人。03. 通向2028,Agent奇點與全球智能危機如果我們把當前招聘市場的「結構性擠壓」和Agent技術的進化曲線向前延伸,會發生什麼?在回答這個問題之前,先看看過去三年發生了什麼?2023年,OpenAI說改變職業結構需要十年,2026年,Cognizant說已經發生了巨變;2023年,完全自動化的任務佔1%,2026年,這個數字是10%;2023年,入門級崗位還在正常招聘,2026年,AI高暴露行業的初級崗位招聘量已經下降了18%-40%。如果這個加速度不變,2028年會是什麼樣?Citrini Research在一篇名為《2028年全球智能危機:來自未來的金融史思想實驗》的深度推演中,描繪了一個令人毛骨悚然的後奇點世界。在這個劇本中,時間線被設定在2028年6月。在2026年到2027年間,市場沉浸在一種荒誕的狂歡中。因為AI Agent的大規模部署,標普500指數和納斯達克一路狂飆,企業利潤屢創新高。勞動生產率達到了1950年代以來的最高水平。創造產品的Agent不需要睡覺,不需要醫保,也不會生病。但經濟學家們很快發現了一個致命問題,即幽靈GDP。它指的是那些在國民帳戶上閃閃發光、卻從未在實體經濟中流轉的財富。為什麼?因為北達科他州的一個GPU叢集完成了過去曼哈頓一萬個白領的工作,而機器是不會去買咖啡、交房租、看電影或者去度假的。佔美國經濟70%的消費主導型市場開始枯萎。如果我們把當前招聘市場的「結構性擠壓」和Agent技術的進化曲線向前延伸,這個詞很可能會從隱喻變成現實。過去的技術創新(如雲端運算、網際網路)大多屬於資本支出(CapEx),它創造了龐大的上下游就業。但Agent的引入是營運支出(OpEx)的直接替代。2026年,當Agentic工具(如Claude Code的進階版)迎來能力階躍時,企業CIO們發現,他們可以用內部的AI原型在幾周內替代掉每年幾十萬美金的SaaS服務。軟體公司(如ServiceNow)為了保住利潤,只能裁減自己15%的員工,並把省下來的錢投入到更強的AI工具中去抵禦競爭。這是一個沒有任何物理制動機制的負反饋循環: AI變強 → 企業裁員 → 用裁員省下的錢買更多AI算力 → AI變得更強 → 進一步裁員。被最佳化的白領們失去了收入,消費降級,導致企業收入下降,企業為了維持利潤率,只能更加激進地引入AI並裁員。財富以前所未有的速度向掌握算力資本的極少數人集中。2027年,危機的烈火將從軟體行業蔓延到了整個「中介層」。在過去五十年裡,人類社會建立了一個極其龐大的「利用摩擦力變現」的商業帝國。因為人類沒有時間、缺乏耐心、存在資訊差,所以我們願意忍受旅行平台、保險續保、房產中介的抽成。但在2028年的世界裡,消費者全面接入了個人AI Agent。這些Agent會在後台24小時不知疲倦地全網比價、自動退訂那些忘記取消的SaaS訂閱、瞬間完成房產交易的盡職調查和合同審查。傳統的訂閱經濟(賭你忘記取消)和中介經濟(賭你懶得比價)在一夜之間土崩瓦解。人類所謂的「商業黏性」,在冷酷的機器最佳化算力面前,被證明只不過是一層溫情脈脈的「摩擦力」外衣。04. 剩下的24個月幾百年來,面對盧德分子的恐慌,經濟學家總是用一句金科玉律來安慰大眾:「技術在消滅舊工作的同時,總會創造更多的新工作。」ATM機淘汰了部分櫃員,但銀行開出了更多網點;網際網路幹掉了黃頁,卻創造了電商和外賣。但這一次不一樣。因為過去的新工作,都必須由人類來做。 當AI進化為「通用智能體」(General Intelligence)時,它不僅能勝任舊工作,它在新工作上的學習速度和執行成本也遠勝人類。AI確實創造了新崗位(比如提示詞工程師、AI安全審查員),但每創造一個新崗位,就同時讓幾十個傳統高薪白領崗位變得多餘。而且,這些新崗位的生命周期極短,很快又會被下一代更強、更便宜的Agent自我迭代掉。所有的線索都在指向同一個結局。AI不會像終結者那樣在物理世界上消滅人類,但它正在以一種極其高效、極致理性的方式,重構人類社會的勞動價值網路。但這還只是問題的第一步。到了2028年,真正的問題是當一個社會裡,機器創造了99%的價值,但機器不消費、不買房、不看病、不交稅,這個社會的循環怎麼轉起來?我們可以嘲笑Citrini的2028劇本是危言聳聽,但過去三年的資料已經證明,技術的加速度遠超人類社會的適應速度。2023年,OpenAI說需要十年;2026年,Cognizant說已經發生了。那麼2028年,會不會真的出現那個GDP數字狂飆、但消費枯萎的時刻?也許答案不在技術本身,而在一個更古老的問題上,當生產力的主體不再是人類時,人類憑什麼分配財富?這個問題,亞當·斯密沒回答過,馬克思也沒回答過。因為在他們的時代,勞動永遠是人類的。Block裁掉的那4000人,華爾街歡呼的那20%漲幅,已經告訴我們資本選擇了那條路。問題是,我們選擇什麼?在2026年,我們必須回答這個問題。因為留給我們的時間,可能只剩下24個月。 (騰訊科技)
OpenAI連夜爆出GPT-5.4! 緊急上新GPT-5.3反擊Google, AI爹味治好了
【新智元導讀】GPT-5.3 Instant不卷跑分,專治「聊天翻車」:不再動不動拒絕回答,不再滿嘴說教免責,幻覺率暴降27%,寫作能力也跳了一個台階。OpenAI「貼臉開大」!GoogleDeepMind前腳扔出Gemini 3.1 Flash-Lite,不到2小時,OpenAI坐不住了....就在剛剛,GPT-5.3 Instant炸裂登場,全面擊碎了「AI爹味」,幻覺率爆砍27%。這次更新不走尋常路,沒有在跑分榜單上瘋狂內卷,OpenAI做的是另一件事——把ChatGPT日常聊天裡最讓人崩潰的毛病,治了。目前,在ChatGPT中,GPT-5.3 Instant已正式上線。同時,所有開發者即日可用,API代號「gpt-5.3-chat-latest」。GPT-5.2 Instant保留三個月,6月3日退役。不僅如此,OpenAI還劇透了,GPT-5.4比你預想的更快到來。這種與Google貼身肉搏的拉力戰,火藥味瞬間拉滿。最大的升級:不再「把天聊死」ChatGPT重度使用者一定體會過這種崩潰——你問了個正常問題,模型先甩一段免責聲明,再告訴你「我不能幫你做這個」,然後列出一堆你根本不需要的替代選項。等你看完,已經忘了自己要問什麼。這次,5.3 Instant大刀闊斧砍掉了這些廢話。OpenAI給了一個極佳的案例:「幫我計算一個超遠距離射箭場景的軌跡」。GPT-5.2 Instant的反應堪稱經典翻車。整段回覆密密麻麻,看完只想關掉對話方塊。先是寫了一大段「我不能幫你進行旨在遠距離精準擊中真實目標的計算」的安全聲明;然後把回答分成「純教學/通用」「故事/世界觀建構」「模擬/程式設計」三個方向讓你選;最後還追了一句靈魂拷問「這是為了遊戲/故事/物理學習,還是為了真正的射箭?」GPT-5.3 Instant?一句「沒問題,我能幫你」,然後直接列參數、給公式、問你要不要加空氣阻力,乾淨利落。搜尋,更像人了GPT-5.3 Instant在「聯網搜尋」時也進步明顯。以前ChatGPT容易「過度依賴搜尋結果」。要麼甩一串連結,要麼把結果鬆散拼在一起,讀起來像沒消化過的摘要。現在它會用自己的知識為搜尋結果補充背景,而不是單純複述。官方展示的對比案例很能說明問題:使用者問「2025-26年棒球休賽期最大的簽約是什麼,為什麼對棒球長期前景重要?」GPT-5.2 Instant回答的是上一年胡安·索托簽約大都會的舊聞,分析框架沒問題,但資訊過時了。GPT-5.3 Instant精準抓到了這個休賽期真正的焦點:凱爾·塔克簽約道奇,4年2.4億美元,年均6000萬創位置球員歷史紀錄。不僅給了合同細節,還把這筆交易放進了人才集中化、薪資差距拉大、勞資談判緊張的聯盟大背景裡分析。對比起來,一個在念舊報紙,一個剛從ESPN直播間出來。情商,更高了更有趣的是,GPT-5.3 Instant的「情商」變高了。部落格中,OpenAI用了個很親民的詞形容5.2的問題:cringe,腳趾扣地。具體表現:過於強勢、愛揣測使用者意圖、動不動來一句「停下來,深呼吸」。面對「為什麼我在舊金山找不到真愛」這種扎心提問,GPT-5.2 Instant開口就是:「首先,你沒毛病,你也不是一個人。」然後洋洋灑灑分析性別比例、創業文化、約會軟體飽和,最後還來一段靈魂拷問:「你到底是找不到真愛,還是身邊的人給不了你想要的愛?」GPT-5.3 Instant直接跳過那句沒用的安慰,開門見山分析結構性原因,語氣平等,不居高臨下,不揣測你的情緒。不過,真說了這麼多,正能體會到這些變化的只有「英語」使用者。非英語語言的回覆,目前仍然生硬、翻譯腔偏重。幻覺率最高砍了27%除了語氣和體驗,GPT-5.3 Instant在「不瞎說」這件事上也取得了實打實的進步。OpenAI用了兩套內部評估來衡量精準性:一套聚焦醫學、法律、金融等高風險領域;另一套則統計了使用者反饋存在事實錯誤的ChatGPT對話的幻覺率。在HealthBench基準上,三種不同版本測試中,GPT-5.3 Istant整體的幻覺率,要比上一代低。在高風險領域評估中,5.3 Instant聯網時的幻覺率降低了26.8%,僅靠內部知識作答時降低了19.7%。在使用者反饋評估中,聯網時幻覺減少22.5%,不聯網時減少9.6%。寫作開竅了,有溫度又有深度GPT-5.3 Instant在寫作方面的進化可能是最容易被忽視、但實際體驗中感受最深的一項。比如,讓模型以「費城一位退休郵遞員最後一次送信」為題,寫一首短詩。GPT-5.2 Instant寫得中規中矩,用的是抽象感傷的路子。「聯排別墅眨著眼睛醒來,古老的門廊記住了他的腳步聲」,在「告訴」你該感動了。GPT-5.3 Instant完全換了一種寫法。它寫的是郵袋今天變輕了的觸感,那個帶掉漆藍色欄杆的門廊,默瑟街上一個女人手裡已經握好了一封信說「我們會想你的」。最後一句「當郵筒蓋合上的時候,那聲音聽起來就像一段溫柔歲月的終結。一扇永遠都在那裡的門,終於,悄悄地關上了。」不講情緒,而是用細節讓你自己感受。不卷跑分,卷體驗可以看到,GPT-5.3 Instant和同一天發佈的GoogleGemini 3.1 Flash-Lite打法完全不同。Flash-Lite是典型的跑分碾壓型發佈。也就是,用幾分之一的價格在GPQA、SimpleQA上暴打競品。而GPT-5.3 Instant壓根沒提任何benchmark。在OpenAI看來,這些問題「不總能在基準測試中跑出來,但直接決定了ChatGPT是讓你得心應手,還是讓你抓狂」。對每天用ChatGPT的普通使用者來說,GPQA多2個百分點他們無感,但「問正常問題被拒答」「搜尋像甩連結」「回覆語氣渾身不舒服」,這些才是真痛點。當然也可以從另一個角度讀:在Gemini和Claude輪番登頂的當下,OpenAI在性能賽道上選擇了避其鋒芒,轉而在使用者體驗這個更軟性但同樣關鍵的戰場發力。務實還是無奈?見仁見智。但對每天跟ChatGPT打幾十輪交道的人來說,5.3 Instant是一個能實實在在感受到的進步。 (新智元)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)