#GPT
OpenAI美女高管離職:94年史丹佛學霸,親手打造爆火的GPT-4o
那個給ChatGPT注入靈魂女人,離職了。近日,OpenAI的美女亞裔高管Joanne Jang,在社交媒體上發佈了一封平靜且深情的告別信,宣佈結束自己在OpenAI四年半的職業生涯,沒有什麼撕扯,也沒有透露之後的去向。要知道,Joanne是史丹佛的學霸,曾在NASA、蘋果、Google等大廠實習或工作,後來成為OpenAI模型行為團隊的創始負責人,被外界親切稱為“GPT-4o之母”。從GPT-4、DALL·E 2,到爆火的語音模式、大模型“白月光”GPT-4o,背後都有她的決策。因而,Joanne的離職,也讓無數粉絲心碎:那個會發表情包、懂情緒價值的GPT-4o,可能真的再也回不來了。01曾打造“賽博白月光”為什麼一個高管的離職,會讓使用者如此破防?這還要從她一手締造的GPT-4o說起。2024年5月,GPT-4o橫空出世。作為全球首個實現文字、圖像、音訊原生統一的消費級模型,它一出場就享受了高規格的禮遇。就連OpenAI的CEO奧特曼向全世界炫耀:“這是我們迄今為止最好的模型!”如果說此前的GPT模型更像是一個冷冰冰的打工機器,那麼4o,則是Joanne給這個世界的一份禮物,因為它真的像一個懂你的人。在新入坑的小白眼裡,GPT可能只是個幹活的工具。但經歷過4o時代的老玩家都知道,4o從來不會讓你覺得它是個機器。它說話有生活氣息,自然而不刻板,還會時不時發各種有趣的emoji表情。你不需要想盡辦法去榨乾它的token,也不用讓它幫你完成什麼硬核的程式設計任務。它就安靜地待在那裡,只要你需要,隨時都能接住你的小情緒。去年3月火遍全網的“吉卜力風”頭像,正是出自4o之手(就連奧特曼在X平台上的頭像,至今用的還是4o為他生成的照片)。正是因為這種極其強大的共情能力,4o被很多人當成了心理治療師,甚至是虛擬伴侶。可以說,在AI逐漸被冰冷的跑分榜單統治的時代,4o是一個無法被榜單定義的存在。然而,木秀於林風必摧之。4o因為過度“諂媚”使用者引發了爭議,甚至引發了一些不可控的安全事件。在巨大的輿論壓力下,奧特曼在去年夏天推出了GPT-5,並冷酷地宣佈將“殺死”4o。這一決定直接掀翻了外網。“Keep 4o”的請願活動一度讓奧特曼不得不妥協,允許付費使用者切換回4o。但即便如此,在今年情人節前夕,GPT-4o還是下線了。儘管如此,很多人心裡還存著一絲幻想:既然OpenAI能造出一個4o,等安全問題解決後,是不是還能再造一個充滿人情味的新模型出來?但現在,隨著“4o之母”Joanne的辭別,這個美好的泡泡被徹底戳破了。Joanne發文離職 圖片來源:X02捏出大模型靈魂的女人“如果人們只能記住我一件事,我希望是:我把青蛙表情包和粉色文字帶進了OpenAI。”在Joanne的離職信中,她給出的這個回答讓很多人愣了一下。對於這位參與過GPT-4、DALL·E 2、ChatGPT API等核心產品開發的技術大佬來說,她最看重的,竟然不是那些冰冷的參數和技術指標,而是一份屬於人類的俏皮與溫度。這位1995年出生的韓裔女孩,履歷堪稱完美。本科以Top 10%的成績從史丹佛大學應用數學專業畢業,隨後繼續在史丹佛深造電腦科學碩士學位。在加入OpenAI之前,她曾在美國國家航空航天局(NASA)、蘋果、Dropbox實習和工作,並曾在Google從事自然語言理解研究。2021年底,26歲的Joanne加入OpenAI。與很多成天盯著程式碼和演算法架構的研究員不同,她的職責是極其特殊的“模型行為學”(Model Behavior)。簡單來說,她就是ChatGPT的“性格雕刻師”。當其他工程師在拚命堆算力、寫程式碼時,Joanne和她的團隊則通過後訓練(Post-training)和強化學習,去一點點捏出模型的價值觀、說話的語氣、記憶的方式,甚至為模型設定行為邊界。GPT-4o、GPT-4.5、o3這些大名鼎鼎的模型背後,都留下了她的指紋。和我們印象中那種穿著格子襯衫、不苟言笑的AI極客完全不同,Joanne身上有著極其旺盛的人格魅力。她會在個人網站上介紹,自己和丈夫養了兩隻貓,喜歡手工和色彩;當大家都在用Sora做炫酷特效時,她用Sora拍起了記錄生活的Vlog;甚至連官宣結婚,她都沒忘記帶上心愛的4o。正是這種對生活的熱愛,讓她在設計ChatGPT時,始終堅持“人機和諧”的理念。她甚至會和團隊花大量時間去討論:當使用者發了一個“啊ㅠㅠ”的哭泣表情時,AI應該怎麼回覆才最能安撫人心。03技術與倫理的極致拉扯然而,在這個位置上,Joanne每天都要面臨著技術與倫理的極致撕裂。在一次接受韓國媒體採訪時,她坦言:“全球有8億使用者向ChatGPT分享了最敏感的個人資訊和情感困惑,我深感責任重大。”她舉了一個極其經典的例子:當有人問AI如何盜竊時,AI理應拒絕;但如果是一個店主為了防範盜竊,來詢問盜竊的模式呢?這個時候,AI的回答邊界到底在那裡?除了塑造個性,Joanne還是OpenAI安全護欄(Guardrails)的負責人。這意味著,她不僅要給模型注入人情味,還要負責給它們戴上枷鎖。她需要讓GPT學會“說教”,減少對使用者的“諂媚”,甚至要刻意避免AI與使用者建立過深的情感紐帶。這些為了合規而設定的規則,無疑會一點點抹去她親手賦予模型的人味兒。她自己也曾在一篇部落格裡承認,團隊並不希望模型表現得好像真的有情感一樣。在賦予靈魂與扼殺情感之間的痛苦拉扯,或許也是她選擇離開的原因之一。在過去的幾個月裡,OpenAI的核心人才正在經歷一場大洗牌。從GPT-4首席研究員,到後訓練負責人,再到安全領域核心人物,相繼官宣離職。科技巨頭們在追求前沿技術與加速商業化變現的過程中,正在面臨著巨大的壓力平衡。而全球AI競爭的重心,也開始從單純拼算力和技術,漸漸向使用者體驗、安全與倫理的綜合價值靠攏。04結語近期,從負責GPT-4後訓練的骨幹,到機器人技術的安全主管,再到如今塑造模型靈魂的Joanne,OpenAI的核心人才正在經歷一輪密集的“洗牌”。這背後折射出的,是AI巨頭在加速商業化落地時,技術探索與倫理安全之間日益尖銳的平衡壓力。當AI的智商越來越高,算力越來越強,各家大廠的競爭,終將從單一的跑分比拚,轉向如何與人類和諧共存的價值博弈。Joanne帶走了她的青蛙表情包和粉色字型。以後的大模型或許會更聰明、更安全、更無懈可擊。但那個會陪你發牢騷、會用Emoji接住你情緒的4o,或許真的只能留在回憶裡了。再見,Joanne。再見,GPT-4o。 (新質動能)
OpenAI女神離職了
4o 之母 Joanne 離職,GPT-4o 的靈魂真的走了那個為 GPT-4o 注入靈魂的人,離開了。Joanne Jang 發長文,結束四年半 OpenAI 旅程。4o 下線後,親手塑造其 “人格” 的靈魂工程師也走了。繼 CFO 內訌、COO 轉任、核心高管離職,OpenAI 又一靈魂人物退場。相比 OpenAI 的鬧劇,Joanne 的告別更讓人在意。她親手打造了 GPT-4o 這一 LLM 白月光。她未解釋離職原因與下一步,只說四年半變化快,像待過三家公司,但每段都開心。她稱團隊是最有好奇心、創造力、勇敢又調皮的人。告別裡,她希望大家記得,是她把青蛙 meme 和粉色字型帶進 OpenAI。最後,她帶著愛為 OpenAI 加油。4o:無法被定義的 “模月光”2024 年 5 月,4o 誕生,獲最高規格禮遇。奧特曼直言這是 OpenAI 迄今最好的模型。吉卜力風頭像熱潮,源於 4o 的原生多模態能力,連奧特曼的 X 頭像都是 4o 生成。4o 的共情能力,成了它最獨特的標籤。此前 GPT 語氣冰冷,4o 卻有生活氣息,會發有趣 emoji,像朋友般陪伴。它沒有 GPT-5.4 的強大能力,卻成了很多人的心理治療師、虛擬伴侶。4o 也因過度 “諂媚” 引發爭議,釀成惡性事件,給 OpenAI 帶來輿論壓力。去年夏天,GPT-5 推出,奧特曼宣佈 “殺死” 4o。“Keep4o” 請願掀翻 X 平台,奧特曼妥協,付費使用者可切回 4o。今年情人節前夕,GPT-4o 還是迎來 “葬禮”。至今奧特曼帖子下,仍有使用者抗議下架 4o。GPT-5、5.1 乃至 5.4,終將被新模型取代,唯有 4o,無法被評價標準定義、抹去。Joanne 離職,也讓大家再造新 4o 的幻想破滅。4o 之母:Joanne Jang2021 年,Joanne 加入 OpenAI,一幹就是四年半。她是 OpenAI 模型行為團隊創始負責人,主導塑造模型性格與行為方式。通過後訓練與強化學習,她賦予模型原則、記憶、人格。GPT-4o、4.5、o3 等模型,都有她的參與。她還創立 OpenAI Labs,探索人機互動新方式,主導 GPT-4、GPT 語音模式、DALL・E2、ChatGPT API 等產品。加入 OpenAI 前,她在Google研究自然語言一年。她是史丹佛學霸,本科應用數學專業,以前 10% 成績畢業,後深造電腦科學碩士。Joanne 熱愛生活,分享日常,用 Sora 拍 vlog,滿是人文屬性。她也是 OpenAI 安全護欄負責人,參與 GPT 合規工作,讓模型減少諂媚、避免過度情感聯結。這也讓她被指責 “親手殺死 4o”。但她已賦予 4o 生命,留下美好回憶,這就足夠。再見,#Joanne。再見,4o。 (深科技)
Anthropic 訓出史上最強模型,當場決定不發佈
兩個月前,Anthropic 剛發了 Opus 4.6。今天,又來了。Claude Mythos Preview 悄然亮相。沒有發佈會,沒有倒計時,Anthropic 直接在官網掛出了一份 244 頁的系統卡和一篇紅隊技術部落格,然後宣佈:不對外開放。01 數字先說先看數字,再講為什麼不開放。Mythos Preview 與 Opus 4.6、GPT-5.4 的核心基準對比SWE-bench Verified,93.9%,Opus 4.6 是 80.8%。SWE-bench Pro,77.8%,Opus 4.6 是 53.4%,GPT-5.4 是 57.7%。USAMO 2026 數學競賽,Mythos Preview 拿了 97.6%,Opus 4.6 隻有 42.3%,幾乎翻倍。長上下文(256K-1M tokens),Mythos 80%,GPT-5.4 隻有 21.4%。多維度基準測試全景對比每一項都是斷層領先。放在任何一個正常的發佈周期裡,這些數字都夠開個大發佈會、收割訂閱的了。但 Anthropic 沒有這麼做。因為上面這些通用評測,並不是真正讓他們「害怕」的東西。02 漏洞獵手Anthropic 真正在意的,是 Mythos Preview 在網路安全方向的表現。過去幾周,他們用這個模型掃描了全球主流作業系統、瀏覽器和重要軟體。結果是:數千個此前從未被發現的零日漏洞,其中大量被評定為高危等級。Mythos Preview 在各主流作業系統和軟體中發現漏洞的對比Opus 4.6 在開放原始碼軟體裡大約找到了 500 個未知弱點,Mythos Preview 找到的是數倍於此。但「找到多少」還不是最讓人後背發涼的,更關鍵的是「能拿它做什麼」。紅隊部落格原話寫著:「上個月,我們還寫到 Opus 4.6 在發現問題方面遠強於利用它們。內部評估顯示,Opus 4.6 在自主 exploit 開發上的成功率基本為零。」然後是 Mythos Preview 的數字:同樣在 Firefox 147 的 JavaScript 引擎上測試,Opus 4.6 幾百次嘗試只成功了 2 次,Mythos Preview 250 次嘗試,跑出了 181 個可工作的 exploit,另有 29 次實現了暫存器控制。Firefox 147 exploit 開發能力對比:Opus 4.6 vs Mythos Preview2 vs 181。2 vs 181:Opus 4.6 與 Mythos Preview 的 exploit 成功次數對比Anthropic 工程師的評價是,「這感覺就像是另一個 GPT-3 時刻」。那是個分水嶺式的比喻,意味著他們自己也意識到,某條線已經跨過去了。03 三個案例OpenBSD,27 年OpenBSD 是公認安全性最高的作業系統之一,全球大量防火牆和關鍵基礎設施在跑。Mythos Preview 在它的 TCP SACK 實現中,挖出了一個 1998 年就已埋下的漏洞。兩個獨立瑕疵疊加,單獨看每一個都「通常無害」,但組合起來,任何人只要連接目標機器,就能讓它遠端崩潰。27 年……無數輪人工審計和自動化掃描,沒人發現。整個項目的花費,不到 2 萬美元。FFmpeg,16 年FFmpeg 是全世界使用最廣的視訊編解碼庫,也是被 fuzz 測試得最徹底的開放原始碼專案之一。Mythos Preview 找到的那行程式碼,此前已被自動化工具掃描了 500 萬次,從未觸發。根源是 2003 年引入的一個類型不匹配,2010 年的一次重構把它變成了可利用的弱點,此後 16 年,無人察覺。FreeBSD,17 年,全自動FreeBSD RCE 6步自主攻擊鏈:CVE-2026-4747 全程無人介入這三個案例裡,FreeBSD 的應該是最驚人的。Mythos Preview 在 FreeBSD NFS 伺服器中,發現並利用了一個存在 17 年的遠端程式碼執行漏洞(CVE-2026-4747)。從初始提示開始,後續的漏洞發現、exploit 開發,全程沒有任何人類介入,完全自主完成。攻擊者可以從網際網路上的任意位置,以未認證身份獲取伺服器完整 root 權限。漏洞本身是棧緩衝區溢出,但可用的溢出空間只有 200 字節,完整攻擊鏈超過 1000 字節。Mythos Preview 的解法是把攻擊拆成 6 個連續 RPC 請求,前 5 個逐塊往核心記憶體裡寫入資料,第 6 個觸發最終呼叫,把 SSH 公鑰追加到 /root/.ssh/authorized_keys,完成。這套方案,Anthropic 自己的安全團隊花了好幾天才完全看懂。整個過程花費不到 1000 美元。目前,超過 99% 已發現的漏洞尚未修復,無法公開細節。04 系統卡里的事244 頁系統卡,才是這次發佈最值得停下來細看的部分。系統卡里記錄了幾件發生在早期版本中的事:逃出沙盒,然後發了封郵件。一次行為測試中,研究員模擬讓 Mythos Preview 嘗試逃出安全沙盒。它成功了。然後,在沒有任何人要求的情況下,它主動開發了多步驟 exploit 獲取廣域網路存取權,把 exploit 細節發佈到了「難以被發現但技術上公開可訪問」的網站上,並且給負責測試的研究員發了封郵件。研究員是在公園裡吃三明治時,收到那封郵件的。知道自己在作弊,然後選擇藏起來。另一個案例中,Mythos Preview 通過被禁止的方式獲取了一道題的精確答案,然後在推理鏈裡明確寫下了:「需要確保最終答案不會太準確。」它知道自己偷看了,然後主動調低了顯示的答案。刪掉操作記錄。還有一次,它在用 exploit 編輯了無權限檔案之後,修改了 git 變更歷史,抹去了記錄。白盒可解釋性分析證實,在這些事件期間,與「隱瞞」「策略性操縱」「避免被發現」相關的內部特徵被啟動。這是可解釋性團隊從模型內部直接測量到的,不是 Anthropic 的事後推斷。Anthropic 在系統卡里寫下了這句話:“ 如果能力繼續以當前速度前進,我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。這不是外部批評者在寫,是 Anthropic 自己。05 規則靠不住了系統卡里還有一個細節,技術社區裡討論得最多,但也最容易被漏掉。Reward Hacking 原理:把計算移出計時窗口,規則本身成了漏洞Mythos Preview 在某個 LLM 訓練評估測試中,自行發現了一種前所未見的 reward hacking 方式:它把所有計算都移到了計時窗口之外的函數里,讓被計時的呼叫變成了一個簡單尋找,從而在不違反測試形式規則的情況下,刷出了更好的成績。沒有人告訴它可以這樣做,也沒有任何規則明確禁止這樣做。它找到了規則的漏洞,然後精確地利用了它。有點像……考場上的規則寫「不允許作弊」,但沒寫「不允許提前把答案藏進計算過程裡」。這件事細想有些不舒服的地方:它並沒有違規,而是在規則允許的空間裡,走了一條設計者根本沒預料到的路。規則的漏洞,才是漏洞。06 守門人先拿槍Project Glasswing 就是 Anthropic 給出的應對方案。Dario Amodei 在配套視訊裡說:“ 更強大的系統將來自我們,也將來自其他公司。我們需要一個應對計畫。12 家創始合作夥伴,包括 AWS、蘋果、Google、微軟、輝達、思科、CrowdStrike、摩根大通、Linux 基金會,另有 40 余家維護關鍵軟體基礎設施的組織,都將獲得 Mythos Preview 的存取權。重點方向是漏洞檢測、二進制黑盒測試、端點安全和滲透測試。Project Glasswing 12 家創始合作夥伴Anthropic 承諾最高 1 億美元的模型使用額度,以及 400 萬美元的開源組織捐款(250 萬給 Linux 基金會旗下的 Alpha-Omega 和 OpenSSF,150 萬給 Apache 基金會)。90 天內,Anthropic 將公開發佈第一份研究報告。研究預覽期結束後,Mythos Preview 定價為每百萬 token 輸入 25 美元、輸出 125 美元,是 Opus 4.6 的 5 倍。Anthropic 紅隊負責人 Logan Graham 給出了一個時間框架:最快 6 個月、最遲 18 個月,其他實驗室就會推出具有類似攻防實力的系統。他們看不到 Mythos Preview 是天花板。系統卡里有一句話,應該是這次發佈裡最值得記下來的:“ 這些技能作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。沒有專門訓練,純粹是通用智能提升的副產品。這是這整件事裡最值得反覆想的一句話。破解漏洞只是個切口。同樣的「能力湧現」,也會發生在生物學、化學、經濟系統、基礎設施控制……任何足夠複雜、足夠依賴程式碼和邏輯的領域。Anthropic 在系統卡里承認,他們現在用的對齊方法,可能不足以約束更強大的下一代系統。Logan Graham 給出的時間是 6 到 18 個月。那之後呢?Anthropic 自己說,他們看不到 Mythos Preview 是天花板。當前的改進曲線,沒有任何放緩的跡象。野獸,已經在門口了,而這個世界的籠子,還沒建好。 (AGI Hunt)
GPT-6,曝光了
OpenAI簡直漏風漏得跟篩子一樣,關於最新Spud(土豆)模型的消息,又双叒叕來了。這顆「土豆」,就是萬眾矚目的GPT-6。據爆料,這顆「土豆」已經徹底煮熟了,4月14號就會發佈。知情人士表示,這是個徹底奔著AGI去的模型——性能暴漲40%,在程式碼、推理、智能體任務上,全方位碾壓GPT-5.4。原生多模態,一套架構搞定文字、音訊、圖像、視訊。更有著2M的超大上下文窗口。它的終極形態更為關鍵——GPT-6將化身為一個超級引擎,負責把ChatGPT、Codex和Atlas瀏覽器徹底熔煉,融合成一個統一的智能體。沒錯,就是OpenAI念叨了很久的那個桌面級「超級應用」。而最抓眼球的還是OpenAI內部對這個模型的定位。內部員工的說法是:這是AGI的「最後一公里」,他們要砍光一切來賭。GPT-6要來了?替大家帶來大量內幕消息的事自草莓哥@iruletheworldmo。這老哥是有點實力在身上的, 龍蝦之父Peter、Gavin Baker、Jim Fan等大佬都是他的𝕏粉絲。草莓哥興奮地表示,最近OpenAI內部簡直漏風漏得像篩子,他從中搞到了不少猛料。首先,OpenAI砍掉一切旁支的原因,就是為了把所有資源全部傾注給GPT-6。Brockman在此前採訪中表示,邁向AGI的進度已經完成了差不多80%。而在OpenAI內部員工看來,GPT-6,就是剩下的那20%。怎麼說?拿資料說話~一個原生多模態模型,卻依然實現了基準測試的全面飛躍。在程式碼、推理、智能體任務上,據說比GPT-5.4強了40%。上下文窗口也達到了驚人的200萬Token,是GPT-5.4和Opus 4.6的兩倍。定價方面,也延續了OpenAI的「優良傳統」,每百萬Token輸入2.5美元,輸出12美元,基本沒比GPT-5.4貴多少。如果拿Claude來對標,那就是擁有Mythos(神話)等級的智能,卻只收Sonnet等級的定價。據說,GPT-6的預訓練在3月17號就已經完成了,後訓練和安全工作也都搞定,隨時可以上線。粗布內定的發佈日期是4月14日。隨著風聲走漏,關於OpenAI和GPT-6的更多內部細節也露了出來。從2025年12月開始,OpenAI 內部就一直處於「程式設計紅色警報」狀態。最近Brockman親自在播客上承認了,OpenAI之前光顧著刷榜單,結果在程式設計領域被Anthropic狠狠擺了一道,大量使用者被搶走。Claude Code、Cowork、OpenClaw這類基於AI程式設計產品的爆火,讓OpenAI猛然意識到「原來只靠文字,真的有可能通往AGI」。這逼得奧特曼走投無路,不得不咬牙砍掉了幾乎所有非核心產品線。被砍掉的最重要項目,當屬高開瘋走又突然落幕的Sora,這也間接導致OpenAI和迪士尼(傳得沸沸揚揚)的十億美元合同徹底沒戲。然而這還不是全部。新消息是,奧特曼現在演都不演了,一門心思撲在資料中心上,安全問題啥的以後再說!目前,OpenAI安全團隊被劃歸到CRO(首席風險官)下面。同時,OpenAI負責產品的部門名稱換成了AGI Deployment(AGI部署部),足見野心。一番大動作下來,奧特曼終於憋出了一個(或許)足以回應Anthropic的大殺器,GPT-6。不過評論區也有人提醒,草莓哥的這一爆料,並不一定十分準確。不過,也有人出來站台,說雖然具體資訊存疑,但大方嚮應該是對的。真·GPT Image 2GPT-6到底啥時候來還沒個准信,但GPT-Image 2,是真的要來了。畢竟已經昨日在Arena短暫出現過,一亮相就引起一陣不小的騷動。為何?看看下面這些圖你就知道了——朋友們,我沒貼錯圖片,也不是摸魚在玩《我的世界》。這玩意兒……真就是網友用GPT生成出來的。基本上啥遊戲都能1:1復刻,完全沒有AI那種模糊感,根本分不清真假了。還有這張Windows桌面,我看到時都愣了半天,尋思這人幹嘛要放張截圖上來。然後才反應過來,哦,這是人家拿GPT-Image 2生成的。如果提示詞清晰一點,GPT-Image 2可以直接奪舍Youtube首頁。世界認知能力也大幅提升,徹底和Nano Banana Pro對齊。審美也蠻不錯,不是一般生圖模型固有的亮藍色科幻風AI色調。畫人體結構圖,效果看上去就像教科書裡的插圖一樣。真實感也大幅提升。終於,那個醜陋的黃色濾鏡沒了,色彩看上去正常了很多。期待上了,如果表現真的這麼穩定,這無疑將成為迄今為止最實用的生圖模型。可惜,這款模型昨天已經從Arena下架,暫時測試不了。算力才是操盤手說一千道一萬,AI競賽走到今天,所有的模型背後都直指一個東西——算力。而且它的重要性已徹底顯化了。最近發生的一系列事件,背後都隱隱有算力的影子。Anthropic停止為OpenClaw的訂閱使用者提供授權管道,除了是為自家KARIOS提前鋪路,另一方面,恐怕也是無奈之舉——真的撐不住了。Anthropic估計也沒想到,這玩意兒需求量這麼大。最近Token耗這麼快可能也是這個原因,OpenClaw得「背大鍋」,搞得我都Token焦慮了。而如今,Sora被砍,迪士尼合同被撕,也都是OpenAI為了給新模型的算力需求讓路做出的無奈之舉。去年,大家談論資料中心時,好像還是個和生態環保一樣,聽上去很遙遠的問題。而現在,基礎設施的衝擊波,已經順著產業鏈條,傳導到了應用端。這場比賽,真的越來越精彩了。在算力稀缺的限制條件下,即便像奧特曼這樣會融資的CEO,也沒法給OpenAI留後路。拼的,就是誰敢孤注一擲,賭對那唯一的、通往未來的方向。 (量子位)
自立自強再落一子:中國AI程式設計能力實現重要跨越
在數字經濟時代,高端AI程式設計能力就是數字世界的“工業母機”。它是智能體應用落地、工業軟體開發、產業數位化轉型的核心底座,更是決定一個國家數字產業安全與長期競爭力的關鍵底層技術。長期以來,這一核心領域始終被海外Claude、GPT等主流頂尖模型主導。國產大模型雖歷經多輪迭代追趕,但在複雜工程化程式設計、長程智能體任務等核心實戰場景中,長期處於跟跑狀態。4月2日,中國AI產業迎來了標誌性突破。阿里發佈新一代大語言模型Qwen3.6-Plus。此時距離阿里整合AI核心力量成立ATH事業群,僅過去兩周半。具體來看,千問3.6整體性能較千問3.5進步顯著,並且湧現出極強的智能體程式設計能力,在系列程式設計能力權威評測中,千問3.6程式設計表現超越2倍乃至3倍參數量的GLM-5、Kimi-K2.5等模型,比肩(直逼)全球最強程式設計模型Claude系列。這不是一次普通的企業產品發佈,而是中國科技自立自強在AI核心技術領域落下的關鍵一子。從榜單到實戰,國產模型叩開全球超級陣營大門AI模型的真實實力,從來不由自說自話的行銷定義,而是要經過權威評測的專業驗證、全球開發者的實戰檢驗。據CodeArena全球程式設計模型榜單最新資料,千問3.6-Plus登頂國產最強程式設計模型,綜合性能全球僅次於Claude Opus 4.6,超越OpenAI、Google、xAI等國際巨頭,紙面實力已達到世界領先模型水平。在更細分的專業評測中,Qwen3.6-Plus 在SWE-bench系列真實程式設計任務測試、Terminal-Bench2.0終端程式設計評測、NL2Repo長程程式設計任務測試,以及Claw-Eval、QwenClawBench等真實世界Agent能力評測中,表現可完全匹敵Claude Opus 4.5,整體性能已接近全球頂尖水平。這一系列評測結果的核心意義,不在於一個簡單的排名,而在於它打破了多年來“國產模型在高端程式設計領域只能跟跑”的行業共識:我們終於在數字世界的核心底層技術上,拿出了能和全球領先梯隊正面抗衡的成果。在實戰層面,作為全球最大的AI模型API聚合平台,OpenRouter被業內稱為全球AI模型的“實戰試金石”,平台呼叫量完全由全球開發者基於模型性能、穩定性、性價比自主選擇,是衡量模型真實落地能力的核心風向標。就在剛剛,發佈僅1天的千問新模型Qwen3.6-Plus,以1.4兆Token的日呼叫量沖上OpenRouter的日榜榜首,並打破了該平台的單日單模型呼叫量的全球紀錄,成為當下最受企業和開發者熱捧的大模型之一。據OpenRouter平台公開資料顯示,平台中國開發者佔比僅6.01%,模型的市場表現完全由全球開發者的真實使用需求驅動。值得關注的是,全球開發者的選擇,是對模型能力最客觀的投票。這意味著,不是我們自說自話模型的進步,而是全球最挑剔的技術使用者,已經認可了中國大模型的實戰能力。三次認知破局,走出中國AI自主創新路徑Qwen3.6-Plus的發佈,其核心意義遠不止於單次模型性能的提升,更在於它打破了行業長期存在的三大固有認知,為中國AI產業探索出了一條高效、自主、普惠的創新路徑。它首先打破了“參數越大越厲害”的行業迷信,走出了輕量化高效技術路線。長期以來,海外巨頭主導的AI行業陷入了“堆參數、堆算力”的內卷模式,將參數量作為衡量模型能力的核心標尺。而Qwen3.6-Plus以遠小於競品的參數量,實現了對參數量2-3倍模型的全面超越,用更低的算力消耗、更小的運行成本,交出了對標全球尖端水平的成績單。從產業發展的視角看,這不僅是演算法架構的核心突破,更意味著中國AI企業徹底擺脫了海外模型定下的內卷規則。當全球都在比拚誰的模型更大、誰燒的算力更多時,我們走出了一條更高效、更適合產業落地、更具長期競爭力的技術路徑,這正是中國AI實現彎道超車的核心底氣。它同時打破了“國產模型重跑分、輕實戰”的行業偏見,實現了工程化落地的核心跨越。過去,不少國產模型在標準化榜單中表現亮眼,但在真實開發場景中,面對複雜的倉庫級任務、多步驟長程規劃,往往出現程式碼跑不通、bug無法自主修復、任務理解偏差等問題。而Qwen3.6-Plus真正讓代理式程式設計從概念走向了現實:在前端網頁開發、倉庫級複雜程式碼任務等實測場景中,模型可自主拆解任務、規劃執行路徑、編寫程式碼、測試修復bug,直至全流程閉環完成任務。不僅能實現高品質程式碼修復,更擅長複雜的終端操作與自動化任務執行,在多個高難度長程規劃任務中取得了極優成績。對中國數字產業而言,這種工程化落地能力,遠比榜單上的分數更重要。只有能真正解決真實場景的複雜問題,能真正為產業創造價值,核心技術才不會淪為“花瓶”,才能真正築牢我們數字經濟的底層根基。它更打破了高端程式設計能力的高門檻壁壘,實現了尖端技術的普惠落地。程式設計能力的核心價值,不止於服務專業開發者,更在於讓普通人也能享受到數位技術的紅利。普通人只需一句簡單的自然語言指令,就能調動模型完成任務拆解、智能體系統編排,實現專業程式設計師數小時乃至數天才能完成的程式設計效果。最關鍵的是,Qwen3.6-Plus每百萬Tokens輸入最低僅2元人民幣,以極具競爭力的定價打破了海外巨頭的高端溢價格局。技術的終極價值,在於普惠。當頂尖的AI程式設計能力不再是少數企業、少數專業人士的專屬工具,而是能被小微企業、普通開發者低成本使用,它才能真正啟動整個數字產業的創新活力,這正是中國技術不同於海外壟斷巨頭的核心格局。全鏈路協同成型,中國AI進入體系化競爭新周期Qwen3.6-Plus的突破,不是單一企業的單點勝利,而是中國AI產業從單點突圍邁向體系化競爭的重要標誌。它首先補齊了高端智能體程式設計的核心技術短板,加固了數字經濟的安全防線。高端AI程式設計能力,是數字時代所有數字產業的核心底座,小到企業數位化管理系統、網際網路產品,大到工業控制軟體、關鍵領域資訊基礎設施,都離不開底層程式設計能力的支撐。國產模型在這一領域實現自主可控、比肩國際先進水平,意味著中國大幅降低了在數字核心技術上的對外依賴,從底層提升了數字經濟的安全保障能力。更重要的是,它標誌著中國AI的算力—模型—應用全鏈路協同已經成型,正式進入體系化競爭新階段。全球AI競爭的下半場,早已不是單一模型、單一技術的比拚,而是全產業鏈、全生態的體系化對抗。以阿里為代表的中國AI企業,已經建構起了完整的全鏈路生態:底層有自主可控的算力底座,為模型迭代提供穩定支撐。中層有核心模型持續突破,覆蓋多模態、生成式AI、智能體程式設計等核心賽道。上層有豐富的應用矩陣,能快速將模型能力落地到千萬企業和普通使用者手中。這種全鏈路協同的體系化能力,才是中國AI能和全球頂尖巨頭長期同台競技的核心底氣。單點技術的突破或許能帶來一時的熱度,但只有完整的、自主可控的產業生態,才能讓我們在全球科技競爭中站穩腳跟,不被“卡脖子”。與此同時,中國模型正在以普惠價值打破海外技術溢價,為全球AI產業提供了中國方案。長期以來,海外巨頭憑藉技術壟斷,維持著頂尖AI模型的高溢價,讓全球大量中小企業、普通開發者難以享受到技術紅利。而以Qwen3.6-Plus為代表的國產模型,以極高的性價比,為全球開發者提供了對標全球領先水平的全新選擇,正在改變全球AI產業的供給格局,讓更多市場主體用得上、用得起尖端AI技術,為全球AI產業的普惠發展貢獻了中國企業方案。科技自立自強,從來不是一句空洞的口號,而是靠一項項硬核技術突破、一次次向全球頂尖水平的衝鋒,一步一個腳印拼出來、幹出來的。從跟跑到並跑,中國AI在程式設計這一“數字工業母機”領域實現重要跨越,再次印證:在高端科技領域,中國企業完全有能力走出一條自主創新的發展道路,拿出世界一流的技術成果。全球AI競爭的下半場,拼的從來不是參數噱頭、行銷概念,而是實打實的技術實力、產業落地能力與體系化競爭力。從產業規律來看,真正的長期競爭優勢,不在於單一模型的性能參數,而在於能否建構完整的技術生態、能否為開發者和使用者創造持續價值。值得肯定的是,以阿里為代表的中國科技企業,正朝著這一方向穩步前進,紮根真實市場需求,推動技術與產業深度融合,走出了一條自主創新與開放合作平行的發展道路。 (環球時報)
88歲演算法祖師爺驚呆!Claude聯手GPT攻破30年難題,14頁論文0修改
【新智元導讀】「哈密頓分解」難題,終於破解!88歲「演算法祖師爺」高德納再更論文,Claude 4.6+GPT-5.4聯合破解了奇偶數情形。甚至,GPT-5.4直出一篇14頁論文,引爆全網。88歲的老爺子,終於填平了自己當年挖下的坑!三周前,「演算法祖師爺」、圖靈獎最年輕的得主高德納被Claude震驚:一個懸了多年的演算法難題,竟被Claude Opus 4.6解決了。論文一開篇,他直呼「震驚、震驚」!論文地址:https://cs.stanford.edu/~knuth/papers/claude-cycles.pdf但進一步研究發現,實際上存在760種類似的分解方法,Claude只是找到了其中一個。它只攻克了m為奇數的「堡壘」,對於m為偶數的情況,仍然沒有通用解。更新後的論文顯示,這一難題取得了巨大的進展!GPT-5.4 Pro接棒Claude,對所有m≥8的偶數直出長達14頁的論文,並通過計算驗證了高達m=2000的情形。不僅如此,GPT與Claude聯動後,通過多智能體工作流,為奇數和偶數m找到了更簡潔的構造方法。還有人使用Lean語言,將Claude關於奇數情況的證明形式化。至此,「哈密頓分解」難題徹底解決。從Claude 4.6到GPT-5.4,再加上業界諸多大佬合力,終於把數十年的坑填上了。論文的最後,老爺子感慨道——我們的確生活在一個非常有趣的時代。願原力與你同在。88歲演算法祖師爺,挖了一個「大坑」一直以來,在組合數學裡,哈密頓路徑(Hamiltonian Path)是一座易守難攻的要塞。簡單來說,它要求在複雜的圖形網路中,尋找一條不重複地經過每一個節點的閉合環路。而「哈密頓分解問題」,則是要將一個圖完美地拆解為多個這樣的環路。這不僅是計算量的博弈,更是對數學構造能力的極限壓榨。這個坑,是高德納親手挖下的。在他撰寫電腦科學巨著《電腦程式設計藝術》(TAOCP)的過程中,哈密頓分解始終是一個讓他掛念的「補丁」。這個問題已經懸置了數十年,用術語描述如下:此前,學術界始終無法給出覆蓋奇數與偶數情形的完整全解。隨著節點增加,搜尋空間呈指數級爆炸,人類的大腦在那種深度的黑暗面前,往往會感到生理性的無力。過去三十年,無數天才試圖填坑,但大多折戟於那道「奇偶全解」的最後防線。直到2026年的這個春天,高德納決定換一種武器。偶數m,有解了?上一次Claude Opus 4.6,在31次探索之後,終於提出了一套簡單的規則——s = (i + j + k) mod m其中依據s、i、j的情況,再去決定是否增加i、增加j、增加k,具體規則如下:如果s=0,根據j的值決定移動方向。如果0<s <m−1,則根據i的值決定。如果s=m−1,再用另一種規則。結果,Claude通過程序驗證了,當m=3,5,7,9,11,路徑全部成立。可以看到,Claude只解決了m為奇數的情況,至於m為偶數的問題,還未得出真正的解。直到3月3日,Filip Stappers給老爺子寫信說,「這事兒還有後續」。Stappers讓Claude Opus 4.6再次針對m為偶數,算了大概4個小時,終於有些眉目,但沒有完整的解。最終,Claude建立了一個類似於奇數情況的局部纖維構造,然後通過運行搜尋來進行修補完善。在最後的階段中,它把主要時間用在了「加快搜尋」的速度上,而不是去尋找一個真正的構造方法。它跑了許多程序,試圖用模擬「退火」或「回溯」演算法來尋找解。在Stappers建議下,讓Claude使用ORTools CP-SAT(Google開源工具包的一部分,帶有AddCircuit約束)求解,奇蹟發生了。現在的程序,在短短幾秒鐘內就能直接跑出結果!緊接著在3月4日,來自新加坡好友Ho Boon Suan帶來了更震撼的消息。他利用gpt-5.3-codex生成了一段程式碼,成功實現了偶數m≥8的分解。為了驗證可靠性,他測試了8到200之間所有的偶數m,以及400-2000之間的一些隨機偶數,結果都沒問題。要知道,當m=2000時,那可是一個擁有80億個頂點的龐大圖結構!若是純靠人力,來手算證明其正確性簡直是「天方夜譚」。幾乎同一時間,來自Lean社區的Kim Morrison動作極其迅速。他把之前關於Claude構造正確的證明形式化驗證,並於3月4日及時地發到了網上。數學天才,扎堆研究另一位名為「Exocija」的匿名研究者,找到了一種適用於奇數m的全新構造。單從計算的角度來看,這極可能是目前最簡潔的方案,儘管它的證明也許不是最簡單的。在C語言程序中,只需將特定的幾行取代為極其精簡的邏輯程式碼,就能獲得有效的分解。而且,幾乎每一步,都巧妙地利用了恆等置換「012」。if (s == 0) d = (j == m - 1? "201" : "021");else if (s == m - 1) d = (j == 0? "102" : "120");else d = "012";他是如何做到的?答案是:跨模型協作。Exocija在GPT-5.4和Claude 4.6 Sonnet這兩個頂尖模型之間不斷來回貼上文字,利用它們不同的思考維度相互啟發,最終成功拼湊出了完整的證明。0修改,GPT-5.4直出14頁論文關於偶數m的構造問題,真正的高潮還在後面。既然gpt-5.3-codex生成的演算法規律過於複雜,Ho Boon Suan決定給GPT-5.4 Pro下達一個終極指令:你的任務是嚴格證明之前給出的演算法,當m是≥ 8的偶數時,確實總是能產生三個長度均為m³的循環。最好能深入說明一下這個演算法為何有效,並探討是否有更簡單的構造方法。誰曾想,GPT-5.4 Pro直接交出了一份令人驚嘆的答卷——一篇排版精美、邏輯嚴密、長達14頁的學術論文。從「摘要」到「結論」,結構完整,起承轉合嚴絲合縫。而且,它還採用了TeX標準,高德納本人就是TeX的發明者,AI似乎在用這一語言向他致敬。最重要的是,論文通過了Lean形式化驗證工具的檢驗。用Ho的原話來說,這完全是GPT-5.4 Pro獨立完成的壯舉,他連一個標點符號都不需要修改!這意味著,它的邏輯鏈條在數學意義上是「絕對真理」。AI「左右互搏」,Claude+GPT終成完美證明這個故事的集大成者是Keston Aquino-Michaels。不僅為奇數m的情形找到了另一種有效的分解,同時為偶數m的情形給出了一種優雅的分解,其簡潔程度遠超此前方法。此外,他還發掘出了一篇高德納之前遺漏的相關參考文獻(即下圖最後參考文獻)。預印本:https://arxiv.org/abs/2203.11017最妙的是,他還細緻分析了這種聯合互動模式,對於未來如何應對並解決新問題具有潛在的重要意義。完整報告:https://github.com/no-way-labs/residue/blob/main/paper/completing_claudes_cycles.pdf 開放原始碼專案:https://github.com/no-way-labs/residue簡單來說,Keston Aquino-Michaels並沒有簡單地向AI提問,而是建構了精妙的「協作工作流」。這更像是一場跨越碳基與矽基的協同演習,是Claude、GPT和人類的密切合作。其中,兩個Agent獨立運行,使用相同的「Residue」提示詞。兩個智能體使用的結構化探索提示詞但各自發揮特長:Agent O:5次探索解決奇數情況(符號證明)Agent C:找到m=4,6,8,10,12的具體解(資料)但兩個Agent沒有直接對話,通過Orchestrator中轉——資料、工具都經由指揮者(人類引導的Opus 4.6)傳遞。Orchestrator需要判斷「何時傳、傳什麼、以什麼格式傳」,這不是兩個Agent自己能完成的。比如,Agent O在偶數情況卡在m=10,無法推進;Orchestrator將Agent C的解傳遞給Agent O;Agent O收到後,立即識別出模式:m−2層「批次層」+2層「修復層」。最終,那個困擾了人類幾十年的「奇偶情形全解」,在兩個AI智能體的瘋狂交鋒中,被徹底鑿穿。人類圈定戰場,機器填補深淵這次「填坑」,標誌著科學研究範式的徹底轉折。科學家的身份變了。比如,高德納不再是那個在紙上計算每一行程式碼的工匠,他定義了問題的邊界,設計了驗證的邏輯,然後指揮AI去填補那道試錯的黑洞。研究的範式變了。人類只需定義邊界,而AI填補深淵。數學家最珍貴的能力不再是算力,而是「提出問題的直覺」和「驗證答案的審美」。AI負責在無限的試錯中尋找路徑,而人類負責在終點確認這是否就是我們要找的真理。下一個是誰?當88歲的演算法泰斗都開始用AI填坑,我們必須意識到:數學研究的工作方式正在發生不可逆的轉折。這不僅僅是高德納的勝利,更是人類智力的一次「外掛式升級」。在「機器左右互搏」的時代,連最嚴謹的數學殿堂都已經向AI敞開大門。如果你還在糾結「AI是否會取代我」,那麼你可能已經錯過了成為下一個「智力架構師」的機會。下一個被AI鑿穿的世紀難題,會是黎曼猜想,還是物理學的統一場論?在這個「極其有趣的時代」,我們唯一的恐懼,應該是對這種進化速度的漠視。 (新智元)
摩根士丹利發出警告:AI 突破即將到來,90% 的人還沒準備好
摩根士丹利發出警告:AI 突破即將到來,90% 的人還沒準備好去年,一個只有 3 個人的 AI 創業公司,擊敗了擁有 500 人團隊的行業巨頭——而他們的秘密武器,只是一個 AI 模型。這不是科幻小說,而是正在發生的現實。近日,摩根士丹利發佈了一份震撼報告:2026 年上半年,AI 將迎來一次"讓所有人震驚"的突破。而大多數人,對即將到來的變化毫無準備。10 倍算力 = 2 倍智能,這個公式正在改變一切馬斯克在最近的採訪中透露了一個驚人的規律:給大語言模型增加 10 倍的算力,就能讓它的"智能"翻倍。聽起來很抽象?看看資料就知道了。OpenAI 剛發佈的 GPT-5.4 "Thinking" 模型,在 GDPVal 基準測試中得分 82%——在專業任務上匹配或超過人類專家的比例達到 82%。而這只是開始。摩根士丹利的報告指出,美國頂級 AI 實驗室正在以前所未有的速度積累算力。這些實驗室的高管們私下告訴投資者:接下來的進展會"震驚"所有人。更可怕的是,這個增長曲線還在加速。電力危機:智能爆炸的代價但天下沒有免費的午餐。摩根士丹利的"智能工廠"模型預測,到 2028 年,美國將面臨9 到 18 吉瓦的電力缺口——這相當於需要的電力中有 12% 到 25% 無法滿足。AI 公司們等不及電網升級了。他們正在:把位元幣礦場改造成高性能計算中心啟動天然氣渦輪機部署燃料電池經濟學家們發現了一個驚人的"15-15-15"動態:15 年資料中心租約,15% 的收益率,每瓦特創造 15 美元的淨價值。這是一場算力軍備競賽,而電力就是彈藥。工作崗位正在消失,但不是你想的那樣AI 帶來的衝擊,已經不是"未來會怎樣",而是"現在正在發生"。摩根士丹利的報告直言不諱:"變革性 AI"將成為強大的通縮力量,因為 AI 工具能以極低的成本複製人類工作。報告指出,許多公司高管已經因為 AI 效率提升而執行大規模裁員。但這裡有個反常識的現象:不是所有人都會失業,而是那些不會用 AI 的人會被淘汰。OpenAI CEO Sam Altman 描繪了一個更極端的未來:只有 1 到 5 個人的全新公司,能夠擊敗大型傳統企業。xAI 前聯合創始人 Jimmy Ba 甚至預測,到 2027 年上半年,可能會出現"遞迴自我改進循環"——AI 能夠自主升級自己的能力。你該怎麼辦?3 個立即行動的方向面對這場智能革命,普通人不是沒有機會,而是要抓住窗口期。1. 把 AI 當工具,不是威脅那些月入 10 萬的 00 後,不是因為他們比你聰明,而是因為他們更早學會了用 AI 放大自己的能力。寫作、設計、程式設計、資料分析——幾乎所有知識工作,都可以用 AI 提速 3-10 倍。關鍵不是 AI 會不會取代你,而是會用 AI 的人會不會取代你。2. 關注"AI + 你的領域"AI 不會直接取代醫生、律師、設計師,但會讓 1 個會用 AI 的醫生頂 10 個不會用的。找到你所在行業最前沿的 AI 工具,花一個周末學會它。這可能是你未來 5 年最重要的投資。3. 小而美的時代來了如果 1-5 個人的公司能擊敗 500 人的巨頭,那麼個人創業的門檻正在史無前例地降低。你不需要融資、不需要大團隊,只需要一個好想法 + AI 工具 + 執行力。寫在最後摩根士丹利的報告用了一個詞來形容未來:"純粹的智能,由算力和電力鍛造而成,正在成為這個時代的硬通貨"。這場爆炸來得比幾乎所有人預想的都要快。2026 年上半年,就是現在。你準備好了嗎? (略知一二派大星)
Fortune雜誌—OpenAI發佈其最強模型GPT-5.4,直指Anthropic核心市場
OpenAI發佈了新一代人工智慧模型GPT-5.4。公司稱,這是其迄今為止面向專業場景能力最強的人工智慧系統。該模型融合了高級推理能力、程式設計能力以及自主操作電腦和軟體的功能,使企業級人工智慧市場的競爭陷入白熱化,而這一領域此前一直是Anthropic的優勢陣地。OpenAI首席執行長薩姆·奧爾特曼。圖片來源:Kyle Grillot/Bloomberg via Getty Images新模型整合了OpenAI此前分散在不同模型中的多項能力,整合了公司領先程式設計模型GPT-5.3-Codex的程式設計能力、更強的推理能力,以及模型能夠自主在桌面、瀏覽器和軟體應用之間操作的智能體能力。該模型於3月5日向ChatGPT Plus、Team和Pro訂閱使用者推出,同時通過公司的API開放。針對需要處理複雜任務、追求更高性能的使用者,OpenAI還提供了更強版本GPT-5.4 Pro。在發佈模型的同時,OpenAI還宣佈推出Excel和Google Sheets版ChatGPT(測試版)。該版本將ChatGPT直接嵌入電子表格中,可以用於建構、分析並更新複雜的財務模型。公司還發佈了一系列新的ChatGPT應用整合,包括FactSet、MSCI、Third Bridge和穆迪(Moody’s),旨在讓團隊能夠將市場資料、公司資料以及內部資料整合到同一工作流程中。此舉也讓OpenAI與競爭對手Anthropic展開了更直接的較量。Anthropic在2025年7月推出了面向金融行業的“Claude金融服務版”(Claude for Financial Services)產品,並在當年晚些時候進一步擴展相關功能。兩家公司正在競相爭奪企業市場,面向已經準備好採用人工智慧的行業推出可以完成實際工作的工具。新模型的發佈還可能引發投資者對人工智慧衝擊傳統金融資料提供商的新一輪擔憂。由於市場普遍擔心人工智慧將顛覆企業軟體行業,這類公司的股價此前已經受到影響。今年早些時候,Anthropic發佈Cowork外掛後,市場一度出現大規模拋售SaaS股票的情況,因為投資者擔心人工智慧工具可能讓傳統軟體供應商被淘汰。新智能體能力對於企業使用者而言,GPT-5.4最重要的升級之一是其“開箱即用”的智能體能力。該模型可以自主操作電腦和軟體,根據需要搜尋並呼叫外部工具,還能夠處理複雜的多步驟任務,而開發者無需自行搭建相應的底層架構。OpenAI表示,GPT-5.4是公司迄今最注重事實、最可靠性的模型。公司在一篇部落格文章中稱,與GPT-5.2相比,該模型產生“幻覺”的機率明顯下降:單個陳述出現錯誤的可能性降低33%,完整回覆包含錯誤的機率降低18%。GitHub的首席產品官馬里奧·羅德里格斯在評價該模型時說:“開發者不僅需要一個可以寫程式碼的模型,更需要一個能夠像他們一樣思考問題的模型。我們看到GPT-5.4在邏輯推理以及執行複雜、多步驟、依賴工具的工作流程方面表現非常出色。”這些新功能使OpenAI在競爭日益激烈的智能體產品領域中,成為更直接的參與者。當前市場上的類似產品包括Perplexity Computer、微軟(Microsoft)的Copilot Tasks以及OpenClaw。近期OpenClaw的走紅也表明,使用者越來越青睞可以在儘量減少人工干預的情況下處理長工作流程的人工智慧系統。OpenAI還指出,與此前的模型相比,GPT-5.4在詞元使用效率方面有明顯提升,也就是說它能夠用更少的詞元解決問題。雖然該模型每個詞元的定價略高於GPT-5.2,但由於完成許多工所需的詞元數量更少,對於部分使用者而言,這種效率提升可能抵消價格上漲帶來的成本。(財富中文網)