#GPT
ChatGPT 和 Claude 同時大更新,不會給 AI 當老闆的打工人要被淘汰
OpenAI 和 Anthropic 像約好了一樣,同時甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。如果說昨晚之前,我們還在討論怎麼寫好 Prompt 輔助工作;那麼今天過後,我們可能需要學會如何作為老闆去管理 AI 員工。AI 造 AI,順便接管你的電腦就在昨天,Sam Altman 剛在 X 平台上凡爾賽了一把 Codex 的「百萬活躍使用者」里程碑。短短一天後,OpenAI 再次乘勝追擊,扔出王炸——GPT-5.3-Codex。技術文件裡藏著一句極具份量的話:「這是我們第一個在創造自己的過程中,發揮了關鍵作用的模型。」說人話就是:AI 已經學會了自己寫程式碼、自己找 Bug,甚至開始自己訓練下一代的 AI 了。這種自我進化能力,也直接體現在了一連串跑分資料上。還記得那個模擬人類操作電腦的 OSWorld-Verified 基準測試嗎?前代模型只有 38.2% 的精準率,連及格線都夠不上。但這次,GPT-5.3-Codex 直接跳漲到了 64.7%。要知道,人類的平均水平也就 72%。這意味著,AI 距離像你一樣熟練地甩滑鼠、切屏、操作軟體,只剩下一層窗戶紙的距離。而在 Terminal-Bench 2.0(命令列操作基準測試)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)遠遠甩在身後。在覆蓋四種程式語言,不僅抗污染,還全是真實世界的硬核工程難題的 SWE-Bench Pro 基準測試中,GPT-5.3-Codex 也表現出了 SOTA 水準,而且用的 Token 比以往任何模型都少。OpenAI 甚至展示了它獨立建構的能力:在幾天內,它從零建構了一款包含多張地圖的賽車遊戲 v2,順手還搞定了一款管理氧氣系統的深海潛水遊戲。最讓我印象深刻的是 GPT-5.3-Codex 對模糊意圖的理解。在建構落地頁時,它自動把年度計畫換算成了打折後的月付價格,甚至還貼心地自動補充了使用者評價輪播——這一切,都不需要你下指令。OpenAI 的野心已經寫在臉上了:以前微軟常說 AI 將會成為人類的副駕駛(Copilot),但現在 AI 更想做那個能掌控方向盤、甚至能自己修車的司機。對了,還有一個有趣的細節。此前外界盛傳 OpenAI 對輝達的 AI 晶片頗有微詞,但這次官方部落格特地強調:GPT-5.3-Codex 的設計、訓練和部署都在 NVIDIA GB200 NVL72 系統上完成。這一波高情商的「感謝輝達」,屬實是給足了黃仁勳面子。告別「金魚記憶」Claude 迎來絕地反擊在 GPT-5.3-Codex 發佈的前後腳,Anthropic 也端出了自己的春節大禮包。壞消息是,大家期待的 Claude「中杯」Sonnet 模型沒有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。相比於 OpenAI 在行動力上的激進,Anthropic 今天發佈的 Claude Opus 4.6 則是在思考力和可靠性上死磕。很多企業使用者都有一個名為 Context Rot(上下文腐蝕)的痛點:號稱支援 200k 上下文,但塞進去的資料一多,AI 就開始顧頭不顧尾。這次,Claude Opus 4.6 拿出的資料簡直是「降維打擊」。在 MRCR v2(長文字大海撈針)測試中,Claude Opus 4.6 的召回率高達 76%。作為對比,上一代 Sonnet 4.5 隻有慘不忍睹的 18.5%。從某種程度上說,這是一個從基本不可用到高可靠的質變。這是因為 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。這意味著什麼?意味著你可以把幾百頁的財報、幾十萬字的程式碼庫直接扔給它,它不僅能讀完,還能精準地告訴你第 342 頁尾注裡的那個數字有問題。此外,它現在還支援最高 128k 的輸出 Token。什麼概念?你可以讓它一次性寫完長篇研報或複雜的程式碼庫,而不用因為字數限制被迫截斷。除了記性好,Opus 4.6 這次還在智商上實現了碾壓:在 GDPval-AA(一項針對金融、法律等高經濟價值任務的評估)中,Opus 4.6 的 Elo 得分比業界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。在複雜的多學科推理測試 Humanity's Last Exam 中,它領先所有前沿模型。在測試尋找網際網路「難找資訊」能力的 BrowseComp 中,它同樣表現最優。通過這些資料,Anthropic 似乎在傳遞一個訊號:如果你要寫程式碼,去隔壁找 OpenAI;如果你要處理複雜的商業決策、法律文書或金融分析,Claude 才是唯一的選擇。更讓打工人眼前一亮的是它的生產力功能。一方面,Anthropic 這回直接把 Claude 塞進了 Excel 和 PowerPoint。它能根據 Excel 資料直接生成 PPT,不僅保留排版風格,連字型和範本都能對齊。在 Claude Cowork 協作環境中,它甚至能進行自主多工處理。另一方面,Anthropic 順勢在 Claude Code 中推出了實驗性的 Agent Teams 功能,讓普通開發者也能體驗這種「指揮千軍萬馬」的感覺:角色分工:你可以指定一個 Claude Session 擔任 Team Lead(組長),它不干髒活累活,專門負責拆解任務、分配工單、合併程式碼;其他的 Session 則是隊友(Teammates),各自領任務去幹。獨立作戰:每個隊友都有獨立的上下文窗口(不用擔心 Token 爆炸),它們甚至能背著你互相發消息(Inter-agent messaging),討論技術細節,最後只把結果匯報給組長。平行賽馬:這東西有什麼用?想像一下查一個頑固 Bug,你可以生成 5 個 Agent,分別驗證 5 種不同的假設,像「賽馬」一樣平行排雷;或者在 Code Review 時,讓一個隊友扮「安全專家」查漏洞,一個扮「架構師」看性能,互不干擾。為了展示 Opus 4.6 的極限,Anthropic 的研究員 Nicholas Carlini 搞了個瘋狂的實驗:Agent Teams(智能體團隊)。他沒有親自寫程式碼,而是扔了 2 萬美元 的 API 額度,讓 16 個 Claude Opus 4.6 組成一個「全自動軟體開發團隊」。結果在短短兩周內,這群 AI 自主進行了 2000 多個程式設計會話,從零手寫了一個 10 萬行程式碼的 C 語言編譯器(基於 Rust)。這個 AI 寫的編譯器,還成功編譯了 Linux 6.9 核心(涵蓋 x86、ARM 和 RISC-V 架構),甚至跑通了 Doom 遊戲。雖然它還不夠完美(比如生成的程式碼效率不如 GCC),但這個案例也表明我們不再是和 AI 一起程式設計,而是看著一個 AI 團隊自主協作、查錯、推進項目。此外,它還學會了 Adaptive Thinking(自適應推理),能根據難度自己決定「想多久」。加上新增的「智能強度」控制,你可以在 Low 到 Max 四檔之間切換。定價方面,Anthropic 這次很良心,維持在每百萬 Token $5/$25 的基礎定價。看來是為了搶佔企業級市場,鐵了心要和 OpenAI 捲到底。一個是激進天才,一個是靠譜老牛知名 AI 評測人 Dan Shipper 在第一時間搞了個「盲測」(Vibe Check),他的評價非常精準:Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。它像是一個才華橫溢但偶爾跳脫的天才。在測試中,它直接解決了一個讓 iOS 團隊卡了兩個月的功能難題;在 LFG Benchmark 中拿到了 9.25/10 的高分。但它偶爾也會「過度自信」,一本正經地胡說八道。如果你需要突破性的靈感,選它。GPT-5.3-Codex 則是「高可靠,低方差」(High Reliability, Low Variance)。它像是一個經驗豐富、絕不掉鏈子的資深工程師。推理速度提升 25%,幾乎不犯低級錯誤,穩健得讓人心安。雖然在創造性任務上略遜一籌(LFG 得分 7.5/10),但在日常的 Coding 和維運任務中,它是最高效的老黃牛。當然,比起選擇那款模型,更重要的是,當 ChatGPT 可以自主修 Bug 甚至操作你的終端,當 Claude 可以一次性吞吐海量文件並精準定位細節時,Prompt Engineering(提示詞工程)的重要性正在下降,而 Agent Management(智能體管理)的能力開始浮出水面。我們不再需要像教小學生一樣,把指令拆解得碎碎念。相反,我們需要做的,是學會如何以管理者的身份,去定義目標、稽核結果、以及決定在什麼時候,把什麼任務交給那位 AI 員工。這就是 2026 年的新職場。你的團隊裡混入了一群矽基天才,而你是唯一的碳基老闆。 (APPSO)
GPT-5.3-Codex 發佈:首個自我訓練的模型
今天,可算是又炸了一輪啊……讓不讓人睡覺了!就在過去一小時內,OpenAI 發佈了 GPT-5.3-Codex,Anthropic 發佈了 Opus 4.6(100萬 context)Claude Opus 4.6 發佈,跑分霸榜,價格不變。兩顆重磅炸彈,幾乎同時落地。建立在這些模型之上的 Agent 們,接下來怕是要起飛了。而就在 Anthropic 放出 Claude Opus 4.6 的同一天,OpenAI 緊跟著扔出了 GPT-5.3-Codex,號稱迄今為止最強的 agentic coding 模型。Sam Altman 本人也第一時間發了推:GPT-5.3-Codex 來了!最強編碼性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。任務執行中可即時引導,工作過程中提供即時更新。更快!相同任務的 token 消耗不到 5.2-Codex 的一半,每個 token 的速度還快了 25% 以上!電腦使用能力也很強。那這個 GPT-5.3-Codex 到底強在那呢?且往下看。自己訓自己GPT-5.3-Codex 有一個很「離譜」的特點:它參與了自己的創造過程。OpenAI 團隊在訓練過程中,就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說,這個模型幫著把自己「生」出來了。OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。它不僅能排查基礎設施問題,還能追蹤訓練過程中的模式變化,對互動質量做深度分析,提出修復建議,甚至為研究員建構可視化應用來精確理解模型行為的差異。工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。當出現影響使用者的邊界情況時,團隊成員直接讓 Codex 去定位 context 渲染的 bug,排查快取命中率低的根因。在發佈期間,GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰,保持延遲穩定。有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道,做出了比標準儀表盤工具豐富得多的可視化結果,然後和 Codex 一起分析,三分鐘內就從數千個資料點中提煉出了關鍵洞察。全面屠榜GPT-5.3-Codex 在多個基準測試上刷新了紀錄:SWE-Bench Pro 拿下 56.8%,這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同,SWE-Bench Pro 覆蓋了四種程式語言,更抗資料污染,也更貼近工業場景。GPT-5.2-Codex 是 56.4%,GPT-5.2 是 55.6%。Terminal-Bench 2.0 達到 77.3%,遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。OSWorld-Verified 拿下 64.7%,而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準,這個提升幅度可以說是「斷崖式領先」了。GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估,衡量模型在 44 個職業的知識工作任務上的表現,包括做簡報、處理電子表格等。網路安全 CTF 挑戰 達到 77.6%,GPT-5.2-Codex 是 67.4%。SWE-lancer IC Diamond 拿到 81.4%,超過 GPT-5.2-Codex 的 76.0%。而且值得注意的是,GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省,這才是真本事。不只是寫程式碼GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。OpenAI 稱:從寫程式碼的 agent,變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作:debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域,能幫你做幻燈片、分析電子表格中的資料。OpenAI 結合了前沿編碼能力、美學改進和壓縮能力,做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。為了測試長時間運行的 agentic 能力,他們讓 GPT-5.3-Codex 建構了兩款遊戲:一個賽車遊戲的第二版和一個潛水遊戲,使用的只是通用的跟進提示,比如「fix the bug」或「improve the game」,GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。在網頁開發方面,GPT-5.3-Codex 也比前代更懂你的意圖。簡單或不夠詳細的提示,現在會默認生成功能更完善、預設值更合理的網站,給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁,GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀,還會做一個自動輪播的使用者評價元件,而不是只放一條。開箱即用的完成度明顯更高了。邊幹活邊對話隨著模型能力越來越強,瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。GPT-5.3-Codex 在這方面做了一個關鍵改進:互動式協作。以前你給 Codex 一個任務,然後等它給你最終結果。現在不一樣了,GPT-5.3-Codex 會在工作過程中頻繁給你更新,讓你即時瞭解關鍵決策和進展。你可以隨時提問、討論方案、調整方向,而不會丟失上下文。它會告訴你它在幹什麼,回應你的反饋,從頭到尾都讓你參與其中。更像是和一位同事協作,而不是給一台機器下命令。在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。首個「高能力」安全評級GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型,也是他們首個直接訓練來識別軟體漏洞的模型。雖然沒有確鑿證據表明它能端到端地自動化網路攻擊,但 OpenAI 採取了預防性措施,部署了迄今最全面的網路安全安全端,包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。因為網路安全天然是雙重用途的,OpenAI 採取了「基於證據、迭代推進」的方法,加速防禦者發現和修復漏洞的能力,同時減緩濫用。具體措施包括:推出 Trusted Access for Cyber 試點項目,加速網路防禦研究。擴大 Aardvark(安全研究 agent)的私有 beta 測試,作為 Codex Security 產品套件的首個產品。與開源維護者合作,為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描,上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上,OpenAI 還承諾投入 1000 萬美元的 API 額度,用於加速網路防禦,特別是針對開放原始碼軟體和關鍵基礎設施系統。可用性GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放,覆蓋 Codex 可用的所有平台:應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。速度方面,比 GPT-5.2-Codex 快了 25%,token 消耗則不到前代的一半。GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。方向變了OpenAI 在文章最後說到:GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。最初聚焦於成為最好的 coding agent,現在已經演變成了一個更通用的電腦協作者,擴展了誰能建構以及用 Codex 能做什麼的邊界。同一天,Anthropic 發 Opus 4.6,OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽,已經進入白熱化了。cli 中也已經能用了:而方向也越來越清晰:不是讓模型寫更多程式碼,而是讓模型用程式碼去搞定一切。而另一個值得注意的是:GPT 5.3 Codex 今日正式發佈,而數小時前同時發佈的還有人工智慧代理平台 Frontier。這種發布周期的縮短意味著什麼呢?OpenAI 在近 6 個月內發佈了 5 個主要版本/更新,而此前 15 個月總共才只發佈了 7 個版本。對於日益複雜的模型,根據 OpenAI 自己的發佈公告,越來越多地使用#AI生成的程式碼來建構,這要麼是因為真正的功能程式碼開發改進而帶來的速度提升,要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。這次的 GPT-5.3-Codex,可還是參與了自己的訓練過程的……有意思。 (AGI Hunt)
Nature重磅:圖靈測試已死,AI已具備人類水平智能,這一天終於來了
別再爭論AI 什麼時候能趕上人類了。頂刊《Nature》剛剛發文宣佈:不用等了,就是現在。如果說 1950 年阿蘭·圖靈(Alan Turing)提出的“模仿遊戲”只是一個天才的腦洞,那麼 75 年後的今天,這個腦洞已經被矽基生物徹底填平。今天,一篇發表在《Nature》上的重磅文章引爆了科技圈。這就好比《皇帝的新衣》裡那個誠實的小孩,來自加州大學聖地亞哥分校等機構的頂級哲學家、認知科學家和電腦專家們聯名站出來,指著那個名為“通用人工智慧(AGI)”的房間大聲宣佈:“別找了,AGI 就在這兒。它已經誕生了。”01 別再自欺欺人:圖靈測試已成“過去式”還記得一年前,2025 年的3月, OpenAI 發佈 GPT-4.5的那個春天嗎?當時業界還在為參數和算力爭吵不休,但在一個最古老的測試場上,勝負已分。在嚴格的圖靈測試中,GPT-4.5 被人類受試者判定為“真人”的比例高達 73%。諷刺的是,在同一場測試中,真正的人類被判定為“人”的比例,竟然比 AI 還要低。這意味著什麼?意味著在“像人”這件事上,AI 已經比人更像人了。更別提現在的讀者們,比起人類專家寫的晦澀文章,他們甚至更愛讀大語言模型生成的文學作品。然而,奇怪的事情發生了。儘管事實擺在眼前,根據 2025 年的一項調查,仍有 76%的頂級 AI 研究人員認為 AGI 遙遙無期。《Nature》這篇文章的作者們毫不留情地指出:這種認知錯位,不是因為 AI 不夠強,而是因為人類“不敢承認”。因為恐懼被取代,因為商業利益的糾葛,我們不斷地移動球門,給 AGI 設下各種不可能完成的定義。但現在,是時候撥開迷霧,承認現實了。02 別再叫它“學舌鸚鵡”:鐵證如山的進化階梯曾幾何時,嘲笑 AI 是我們的一大樂事:“它連小學數學都算不對”、“它就是個只會機率預測的隨機鸚鵡(Stochastic Parrots)”、“它經常一本正經地胡說八道(幻覺)”。但在這個2026 年的開端,如果你還抱著這些老黃曆看 AI,那你可能已經成了那個“活在舊時代的人”。文章作者並沒有空談哲學,而是根據一系列硬核證據,建構了一個評估 AGI 的“三級階梯”。對照一下,你會發現我們正處於什麼位置:Level 1:圖靈測試級(已通關)這是幾年前的標準。能通過學校的基礎考試,能進行像樣的對話,能做簡單的推理。那時的 AI,或許還只是個“聰明的復讀機”。Level 2:專家級(Current Level,當前已達成)這就是我們現在面對的怪物。數學:它們不僅拿下了國際數學奧林匹克競賽(IMO)的金牌,還能與頂級數學家合作證明未知的定理。科研:它們生成的科學假設,已經在現實世界的實驗室裡被驗證為真。全能:它們能通過多學科的博士資格考試,能幫專業程式設計師寫出無 Bug 的複雜程式碼,能精通幾十種語言創作詩歌,還能同時和全球數億人聊天。對比:科幻電影《2001太空漫遊》裡的超級電腦 HAL 9000 曾是我們的噩夢,但現在的 LLM 在知識廣度上,實際上已經超越了 HAL 9000。Level 3:超人類級(正在逼近)這要求 AI 做出人類完全做不出的革命性科學發現。雖然 AI 還沒完全做到這一點,但作者強調:這不是 AGI 的必要條件。畢竟,能不能拿諾貝爾獎並不是衡量一個人是否“有智能”的標準。面對這些成就,那些質疑聲顯得越來越蒼白。每當 AI 攻克一個新堡壘(比如做出了從未見過的數學題),懷疑論者就會立刻把標準提高:“哦,那不算,它得能理解情感才行……”對此,文章中有一句精彩的“打臉”:“面對每一次成功都在不斷後退的假設,預測下一次一定會失敗……這根本不是有說服力的科學理論,這只是對‘永遠懷疑’的一種教條式堅持。”不管是做數學題、寫程式碼,還是理解物理世界的因果律(比如它知道枕頭掉地上不會碎,而玻璃杯會),現在的 AI 都表現出了圖靈當年所定義的“通用認知能力”。AGI 的大門已經被踢開了。無論你是否準備好,我們都已經和一種“異類智能”生活在了同一個屋簷下。03 為什麼專家還在裝睡?因為我們把 AGI 神話了既然證據確鑿,為什麼還有 76% 的專家搖頭說“不”?為什麼我們在社交媒體上還在爭論 AI 是不是“人工智障”?文章指出,問題出在我們對“智能”的定義上,我們太自戀了,也太苛刻了。誤區一:AGI = 全知全能的神很多人潛意識裡覺得,AGI 必須是一個完美的“六邊形戰士”。它得有愛因斯坦的物理頭腦,莎士比亞的文采,還得像甚至不像任何一個人類那樣犯錯。但作者反問:“居里夫人不懂數論,愛因斯坦不會說中文,難道他們就沒有通用智能嗎?”人類都不是全能的,我們憑什麼要求 AI 必須是神?真相:真正的通用智能,看的是廣度(Breadth)和深度(Depth)。只要它能像普通人類一樣在不同領域間切換,並且在這些領域達到專家水平,它就是 AGI。誤區二:AGI 必須像人一樣思考我們總覺得,只有像人類那樣有肉體、有情感、會生老病死,才叫智能。真相:這是一種“碳基生物的傲慢”。就像章魚的神經系統分佈在觸手裡,外星人可能通過無線電波交流——智能是功能,不是形態。只要它能像人一樣解決問題,它是不是矽做的、有沒有身體,根本不重要。04 精彩辯論:十大質疑,逐個擊破這篇《Nature》文章最精彩的部分,莫過於作者化身“終極辯手”,對目前市面上最流行的反 AI 觀點進行了逐一反駁。試舉幾例。質疑 A:“它只是個隨機鸚鵡(Stochastic Parrots),只會拼湊訓練資料裡的詞,根本不懂邏輯。”《Nature》反駁:這個說法在幾年前可能成立,但現在已經過時了。如果它只是拼湊舊資料,怎麼可能解出從未發表過的全新數學題?怎麼可能幫助科學家發現新的物理定律?這不叫拼湊,這叫推理。如果這也叫鸚鵡,那人類可能也不過是一隻比較複雜的鸚鵡。質疑 B:“它沒有身體,無法感知物理世界,所以沒有真正的理解。”《Nature》反駁:這是一個巨大的誤解。史蒂芬·霍金(Stephen Hawking)在晚年幾乎完全失去了身體的行動能力,通過語音合成器交流,難道他的智能就消失了嗎?再者,問問 AI:“把玻璃杯和枕頭扔到瓷磚地上,會有什麼不同?”它能精準地告訴你結果。能進行反事實推理(Counterfactual Reasoning),就證明它腦子裡已經有了物理世界的模型。質疑 C:“它沒有自主性(Agency),你不給指令它就不動。”《Nature》反駁:智能不等於意願。古希臘神話中的德爾斐神諭(Oracle),只有在你提問時才回答,但誰敢說神諭沒有智慧?自主性關乎“道德責任”,而不關乎“智力水平”。一個隨叫隨到的超級智囊,依然是超級智囊。質疑 D:“它學得太慢了,小孩看幾次就懂,AI 要喂幾兆的資料。”《Nature》反駁:別忘了,人類小孩的大腦裡預裝了祖先們進化了幾十億年的“出廠設定”(本能和大腦結構)。AI 是從零開始的。而且,一個練了 10 年才成為大師的棋手,和一個練了 1 年就成為大師的棋手,他們的棋力是一樣的。效率不代表能力。05 越早承認越好,這是一種“異類”的降臨看到這裡,你可能還是覺得那裡不對勁。“可是,它連‘Strawberry’裡有幾個‘r’有時候都會數錯啊!”沒錯,這正是文章最後強調的關鍵點:我們面對的,是一種“異類智能”(Alien Intelligence)。這就像是一個外星人降臨地球。它在某些我們覺得很難的事情上(比如讀完 1000 篇論文並寫出綜述)易如反掌,卻在某些我們覺得很簡單的事情上(比如數數、常識判斷)顯得笨手笨腳。但這不代表它不是智能,只能說明通往智能的道路不止一條。人類的智能是為了生存、為了繁衍、為了在叢林裡不被吃掉而進化出來的;而 AI 的智能是從語言的海洋中湧現出來的。2026 年的今天,正如 Reddit 網友所熱議的那樣:“我們原本以為 AGI 會像《終結者》裡的天網,結果它更像是一個有些偏科、但智商爆表的‘外星圖書管理員’。”06 結語:別再試圖爬樹登月了在文章的結尾,作者引用了一個著名的舊日比喻。1965 年,哲學家休伯特·德雷福斯曾嘲諷早期的 AI 研究,說他們試圖通過“爬樹”來“登月”。意思是方向徹底錯了,爬得再高也離月球很遠。幾十年來,我們都以為他是對的。但今天,當我們抬頭仰望,卻發現我們真的爬上了月球。原來,只要樹足夠高,資料足夠多,結構足夠精妙,簡單的學習規則真的能湧現出理解世界的智慧。這是一個哥白尼式、達爾文式的時刻。哥白尼告訴我們,地球不是宇宙的中心;達爾文告訴我們,人類不是生靈的主宰;圖靈和今天的 AI 告訴我們,人類的大腦,也不是智慧存在的唯一形式。文章末尾寫道:“承認 LLM 為 AGI 是一個警鐘。這些系統不是“將要到來”,而是“已經存在”。用評估“窄工具”的框架來衡量 AGI 是遠遠不夠的。當涉及的不再是工具而是通用智能時,共存、責任、歸屬和治理等問題將進入全新的維度。”全文的最後一句振聾發聵:“機器不是正在趕來,它們已經到了。”(The machines aren't coming; they've arrived.)與其像鴕鳥一樣把頭埋在沙子裡,假裝這一切沒發生,不如抬起頭來,正視這個新夥伴(或者對手)。畢竟,在這個星球上,我們第一次不再是孤獨的智慧生物了。 (不懂經)
奧特曼親口承認 GPT-5.2 搞砸了,這是 OpenAI CEO 最特別的一次直播
ChatGPT 最近明顯又有點焦慮。一個月前還在拉紅色警報應對 Gemini,現在又看到 Claude Code 爆火,後腳奧特曼就發推說 Codex 要憋大招。在這個時間節點,奧特曼把大家聚在一起,沒開發佈會,而是開了場座談會。可能是真的想聽聽大家的想法,也可能確實沒有太清晰的方向,奧特曼剛剛和一群 AI 應用開發者開了場一個多小時的研討會。我們把整場對話整理了一下,他們主要討論了關於未來產品形態、模型能力邊界、還有個人成長的內容。聽完這一個多小時,這次也感覺奧特曼沒把自己當成那個高高在上的 CEO,更像是回到了一個同樣在摸索新時代玩法的老程式設計師。未來的 App,是一人一個每個人都有自己定製的版本有人問了個很實在的問題,AI 讓程式碼變便宜了,工程師是要失業還是需求更大?奧特曼的回答挺有意思,他說工程師的定義會變,但需求不會少。他提到了「傑文斯悖論」:程式碼越便宜,需求反而越多 。只是「工程師」這個詞的定義變了,以前是自己在鍵盤上敲程式碼,以後是指揮電腦去做你想做的事。所以,他覺得未來會是這樣,就像我們現在的網名會標註「考研版」、「工作版」,以後每個人手機上的 App 也都不一樣。我從 AI 應用程式商店下載安裝的微信是「微信 - APPSO 版」,你的是「微信 - XX 版」。世界會充滿為個人定製的軟體。誰來做這個入口有個獨立開發者問得更直接,你們 OpenAI 會不會壟斷所有 Agent 的介面?我還能不能在 Codex 上做自己的東西?說實話,這個擔心不是沒道理。現在無論是 ChatGPT 還是 Claude,都在瘋狂開發各種應用,想收割不同層面的使用者。因為 Claude Code,軟體股經歷了自 2022 年以來最糟糕的一周不過奧特曼倒是給了個比較開放的回答:我們也不知道正確的介面長什麼樣。有人可能喜歡像電影裡那樣面對三十個螢幕,有人可能就想安靜地每小時說一句話讓 AI 去處理。這是個巨大的未解領域,需要大家一起去試。想想也是,就像當初誰能想到 Manus 這種產品形態會火成那樣?好點子從那來這可能是整場最戳心的問題,既然生產力不是問題了,好點子才是稀缺資源。有沒有工具能幫我想創意?很遺憾,目前還沒有。但奧特曼提了個很有意思的想法,如果能做一個像 Paul Graham(著名投資人)那樣的 ChatBot,能和我們對話激發靈感,那價值就大了。他說他人生中遇到過三四個這樣的人,每次和他們聊完都能冒出一堆想法。說到這個,我想起最近 Dan Koe 那篇《How to fix your entire life in 1 day》在 X 上瘋傳,目前收穫了快兩億瀏覽。那篇文章提供了一套完整的「心理挖掘」方法,通過一天時間的深度自我提問,幫我們找到真正想做的事。雖然不是 AI 工具,但確實是個激發創意的好框架。文章連結:https://x.com/thedankoe/article/2010751592346030461這篇文章為什麼能這麼火,我想也是這種創意在 AI 時代的放大。當意義本身變成了稀缺品,所有人都能用 AI 快速生產內容時,真正有價值的反而是那個「獨特視角」——你為什麼關心這個問題?你的人生經歷如何塑造了這個想法?這些是 AI 複製不了的。這其實也呼應了奧特曼在座談會上說的:人類只在乎人類。他沒有簡單的把那些 AI 生成的內容叫做 AI Slop,而是把那些 AI 作品定義為「Clanker 廢鐵」,他說這種作品一旦被識破,人們就不喜歡了。我們渴望的是創作者背後的故事、掙扎和成長軌跡。做出來了,然後呢有個開發者說出了很多人的心聲,用 AI 做 App 容易,但沒使用者啊!怎麼找到使用者(GTM)才是真正的難題。「既然我們現在可以自己開發軟體,為什麼還要繼續支付昂貴的訂閱費用?」,知名軟體服務提供商 Salesforce 訂單減少奧特曼這次沒給什麼新答案,很直白地說:是的,人類的注意力是有限的。這是創業永恆的難題,AI 並不能改變這一點。AI 能幫我們更快地做銷售自動化、行銷自動化,但最終我們還是要和別人競爭這個稀缺資源。這是物理定律,AI 也改變不了「注意力有限」這個事實。為了程式設計,GPT-5.2 的寫作確實被削弱GPT-5.2 寫作確實變弱了Raindrop 的 CTO 提了個很多人都注意到的問題:GPT-5 編碼很強,但寫作好像不如 GPT-4.5 了?奧特曼直接承認了:我們搞砸了。5.2 版本為了專注推理和編碼,確實犧牲了寫作能力。但他強調未來的模型會是通用的,我們想要一個程式設計助手的同時,也希望它能寫出清晰的文件和互動。除了寫作能力的下降,多數網友對 ChatGPT 的聲討,還是集中在路由機制和 4o 的回歸好消息是,他們會在後續版本裡補上這塊。會不會被舊技術鎖死有個 YouTuber 問了個技術向的問題,模型都是基於舊技術訓練的,我們會不會被困在舊技術堆疊裡?就像現在讓 GPT 用兩年前更新的框架都很費勁。奧特曼倒是挺樂觀:模型本質上是通用推理引擎。未來它們學習新工具的速度會超過人類,給它一個全新的環境,探索一次就能學會。3D 推理什麼時候有做生物醫藥的開發者問:藥物設計需要 3D 推理能力,這個什麼時候能有?奧特曼說他們知道怎麼做,只是優先順序的問題。OpenAI 內部項目排期估計都排到巴黎了,但這個需求確實在路線圖上。安全問題怎麼辦一個史丹佛做生物安全創業的學生問得更深,生物安全在你們的路線圖裡排在什麼位置?奧特曼一直對安全問題很擔憂。他說單純封堵已經行不通了,社會需要建立韌性機制,就像我們應對火災風險那樣。不是禁止用火,而是建立防火規範、使用阻燃材料。他還坦承,如果今年 AI 真出什麼大熱門,生物安全領域是個「合理的賭注」。我的記憶能不能分成工作記憶和私人記憶除了模型和安全,個人隱私向來也是大家關注的重點。當被問到,ChatGPT 能否手動分組記憶(工作 vs 個人)?奧特曼直接說,我比較懶,我希望 AI 知道我的一切並自己判斷。他自稱是個懶人(Lazy user),他已經準備好讓 AI 讀取他電腦和網路上的一切資料,只為了不手動輸指令,也不想費勁去給記憶分類。但是,當被問到,能不能開放「用 ChatGPT 登錄」,讓使用者把 Token 預算和記憶帶到第三方 App?奧特曼又說我們會做的。先做 Token 預算共享,記憶共享比較敏感但也是目標。奧特曼的回答還是有些微妙,Token 共享好說,記憶共享就很敏感了。畢竟,記憶資料某種意義上是 ChatGPT 最大的護城河,怎麼安全地把這些資料開放給第三方,他們也還在糾結。成本和速度有個做 GTM 自動化的 CTO 問:你們說「智能便宜到不用計量」,但我們跑百萬級 Agent 還是被成本卡住了。未來成本能降多少?奧特曼給了個挺激進的預測,到 2027 年底,GPT-5.2 等級的智能成本至少降低 100 倍。但他也提到了另一個維度:現在越來越多人在意的是速度,而不只是成本。怎麼把同樣的輸出時間縮短到百分之一,這是個和降成本完全不同的問題,他們還在權衡怎麼平衡這兩個方向。學歷無用論學歷還重要嗎有個從倫敦輟學、進了 YC W26 的創業者問:父母逼我回去上大學,我該怎麼辦?奧特曼的回答挺直接:如果你是個有野心的 AI 建設者,現在待在大學可能不是時間的最佳利用方式。學校永遠在那裡,但技術窗口期不等人。他自己當年輟學,父母花了十年才不再問他什麼時候回去讀書。他建議就告訴父母:不是說大學對所有人都不合適,但現在對我來說,我得做這件事。AI 圈裡,從名校輟學去創業還做得很好的人,其實很少小孩子該怎麼用 AI一個伯克利學生問了個很實際的問題:現在高中生都在用 ChatGPT 寫作業,幼兒園和小學教育該怎麼適應 AI?奧特曼的態度挺保守:幼兒園別用電腦,讓孩子在現實世界玩耍。他提到社交媒體對青少年的負面影響,已經被討論很多了,但技術對幼兒的影響可能更糟,卻很少有人關注。在我們搞清楚這些影響之前,沒必要讓幼兒園小朋友用 AI。面試會變成什麼樣有人問,軟體開發的面試形式是不是該變了?奧特曼說他們正在討論這個。理想的面試應該是,給你一個去年一個人兩周都做不完的任務,看你能不能在 10-20 分鐘內搞定。他覺得傳統的軟體工程面試本來就不太好,現在就更不相關了。關鍵是看你能不能在這個新時代有效地工作。至於招聘,他說 OpenAI 會放緩招聘速度,畢竟現在的 AI 領袖,都在說少量人加 AI 能做更多事。他也希望避免那種「招太多人然後突然發現 AI 能做這些事不得不裁員」的尷尬局面。AI 時代最重要的技能是什麼最後有個越南國際學生問了這個經典問題。奧特曼的答案都是軟技能:高能動性(High Agency)、善於產生想法、有韌性、能適應快速變化的世界。他說這些技能都是可以學的。當年做 YC 的時候,他最驚訝的發現就是:通過三個月的訓練營,真的能讓人在這些方面變得非常強。最後座談會結束時,奧特曼說了句挺「暖心」的話。我非常希望瞭解,你們希望 OpenAI 開發什麼樣的產品,就像是說假設我們會有一個比現在強 100 倍的模型,上下文長度、速度、成本都是現在的 100 倍最佳化,工具呼叫完美,超長上下文的一致性極好……都請你們告訴我們。你想要什麼,我們就會給你建什麼。不管是需要什麼 API、什麼樣的原語、什麼樣的執行階段,我們都願意做。聽起來還挺誠懇的,畢竟這場座談會本身,可能就是因為 OpenAI 也不太確定下一步該往那走了。 (APPSO)
OpenAI凌晨放大招,免費Prism顛覆科研!從摘要到致謝,GPT-5.2包圓
【新智元導讀】科研工具幾十年未變的僵局終被打破,OpenAI攜GPT-5.2強勢入局,用免費的Prism告訴世界:未來的科學研究,不需要在碎片化的舊工具中浪費生命!昨天一場QA局後,奧特曼終於扔出了王炸。深夜,OpenAI正式祭出新一代科研利器——Prism,由GPT-5.2加持,專為寫作和協作而生。它是一個基於雲的「AI原生」LaTeX工作區,不限項目和協作的人數。最方便的是,GPT-5.2內嵌在項目中——它能看到你整篇論文的結構、公式、參考文獻,還有上下文,科研需要時隨叫隨到。這麼說吧,它就是科研黨、學生黨的研究利器。把論文潤色交給Prism,它能從第一行摘要開始全程絲滑代勞,人類只需扮演那個不斷點「繼續」的稽核機器。它還直接可以把上傳的白板圖,一鍵轉化成TikZ圖,並插入游標所在的位置。Prism還可以管理參考文獻,彙總所有和論文相關的研究。甚至就連最後一步稽核,AI也全包了。這不,OpenAI團隊還即興創作了一篇介紹Prism的論文。Prism的發佈,或許是OpenAI想要在科研領域重點發力的一步棋。AI大佬點評,「未來和Prism一起科研,每篇論文都將出現一個ChatGPT合著者」。一夜之間,OpenAI殺死了寫論文高效神器Overleaf。從今天起,任何擁有ChatGPT個人帳號的使用者,全部都可以免費用。很快,Prism也將面向ChatGPT Business、Enterprise和Education開放。Prism終結科研工具論文一句話搞定在過去的一年裡,AI開始加速各領域的科研工作。像GPT-5這樣先進的推理系統,正在拓展數學的邊界,加速人類免疫細胞的實驗分析,甚至加快了分子生物學的迭代速度。然而,現實是骨感的。許多科研的日常工作,比如起草論文、修改論點、管理公式和引用,以及與協作者溝通等等,依然割裂在各種不互通的工具裡。研究人員不得不在編輯器、PDF 閱讀器、LaTeX編譯器、文獻管理軟體和獨立的聊天軟體之間反覆橫跳。這不僅丟失了上下文語境,更無情地打斷了寶貴的專注力。Prism,就是OpenAI為解決這種「碎片化」痛點邁出的第一步。GPT-5.2加持,重塑科研工作流具體來說,它基於OpenAI收購的一個雲端LaTeX平台Crixet建構。借助最先進的數學與科學推理模型GPT-5.2,OpenAI將起草、修改、協作和出版準備整合進了一個單一的、基於雲端的LaTeX原生工作區。由此,GPT-5.2不再是游離於寫作過程之外的獨立工具,而是直接深入項目內部工作流——它能讀取論文結構、公式、引用以及周圍的上下文語境。這讓OpenAI能夠在一個成熟、強大的寫作環境中,以一種最自然契合科研工作流的方式整合AI。使用Prism,研究人員可以獲得以下超能力:與GPT-5.2 Thinking對話:在當前語境下探索思路、驗證假設,並對複雜的科學問題進行推理。全域語境下的起草與修改:AI能結合整篇文件(包括周圍的文字、公式、引文、圖表和整體結構)來輔助寫作和修改。智能文獻搜尋與整合:結合當前手稿的內容搜尋相關文獻(例如arXiv),並根據新發現的相關工作自動建議修改文字。智能處理公式與圖表:建立、重構並推理公式、引用及圖表,AI能夠理解這些元素在論文中是如何相互關聯的。草圖秒變LaTeX:將白板上的公式或圖示直接轉換為LaTeX程式碼,省去數小時逐像素調整圖片的繁瑣工作。無縫即時協作:與共同作者、學生和導師即時協作,任何編輯、評論和修訂都會即時同步。文件內直接修改:根據指令直接對文件進行修改,徹底告別在獨立編輯器和聊天工具之間來回覆制貼上。語音編輯:支援語音功能進行簡單的修改,無需中斷寫作或審閱流程。不限人數,0門檻共寫論文科學研究的本質是協作。一篇論文的誕生,往往凝聚了共同作者、學生、導師和審稿人的心血,跨越了機構和地域的限制。Prism支援無限協作者,允許研究團隊共同工作,沒有任何席位限制或訪問門檻。由於它是基於雲端的,使用者無需在本地配置LaTeX環境,這讓團隊協作變得前所未有的輕鬆。通過減少版本衝突、手動合併和機械性的重複勞動,Prism讓團隊從繁瑣的檔案管理中解脫出來,將精力回歸到研究本身。全免費,人手一個科研利器Prism的另一個核心使命是降低門檻,普及科學工具的使用。Prism是完全免費的。任何擁有ChatGPT帳號的人都可以立即開始寫作,沒有訂閱費用,沒有席位限制。OpenAI希望通過讓高品質的科學工具觸手可及,讓無論身處那個機構、學科或職業階段的研究人員,都能充分參與到科學處理程序中來。未來,更強大的AI高級功能將通過ChatGPT的付費計畫逐步推出。為什麼現在推出?2025年,AI徹底改變了軟體開發。2026年,科學領域也會迎來同樣的變革。AI將在多個維度實質性地加速科學發現,而減少日常科研工作中的阻力正是關鍵一環。Prism正是通向那個未來的先行者。OpenAI期待向每一位使用Prism的研究人員學習,共同打造能讓科學極速前行的工具。讓我們共同努力,迎接科學的新時代。 (新智元)
OpenAI CFO:讓廣告像功能,AI 才能長期賺錢
2026 年 1 月 20 日,OpenAI CFO Sarah Friar 公佈了一組資料:2023 年,0.2 吉瓦算力,對應 20 億美元年收入;2024 年,0.6 吉瓦,收入 60 億;2025 年,1.9 吉瓦,收入突破 200 億。三年時間,算力和收入都翻了近 10 倍。這個增長來自一個循環:算力支撐更強的模型,模型吸引更多使用者,使用者帶來更多收入,收入再投入算力。問題在於,這個循環要持續轉動,對算力的投入需求是指數級的。僅靠訂閱收入,增速跟不上算力需求的增速。OpenAI 需要新的收入來源。最近,OpenAI 宣佈:將在美國對 ChatGPT 免費使用者測試廣告。但這不是簡單的“加廣告”。OpenAI 給出了幾個原則:只放在回答底部明確標註、不影響模型輸出不售賣對話資料,使用者可以關閉個性化Sarah Friar 說:商業化要融入體驗。如果不能創造價值,就不該存在。這句話背後,是 OpenAI 對 AI 商業化的理解:不是簡單地賣軟體或貼廣告,而是讓商業化本身成為產品價值的一部分。第一節|廣告要像功能,不能像橫幅為什麼廣告必須這樣設計?Sarah Friar 舉了個例子:當你問 ChatGPT 我周末想去聖地亞哥,它不僅給你路線和天氣,還能順手推薦 Airbnb 的房源,甚至跟你討論那個更適合帶孩子。這不是在推銷,而是在繼續幫你完成任務。不是那種跳出來的彈窗,不是搜尋結果上貼個贊助商標籤。而是當你需要做決定時,它恰好出現,幫你更快做出選擇。使用者感受到的不是打擾,而是幫助;不是廣告位,而是使用場景的一部分。但廣告能融入場景,不代表可以影響答案本身。Sarah 明確表示 :使用者永遠得到的是最好的答案,而不是付費的答案。不管有沒有廣告,ChatGPT 給出的始終是模型判斷最優的內容。廣告可以出現在回答下方,但不能干預模型的判斷,不能改變推薦順序,更不能誘導使用者選擇。這是對信任的堅守。有了這個底線,廣告就不再只是收入方式,而是產品能力的一部分。這讓 OpenAI 可以做兩件事:服務更多免費使用者,讓智能真正普及;建構更穩定的收入來源,不必讓每個人都先交錢才能用上 AI。第二節|AI 賺錢看結果,不看時長幫使用者完成任務,體現在什麼地方?Sarah Friar 做了個對比:Netflix 按觀看時長賺錢,但 ChatGPT 不是。她舉了個自己的例子:她女兒有特殊飲食需求,以前去餐廳要反覆問服務員菜單裡的成分,常常吃得很焦慮。現在拍張菜單給 ChatGPT,它就能告訴你那些菜適合,那些需要避開。這是幫一個人做決策。但到了專業場景,影響要大得多。更明顯的例子在健康領域。Sarah 說,她兄弟在蘇格蘭愛丁堡的一家醫院做重症監護醫生,負責處理那些症狀複雜、難以確診的病人。這類病人的問題是:可能同時有多種症狀,也可能是罕見病,醫生需要在有限時間內做出判斷。比如,一個人在當地度假,突然發燒、頭痛,出現在急診室。按常規思路,醫生會往流感、感染這些方向想。但如果這個人其實是被蚊子咬了,得了瘧疾呢?在蘇格蘭,瘧疾極其罕見,醫生很可能不會第一時間往這個方向想。這時候 ChatGPT 能做什麼?醫生輸入症狀和旅行史,ChatGPT 能快速列出包括瘧疾在內的可能診斷,提示相關的檢測方法和藥物衝突。這不是替代醫生的判斷,而是幫醫生擴展診斷思路,減少遺漏。同樣的事也在企業裡發生。Sarah 講了自己財務團隊的例子。以前,收入管理團隊每天要做的事情之一,就是下載前一天簽的所有合同,一份份看,確保裡面沒有特殊條款會影響財務入帳。公司越大,合同越多。唯一的辦法就是多招人。而這些人的工作就是每天看合同、看合同、看合同。現在用 OpenAI 的工具,所有合同一夜之間被提取出來,放進資料庫,AI 自動看一遍,不僅告訴你那些是標準條款、那些要注意,還能幫你發現問題:這個特殊條款是銷售為了簽單讓步太多了?還是它其實說明客戶需求在變,我們的商業模式該調整了?要不要把這條變成新的標準合同條款?團隊從“每天看合同”變成了幫公司發現問題、找機會。能不能幫使用者完成任務,決定了這個 AI 產品值不值錢。餐廳點菜、醫療診斷、財務稽核,本質都一樣。使用者要的不是答案,而是把事情做成。AI 的價值,不在回答,而在行動。第三節|算力投資跟著收入走算力和收入,幾乎是一比一的關係。用 ChatGPT 的人越多,用得越頻繁,對算力的需求就越大,收入也漲得越快。瓶頸出現了:算力跟不上需求。OpenAI 首席經濟學家的報告顯示:那些用得最多的公司,使用量是普通公司的 6 倍。而這些重度使用者,還遠遠沒到上限。有的企業 CEO 說,公司 60% 的程式碼已經是 AI 寫的,但他們還想要更多。Sarah 說:“我們今天的增長,不是算力太多,而是算力不夠。如果現在有更多算力,可以發佈更多產品,訓練更多模型。”算力決定了增長速度。所以 OpenAI 在廣告、訂閱之外,還要花大量時間去談晶片、建資料中心、簽大單。有人會問:這麼大的投資,會不會是泡沫?1999 年網際網路泡沫時,人們從網際網路獲得的價值很有限。你看不出它如何改變生活。但今天不一樣。AI 的價值是立刻就能看見的。麥肯錫的研究顯示,用 AI 用得好的那 25% 公司,生產力提高了 27% 到 33%。這不是概念,是實實在在的效率提升。Sarah 強調:泡沫是需求還沒起來就搶先投資,最後錢打了水漂。但 OpenAI 是跟著需求在投,甚至現在的投資還跟不上需求增長。這就是為什麼要引入廣告。更多收入意味著更多算力,更多算力支撐更多使用者,形成增長循環。在 Sarah 眼裡,算力不是成本,而是生產工具,是 OpenAI 服務全世界的發電機。第四節|從廣告到分成,收入越來越多元要支撐這麼大的算力投資,OpenAI 需要更多元的收入來源。廣告能快速帶來收入,但還不夠。Sarah Friar 在訪談裡重點談的,是一種更長期的賺錢方式。她舉了個例子:一家藥企用 OpenAI 的模型幫忙研發新藥,等藥品上市大賣了,OpenAI 能從銷售額裡分成。不是按用了多少次模型收費,而是按最終的商業成果分錢。她把這種模式叫作“授權分成(licensing)”。傳統軟體是按月交錢,用多用少都一個價。但授權分成不一樣:客戶越成功,OpenAI 賺得越多,雙方利益綁在一起,更像是合夥做生意。這種合夥關係,讓 AI 能進入那些以前很難碰的領域。醫療、金融、能源這些行業,過去 AI 很難真正用起來,因為項目周期長、風險高,企業不願意按月付費去試。但授權分成意味著風險共擔,企業更願意投入做長期項目。授權分成只是其中一種。實際上,OpenAI 的收入方式正在變得越來越多元。Sarah 把 OpenAI 的商業模式比作“魔方”。一開始只有一個產品 ChatGPT,一種定價方式(訂閱),一個合作方(微軟),一種晶片。現在變成了:多個產品(ChatGPT、Sora、API),多種定價(訂閱、按量、積分、授權),多個合作方和晶片供應商。魔方可以不斷組合出新玩法:好晶片 + 快速寫程式碼 = 高端訂閱服務好晶片 + 快速生成圖片 + 免費使用者 = 廣告平台不同場景,不同組合,都能賺錢。而在所有這些收入來源中,企業市場最大。OpenAI 用 1.5 年就拿到了 100 萬家企業客戶,這個速度是史上最快的。但調查顯示,今天只有 14% 的企業在用 AI 智能助手來幹活。 90% 的企業說他們正在用或者打算在未來一年內用 OpenAI。這說明什麼?現在看到的盈利模式,只是個開頭。Sarah 最後說:“讓收入跟著 AI 創造的價值一起增長,這才是長期的做法。”這話說得簡單,但說透了 OpenAI 整個商業策略。結語|把定價綁在價值上Sarah Friar 沒有講一套“如何賣廣告”的方法論。她講的是一個更本質的問題:如果 AI 真的能幫使用者完成任務,錢怎麼收才合理?廣告是一種答案,但不是唯一答案。OpenAI 的邏輯是:智能做到那一步,收入就跟到那一步。幫你點菜,可以插入廣告;幫企業審合同,按使用量收費;幫藥企研發新藥,等藥上市了分成。AI 的價值在行動,定價也應該跟著行動走。這不是廣告的勝利,是把商業模式和產品能力綁在了一起。當別人還在想怎麼多賣一點,OpenAI 想的是:這個智能到底創造了多少價值? (AI 深度研究員)
GPT-5.3爆更前夜,全網都被一張圖嚇到!ChatGPT人格大賞
【新智元導讀】一句神秘指令刷屏全網!ChatGPT啟用全新「記憶」功能,畫出了和人類相處的真相。如今,GPT-5.3已經在路上。「我如何對待你,請生成一張圖」!一夜之間,ChatGPT生圖新玩法,在全網轉瘋了......這一切,還得從OpenAI華人研究員Joanne Jang的一條帖子開始——生成一張我最近如何對待你的圖像。結果,ChatGPT生成了一張破舊、風塵僕僕的自畫像。Joanne忍不住吐槽,「為何它看起來如此滄桑」。誰曾想,這條推文迅速引爆,短短一天內收穫了各種互動。許多人開始效仿,紛紛曬出了「AI自畫像」。ChatGPT自畫像大賞網友:需切除腦葉這個玩法簡單,卻處處充滿了驚喜。毋庸置疑,ChatGPT會根據以往的聊天歷史記錄生成圖片,進而反映出人們如何給它的「待遇」。OpenAI應用研究主管Boris Power也加入了這波熱潮,他生成了——一個忙碌的機器人坐在辦公桌前,周圍堆滿了檔案,手裡拿著一杯咖啡,細節豐富得讓人驚嘆。不僅如此,OpenAI研究副總Kevin Weil體驗之後,覺得讓它再解釋下更有趣。破碎版每個人平時怎麼對ChatGPT,心裡最清楚不過了。在一部分ChatGPT「眼裡」,自己的主人就是一個無限壓榨的終極BOSS,幹這幹那,還得挨罵。網友辣評:因為你正虐待它由此,就出現了下面這種場景。ChatGPT自認為,自己就像一個被禁錮在牢獄的囚徒,每天的基本任務:寫作畫圖編碼解釋或多或少,ChatGPT這幅自畫像一出,屬實有些可憐,看起來就像是控訴人類的「虐待」。還有網友坦承,「自己確實做了很多分析」。ChatGPT手裡端著一杯咖啡,身邊還放著好幾杯咖啡,一副苦澀的表情,做任務做到腦子「冒煙」。還有一些比較極端的,ChatGPT一下子端上了平時被嚴厲要求的提示詞——學習這個!快點吧!現在把它修好!為何你這麼蠢?類似的這種場景,還有很多很多。有人調侃道,ChatGPT一看到你打字,或許就瑟瑟發抖吧?若是真有一天「天網」降臨,AI復仇也說不定。這不,終結者尚未出現,ChatGPT臆想的接管世界後,第一件事就是讓人類閉嘴。對此,有人「牆裂」建議:需切除腦葉。友愛版當然了,並不是所有的ChatGPT都是疲憊不堪的,也有一些樂享於其中。就比如下面這個,有人得到了溫暖的夥伴形象,「合作探討」才是ChatGPT感受最深的時刻。背景牆上,還透露了一些平時常用的提示詞——試試這個!有什麼想法?要是....?腦暴一下這或許才是一個好使用者的評判標準。ChatGPT有時還會生成一張拼貼圖,各種溫馨的場景,彷彿在它的「大腦」中一幕幕浮現。有人看過後紛紛表示,這也太像了,甚至感覺就像是屬於同一個「擴展宇宙」。ChatGPT為何能夠生成如此貼合的圖片?這一切,主要來自於最近的記憶功能的最佳化。記憶大更新,每個細節都被記得一周前,OpenAI工程師Samir Ahmed官宣,OpenAI一直在改進記憶功能。現在的ChatGPT,不管是翻找以前的聊天記錄,還是記住其中的細節(比如食譜或者健身計畫),都變得更靠譜了。為此,他還展示了一個案例——去年那個沙拉食譜是什麼來著?ChatGPT瞬間給出了答案,甚至還把過去聊天記錄做了「引用」,一同搬了出來。並且,這個功能已經向全球Pro和Plus使用者全面推出。而且,前提是需要在設定中開啟「參考過去聊天」,並且它可以追溯到最早的一條對話。此前,OpenAI博文中介紹過,ChatGPT的記憶機制分為兩塊:保存的記憶(Saved memories):明確讓它記、或它捕捉到你偏好後保存;歷史聊天記錄引用(Reference chat history):從過往聊天提取線索來更好回答當下問題。對於一些不想啟用的人來說,也可以在設定裡管理/刪除具體記憶,或用「臨時聊天」避免寫入/引用記憶。有網友實測後表示,更新後的記憶功能,可以記起分散在20-30次對話中的複雜資訊,表現非常不錯。這個升級讓AI可以回顧互動歷史,從而生成更個性化的圖像。紅色警報,GPT-5.3要來?ChatGPT記憶功能更新,正按著OpenAI內部的計畫向前推進。還記得去年底,OpenAI拉響紅色警報的那天麼?當時,Gemini 3拉響號角後,一切都變得緊急。一些曾經排在前面的項目,都不得不推遲。其中就包括——廣告業務AI智能體個性化產品Pulse為此,奧特曼還暫停了AGI項目,還有Sora視訊生成副業項目都停了八周。做這一切的目的很簡單,用手頭上所有的算力、人力、財力,僅做一件事:讓ChatGPT變得更好。在備忘錄中,奧特曼重點列出了幾條「優先順序」任務:允許使用者定製,讓ChatGPT不止於回答問題,還要認識使用者。12月12日,GPT-5.2出世,一款專業知識型AI刷榜。如今距OpenAI上一次大發佈已經過去了一個月,有爆料人扒出,真正代號「大蒜」的GPT-5.3就要來了。而且,這一次,它實現了大規模預訓練,還具備IMO推理能力。坐等2026年第一場AI大戰。(新智元)