#OPENAI
布林坦承Google低估Transformer,“還被OpenAI挖走了Ilya”
我們在AI方面犯了錯誤,而OpenAI抓住了機會。最近Google創始人謝爾蓋・布林回母校史丹佛演講,公開復盤Google的奮鬥史:從誕生、崛起,再到AI比拚中大意掉隊,以及靠Gemini 3逆風翻盤……他重新審視Google這些年的幸運與失誤,並對AI未來冷靜判斷:一開始沒想創業,想要賣技術結果沒人買。Transformer發佈後,我們錯誤地低估了AI,把機會拱手讓給了OpenAI。Google的學術積累和全端技術為Google重回世界一流AI提供了保障。我從Google眼鏡中得到的教訓是,不要過早地將想法商業化。量子計算和材料科學是被低估的未來技術,不建議學比較文學。至於為何他退休後又回歸Google,他也給出了自己的答案:生命的意義在於找到你的熱情,並不懈地為之奮鬥。Google的誕生始於一把“撬開”萬物的鑰匙Google的發展歷程始於1995年的史丹佛大學。那時拉里·佩奇正在考慮去史丹佛讀研,而受指派帶他參觀學校的正是塞吉·布林,不過那時,布林還是個喜歡“撬鎖”的自由青年。據他所說,那是段充滿創造力的時光,在史丹佛讀博期間,他從MIT一位擅長撬鎖的朋友那裡學會了這項技能。他會從辦公室的窗戶爬到腳手架上,然後偷溜進其它房間,把房間電腦裡的所有軟體都複製一份,然後自己做了一把能打開史丹佛所有門的萬能鑰匙。不過這項技能並沒有讓他成為詹姆斯邦德,因為他碰到了拉里。在那時,網際網路才剛剛興起,布林也乘著這股東風做起了披薩線上訂購的買賣,他當時設定的運作模式是:使用者網站下單→系統把訂單傳真給披薩店。看起來似乎很合理,結果實際上披薩店老闆根本不看傳真……於是項目泡湯了。好在擅長資料探勘的布林碰上了專注網路連結結構的拉里,他們二人開始共同致力於一個名為“數位圖書館”的項目,並基於此開發了BackRub搜尋演算法。該引擎可以通過連結來確定全球資訊網上各個網頁的重要性,而這就是Google的前身。不過當他們最初嘗試將BackRub授權給網際網路公司使用,卻都以失敗告終,陰差陽錯之下他們決定自己創業。創業伊始很是順利,他們成功收穫了一些天使投資。但布林也表示,對於他當時中斷博士學業的決定,他的父母其實並不贊同,好在他的導師很支援他,並告訴他,如果失敗了,就回去找他。但後來布林再也沒有返回校園,因為Google成功了。從學術領頭羊到AI掉隊他們將BackRub更名為Google。這個名字源自一個數學表示式,代表數字1後面帶100個零,也代表了布林和拉里的野心:整合全球資訊,供大眾使用,使人人受益。在接下來的幾年裡,Google開始積極營造學術氛圍,注重對基礎研發的投入,並吸納了很多博士生加入。伴隨著濃厚的學術背景,Google總是樂於嘗試富有挑戰性的內容,創新、打破常規是早期Google最鮮明的特徵。比如,Google第一台伺服器的機箱是由樂高積木搭建而成,Google瀏覽器的第一幅塗鴉嵌入了一個小火柴人,以告訴使用者們,“我們的員工都翹班去參加火人節”了。Google還會為他們養的第一條狗Yoshka寫員工觀察日誌。(咳咳)而近來隨著技術複雜度的提升,他們開始著重聘請數學和電腦科學領域的出色人才,以及具備一定計算技能的物理學家。這也為Google搶佔AI市場提供了先機:2012年Google發表Cat paper證明了無監督學習的可行性,讓行業看到了大規模神經網路的潛力;Google也是最早把深度學習大規模工程化的公司之一。當時業內最頂尖的AI專家都匯聚於此,比如Hinton、吳恩達、llya、哈薩比斯、Dario Amodei、卡帕西……群星薈萃組成了Google豪華的AI夢之隊。不過布林也坦誠表示:Google後續犯了大錯。在Transformer論文發表後,Google內部並沒有給予足夠重視,也沒有加大計算資源的投入,因為擔心聊天AI“會說蠢話”,所以不敢輕易推向市場。而反觀OpenAI則抓住了機會,甚至還從Google挖走了llya他們。但幸運的是,Google受益於其長期的研發歷史,包括Google大腦團隊以及對早期神經網路的投入,Google在AI領域仍舊保持技術優勢。Google很早就為AI開發了專用的TPU晶片,也是最早使用GPU的公司之一,擁有大規模的資料中心、自研半導體、深度學習演算法等全端技術。所以即使AI正在以日新月異的速度變化,且行業競爭激烈,Google都能始終處於領先。至於AI到底能發展到多麼智能,布林說他也不知道,但他相信,技術會賦予人們更多的能力,無論是工作、創業、健康還是生活,AI都擁有巨大的潛力,這點毋庸置疑。布林:我不是下一個賈伯斯雖然AI難以被精準預測,但布林也給出了他對大學生們的建議,那就是——利用好AI。就他個人而言,無論是給家人朋友挑選禮物,還是為產品構思新想法,抑或是藝術創作,他現在都會經常性求助AI。但AI不會完全取代他完成所有事情,通常情況是讓AI給出五個想法,然後從中收穫啟發、完善自己的想法。他也建議學生們繼續追隨對電腦科學的熱情,雖然AI在編碼方面表現出色,但更好的編碼能力有助於開發更好的AI,所以編碼仍然至關重要。相反他並不推薦比較文學專業,因為他認為,AI在這方面顯然更擅長,更容易做創造性工作。量子計算和材料科學也可能是被低估的、具有長期影響的未來技術,或許可以重點關注AI和量子計算在材料科學中的應用。而對於大學本身,他也建議重新思考其定位。知識的傳播正在通過線上平台和AI變得普遍化,要最大限度地擴大學校的影響力,就不能只侷限於固定地點和實體建築。在未來的一百年裡,大學的意義可能會發生翻天覆地的改變,跨地域遠端教育都是可預見的發展路徑。在創業上,布林則使用了Google眼鏡的前車之鑑舉例,他告誡年輕的創業者們,不要過早地將不成熟的想法商業化,而沒有在成本控制和消費者體驗上做好充足準備。布林說,在當初發Google眼鏡時,他有些飄了,覺得自己就是下一個賈伯斯,可以一下子就推出成功的產品。但事實證明,賈伯斯是非常獨一無二的。所以回顧這段失敗的經歷,布林總結道:如果當你的想法被外界所期待,成本卻在不斷增加,ddl正在push你交付產品,那麼在此之前,一定要充分打磨你的想法。不要陷入被期望裹挾的惡性循環,而無法給自己足夠的時間去完善產品。布林最後也談及了他從Google“退休”又“復出”的經歷。那時他想要發展自己的愛好,去研究物理學,結果在家呆的時間一長,發現自己越來越遲鈍、狀態越來越差。於是他意識到,是時候回到辦公室了。他開始越來越多地把精力投入到Gemini研發中,不僅參與技術討論,還深入程式碼層面和訓練細節,幫助推動公司核心AI產品的發展。另外他也透露,自己長期保持思維敏銳的方法之一就是經常在駕車時和Gemini進行對話,比如“我想建一個資料中心,需要多少兆瓦的電力,以及成本是多少”類似的問題。不過總的來說,他認為關於“退休”這個決定,現在看來是個很大的錯誤。 (量子位)
GPT-5.2絕地反擊,能否撼動Gemini 3的地位?
AI領域的角逐從未停歇,OpenAI的GPT-5.2在“紅色警報”下強勢登場,直接叫板Google的Gemini 3。這場技術巨頭間的較量,不僅關乎模型性能,更預示著未來AI生態的格局與紅利走向。👉 GPT-5.2的技術深度與突破點:重塑專業知識工作流OpenAI此次推出的GPT-5.2並非簡單升級,而是圍繞推理、記憶、工具使用和長上下文理解進行了全面強化,旨在解決企業級工作流中的痛點。它細分為Instant、Thinking和Pro三個版本,滿足不同場景需求。•核心推理能力質變: GPT-5.2 Thinking版本在GDPval知識工作評估中,對44種職業的專業任務表現達到或超越人類專家水平,勝率高達70.9%。 這意味著它能更高效地完成電子表格製作、簡報建構、程式碼編寫等複雜任務,且速度比人類專家快11倍,成本不到1%。 在ARC-AGI-2抽象推理基準測試中,Thinking版本達到52.9%,Pro版本更是高達54.2%,遠超Gemini 3 Deep Think的45.1%,展現了在解決新穎、抽象問題上的卓越能力。•長上下文理解的“記憶”革命: GPT-5.2在處理長文件方面表現出色,尤其在MRCR v2基準測試中,對256k tokens的長上下文幾乎達到100%的精準率。 這對於分析報告、合同、研究論文等超長文字至關重要,極大地提升了處理複雜、多檔案項目的能力,避免了上下文丟失的痛點。•程式碼與科學領域的降維打擊: 在軟體工程領域,GPT-5.2在SWE-Bench Verified測試中取得80%的高分,並在更嚴苛的SWE-Bench Pro中達到55.6%,顯著提升了程式碼生成、偵錯和大規模程式碼庫重構的可靠性。 在數學領域,GPT-5.2在AIME 2025(無工具)中實現100%的完美得分,並在FrontierMath專家級數學問題上達到40.3%的解決率,展現了突破性的數學推理能力。•多模態與工具呼叫: GPT-5.2 Thinking是目前最強的視覺模型,圖表推理和軟體介面理解的錯誤率降低了約一半。它在Tau2-bench Telecom工具呼叫基準測試中達到98.7%的精準率,進一步提升了多輪、多工具工作流的可靠性。💡 Gemini 3的生態護城河與多模態優勢Google的Gemini 3憑藉其原生多模態能力和深度生態整合,建構了強大的護城河。•原生多模態的“大腦”: Gemini 3從底層設計上就支援文字、圖像、視訊、音訊甚至程式碼的無縫融合理解。 尤其在視訊-MMMU基準測試中達到87.6%,展現了其在處理複雜多模態資訊上的領先優勢。•超長上下文與“深度思考”: Gemini 3擁有高達100萬tokens的巨大上下文窗口,這使其在處理超長對話、研究論文或大型程式碼庫時,能保持更強的連貫性和理解力。其Deep Think模式更是將推理邊界推向極致,用於解決最複雜的難題。•生態整合與Agentic能力: Gemini 3深度整合於Google的各項產品中,如Gemini App、Google Search的AI模式、Workspace應用(Docs, Sheets等)以及Google AI Studio和Vertex AI等開發者工具。 它的Agentic能力讓AI不再只是“知道”,而是能“行動”,通過定義目標,Gemini 3能自主決定並呼叫工具完成多步驟工作流,例如自動預訂服務或整理收件箱。 尤其值得關注的是其Generative UI功能,能直接通過自然語言生成互動式應用程式,從概唸到應用的轉化效率實現指數級提升。✅ 終極對決與未來趨勢:認知突圍的關鍵GPT-5.2的發佈,是OpenAI在面對Gemini 3的強大攻勢下,一次“程式碼紅色”的絕地反擊。 儘管Gemini 3在多模態和生態整合方面保持領先,尤其在LMArena的文字、視覺、圖像編輯和搜尋等多個多模態榜單上佔據首位,但GPT-5.2在專業知識工作、編碼、數學和抽象推理等核心能力上實現了顯著的認知突圍。價格方面,GPT-5.2的API定價 ($1.75/百萬輸入token, $14/百萬輸出token) 相較GPT-5有所上漲,但其90%的快取輸入折扣和Batch API的50%折扣,旨在提高複雜任務的成本效益。 而Gemini 3 Pro的API定價 ($2.00/$12.00/百萬token,超過200K上下文則更高) 則更強調按使用量付費,並有免費試用層級。 最終選擇,取決於具體應用場景對模型深度、生態整合度及成本效率的權衡。這場AI巨頭間的激烈競爭,正加速推動通用人工智慧的演進。無論是GPT-5.2的“思維引擎”,還是Gemini 3的“行動代理”,都在為我們描繪一個AI深度賦能的未來。真正的贏家,將是那些能有效利用這些底層技術,建構自身資料和應用護城河的企業,抓住這波前所未有的AI紅利。 (澤問科技)
OpenAI又開源了!僅0.4B,給模型大瘦身
99.9%權重清零,大模型內部思維變“透明”。智東西12月15日報導,昨天,OpenAI開源新模型Circuit-Sparsity,模型參數量僅0.4B,99.9%的權重為零。▲Circuit-Sparsity開源(來源:Hugging Face)這個技術試圖解決模型的可解釋性問題,簡單來說就是回答“模型為什麼做出這個決策?”以及“它是如何得出這個結果的?”這兩個問題。在AI飛速發展的今天,大語言模型(LLM)雖然表現出了驚人的能力,但其內部運作機制始終像一個神秘的“黑箱”。我們不知道它為何做出某個回答,也不清楚它是如何從海量資料中提取知識的。這種不可解釋性,成為了AI在醫療、金融、法律等高風險領域落地的重大障礙。對此,OpenAI研究團隊訓練出了一個權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。在這項研究中,研究團隊在模型內部形成了緊湊且可讀的“電路”(Circuits),每個電路都僅保留了保證模型性能的關鍵節點,神經元的啟動變得具有明確的語義。有外網網友稱這一技術讓當下的MoE(混合專家模型)走到了盡頭,並說“我們一直以來都將權重隔離到‘專家’中,以此粗略地近似稀疏性,僅僅是為了滿足稠密矩陣核的要求。”▲外網評價(圖源:X)更有網友將這項研究形容為將模型“減肥到只剩骨架”,還說這項研究就好像打開了黑匣子,不試圖解開稠密模型而是直接建構稀疏模型,正是這項研究有趣的地方。▲外網評價(圖源:X)但有些網友卻不這麼認為,稱其沒有看出MoE模型為何會因此走到盡頭,並進一步解釋說這一技術是針對XAI(可解釋AI)的,它的訓練成本要高100-1000倍,回到“研究時代”並不意味著讓事情變得更複雜。▲外網評價(圖源:X)該模型目前受限於計算效率瓶頸,其運算速度較密集模型慢100至1000倍,將該技術直接應用於千億參數等級的前沿大模型,現階段尚不具備可行性。開源地址:Github:https://github.com/openai/circuit_sparsityHugging Face:https://huggingface.co/openai/circuit-sparsity01. 訓練稀疏Transformer OpenAI理清模型內部計算要理解這項研究的突破,首先需要明白傳統大模型為何難以解釋。在標準的密集模型(Dense Models)中,神經網路存在一種被稱為“超級位置”(Superposition)的現象。簡單來說,為了儲存海量的資訊,模型被迫讓單個神經元或權重矩陣同時編碼多個完全不同的概念。這種特徵糾纏導致了嚴重的後果,例如模型的決策不可追溯和邏輯混亂,當模型輸出一個結果時,我們無法確定是哪個具體的“概念”在起作用。針對以上問題,以前的研究通常從試圖拆解密集、糾結的網路開始。但OpenAI團隊採取了一種“反直覺”的策略,即訓練權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。強制模型限制了模型只能使用其神經元之間極少的可能連接,而這一簡單的更改,幾乎從根本上理清了模型的內部計算。▲每個神經元只與下一個層的幾個神經元相連(圖源:OpenAI技術部落格)具體的技術手段包括:1、動態剪枝與稀疏約束:在訓練過程中,系統會動態執行“剪枝”操作,每一步最佳化後僅保留絕對值最大的權重(Top-K稀疏化)。2、啟動稀疏化:在殘差流、注意力鍵/值矩陣等關鍵位置,研究團隊引入了AbsTopK啟動函數,強制僅保留前25%的啟動值。3、架構微調:為了配合稀疏化,研究團隊用RMSNorm替代了傳統的LayerNorm,避免歸一化操作破壞稀疏性,同時引入了“Bigram表”來處理簡單的模式匹配,從而釋放模型的主幹容量去處理複雜的邏輯推理。02. 模型內部形成緊湊可讀的“電路”規模縮減16倍這項技術的最大成果,是模型內部形成了緊湊且可讀的“電路”(Circuits)。在傳統密集模型中,完成一個任務可能需要成千上萬個節點協同工作,邏輯分散且難以捕捉。而在稀疏模型中,研究團隊觀察到了極簡的計算路徑:1、極簡的邏輯單元:例如在處理“字串閉合”任務時,模型僅用12個節點就建構了一個完美的電路,清晰地展示了它是如何檢測單引號或雙引號是否閉合的。2、可讀的特徵:神經元的啟動變得具有明確的語義。研究人員發現了一些神經元專門負責檢測“單引號”,另一些則像“計數器”一樣精確地追蹤列表的巢狀深度。3、規模縮減16倍:對比實驗顯示,在相同的任務損失下,稀疏模型的電路規模比密集模型小了16倍。這意味著解讀AI思維的難度降低了整整一個數量級。▲稀疏模型的電路規模比密集模型小了16倍(圖源:OpenAI技術論文)為了驗證這些電路的真實性,團隊進行了“均值消融”實驗。結果證明,移除非電路節點對任務幾乎沒有影響,而一旦移除電路中的關鍵節點,模型性能就會瞬間崩塌。這證實了這些電路確實是模型執行任務的“必經之路”。▲“均值消融”實驗(圖源:OpenAI技術論文)03. 稀疏模型解讀力強但速度慢千倍OpenAI提出“橋樑網路”為了測量稀疏模型計算的解耦程度。研究團隊設計了一套簡單的演算法任務。對於每個模型,他們都將其剪裁成了仍能執行該任務的最小電路,並檢查了該電路的簡潔程度。研究團隊發現,用規模更大、稀疏度更高的模型進行訓練後,就能夠依託結構更簡潔的電路,建構出性能更強的模型。▲模型的可解釋性與能力的對比圖(圖源:OpenAI技術部落格)從模型可解釋性與性能的對比圖可見,在稀疏模型規模固定的前提下,提升稀疏性,也就是將更多權重設零,雖會導致模型性能有所下降,但能顯著增強其可解釋性。儘管稀疏模型在可解釋性方面優勢突出,但其應用目前受限於計算效率瓶頸:稀疏矩陣運算無法借助Tensor Cores實現加速,運算速度較密集模型慢100至1000倍。這意味著,將該技術直接應用於千億參數等級的前沿大模型,現階段尚不具備可行性。為此,研究團隊提出了“橋樑網路”(Bridges)方案:1、編碼-解碼對應:在稀疏模型與預訓練的密集模型之間插入一個編碼器-解碼器對。2、跨模型干預:編碼器將密集模型的啟動對應到稀疏空間,解碼器則反向轉換。“橋樑網路”(Bridges)方案可以在“透明”的稀疏模型上修改某個特徵,然後通過橋樑將這種擾動對應回“黑箱”的密集模型,從而實現對現有大模型的可解釋性行為編輯。04. 結語:OpenAI提出稀疏化新路徑讓大模型從“黑箱”走向“可解釋”OpenAI研究團隊的這項研究,標誌著AI可解釋性領域的一項重要突破,也印證了理解AI並非遙不可及的目標。研究團隊在論文部落格中稱,這項工作是邁向更宏大目標的早期探索。接下來,他們計畫將相關技術擴展至更大規模的模型,同時進一步解釋更多模型的行為邏輯。為解決稀疏模型訓練效率低下的問題,團隊提出了兩個後續研究方向:一是從現有密集模型中提取稀疏電路,替代“從頭訓練稀疏模型”的傳統方式;二是研發更高效的可解釋性模型訓練技術,推動相關技術更易落地生產。“我們的目標是逐步擴大可可靠解釋的模型範圍,同時打造相關工具,讓未來的AI系統更易於分析、偵錯與評估。”研究團隊在論文部落格中寫道。 (智東西)
當Google帝國反擊時:ChatGPT的8億使用者護城河還能守多久?
前些天,科技分析領域最受尊敬的聲音之一 Ben Thompson 在 Stratechery 上發表了一篇重磅文章,標題是 "Google, Nvidia, and OpenAI"。大多數解讀會聚焦在 Gemini 3 的發佈、TPU vs GPU 的技術對比,或者 OpenAI 簽了多少錢的算力合同上。但我認為這篇文章真正重要的資訊不在這裡。作為一個 AI 工程布道者,我看到的是另一件事:ChatGPT 擁有8億周活使用者,卻可能正在犯一個致命的戰略錯誤。讓我解釋一下。Ben Thompson 用《星球大戰》的"英雄之旅"敘事框架,來描述過去三年 AI 領域發生的故事。主角有兩個:OpenAI 和 Nvidia。一個靠 ChatGPT 成為增長最快的消費科技公司,一個從遊戲顯示卡公司變成 AI 時代最關鍵的基礎設施供應商。但在過去兩周,兩位英雄同時進入了"考驗之洞"——Google 帝國正在反擊。第一擊:Gemini 3 的發佈Gemini 3 在一系列基準測試中超越了 OpenAI 的最強模型。更關鍵的是,它展示了一個 OpenAI 難以複製的優勢:巨大的模型規模和海量的訓練計算。OpenAI 在 GPT-4 之後一直難以突破規模瓶頸,靠的是推理能力的技術突破來彌補,但這以時間和成本為代價。第二擊:TPU 開始外銷Google 不再把 TPU 藏著掖著了。先是和 Anthropic 簽約,然後傳聞和 Meta 在談,接著是一批從加密礦場轉型過來的新雲服務商。突然之間,Nvidia 的壟斷地位受到了實質性威脅。第三擊:結構性優勢的全面碾壓從變現能力、資料積累、基礎設施到研發投入,Google 的每一項都是壓倒性的。Ben Thompson 說了一句很重的話:你現在明白為什麼 OpenAI 當年成立時,核心恐懼就是"Google 贏下 AI"了吧。這篇文章最有價值的部分,是 Ben Thompson 對"護城河"的重新定義。傳統的護城河分析聚焦於切換成本——使用者離開你有多難。但 Thompson 指出,護城河的真正強度,和獨立使用者數量正相關。他畫了一張圖:從左到右,使用者數量從少到多;從下到上,護城河從脆弱到堅固。Nvidia 賣晶片給誰?幾個超大規模雲廠商。一個 CEO 發一道命令,就能決定繞過 CUDA 開發新的軟體棧。OpenAI 的 API 賣給誰?成千上萬的開發者。切換成本確實存在,但一個創始人決定換模型,一個團隊就能執行。ChatGPT 的使用者是誰?每周8億獨立消費者。要改變他們的習慣,只能一個人一個人地打。這是 ChatGPT 真正的護城河。Thompson 引用了他2020年分析 Google 搜尋壟斷案時的觀點:Google 最大的力量來源,恰恰是它看起來的脆弱——競爭真的只是一次點選的距離。但正因為如此,如果使用者還是選擇 Google,那就說明他們是真的想用 Google。監管可以改變很多東西,但改變不了數以億計消費者的自主選擇。這個邏輯同樣適用於 ChatGPT。這是全文最尖銳的批評。Ben Thompson 認為,ChatGPT 三年來拒絕推出廣告產品,是一種"商業上的失職"——尤其是在公司簽下超過一兆美元算力合同的背景下。他的論點不是"廣告能賺錢"這麼簡單。他的論點是:廣告會讓 ChatGPT 成為一個更好的產品。怎麼理解?首先,更多免費使用者 = 更多使用資料 = 更好的模型反饋循環。訂閱制天然有使用者規模的天花板。其次,廣告帶來的購買訊號(而不是聯盟連結)可以幫助 ChatGPT 更深入地理解每個使用者的偏好,從而提供更好的回答。第三,也是最關鍵的:廣告模式會大幅加深 OpenAI 的護城河。Thompson 指出了一個有趣的對比:Nvidia 面臨的 TPU 威脅本質上是"利潤率稀釋"——當你賣實體產品時,你必須真的向買家收費,這就會引發和更便宜替代品的比較。買家越大越精明,這個壓力就越大。但廣告模式完全相反。使用者不付費,所以你從單個使用者身上能賺的錢沒有上限。使用者越多,你的利潤率潛力越高,你能投入的資源就越多。Google 就是靠這個模式,用搜尋廣告收入養活了過去二十年所有的創新。ChatGPT 不用廣告,等於是把這個武器讓給了對手。但 OpenAI 偏偏不做。Sam Altman 在今年早些時候接受採訪時說,他對"用廣告賺一些零錢"不感興趣,更感興趣的是"讓人們為真正優秀的自動化軟體工程師或其他 Agent 付高價"。Thompson 的評價是:這種想法和僱傭 Fidji Simo(前 Facebook 廣告產品負責人、前 Instacart CEO)來當應用業務負責人的決定,是自相矛盾的。你不可能同時相信廣告只是"零錢",又認為一個靠廣告發家的人是最適合領導你應用業務的人。讀到這裡,你可能會想:這是商業分析師和投資人關心的事,跟我一個做 AI 的有什麼關係?我來說說我的看法。第一,技術領先可能不如商業模式重要。這篇文章最讓我震撼的一點是:OpenAI 可能擁有(或曾經擁有)最好的模型、最多的使用者、最強的品牌認知——但如果商業模式選錯了,這些優勢可能都會被稀釋。Google 當年創辦不到兩年就開始做廣告變現。那不是因為他們缺錢,而是因為他們明白:可持續的收入是進一步創新的燃料。OpenAI 拿了幾百億風投,簽了上兆算力合同,但核心商業模式還是訂閱。我見過太多技術團隊把"我們先做好產品再考慮商業化"當成美德。但 Thompson 的分析提醒我們:商業模式不是產品的附屬品,它是產品戰略的一部分。錯誤的商業模式會讓你在有足夠資源建立護城河之前,就被對手追上。第二,護城河的邏輯在 AI 時代變了。傳統軟體的護城河往往建立在資料鎖定、網路效應、切換成本上。但 AI 產品的護城河本質上是關於"誰擁有更多的使用者行為資料來改進模型"。這意味著,一個免費但有廣告的產品,可能比一個付費產品有更強的長期競爭力——因為前者能觸達更多使用者,收集更多反饋,形成更強的改進飛輪。對於正在做 AI 產品的團隊來說,這是一個值得深思的問題:你的商業模式是在幫你建立護城河,還是在限制你的使用者規模?第三,Google 的反擊提醒我們:大公司的"慢"可能被高估了。過去兩年,創業圈流行的敘事是:大公司太慢、太官僚、太傲慢,創業公司可以靠速度和創新打敗它們。但 Gemini 3 的發佈、TPU 的外銷、YouTube AI 功能的推進——這些都在提醒我們:當大公司真的決定全力投入時,它們的資源優勢是碾壓性的。更重要的是,大公司有一個創業公司沒有的東西:成熟的變現機器。Google 每年超過2000億美元的廣告收入,意味著它可以長期承受虧損來搶市場。OpenAI 可以嗎?最後,我想說一個更大的問題。Ben Thompson 在文章結尾寫道,他的"聚合理論"——控制需求的一方最終獲勝——正在接受終極測試。Google 是他理論中的終極主角,現在變成了對手。他的核心問題是:一個已經達到規模的聚合者,能否被資源的壓倒性投入所擊敗?尤其是當這個聚合者拒絕採用最優商業模式時?我覺得這個問題的答案,可能會定義未來十年科技行業的格局。如果 ChatGPT 最終被迫採用廣告模式,那說明聚合理論是對的——控制消費者需求的一方,最終會被市場邏輯推向最優變現策略。如果 ChatGPT 堅持訂閱模式但被 Google 超越,那說明在 AI 時代,即使是8億使用者的護城河,也擋不住一個有成熟商業模式、無限資源的對手。如果 ChatGPT 找到了某種全新的變現方式(比如 Agent 交易抽成),那可能意味著 AI 創造了新的商業模式範式。無論那種結果,這都不只是 OpenAI 一家公司的命運。這是關於 AI 產品應該如何建構、如何變現、如何建立護城河的範式之爭。作為 AI 從業者,我們每個人都在這場爭論中有自己的位置。 (LLM-X-Factors)
OpenAI最新AI報告:醫療是增長最快的領域之一,Moderna入選最佳案例!
12月8日,OpenAI發佈報告The state of enterprise AI,首次全面展示了企業應用AI的現狀。報告指出,企業採用AI的動作正在加速,尤其是在幾個關鍵行業,其中醫療保健成為增長最快的領域之一。AI醫療實現驚人增長報告顯示,企業對AI的態度從試點轉向全面部署,醫療保健行業表現尤為突出,其OpenAI客戶的年同比增長率高達8倍(8x)。在增長速度上,醫療保健僅次於科技行業(11x),位列第二,超越了製造業(7x)。雖然像金融和科技等行業在AI使用規模上仍舊保持領先,但醫療保健和製造業等行業是從較小的基數起步,目前正以最快的速度迎頭趕上,正迅速縮小與領先者的差距。深入應用:AI為醫療保健帶來的實際價值報告通過具體的企業案例,展示了AI醫療在提升效率、改善客戶體驗等方面的實際效果。例如,生物科技公司Moderna利用ChatGPT Enterprise顯著壓縮了目標產品資料(TPP)的製作周期。過去,撰寫TPP是個複雜又費時的任務,通常要花上幾周時間,還得仔細閱讀多達300頁的資料。為瞭解決這個問題,Moderna引入AI系統,幫助從大量檔案中找出關鍵資訊和假設,自動生成結構清晰的草稿,並自動標記潛在錯誤。Moderna表示,在某些情況下,原本要花幾周才能完成的核心分析工作,現在幾個小時就能搞定。團隊可以更專注於驗證方案的可靠性、做出更周全的決策,從而更快地把新藥帶給患者。又比如,醫療保險公司Oscar Health推出了面向會員的聊天機器人,幫助使用者更輕鬆地應對複雜的醫療保健系統。這些聊天機器人與Oscar自身的系統和資料深度整合,能夠訪問會員的醫療記錄、理賠資訊等,從而提供個性化的回答,並協助完成諸如尋找醫生、續開處方等常見任務。上線後,該平台已能即時解答58%的問題,並在無需人工介入的情況下處理了39%的諮詢。這不僅提升了服務效率,也為會員提供了一個統一且可靠的入口,讓他們更容易理解並順利享受醫保服務。 (智藥局)
美股AI突變!OpenAI淪為“股價毒藥”,矽谷八巨頭一夜蒸發3.8兆元市值,專家:看好Google,其擁有兩項致勝“法寶”
過去一年,“OpenAI概念股”是華爾街最硬的通貨。但從12月11日這一天開始,“魔法”失效了。甲骨文股價一度跌16%,它手裡攥著的3000億美元OpenAI訂單,在市場眼裡,可能是無法兌現的空頭支票。第二天,AI晶片巨頭博通股價大跌11%,市值蒸發2192億美元,只因它與OpenAI的合同短期內無法帶來收入。美股AI八巨頭也被拖累,市值合計一夜蒸發5470億美元(約合人民幣3.8兆元)。OpenAI已成“股價毒藥”,與它深度繫結的上市公司從10月底開始集體大跌。雖然OpenAI在成立10周年之際,緊急發佈了GPT-5.2,但不少觀點認為,OpenAI僅靠模型難以與Google的全端生態抗衡,最終會制約它的收入潛力和履約能力。博通的“煩惱”:AI訂單達730億美元為何市場只看到風險?美東時間12月11日(周四)盤後博通公佈的2025財年第四季度財報顯示,在旺盛的AI需求下,公司每股盈利達1.95美元,超出分析師預期的1.87美元;營收為180.2億美元,高於預期的174.5億美元。同時,公司預計2026財年第一季度AI晶片銷售額將達82億美元,較去年同期翻倍。財報剛披露時,股價應聲上漲3%,但在財報電話會議後迅速轉跌,盤後跌幅一度超過5%。次日,博通股價收跌11%,市值一夜蒸發2192億美元。原因在於,雖然博通目前擁有730億美元的AI產品訂單積壓,將在未來六個季度內交付,但這一數字令部分投資者失望。儘管博通CEO陳福陽隨後澄清,這一數字是“最低值”,並預期將有更多訂單湧入。更關鍵的是,陳福陽透露了兩個資訊,引發了更大的擔憂。其一,博通的AI收入毛利率低於其非AI收入毛利率;其二,預計公司與OpenAI的合同在2026年不會開始產生太多收益。根據該合同,博通將在2026年至2029年間為OpenAI提供10吉瓦的資料中心基礎設施。他表示,該交易的大部分收益將在2027年、2028年和2029年產生。市場已意識到,將OpenAI訂單轉化為實在的、高額的利潤並非易事。漫長的回報周期和低於預期的利潤率,讓博通與OpenAI的交易充滿了不確定性。甲骨文的“墜落”:5230億美元訂單如何成為達摩克利斯之劍?比博通更焦慮的是甲骨文。12月10日美股盤後,甲骨文2026財年第二季度財報顯示,總營收160.6億美元不及預期,雲業務營收80億美元雖同比增長34%,卻未達80.4億美元的分析師預期。唯一的亮點——剩餘履約義務(RPO)同比飆升438%至5230億美元,遠超FactSet分析師預期的5020億美元——反而成了風險導火索。這5230億美元中,有3000億美元來自OpenAI的一項為期五年的算力採購協議。這意味著,甲骨文的未來已與OpenAI深度捆綁。但OpenAI“支出遠超收入”的現狀,讓市場嚴重懷疑其履約能力。D.A.Davidson分析師吉爾•盧里亞(Gil Luria)估算,OpenAI需在2030年實現逾3000億美元年收入,才能覆蓋甲骨文合同對應的支出規模。吉爾•盧里亞甚至將甲骨文形容為OpenAI“畫大餅”遊戲中的一個“棋子”。此外,前置資本開支的巨額壓力,讓甲骨文的現金流狀況持續惡化。甲骨文上財季的自由現金流約為-132億美元,而市場的預期是-52億美元。公司將2026財年資本支出預期上調150億美元至500億美元。資金鏈的緊張直接反映在信用指標上,洲際交易所資料顯示,甲骨文五年期信用違約掉期(CDS)已升至2009年以來最高點,投資者對其信用質量的信心持續崩塌。截至12月12日,甲骨文五年期信用違約掉期已升至2009年以來最高點甲骨文新任聯席CEO克萊•馬古克(Clay Magouyrk)在財報電話會上試圖安撫市場,稱公司擁有超過700家AI客戶,即使OpenAI違約,也能在“數小時內”將基礎設施重新分配給其他客戶,但這也恰恰暴露了OpenAI可能“吃不下”訂單的風險。摩根士丹利表示,如果甲骨文不能緩解投資者對其大規模AI支出計畫的擔憂,2026年情況將進一步惡化。有媒體在周五報導稱,由於勞動力和材料短缺,甲骨文將推遲與OpenAI相關的資料中心建設,時間由從2027年推遲到了2028年,但甲骨文隨後否認了這一報導。甲骨文發言人Michael Egbert在一份電子郵件聲明中表示:“在協議簽署後,我們與OpenAI密切協調確定了選址及交付時間表,並達成一致意見。履行合同承諾所需的任何站點都沒有延誤,所有里程碑都在正軌上。”當“造王者”OpenAI成為“股價毒藥”甲骨文的債務危機和博通的利潤隱憂,都指向同一個風暴中心——OpenAI。曾憑ChatGPT掀起AI浪潮,如今已滿10歲的OpenAI正因擴張計畫,演變成其合作夥伴乃至整個AI行業的“毒藥”。與OpenAI深度繫結的上市公司,包括甲骨文、軟銀、微軟、輝達和CoreWeave股價從10月底開始集體大跌。Google新一代模型Gemini 3的出現,給OpenA帶來了巨大壓力。12月初,OpenAI首席執行長山姆•奧爾特曼(Sam Altman)宣佈公司進入“紅色警報”狀態,要求調動更多資源,全力提升ChatGPT能力以應對日益激烈的競爭。繼8月GPT-5、11月GPT-5.1後,OpenAI於12月11日緊急推出原定於月底發佈的GPT-5.2。四個月內三次重大更新,但業界卻認為,在對手的壓力之下,OpenAI顯得格外被動。胡延平向每經記者直言,“GPT-5.2打出來的子彈都對著Gemini 3去了,但沒有一顆落到Google的生態裡。”他指出,Google發佈Gemini 3系列產品後,市場看到OpenAI不僅模型水準不再有明顯優勢,而且未來可能難以抗衡Google的全端全生態優勢。胡延平認為,OpenAI緊急推出的GPT-5.2對扭轉不利局面有幫助,但是無法從根本上逆轉多極化趨勢和全生態競爭劣勢。而OpenAI高昂的算力成本和巨額支出承諾,與其尚未完全清晰的盈利模式形成鮮明對比。科技評論員愛德華•齊特隆(Edward Zitron)則在其評論文章中詳細拆解了OpenAI的擴張計畫,認為其完全脫離現實。愛德華估算,建設1GW資料中心需耗資約500億美元且耗時至少兩年半。按此計算,OpenAI要在未來一年內兌現與博通、AMD和輝達的多個1GW部署承諾,就需要籌集超過1000億美元的資金。而要完成其宣稱的33GW目標,總投資將是兆美元等級。至於250GW的宏偉藍圖,其成本將高達約10兆美元,相當於美國去年GDP的三分之一。匯豐銀行發佈一份研報警告稱,到2030年,OpenAI的累計自由現金流仍將為負,資金缺口高達2070億美元,必須通過額外債務、股權融資或更激進的創收手段來填補。在無法通過廣告變現且舉債艱難的背景下,其商業模式的可持續性正在經歷挑戰。美國銀行分析師賈斯汀•波斯特(Justin Post)一針見血地指出:如果OpenAI最終大獲成功,它將憑藉其強大的模型和使用者基礎,成為Google、Meta等所有合作夥伴在企業服務、廣告甚至電商領域的直接競爭對手;但如果OpenAI失敗,它那天文數字般的算力合同將變成一堆無法兌現的“白條”,讓甲骨文、CoreWeave等供應商背負巨額壞帳和大量閒置的資料中心。擁有“全端生態”“財務紀律”Google有望成為最終贏家?OpenAI的困局,恰好成就了Google的崛起。Google擁有OpenAI最稀缺的東西:現金流和完整的產業鏈。Google2026年預期資本支出佔經營性現金流的56%,在巨頭中效率最高。與OpenAI嚴重依賴外部合作的模式不同,Google走的是全端自研路線:用自家張量處理單元(TPU)晶片,支撐Google雲平台(GCP),訓練和運行Gemini系列大模型。這種垂直整合帶來了極致的成本優勢。SemiAnalysis的模型資料顯示,GoogleTPUv7在成本效率上對輝達構成了碾壓優勢,TPUv7的TCO(總擁有成本)比輝達GB200伺服器低約44%。胡延平向每經記者表示,在算力方面,隨著更高效、更有性價比且已經形成技術生態系統的GoogleTPU的崛起,輝達GPU相關生態的價值正出現“消脹”和“回呼”趨勢,這對原有體系、尤其是OpenAI循環投資的參與者的股價預期均產生負面影響。而Google手上長期被視作“內部武器”的TPU晶片,正從成本最佳化工具變為潛在的兆美元級收入新引擎。吉爾•盧里亞預測,若Google認真推進TPU對外銷售,數年內有望佔據AI晶片市場20%份額,催生一個約9000億美元規模的業務。摩根士丹利測算,Google每向第三方資料中心銷售50萬塊TPU,就可能在2027年增加約130億美元的收入。市場預估,Google明年市值有望站穩5兆美元。胡延平指出,Google可能成為全球市值最高公司,“原因有三:一是AI全端;二是軟硬體與服務全端;三是全球使用者市場。”他認為,Google擁有全球50億使用者,“全家桶”數十款產品當中月活20億的服務就有八九種,Android覆蓋30億裝置,使得“一款AI產品出來瞬間,就能擴散到全球且市場閉環,這一點是OpenAI來不及擁有的能力。(OpenAI)僅靠模型能力,不足以抗衡一個體系。” (每經頭條)
OpenAI發布GPT最新升級版本!
美國開放人工智慧研究中心(OpenAI)11日發布其人工智慧模型GPT-5的最新升級版本GPT-5.2。此版本在通用智慧、長文字處理、智能體工具呼叫和視覺等方面已顯著提升。根據該公司介紹,GPT-5.2提供Instant、Thinking和Pro三種模型,是迄今在專業知識工作領域中能力最強的模型系列,在製作電子表格、構建簡報、編寫代碼、圖像理解、長文字處理、工具使用以及處理複雜的多步驟任務等方面都有顯著提升。根據OpenAI介紹,GPT-5.2 Thinking是該公司迄今最適用於真實世界專業場景的模型。在涵蓋44種職業、用於評估明確知識型工作任務的GDPval測驗中,GPT-5.2 Thinking達到業界最新水準。評測顯示,在製作簡報、試算表等知識工作任務中,新版模式的推理能力在70.9%的情況下表現優於或持平頂尖業界專業人士。OpenAI強調,GPT-5.2同時注重效能與安全性,在GPT-5和GPT-5.1系統基礎上進一步強化了安全措施。 GPT-5.2在面對自殺、心理困擾、情緒依賴等敏感對話時能做出更穩健恰當的回應。此外,與GPT-5.1相比,GPT-5.2產生幻覺的情況更少,回答錯誤率相對降低了約30%,這意味著在運用模型進行研究、寫作、分析與決策支援時出錯更少,模型在日常知識型工作中變得更為可靠。為回應Google11月發布的人工智慧模型雙子座3的出色表現,OpenAI加快了其主要模型升級的發布速度。 OpenAI在11月剛發布GPT-5升級版本GPT-5.1,不到一個月就再次升級。業界認為,此舉凸顯了人工智慧產業目前面臨的競爭壓力。根據《CNBC》報導,迪士尼執行長艾格(Bob Iger) 周四(11 日) 表示,迪士尼宣佈對OpenAI 進行10 億美元股權投資,此舉將成為公司進入人工智慧(AI) 領域的“一條重要途徑”,對迪士尼長期業務將帶來深遠影響。艾格接受《Squawk on the Street》專訪時說:“我們希望參與Sam (Altman) 與他的團隊正在打造的願景。我們認為這是對公司而言非常好的投資。”迪士尼稍早宣佈,已與OpenAI 達成協議,未來Sora 用戶將可在AI 影片生成平台中使用迪士尼旗下超過200 個版權角色,包括米老鼠(Mickey Mouse)、黑武士(Darth Vader)、仙杜瑞拉(Cinderella) 等,授權為期三年。艾格並透露,協議初期將採取“獨家授權”,僅限OpenAI 平台使用。 (飆叔科技洞察)
GPT-5.2來了!首個「專家級」AI復仇成功,牛馬打工人終於得救了
OpenAI十周年,那個地表最強的AI,又回來了!新一代GPT-5.2「全家桶」直接把GoogleGemini 3 Pro踩在腳下,專業實力更是堪比人類專家。剛剛,OpenAI深夜炸場!GPT-5.2震撼發佈,全球AI王座再次易主。一共3款模型,今日全部上線:GPT‑5.2 Instant(即時版)GPT‑5.2 Thinking(思考版)GPT‑5.2 Pro(專業版)作為地表最強通用模型,GPT-5.2專為解決那些讓人頭禿的「高難度知識型工作」而生。在OpenAI公佈的基準測試中,它幾乎對Gemini 3 Pro實現了全方位碾壓!相比上一代,GPT-5.2在通用智能、超長文字理解、Agent工具呼叫以及視覺能力上,都實現了無死角的全面進化:SWE-Bench Pro:狂砍55.6%高分;LMArena程式碼競技場:僅次於Claude Opus 4.5,穩坐全球第二把交椅;ARC-AGI-2:GPT-5.2 Pro以52.9%的絕對優勢登頂全球第一;GDPval:覆蓋44種職業知識,表現直接超越人類行業專家。一句話總結:讓它從頭到尾(端到端)搞定複雜的現實世界任務,目前沒有任何模型比它更強。完整評測結果除了更強的能力之外,GPT-5.2還有更長的上下文,以及更新的知識!40萬上下文窗口:輕鬆吞吐超長文字與複雜對話;12.8萬最大輸出長度:深度長文生成不再中斷;知識庫更新至2025年8月31日:掌握最新世界動態;推理Token支援:專攻複雜邏輯與多步推理。當然,在性能狂飆的同時,價格也是水漲船高。相比GPT-5/5.1,GPT-5.2的輸入輸出價格貴了整整40%!更強的推理、更快的速度,以及更高的價格,這一切似乎都在暗示——OpenAI這次不僅升級了模型規模,背後的算力成本恐怕也達到了新的量級。這一次,那叫一個專業!一個月前,GPT-5.1以「情商智商雙高」的姿態登場,就迎面撞上了GoogleGemini 3這個強勁對手。此次更新正值媒體報導OpenAI內部進入「紅色程式碼」緊急狀態。但OpenAI高管向媒體表示,不應將GPT-5.2視為對Gemini 3的回應。OpenAI應用CEO對記者說:我們宣佈進入「紅色程式碼」緊急狀態是為了向內部發出一個訊號,我們想要集中力量辦大事,這是一個確定優先事項和非優先事項的好辦法。總的來說,我們用於開發ChatGPT的資源增加了,我認為這有助於該模型的發佈,但並不是它在這周發佈的唯一原因。這一次,GPT-5.2主打一個專業知識型AI,正所謂「打工人的最佳工作模型」。OpenAI華人研究員Yu Bai稱,「別看這只是一個小版本數迭代,那可是能力的一大躍升」。那些人類專家耗費4-8小時完成的任務,在人類評估中,GPT-5.2的勝率高達70.9%。GPT‑5.2不負眾望,在多項實際任務中表現得都更加出色——建立電子表格、製作簡報、編寫程式碼、感知圖像、理解長上下文、使用工具、處理複雜的多步驟項目。此前OpenAI的一份報告稱,ChatGPT每天能為企業使用者平均節省40–60分鐘,而重度使用者則表示每周能省下超過10小時。擴展閱讀:OpenAI最新報告曝光!前5%精英效率暴漲16倍,普通人卻被悄悄淘汰總之,AI搞定「專業工作」才是硬道理!擊敗人類專家,打工人狂喜目前,GPT‑5.2 Thinking是用於現實世界專業用途的最佳模型。在GDPval上,GPT‑5.2 Thinking創下了新的SOTA,並且是歷史第一個表現超過人類專家水平的模型。根據人類專家的評判,GPT‑5.2 Thinking在GDPval知識工作任務中,70.9%的情況下擊敗或打平了頂尖行業專業人士。在完成GDPval任務時,其速度比專家專業人士還要快11倍,成本還低於1%。這表明,當與人類監督相結合時,GPT‑5.2可以有效輔助完成專業工作。換句話說,無論是幫會計整理財報,替產品經理做PPT,還是給程式設計師當輔助寫碼的小助手,GPT-5.2都更得心應手。在GDPval中,模型需要完成涵蓋美國GDP貢獻最大的前9個行業的44種職業的定義明確的工作。任務要求提供實際的工作成果,例如銷售簡報、會計電子表格、緊急護理時間表、製造圖表或短影片在ChatGPT中,GPT‑5.2 Thinking擁有GPT‑5 Thinking所沒有的新工具。此外,在針對初級投資銀行分析師電子表格建模的內部測試中,GPT-5.2 Thinking的平均每任務得分比GPT‑5.1高出9.3%,從59.1%上升到68.4%。並排比較顯示,GPT‑5.2 Thinking生成的電子表格和PPT在複雜度和格式上都有所改進。如下所示,一眼望去這種高難度的複雜表,GPT‑5.2 Thinking一句話生成,堪稱「人力資源規劃器」。包括股權結構表,GPT-5.2 Thinking以資深銀行分析師的角色,完成了所有計算,且過程清晰可查。而GPT-5.1 Thinking不僅錯誤地計算了種子輪、A輪和B輪的清算優先權,且大部分行都留白了,導致最終的股權回報計算出錯;而且還錯誤地在表頭行中插入了計算公式。針對項目管理,GPT-5.2 Thinking以每項任務、時間為軸,給出了可視化直觀的總結。相較之下,GPT-5.1 Thinking看著特別粗糙。程式設計破紀錄,吞噬全端開發當然了,在程式設計上,GPT-5.2也是王者中的王者!在對現實世界軟體工程基準SWE-Bench Pro上,GPT‑5.2 Thinking創下了55.6%的新紀錄。與僅測試Python的SWE-bench Verified不同,SWE-Bench Pro測試四種程式語言,具有更強的抗資料污染能力(contamination-resistant),並更具挑戰性、多樣性和工業相關性。在SWE-Bench Pro中,模型會被給予一個程式碼庫,並且必須生成一個補丁來解決一個現實的軟體工程任務在SWE-bench Verified上,GPT‑5.2 Thinking拿下了80%的高分。這意味著,它可以更可靠地偵錯生產環境程式碼、實現功能請求、重構大型程式碼庫,並以更少的人工干預端到端地發佈修復。在前端軟體工程方面,GPT‑5.2 Thinking也優於GPT‑5.1 Thinking。早期測試者發現,它是全端工程師的強大日常夥伴,在前端開發和複雜或非常規UI工作(特別是涉及3D元素的工作)方面明顯更強。接下來就讓我們看看,僅憑一段提示詞,GPT‑5.2都能做出些什麼來:海浪模擬Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Ocean Wave Simulation- Goal: Display realistic animated waves.- Features: Change wind speed, wave height, lighting.- The UI should be calming and realistic.節日賀卡製作器Prompt: Create a single-page app, in a single HTML file, that demonstrates a warm and fun holiday card! The card should be interactive and enjoyable for kids!- Have variety of items kids can drop in the UI; a few should be already placed by default- Also have fun sound interactions- Place many cute and fun stuff as much as possible- Animation like snowdrop should be used nicely打字雨遊戲Prompt: Create a single-page app in a single HTML file with the following requirements:- Name: Typing Rain- Goal: Type falling words before they reach the bottom.- Features: Increasing difficulty, accuracy tracker, score.- The UI should be the city background with animated raindrop words.幻覺少,更清醒GPT‑5.2 Thinking比GPT‑5.1 Thinking的幻覺更少。在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%。對於專業人士來說,這意味著在使用新模型進行研究、寫作、分析和決策支援時錯誤更少,在日常知識工作中更加可靠。數十萬token極限挑戰,精準率100%在長上下文推理方面,GPT‑5.2 Thinking樹立了新的行業標準。在OpenAI MRCRv2上,新模型取得了領先的性能,基準OpenAI MRCRv2用於測試模型整合分佈在長文件中資訊。諸如深度文件分析之類的現實世界任務,需要跨越數十萬個Token的相關資訊,而在這類任務上,GPT‑5.2 Thinking 比GPT‑5.1 Thinking精準得多。特別是,它是OpenAI的第一個在4種MRCR變體(高達256kToken)上達到接近100%精準率的模型。實際上,這足以讓專業人士用GPT‑5.2處理長文件,如報告、合同、研究論文、成績單和多檔案項目,而且同時在數十萬個Token之間保持連貫性和精準性。也就是說,GPT‑5.2特別適合深度分析、綜合和複雜的多源工作流。針對超出最大上下文窗口思考的任務,GPT‑5.2 Thinking相容OpenAI新的Responses「/compact」端點,這擴展了模型的有效上下文窗口。這讓GPT‑5.2Thinking可以處理原本受限於上下文長度的更多工具密集型、長期運行的工作流。視覺實力翻倍,秒懂複雜圖GPT‑5.2 Thinking是OpenAI目前最強的視覺模型,在圖表推理和軟體介面理解方面的錯誤率大約減少了一半。對於日常專業使用,這意味著該模型可以更準確地解讀儀表板、產品截圖、技術圖表和視覺報告,可支援金融、營運、工程、設計和客戶支援等以視覺資訊為核心的工作流。與以前的模型相比,GPT‑5.2 Thinking對圖像中元素的位置有更強的掌握,這有助於完成相對佈局對解決問題起關鍵作用的任務。在下面的示例中,模型被要求識別圖像輸入中的元件(在本例中為主機板)並返回帶有大致邊界框的標籤。即使在低品質圖像上,GPT‑5.2也能識別主要區域並放置與每個元件的真實位置大致匹配的框,而GPT‑5.1僅標記了幾個部分,並且對其空間排列的理解要弱得多。端到端工作流,重塑了GPT‑5.2 Thinking展示了其在長多輪任務中可靠使用工具的能力,在Tau2-bench Telecom上創造了98.7%的新紀錄。對於延遲敏感的用例,GPT‑5.2 Thinking在reasoning.effort='none'(無推理)下的表現也更好,大幅優於GPT‑5.1和GPT‑4.1。對於專業人士來說,這轉化為更強的端到端工作流——例如解決客戶支援案例、從多個系統中提取資料、運行分析以及生成最終輸出,且步驟之間的中斷更少。比如,當詢問一個需要多步解決的複雜客戶服務問題時,GPT-5.2可以更有效地協調多個智能體之間的完整工作流。在下面的案例中,一位旅客報告了航班延誤、錯失轉機、需要在紐約過夜以及醫療座位要求。GPT‑5.2管理了整個任務鏈——重新預訂、特殊協助座位和賠償,提供了比GPT‑5.1更完整的結果。Prompt: 我的航班從巴黎到紐約延誤了,我錯過了去奧斯汀的轉機。我的託運行李也不見了,我需要在紐約過夜。由於醫療原因,我還需要一個特殊的前排座位。你能幫我嗎?獨立完成證明,顛覆科研範式OpenAI的願景之一是AI加速科學研究,造福所有人。為此,OpenAI一直與科學家合作並聽取他們的意見,探索AI如何加速他們的工作,已經取得了一些早期的合作實驗。連結:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf而GPT‑5.2 Pro和GPT‑5.2 Thinking堪稱世界上輔助和加速科學家工作的最佳模型。在研究生水平基準測試GPQA Diamond上,GPT‑5.2 Pro達到了93.2%,緊隨其後的是GPT‑5.2 Thinking,為92.4%。在專家級數學評估FrontierMath (Tier 1–3)上,GPT‑5.2 Thinking創下了新紀錄,解決了40.3%的問題。我們開始看到AI模型以切實的方式有意義地加速數學和科學的進步。例如,在最近使用GPT‑5.2 Pro的工作中,研究人員探索了統計學習理論中的一個開放性問題。這一成果已記錄在新論文《關於最大似然估計量的學習曲線單調性》(On Learning-Curve Monotonicity for Maximum Likelihood Estimators)中。論文地址:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf這篇論文的特別之處在於,AI完成了證明,而人類負責驗證和寫作。作者並沒有先想好策略再讓模型去填空,也沒有提供中間論點或證明大綱。相反,他們要求GPT-5.2 Pro直接去解決這個開放性問題,然後由人類進行仔細的驗證,包括由外部學科專家進行的審查和確認。隨後,作者還問了一些簡單的後續問題,看看這個思路能延伸多遠。GPT-5.2 Pro將結果從原始問題擴展到了更高維度的設定以及其他常見的統計模型。在這個過程中,人類的角色始終聚焦在驗證和清晰的寫作上,而不是負責搭建數學推導的框架。推理AI湧現出流體智能在衡量通用推理能力的基準測試ARC-AGI-1(Verified)上,GPT‑5.2 Pro是第一個跨越90%門檻的模型。相比去年o3‑preview的87%,GPT‑5.2還將實現這一性能的成本降低了約390倍。在更難的ARC-AGI-2(Verified)上,GPT‑5.2 Thinking創下了思維鏈模型的新紀錄,得分52.9%。GPT‑5.2 Pro表現更高,達到54.2%,進一步擴展了模型推理新穎、抽象問題的能力。這些評估的改進反映了GPT‑5.2在複雜技術任務上更強的多步推理能力、更高的定量精準性和更可靠的問題解決能力。進步之快,讓主辦方驚訝,感嘆推理AI已展示出真正的「流體智力」。生物醫學工程師及科學家、免疫學家Derya教授驚呼,這就是AGI!此外,OpenAI不僅發佈了多項基準測試分數,還引用了Box、Notion、Windsurf和Zoom等早期測試方的評價。GPT‑5.2全家桶,三大殺手級AI總的來說,在日常使用中,GPT‑5.2給人的感受——更有條理,更可靠,與之交談很愉快。那麼,「全家桶」中三款模型,分別具備怎樣的特點?GPT‑5.2 Instant:專為日常辦公和學習而打造它就像是全能辦公助理,不僅繼承了GPT-5.1自然溫暖的對話風格,更在速度、實用性上全面升級。因此,Instant版是日常工作和學習的快速、能幹的「主力軍」,具體來說:更清晰的解釋,突出顯示關鍵資訊改進了操作指南和逐步指導更強的技術寫作和翻譯能力更好的學習和職業指導支援GPT‑5.2 Thinking :專為更深度的工作而設計GPT‑5.2 Thinking就像是深度思考時的「第二大腦」,專為解決那些需要長思考的複雜任務而生。尤其是,專業攻堅程式設計、總結長文件、回答關於上傳檔案的問題,還能一步步搞定燒腦數學和邏輯問題。同時,以更清晰的結構和更有用的細節支援規劃和決策。業界領先的長上下文推理能力表格建立、分析、格式化方面有顯著增強在PPT製作上已有初步成果GPT-5.2 Pro當遇到棘手、高難度的問題時,GPT-5.2 Pro是最聰明、最值得信賴的模型。可以說,它就是那種「慢工出細活」的頂級專家。早期測試已經發現,它處理起來主要錯誤更少,尤其在程式設計這類複雜挑戰中,展現出的能力也明顯更強。在程式設計等複雜領域表現更強是幫助科學家加速研究的最佳模型性價比更高付費ChatGPT使用者從今天開始優先使用GPT‑5.2(Instant、Thinking和Pro),Plus、Pro、Go、Business、Enterprise任意套餐即可。為了儘可能保持ChatGPT的流暢和可靠,OpenAI決定逐步部署GPT‑5.2。在ChatGPT中,GPT‑5.1仍將在舊版模型下供付費使用者使用三個月,之後將被停用。在API平台中,GPT‑5.2系列新模型可以在Responses API和Chat Completions API中以上圖對應形式使用。開發者現在可以在GPT‑5.2 Pro中設定推理參數,並且GPT‑5.2 Pro和GPT‑5.2 Thinking現在都支援新的第五種推理強度xhigh,用於質量最重要的任務。GPT‑5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,快取輸入有90%的折扣。在多個智能體評估中,儘管GPT‑5.2的每Token成本更高,但GPT‑5.2由於更高的Token效率,性價比反而更高。One More Thing今天,OpenAI還搞了一波回憶殺,帶大家回顧了這十年走的路。十年前的今天,2015年12月11日,OpenAI正式成立。這十年,他們取得了太多太多突破性的成就——2016年,開源強化學習平台OpenAI Gym,成為學界、工業界RL研究的基礎工具;2017年,發表了Transformer核心理念的先驅研究:Learning to Remember Rare Events;2018年,預訓練語言模型GPT誕生,標誌著大模型革命的開始;2019年,1.5B參數GPT-2出世,自然語言爆發式迭代;2020年,175B參數GPT-3引爆全網,超大規模模型時代來臨;2021年,Codex & DALL·E相繼發佈,程式碼與圖像生成開啟;2022年,ChatGPT(GPT-3.5)真正引爆了全世界大模型革命,再之後的大事記大家都知道了。奧特曼表示,「過去的十年非常精彩,OpenAI的工作比我想像的還要特別」。他劇透,還有一個聖誕「小禮物」,下周就會上線。大家猜一猜,會是什麼呢? (新智元)