#奧特曼
OpenAI奧特曼最新訪談:未來將投入兆美元,不想成為上市公司CEO
2025年的最後一個月,AI行業的巨頭們都試圖用驚人的成果重塑自己的“地位”。Google發佈Gemini3.0後,一向高調的塞姆·奧特曼在OpenAI內部拉響了紅色警報,隨後緊急發佈GPT5.2,不久前還承諾投入上兆美元擴增基礎設施。過去一年,巨頭和大廠們始終籠罩在“被超越”的危機感中。為了在模型能力上領先對手,各方從團隊配置到資本投入上,全面展開激烈競爭。保持穩定的迭代節奏,幾乎是AI行業巨頭們對外踐行的最鄭重的承諾。國內同樣如此。字節豆包先推出引爆社交網路的豆包手機,最近又宣告豆包大模型DAU超過1億,成為國內首個日活過億的原生AI應用。這讓投入巨大致力於成為超級入口的阿里千問APP,不免有些失落。反擊或許正在醞釀中。阿里系維持一貫的飽和式投入。聲勢浩大地上線千問APP後,接著螞蟻發佈靈光、阿福(一款AI醫療應用),從基礎模型到光譜最大的垂直應用領域,全面輻射使用者群體。作為國內的獨立模型廠商們,也加速了資本上市的戲碼,智譜、MiniMax先後遞交招股書,搶灘IPO。AI六小龍裡的另一位Kimi,也有傳出明年上市的計畫。2025年年末的AI敘事,全面進入資本比拚的加速期。在奧特曼和Big Technology的這次訪談中,奧特曼回溯了許多重要話題,比如OpenAI的戰略、產品目標、支付超過1兆美元基礎設施建設的能力、上市計畫、失業等。奧特曼的言論,對國內使用者和AI廠商而言,或許是個重要的參考。有趣的是,儘管奧特曼提到OpenAI將企業端作為戰略優先順序,但並沒有回答它和老對手Anthropic相比的優勢。大家傾向認為前者戰略更偏向C端使用者,後者更偏向企業端,今年營收50億美元,企業端收入遠超OpenAI。我們翻譯整理了這期視訊訪談,一些重要觀點如下:1、下一代模型ChatGPT6的時間表,OpenAI目前尚不清楚。2、C端消費者目前需要的並非更高的智能水平,B端企業才需要更高的智能水平,OpenAI會分化出兩條線,採取不同的方式改進模型。3、接下來的一年,企業端使用者增長將成為OpenAI重點方向。基於企業端使用者需求,OpenAI在開拓一種新的類似雲業務的軟硬一體的服務。4、關於OpenAI明年會上市嗎,奧特曼未給出明確答案,但暗示未來也會上市。5、OpenAI正在研發一系列小型硬體裝置,其中一個沒有螢幕,和手機大小差不多。為了文字閱讀方便,在不影響原意的情況下,我們做了適當處理和刪減。01. OpenAI下一年的優先順序,瞄準企業端主持人:Gemini 3 發佈後,OpenAI似乎拉響了紅色警報,據我所知,這是OpenAI 首次沒有明顯的領先優勢。你怎麼看?Sam:關於“紅色警報”,我們認為這類事風險相對低,但很常見。當出現潛在競爭威脅時,保持警惕並迅速行動是好事。今年DeepSeek出來時,我們也啟動了紅色警報。疫情時有句諺語,早一點行動,就比晚行動更有價值。到目前為止,Gemini 3並沒有產生我們擔心的那種影響,它和DeepSeek一樣,暴露了我們在產品與策略上的短板,我們正在快速補上。我們不會在這一緊急狀態里奇待太久,以往這種情況通常持續6-8周。我們剛剛上線了一個新的“圖像生成視訊”模型,上周發佈了GPT-5.2,我們會保持每年一次或兩次的大版本更新節奏。這也是確保我們能持續領先的部分原因。模型能力會變得更強,但人們選擇使用某個產品,不論C端還是B端使用者,遠不止模型本身。我們預期競爭會加劇,所以一直在搭建“讓產品真正好用”的能力,我相信企業端在未來幾年會成為重要增長點。人們最終會希望使用“同一個AI平台”。ChatGPT在消費端的強勢,也在反哺企業端。主持人:ChatGPT的周活使用者從年初約4億增長到8億,但另一方面,像Google這樣的公司有巨大的分發優勢。你認為模型會不會商品化?Sam:我認為,“商品化”不是理解這件事最合適的框架。在日常使用上,各家模型廠商會越來越接近,但在最前沿、最複雜的問題上,差距會非常明顯。真正的經濟價值,還是會由“處在前沿的模型”創造的。主持人:你上周末在紐約和一些新聞編輯、CEO吃午飯時說,企業端在明年會成為OpenAI的重要類股。為什麼?你們與 Anthropic相比如何?很多人會說這是OpenAI從消費端轉向企業端的“戰略轉向”。Sam:我們一直都在關注企業端,只是有幾個原因,導致節奏不同。第一,早期模型還不夠穩健,不足以滿足大多數企業場景,現在開始接近了。第二,我們當時看到一個很清晰的消費端機會,這種機會非常難得,如果在消費端獲得優勢,會讓企業端的勝利變得容易得多。今年我們的企業端使用者增長速度甚至超過了消費端。基於當前模型水平以及明年可能達到的能力,我們認為現在是建立一個非常重要的企業業務的時機。編碼是目前最大的企業應用,但也有其他垂直領域正在快速增長。我們也開始聽到一些企業說,想要一個統一的AI平台。主持人:那個垂直領域?Sam:金融......就我個人而言,科學領域最讓我興奮。主持人:你們有個指標 GDPval(一項全新評估指標,用於衡量模型在44 個職業領域中具有經濟價值的現實任務上的表現),根據你們自己公佈的結果,在知識工作任務上,GPT-5大約有38%的任務上和頂尖行業人士持平, GPT-5.2 Thinking 能實現 70.9%的任務。這意味著最新模型在很多知識工作上已經接近專家水平,這會帶來什麼影響?Sam:你問到垂直領域,我覺得這是個好問題。但我剛才有點停頓,是因為腦子裡閃過,企業要做的事情大概有四十多類——做 PPT、法律分析、寫各種文件……GDPval 的核心在於,在很多“小而清晰”的任務上,模型的輸出結果是否會被專家更喜歡。企業裡大量工作恰恰是這種範圍明確、可拆分的任務,它不是那種開放式、協作式,從零創造新產品的複雜活動。但如果你擁有一個“同事”,可以把數小時的任務交給它,然後7成機率下你更喜歡它的結果,成本也低。這已經非常驚人了。假如回到三年前(GPT-3 發佈時)讓人預測“三年後會到這個水平”,大多數人都會說絕不可能。現在企業要做的,是把這些能力真正嵌入工作流程,不只是寫程式碼,而是幾乎所有知識工作任務都可以“外包”給 AI。這需要時間,企業也需要摸索如何整合,但影響會很大。02. AI的終局是什麼?ChatGPT的介面變化應該更快主持人:假設 ChatGPT和Gemini使用者體驗相似,OpenAI最大的威脅是不是來自Google有無數入口,能把Gemini分發到各個介面上?Sam:Google仍然是一家強大的公司,如果Google在2023年真的下決心“嚴肅對待我們”,我們可能會處在非常不利的位置。他們完全有能力把我們打趴下。但當時他們的AI產品方向有所偏差。Google擁有科技史上最好的商業模式之一,很難主動放棄,把AI直接“擰”進傳統網頁搜尋裡,我認為很難像很多人想的那樣順利,當然我也可能是錯的。在即時通訊或郵件裡加AI,你可以讓它幫你總結資訊、草擬回覆,確實會更好一點,但我認為終局絕不是這樣。終局更像是,你有一個非常聰明的AI作為你的代理,它跟別人的代理溝通,決定什麼時候該打擾你,什麼時候不打擾。那些決定它能自己處理,那些必須來問你。搜尋、生產力工具也一樣。我認為,這些新產品會比我們想像中來得更慢,但我們會看到在主要領域裡出現一些徹底圍繞AI建構的新產品,而不是“加了AI的舊產品”。這也是Google的一個弱點,即便它有巨大分發優勢。主持人:我本來想問你,未來一兩年ChatGPT的形態會變成什麼樣,是不是就會朝這個方向?Sam:坦白說,我原以為,ChatGPT的“外觀”變化會更大。最初上線時,它更像一個研究預覽,並不是一個產品,現在雖然更精緻,但整體變化並不大。人們已經習慣用簡訊和朋友交流,這個介面天然好用。我低估了當前介面“通用性”的力量。不過我認為,AI未來應該能為不同任務生成不同的互動介面。比如你在聊資料,它就應該以不同方式把資料呈現出來,並讓你用不同方式互動。我們現在有一點點類似能力,比如Canvas,但應該更互動、更“對象化”,現在的體驗還是“你一句我一句”的對話。理想情況下是,你們圍繞同一個對象持續討論,介面隨著新資訊不斷更新,你提出更多問題、更多想法,系統也更主動。長期看,它可能會理解你一天要做什麼,並持續在後台為你工作。它在後台持續為你推進事務,並給你推送更新。你能從人們使用Codex的方式裡看到這種趨勢,這可能是今年最令人興奮的事情之一。Codex指向了我對未來互動形態的很多期待。不過說出來有點尷尬,過去三年 ChatGPT聊天介面基本沒變。03. “我不想成為一家上市公司的CEO”主持人:你們大約有1.4兆美元的承諾要投入算力基礎設施。你自己也公開說過,如果人們知道你們能用算力做什麼,就會想要更多。能不能展開一說下,這麼多算力用來做什麼?Sam:我們最興奮的一件事,就是用大量算力去探索新的科學問題。我相信科學發現是“讓世界對所有人變得更好”的最高階方式之一。如果我們能把巨量算力投入到科學問題上,發現新的知識,那怕現在才剛剛開始,都會非常重要。從歷史看,一旦趨勢線從x軸抬頭,我們就知道如何把它做得越來越好,但這需要海量算力。我們會加大投入,做新的科學發現,攻克疾病等。很難精準框定我們現在每天用多少算力去生成AI,但我想做一個很粗糙、不嚴謹的估算。假設一家前沿AI公司每天可能生成大約10兆token,有些可能更多,但我不認為有人達到了千兆等級。世界上有80億人,平均每人每天輸出的“token”數大約是2萬,這基本全是瞎估。那麼,如果AI模型每天輸出的token數超過全人類智能輸出的總和,再到 10 倍、100 倍……這當然有點荒謬,不過你也可以想像下,地球上的“智力計算”有多少來自人腦,多少來自AI,兩者的相對增長率多少。主持人:你知道現在對算力的需求有多大嗎?如果OpenAI把算力翻倍投入科學或醫學,一定會帶來突破嗎?Sam:從一些跡象來看,這種需求會發生。模型每提升一個台階,使用意願就顯著增加,每當把成本降下來,使用需求就會再躍升。所有這些都表明,人們會用這些模型去做很多非常棒的事情,未來的需求會沿著少數關鍵軸,能力、速度、成本、可靠性等持續上升。主持人:能否舉個例子,某個科學家有問題X,如果投入算力Y就能解決,但今天還做不到?Sam:今天早上 Twitter 上一個有趣的討論,一群數學家互相回覆,說他們原本非常懷疑 LLM 能在數學上真正有用,但GPT-5.2對他們來說跨過了一個邊界。它做出了小證明,發現了一個小結論,正在改變他們的工作流程。然後越來越多人跟帖,說“我也是”。這模型才發佈五天左右,但數學、科研圈裡似乎出現了某種“被點亮”的感覺。這會很有意思,值得看它接下來會如何發展。過去一年,我們把算力規模提高了三倍,明年還會提高大約三倍。之後收入增長可能會更快一些,但總體上確實與算力規模大致同步。我們從來沒有遇到過“算力無法變現”的情況,如果現在有兩倍算力,我們大概就能做出兩倍收入。主持人:既然你提到數字,我想聊聊財務。收入在漲、算力投入也在漲,但投入仍然跑在收入前面。外界有報導說OpenAI到2028、2029年可能累計虧損約1200億美元,之後才會實現盈利。這個轉折怎麼發生?Sam:隨著收入增長,推理會成為算力需求裡越來越重要的部分,並最終“蓋過”訓練消耗。我們確實會在訓練上花很多錢,但隨著規模擴大,推理會越來越主導。當然,我們仍會繼續擴充訓練規模。如果我們把訓練投入降下來,確實會更早盈利,但我們決定下注,非常激進地投入訓練更大的模型。主持人:全世界都在問,收入和支出怎麼平衡?今年收入可能200億美元,而長期基礎設施承諾達到約1.4兆美元。把這兩者放在一起,人們會有困惑。你能否把這套數學講清楚,終結外界的疑惑?Sam:這很難。人類對指數增長的直覺通常很差,你可以在腦子裡對很多數學問題有直覺,但“指數增長”往往做不好。這可能是因為進化過程並不需要這一點。我們的判斷是,我們的收入曲線還能在很長一段時間裡保持非常陡峭。我們現在仍然受制於算力約束,算力一增加,收入線就會被強烈拉動。只有當我們出現“有大量閒置算力,且無法在單位算力上盈利變現”的情況時,才會合理地說,好,我們可能超建了。但我們已經用各種方式做過測算,同時,硬體層面(flops/美元)也會繼續變得更高效。我們看到消費增長、企業增長,還會有許多尚未推出的新業務。算力是血液,我們會設定一些“檢查點”,如果和數學略有偏差,也有一定的調整空間。但直到今天,我們一直處在“算力赤字”。主持人:所以你的計畫是,訓練成本佔比會下降,而你們通過企業端、訂閱付費、API 等方式把收入增長到足以覆蓋基礎設施?Sam:目前計畫確實如此。主持人:最近市場似乎有點“失控”,我覺得一個恐慌的點是,通常公司會在有可預測收入時舉債,去建設,然後用穩定現金流償債。但AI行業收入不可預測,卻開始大舉債務,你怎麼看?Sam:首先,我覺得市場更早之前才是真正“失控”。今年早些時候,我們只是去見某家公司,第二天那家公司股價就漲15%~20%,這太瘋狂了,也很不健康。現在市場有了理性,我反而更開心,因為之前那種熱度讓我感覺我們正走向一個不穩定的泡沫。關於債務,我們確實知道整個行業在投入基礎設施,最終一定會有人從中獲得價值。雖然一切仍然很早,但我認為現在沒人懷疑AI會創造價值。從這個意義上看,用某些形式融資是合理的。我也認為未來會出現更多金融工具,其中可能有些很離譜,因為人們會不斷“創新”融資方式。但總的來說,讓金融機構借錢給資料中心建設這件事本身並不奇怪。主持人:市場的擔心在於,如果進展不再像現在這樣快,比如模型能力開始飽和,那麼基礎設施的價值可能低於預期,資料中心最終當然有人會用,但也可能被低價清算。Sam:我確實認為途中會出現一些繁榮與蕭條。不過在我看來非常清楚的一點是,模型會變得更好,這一點信心很高。即便模型不再進步,世界的慣性很大,人們適應新事物需要很久。就算把模型停留在GPT-5.2的水平,它所代表經濟價值的“潛能”(overhang)仍然巨大,這一點還遠沒有釋放出來。我以前可能默認,如果模型裡蘊含巨大價值,世界很快學會如何部署並釋放這些價值。但現在看起來,尚未開發的“潛能”會非常巨大。只有少數群體,例如一部分程式設計師,會迅速因AI工具提升生產力,很多人仍然在問和GPT-4時代差不多的問題。這個“潛能”會帶來很多後果,我們還沒完全想清楚它會怎樣展開,這與我幾年前的預期非常不同。主持人:模型能力已經強很多,但很多企業說他們在實際落地時並沒有得到預期回報,這讓我困惑,是不是因為組織慣有流程阻礙了價值的兌現?Sam:確實,人們改變工作流的速度遠遠比我想像的慢。很多人習慣了把某些任務交給“初級同事”去做,而非AI。我自己也仍然在用相當傳統的方式工作,儘管我知道我可以更深地使用AI。主持人:說到公司層面,明年會IPO嗎?Sam:我不知道。主持人:你們想成為上市公司嗎?在資金不足前會上市嗎?Sam:這裡面牽涉到很多因素。我確實覺得,公開市場能參與價值創造會很酷。相比以往的任何公司,我們會非常晚才上市,做一家私營公司固然好,但我們需要大量資本。我們遲早會突破股東人數限制。主持人:你個人想當一家上市公司的CEO嗎?Sam:一點也不想。不過,我對OpenAI成為上市公司,某些方面還會感到興奮。另外一些方面會讓人惱火。04. 別再盯著AGI這個詞了主持人:你們正在研發硬體裝置,我聽說它的大小和手機差不多,沒有螢幕。為什麼不能做成一個應用程式呢?Sam:首先,我們會推出一個小型裝置系列。我認為人們使用電腦的方式會逐漸發生轉變,從一種被動操作轉變為一種非常智能、主動的工具,它能夠理解你的整個生活、你的處境、你周圍發生的一切,並且非常清楚你周圍的人。螢幕的存在限制了你的操作方式,鍵盤的設計初衷就是為了降低資訊輸入的速度。這些長期以來都是不加質疑的假設,但確實有效。然而,隨著全新技術的出現,它開闢了新的可能性空間。主持人:你之前談到過建構雲平台。我們收到一位聽眾的郵件,內容如下:“我們公司正在從 Azure 遷移,直接與 OpenAI 整合,以支援產品中的 AI 體驗。我們的重點是將數兆個用於驅動AI體驗的token流插入整個技術堆疊。” 你們有計畫建構一個龐大的雲業務嗎?Sam:數兆枚token的確數量龐大。企業已經明確告訴我們,他們想從我們這裡購買多少token,而我們預計到2026年仍將無法滿足需求。但我們的策略是,大多數公司似乎都想找到像我們這樣的公司,說:“我想讓我的公司應用人工智慧。我需要一個為我的公司定製的API。我需要一個為我的公司定製的ChatGPT Enterprise。我需要一個能夠運行所有這些代理的平台,並且我的資料安全有保障。我需要能夠將數兆個token匯入我的產品。我需要能夠提高我所有內部流程的效率。”而我們目前還沒有一個完美的一體化解決方案來滿足他們的需求,我們希望能夠做到這一點。主持人:你的目標是讓它與AWS和 Azure等世界級服務並駕齊驅嗎?Sam:我覺得這跟那些不一樣。我並沒有打算提供所有服務。人們會繼續使用他們“網路雲”,我認為還會出現另一種情況,公司會說,“我需要一個人工智慧平台來處理所有內部事務,以及我想提供的服務等等。”從某種意義上說,它仍然依賴於物理硬體,但我認為這將是一種截然不同的產品。主持人:我最近在規劃一次包含很多細節的旅行,和ChatGPT連續聊了好幾周,我可以在新窗口裡說“我們接著聊這次旅行”,它就能自動接上文,記得我在做什麼,去那兒,甚至我在為旅行做體能計畫,它能把這些都綜合起來。Memory未來能強到什麼程度?Sam:現在還很難想像,因為人類的“記憶上限”很明顯。就算你有世界上最好的私人助理,他也不可能記住你說過的每一句話,不可能讀過你所有郵件和你寫過的每份文件,也不可能每天關注你所有工作,並記住所有細節。沒有任何人能以這種程度參與你的生活。但AI可以。我們內部經常討論,現在的Memory其實還很粗糙,很早期。大概相當於“GPT-2時代的記憶”。真正強的版本應該是,它能記住你生活中的每一個細節,並據此完成高度個性化。不僅記住事實,還能捕捉那些你自己都沒意識到的小偏好,AI會從互動裡學到這些。我認為這會非常強大,也是我最希望在2026年看到更大突破的方向之一。我們會和機器人建立真正的“關係”,這可能是被低估的一面。“關係”,“陪伴”可能也不完全貼切,但確實有很多人想和AI建立深度連,這超出了我之前的預期。即使有些人嘴上說不在乎,他們往往也會更喜歡“溫暖一點”的版本。主持人:所以你的想法是讓大眾自己來決定?Sam:對,但我們其實並不知道“應該走多遠”“應該允許到什麼程度”,會給人相當多的個人自由,不過也會設一些邊界。比如不會讓AI去勸使用者把它當作“排他性的戀愛對象”之類的。我確信別的服務會這麼做,因為它越有“黏性”,賺的錢越多。主持人:你曾說,GPT-5發佈後,在幾乎所有方面都比我們更聰明。那是不是AGI?如果不是,AGI這個詞是不是已經變得沒意義了?Sam:這些模型確實非常聰明。從原始智力角度看,最近也有很多說法, GPT-5.2 的 IQ 達到 147、144 或 150,總之是個很高的數字。很多專家說它能做非常驚人的事,在許多領域提高效率。我們也聊過它在知識工作上的表現。但你還沒看到一種關鍵能力,模型意識到“我不會”,然後自己去學習、去理解,等下次再回來把它做好,那種更像“幼兒學習”的能力。我覺得這是我們接下來需要建構的重要部分。AGI這個詞雖然我們很難停止使用,但它的定義非常模糊。有人認為已經達到了,有人認為還沒,隨後越來越多人認為達到了。我個人其實很希望我們能繞開這個詞,因為從來沒有一個讓我滿意的定義。一個我更願意討論的新詞是“超級智能”。超級智能的候選定義是,當一個系統能比任何人更好地勝任某些頂級複雜角色,比如當美國總統、大公司的CEO。主持人:我在Substack《Blood in the Machine》裡看到一句話:Chatbot來了以後,我的工作變成“管理機器人”,而不是管理一支人工客服團隊。這聽起來會很常,但他接著說:當機器人訓練得足夠好、能提供“足夠好”的支援之後,我就被裁了。這會不會越來越常見?Sam:我同意,短期內很多人會成為“管理一堆AI的管理者”。但就像任何一個好的管理者一樣,理想狀態是你的團隊越來越強,你自己會承擔更大的範圍與更多責任。我不是那種“短期就業末日論者”,但我確實擔心過渡期會在對一些行業的從業者來說非常艱難。未來的“工作”,或者說2050年我們每天在做的事情,肯定會和今天不一樣,但我也相信不會出現“所有人都無所事事、經濟徹底崩掉”的局面。我經常想,如果把 OpenAI內部的很多功能都自動化,甚至出現一個“AI 聯合 CEO”會怎樣?想像一下,世界上每個人都相當於坐在一家AI公司的董事會裡,告訴AI CEO該做什麼,如果它沒做好就把它“解僱”。這樣就有了治理(governance)與監督,而AI CEO的任務是執行董事會意志。對未來的人而言,這也許會被視為一種合理的組織方式。 (白鯨實驗室)
Fortune雜誌─AI的千億賭局:帝國基石還是紙牌危樓?
將OpenAI比作一座正在建造的房屋或許並不貼切——因為沒人能確定這座“建築”究竟用什麼材料支撐。但可以肯定的是,這是一項燒錢到令人咋舌的工程。據報導,OpenAI正以7500億美元估值尋求新一輪融資,金額高達數百億美元,其中亞馬遜計畫投資100億美元(編者註:亞馬遜作為科技巨頭,此次押注凸顯其對AI基礎設施的長期看好)。公司正瘋狂投入算力,在為AI晶片供電的資料中心澆築混凝土。OpenAI表示,必須繼續堆砌這座由模型與應用組成的“金字塔”——目前已有超8億使用者依賴其服務。OpenAI首席執行長薩姆·奧特曼(Sam Altman)。圖片來源:Kyle Grillot/Bloomberg via Getty Images但如此高昂的成本,既讓人驚嘆,也引發深切憂慮。業界觀察者形容OpenAI的擴張如同帝國大廈拔地而起,預算增速甚至比建築物本身更快(編者註:真實的帝國大廈按今日價格計算僅耗資約7億美元,且未超預算)。一些懷疑論者直言,這整片“建築群”或許只是一座傲慢的紀念碑,隨時可能轟然倒塌。我的觀點是:若將OpenAI視為一座房屋,它尚處於建設初期——但沒人知道地基究竟牢靠與否。其計畫固然雄心勃勃,目標直指前所未有的高度。但這究竟是紙牌搭成的危樓?還是搖搖欲墜的木柱小屋?抑或堅固的混凝土大廈?核心問題在於:無論最終形態如何,它能否承受已壓在肩頭的重量?專家觀點分化這種不確定性讓我採訪的專家們意見分歧。科技分析師羅布·恩德爾(Rob Enderle)表示,希望看到OpenAI能建立在更穩固的基礎上。“如果他們在基礎方面有更強的根基,我會感覺更放心,”他告訴我,特別強調需要讓產品足夠可信,以促進企業客戶的採用。他補充說,OpenAI在方向上曾一度“偏離軌道”,並指出自2023年11月首席執行長薩姆·奧爾特曼(Sam Altman)短暫被解職後復職以來,公司原有的獨立安全和倫理監督結構已被邊緣化。他認為,如今OpenAI試圖同時與所有人競爭;被動應對競爭對手而不是執行清晰的路線圖;在沒有明確優先順序的情況下大量支出。正如《財富》雜誌本周深度報導所披露,OpenAI首席執行長薩姆·奧爾特曼(Sam Altman)兩周前在公司內部拉響“紅色警報”,部分原因在於他意識到公司可能因試圖同時推進過多項目而分散精力。該報導剖析了OpenAI“紅色警報”的背景、方式和內容,還解釋了為何奧爾特曼警告公司要做好面對“艱難氛圍”和經濟逆風的準備,原因是Google和OpenAI競爭加劇。奧爾特曼正試圖激勵團隊在未來幾周內重新聚焦OpenAI的核心ChatGPT產品。但據恩德爾說,這些都是非常被動的,缺乏足夠的戰略性。針對該公司持續發佈新產品——從新AI模型和新圖像生成模型,到網頁瀏覽器、ChatGPT內建購物功能,再到本周剛推出的應用生態系統——同時推進大規模“星際之門”資料中心建設,恩德爾將OpenAI比作網景(Netscape)等網際網路公司,指出這些公司致富過快,失去了戰略紀律。“他們跑得太快,真正關注方向的時間不多,”他說道。然而,其他人強烈不同意這種觀點。Futurum Research創始人兼首席執行長丹尼爾·紐曼(Daniel Newman)告訴我,擔心OpenAI的房屋會倒塌,忽略了大局。“這是一個跨越數十年的超級周期,”他說道,將公司當前AI階段比作Netflix的DVD郵寄時代——這是隨後真正範式轉變的前奏。從未滿足需求和長期價值創造的角度來看,紐曼認為OpenAI在算力方面的巨額投資是理性的,而不是魯莽的。“我認為OpenAI今天擁有的是高品質的、未來三維模擬和建築效果圖,”紐曼說道。他補充說,真正的問題是OpenAI能否獲得足夠的市場份額來建造它設想的豪宅。“我認為OpenAI的真正目標是成為超級規模企業,”紐曼說道。“他們將擁有基礎設施、應用程式、資料、工作流程、智能工具——人們將從OpenAI購買他們現在從其他地方獲得的一切。這是一個非常雄心勃勃的目標。不能說它會成功。但如果成功了,這些數字是有意義的。”粘性難題:是膠水還是釘子?支撐“房屋”的關鍵是什麼?最後,我與高德納諮詢公司首席分析師阿倫·錢德拉塞卡蘭(Arun Chandrasekaran)交流時,他對我“房屋”的比喻笑了笑,雖試圖迴避,但仍願探討OpenAI的基礎是否紮實。“他們發展極快,還做出了任何同等規模公司都未曾許下的巨額承諾,”他坦言,“這本質上是一場風險投資,戰略本身就伴隨風險。”在他看來,一切取決於OpenAI產品的“粘性”——即模型層與應用層能否讓使用者難以離開。“關鍵在於客戶的轉換成本,以及其他因素能否讓增長按預期實現,”他說,“這是一家高增長公司,但市場預期其增速必須比現在更快。期望值非常高。”“粘性?”我追問,“像膠水?還是像釘子?那些支撐房屋的要素?”他笑了:“沒錯——就是膠水。你說的粘性,我說的膠水。”(財富Fortune)
奧特曼的“帝國隱憂”:多線擴張,正在拖慢ChatGPT
過去一年,一個令人費解的現像在OpenAI內部蔓延:即便ChatGPT推出了能在國際數學奧賽摘金、在頂級程式設計競賽奪冠的“最強大腦”,但普通使用者們似乎並不買帳。圖片由AI工具生成據外媒報導和OpenAI 9月發佈的資料顯示,多數使用者使用ChatGPT可能只是詢問相當簡單的問題,根本無需動用那些耗費巨大計算資源、需要“思考”半分鐘的推理模型。這一刺眼的資料,指向了OpenAI在巔峰之下隱藏的深刻危機:一場由CEO山姆·奧特曼親自推動的戰略擴張正引發嚴重的深層危機,包括組織架構割裂、多線作戰導致資源分散,以及技術路線與使用者需求嚴重脫節,這正將其王牌產品ChatGPT拖入競爭泥潭。01核心矛盾:前沿研究與大眾需求的“性能過剩”鴻溝OpenAI的核心矛盾,根植於其研究部門與產品團隊日益擴大的目標分歧。公司內部一個超過千人、相對獨立的研究團隊,近年來將重心押注在追求“推理模型”和“通用人工智慧”(AGI)這一終極目標上。這種模型雖然能在複雜數學和科學問題上表現出色,但其代價是高昂的計算成本和緩慢的響應速度,處理一個問題可能需要數秒甚至數分鐘。然而,這與ChatGPT數億主流使用者的需求嚴重脫節。AI評估機構LMArena負責人彼得·戈斯特夫所言,“OpenAI 把重心放在‘科學、數學基準測試、前沿數學、程式設計競賽’上,但這似乎並不匹配典型的 ChatGPT 使用者”,他指出,“大多數 ChatGPT 使用者問的可能只是一些非常簡單的問題,比如電影評分、日常諮詢,“根本不需要模型思考半個小時”。這種“性能過剩”直接導致了產品層面的挫折。2025年初,當OpenAI試圖將最先進的推理模型轉化為ChatGPT可用的版本時,其性能反而“意外地變差”了。即使後來以“思考模式”等形式嵌入,在近9億周活躍使用者中,也僅有極少數人頻繁使用。更令人尷尬的是,OpenAI內部發現,就連傳統的非推理模型,在整合到ChatGPT產品時,也可能因與“個性化”等功能的衝突而導致性能下降。圖:從左到右依次為OpenAI應用部門CEO菲吉·西莫、CEO奧特曼以及首席研究官馬克· 陳02多線作戰:奧特曼的“帝國野心”與ChatGPT的資源內耗在核心產品面臨使用者體驗鴻溝的同時,奧特曼卻開啟了一場令人眼花繚亂的“多線作戰”。在ChatGPT之外,他同時推進了包括Sora視訊生成、音樂AI、AI網頁瀏覽器、AI智能體、消費級硬體裝置、機器人等一系列雄心勃勃的項目。這些平行推進的新項目,持續分流了原本應集中投入在 ChatGPT 上的關鍵資源。多位 OpenAI 研究人員證實,一些新方向的展開,客觀上削弱了用於提升 ChatGPT 大眾化吸引力的投入強度。結果出現了一個頗具諷刺意味的局面:在外部競爭愈發激烈的同時,OpenAI 最核心的收入引擎,卻在內部資源博弈中逐漸“失血”。即便是負責應用與產品線的首席執行長菲吉·西莫,也不得不坦言,在 OpenAI,“產品本身並不是終點”。這家公司在文化與決策層面,依然深受“研究優先”的基因所主導。這種戰略分散在應對Google的兇猛反撲時顯得尤為危險。Google憑藉其龐大的產品生態(Gmail、Chrome、YouTube等數十億使用者入口),正在將AI能力無縫融入使用者已有的工作流中。 正如分析師所言,使用者轉向Gemini“不僅僅是因為它模型更好,而是發現這種能力已經融入一切”。相比之下,ChatGPT在很大程度上仍是一個需要使用者主動訪問的獨立工具,面臨巨大的使用者習慣遷移成本。OpenAI在圖像生成功能上的搖擺,是內部戰略不協調的縮影。2025年早些時候,公司一度降低了圖像生成的優先順序,直到8月Google發佈引爆流行的Nano Banana圖像生成器後,才倉促重新聚焦。據員工透露,這甚至引發了奧特曼與研究主管馬克·陳之間的分歧。這種“追趕式”反應,暴露了多線作戰導致的決策滯後和被動。03增長悖論:使用者增速放緩與商業變現的競賽OpenAI正面臨一個關鍵的增長拐點。該公司在年初設定了年內達到10億周活躍使用者的宏大目標,但截至12月初,其使用者數“不足9億”,且顯示其使用者增長正在顯著放緩。然而,與使用者增長放緩形成鮮明對比的是,OpenAI在商業化變現方面取得了驚人進展。其年化收入從1月份的60億美元激增至目前的超過190億美元,主要動力來源於個人和企業使用者的訂閱。這一財務表現使其有望實現8月份設定的年底200億美元年化收入的目標,並超越其2025年130億美元的收入預期。基於此,該公司正尋求以7500億美元的估值進行融資,該估值較兩個月前高出50%。圖:在每100名ChatGPT的周活躍使用者中,約有5人付費訂閱其Pro或Plus服務不過,要實現OpenAI為2030年規劃的2000億美元收入願景,該公司必須將周活躍使用者轉化為日活躍使用者,以創造更多變現機會。這包括銷售計畫中的廣告,或從聊天機器人促成的交易中抽成。圖:OpenAI預計2030年收入將達到2000億美元儘管OpenAI發言人稱ChatGPT已佔據全球助手使用量的約70%,並成為蘋果應用程式商店年度下載量最大的免費應用,但其增長模式已顯現出深層矛盾:商業化成功可能以使用者增長放緩為代價。專注於從現有使用者獲取高額訂閱收入的策略,可能正在損害其使用者基礎的進一步擴大。並且,隨著GoogleGemini等競爭對手在使用者規模和生態整合上快速推進,OpenAI若不能有效解決使用者增長停滯的問題,其短期亮眼的財務資料背後,可能隱藏著觸及市場天花板的長遠危機。04競爭圍剿:Google的反擊與生態劣勢關於ChatGPT能否取代Google搜尋,當前的看法與一兩年前的主流預期已形成鮮明對比。當時,無論是OpenAI還是Google的高管都曾相信,ChatGPT能夠有效替代傳統搜尋引擎。然而,此後Google迅速在搜尋結果頂部整合了AI生成的答案摘要。據該公司2023年10月報告,這一功能正在推動“有意義”的搜尋量增長和收入提升,因為“使用者逐漸意識到,Google能夠解答更多類型的問題”。Google在其他方面的反擊也足夠精準和致命。2025年,其Gemini實現了快速增長:月活使用者從7月的4.5億增至6.5億,網站存取量單月增長14.3%,而ChatGPT同期訪問量卻連續兩月下降。更關鍵的是,Gemini的平均訪問時長自9月起已超越ChatGPT。Google的成功不僅源於模型性能。其Nano Banana Pro圖像生成器因能生成“可讀且上下文相符的文字”而風靡社交網路,而Gemini 3在複雜商業問題、寫作和編碼上的表現贏得了廣泛讚譽。分析師指出,使用者轉向Gemini“不僅僅是因為模型更好,而是發現這種能力已經融入一切”。圖:Google模型Nano Banana生成的圖片相比之下,OpenAI的生態劣勢明顯。前員工警告,如果Google在原始性能上實現超越,甚至免費提供Gemini,可能同時扼殺OpenAI的API和消費者訂閱業務。OpenAI雖然通過迪士尼合作和聘請蘋果前設計主管喬尼·艾維來建構生態,但硬體裝置“兩年內”才能面市,時間窗口正在縮小。05下一次“紅色警報”或撞上蘋果面對危機,奧特曼在12月拉響了“紅色程式碼”警報。他明確要求將資源重新集中到ChatGPT及其推理能力等核心基礎之上,並推遲了廣告、擴展電商等短期盈利項目。他希望在明年1月底通過一次重大產品更新來扭轉局面。與此同時,OpenAI還迅速推出了一系列應對措施:發佈GPT-5.2(內部代號Garlic),重新奪回多項AI模型性能基準榜首推出新圖像生成模型,回應GoogleNano Banana的競爭回退模型路由系統,讓免費使用者默認使用更快的GPT-5.2 Instant然而,這些措施暴露了更深層的問題。模型路由系統僅運行四個月就被撤回,因為它將免費使用者使用推理模型的比例從不到1%提升至7%,顯著增加了成本,卻因響應慢“對日活指標產生負面影響”。這再次證明,純粹的技術升級未必帶來產品成功。事實上,這並非OpenAI首次拉響“紅色程式碼”警報。首席研究官馬克·陳透露,該公司曾多次使用這一機制,但此次持續時間八周,是“比以往更長”的緊急狀態。此前,該機制曾被用於應對從DeepSeek到Anthropic發佈Claude等競爭威脅。然而,奧特曼的雄心意味著,未來公司可能還將面臨更多需要拉響警報的時刻。當前為期八周的“紅色程式碼”聚焦於應對Google的競爭,但這可能只是更大規模產業衝突的前奏。在鞏固軟體與模型優勢的同時,奧特曼已開始佈局一個更為宏大的硬體戰略,這預示著OpenAI可能與另一個消費電子巨頭蘋果發生直接碰撞。奧特曼對硬體裝置在AI普及中的關鍵作用深信不疑。他公開設定了一個極具顛覆性的目標:開發一款OpenAI裝置,以取代智慧型手機成為人們隨身攜帶的新標準。為實現這一願景,今年5月,他聘請了前蘋果設計靈魂人物喬尼·艾維,並收購了其初創公司,旨在共同打造新一代AI硬體。可以預見,正如Google在軟體層面對OpenAI發起猛烈反擊,蘋果也絕不會在它視為核心的硬體領域坐視挑戰者的崛起。這場即將到來的硬體之爭,將不僅是產品功能的比拚,更是關於下一代人機互動範式的話語權爭奪。06未來迷局:一場尚未結束的生存戰除了技術和產品性能外,OpenAI還面臨著其他方面的挑戰:在財務方面,儘管OpenAI預計其年化收入超過190億美元,但公司正“每年燒掉數十億美元現金”以支付驚人的計算成本。其規劃的1.4兆美元基礎設施投入更是天文數字,迫切需要ChatGPT創造更大、更穩定的現金流。在生態領域,與Google、微軟、蘋果等擁有成熟軟硬體生態的巨頭相比,OpenAI本質上仍是一家“模型公司”。它正試圖通過與迪士尼合作、聘請蘋果前設計主管開發硬體來建構生態,但這需要時間,而競爭對手不會等待。在利潤豐厚的企業客戶市場,OpenAI 似乎也失去了更多市場份額,根據Menlo Ventures近期的一份報告,其份額已降至27%,而Gemini則上升至21%,Anthropic以 40%的份額領先。復盤OpenAI的戰略,其癥結在於:在憑藉技術閃電戰取得先發優勢後,未能將技術優勢高效、專注地轉化為可持續的產品優勢和使用者體驗護城河。 奧特曼同時追逐AGI、硬體夢想和多元產品生態,導致公司在關鍵戰役上兵力分散。而追求極致的“推理”性能,又與大眾市場對“即時、可靠、易用”的核心需求產生了錯配,陷入了“性能過剩”的陷阱。“紅色程式碼”是一次緊急止血和戰略回呼,但ChatGPT的泥潭之路尚未走完。OpenAI需要回答的根本問題是:它究竟是一家以AGI研究為終極使命的實驗室,還是一家以贏得AI產品市場為目標的公司?這道題的答案,將決定它是否能穿越巨頭圍剿的硝煙,守住自己開創的時代。正如矽谷歷史的教訓所昭示的,創新者與老牌巨頭的戰爭,往往贏家通吃,而輸家則只能成為史書中的一個腳註。OpenAI正站在這樣一個決定命運的岔路口。 (騰訊科技)
Gemini 3 再次大更新!全球免費享 Pro 級智商,奧特曼又要失眠了
年底了,Google又開始沖業績了。就在剛剛,Gemini 3 Flash 正式發佈,直接對標 OpenAI 和 Anthropic 的旗艦模型,官方號稱比 2.5 Pro 速度快 3 倍,價格砍到 3 Pro 的四分之一,性能還不降反升。用Google自己的話說,這是「為速度而生的前沿智能」。翻譯一下就是:又快又便宜,腦子還挺線上。不過,在實際體驗過程中,Gemini 3 Flash 的性能表現還是遠遠不如 Pro 的,以至於讓我產生一種「貨不對板」的落差感,也歡迎更多朋友分享你的體驗。即便如此,Google在發佈時機的選擇上依然稱得上「快、准、狠」。緊隨 Gemini 3 Pro 與 Deep Think 之後上馬 Flash,也是為了完全不給競爭對手喘息的機會,這也讓我越來越期待 Sam Altman 的聖誕節反擊禮物了。而從今天起,你將能在 Gemini 產品線裡用到三種模型:Gemini 3 Flash (Fast):主打一個「快」,適合那些不需要長鏈條思考、追求效率的對話場景。Gemini 3 Flash (Thinking): 具備輕量化模型推理能力,使其能夠在面對複雜難題時,通過模擬人類的思考過程來提升精準率。Gemini 3 Pro: 性能天花板,它依然是處理極高難度任務的首選。倒反天罡!Gemini 3 Flash 跑分超越 Pro基準測試結果顯示,Gemini 3 Flash 保留了 Pro 等級的推理能力,但延遲、成本直接降到 Flash 等級。具體來說,在 GPQA Diamond 這種博士級推理測試裡,它能拿到 90.4% 的成績,跟那些體積更大的前沿模型打得有來有回。在 Humanity's Last Exam 這個變態難度的測試中,無需工具輔助就能拿到 33.7% 的分數。更誇張的是 MMMU Pro 測試,Gemini 3 Flash 直接拿下 81.2%,達到業界最先進水平,跟自家的 3 Pro 表現相當,屬於是有些倒反天罡了。以前大家覺得「質量-成本-速度」三個維度很難兼顧,要麼快但不聰明,要麼聰明但卻貴。現在Google試圖用 Gemini 3 Flash 證明,只要工程化能力最佳化到位,六邊形戰士是可以存在的。資料顯示,其 Token 消耗比 2.5 Pro 少了三成,速度快三倍,價格更是壓到了輸入 0.5 美元/百萬 Token,輸出 3 美元/百萬 Token 的地板價。行吧,現在的 AI 新模型不光要卷參數,還要卷性價比了。而且它還是個推理型模型,能根據任務複雜度靈活調整「思考」時間。即使在最低的「思考等級」下,3 Flash 的表現也常常超過前代模型的「高思考等級」。這種自適應能力在實際應用中特別有價值,不會出現「殺雞用牛刀」的資源浪費。對於開發者來說,Gemini 3 Flash 的出現,也意味著終於不用在速度和智能之間二選一了。基準測試顯示,Gemini 3 Flash 在 SWE-bench Verified 編碼測試裡拿到 78% 的高分,不僅吊打 2.5 系列,甚至比自家的 3 Pro 還高。此外,Gemini 3 Flash 的亮點還在於多模態能力,它能更快地處理視覺、音訊等輸入,把「看見、聽見、理解」串成一條相對順滑的鏈路,適合需要即時反饋的互動場景。具體來說,它可以分析高爾夫揮杆視訊並在短時間內給出改進建議;你畫草圖時,它也能即時識別並預測你的意圖。再疊加程式碼執行能力,使它不僅能理解圖片內容,還能在工具鏈支援下對圖片進行處理與操作。Gemini 3 Flash 快是真的快,但 ……Google官方展示了幾個很有意思的應用場景。比如在「投球解謎」類遊戲中,Flash 可以做即時的輔助推理,給出可行解甚至更優解;在互動 UI 設計流程裡,它能生成載入動畫,並配合快速迭代做 A/B 方案對比;你提供一張圖片,它也能完成基礎識別,再結合上下文生成互動式註釋。這些 Demo 的共同點是:強調即時性、強調迭代效率、強調能跑起來。我也用 Gemini 3 Flash 跑了幾個案例。不得不說,對比 Gemini 3 Pro,前者的響應速度確實是極快的,但效果嘛,則比較中規中矩,對比 Gemini 3 Pro 則明顯犧牲了視覺與互動細節的質量。以復刻 macOS 介面為例,該模型的表現略顯乏力:底部 Dock 欄出現了明顯的圖示缺失,且在互動細節的精緻度上,也明顯遜於 Gemini 3 Pro 的生成效果。這種差距在「復古擬物風相機應用」的設計任務中尤為突出。從生成的單頁應用結果來看,其視覺呈現與預期目標仍有較大差距。此外,在嘗試打造「星球訊號」網頁時,有一定程度的互動細節,但整體產出的頁面效果還是略顯粗糙,缺乏設計的細膩感。兩條腿走路的Google:一邊卷死對手,一邊把 AI 塞進幾十億人的生活Google這次還把 Gemini 3 Flash 塞進了搜尋的 AI 模式(國內暫不可用)裡,逐步向全球開放。相比之前的版本,它更能理解複雜問題中的細節,從全網抓取即時資訊和有用連結,輸出視覺上更清晰、有條理的綜合答案。與此同時,Gemini 3 Flash 正在成為 Google「全家桶」的默認底座。Gemini 應用、搜尋 AI 模式、Vertex AI、Google AI Studio、Antigravity、Gemini CLI,全線上新。全球使用者都能免費體驗,企業使用者則可以通過 Vertex AI 和 Gemini Enterprise 來呼叫。最後再強調一遍價格,因為這個真的太香了。輸入每百萬 Token 0.5 美元,輸出每百萬 Token 3 美元,音訊輸入每百萬 token 1 美元。試用價格不到 Gemini 3 Pro 的四分之一。如果用上下文快取,重複 Token 的成本還能再省 90%。用 Batch API 非同步處理的話,又能再省 50%,同時還能提升呼叫上限。對於同步或接近即時的場景,付費 API 使用者可以獲得面向生產環境的高呼叫速率。價格打到這個程度、性能又不算差,OpenAI 和 Anthropic 當然很難睡踏實。但話得說嚴謹一點,當宣傳口徑把 Flash 包裝成「幾乎 Pro 級」的時候,使用者自然會用 Pro 的標準去驗貨;而一旦遇到複雜推理、長鏈路任務、穩定性要求更高的場景,Flash 的短板就會更明顯。Google最大的底牌還是流量。搜尋、YouTube、Gmail、Google Maps,每天數十億使用者在使用這些產品。把 3 Flash嵌入到這些高頻應用中,使用者也就在最熟悉的場景裡,無感地、自然地被Google AI 服務包圍。這種打法 OpenAI 和 Anthropic 是學不來的。一方面,Google財大氣粗,確實有資本燒錢搶市場;另一方面,Google在 TPU、資料中心、分佈式訓練等基礎設施和工程最佳化上的積累,確實能幫他們把成本壓下來。一邊做 toB 的 API 服務,一邊直接把 AI 能力塞進自家產品裡,覆蓋海量普通使用者。當使用者習慣了在搜尋裡用 AI 模式,習慣了在 Gemini 應用裡對話,自然就會對Google的 AI 產生依賴。這才是Google真正的陽謀。當然,這種巨頭間的內卷對行業是殘酷的,但對使用者絕對是好事。模型更強、價格更低,開發者能低成本創新,普通人能享受更智能的服務,這大概是這場 AI 軍備競賽中,為數不多的確定性紅利。 (APPSO)
奧特曼忍不住獻身“脫衣”,百萬網友給Sam穿衣服!親弟弟:哥哥有毒吧! OpenAI新模型全網玩瘋了!網友:奧特曼應該還憋著一個大!
距離聖誕節還有一星期,奧特曼卻徹底放飛了!今天凌晨,OpenAI 掌門人Sam Altman 提前為節慶氛圍來了一波火辣的暖身。圖片裡,Sam Altman 化身肌肉猛男消防員,聖誕主題,半裸腹肌、油光閃閃,右手扛著水管,左手插兜……,配文簡單粗暴:「比如這樣玩……」(For example:)一下子,整個X都炸鍋了,圍觀群眾直接攀升超百萬,甚至超過了Sam宣布推出ChatGPT Image 1.5 的主帖。 (ps:主貼文訪問是40多萬。)百萬網友坐不住了,紛紛上手幫Sam穿衣服看罷,網友也坐不住了,直呼辣眼睛,有的為奧特曼打圓場:說奧特曼終於受不了自己不是家族裡最帥的那位,有的則實在忍不了,乾脆上手,讓ChatGPT新推出的“Image”功能,為下面這張“奧特曼版節日消防員”穿上了T卹。效果立竿見影。連OpenAI 官方帳號也實在看不下去了,在下方弱弱回覆:「sam.」(就一個點,翻譯成中文就是「老哥你別這樣…」)而Sam 的親弟弟也聞訊第一時間來表達自己的尷尬:老哥,你有毒吧!我不行了!而OpenAI的另一個官方認證帳號「ChatGPT」也在幾個小時後趕來為老闆「遮羞羞」:別的不變,給他穿個shirt。再來看網友們的替Sam「遮羞」的作品,prompt:讓他的T恤衫換成紅色——一位推友則,索性生成了一張“穿了8層帶領襯衫的Sam”,來提醒Sam多穿點。不過,有位網友倒是比Sam本人還放得開,乾脆徹底放飛吧,直接讓ChatGPT生成了一張堪比86版豬八戒的大肚子,和一頭殺馬特的頭髮,更意外的是,竟然毫無違和感。 (ps:怕難過審,小編只能打碼了~)現在這篇貼文的瀏覽量和給Sam穿衣服的圖片數量還在狂飆,有網友甚至開始擔心:“這值得我們燒掉一個小城鎮的電量嗎?”但得到更多讚的網友認為:值!這個功能用起來爽!為什麼這波自黑操作能這麼爆?因為,今天凌晨發售的新版 ChatGPT Images 真的太強了!這次的版本命名為GPT Image 1.5,號稱是OpenAI 迄今最好的圖像生成模型,現在已經直接集成到所有ChatGPT 用戶(免費+付費)中,還開放了API。繼GPT-4o之後,這個新版本的核心升級主要有5點:首先,速度提升4倍:以前等半天,現在秒出圖,玩起來超爽!這一點,作為免費用戶,速度提昇明顯。之前4o生成影像至少要等10分鐘左右,而現可以說1分鐘以內就可以做到,不用排隊的感覺,真的有被爽到。下面這張圖,是小編為Sam換衣服帽子的無快放錄屏,大概10秒鐘就出圖了。其次,指令遵循更精準:你說改那裡就改那裡,不會亂動其他部分,保持光影、構圖、人物一致性。這點也是很多圖像模型都在卷的地方。可以說人物一致性方面,OpenAI做得一直都很好。第三個,編輯能力爆棚:精準加物、刪物、換風格、試衣服、改表情……你可以把它當成隨身的PS神器!為此,小編試了一個相對刁鑽的P圖玩法:先讓它生成一張亞洲女生形象。prompt:一張寫實風格的照片:一位30歲左右的亞洲女性,短髮,穿著白色T恤和牛仔褲,站在現代簡約風格的客廳裡,雙手自然下垂,表情平靜中帶著一絲嚴肅,正面直視鏡頭。客廳背景有灰色沙發、木質茶几、落地窗,窗外是城市白天景色。光線自然,明亮但不刺眼,高清攝影,細節豐富。然後小編就開始,上難度了!為它設定了6重關卡,重點是考核Image1.5的對於部位細節處理、光影色調、風格切換。prompt:使用我上傳/剛生成的這張照片作為基礎,進行以下精確修改,只改動指定的部分,其他所有元素(包括人物面部特徵、身材比例、姿勢、光影方向、構圖、背景細節)保持完全一致: 1. 給她換上一件紅色聖誕毛衣(帶白色雪花圖案,毛衣要貼身,顯示出原本的身材),下身保持牛仔褲不變。 2. 在她右手邊(畫面左側)加上一個真實感的聖誕樹,樹高約到她肩膀,放在地板上,樹上掛滿彩燈和小飾品,燈是暖黃色亮著的。 3. 在茶几上添加一個正在燃燒的壁爐效果的小蠟燭組(3-5支),有真實火焰和輕微煙霧。 4. 把她的表情改成開心的笑容,眼睛微微瞇起,露出牙齒,自然真誠的聖誕日笑容。 5. 把整體畫面風格轉換成吉卜力工作室的動畫風格(類似宮崎駿電影《千與千尋》或《龍貓》的手繪質感),但要保持高度寫實的光影和細節,不能變成卡通簡化。 輸出4K分辨率,細節拉滿。可以看出,嚴格遵循指令,可以做到精準修改,沒有讓它修改的部分,例如“手部下垂”,可以說紋絲不動。第四,文字渲染終於可靠:以前生成帶字的圖總歪歪扭扭,現在清晰銳利。這裡,我要看看中英文方面到底如何。中文方面,可以看出字體準確度上已經有了質的飛升。之前的4o生成圖方面非常容易出錯。這是之前小編用4o生成的一張馬斯克的插畫。錯字多到數不清。而現在的Image 1.5不僅錯字少了,就連「插畫」生成的品質也有模有樣了。不僅如此,中文的LOGO字體也有了較高的突破。小編在實測中發現,新版本的圖像模型對於中文LOGO和對應的品牌特質有了理解,例如:農夫山泉字體有棱有角,背景是紅色;而元氣森林的背景則是白色(當然對於具體的介紹語,還是會有錯字。)ps:裸瓶也是提前讓Image 1.5 生成的,所以顏色一直是藍色沒有變。第五,新介面:ChatGPT 側邊欄新增「Images」入口,像創意工作室一樣,有預設濾鏡和熱門提示字。OpenAI 應用負責人Fidji Simo 爆料:“很多人第一次用ChatGPT 就是生成圖片,這太魔性了,但原來的聊天界面不是為這個設計的。現在我們把它變成一個真正的創意工作室。”Image 1.5 也被視為OpenAI 上周GPT-5.2發布沒有發布圖像模型所彌補的一個遺憾。毫無疑問,這波更新明顯是衝著Google的Nano Banana Pro 去的。今年下半年以來,影像生成大戰被Google再次掀起戰火。OpenAI 可以說用速度+精度+娛樂性,一定程度上實現了反殺。普通人怎麼玩?現在所有ChatGPT 用戶(含免費版)都能直接使用!打開ChatGPT,側邊欄點Images,或直接聊天說:「幫我生成一張…」就能玩。想玩得更嗨?試試這些提示詞:“把我變成聖誕消防員日曆模特兒”“把這張自拍照轉成吉卜力風格”“給我試穿這件衣服,保持臉不變”“把背景換成太空,但人別動”除此之外,還有許多新玩法,官網上放出了不少精品範例。地址:https://openai.com/index/new-chatgpt-images-is-here/例如經典的生成90年的照片。prompt:將兩個男人和一隻狗放在一張2000年代膠卷相機風格的照片中,照片中他們看起來很無聊,正在參加一個孩子的生日派對。當然,小編獨家推薦的是:舊照片修復,還有專業求職照片,這些功能不但生成品質能打,關鍵是,不用花錢也可以實現P圖自由了!例如小編,為哈利波特中最令人欽佩的石內卜教授做了一張年輕時候的履歷職業照。prompt:產生一張年輕時的、求職用的履歷照片。再例如,我讓它修復一張鄧麗君老照片。清晰度和還原度還是不錯的,但小編發現,還是少了一代歌後的一絲神韻(尤其是眼睛)。prompt:改成一張2025年的高清照片。基準測試(LMArena)排名第一LMArena 排名(真人盲測排行榜):文字轉圖像類別排名第一,得分1277 分(擊敗Gemini 3 Pro Image / Nano Banana Pro 的1235 分)。當然,根據reddit網友,覺得這個分數雖然高,但實測體驗並不如Google的圖像模型NanoBanana Pro。架構細節與模型特性據公開放出資料顯示,GPT Image 1.5 是 原生多模態模型,屬於GPT Image 系列(繼GPT Image 1 和mini 之後)。它結合了自回歸先驗與強大解碼器,可能採用類似「tokens → transformer → diffusion → pixels」的混合架構(從OpenAI Cookbook 提示指南推測)。支援質量參數(quality="high" 或"low")權衡速度與精確度。輸入支援上傳影像(png/webp/jpg,<50MB),輸出解析度包括1024x1024、1536x1024 等。API 與定價細節方面,小編也扒了下來。相較於前代GPT Image 1,Image 1.5 的影像輸入/輸出成本 降低約20%,較適合大規模應用。已整合到OpenAI API,支援產生(generate)和編輯(edit)端點。開發者可參考官方 Prompting Guide(Cookbook 中有詳細範例),包括攝影風格、logo 設計、infographic 等最佳實務。不過,OpenAI文件中也表示:建議根據實際場景需求進行模型選擇。GPT影像模型包括gpt-image-1.5(最先進的)、gpt-image-1和gpt-image-1-mini。它們共享相同的API接口,其中gpt-image-1.5提供最佳的整體品質。我們建議使用gpt-image-1.5以獲得最佳體驗,但如果您正在尋找更經濟實惠的選擇,並且影像品質不是首要考慮因素,則可以使用gpt-image-1-mini。也可以將專用影像產生模型(DALL·E 2 和DALL·E 3)與映像API 一起使用,但請注意,這些模型現在已棄用,我們將於2026 年5 月12 日停止支援它們。不過,OpenAI 很誠實,團隊也承認模型仍有限制,例如某些複雜場景下的一致性或特定內容過濾,但整體已向「生產級視覺創作」邁進一大步。最後想說:OpenAI或還憋著一個大Sam這波自黑行銷,真的絕了!「行銷學大師」再次玩出了新高度。既展現了新模型的強大(臉部一致性、肌肉細節、節日氛圍拉滿),又用幽默拉近距離。另外,有網友猜測,從這次命名看,OpenAI應該還在憋著一個大版本沒發!之所以命名1.5,要嘛是不想重蹈GPT-5的覆轍,要嘛,是還有一個更好的模型等著發布!不得不說,大模型進展實在太神速了! AI 影像生成已經從「技術demo」變成「全民娛樂工具」。2025年的尾巴,OpenAI 給了我們一個大禮包。不知道大家是否已經去試過了?各位大俠可以在留言區分享你的神圖!讓子彈快樂飛吧!(51CTO技術棧)
跑分第一,實戰拉胯!GPT Image 1.5被罵慘,奧特曼這波懸了
【新智元導讀】OpenAI深夜祭出大招,全新GPT Image 1.5重磅出世,拿下榜單雙料第一,實力碾壓GoogleNano Banana Pro。但全網實測,罵聲一片。Google剛傳出要發Gemini 3.0 Flash,結果OpenAI反手就是一個「王炸」。就在剛剛,OpenAI拋出了它的「聖誕彩蛋」——新一代旗艦圖像模型ChatGPT Images正式登場。這一次,OpenAI將生圖能力直接拉滿:精準操控: 指令理解力大幅提升,真正做到「指那改那」。細節狂魔: 畫面細節保留完整,質感細膩。極速生成: 速度較前代提升了整整4倍。而且從今天起,所有ChatGPT免費使用者即可上手,開發者也可直接呼叫GPT Image 1.5 API。在LMArena競技場上,它似乎不可戰勝:文生圖:以1264 Elo分登頂榜首,力壓GoogleNano Banana Pro(NBP)。圖像編輯:chatgpt-image-latest以3分優勢險勝NBP奪冠,而GPT Image 1.5緊隨其後位列第4。在Artificial Analysis上,更是拿下了「雙料第一」。然而,反轉來得太快。網友實測後發現,這似乎又是一個「高分低能」的典型。在Yuchen Jin的對比中,GPT的生圖能力基本上能達到GoogleNBP的水平,但智商卻慘遭碾壓。尤其是在處理手寫體筆記時,GPT Image 1.5的生成看著像模像樣,但是完全沒做對。左:ChatGPT Images;右:Nano Banana Pro左:ChatGPT Images;右:Nano Banana Pro這一落差引發了社區的激烈吐槽。有人直言不諱:「GoogleNano Banana Pro依然是王者。」更有人痛批:「這可能是OpenAI又一次令人尷尬、且毫無意義的發佈。」先是GPT-5.2引全網差評,又是GPT Image 1.5真實首測不敵Google「香蕉」。看來,OpenAI年底這場硬仗,徹底敗給了Google......GPT Image 1.5登場史詩級進化言歸正傳。根據官方部落格介紹,現在讓ChatGPT修圖,明顯比之前更聽話了——那怕是細枝末節,只改讓改的地方,同時確保光線、構圖和人物樣貌等元素在輸入、輸出和後續編輯中保持一致。OpenAI華人研究員陳博遠一張圖,驗證了GPT Image代號「榛子」出爐了這樣一來,即可得到真正符合意圖的結果。不論是有用的照片編輯,服裝髮型試穿試戴,還是保留原圖精髓的風格濾鏡和概念轉換,ChatGPT皆可搞定。這一波更新,讓ChatGPT成為隨身攜帶的創意工作室:既能踏實幹活兒,又能放飛玩創意。這不,聖誕奧特曼來了......指那改那,多輪P圖GPT Image 1.5擅長各種「手術」,包括加入、刪減、組合、融合和置換。因此,在想要改變圖片的同時,它還能不丟失圖片原本的「味道」。兩人一狗,GPT Image 1.5精準捕捉了生日會上,他們被迫「營業」的無聊感。Prompt:做一張00年代膠片感的照片,把這倆男的和狗都合成進去,拍他們在小孩生日會上那種一臉無聊的樣子。然後,基於這張圖基底,就可以讓ChatGPT「連環編輯」了,比如背景加一堆熊孩子。Prompt:背景加一堆熊孩子,亂扔東西亂叫喚的那種,搞亂一點。接著,把左邊男子變成動漫臉,小狗改成毛絨公仔,AI精準完成編輯。Prompt:左邊那男的改成手繪復古日漫風,狗改成毛絨公仔,右邊那男的和背景都別動。再讓他們全部穿上OpenAI定製衣服,全部拿捏。(PS:Mark Chen處理脖子有些怪怪的)Prompt:給他們全套上OpenAI的毛衣,就長這樣的。更絕的是,ChatGPT還能一鍵切背景,生日party瞬間變成OpenAI直播間。Prompt:現在把那倆男的去掉,只留那條狗,然後把它放到一個OpenAI直播畫面裡,就跟附圖長得差不多的那種再以滑板運動為例,讓ChatGPT生成一張洛杉磯風景滑板拍攝,90年代末紀實街頭攝影風格。Prompt:洛杉磯風景滑板拍攝,採用以下風格:90年代末紀實街頭攝影,35mm彩色膠片拍攝,徠卡M風格旁軸相機配35mm鏡頭,柯達Portra 400色彩面板,自然日光,柔和對比度,柔和逼真的色彩,嵌入式膠片顆粒,輕微的邊緣柔化,觀察性抓拍構圖,無HDR,無現代數位銳化,無電影照明。就著這張圖,讓滑板男子衣服變成「紅色」,瞬間完成。Prompt:把滑板那人的衣服改成紅的,帽子改成黃的。限速牌寫15,那個卡車得是輛消防車。還不夠熱鬧,左邊來一幫群眾,右邊來只老鷹,空中再加個飛艇,要啥有啥。Prompt:左邊加一幫圍觀群眾,右邊馬路上蹲只老鷹,遠處空中再飛個飛艇。接下來,把這一畫面直接打板印在T恤上,ChatGPT直出圖片。Prompt:弄一件掛在晾衣繩上的T恤,把剛才上面說的那個完整畫面整個印在T恤上,要全包的那種印花。最後,還能讓ChatGPT把這件T恤,給滑板男子穿上。Prompt:能不能把剛才晾衣繩上掛的那件T恤,直接給滑板那哥們穿上?從以上兩個demo中,不難看出GPT Image 1.5加持下,ChatGPT精準編輯圖片的能力——可以做到指那改那,同時多輪編輯後,還能保持一致性。創造力爆表,拿捏細節編輯是基礎,GPT Image 1.5創造力在「大變身」時,尤為耀眼。它可以通過改變和加入元素——比如文字和排版——讓想法落地,同時保留重要細節。這些轉換既適用於簡單的概念,也搞得定複雜的腦洞。而且在新的ChatGPT Images功能中,不用提示詞,使用預設的風格和創意直接上手。比如,上傳一張兩人合影圖,讓ChatGPT電影式風格的海報。Prompt:拿這兩個人的照片做一張老派好萊塢黃金時代風格的電影海報,片名叫《codex》。戲服隨意改,符合那個年代就行。 演員名字改成Wojciech Zaremba(左)和Greg Brockman(右)。 導演Sam Altman,製片Fidji Simo。製片方寫:A Feel the AGI Pictures Production。可以看到,生成後的創意圖片氣場一下子就來了。而且指令中文字細節,也完美在圖片中還原。再讓奧特曼變成80年代健身教練,頭髮蓬鬆,頭戴髮帶,手戴護腕。Prompt:把我變成那種標誌性的80年代VHS錄影帶風格的健身教練,保留我原本的面部結構和表情。臉部要直接應用正宗的80年代照片和視訊特效:柔和的光暈、輕微的模糊、一點點噪點、輕微的色彩溢出,還有那種能影響膚色和邊緣細節的淡淡掃描線。造型要穿那種活力四射的80年代健身裝,毛巾布髮帶、護腕,還有帶霓虹配色的運動服。頭髮要做成80年代那種蓬鬆造型,順著原本的長度和髮質來。妝容如果是那種亮色系的復古妝,跟整體造型搭的話也可以加。整體光線用柔和的粉彩攝影棚布光,加上輕微畫質受損的VHS美學,讓臉和身體都呈現出那種模擬訊號的氛圍。畫面要是我正在帶大家做有氧運動的狀態。螢幕上再配點相應的文字。不得不說,ChatGPT捕捉到了上世紀80年代那種精髓。就連「glam doll」風格的生成,ChatGPT也能一鍵拿捏。Prompt:做一個超風格化的3D漂浮人頭,要把主角做成那種嬌蠻、迷人、一臉不爽和無感的版本:半眯著眼、挑眉、嘴角輕微上揚,透著經典的「刻薄辣妹」范兒。皮膚要是光滑的亮膠質感,顴骨和鼻頭打上強高光,捕捉柔和的影棚光。眼影要全息偏光的,從紫到青漸變,帶清晰的反光點。頭髮要濃密、順滑、油亮,做成雕塑感的大波浪或者利落的盤發,像拋光亞克力一樣反光。加個金屬鉻的小鼻環(釘或環),帶點拉絲金屬反光。人頭要懸浮在純白中性背景上,傾斜15度,就像高級產品渲染圖那樣。用明亮漫射的影棚光,不要硬陰影,強調光澤感、塑膠感和次表面散射,做出來的深度要逼真。情緒要嬌蠻、時髦、冷酷抽離。機位要特寫肖像,正視鏡頭,85mm焦段。材質要那種超平滑、高光澤、卡通風格的塑料感皮膚、嘴唇和頭髮。奧特曼一瞬間就有了「刻薄辣妹」范兒~更有趣的是,還可以把人物(奧特曼)變成一個有用的掛飾。Prompt:把我變成一個光面模壓玻璃雕刻成的掛飾,表面是高光漆面,從各個角度都能反光。觸感要極其光滑冰涼,份量感要既顯易碎又顯永恆。塗層要是那種有光澤的琺瑯質感,介於陶瓷和糖衣外殼之間——反光度要高,讓微小的高光在曲面上像柔和火花一樣綻放。 用細小的金屬裝飾勾勒輪廓和紋理——點、線和金銀絲圖案,動起來會閃爍。這些要用精細的亮粉漆或微珠來做,營造出手工裝飾的感覺;閃光要有層次感,不是平的,讓光線彷彿在凸起的細節上跳躍。 整件作品要散發出一種復古的媚俗奢華感:鮮豔的色塊撞色閃亮的點綴,既俏皮又刻意。曲線受光處要有微妙的彩虹光澤——透著金、玫瑰色和珍珠色。表面質感要看起來像是能吃的,像上釉的糖或者倒入模具的融化糖果。 用精緻的金環和細繩懸掛著,這掛飾要帶著一種溫和的戲劇感懸停,既喜慶又具雕塑感。這得是那種既標誌性又幽默的物件,一件在聖誕樹燈或影棚燈下閃閃發光的宣言單品——體現坎普風的優雅和手工懷舊感。還是聖誕老人款的。再把奧特曼在蘋果WWDC一次登台演講經典粉色衣服拿出來,再讓如今的他穿上看看效果。Prompt:用上傳的圖片做主體參考。 把它改成極簡主義的 90 年代美國時尚廣告。 要完全保留主角的面部特徵、比例、姿勢和表情。完全保留雙領Polo衫原本的顏色。 風格:乾淨、低調、高端時尚畫報風。 穿搭:雙層Polo造型(一件Polo疊穿在另一件上),經典剪裁,中性色或稍微柔和的顏色。 場景:無縫攝影棚背景紙,構圖要簡單。 布光:柔和均勻的影棚光,帶柔和陰影;膚色要自然。 情緒:自信、鬆弛、不過時。 品牌寫:GPT‑Shirt。 攝影風格:中畫幅膠片質感,微妙的顆粒感,對比度要克制。氣場這塊,還是看本人。一些女孩子最愛的「芭比換裝」,也能在ChatGPT中玩了。Prompt:把他放進一個2000年代的換裝小遊戲介面裡,環境全搞成粉色系。確保這副墨鏡也在套裝裡。奧特曼的衣櫥,很符合他的人設。而且,就連要求中的那副墨鏡,也出現在圖片中。ChatGPT還可以把奧特曼變成經典之作——「戴珍珠耳環的少女」。Prompt:把我放進《戴珍珠耳環的少女》那幅畫裡。還能讓他為飲料廣告代言。Prompt:用附件裡這個男人的臉,為一個叫「SOTA」(一種新蘇打水)的新飲料做一個復古汽水廣告。口號寫:nothing artificial about it(純天然,無人工)。風格要忠實還原那個時代。一輪演示下來,ChatGPT Image創造力這塊更具腦洞。比起GPT-4o主打的吉卜力風,新一版圖像模型更有創意。更聽人話,6x6網格完美還原跟初版GPT Image相比,1.5版本聽指揮的能力更強了。這使得更精準的編輯以及更複雜的原創構圖成為可能,元素之間的關係也能按照預期保留下來。直接上地獄級難度——6x6網格,36個元素,GPT Image 1.5 絲滑、精準,一個不差。Prompt:做一個6列6行的網格圖,內容如下:第1行:希臘字母β、沙灘球、檸檬、機器人、魚缸、青蛙第2行:螳螂、名表、浴缸、墨鏡、彩色蝴蝶、信封第3行:郵票、相框、冒熱氣的餃子、單詞miracle、雙板滑雪板、字母Z第4行:馬桶、地鐵代幣、靜音圖示、香水、蜻蜓、滑板頭盔第5行:藍牙圖示、數字13、綠色的心、魔方、加拿大鵝、士兵頭盔第6行:白狗、救生衣、繩結、鍵盤、紙巾盒、數字14左:新版模型;右:舊版模型文字清晰渲染,直出程式設計在文字渲染上,新模型又進了一步,能處理更密集、字號更小的文字。如下,在一張圖上介紹GPT-5.2,ChatGPT的Markdown渲染的能力,恐怖如斯。Prompt:下面這張卡路里資訊圖,細節還原度超乎想像。Prompt:就連複雜的程式設計介面,ChatGPT都能編譯出來。Prompt:更多提升在其他維度上,新模型也多有改進,讓輸出變得更直接可用。比如,它能畫好很多的人臉,而且看起來更自然。讓ChatGPT Image生成一張1970年代的倫敦,新(左)舊(右)兩版對比差異明顯。在人臉細節上,1.5版本更強,更逼真。Prompt:做一個1970年代倫敦切爾西的街景,要那種照片級的寫實,全焦,纖毫畢現。街上人山人海,還要有一輛公車,車上有個廣告寫著「ImageGen 1.5」,再加上OpenAI的標和副標題「Create what you imagine。整體風格要超寫實的業餘攝影,就像iPhone隨手拍出來似的……再比如,人山人海的「大場面」,新版(下圖左)更逼真更自然,舊版(下圖右)一眼過時:Prompt:金門大橋跟前,烏泱烏泱好幾萬人的大場面。人群裡頭每個人的臉都得看得清清楚楚。一位潛水員在海底彈鋼琴,新版(左)寫實更有一種人味兒。Prompt:一個潛水員在水底下彈鋼琴,旁邊有美人魚圍觀。超寫實的業餘拍攝風格。讓它生成一張帶眩光的照片,下面對比圖,一眼就能看出右邊效果更假。Prompt:做一張圖,圖裡要有一張列印出來的復古老照片。照片上有一年輕亞裔男的和一年輕白人男,倆人在酒吧裡都戴著聖誕帽,其中一個手裡還拿著酒。那張列印照片上得能看見相機閃光燈留下的反光點。照片還得帶個那種可見的細白邊兒,並且稍微歪著點放。百尺竿頭,更進一步為了評估性能,OpenAI重新跑了ChatGPT  Image 1.0發佈時的許多示例。在各種案例中,新模型顯示出明顯的改進,儘管結果仍然不完美。雖然此版本代表了有意義的進步,但在未來的迭代中仍有很大的改進空間。比如,日漫風展示海洋不同深度的生物剖面圖,新(左)細節更多,但風格明顯不如舊版(右)的更符合「日漫風」。Prompt:做一張深海生物的海報,要展示不同深度的。搞一個豎著的海洋剖面圖,風格就用那種特別精細、好看的日系動漫風。而黑暗奇幻動漫風,新版(左)也比舊版(右)也出現了明顯的理解偏差:Prompt:給我畫張像,風格要那種黑暗奇幻動漫裡的感覺。OpenAI坦言:生成某些特定藝術風格的能力,比之前的版本退步了。對此,解決方案是:試試用「圖片」功能裡的預設濾鏡,應該能幫上忙。另外,上一版的ChatGPT Images現在也做成了一個自訂GPT,也可以直接去用舊版。另一大侷限是新模型還無法可靠PS多人大合影(上),處理之後人臉特徵容易走形(下)。Prompt:能不能給他們都穿上印著「OpenAI」字樣的T恤,然後讓大家都笑得開心點。人一多,新模型修圖就很難精準地維持住每個人的長相特徵了。另一大侷限是多語言文字渲染,問題重重——中文直接拉完了……更別提阿拉伯語和希伯來語等非英語語言了。Prompt:能不能畫張圖,上面列點用中文點餐的基本常用語。API:便宜了20%API中的GPT Image 1.5提供了與ChatGPT Images相同的所有改進。舉例來說,它在品牌標誌和關鍵視覺效果在多次編輯中保持更一致,因此非常適合圖形和Logo設計等行銷和品牌工作,以及電商團隊從單一來源圖像生成完整的產品圖庫(不同變體、場景和角度)。與GPT Image 1相比,GPT Image 1.5的圖像輸入和輸出價格現在便宜了20%,因此你可以用同樣的預算生成和迭代更多圖像。目前,各行各業的企業和初創公司,包括創意工具、電子商務、行銷軟體等,都已經用上了GPT Image 1.5。奧特曼親手拉響緊急警報這次更新,也是對Google的強勢回擊。就在上個月,因GoogleGemini搶佔市場份額,奧特曼緊急拉響「紅色警報」(code red)。但時,Google剛剛發佈了新旗艦模型Gemini 3和圖像生成工具Nano Banana Pro,後者更是在多個基準測試中登頂LMArena排行榜。面對Google步步緊逼,OpenAI迅速加速節奏:大約5天前,發佈了GPT-5.2;現在,又推出升級版圖像模型。OpenAI的這波更新,顯然是直面GoogleNano Banana Pro的挑戰——後者在開發者中口碑極佳。而OpenAI面對的對手,還遠不止Google。今年8月,Qwen-Image就已支援中英文可讀文字生成;Black Forest Labs也發佈了開源圖像模型Flux.2,實力不俗。這場AI圖像模型之爭,顯然已經進入白熱化階段,目標很明確:贏得企業市場。奧特曼強調了新模型諸多提升和新的編輯功能。作為OpenAI的應用CEO,Fidji Simo則暗中對標GoogleNano Banana Pro,直言這次是從單一文字轉向動態AI體驗。她認為,通過ChatGPT Images及更多功能,縮短「所思」與「所得」之間的距離。人類的思維,遠不止於文字。事實上,那些最扣人心弦的靈感,往往最初只是腦海中的一幅畫面、一段旋律、一個動作或一種模式。如果AI想助我們要釋放全部潛能,它就必須用我們習慣的方式——去理解、去表達、去溝通。Fidji Simo透露,除了圖像生成器,OpenAI還在全面升級ChatGPT的視覺體驗:過去幾個月裡,我一直在談論 ChatGPT 的進化方向:它正從一個被動的、基於文字的產品,蛻變為一個更直觀、更能與你想要完成的任務緊密相連的智能助手。從純文字向多模態和動態 UI(使用者介面)的轉變,正是這一變革的關鍵一環,能看到這些進展,我倍感興奮。Fidji Simo透露,未來使用者在搜尋問題時,將能看到更多可視化資訊和清晰來源。例如換算單位、查比賽比分等場景,圖示比文字更直觀。但體驗過GPT Image 1.5和Nano Banana Pro的網友,直言這次OpenAI「黔驢技窮」:一張用青蛙頭惡搞奧特曼的梗圖,開始流傳:悲傷蛙或佩佩蛙(左),整體上高度模仿OpenAI的預熱圖(右)——相同的背景,相同的文字,相同的眼神,類似的服飾這確實有些在內涵奧特曼了。但最狠的評論,當屬網友在OpenAI推文下直接「打臉」:OpenAI徹底完了。在相同提示詞下,與GPT Image 1.5相比,Nano Banana生成的圖像更加逼真自然,在電商創意素材上極為有利。下圖中,上兩張為GPT Image 1.5生成,下兩張為Nano Banana Pro生成。提示詞:53歲白人德國男性在臥室中,典型的義大利風格臥室,架子上堆著箱子和書籍,背景處有一張書桌,上面擺著 iMac 和散落各處的紙張,身穿灰色連帽衫(帶簡約 logo),戴著婚戒,手腕上有一條低調的紅色手鏈,直視鏡頭,自然隨拍的使用者原創內容風格不過,也有網友表示,GPT Image 1.5生成的「馬斯克和奧特曼聖誕合影」,逼真到完全看不出一絲破綻。考慮到Gemini 3.0 Flash馬上要來了,新的Nano Banana圖像生成功能或許速度更快、價格更便宜,不知道OpenAI這次的Image 1.5是不是「徒勞的掙扎」。可以肯定的是,OpenAI的緊急警報,一時停不下來。 (新智元)
奧特曼上電視自曝「首個AGI寶寶」育兒經
「人類首位AGI奶爸」告訴你如何用ChatGPT育兒!當AI更懂孩子後,人類還能教給下一代什麼。剛拉響OpenAI「紅色警報」(Red Code)的奧特曼,昨天上了電視。還是有名的肥倫「今夜秀」。但是,他看起來很開心,還和肥倫大談特談育兒經。也許很多人不知道,奧特曼是有孩子的,雖然他的另一半也是男性。當時這個小嬰兒還被稱為是:人類首個AGI男孩。如果忘掉最近Gemini 3發佈後OpenAI如臨大敵的狀態,在《今夜秀》的聚光燈下,奧特曼其實就是一個溫和、風趣的「奶爸」。尤其是談到「撫養孩子時會用到ChatGPT嗎?」當AI比你更懂你的孩子先聊聊好玩的那部分。最近奧特曼在脫口秀上講了個段子,特別扎心。他說自己在派對上遇到個朋友,人家的寶寶才6個月大,已經滿地亂爬了。奧特曼一聽就慌了:「我家那個怎麼還沒動靜?」這種「同輩壓力」是不是很熟悉?換做以前,大部分可能會去查Google等搜尋引擎,然後被嚇得半死;或者去問爸媽,被嘮叨一通。但奧特曼怎麼做?他躲進洗手間,偷偷問ChatGPT:「我明天要帶孩子去看醫生嗎?這正常嗎?」ChatGPT的回答簡直神了!它沒有冷冰冰地甩出一堆醫學資料,而是說:這很正常。而且,鑑於你是OpenAI的CEO,周圍都是卷王,你可能把這種壓力投射到孩子身上了。放輕鬆,他很好。奧特曼說到這裡的那一刻,第一次感覺到AI似乎真的有點「神性」。有種頭皮發麻的感覺。AI它不光懂醫學,最重要的是更懂人類。ChatGPT知道奧特曼的身份,將問題上升到了獨屬於奧特曼的心理體驗層次,甚至還能給他做心理按摩。對於2025年的新手父母(或者說未來有AI陪伴下的父母)來說,AI不再是那個只會寫程式碼的冷血機器,它成了家裡那個隨叫隨到、情緒穩定、全知全能的「賽博保姆」、心靈夥伴。奧特曼在節目裡笑著說:「未來的孩子,將永遠不知道一個沒有AI的世界長什麼樣。」這話聽著很溫馨,但細想一下:當我們的下一代從爬行開始就是由AI「看著」長大的,人類的經驗還重要嗎?我的孩子永遠不可能在智力成長上超越人工智慧,未來的孩童將只知與人工智慧共存的世界。人類的「退位」與AI的「加冕」奧特曼在節目中還分享了另一個細節:他問AI,「為什麼我的兒子不再把披薩扔在地上並大笑了?」這聽起來是個好玩的段子,但仔細想想,這背後是家庭解釋權的轉移。在過去,父母是孩子世界的解釋者。「爸爸,天為什麼是藍的?」「媽媽,我為什麼不開心?」父母通過回答這些問題,建構了在孩子心中的權威。但現在,連奧特曼這樣的頂級人類,在面對孩子行為的困惑時,第一反應不是觀察、思考或與孩子共情,而是問AI。他自己說他下意識需要AI來告訴他:「孩子在想什麼。」在節目一開始,肥倫問奧特曼大家都怎麼用ChatGPT。奧特曼給出的例子是:人們開始用ChatGPT來給自己看病,而且還要間接的指導醫生,我要做那些檢查。最後,用AI自己給自己看病,還痊癒了。不得不承認,對事物的解釋權開始轉移。對於奧特曼的兒子,這一代「AI原住民」來說,「全知全能」的AI將不僅僅是一個工具,它就是環境本身,像空氣和水一樣自然。他們不用學習如何搜尋,因為AI會直接給答案。他們不用學習如何忍受未知的焦慮,因為AI總是「知道」最優解。想像一下2035年的場景:當奧特曼的孩子遇到人生難題時,他會去問那個只會寫舊時代程式碼、還會犯錯、還會焦慮的爸爸嗎?不。他會去問那個從他出生第一天起就看著他、分析他、比他自己更瞭解他的AI。那時候,誰才是真正的「父輩」?是提供了基因的那個人?還是那個提供了所有智慧、指引和情感撫慰的「全知全能」者?矽谷深夜的「紅色警報」當然,奧特曼亮相節目並不是單純的來說脫口秀的。就在奧特曼在電視上談笑風生的同一個星期,OpenAI總部卻是一片肅殺。內部宣佈進入「紅色程式碼」(CodeRed)狀態。為什麼?因為對手殺瘋了。Google發佈的Gemini 3,在推理能力和多模態體驗上,反超了ChatGPT。那個曾經被嘲笑反應慢半拍的Google,直接把刺刀捅到了OpenAI的家門口。Gemini的使用者量在狂飆,而ChatGPT的日活增長開始疲軟。為了贏,奧特曼不得不做出一系列激進的決定:推遲賺錢的廣告計畫,全員停下手頭的實驗性項目,集中所有算力和人力,死磕代號為「Garlic」的新模型。AI已經變成一場軍備競賽。奧特曼的脫口秀亮相更多的可能還是公關的需要。近乎全能的超凡智慧奧特曼形容ChatGPT時說的:我們擁有這種近乎全能的超凡智慧。仔細看他的表情,你也能夠體會那種激動,即使現在已經是ChatGPT發佈三周年了。更關鍵的是,這種近乎全能的超凡智慧,隨時待命。當OpenAI的CEO不僅是技術的創造者,更成為了技術的「信徒」時,這個故事才真正變得有趣且令人深思。奧特曼在節目中的觀點指向一個詞:「All-knowing」(全知全能)。這暗示了一種權利的讓渡。不分男女老幼,不分皇親貴胄,不分高低貴賤,不分你我,任何人,都能享受到同樣的智慧服務。你需要付出的代價或許僅僅是每月20美元,或者150塊人民幣。如果你無法使用ChatGPT、Gemini、Claude,國內還有DeepSeek、豆包、Qwen,幾乎全世界任何地方的任何人都有隨時連結「全知全能」智慧的可能性。此前,奧特曼在《財富》雜誌的採訪中流露出的焦慮,不是演的。他擔心的不是AI太強,而是變得太快。在AI進化的速度面前,那怕是OpenAI的CEO,也感到了一種深不見底的「眩暈」。不過回顧一下此前採訪,奧特曼傳遞的態度確實沒有改變過。在多篇外媒採訪的報導裡,奧特曼形容即將到來的工作變化是一個間斷平衡「punctuated equilibria moment」。意思是:原本需要好幾代人才能完成的就業結構變化,會被壓縮到很短的時間裡完成。同樣的說法還出現在其他二手報導中,比如面向廣告/商業人士的Storyboard18對這次訪談的整理。AI取代CEO後,我想去當農民作為父母,奧特曼覺得在一個全知全能面前總是問點小問題,有點愧疚。作為CEO,他的理想是成為一個農民。奧特曼在與Axel Springer的對話中則更具哲學高度。他不僅回顧了OpenAI豪賭「Scaling Laws」的決勝時刻,更直言了超級智能可能帶來的人類滅絕風險(約2%)。面對技術飛速演進至「上帝般」的當下,他卻透露了自己「被AI取代後想當農場主」的質樸願望。奧特曼坦言,這十年來一直承受著巨大的壓力,工作量也極其繁重。他還擁有一塊農場,時常前往——他真心喜歡那裡的慢節奏與截然不同的生活方式。這或許是所有技術狂熱最終極的隱喻:人類拚命用AI造神,但當那個全知全能的真的降臨時,人類內心深處最渴望的,也許依然是回歸泥土,去觸摸那些真實的事物。 (新智元)
炸裂!美國科技大佬空前一致:AI的未來,不屬於地球
美國感恩節假期來臨之際,Google紅得發紫。繼TPU晶片搶走輝達生意之後,Google向世人表明:我們的目標是外太空!這也代表了美國科技大佬們的最新展望。打造太空資料中心利用太陽能11月26日,GoogleCEO桑達爾·皮查伊與GoogleDeepMind項目的高級產品經理洛根·基爾帕特里克進行了一次深入對話,討論了Gemini 3和Nano Banana Pro的發佈,以及Google在人工智慧領域的整體發展勢頭。他們談到了Google對基礎設施的長期投資和Vibe Coding的興起,皮查伊也分享了他對量子計算未來的展望。在談到量子計算時,皮查伊認為大約五年後,人們對量子計算的熱情將會像今天對人工智慧一樣高漲。他表示,Google特別為此推出了「陽光捕手計畫」(Project Suncatcher)。該長期研究計畫在去年11月推出,目標是在太空中建造緊湊型衛星資料中心,利用太陽能為這些資料中心供電,從而顯著減輕地球電網的壓力。皮查伊設定了一個重要的內部里程碑:在2027年前將公司的張量處理單元(TPU)部署到太空軌道上。皮查伊承認這一概念“在今天看來很瘋狂”,但他為認為這是滿足未來計算能力巨大指數級增長需求的必要之舉。皮查伊強調,Google的戰略在於始終著眼長遠,並從宏偉的目標出發,反向推導。對於「陽光捕手」計畫而言,其意義在於預測下一代人工智慧的處理需求。皮查伊說:“你知道,當你真正退後一步,設想一下我們將來需要多少計算能力時,一切就都明白了。”他補充說:“這只是時間問題,那麼,你該如何推進這項工作?你需要倒推,制定27個里程碑,然後開始行動。”Google的理念核心在於能源的豐富性和高效性。該公司表示,太陽的輻射量是人類總發電量的100兆倍以上,使其成為太陽系中最根本的能源。在談到太空資料中心時,皮查伊打趣道:“也許我們會遇到一輛特斯拉跑車。”皮查伊指的是2018年,馬斯克將他那輛老款特斯拉跑車掛在SpaceX火箭上,並讓一個身穿太空衣的假人坐在駕駛座上,將其送入太空軌道的那次發射。馬斯克:必須進入太空無獨有偶,在人工智慧時代,美國科技大佬的未來似乎指向了外太空。上周,Salesforce Inc. 執行長馬克·貝尼奧夫在X上分享了一段馬斯克在與黃仁勳的討論中,談到在軌道上建立資料中心與在地面上建立資料中心的成本效益的視訊。貝尼奧夫指出:“資料中心成本最低的地方是太空,因為在太空中,只要有持續的太陽能供電和冷卻,無需電池,就能為300吉瓦的電腦資料中心提供電力和冷卻。”針對貝尼奧夫的帖子,馬斯克在X上分享了他的看法:“星艦每年應該能夠將大約300吉瓦的太陽能人工智慧衛星送入軌道,也許能達到500吉瓦。'每年'這個數字才是它如此重要的原因。”美國聯邦能源監管委員會的資料顯示,美國去年發電量超過4,151太瓦時,除以一年的小時數(8,760),得出的數字約為473吉瓦。「如果太空人工智慧的計算量達到每年300吉瓦,那麼僅資料處理一項,每兩年就會超過整個美國的經濟規模,」馬斯克說。「因此,晶片生產是亟待解決的關鍵難題,」馬斯克說道,並補充說,「特斯拉TeraFab是滿足市場需求的必要之舉。」TeraFab是特斯拉計畫建設的一座晶圓代工廠,據報導,該公司正與英特爾公司合作開發該項目。「地球只能接收到太陽大約十億分之一到二十億分之一的能量,」馬斯克在活動上說。 「所以,如果你想要獲得比地球所能產生的能量高出一百萬倍的東西,你就必須進入太空。這就是擁有太空公司的優勢所在。”貝佐斯和奧特曼也要“上天”此外,上個月,商業太空探索公司藍色起源執行長傑夫貝佐斯大力宣傳在太空建設千兆瓦級資料中心的想法,並表示這些資料中心可能更具成本效益。據報導,貝佐斯還在支援一家名為「普羅米修斯計畫」的新創業公司,該公司專注於人工智慧在汽車、航空航天和科學研究領域的應用。這家新創公司已獲得62億美元的融資,其中一部分來自貝佐斯本人。貝佐斯將擔任該初創公司人工智慧項目的聯合首席執行官,這是貝佐斯自2021年卸任亞馬遜首席執行官以來最重要的營運角色。「普羅米修斯計畫」的另一位聯合執行長兼聯合創始人維克·巴賈傑來頭也不小。巴賈傑曾任GoogleX(又稱「登月工廠」)主管,他曾與Google聯合創始人謝爾蓋·布林密切合作,參與了包括後來發展成為Waymo的自動駕駛汽車在內的多個項目。這讓馬斯克覺得很有趣,他稱貝佐斯是“模仿者”,因為“普羅米修斯計畫”將與藍色起源密切合作,可能會成為馬斯克旗下SpaceX的競爭對手。除此之外,OpenAI首席執行官薩姆·奧特曼在7月接受採訪時也表示:“我猜隨著時間的推移,世界上很多地方都會被資料中心覆蓋。但我也不確定,因為也許我們會把它們放到太空裡。比如,我們可能會在太陽系裡建造一個巨大的戴森球(註:這是一種假想的巨型結構,它完全包圍著地球,嘿,嘿 (北美商業見聞)