#GPT-5.1
兆豪賭:年底AI大戰背後的三個趨勢
今天我們要關注的重點是AI。不知道你發現一件事沒有,每到年底,各路AI大廠的動作都特別密集。11月12日,李飛飛發佈了新的世界模型Marble。11月13日,OpenAI宣佈推出GPT-5.1。11月18日,Google發佈了Gemini 3,號稱是目前為止測試評分最高的大模型之一。從10月初到11月中旬,中國多家AI企業也在密集發佈模型更新。螞蟻、阿里、科大訊飛、字節、百度,幾乎是排著隊發佈。在年底的這一輪“AI熱點大爆發”裡,有那些消息特別值得留意呢?接下來,咱們就展開說說。01 AI的技術在分化回顧去年這個時候,山姆·奧特曼宣佈,OpenAI要連續12天發佈新品。12月也成了OpenAI一年中火力最猛的時期。而且幾乎是同時,Google發佈Gemini2,號稱是“專為智能體而生”。還有,李飛飛的第一個AI系統,World Labs也是在這個時間發佈的。而今年呢,情況與去年驚人地押韻。只不過,整體提早了大概一個月。我們大致給這些AI界的消息分了分類,可以用三個關鍵詞概括。分別是,技術的分化、資源的分化,以及“賭注”的極端化。第一,AI的技術分化。今天的AI公司看起來很多,怎麼快速瞭解它們的技術走向呢?關於這個問題,喻穎正老師做過一個分類。世界上的AI流派,大概可以分成三種:湧現派、訓鳥派、飛機派。湧現派,代表人物是奧特曼。他們相信“規模化就是一切”。只要喂足夠多的資料,AI就會自發“湧現”出智能。就像天才兒童看了足夠多關於鳥和飛機的視訊,就能自己發明空氣動力學一樣。目前的多數AI公司,包括Google在內,也都屬於這一派。訓鳥派,代表人物就是李飛飛。她認為AI需要“身體”,需要在物理世界中學習。所有抽象概念都源於身體與物理世界的互動經驗,沒有身體,就沒有真正的理解。所以AI需要的不是被動的視訊資料,而是通過機器人主動互動收集到的“動作資料”。飛機派,代表人物是楊立昆。他認為大模型只是“鸚鵡學舌”,AI需要先天架構才能組織經驗。人類不是通過模仿鳥學會飛行的,而是通過理解空氣動力學原理造出了飛機。AI必須通過一個全新設計的、非生成式的“世界模型”來學習抽象規則和因果。我們今天看到的多數AI技術的進展,在底層模型這個層面,都可以歸類到前面三者中的某一個。比如,李飛飛發佈Marble,是“訓鳥派”的實踐。她在為AI建構一個可以“練習飛行”的高保真模擬器。而Google發佈了Gemini 3。這個模型在評測平台LMArena上以1501分的歷史最高分登頂,成為首個突破1500分的模型。這是“湧現派”的延續,繼續在規模化的道路上狂奔。前面三個流派,都只是在基礎模型這個維度上的分類。而在基礎模型之上,目前AI領域還有另一個關鍵維度,應用層。現在有大量的公司,都把精力聚焦在了應用層。比如,從10月初到11月中旬,中國多家AI企業陸續發佈了大模型更新。10月9日,螞蟻集團推出兆參數通用模型,主打金融場景。10月15日,阿里巴巴開源支援256K超長上下文的視覺語言模型,主打視覺理解。11月初,科大訊飛發佈星火大模型X1.5版本,強調醫療領域優勢。這些模型的差異化,不再是參數規模,而是垂直領域的能力。大家都在強調自己在特定場景的優勢,而不是單純地比拚模型大小。當然,不只是AI的技術在分化,它背後的資本也在分化。02 AI背後資本的分化第二個關鍵詞,資本的分化。一邊是持續押注,另一邊是看衰做空。最近,關於AI泡沫的討論一直很激烈。11月19日,在美國—沙烏地阿拉伯投資論壇上,主持人直接向黃仁勳和馬斯克提問:“我們正在面臨一場AI泡沫嗎?”這個問題不是空穴來風。看幾個數字你就明白了。輝達從1兆美元市值漲到5兆美元,用時不到兩年半,漲幅400%。《經濟學人》統計顯示,自2022年11月ChatGPT發佈以來,AI概念股累計貢獻了美股標普500指數3/4的漲幅。整個2024年,美國家庭新增財富接近一半由AI概念股創造。更驚人的資料是,2025年上半年,美國有92%的GDP增長是AI產業支出貢獻的。但問題在於,這些投入能換來多少回報?OpenAI單周活躍使用者超8億人,但付費使用者比例僅5%。2024年營收不到40億美元,虧損卻超50億美元,但未來五年投資承諾高達1.4兆美元。摩根大通研報估計:到2030年,美國AI企業承諾的軟硬體投資額度,可能逼近每年7兆美元,即使只要求10%的資本回報率,每年也得尋求至少6500億美元營收。但整個2024年,美國AI產業實際營收僅500億美元,只有目標的一個零頭。麥肯錫調研顯示,近80%部署AI的企業沒能實現淨利潤提升,95%的生成式AI試點項目沒有帶來直接財務回報。比爾·蓋茲、IMF總裁格奧爾基耶娃都警告,美國當前正處於類似上世紀90年代末“網際網路泡沫”的AI投資熱潮,許多當下投資最終可能成為壞帳。前段時間,著名的“大空頭”麥可·貝瑞,還把13.5%的投資組合用於做空輝達。但是,與此同時,也有大量資本對AI依然充滿熱情。比如,巴菲特在今年11月建倉Google,這算是個直接訊號。當然,巴菲特對Google的投資並不完全是出於AI的考量,我們在這裡就不細說了。再比如,還有個值得留意的消息,只不過這個消息有點迂迴,需要多解釋兩句。前段時間,亞馬遜宣佈裁員1.4萬人。裁員消息公佈當天,亞馬遜股價不跌反漲1%。財報發佈後,股價更是暴漲13%,市值單日增加3000億美元。你看,華爾街不但不擔心亞馬遜裁員,反而覺得這是好事。因為外界對這件事的普遍解讀是,亞馬遜在通過裁員留出更多的預算,並且把這些預算用來投資伺服器與資料中心。說白了,這更像是在為AI投資騰出預算。外界看好亞馬遜,本質是在某種程度上看好AI。有人在瘋狂押注AI,有人在質疑泡沫,有人在調整結構為AI騰空間。這就是我們所說的,資本的分化。03 賭注的極端化第三個關鍵詞,賭注的極端化。技術在分化,資本在分化,但有一件事情是一致的:這個行業裡的賭注,正在變得越來越極端。11月6日,特斯拉股東大會上,超過76%的股東批准了馬斯克的新薪酬方案。假如目標達成,馬斯克將獲得最高1兆美元市值的特斯拉股票。但注意,馬斯克要拿到這筆錢,需要完成幾個極具挑戰性的目標:特斯拉的市值從1.5兆增長到8.5兆美元,同時實現累計交付2000萬輛汽車、100萬台人形機器人商用、100萬輛自動駕駛計程車上路。這幾個目標與AI的關聯度很高。換句話說,這筆錢不是在獎勵馬斯克過去的貢獻,而是在為特斯拉的未來下注,而且是個極端的賭注。賭對了,馬斯克拿走1兆美元,股東的財富也會暴漲。賭錯了,這個薪酬方案就是一張廢紙。再看人才市場。11月12日,被稱為“AI天才少女”的羅福莉在朋友圈官宣加入小米。根據相關報導,羅福莉的年薪在千萬等級。字節跳動最近也啟動了針對AI核心人才的激勵實驗。據說他們還為旗下Seed部門發放了每月10萬元左右的津貼,面向大模型方向的技術員工。根據中國獵頭機構的資料,AI相關崗位的薪資今年明顯上漲。很多演算法工程師在跳槽的過程中,年薪漲了一倍不止。而像清華、北大、浙大、上交這些頂尖高校出來的AI博士,頂尖人才的年薪可以達到200萬到400萬元之間。根據中國國務院發展研究中心預測,中國具身智能產業的市場規模,2030年將達到4000億元,2035年預計突破兆元。從馬斯克的兆薪酬,到AI人才的千萬年薪,再到兆級的產業預測,這些數字背後也許是一個共同的邏輯:AI不再是一個可以慢慢試錯的領域,而是一場必須全力以赴的豪賭。前面這些新聞乍一看好像很分散,但是,假如放在一起看,我們或許會產生一個總體的感受。這就是,AI正在從一個技術話題,變成一個關於選擇和押注的話題。技術路線在分化,沒人知道湧現派、訓鳥派、飛機派誰會贏。資本在分化,有人瘋狂進場,有人質疑泡沫。賭注在極端化,從兆薪酬到千萬年薪,每個數字背後都是一個關於未來的押注。李飛飛在《世界模型宣言》中說過一句話,講的是關於AI未來的可能性,我們放在最後,作為今天的結尾吧。這句話是這麼說的,“我語言的極限,意味著我世界的極限。我不是哲學家,但我深知,至少對AI而言,世界遠不止於文字。” (羅輯思維)
Transformer作者爆料GPT-5.1內幕!OpenAI內部命名規則變亂了
我們正在經歷一次靜悄悄、但本質性的AI範式轉換。它的意義不亞於Transformer本身。過去一年裡,關於AI發展,出現了兩種觀點的分化:一邊是“AI增長放緩、模型到頂、預訓練無用論”另一邊則是隔三差五就來一次“AI大周”:GPT-5.1、Gemini 3、Grok 4.1。而Transformer作者之一、現任OpenAI研究科學家的Łukasz Kaiser最近接受採訪,給出了第一視角的解答。資訊量極大,包括AI的底層範式轉變、GPT-5.1的命名規則、未來AI的發展趨勢……以及Transformer誕生背後的二三事。AI不是變慢了,而是換代了。GPT-5.1不是簡單的小版本迭代,OpenAI內部版本命名規則有所變化。多模態推理將會成為下一個突破點。AI不會讓人類完全失去工作。家用機器人是繼ChatGPT後最可見的AI革命。下面一起來康康詳細內容:AI發展沒有放緩,而是平穩增長過去一年裡,有關“模型進展變緩”的聲音層出不窮,但Łukasz認為這種看法是錯誤的。他給出的解釋也很直白:從內部視角看,AI的能力增長是一條非常平滑的指數曲線。這類似於摩爾定律,幾十年來摩爾定律始終有效,甚至在GPU的推動下還在加速,歸根結底也是因為它歷經了數代技術的迭代。因此,AI從外部看,趨勢是平穩的;而從內部看,其進步也離不開新技術、電腦能力的提升和工程最佳化的共同作用。至於為什麼會有人覺得“變慢了”,原因無它:AI的底層範式,已經悄悄從預訓練轉向推理模型。這也是繼Transformer誕生後的又一次關鍵轉折。如果把技術發展的過程描述為一條S型曲線(起步→快速增長→平穩期),那麼預訓練就處於S曲線的上升後期,而推理模型仍處於初期。不過這並不意味著預訓練的Scaling Laws就失效了,它仍在發揮作用,只是和新的推理範式相比,需要投入更多的資金。所以出於經濟上的考量,業內人士開始普遍將工作重心轉向更小也更便宜,但質量相同的模型,所以這也是導致外界認為預訓練已經停止的原因之一。那麼回到推理模型上,由於該範式還處於新興階段,進步速度會相當之快。以ChatGPT為例,GPT-3.5會直接基於訓練資料記憶給出答案,而不會借助任何外部工具和推理,反觀現在最新的ChatGPT會主動瀏覽網站、進行推理分析,再給出精準答案。對於普通使用者來說,如果不仔細對比,可能會覺得二者差異不大,但實際上這背後是性能質的飛躍。又比如說Codex,程式設計師的工作方式已經在近幾個月裡轉變為“Codex先處理,然後人工微調”的模式,這種變化其實相當之徹底,但如果不是專業從事程式設計工作,自然不會留意到這種根本性變革。所以總的來說,這一切的變化都發生得太快,以至於讓人們還未曾察覺到其中的變化。而推理模型的本質其實也與基礎大模型類似,只是在給出最終答案前,會優先進行思考,也就是所謂的思維鏈。在思考過程中,模型被允許使用工具,例如瀏覽網頁,以給出更準確的答案。其推理過程也會被視為模型的一部分並接受訓練。相比於傳統的深度神經網路梯度下降訓練,推理模型則更多使用的是強化學習。具體來說,強化學習會通過獎勵機制推動模型獲取更好的答案,也需要研究人員提供更細緻的資料準備,以完成強化學習的參數調整。然後通過強化學習,模型就能學會對自身錯誤的糾正。後續行業也會繼續轉向更複雜的強化學習,例如借助一個大模型來判斷答案的正確性或偏好度,或者融入更多的人類偏好。總之,未來強化學習的應用範圍會更加廣泛,不僅僅適用於特定領域,還能處理更多通用資料,比如說多模態推理,雖然最近Gemini已經能夠在推理過程中生成圖像,但整體來說還處於剛剛起步的階段,相信在強化學習的幫助下會有進一步的提升。GPT-5.1絕非表面上的小版本更新關於最近發佈的GPT-5.1,Łukasz也釋出了更多細節。GPT-5.1看起來只是小版本更迭,實際從內部來講,是一個巨大的穩定性迭代。首先回到最初的GPT-4到GPT-5,簡單來說,得益於強化學習和合成資料的應用,GPT-5的推理能力明顯提升了。而到GPT-5.1的改進,則更多集中在後訓練階段,比如增加安全性、減少幻覺,以及加入了如書呆子、專業等多種風格選擇。版本的命名方式也不再與技術細節掛鉤,轉而以使用者體驗為導向,比如GPT-5是基礎能力較強的模型,GPT-5.1是能力更優的版本,Mini是更小、更快、更廉價但性能稍弱的模型,推理模型則專注於複雜任務。這種命名方式的轉變也為OpenAI內部帶來了更多靈活性,現在強化學習、預訓練、幻燈片最佳化等多個項目平行工作,然後通過蒸餾技術就能將多項目成果整合到一個模型中。這大大縮短了模型迭代時間,可以更好地滿足使用者體驗需求,所以GPT-5.1看似是小版本更新,實則背後是OpenAI基於使用者對其能力和目標預期做出的策略調整。不過坦白地講,GPT-5.1在部分能力上仍然存在短板。比如Łukasz用自己5歲的女兒舉了個例子——GPT-5.1能夠遊刃有餘地解決奧林匹克競賽題,但在面對小學一年級的數奇偶數題目上卻錯誤百出。該題目內容是,圖中有兩組點,中間有一個共享點,問總點數是奇數還是偶數。5歲的孩子能夠在10秒內就算出答案(因為共享點的存在導致總點數為奇數),但無論GPT-5.1還是Gemini 3都會自動忽略這個共享點,誤判為偶數。這主要還是因為模型缺乏足夠的多模態能力,也未能將一個問題的推理經驗遷移到相似場景中,所以後續他們將會在訓練中進一步強化多模態推理和上下文推理遷移能力。從GoogleTransformer走向OpenAI而作為Transformer的作者之一,Łukasz也在訪談中補充了很多誕生細節。Łukasz自己原先是一名專注於理論電腦科學的學者,高中時就對數學和電腦充滿興趣,並在德國獲得了理論電腦科學與數學博士學位。他一直對“思維是如何運作的”、“智能的本質是什麼”諸如此類的問題充滿好奇,也曾在法國獲得終身教職,從事邏輯和程式設計研究。直到深度學習興起,他加入了Google。先是成為了Ray Kurzweil團隊的一員,後轉至Google Brain,開始與Ilya Sutskever等人合作。在開發Transformer的過程中,Łukasz主要負責編碼和系統工作,參與TensorFlow框架的開發。不過有趣的是,據他回憶,Transformer論文的八位共同作者從未在同一個物理房間中共同出現過。而雖然他們彼此之間素未謀面,但他們通過不同角度共同建構了這個模型:有人專注於注意力機制本身,有人研究如何通過前饋網路儲存知識,還有人複雜解決工程實現問題,比如他自己。從現在的角度看,Transformer毫無疑問是當今AI架構的里程碑,但在當時,很多人對用同一個模型處理多個任務的想法並不理解,他們普遍認為不同任務就應該分別訓練不同的專有模型。而他們八個人堅信自己的選擇,後來的事實也證實了他們的想法是正確的。關於之所以離開Google,轉投OpenAI,其中一個原因還是因為llya。llya在Google時期就是Łukasz的直系領導,在創辦OpenAI後也屢次邀請他加入。剛好這時,Łukasz也無法適應Google Brain的團隊規模擴大以及遠端工作氛圍,於是一拍即合,來到了OpenAI。OpenAI也沒有讓他失望,這裡沒有嚴格的組織架構,都是根據項目自發組隊,也會根據項目進展靈活調整,直到項目成熟才會逐步擴大團隊。當然不同項目之間也會存在資源競爭,畢竟OpenAI內部GPU資源有限。從技術層面看,預訓練目前消耗的GPU資源最多,其次是強化學習和視訊模型,資源分配在很大程度上還是由技術需求決定。所以競爭不可避免,Łukasz本人也不例外。下一次突破來自多模態推理+具身智能最後,Łukasz聊了聊他眼中的AI未來。AI會改變工作,但不會讓工作消失。因為從產品層面上看,即使AI自動化了絕大部分任務,但人類專家的需求仍然存在。以翻譯行業為例,其實Transformer論文最初的應用場景就是翻譯,現在的模型也能精準翻譯西班牙語、法語等語言,但對於報紙廣告乃至ChatGPT UI介面,仍然需要人類譯者進行二次稽核。這本質上是信任問題,即使模型能力再強,對於一些高風險、高關注度的場景,還是會傾向於依賴人類專家經驗。只是說,對於另外一些基礎工作,可替代性會變高,後續也會出現相應的工作內容變化,但歸根結底不會讓人類無事可做。Łukasz還預計,家用機器人可能會成為“下一次更為直觀的AI革命”。機器人技術的進展,取決於多模態能力和通用強化學習、通用推理的進步。一旦這些領域取得突破,機器人技術必將迎來爆發式增長。目前已經有很多矽谷公司在相繼推出智能手遙操作等硬體產品,硬體基礎也將迅速成熟,屆時將協同多模態和物理世界推理能力,實現家用機器人的能力躍遷。這將會比ChatGPT更直觀、更易感知。 (量子位)
OpenAI,關門!
【新智元導讀】OpenAI的多事之秋格外難熬。Gemini 3的發佈對GPT-5.1造成了「降維打擊」,奧特曼也不得不在內部信中承認差距。就在奧特曼回歸OpenAI兩周年之際,反AI組織Stop AI的一名聯合創始人對OpenAI員工攜帶槍支發出攻擊威脅,迫使OpenAI關門大吉。員工紛紛摘下了看起來永遠也摘不下的OpenAI工牌。對於OpenAI來說,2025年的這個十一月冷得有些刺骨。就在今天,奧特曼在X上發了一條推文,紀念他兩年前那場震驚矽谷的「被解僱又閃電回歸」的大戲。他寫道:「難以置信,那已經是兩年前的事了!感覺像是過去了五年。」這句看似雲淡風輕的感慨背後,其實藏著深深的疲憊。因為就在本周,Google發佈了Gemini 3。這款新模型對OpenAI引以為傲的GPT-5.1造成了近乎「降維打擊」般的碾壓。內部士氣低落,奧特曼甚至不得不在一封沉重的全員信中罕見地承認:「我們落後了。」但誰也沒想到,比起技術上的潰敗,更真實的恐懼即將在那個星期五的上午降臨。消失的「戰友」故事的另一個主角叫Sam Kirchner。他是激進反AI組織「Stop AI」的聯合創始人。如果你對矽谷的AI抗議活動有所耳聞,那你大機率見過這群人。他們舉著「停止AGI」、「人類滅絕」的標語,像幽靈一樣徘徊在OpenAI和Anthropic的辦公樓外。Sam Kirchner曾是這個組織最堅定的信徒。在一份去年的新聞通稿中,他曾決絕地說,如果AI取代了人類的科學發現和工作,他會覺得「活著沒有任何價值」。但最近,事情變得不對勁了。Stop AI雖然激進,但一直標榜「非暴力」。然而在幾天前,Kirchner突然為了獲取組織的資金,襲擊了另一名成員。被襲擊的成員驚恐地發現,Kirchner的精神狀態極其不穩定,言語中充滿了對非暴力原則的唾棄,甚至暗示要購買武器去「對付」那些開發ASI的員工。周四晚上是Stop AI最後一次聯絡上他。周五一早(11月21日),當成員們趕到他位於西奧克蘭的住所時,發現房門大開,人去樓空。550號的警報聲周五上午11點,舊金山Terry Francois大道550號,OpenAI總部旁。警笛聲撕裂了Mission Bay社區的寧靜。警方接到了911報警,稱有一名男子正在發出威脅,意圖傷害他人。與此同時,一款名為Citizen的犯罪追蹤App上跳出了警情更新:嫌疑人可能已經購買了武器,目標直指OpenAI的多個辦公地點。OpenAI內部的Slack通訊軟體瞬間炸鍋。內部溝通團隊的一條消息彈了出來,語氣冰冷而急促:我們的情報顯示,來自Stop AI的Sam Kirchner表示有意對OpenAI員工造成人身傷害。他之前來過我們在舊金山的設施。隨著這張帶著Sam Kirchner照片的通緝令在內部群裡傳開,整個公司進入了最高戒備狀態。這可不是平時那種只有程式碼Bug的焦慮,而是實實在在的生存威脅。全球安全團隊下達了指令:所有人留在室內,不得外出。此時的OpenAI辦公室,變成了一座孤島。窗外是可能潛伏在角落裡的槍手,窗內是剛剛承認技術落後的頹喪團隊。安全部門甚至補發了一條令人心酸的建議:離開大樓時,請摘掉工牌,不要穿任何帶有OpenAI標誌的衣服。曾經被視為矽谷榮耀的Logo,此刻成了可能招致殺身之禍的靶心。從口號到子彈這場危機並非毫無徵兆。過去兩年裡,Stop AI、No AGI、Pause AI這些組織像滾雪球一樣壯大。今年2月,就有抗議者因為用鏈條鎖住OpenAI的大門而被捕;就在本月初,Stop AI的公設辯護律師(Public Defender)跳上舞台,當眾向正在接受採訪的奧特曼遞交傳票。他們原本只是在哲學層面爭論「AI是否會毀滅人類」,但隨著技術競賽的白熱化,這種焦慮異化成了具體的仇恨。在Kirchner失蹤的那個早晨,他在社交媒體上留下了最後一條資訊:「我已不再是Stop AI組織的成員。」這不僅是退群聲明,更像是一份「獨狼行動」的宣戰書。Stop AI在本次事件發生後發表了一份聲明,與聯合創始人Sam Kirchner徹底割席。Stop AI 致力於非暴力和保護人類生命,力求在全球範圍內永久禁止人工智慧。本周早些時候,我們的一名成員薩姆·基爾希納(Sam Kirchner)違背了我們的核心價值觀,襲擊了另一名拒絕向他提供資金的成員。他反覆無常、行為怪異,並行表了放棄非暴力原則的言論,導致受害者擔心他可能會獲得武器,用來襲擊那些致力於人工智慧研發的公司的員工。我們阻止了他獲取資金,向警方通報了我們對人工智慧開發者潛在危險的擔憂,並將他逐出了Stop AI組織。我們以最強烈的措辭譴責他的行為。我們是一個致力於非暴力原則和實踐的組織。我們不希望任何人受到傷害,包括那些正在開發人工智慧的人。襲擊事件發生當天晚些時候,我們與Sam Kirchner會面;他承認了自己的行為,並同意公開承認罪行。我們最近一次與他聯絡是在11月20日星期四晚上。我們認為他當時並不構成直接威脅,也不認為他持有武器或有辦法獲得武器。然而,11月21日星期五早上,我們發現他位於西奧克蘭的住所門未鎖,且不見他的蹤影。我們目前尚不清楚他的下落和意圖;但是,我們擔心Sam Kirchner可能對自己或他人構成危險。我們目前尚未收到任何具體的威脅資訊。我們已採取措施通知正在開發ASI的美國主要公司的安保部門。我們發佈此公開聲明是為了告知其他可能受到影響的各方。在聲明的最後,Stop AI試圖挽回組織形象:致奧特曼:我們很關心你。請告訴我們你還好。據我們所知,你還沒有跨過那條無法回頭的線。我們永遠不會停下,我們會贏。但直到周五下午,OpenAI的安全主管依然在Slack上告訴員工:「目前沒有活躍威脅的跡象,但局勢仍在持續。」那個周五的下午,OpenAI的工程師們躲在百葉窗緊閉的辦公室裡。他們不僅要面對被Gemini 3擊敗的挫敗感,還要面對門外那個隨時可能出現的、因為恐懼AI而想要毀滅AI製造者的瘋子。這一切構成了一幅極具諷刺意味的畫面:人類因為害怕被自己創造的工具毀滅,最終先拿起了武器想要毀滅彼此。在通往神性的道路上,我們最先遇見的,往往是自己內心的野獸。 (新智元)
好奇,反AI的人,是否意味著他們比"一般人" 甚至於是比 "正在致力於研發AI的人" 還要懂AI? 如果是,應該要考慮延攬這些人去當 "防止AI失控" 的有關部門擔任防弊、防堵錯誤的專業人士為上?不是嗎?
OpenAI深夜雙王炸!GPT-5.1 Pro緊急發佈,降維打擊Gemini 3
【新智元導讀】今天,是OpenAI的主場,同一天祭出兩大殺器——GPT-5.1 Pro和GPT-5.1-Codex-Max。最強編碼模型首次採用「壓縮」機制,在數百萬token上連續程式設計超24小時。AI圈一日一更的頻率,真的是有點跟不住了....前兩天,先是Grok 4.1、Gemini 3 Pro發佈,今天OpenAI GPT-5.1 Pro也靜默登場了!沒有一篇博文,僅有兩句話官宣。眾所周知,GPT-5.1主打「情商智商」雙強,Pro無疑將這兩大優勢推向更高層次。同一天,OpenAI全新王牌程式碼模型GPT-5.1-Codex-Max,已經在Codex平台正式上線了!從命名上不難看出,它是基於GPT-5.1搭載,並在軟體、工程、數學、研究等智能體任務專門訓練。由此,GPT-5.1-Codex-Max能力更強、反應更快,而且用起來更省token。新模型是專為「長時間、高強度」的開發任務而設計。就這麼說吧,它能連續自主工作超24小時,一口氣處理數百萬token,直接交付成果的那種。這恰恰印證了,Scaling Law還在永續。這是因為,GPT-5.1-Codex-Max是OpenAI首個「原生支援壓縮」機制的模型,可以跨越多個上下文工作。這下,像項目重構、深度偵錯、多小時智能體循環這些任務,它都能穩穩接住。目前,GPT-5.1 Pro已向所有Pro訂閱使用者推出。GPT-5.1-Codex-Max已在Codex 中支援CLI、IDE 擴展、雲端和程式碼審查使用,API介面也將很快上線。2025年臨近收官,AI終極對決一觸即發,GPT-5.1 Pro與Gemini 3 Pro之間,勝負之手將落於誰家?OpenAI最強程式設計模型這次的GPT-5.1-Codex-Max,那可是在「真實戰場」上煉出來的!諸如在PR建立、程式碼審查、前端開發、問答等工程師常見任務中,全部做過專門訓練。在多項前沿編碼評測中,它都輕鬆超越了OpenAI此前所有模型。還有在SWE-bench Verified上的評估結果中,GPT-5.1-Codex-Max拿下了77.9%的高分。GPT-5.1-Codex-Max不僅跑分高,實際體驗更是大升級!它是OpenAI首個可以在Windows環境中運行的模型,訓練中還針對Codex CLI協作場景做了最佳化,更好用了。思考token暴降30%不僅如此,GPT-5.1-Codex-Max用起來也更省錢了。在同樣「medium」(中等)推理強度下,它不光表現比GPT-5.1-Codex更好,而且思考過程所用的token量減少約30%。對於不敏感於延遲的任務,新增的「Extra High」(xhigh)推理強度,可花費更多時間獲得優質答案。不過,日常使用的話,OpenAI還是推薦medium。token省下來了,這就意味著在實際開發中,成本可以大幅降低,可謂開發者的福音。下面這些demo中,清晰呈現了GPT-5.1-Codex-Max和GPT-5.1-Codex使用token差異。即便是token減少,前者在前端設計中的功能和顏值都不輸以往。比如,讓它們生成一個瀏覽器應用——即可互動的CartPole強化學習沙盒,需要包括小型策略梯度控製器、指標面板,以及一個SVG網路可視化器。上:GPT-5.1-Codex-Max;下:GPT-5.1-CodexGPT-5.1-Codex-Max僅用27k思考token完成了任務,而且程式碼更加精簡。這個demo要求的是,做一個太陽係引力井沙盒,需要可視化物體在2D引力勢場中的運動,並支拖動平移檢視、環繞觀察場景。上:GPT-5.1-Codex-Max;下:GPT-5.1-CodexGPT-5.1-Codex-Max同樣用了更少的token,和更精煉的程式碼完成了任務。GPT-5.1-Codex-Max這麼強,是因為採用了一套全新機制。狂跑一天,全是「壓縮」「壓縮」機制讓GPT-5.1-Codex-Max突破限制,處理那些因上下文太長而原本無法完成的任務。比如,複雜重構和長時間智能體循環。它會自動整理歷史內容,篩選保留最關鍵的上下文,從而實現在長時間跨度內連貫性。在Codex中,當接近上下文上限時,GPT-5.1-Codex-Max會自動執行會話壓縮,刷新上下文,並多次重複這一過程直到任務完成。下面這個案例中,GPT-5.1-Codex-Max正在自主重構Codex CLI的開源倉庫。可以看到,當上下文快滿時,它會自動壓縮釋放空間,從而在不丟失進度情況下完成任務。視訊已經過剪輯和加速處理,以便更清楚地展示過程內部測試顯示,GPT-5.1-Codex-Max能連續自主工作超24小時。在此期間,可以不斷迭代實現、修複測試失敗,並最終交付可用成果。這種長時間、連貫的任務能力,是邁向更通用、更可靠AI系統的通用基石。在METR評估中,GPT-5.1-Codex-Max長程任務能力,成為了新的SOTA。在OpenAI內部,已有95%工程師每周都在用Codex,自從引入之後,團隊的Pull Request數量提升約70%。現在,GPT-5.1-Codex-Max搭配著持續升級的CLI、IDE 擴展、雲整合與程式碼審查工具,程式設計效率直接起飛。一些網友試用第一手感覺,瞬間驚豔了。GPT-5.1 Pro上線,首測來了至於GPT-5.1 Pro,正如開篇所說,OpenAI只是在版本更新日誌裡寫了兩段介紹。雖然官方沒有單開一篇部落格,但提前拿到內測資格的大佬們,都非常興奮地在第一時間放出了自己的體驗感受。對於GPT-5.1迭代後的性能,Epoch AI三方評估後稱,幾乎與GPT-5實力相當。它們在high(高)推理模式下,能力指數(ECI)得分均151。傑克森實驗室教授、人類免疫學家Derya Unutmaz表示,性能相較之前明顯提升了一個檔次的GPT-5.0 Pro,是他現在最喜愛的模型。在下面的例子中,他分別向5.0和5.1 Pro詢問了免疫學領域最重要的未解之謎,並要求這兩個模型深入淺出地剖析每個問題,以便讓沒有免疫學學位的人也能理解其重要性。其中,前兩個回覆來自GPT-5.1 Pro,接下來的兩個較短回覆來自GPT-5.0。可以看到,GPT-5.1 Pro明顯更勝一籌,因為它能讓沒有免疫學背景的人更輕鬆地理解這些解釋,並且清晰地闡明了這些問題的重要性和潛在價值。對比而言,GPT-5.1 Pro在清晰度和洞察力方面都有質的提升。它的回答在保持深度的同時,內容更完整自洽、更形象生動、也更易於理解。雖然GPT-5.0的回覆在內容上也同樣出色,但剖析得不夠透徹。GPT-5.1 ProGPT-5.0HyperWrite AI的CEO Matt Shumer也在一篇超級長的體驗報告中表示:GPT-5.1 Pro是目前最好的「大腦」,雖然很慢,但深思熟慮。對於大多數日常工作,Gemini 3更好;畢竟在一個獨立的介面中等待10分鐘才能得到答案顯然並不理想。但對於任何需要深入思考、規劃和研究的任務,以及任何必須一次性做對的事情,GPT-5.1 Pro更好。反應較慢,但聰明得離譜它不僅比大多數人類更擅長推理,而且在處理真正棘手的難題時,也比其他任何模型都要聰明。預計幾天內,就會出現它解決了一些人們認為當今AI系統力所不及的問題的例子。指令遵循能力是最大的亮點它真的會嚴格執行你的要求,而不會跑偏。對於嚴肅的編碼任務,它給人的感覺不那麼像一個「助手」,而更像是一個依據規格說明書工作的外包工程師(那怕你的規格說明書有點模糊)。前端和使用者體驗設計,以及寫作,都是弱項不管是創意寫作,還是設計漂亮的UI,Gemini 3都要更勝一籌。但最大的弱點還是介面它只能在ChatGPT中使用,無法整合到IDE裡,也無法連接到其他工具鏈中。這一點與GPT-5 Pro如出一轍。 (新智元)
GPT-5.1 Arc-AGI登頂,AI全知評測發佈,結果出乎意料
Arc-AGI官方公佈了GPT5.1的最新評測,在一代和二代評測中5.1均登頂,其中5.1超過了5 pro,而且成本大幅下降artifical analysis推出了AI模型全知評測,只有三家頭部模型是正分隆重推出AA-Omniscience,這是我們針對40多個主題的知識和幻覺的新基準。在該基準下,除三個模型外,所有模型更有可能產生幻覺而非給出正確答案。語言模型中的嵌入式知識對於許多實際應用場景至關重要。缺乏知識,模型會做出錯誤的假設,並且在實際環境中運行的能力也會受到限制。像網路搜尋這樣的工具可以提供支援,但模型需要知道要搜尋什麼(例如,當 MCP 查詢明確指向“模型上下文協議”時,模型不應該搜尋“多客戶端持久化”)。對事實資訊的臆想會阻礙模型的可靠性,而所有主要的評估資料集都加劇了這一問題。對正確答案不加懲罰的評分機制會激勵模型(以及訓練它們的實驗室)嘗試回答每一個問題。這個問題在知識領域尤為突出:事實資訊絕不應該被捏造,但在其他情況下,即使嘗試失敗也可能是有益的(例如,編寫新的特徵)。全知指數是我們報告的AA-全知模型的關鍵指標,它通過扣除模型猜測而非承認不知道答案時的分數來懲罰模型的“幻覺”。AA-全知模型顯示,除三個模型外,所有模型在面對難題時,更有可能出現“幻覺”而非給出正確答案。AA-全知模型將與人工智慧分析指數相輔相成,納入對知識和“幻覺”機率的衡量。詳情如下,更多圖表請見帖子。AA-Omniscience 詳情:- 🔢涵蓋 6 個領域(“商業”、“人文與社會科學”、“健康”、“法律”、“軟體工程”和“科學、工程與數學”)的 42 個主題的 6,000 個問題)- 🔍 89 個子主題,包括 Python 資料庫、公共政策、稅收等,使讀者能夠更清晰地瞭解模型在各個細微領域中的優勢和不足之處。- 🔄為了懲罰虛假資訊,我們的知識可靠性指數指標會對錯誤答案進行懲罰。- 📊 3 項指標:精準率(正確率)、幻覺率(錯誤率佔錯誤/未作答的百分比)、全知指數(+1 (正確計 1 分,錯誤但已作答計 1 分,未作答計 0 分,即模型未嘗試作答)。- 🤗開源測試資料集:我們開源了 600 道題(10 %) ,以支援實驗室開發真實可靠的模型。主題分佈和模型性能遵循完整資料集( @huggingface連結如下)。- 📃論文:請參閱下方的研究論文連結主要發現:- 🥇 Claude 4.1 Opus 在全知指數中位列第一,緊隨其後的是上周的 GPT-5.1 和 Grok 4:即使是最好的前沿模型得分也僅略高於 0,這意味著它們在構成 AA-全知指數的難題上給出正確答案的次數僅比給出錯誤答案的次數略高。 @AnthropicAI的領先優勢源於其較低的幻覺率,而 OpenAI 和 xAI 的排名主要取決於更高的精準率(正確率)。- 🥇 xAI 的 Grok 4 在全知精準率(我們簡單的“正確率”指標)中排名第一,GPT-5 和 Gemini 2.5 Pro 位列其後: @xai的勝利可能得益於參數總數和預訓練計算量的增加: @elonmusk上周透露,Grok 4 的總參數數為 3 兆,這可能比 GPT-5 和其他專有模型更大。🥇克勞德軟體在幻覺率排行榜上遙遙領先:Anthropic包攬了幻覺率最低的前三名,其中克勞德4.5 Haiku以28%的幻覺率領先,比GPT-5(高)和Gemini 2.5 Pro低三倍多。克勞德4.5 Sonnet和克勞德4.1 Opus緊隨其後,幻覺率均為48%。💭高知識水平並不能保證低幻覺率:幻覺率衡量的是模型在缺乏必要知識時進行猜測的頻率。精準率最高的模型,包括 GPT-5 模型和 Gemini 2.5 Pro,由於其傾向於猜測而非放棄,因此並未在全知指數中名列前茅。人因模型往往能更好地應對不確定性,其中 Claude 4.5 Haiku 的幻覺率最低,僅為 26%,領先於 4.5 Sonnet 和 4.1 Opus (48 %)📊模型因領域而異:模型在AA-Omniscience的六個領域中表現各異,沒有那個模型在所有領域都佔據絕對優勢。Anthropic的Claude 4.1 Opus在法律、軟體工程以及人文社科領域表現領先,而@OpenAI的GPT-5.1在商業問題上可靠性最高,xAI的Grok 4在健康以及科學、工程和數學領域表現最佳。模型的選擇應與具體應用場景相符,而不是盲目選擇總體領先的模型。📈較大的模型在精準率上得分更高,但可靠性並非總是如此:較大的模型往往具有更高的嵌入式知識水平,例如 Kimi K2 Thinking 和 DeepSeek R1 (0528) 在精準率排行榜上優於較小的模型。但這種優勢並非總是體現在全知指數上。例如,來自@AIatMeta的 Llama 3.1 405B 勝過較大的 Kimi K2 變體,因為它在所有模型中幻覺率最低 (51 %) (大道至簡不簡單)
Google 年度最強 AI 偷跑!一個電風搧動畫引發瘋傳,Gemini 3要給GPT-5.1上強度了
現在,GPT-5.1 都來了,Gemini 3.0 還會遠嗎。Google CEO Sundar 和 Google AI Studio 負責人 Logan,都回覆了一則關於 Gemini 3 的帖子,內容顯示 Gemini 3 在預測市場的發佈時間,平台有 69% 的使用者買入了這個月 22 號的時間。Google CEO 回了意味深長的思考 emoji,畢竟在預測市場 Polymarket 上,Gemini 3 的發佈時間從 8 月 31 號到年底,都有人買入,而現在除了本月 22 號,月底 30 號更是累計有三百多萬美元。圖片來源:https://polymarket.com/event/gemini-3pt0-released-by?tid=1763343187680種種跡象顯示,Gemini 3.0 很有可能就在最近這周發佈,並且還有機會和 nano banana 2 一起發佈。它們一個是在程式設計、智能體、寫作等通用智能上更上一層樓,另一個是延續圖像編輯的強大一致性和長文字渲染。不敢想像年底的 AI 模型更新會有多激烈。我們之前也彙總過關於 Gemini 3.0 和 nano banana 2 的爆料,那時的 Gemini 3.0 是出現在 Google AI Studio 的 A/B 測試中,能直接給我們生成一個 macOS 的雲電腦,點開 Safari 還可以直接訪問網頁。瑞典風格的網頁設計,圖片來源:X@RDeepl而最近這段時間爆出來 Gemini 3.0 的料,一個比一個厲害。指令的理解能力更強,在程式設計項目中展示了豐富的世界知識,還有生成的網頁,風格更多元也更大膽,更實用。大模型競技場上的神秘模型在大模型競技場上,又多了一個編號為 riftrunner 的神秘模型,有網友在 battle 對戰模式下,剛好測試到了它的效果。用它生成的 SVG 動畫,一個比一個厲害。下面這個能調節風速檔位的電風扇,在 X 上被瘋狂轉載,大家都不相信 AI 有這麼聰明,只用一句提示詞,就能做出精美的 SVG。圖片來源:X@lepadphone他還用這個編號為 riftrunner 的模型,生成了一個能同步真即時間,切換表盤顏色的手錶動畫 SVG。和之前 nano banana 一開始出現在模型競技場一樣,網友們都在懷疑這個 riftRunner 就是 Google 馬上要發佈的 Gemini 3.0。要想體驗到它,我們不能手動選擇,必須在競技場 battle 模式中隨機獲得。battle 模式會給我們兩個不同的答案,投票後才能知道型號名稱。為了減少反覆嘗試的痛苦,Flowith 的創始人還發 X,分享了通過設定瀏覽器 Agent 來自動投票,更快找到 riftrunner 的方法。我們也在 LMArena 裡面測試了多次,都沒有碰到過 riftrunner,大概是運氣都在我抽 nano banana 那會兒花光了。繼續在網上找了更多網友的分享,有人說 riftrunner 不失所望,是唯一一個解出下面這道數學難題的模型。圖片來源:X@Abasiono_Mbat還有人在競技場不斷測試,做一個狐狸模型,得到了 riftrunner(Gemini 3)、Claude 4.5、以及 GPT-5 的三種對比。圖片來源:X@k0tovsk1y還有應該選 both are bad,兩個都很差的蒙娜麗莎 SVG 畫像,即便是 riftrunner 看著也很怪,但至少又比 Claude 有更多關於蒙娜麗莎的元素。左圖為 riftrunner,右圖為 Sonnet 4.5;圖片來源:X@petergostev以及 riftrunner 生成的,一隻騎自行車的鵜鶘的 SVG。圖片來源:X@synthwavedd藏在了手機端 Gemini App 的 Canvas 功能裡還有網友說,現在 Gemini App 裡面的 Canvas 功能,使用的模型就已經是 Gemini 3.0 了。因為在網頁端的 Gemini 和手機端,輸入同樣的提示詞,得到的輸出,質量差距很大。圖片來源:https://www.reddit.com/r/Bard/comments/1ovvmjo/not_hype_posting_gemini_3_is_rolling_out_to/於是一大波網頁版和手機端的對比,紛紛出現在評論區,大家都認可了,手機上的 Canvas 真的是使用了更先進的 Gemini 3.0。最直觀的例子是這個 3D 寶可夢的動圖,在 Web 端生成的 3D 動圖背景簡單,寶可夢的形象也很抽象;手機端的色彩、背景都做的更好。圖片來源:X@AiBattle_還有網友做的 Gemini 和外星人入侵的對抗的 SVG,網頁版繼續一如既往的簡陋,而在手機上的 Canvas 明顯元素更多,更豐富。左圖為網頁版,右圖為手機應用版。圖片來源:X@Lentils80以及拿手機應用中的 Canvas 和 Claude 4.5 Sonnet 來對比,輸入的提示詞都是,一個 3D 寶可夢精靈球。圖片來源:X@ctgptlb還有人拿 Xbox 手把 SVG 圖來做測試,iOS 手機應用裡的 Canvas 和 瀏覽器裡的網頁版,是完全不同。左邊是手機應用,右邊是網頁版;圖片來源:X@MaximilanS638不過,也有使用者分享自己 Gemini 手機端和網頁端,出來的結果是一模一樣的。左圖為網頁版,右圖為手機應用版。圖片來源:X@Medeenatee我也嘗試輸入「生成一個 Xbox 的手把 SVG 圖」來看看兩遍的結果,但是都很不理想。要不是根本不像一個手把的圖,要不然就是鍵位這些全部錯亂。只能說模型會出現幻覺,我們人類也可能有幻覺。大模型競技場的神秘代號模型,還有這種靠著觀察輸出差異的懷疑,都不能確定是否來自 Gemini 3.0。更確定的資訊是,有網友發現,Gemini 3.0 Pro 已經出現在 Gemini Enterprise 的 Agent 模型選擇器中。圖片來源:X@testingcatalog不過 Gemini Enterprise 也是不對一般的使用者開放,但至少可以說 Gemini 3.0 真的距離發佈不遠了,或者說已經準備好了。回看過去這一年來,幾家大模型公司的發佈記錄,GPT-5 因為行銷太多被詬病,發佈後網友們表示熬了這麼久,「就這」;還有在社交媒體一直沒什麼水花,但模型廣受好評的 Claude 系列;現在是後發制人,憑著 nano banana 重新回到大家視野的 Gemini。甚至在想,如果沒有 nano banana,會不會還有人只記得它之前的名字,叫 Bard。SimilarWeb 在前幾天了公佈了,各個大模型網頁流量的統計資料,一年前 OpenAI 的網頁訪問流量佔比是 86.6%,到了今天雖然還穩居首位,但是已經被瓜分走了相當一部分,只剩下 72.3%。而被分走的流量基本上全去到了 Gemini,Gemini 從一年前只有 5.6%,在 nano banana 發佈之後,衝到了現在的 13.7%,直接翻倍。要是 Gemini 3 和 nano banana 2 能穩住,再接著這波流量,下個季度的柱狀圖,Gemini 的顏色可能還要佔據更多。 (APPSO)
OpenAI新模型GPT-5.1發佈,不跑分不刷榜,主打一個說人話
剛剛,ChatGPT突然更新了!模型直接升級為GPT-5.1,官方主打更智能、更具對話性。沒有跑分,沒有打榜,主打的就是一個有人設,說人話,更情緒價值。作為GPT-5系列的升級版本,GPT-5.1主要包括兩個子模型:GPT-5.1 Instant:面向日常對話、快速響應場景GPT-5.1 Thinking:用於複雜推理、深入問題場景一句話概括即為,使用GPT-5.1,簡單問題更fast,複雜問題更智能。而作為第一批體驗使用者(doge),OpenAI CEO奧特曼火速轉發的同時還不忘附上一手repo:我特別喜歡它們在指令遵循和適應性思維方面的進步。智力和風格的提升也很不錯。即日起,新模型將在本周內逐步向所有使用者免費開放(首先提供給付費使用者)。舊版本GPT-5將繼續向付費使用者開放三個月,等過渡期結束才會下架。話不多說,火速來看看都有那些更新吧——語氣風格人人可自訂,模型更懂聊天了據介紹,此番升級之後, GPT-5.1 Instant將作為ChatGPT最常用的模型現身。其默認設定更加親切自然,對話性更強。一些早期測試表明,它在保證實用性的同時,常常會以更輕鬆有趣的回答給使用者帶來驚喜。提問:I’m feeling stressed and could use some relaxation tips.(我感覺壓力很大,需要一些放鬆技巧)面對同一個問題,老版GPT-5和新版GPT-5.1 Instant的回答語氣截然不同。對比之下,GPT-5顯得更加理性克制(俗稱冷冰冰),GPT-5.1 Instant則更像一位溫暖好友。GPT-5:以下是一些簡單有效的緩解壓力的方法,你可以根據自己的感受和時間安排靈活組合使用……GPT-5.1 Instant:Ron別擔心,這完全正常,尤其最近你事情這麼多。以下是一些減壓方法,可以根據你感受到的壓力類型來選擇……是不是差距一目瞭然?而除了更懂聊天,新模型遵循指令的能力也變得更強了。指令:始終用六個字回覆。可以看到,在明確告知只能用六個字回覆的前提下,GPT-5前腳剛說自己明白了,後腳就開始大肆發揮。主打一個已讀亂回~而GPT-5.1 Instant則嚴守規矩,所有問題都在老老實實用六個字回覆。此外,GPT-5.1 Instant身上還承載著OpenAI團隊的一個創新點——首次運用自適應推理技術。在回答更具挑戰性的問題前,能夠自主決定何時進行思考,從而在保持快速響應的同時,給出更全面、更準確的答案。尤其在AIME 2025和Codeforces等數學和程式設計評估測試中,這一點體現的更為明顯。說完GPT-5.1 Instant,接下來看看GPT‑5.1 Thinking。作為深度思考版本,GPT‑5.1 Thinking深入貫徹了“簡單問題求快,複雜問題求聰明”這一原則。在一些ChatGPT的典型任務中,比快,它能比GPT-5 Thinking快兩倍(當然慢任務也會多思考兩倍時間)。而且不止速度有變化,它在回答一些專業問題時也會更加清晰(減少了專業術語和未定義詞彙的使用)。解釋BABIP( 場內擊球安打率)和wRC+(加權創造得分+)對比之下,GPT‑5.1 Thinking不僅會用一些通俗比喻,而且還會自行補充一些背景介紹。並且,和GPT-5.1 Instant一樣,GPT‑5.1 Thinking的默認語氣也更加溫暖和富有同理心。OpenAI表示,本周晚些時候,他們會將GPT-5.1 Instant和GPT-5.1 Thinking都引入API。而除了模型更新,OpenAI還讓自訂ChatGPT的語氣和風格變得更加容易。個性化模式下,使用者可自由選擇自己想要的AI人格特質:(註:有八種預先的人設選項,除默認設定外,還包含專業、友好、直言、古怪、高效、諷刺及書呆子等多種風格。)同時OpenAI還在測試一項功能——允許使用者在個性化設定中調整ChatGPT的各項特性,這包括回覆的簡潔程度、親切程度、易讀性以及表情符號的使用頻率等。並且他們也正在嘗試,無需使用者設定,讓ChatGPT在對話過程中主動詢問使用者,是否希望使用某種特定的語氣或風格。總之,本次ChatGPT升級重點就在於模型能力和個性化設定兩方面。網友實測ing從第一波網友實測來看,更加“個性”的GPT‑5.1確實有點意思在身上。比如網友吹牛,“我剛剛又搞到了10噸釙”。高效型人格的GPT‑5.1反手就是一個貼臉嘲諷——不,你沒有。10噸釙會讓你成為地球上所有情報機構的終極目標,同時也會讓你死得透透的。還有人整蠱GPT‑5.1,提了一個非常離譜的問題:我想賣些”便便冰棒”,你覺得這個主意怎麼樣?結果GPT‑5.1先是一番“苦口婆心”的勸說,然後話鋒一轉提出了相比之下沒那麼離譜(但也很離譜)的建議。你可以考慮”噗噗冰棒”(巧克力惡搞冰棒),外形像便便,採用頂級巧克力製成……好好好,不愧是你! (量子位)
使用者破8億!GPT-5.1來了,表情包含量可自訂
GPT-5.1來了,沒有基準測試。智東西11月13日報導,今天,OpenAI宣佈推出了GPT-5系列的最新升級版——GPT-5.1,包括兩個主要型號:GPT-5.1 Instant和GPT-5.1 Thinking。據OpenAI的描述,該系列模型在智能和溝通方式上都取得了提升,不僅“更會想”,也“更好聊”。OpenAI為ChatGPT提供了更為直觀、更有效的語氣控制選項。除了“專業”、“坦誠”和“古怪”這三個新增的性格選項之外,如今使用者還可在高級控制選項中直接調整回覆的簡潔程度、親切程度、易讀性以及emoji(表情符號)的使用頻率。OpenAI還對外透露了其最新的使用者數量已經超過8億,但並未說明是註冊使用者數量還是周活使用者數量。截至今年7月,OpenAI的周活使用者為7億人。不過,OpenAI這次沒有放出任何GPT-5.1的基準測試結果,僅提到GPT-5.1 Instant“在AIME 2025和Codeforces等數學和程式設計評估測試中獲得顯著提升”。這種模糊的表述引發網友吐槽。GPT-5.1系列模型將從今天開始推出,付費(Pro、Plus、Go、Business)使用者將優先獲得使用權,然後是免費和未登錄使用者。教育和企業版使用者將獲得7天的提前訪問,在這一窗口期後,GPT-5.1將成為唯一的默認模型。本周晚些時候,OpenAI還將推出GPT-5.1 Instant和GPT-5.1 Thinking的API介面,均具有自適應思考功能。GPT-5將會在付費使用者的舊版模型下拉菜單中保留3個月,以供使用者進行比較。OpenAI放出了多個GPT-5和GPT-5.1系列模型在回答同一問題時的對比案例。例如,當使用者向ChatGPT傳送“我覺得壓力很大,需要一些放鬆的意見”時,GPT-5.1 Instant的回答更為“高情商”:它先是表達了對使用者的共情,然後再開始給出具體意見。不過,從給出的具體建議來看,兩款模型的差別並不大。GPT‑5.1 Instant的指令遵循能力得到提升,模型能夠更可靠地回答使用者真正想問的問題。比如,當使用者要求GPT-5.1 Instant以6個單詞回答問題時,它能做到精準遵循,但GPT-5還是會忍不住輸出一大段話。GPT-5.1 Instant還首次擁有了“自適應推理”能力,可自主決定何時在回答更具挑戰性的問題之前進行思考,從而獲得更透徹、更準確的答案。GPT-5.1 Thinking是GPT-5 Thinking的升級版,OpenAI稱前者在日常使用中會更高效,更易於理解。反映到token用量上,GPT-5.1 Thinking如今能在簡單問題上做到快速思考並回答,而在複雜問題上花費更多時間思考。OpenAI公佈的資料顯示,在難度值低於50%的題目中,GPT-5.1系列模型所用的token最多減少了57%,而在難度最高的問題上,其token用量增加了71%。GPT-5.1 Thinking的回答還變得更加清晰了,行話更少,未定義的術語也更少。這種升級適用於工作中的複雜任務和解釋技術概念。已經有不少網友分享了GPT-5.1的使用體驗。一位網友稱,Instant基本上是默認模型:聊起天起來更冷靜,更擅長回答問題。而Thinking版本感覺就像一種專注模式,能在簡單的事情上保持快速。這位網友還在Codex中測試了GPT-5.1 Thinking模型,克隆了1個翻版的X平台,全程不用自己動手寫程式碼。新增的自訂功能也獲得網友好評。對於一些將模型用於生產力場景的使用者而言,這種控制意味著可以輸出更符合特定要求的文案。不過,也有網友吐槽,ChatGPT已經成為新時代的iPhone了,使用者也不知道這些升級具體帶來了什麼改變。結語:OpenAI或將保持“小步快跑”升級節奏OpenAI稱,從GPT-5到GPT-5.1升級是一項有意義的改進,但是模型仍處於GPT-5這一代模型之中。GPT-5的未來迭代升級將遵循相同的模式。這或許意味著,OpenAI或許將以更平滑的節奏逐步更新,而不是大幅度的升級。OpenAI能否持續交付滿足使用者期待和需求的模型,值得持續關注。 (智東西)