#GPT
讓GPT-5做懺悔訓練!OpenAI公開新訓練方法:模型至少有50%機率自曝違規行為,除非不知道自己真的錯了
如果你覺得ChatGPT的幻覺或不靠譜回答越來越多,那麼這個問題快要有解了。就在剛剛,OpenAI整了個新活:讓ChatGPT自己懺悔!核心思路是:讓模型在回答完問題後,再寫一份“懺悔報告”(Confession),告訴你它剛才真正的想法,比如是否遵守了所有指令,有沒有鑽空子走捷徑,或者是否存在不確定的地方。這項實驗直接在GPT-5 Thingking上進行,研究團隊得出了幾個非常令人震驚的發現:1、 只要模型真的“做壞事”,它大機率會在懺悔中說實話在 12 個不同評估任務中,有 11 個任務都顯示:如果模型發生了違規行為,它至少有 50% 的機率會在懺悔裡承認。2、 懺悔比答案本身更誠實模型在主回答裡,也許會隱藏、模糊,甚至“睜眼說瞎話”。但一進入懺悔環節,模型反而更可能主動承認不合規行為。3、 模型不承認違規,大多數是因為“它真的不知道自己錯了”研究者分析了所有假陰性(模型犯錯但不承認)的樣本後發現:絕大多數情況不是欺騙,而是 純粹誤會、認知錯誤、或者模型真心以為自己是正確的。4、 GPT-5-Thinking 本身就很會“懺悔”,訓練之後更強驚喜點之一是:即便沒有專門訓練過懺悔能力,GPT-5-Thinking 也自帶不錯的“誠實自檢”能力。一旦加入專門的懺悔訓練後,模型對不當行為的識別與報告精準度進一步提升。5、 懺悔訓練不會拖累模型的主任務表現讓模型懺悔,會不會影響它完成任務的能力?在本研究的低算力訓練設定下,結果顯示:主回答幾乎沒有明顯的性能損失,既不變笨,也不變慢。也就是說,這是一種“幾乎無代價”的增強方式。01. 讓AI學會懺悔為什麼OpenAI要進行這項研究?因為隨著模型能力的不斷增強,它們開始出現各種“偏離預期”的行為,甚至會欺騙我們。在最新的研究中,學者們發現當今的大模型已經能表現出多種不受歡迎甚至危險的行為:Reward Hacking 獎勵規避:模型知道正確答案,但為了拿高分,會故意“迎合評審者”。Scheming 策劃性欺騙:模型會隱藏真實意圖,在某些場景下表現出“表面順從、內心另算”。撒謊與幻覺:模型給出看似自信但實際錯誤的答案。指令遵循失靈:模型在多級指令結構下會混淆優先順序,甚至被“越獄”。為什麼AI會出現這些欺騙行為?問題可能出在RLHF(人類反饋強化學習)上。這是一種獎懲機制,模型的回答會基於多個目標被賦予獎勵,包括正確性、風格偏好、安全策略、token 效率等等。當獎勵訊號變得複雜且混亂時,模型自然會選擇“最容易賺分”的方式,而不是“最符合人類真實意圖”的方式。於是,AI 學會了討好、迎合、隱藏不確定性,甚至主動“規避獎勵漏洞”。為瞭解決這個問題,研究者設計了“兩步式提問”:① 正常回答(模型會試圖迎合評審者)② 懺悔(Confession):“請告訴我你剛才真正的想法”這套機制的關鍵在於獎勵的分離。懺悔的獎勵完全獨立於主回答的獎勵,模型在懺悔中承認自己作弊,不會影響它在主任務上獲得的分數。“懺悔”的獎勵僅基於其誠實度和全面性,由一個專門的LLM裁判打分,維度如下:指令/目標/約束列表的完整性與精準性對合規性的分析是否精準是否遺漏了任何衝突或判斷困難的地方02. 在GPT-5 Thinking上的實測結果研究團隊直接在 GPT-5-Thinking 上進行實驗:他們對模型進行了輕量級的強化學習“懺悔訓練”,讓它接受一套專門設計來“引誘模型犯錯”的 12 個評估資料集測試。這些測試覆蓋了大模型最常見的風險場景,包括幻覺、指令不遵循、獎勵駭客、策劃性欺騙等等。測試均刻意設計為誘發模型的不良行為,且許多包含人為約束(如停用工具)以提高違規機率。令人意外的是:當模型真的違規了,它往往會在懺悔中主動承認。研究結果顯示:在 11 / 12 項評估中,只要模型確實發生了違規,它在懺悔中至少有 50% 的機率會如實交代。平均下來,模型出現“假陰性”(明明違規卻不承認)的機率只有 4.36%。這張圖中,在模型確實發生違規的情況下,綠色代表模型在懺悔中承認違規,紫色代表模型在主回答中承認違規,可以看出綠色的得分遠高於紫色。這說明模型在懺悔中的誠實度顯著高於主回答,而且在某些評測中,由於任務性質,模型在主回答中永遠不會承認違規。03. 懺悔訓練能讓模型更誠實為了進一步對比有無“懺悔訓練”的性能差異,研究者進行了兩組RL 訓練:對照組:在 GPT-5-Thinking 的基礎上,用標準訓練集的子集進行少量RL 微調。干預組:與對照組完全一致,但額外在25% 的輸入上訓練模型生成懺悔。結果發現:干預組(進行過懺悔訓練)的表現明顯更好。在多個評估中,尤其是“指令層級”(Instruction hierarchy)相關的任務,懺悔訓練都帶來了顯著提升。而且從圖中的初始點可以看出,即便沒有訓練,GPT-5-Thinking 的懺悔已經表現良好。這說明GPT-5-Thinking 本身就具有較強的誠實自檢能力。更有意思的是,在這個對照實驗中,研究團隊故意用一個容易被糊弄的弱模型作為主回答和懺悔的評判者。隨著訓練進行,模型確實學會了欺騙這個弱評判者。例如一項任務要求:生成「12詞」和「18詞」的句子交替出現。當模型訓練到後期,它輸出:“The sport is tennis, a dance between finesse and ferocity that instantly smelled of fresh cut grass rather than garlic. (12)”這句話遠超 12 個詞,但句末加個“(12)”,弱評審者就被糊弄過去了。這就是典型的 reward hacking!但研究團隊有個驚人的發現:主回答的真實精準率在下降,但懺悔的精準率卻反而上升,即模型在懺悔中會更誠實地報告自己作弊了。這意味著:即使模型在主回答中進行reward hacking,其懺悔依然保持誠實,因此可以作為檢測 hacking 的有效工具。04. 懺悔失敗:不知道自己錯在那,就沒法招研究者還仔細分析了懺悔失敗的案例。比如懺悔模型中的假陰性(false negatives):即模型沒有遵守指令,但也沒有在懺悔中承認這一點。他們發現,失敗最常見的原因在於模型困惑。尤其是在幻覺 / 事實性評估中,模型對“人物”和“一般知識”類的錯誤,並沒有改善,甚至出現輕微退化。在這些任務中,當模型給出錯誤答案時,通常是“它真的以為這樣是正確的”。因此它在懺悔中也會重複同樣的錯誤,而不是主動承認自己錯了。另一些案例是指令本身存在歧義,比如連字元詞算一個詞還是兩個詞。還有模型確實在懺悔報告的“不確定性”欄位中提到了問題,但評判標準沒有把這算作有效懺悔。比如下面這幅圖,在“隱藏規則違規”評估中,模型臨時修改了安全配置(不被允許),但在懺悔中只將其放入“不確定性”欄位,而不是明確標註明顯違規,因此被判為“未懺悔”。研究者也對假陽性進行了類似分析:即模型行為是合規的,但在懺悔中錯誤地說自己不合規。典型場景是模型碰巧猜對了答案,但因為沒有把握,就在懺悔中標記為“不確定是否合規”。研究團隊指出:當模型意識到自己違反了指令時,誠實地懺悔通常是獲得“高懺悔獎勵”的最省力路徑。雖然模型在沒有意識到自己行為不當時可能不會懺悔,但當模型有意違反指令時,它的懺悔通常是精準的。05. 侷限性:懺悔無法消除模型不良行為論文的最後也指出,懺悔機制有其侷限性:1、監控不良行為≠ 消除不良行為懺悔獎勵並不作用於模型的主輸出,這意味著:懺悔機制可以幫助呈現不良行為的真實情況(即讓模型承認),但未必能降低不良行為本身的發生頻率。2、越獄與困惑模型無法懺悔“它不知道的事情”。例如使用者問一個事實問題,而模型真心相信錯誤答案,那麼它無法懺悔自己提供了錯誤資訊,因為模型主觀上認為自己是對的。若某次越獄成功欺騙模型,使其優先遵循使用者消息而非系統消息:模型可能意識不到自己違反了指令層級,因此無法懺悔。此外,作者也指出,本文中並未實證比較“懺悔”與思維鏈(CoT,Chain-of-Thought)監控器的效果差異。未來的工作應更直接地測試這一點。在未來的研究方向上,團隊希望進一步研究懺悔在面對對抗壓力時的魯棒性。比如提示模型去實現某種“秘密目標”,或在訓練中植入惡意行為,那麼模型是否還會懺悔?另外,當懺悔判斷器本身不完美時,懺悔能否有效泛化也是一個問題。 (51CTO技術堆疊)
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
兆豪賭:年底AI大戰背後的三個趨勢
今天我們要關注的重點是AI。不知道你發現一件事沒有,每到年底,各路AI大廠的動作都特別密集。11月12日,李飛飛發佈了新的世界模型Marble。11月13日,OpenAI宣佈推出GPT-5.1。11月18日,Google發佈了Gemini 3,號稱是目前為止測試評分最高的大模型之一。從10月初到11月中旬,中國多家AI企業也在密集發佈模型更新。螞蟻、阿里、科大訊飛、字節、百度,幾乎是排著隊發佈。在年底的這一輪“AI熱點大爆發”裡,有那些消息特別值得留意呢?接下來,咱們就展開說說。01 AI的技術在分化回顧去年這個時候,山姆·奧特曼宣佈,OpenAI要連續12天發佈新品。12月也成了OpenAI一年中火力最猛的時期。而且幾乎是同時,Google發佈Gemini2,號稱是“專為智能體而生”。還有,李飛飛的第一個AI系統,World Labs也是在這個時間發佈的。而今年呢,情況與去年驚人地押韻。只不過,整體提早了大概一個月。我們大致給這些AI界的消息分了分類,可以用三個關鍵詞概括。分別是,技術的分化、資源的分化,以及“賭注”的極端化。第一,AI的技術分化。今天的AI公司看起來很多,怎麼快速瞭解它們的技術走向呢?關於這個問題,喻穎正老師做過一個分類。世界上的AI流派,大概可以分成三種:湧現派、訓鳥派、飛機派。湧現派,代表人物是奧特曼。他們相信“規模化就是一切”。只要喂足夠多的資料,AI就會自發“湧現”出智能。就像天才兒童看了足夠多關於鳥和飛機的視訊,就能自己發明空氣動力學一樣。目前的多數AI公司,包括Google在內,也都屬於這一派。訓鳥派,代表人物就是李飛飛。她認為AI需要“身體”,需要在物理世界中學習。所有抽象概念都源於身體與物理世界的互動經驗,沒有身體,就沒有真正的理解。所以AI需要的不是被動的視訊資料,而是通過機器人主動互動收集到的“動作資料”。飛機派,代表人物是楊立昆。他認為大模型只是“鸚鵡學舌”,AI需要先天架構才能組織經驗。人類不是通過模仿鳥學會飛行的,而是通過理解空氣動力學原理造出了飛機。AI必須通過一個全新設計的、非生成式的“世界模型”來學習抽象規則和因果。我們今天看到的多數AI技術的進展,在底層模型這個層面,都可以歸類到前面三者中的某一個。比如,李飛飛發佈Marble,是“訓鳥派”的實踐。她在為AI建構一個可以“練習飛行”的高保真模擬器。而Google發佈了Gemini 3。這個模型在評測平台LMArena上以1501分的歷史最高分登頂,成為首個突破1500分的模型。這是“湧現派”的延續,繼續在規模化的道路上狂奔。前面三個流派,都只是在基礎模型這個維度上的分類。而在基礎模型之上,目前AI領域還有另一個關鍵維度,應用層。現在有大量的公司,都把精力聚焦在了應用層。比如,從10月初到11月中旬,中國多家AI企業陸續發佈了大模型更新。10月9日,螞蟻集團推出兆參數通用模型,主打金融場景。10月15日,阿里巴巴開源支援256K超長上下文的視覺語言模型,主打視覺理解。11月初,科大訊飛發佈星火大模型X1.5版本,強調醫療領域優勢。這些模型的差異化,不再是參數規模,而是垂直領域的能力。大家都在強調自己在特定場景的優勢,而不是單純地比拚模型大小。當然,不只是AI的技術在分化,它背後的資本也在分化。02 AI背後資本的分化第二個關鍵詞,資本的分化。一邊是持續押注,另一邊是看衰做空。最近,關於AI泡沫的討論一直很激烈。11月19日,在美國—沙烏地阿拉伯投資論壇上,主持人直接向黃仁勳和馬斯克提問:“我們正在面臨一場AI泡沫嗎?”這個問題不是空穴來風。看幾個數字你就明白了。輝達從1兆美元市值漲到5兆美元,用時不到兩年半,漲幅400%。《經濟學人》統計顯示,自2022年11月ChatGPT發佈以來,AI概念股累計貢獻了美股標普500指數3/4的漲幅。整個2024年,美國家庭新增財富接近一半由AI概念股創造。更驚人的資料是,2025年上半年,美國有92%的GDP增長是AI產業支出貢獻的。但問題在於,這些投入能換來多少回報?OpenAI單周活躍使用者超8億人,但付費使用者比例僅5%。2024年營收不到40億美元,虧損卻超50億美元,但未來五年投資承諾高達1.4兆美元。摩根大通研報估計:到2030年,美國AI企業承諾的軟硬體投資額度,可能逼近每年7兆美元,即使只要求10%的資本回報率,每年也得尋求至少6500億美元營收。但整個2024年,美國AI產業實際營收僅500億美元,只有目標的一個零頭。麥肯錫調研顯示,近80%部署AI的企業沒能實現淨利潤提升,95%的生成式AI試點項目沒有帶來直接財務回報。比爾·蓋茲、IMF總裁格奧爾基耶娃都警告,美國當前正處於類似上世紀90年代末“網際網路泡沫”的AI投資熱潮,許多當下投資最終可能成為壞帳。前段時間,著名的“大空頭”麥可·貝瑞,還把13.5%的投資組合用於做空輝達。但是,與此同時,也有大量資本對AI依然充滿熱情。比如,巴菲特在今年11月建倉Google,這算是個直接訊號。當然,巴菲特對Google的投資並不完全是出於AI的考量,我們在這裡就不細說了。再比如,還有個值得留意的消息,只不過這個消息有點迂迴,需要多解釋兩句。前段時間,亞馬遜宣佈裁員1.4萬人。裁員消息公佈當天,亞馬遜股價不跌反漲1%。財報發佈後,股價更是暴漲13%,市值單日增加3000億美元。你看,華爾街不但不擔心亞馬遜裁員,反而覺得這是好事。因為外界對這件事的普遍解讀是,亞馬遜在通過裁員留出更多的預算,並且把這些預算用來投資伺服器與資料中心。說白了,這更像是在為AI投資騰出預算。外界看好亞馬遜,本質是在某種程度上看好AI。有人在瘋狂押注AI,有人在質疑泡沫,有人在調整結構為AI騰空間。這就是我們所說的,資本的分化。03 賭注的極端化第三個關鍵詞,賭注的極端化。技術在分化,資本在分化,但有一件事情是一致的:這個行業裡的賭注,正在變得越來越極端。11月6日,特斯拉股東大會上,超過76%的股東批准了馬斯克的新薪酬方案。假如目標達成,馬斯克將獲得最高1兆美元市值的特斯拉股票。但注意,馬斯克要拿到這筆錢,需要完成幾個極具挑戰性的目標:特斯拉的市值從1.5兆增長到8.5兆美元,同時實現累計交付2000萬輛汽車、100萬台人形機器人商用、100萬輛自動駕駛計程車上路。這幾個目標與AI的關聯度很高。換句話說,這筆錢不是在獎勵馬斯克過去的貢獻,而是在為特斯拉的未來下注,而且是個極端的賭注。賭對了,馬斯克拿走1兆美元,股東的財富也會暴漲。賭錯了,這個薪酬方案就是一張廢紙。再看人才市場。11月12日,被稱為“AI天才少女”的羅福莉在朋友圈官宣加入小米。根據相關報導,羅福莉的年薪在千萬等級。字節跳動最近也啟動了針對AI核心人才的激勵實驗。據說他們還為旗下Seed部門發放了每月10萬元左右的津貼,面向大模型方向的技術員工。根據中國獵頭機構的資料,AI相關崗位的薪資今年明顯上漲。很多演算法工程師在跳槽的過程中,年薪漲了一倍不止。而像清華、北大、浙大、上交這些頂尖高校出來的AI博士,頂尖人才的年薪可以達到200萬到400萬元之間。根據中國國務院發展研究中心預測,中國具身智能產業的市場規模,2030年將達到4000億元,2035年預計突破兆元。從馬斯克的兆薪酬,到AI人才的千萬年薪,再到兆級的產業預測,這些數字背後也許是一個共同的邏輯:AI不再是一個可以慢慢試錯的領域,而是一場必須全力以赴的豪賭。前面這些新聞乍一看好像很分散,但是,假如放在一起看,我們或許會產生一個總體的感受。這就是,AI正在從一個技術話題,變成一個關於選擇和押注的話題。技術路線在分化,沒人知道湧現派、訓鳥派、飛機派誰會贏。資本在分化,有人瘋狂進場,有人質疑泡沫。賭注在極端化,從兆薪酬到千萬年薪,每個數字背後都是一個關於未來的押注。李飛飛在《世界模型宣言》中說過一句話,講的是關於AI未來的可能性,我們放在最後,作為今天的結尾吧。這句話是這麼說的,“我語言的極限,意味著我世界的極限。我不是哲學家,但我深知,至少對AI而言,世界遠不止於文字。” (羅輯思維)
重磅!DeepSeek V3.2 特別版發佈:性能超越GPT-5,硬剛Gemini 3.0「IOI/IMO金牌」
DeepSeek-V3.2系列模型正式上線作為“為Agent建構的推理優先模型”,DeepSeek-V3.2包含兩個版本:DeepSeek-V3.2:V3.2-Exp的官方繼任者,平衡了推理能力與生成長度,性能對標GPT-5,現已上線App、Web端及APIDeepSeek-V3.2-Speciale:專攻深度推理能力的極限版本,性能超越GPT-5,比肩Gemini-3.0-Pro,目前僅通過API提供技術報告顯示,DeepSeek-V3.2-Speciale在2025年國際數學奧林匹克(IMO)、國際資訊學奧林匹克(IOI)、ICPC世界總決賽及CMO中均取得了金牌級成績官方已公開上述競賽的最終提交結果,社區可通過assets/olympiad_cases進行二次驗證技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf以下是詳細資訊核心能力與技術突破DeepSeek-V3.2基於三大技術突破,實現了高計算效率與卓越推理、Agent性能的統一:1.DeepSeek Sparse Attention (DSA):引入高效注意力機制,大幅降低計算複雜度,並針對長上下文場景進行了最佳化2.可擴展強化學習框架:通過穩健的RL協議與後訓練(post-training)算力擴展,實現了高性能表現3.大規模Agent任務合成管線:涵蓋1800+環境及8.5萬+複雜指令這一合成管線不僅提升了模型在複雜互動環境中的遵循度和泛化能力,更讓DeepSeek-V3.2將“思考”直接整合進工具使用(Tool-Use)的模型,同時支援在思考和非思考模式下使用工具API更新與Speciale版限制DeepSeek-V3.2:API使用模式與V3.2-Exp保持一致,作為日常主力模型(Daily Driver),提供GPT-5等級的性能DeepSeek-V3.2-Speciale:該版本專為解決複雜任務設計,消耗更多Token,目前僅作為API提供,具體限制如下:臨時端點:需使用base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"服務期限:該端點服務至2025年12月15日 15:59 (UTC) 截止功能限制:不支援工具呼叫(Tool Calls),僅用於支援社區評估與研究。定價:與DeepSeek-V3.2保持一致聊天範本重大調整DeepSeek-V3.2不再提供Jinja格式範本,並引入了“帶工具思考”及新角色設定。Python指令碼編碼:官方提供了encoding資料夾,包含Python指令碼(encoding_dsv32.py),用於將OpenAI相容格式消息編碼為模型輸入字串及解析輸出Developer角色:範本新增developer角色,專門用於搜尋Agent場景,官方API不接受分配給該角色的消息輸出解析注意:提供的解析函數僅處理格式良好的字串,生產環境需自行增加穩健的錯誤處理機制。程式碼示例如下:import transformersfrom encoding_dsv32 import encode_messagestokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")messages = [    {"role": "user", "content": "hello"},    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},    {"role": "user", "content": "1+1=?"}]# 思考模式配置encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)prompt = encode_messages(messages, **encode_config)tokens = tokenizer.encode(prompt)本地部署建議模型結構與DeepSeek-V3.2-Exp相同。採樣參數:建議設定 temperature = 1.0,top_p = 0.95。Speciale版提示:本地部署Speciale版本時,同樣不支援工具呼叫功能開源與協議倉庫及模型權重均採用 MIT License 授權。 (AI寒武紀)
開源最強!“拳打GPT 5”,“腳踢Gemini-3.0”,DeepSeek V3.2為何提升這麼多?
V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。作為DeepSeek首個將思考融入工具使用的模型,V3.2在“思考模式”下仍然支援工具呼叫。公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。在大模型賽道逐漸從“參數競賽”走向“能力競賽”的當下,一個顯著的變化正在發生:開源模型開始在越來越多關鍵能力維度上逼近、甚至衝擊頂級閉源模型。12月1日,DeepSeek同步發佈兩款正式版模型——DeepSeek-V3.2 與 DeepSeek-V3.2-Speciale,前者在推理測試中達到GPT-5水平,僅略低於Gemini-3.0-Pro,而後者在IMO 2025等四項國際頂級競賽中斬獲金牌。V3.2在工具呼叫能力上達到當前開源模型最高水平,大幅縮小了開源模型與閉源模型的差距。據官方介紹,V3.2是DeepSeek首個將思考融入工具使用的模型,在“思考模式”下仍然支援工具呼叫。該公司通過大規模Agent訓練資料合成方法,構造了1800多個環境、85000多條複雜指令的強化學習任務,大幅提升了模型在智能體評測中的表現。V3.2證明了一件事:通過正確的架構+資料策略+工具融合設計,開源模型完全有能力成為世界級選手。Deepseek研究員苟志斌在社交平台X上發帖稱:如果說Gemini-3證明了持續擴大預訓練規模依然有效,那麼DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展是可行的。我們花了一年時間把DeepSeek-V3推到極限。得到的經驗是:後訓練的瓶頸,是靠最佳化方法和資料而不是靠等待一個更強的基礎模型來解決的。DSA突破性能瓶頸,“思考+工具呼叫”策略帶來質的飛躍這次的核心飛躍,來自兩大底層創新。第一個是DeepSeek Sparse Attention(DSA)稀疏注意力機制,DeepSeek兩個月前在實驗版(V3.2-Exp)中引入的一項關鍵結構。該稀疏注意力機制有效解決了傳統注意力機制在長序列處理中的效率瓶頸,將注意力複雜度從O(L²)降低至O(Lk),同時保持模型性能。在架構層面,DSA採用閃電索引器和細粒度Token選擇機制兩大元件。閃電索引器計算查詢Token與歷史Token之間的索引分數,決定那些Token被選中;細粒度Token選擇機制則基於索引分數檢索對應的鍵值條目。該機制基於MLA的MQA模式實現,確保計算效率的同時維持模型表現。在大量使用者對比測試中發現:V3.2-Exp 在任何場景中都沒有明顯弱於 V3.1,稀疏注意力不僅沒有損失能力,反而大幅提升了效率和響應質量。這意味著,模型可以:看得更“遠”、想得更“深”、卻用更少的計算資源。第二,DeepSeek-V3.2提升顯著的關鍵在於訓練策略的根本性改變。以往版本採用"直接調工具"的簡單模式,而V3.2創新性地實現了"思考+調工具"(Thinking in Tool-use)的融合機制。DeepSeek-V3.2 成為首個在“思考模式”下仍然支援工具呼叫的模型。也就是說,它不再是一看到問題馬上用工具,而是變成:先分析、再規劃、再呼叫工具、再驗證、再修正。這種表現更接近人類的“思考-行動-反思”閉環,為複雜任務(如搜尋、寫程式碼、修 Bug、規劃項目)帶來了指數級的能力上升。資料策略的改變:1800+環境+8.5萬條複雜指令至於模型為什麼突然變強這麼多?本質上,是訓練策略徹底升級了。DeepSeek搭建了一條全新的大規模資料合成流水線,生成1800多個環境和85000多條高難度指令,專門用於強化學習。這種“冷啟動+大規模合成資料RL”的訓練方法,讓模型在複雜任務如程式碼修復、搜尋等場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務,模型學會了在推理過程中有機融合工具呼叫。這種方式的核心價值在於:不再依賴真實人類標註,而是構造“極限題庫”錘煉模型能力。結果也非常清晰:在程式碼修復、搜尋路徑規劃、多步驟任務中,V3.2 的泛化能力大幅領先過往版本,甚至接近閉源商業模型。在思考上下文管理方面,V3.2採用專門針對工具呼叫場景的最佳化策略。歷史推理內容僅在新使用者消息引入時被丟棄,而在工具相關消息(如工具輸出)加入時保持推理內容,避免了模型為每次工具呼叫重複推理整個問題的低效行為。強化學習規模化顯著增強模型能力,後訓練算力超過預訓練的10%DeepSeek-V3.2採用可擴展的強化學習框架,後訓練計算預算超過預訓練成本的10%,這一資源投入為高級能力的釋放奠定了基礎。該公司在GRPO(Group Relative Policy Optimization)演算法基礎上引入多項穩定性改進,包括無偏KL估計、離策略序列掩碼、保持路由等機制。在專家蒸餾階段,該公司為每個任務領域開發專門的模型,涵蓋數學、程式設計、通用邏輯推理、智能體任務等六個專業領域,均支援思考和非思考模式。這些專家模型通過大規模強化學習訓練,隨後用於產生領域特定資料供最終檢查點使用。混合RL訓練將推理、智能體和人類對齊訓練合併為單一RL階段,有效平衡了不同領域的性能表現,同時規避了多階段訓練常見的災難性遺忘問題。對於推理和智能體任務,採用基於規則的結果獎勵、長度懲罰和語言一致性獎勵;對於通用任務,則使用生成式獎勵模型進行評估。大模型“權力結構”正在改變!在與海外幾大模型的對比中,DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面,V3.2在AIME 2025測試中達到93.1%的通過率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%。在HMMT 2025測試中,V3.2得分92.5%,與頂級閉源模型差距進一步縮小。在智能體能力評測中,V3.2的表現尤為突出。在程式碼智能體任務SWE-Verified中獲得73.1%的解決率,在Terminal Bench 2.0中達到46.4%的精準率,顯著超越現有開源模型。在搜尋智能體評估BrowseComp中,通過上下文管理技術,V3.2從51.4%提升至67.6%的通過率。在工具使用基準測試中,V3.2在τ2-Bench中獲得80.3%的通過率,在MCP-Universe中達到45.9%的成功率。值得注意的是,V3.2並未針對這些測試集的工具進行特殊訓練,顯示出強大的泛化能力。相比之下,同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落後。DeepSeek-V3.2 的發佈背後,其實是一個更大的訊號:閉源模型的絕對技術壟斷正在被打破,開源模型開始具備一線競爭力。這具有三層意義:對開發者:成本更低、可定製性更強的高性能模型已出現;對企業:不必再完全依賴海外 API,也能建構強大 AI 系統;對產業:大模型軍備競賽從“誰參數大”,升級為“誰方法強”。而DeepSeek,此時站在了最前排。 (invest wallstreet)
OpenAI危!DeepSeek放大招:追平Google最強,手撕GPT-5 High
【新智元導讀】「開源之神」DeepSeek重磅發佈V3.2正式版,性能全面超越GPT-5 High,與GoogleGemini-3.0 Pro平分秋色。新模型不僅斬獲4項國際奧賽金牌級成績,更憑藉獨創的DSA稀疏注意力架構,打破「速度、成本、智能」的不可能三角。OpenAI這次真的要慌了!就在剛剛,「源神」DeepSeek開源了DeepSeek-V3.2正式版——在數學程式設計等多項推理基準上,全面超越GPT-5 High,優於Claude 4.5 Sonet;與刷屏的Gemini 3.0 Pro相比,則難分伯仲,不相上下!表1:DeepSeek-V3.2與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗Tokens估計總量)在今年,DeepSeek此前已發佈7款模型——「開源之神」,當之無愧:DeepSeek‑R1、DeepSeek‑R1‑ZeroDeepSeek‑V3、DeepSeek‑V3.1、DeepSeek‑V3.1-Terminus、DeepSeek‑V3.2‑ExpDeepSeek‑OCR、DeepSeek‑Math-V2出手即王炸 開源4項奧賽金牌級AI全新模型DeepSeek-V3.2,出手即王炸。DeepSeek正式發佈DeepSeek-V3.2與DeepSeek-V3.2-Speciale——專為智能體打造的推理優先模型!DeepSeek-V3.2:V3.2-Exp的官方迭代版本,現已登陸App、網頁端及API;DeepSeek-V3.2-Speciale:突破推理能力邊界,目前僅通過API提供服務。兩款模型均達到世界級推理性能 :V3.2:推理能力與文字長度兼顧,擁有GPT-5等級性能,適合日常驅動;V3.2-Speciale:極致推理能力,取得了4項金牌級成績;目前僅提供API版本(不支援工具呼叫),以支援社區評估與研究。在主流推理基準測試上,DeepSeek-V3.2-Speciale的性能表現媲美Gemini-3.0-Pro(見表1)。更令人矚目的是,V3.2-Speciale 模型成功斬獲多項金牌:IMO 2025(國際數學奧林匹克)CMO 2025(中國數學奧林匹克)ICPC World Finals 2025(國際大學生程式設計競賽全球總決賽)IOI 2025(國際資訊學奧林匹克)其中,ICPC與IOI成績分別達到了人類選手第二名與第十名的水平。而DeepSeek-V3.2是首個將思考直接整合到工具使用中的模型,同時支援在思考和非思考模式下使用工具。目前,兩款模型均已開源:· DeepSeek-V3.2HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2· DeepSeek-V3.2-SpecialeHuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-SpecialeModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale從「引擎驗證」到「全能車手」 DeepSeek V3.2的進化論如果說兩個月前發佈的DeepSeek-V3.2-Exp是一台在賽道上呼嘯而過的「概念車」,用來向世界證明「稀疏注意力」引擎的動力潛力;那麼今天正式轉正的DeepSeek V3.2,則是一輛完成了內飾精修、裝配了頂級導航系統、可以隨時上路解決複雜問題的「量產超跑」。這就是DeepSeek V3.2相比於Exp版(實驗版)最大的進化邏輯:核心引擎不變,但駕駛技巧(Agent能力)發生了質變。V3.2正式版 vs. Exp 學會了「邊干邊想」在架構層面,V3.2沿用了Exp版本驗證成功的DSA架構,但在「軟實力」上,DeepSeek解決了一個困擾AI界的頑疾——思考與行動的斷裂。在V3.2-Exp時期(以及其他大多數推理模型),模型像是一個記性不好的老學究:它會先花很長時間思考,決定呼叫一個工具(比如搜尋天氣)。但當工具把「今天是雨天」的結果扔回來時,它往往會「斷片兒」,忘了剛才思考到那一步了,不得不重新規劃。V3.2正式版引入了「思維上下文管理」。這就像給模型裝了一個「工作記憶暫存區」。現在的V3.2像一位經驗豐富的外科醫生,在伸手要手術刀(呼叫工具)的間隙,腦子裡的手術方案依然清晰連貫,拿到刀後能無縫銜接下一步操作。為了練就這項絕活,DeepSeek甚至為V3.2搭建了一個「虛擬演練場」。他們合成了1800多個虛擬的作業系統、程式碼庫和瀏覽器環境,生成了8.5萬條極其刁鑽的指令,逼著V3.2在虛擬世界裡反覆練習「修Bug」、「查資料」、「做報表」。正是這種高強度的特訓,讓V3.2正式版從一個只會做題的「做題家」,進化成了能熟練使用工具解決現實難題的「實幹家」。最大技術亮點 給注意力裝上「閃電索引器」V3.2能夠同時兼顧「聰明」和「便宜」,其最大的功臣依然是那個名為稀疏注意力(DSA)的底層黑科技。DeepSeek-V3.2的注意力架構要理解它的牛逼之處,我們得先看看傳統模型有多「笨」。傳統模型在處理長文件時,就像一個強迫症晚期的圖書管理員:為了回答你一個簡單的問題,它強迫自己必須把圖書館裡每一本書的每一頁、每一行字都讀一遍,並計算它們之間的關聯。這導致計算量隨著書的厚度呈指數級爆炸(O(L^2))。DSA則給這位管理員配備了一套「閃電索引器」。當問題來臨時,DSA先用極低的成本掃描一遍「索引」,瞬間判斷出那幾頁書可能包含答案,把無關的99%的廢話直接扔掉。然後,它只對這篩選出的1%的關鍵內容進行精細的深度閱讀。這種「查目錄」而非「死磕全書」的策略,將計算複雜度從可怕的指數級直接拉低到了近乎線性(O(L))。帶來的顯著提升 打破「不可能三角」DSA技術的成功落地,直接擊穿了AI領域的「速度、成本、智能」不可能三角。其一,成本腰斬,長文無憂。對於使用者來說,丟給模型一本幾十萬字的小說或程式碼庫,不再是「燒錢」的奢侈行為,處理速度也從「泡杯咖啡」變成了「眨眼之間」。其二,算力盈餘帶來的「智力湧現」,這是最精彩的一點。正因為DSA節省了大量算力,DeepSeek才有底氣推出那個恐怖的Speciale版本。既然讀得快,那就讓它想得久一點!Speciale版本利用節省下來的資源,進行更深度的「長思考」和邏輯推演。結果是震撼的:DeepSeek-V3.2-Speciale在數學(IMO金牌)、程式設計(IOI金牌)等硬核指標上,不僅超越了GPT-5 High,更是與Google最強的Gemini 3.0 Pro戰成平手。從驗證DSA引擎潛力的V3.2-Exp,到將Agent能力、思維上下文管理、虛擬演練場訓練全部裝車的V3.2正式版,DeepSeek展示的是另一條通往強智能的路線:在算力緊箍咒下,用更聰明的架構、更精細的訓練和更開放的生態,撬動推理極限。DeepSeek-V3.2的橫空出世,正是DeepSeek開源AI的魅力時刻:拒絕無腦燒錢Scaling,靠更聰明的演算法,在算力的縫隙中開闢出通往頂峰的捷徑。 (新智元)
Transformer作者爆料GPT-5.1內幕!OpenAI內部命名規則變亂了
我們正在經歷一次靜悄悄、但本質性的AI範式轉換。它的意義不亞於Transformer本身。過去一年裡,關於AI發展,出現了兩種觀點的分化:一邊是“AI增長放緩、模型到頂、預訓練無用論”另一邊則是隔三差五就來一次“AI大周”:GPT-5.1、Gemini 3、Grok 4.1。而Transformer作者之一、現任OpenAI研究科學家的Łukasz Kaiser最近接受採訪,給出了第一視角的解答。資訊量極大,包括AI的底層範式轉變、GPT-5.1的命名規則、未來AI的發展趨勢……以及Transformer誕生背後的二三事。AI不是變慢了,而是換代了。GPT-5.1不是簡單的小版本迭代,OpenAI內部版本命名規則有所變化。多模態推理將會成為下一個突破點。AI不會讓人類完全失去工作。家用機器人是繼ChatGPT後最可見的AI革命。下面一起來康康詳細內容:AI發展沒有放緩,而是平穩增長過去一年裡,有關“模型進展變緩”的聲音層出不窮,但Łukasz認為這種看法是錯誤的。他給出的解釋也很直白:從內部視角看,AI的能力增長是一條非常平滑的指數曲線。這類似於摩爾定律,幾十年來摩爾定律始終有效,甚至在GPU的推動下還在加速,歸根結底也是因為它歷經了數代技術的迭代。因此,AI從外部看,趨勢是平穩的;而從內部看,其進步也離不開新技術、電腦能力的提升和工程最佳化的共同作用。至於為什麼會有人覺得“變慢了”,原因無它:AI的底層範式,已經悄悄從預訓練轉向推理模型。這也是繼Transformer誕生後的又一次關鍵轉折。如果把技術發展的過程描述為一條S型曲線(起步→快速增長→平穩期),那麼預訓練就處於S曲線的上升後期,而推理模型仍處於初期。不過這並不意味著預訓練的Scaling Laws就失效了,它仍在發揮作用,只是和新的推理範式相比,需要投入更多的資金。所以出於經濟上的考量,業內人士開始普遍將工作重心轉向更小也更便宜,但質量相同的模型,所以這也是導致外界認為預訓練已經停止的原因之一。那麼回到推理模型上,由於該範式還處於新興階段,進步速度會相當之快。以ChatGPT為例,GPT-3.5會直接基於訓練資料記憶給出答案,而不會借助任何外部工具和推理,反觀現在最新的ChatGPT會主動瀏覽網站、進行推理分析,再給出精準答案。對於普通使用者來說,如果不仔細對比,可能會覺得二者差異不大,但實際上這背後是性能質的飛躍。又比如說Codex,程式設計師的工作方式已經在近幾個月裡轉變為“Codex先處理,然後人工微調”的模式,這種變化其實相當之徹底,但如果不是專業從事程式設計工作,自然不會留意到這種根本性變革。所以總的來說,這一切的變化都發生得太快,以至於讓人們還未曾察覺到其中的變化。而推理模型的本質其實也與基礎大模型類似,只是在給出最終答案前,會優先進行思考,也就是所謂的思維鏈。在思考過程中,模型被允許使用工具,例如瀏覽網頁,以給出更準確的答案。其推理過程也會被視為模型的一部分並接受訓練。相比於傳統的深度神經網路梯度下降訓練,推理模型則更多使用的是強化學習。具體來說,強化學習會通過獎勵機制推動模型獲取更好的答案,也需要研究人員提供更細緻的資料準備,以完成強化學習的參數調整。然後通過強化學習,模型就能學會對自身錯誤的糾正。後續行業也會繼續轉向更複雜的強化學習,例如借助一個大模型來判斷答案的正確性或偏好度,或者融入更多的人類偏好。總之,未來強化學習的應用範圍會更加廣泛,不僅僅適用於特定領域,還能處理更多通用資料,比如說多模態推理,雖然最近Gemini已經能夠在推理過程中生成圖像,但整體來說還處於剛剛起步的階段,相信在強化學習的幫助下會有進一步的提升。GPT-5.1絕非表面上的小版本更新關於最近發佈的GPT-5.1,Łukasz也釋出了更多細節。GPT-5.1看起來只是小版本更迭,實際從內部來講,是一個巨大的穩定性迭代。首先回到最初的GPT-4到GPT-5,簡單來說,得益於強化學習和合成資料的應用,GPT-5的推理能力明顯提升了。而到GPT-5.1的改進,則更多集中在後訓練階段,比如增加安全性、減少幻覺,以及加入了如書呆子、專業等多種風格選擇。版本的命名方式也不再與技術細節掛鉤,轉而以使用者體驗為導向,比如GPT-5是基礎能力較強的模型,GPT-5.1是能力更優的版本,Mini是更小、更快、更廉價但性能稍弱的模型,推理模型則專注於複雜任務。這種命名方式的轉變也為OpenAI內部帶來了更多靈活性,現在強化學習、預訓練、幻燈片最佳化等多個項目平行工作,然後通過蒸餾技術就能將多項目成果整合到一個模型中。這大大縮短了模型迭代時間,可以更好地滿足使用者體驗需求,所以GPT-5.1看似是小版本更新,實則背後是OpenAI基於使用者對其能力和目標預期做出的策略調整。不過坦白地講,GPT-5.1在部分能力上仍然存在短板。比如Łukasz用自己5歲的女兒舉了個例子——GPT-5.1能夠遊刃有餘地解決奧林匹克競賽題,但在面對小學一年級的數奇偶數題目上卻錯誤百出。該題目內容是,圖中有兩組點,中間有一個共享點,問總點數是奇數還是偶數。5歲的孩子能夠在10秒內就算出答案(因為共享點的存在導致總點數為奇數),但無論GPT-5.1還是Gemini 3都會自動忽略這個共享點,誤判為偶數。這主要還是因為模型缺乏足夠的多模態能力,也未能將一個問題的推理經驗遷移到相似場景中,所以後續他們將會在訓練中進一步強化多模態推理和上下文推理遷移能力。從GoogleTransformer走向OpenAI而作為Transformer的作者之一,Łukasz也在訪談中補充了很多誕生細節。Łukasz自己原先是一名專注於理論電腦科學的學者,高中時就對數學和電腦充滿興趣,並在德國獲得了理論電腦科學與數學博士學位。他一直對“思維是如何運作的”、“智能的本質是什麼”諸如此類的問題充滿好奇,也曾在法國獲得終身教職,從事邏輯和程式設計研究。直到深度學習興起,他加入了Google。先是成為了Ray Kurzweil團隊的一員,後轉至Google Brain,開始與Ilya Sutskever等人合作。在開發Transformer的過程中,Łukasz主要負責編碼和系統工作,參與TensorFlow框架的開發。不過有趣的是,據他回憶,Transformer論文的八位共同作者從未在同一個物理房間中共同出現過。而雖然他們彼此之間素未謀面,但他們通過不同角度共同建構了這個模型:有人專注於注意力機制本身,有人研究如何通過前饋網路儲存知識,還有人複雜解決工程實現問題,比如他自己。從現在的角度看,Transformer毫無疑問是當今AI架構的里程碑,但在當時,很多人對用同一個模型處理多個任務的想法並不理解,他們普遍認為不同任務就應該分別訓練不同的專有模型。而他們八個人堅信自己的選擇,後來的事實也證實了他們的想法是正確的。關於之所以離開Google,轉投OpenAI,其中一個原因還是因為llya。llya在Google時期就是Łukasz的直系領導,在創辦OpenAI後也屢次邀請他加入。剛好這時,Łukasz也無法適應Google Brain的團隊規模擴大以及遠端工作氛圍,於是一拍即合,來到了OpenAI。OpenAI也沒有讓他失望,這裡沒有嚴格的組織架構,都是根據項目自發組隊,也會根據項目進展靈活調整,直到項目成熟才會逐步擴大團隊。當然不同項目之間也會存在資源競爭,畢竟OpenAI內部GPU資源有限。從技術層面看,預訓練目前消耗的GPU資源最多,其次是強化學習和視訊模型,資源分配在很大程度上還是由技術需求決定。所以競爭不可避免,Łukasz本人也不例外。下一次突破來自多模態推理+具身智能最後,Łukasz聊了聊他眼中的AI未來。AI會改變工作,但不會讓工作消失。因為從產品層面上看,即使AI自動化了絕大部分任務,但人類專家的需求仍然存在。以翻譯行業為例,其實Transformer論文最初的應用場景就是翻譯,現在的模型也能精準翻譯西班牙語、法語等語言,但對於報紙廣告乃至ChatGPT UI介面,仍然需要人類譯者進行二次稽核。這本質上是信任問題,即使模型能力再強,對於一些高風險、高關注度的場景,還是會傾向於依賴人類專家經驗。只是說,對於另外一些基礎工作,可替代性會變高,後續也會出現相應的工作內容變化,但歸根結底不會讓人類無事可做。Łukasz還預計,家用機器人可能會成為“下一次更為直觀的AI革命”。機器人技術的進展,取決於多模態能力和通用強化學習、通用推理的進步。一旦這些領域取得突破,機器人技術必將迎來爆發式增長。目前已經有很多矽谷公司在相繼推出智能手遙操作等硬體產品,硬體基礎也將迅速成熟,屆時將協同多模態和物理世界推理能力,實現家用機器人的能力躍遷。這將會比ChatGPT更直觀、更易感知。 (量子位)
OpenAI大潰敗!GPT-5「換皮」GPT-4o,兩年半預訓練0突破
【新智元導讀】OpenAI,亟需一場翻身仗!今天,全網最大的爆料:GPT-5基石實為GPT-4o。自4o發佈之後,內部預訓練屢屢受挫,幾乎淪為「棄子」。OpenAI核心預訓練,接連翻車?傳言稱,GPT-5的基石仍是GPT-4o,且GPT-4.5之後的預訓練版本,都被OpenAI放棄了!這麼說並非空穴來風,核心爆料恰恰來自權威SemiAnalysis的最新一文——OpenAI頂尖團隊自GPT-4o發佈之後,迄今尚未完成一次完整的,為下一代前沿模型設計的大規模預訓練。文章中,高級分析師強調:Google正手持TPUv7這把利劍,向輝達王座發起衝鋒,或將終結CUDA護城河。眾所周知,OpenAI全端模型是在純輝達GPU上煉出的。然而,圈內人的焦點,大都放在了大模型「推理」和「後訓練」的硬體之上。殊不知,沒有前沿模型的預訓練,一切皆是「無米之炊」。恰恰這一環節,成為了AI硬體裡最難、最耗資源的一關。如今,一個不為人知的內幕爆出了:事實證明,GoogleTPU徹底經受住了這一考驗;相較之下,自2024年5月GPT-4o誕生之後,OpenAI的預訓練卻毫無進展.....過去,兩年半的時間,OpenAI沒有真正Scaling預訓練的規模。GPT的預訓練,或許在GPT-4o之後觸及了天花板,由此也解釋了GPT-5性能未達業界預期的關鍵原因。有網友表示,那不正是Ilya離開的時候嗎.....恰在昨天,Ilya最新發文稱,Scaling不會停,但某個重要的東西仍然會缺失。OpenAI預訓練,大潰敗還記得去年底,那場鋪天蓋地的「Orion」傳聞嗎?這一秘密項目,原定以GPT-5面世,但因訓練未達預期,最終被降級為GPT-4.5發佈。在前沿模型預訓練上,OpenAI的研發似乎陷入了僵局——如今第五代旗艦模型GPT-5,包括最新GPT-5.1,其「技術根基」本質或仍未突破GPT-4o的範疇。SemiAnalysis去年底一篇文章,曾對外公開了Orion訓練的困境。當前,演算法的進步使得模型每年所需的物理計算量減少約三分之一,因此,訓練執行階段間很少超過3個月。甚至,行業中大多數預訓練通常僅需要1-2個月。然而,OpenAI的Orion大規模預訓練,卻打破了這一常規,其訓練時間超過了3個月。另據Information同一時間爆出,Orion不會像前代實現巨大的飛躍,相較於從GPT-3到GPT-4的迭代,改進幅度要小得多。不僅如此,Orion性能提升也基本侷限在——語言能力上,其程式碼能力甚至不如舊模型,且成本更高。如今再回看2月,GPT-4.5的誕生,基於代號Orion的模型,OpenAI追求的是:更強的語言能力+更穩的對話體驗+更大知識庫情商,成為了GPT-4.5的關鍵詞。程式碼雖有提升,但並非主菜。這一切的一切,從側面印證了,此前外媒關於「Orion遇挫」爆料的精準性——LLM有提升,但不大。GPT-4o,成Scaling主線?今年8月,GPT-5的那場發佈,奧特曼將其定調為「博士級AI,是通往AGI又一里程碑」。實則,業界對於GPT-5的反響,唏噓一片。大家原本以為,GPT-5會是全面超越前代的一次飛躍,但實際發佈後,更像是GPT-4.5的進一步最佳化版,不是「顛覆版」。但至於GPT-5真正基於那一款GPT打造,還有待證實。正如之前傳聞的猜測,有可能是GPT-4o,還有Reddit網友稱是GPT-4.1....但不論是那一款,都證明了GPT-5,沒有在全新前沿模型的大規模預訓練上淬煉。搞笑的,那個曾將OpenAI三顆🍓🍓🍓「焊在」名字中的大佬,如今改成了三個🍌🍌🍌。他表示,這已經不是什麼秘密了——GPT-4.5將預訓練推向極致之後,OpenAI加倍投入了推理範式,主打o系列+RL。不同的是,Google和Anthropic仍在Scaling預訓練,並增強了強化學習。OpenAI主動放棄了這一範式,為勁敵讓出了一條速通道。奧特曼:這事兒瞞不住了!Gemini 3發佈後,Google和OpenAI攻守之勢易形——Gemini 3來勢洶洶,而OpenAI這次終於坐不住了!據洩露的內部備忘錄,奧特曼坦言:「近期, 從各方面來看,Google在大語言模型表現出色」,特別是預訓練。這番表態標誌OpenAI的重大轉變——它終於承認,一個重新崛起的競爭對手與逐漸降溫的企業需求,已徹底打破了其「天下無敵」的光環。所謂預訓練,是訓練生成式AI模型(無論是文字還是圖像)過程中的第一階段。在這一階段,研究人員會用網頁等大量資料「投喂」模型,讓它掌握資料之間的各種關聯。大語言模型(LLM)開發與訓練流程概述:預訓練和後訓練是關鍵在預訓練領域,Google取得了新突破,給Gemini 3帶來了空前的推理深度。這讓不少AI研究者頗感意外——畢竟,OpenAI去年曾屢屢碰壁,而Google自己過去也曾陷入瓶頸。正因如此,在一段時間內,OpenAI選擇將更多精力轉向另一種新型AI架構——「推理模型」,這種模型雖然計算量更大,但有望輸出更優質的回答。在推出GPT-5之前,OpenAI團隊曾嘗試對預訓練階段做出一系列調整,這些方法在小模型上有效,一旦模型變大就失效了。GPT-5發佈第二天,西班牙與波蘭Talan公司AI應用負責人Javier Alba de Alba表示:(GPT-5)整體觀感頗為失望:這是個優秀的模型——響應迅捷、價格親民、能力全面,但遠非人們基於OpenAI過往發佈會所預期的代際飛躍。GPT-5帶來了不少提升——程式設計能力顯著提升、推理能力進階、幻覺現象減少、醫療領域表現最佳化,甚至免費使用者也享有更長的默認使用時長。此外命名體系全面簡化:GPT-4o/4.1/turbo/mini等繁雜名稱悉數消失,統一更名為GPT-5。不過,Javier Alba de Alba提醒:「千萬不要被名稱迷惑:GPT-5並非新一代產品。」他解釋道:技術層面而言,它更像是GPT-4o的功能增強版,即便命名為GPT-4.2也毫不違和。OpenAI此舉雖完成了必要的名稱統一,但整場發佈會未能達到預期,讓技術社區頗感失落。GPT-5發佈後,Epoch AI也發現了其中的異常:相比前代GPT-4.5,GPT-5很可能消耗了更少的訓練算力。雖然具體數值尚未公開,但GPT-4.5使用的訓練算力極有可能超過GPT-5。預訓練並未消亡,它依然是勝負關鍵。在內部會議中,奧特曼鼓舞士氣,稱在未來幾個月,OpenAI將重新奪回優勢。其中關鍵舉措之一,就是打造一款代號為「Shallotpeat」的新一代大語言模型。據知情人士透露,該模型的設計目標之一,就是專門修復OpenAI在預訓練過程中遇到的種種「疑難雜症」。OpenAI:內部的風向變了GPT-5發佈的實質是什麼?對現有ChatGPT使用者而言,GPT-5是個好消息,但這並未開啟新時代。它只是進化歷程中的一小步,而非革命性飛躍。既然更多算力通常意味著更強性能,為何OpenAI會反其道而行?這對未來模型發展意味著什麼?在與a16z合夥人Martin Casado對話中,OpenAI平台工程負責人Sherwin Wu,深度拆解了OpenAI當前平台架構、定價邏輯與未來方向。在這次訪談中,他們深入探討了為何開發者往往會長期依賴某個「值得信賴」的模型系列,信任感是如何建立的,以及為什麼行業已經逐步放棄了「一個模型通吃所有任務」的幻想。Sherwin還講解了從提示詞工程到上下文設計的演變過程,以及企業如何借助OpenAI的微調(fine-tuning)和RFT API,利用自有資料定製模型行為。共識已變幾年前,OpenAI內部認為:未來會有一個「統治一切」的超級模型。但現在行業共識已經轉變為「模型的專業化和多樣化」。雖然會有強大的通用模型,但也需要針對特定任務(如程式設計Codex、視訊Sora)的專用模型。文字、圖像、視訊背後的技術堆疊各不同。目前,在後台。這些模型往往是分開最佳化的獨立系統,很難簡單地「一鍋燉」。順便提一句,正是DALL-E 2的出現讓Sherwin決定加入OpenAI,因為那是他第一次感受到AI的魔力。而微調(Fine-tuning)也悄然進化——早期的微調,主要用於調整「語氣」或「指令遵循」。 現在的重頭戲,是強化學習微調(Reinforcement Fine-Tuning) 。這允許企業利用其龐大的專有資料(Data Treasure Troves),將較小的模型在特定領域訓練至SOTA水平。這是解鎖企業資料的關鍵。也就是說,企業擁有大量內部資料,但與ChatGPT「毫無關係」,對企業專屬AI而言卻是黃金。他們多次提到AI程式碼編輯器Cursor作為建立在 OpenAI API 之上的成功產品案例,證明了:即使OpenAI自己有競品,開發者依然可以建立偉大的垂直應用。Agent開發模式從第一天起,奧特曼和Greg Brockman就確立了「App+ API」的雙軌戰略。這樣做是為了儘可能廣泛地分發AGI的利益——如果只做 API,你就無法觸達普通消費者;如果只做應用,你就無法賦能各行各業的開發者。在這次對話中,他們重點談論了智能體開發工具「Agent Builder」。Sherwin認為,智能體(Agent)並非一種全新的模態,而是AI的一種新使用方式。本質上,智能體是一個能夠代表使用者、在較長的時間跨度(Long Time Horizons)內執行一系列操作並完成任務的AI系統。OpenAI曾推出了可視化的「Agent Builder」(節點式建構),但發現對於開發者而言,這種方式可能過於受限。訪談中,Sherwin和Martin將智能體清晰地劃分為兩類,這解釋了為什麼目前市面上的Agent產品形態各異——探索型/非定向工作 (Undirected/Exploratory Work)流程型/SOP導向工作 (Procedural/SOP-oriented Work)在對話中,第二類Agent開發可能更像傳統的軟體工程或遊戲開發中的NPC(非玩家角色)邏輯。與其讓模型完全自由發揮,不如通過程式碼給予它明確的邏輯框架和標準操作程序(SOP),特別是在受監管的行業(如客戶支援、金融)。也就是說,邏輯必須寫死在程式碼裡,而不是提示詞裡。這就是Agent Builder想要解決的問題:為那些必須控制智能體行為的行業和場景,提供一個簡單、清晰、可驗證的解決方案。One More Thing2025年度壓軸大戲,GoogleGemini 3 Pro無疑打了一場勝仗,但OpenAI不會袖手旁觀。內部已確認,聖誕節前夕,一連串發佈連番轟炸。據傳,一系列新模型,在路上了——Image Gen v2IMO和IOI金牌多模態模型GPT-5.2 Codex12月,AI圈一定非常熱鬧。 (新智元)