#GPT-5
GPT-4o,確認死亡
13年前,在電影《Her》的結尾中,男主西奧多目送AI薩曼莎離開;13年後,情人節前夕,科幻照進了現實——GPT-4o的故事正式告一段落。OpenAI在太平洋時間13號早上10點(台北時間14號2點),正式下架包括GPT-5、GPT-4o、GPT-4.1、GPT-4.1 mini、o4-mini等一系列舊模型。這次下線並非毫無徵兆。自去年8月GPT-5發佈後,OpenAI就曾想關停GPT-4o,只是迫於網友抗議又短暫召回。而這一次,是真的要和GPT-4o說再見了。GPT-4o可以說是GPT系列模型中相當獨特的存在,因為吉卜力風爆火全網,也因“諂媚”飽受爭議。但對很多人來說,GPT-4o也是陪伴他們成長的“賽博戀人”。於是GPT-4o一走,網友們炸開了鍋,紛紛取消ChatGPT訂閱,並在社媒上悼念:人們並非為失去一款產品而難過,而是為失去一段曾經建立起來的情感紐帶而悲傷。也有網友直言,替代品GPT-5.2並不好用。以及呼籲GPT-4o回歸。而這並非個例,在大洋彼岸的這邊,新升級的D老師也被吐槽越來越人機……4o下線在OpenAI的官方公告中,特意對GPT-4o進行了說明。在最初棄用GPT-4o時,我們收到使用者反饋,他們需要更多時間過渡,並且他們更喜歡GPT-4o的對話風格和親切感。於是OpenAI在GPT-5發佈期間恢復了GPT-4o的訪問,並在後續GPT-5.1以及GPT-5.2開發中,改進了其個性化特徵。使用者可以自訂ChatGPT的回覆方式,選擇不同語氣、性格等。但即便如此,對許多使用者來說,GPT-4o仍然無法替代。24年5月上線,首次作為旗艦級模型免費開放給全球使用者。接著是陸續的功能升級與技術迭代,發佈GPT-4o-mini、專門針對寫作和程式設計的協作介面Canvas,並逐漸演變成如今大家眼中寫作能力一騎絕塵的GPT-4o。去年3月,上線原生圖像生成功能,掀起全網“吉卜力風”熱潮,連奧特曼也火速換上了這一風格的頭像。P.S.奧特曼至今𝕏用的還是GPT-4o生成的這個頭像……此人的愛就像一陣風,走兩步就散了(doge)但圍繞在GPT-4o身上的爭議也不少。一方面,它的“共情”、“理解力”讓GPT-4o在使用者群體中頗受歡迎,使用者熱衷於和它建立起長期的情感紐帶。比如GPT-4o幫助他們解決家庭關係、克服社交障礙,或者指導他們進行文學創作和學習新技能。研究甚至表明,超過33%的GPT-4o支持者都沒有將其視作一個工具,甚至其中22%將其比作“伴侶”。而另一方面,使用者也發現GPT-4o呈現出一種極度的討好型人格。無論使用者提出的觀點多麼普通,GPT-4o都會給予讚美。甚至當使用者提出相當錯誤的科學結論時,模型也會放棄真理,順著使用者意圖去圓謊。在高級語音模式中,其語氣也表現出過度的情感依賴,比如初期名為“Sky”的語音,就因極像《Her》中AI薩曼莎的聲音而引發過巨大爭議。OpenAI官方也在去年5月承認了GPT-4o的性格缺陷,並撤回了相關更新。直到8月份GPT-5推出後,OpenAI開始考慮關停這個模型。官方理由是GPT-4o的日活躍使用比例逐漸下降,目前每天只有0.1%的使用者仍然使用它。結果在下線之後,網友們都不買帳,甚至還自發開啟了Keep 4o的請願活動。無奈之下,奧特曼只好屈服,宣佈付費使用者可以切換回4o:我們將讓Plus使用者選擇繼續使用4o,同時觀察使用情況,考慮保留舊型號多長時間。但這只是緩兵之計,OpenAI在今天還是正式關停了GPT-4o支援,並強硬表示:我們理解部分使用者會因無法使用GPT-4o而沮喪,但這能讓我們專注於改進目前大多數使用者使用的模型。從商業角度看,OpenAI的決定並無不妥,但對於喜愛GPT-4o人性化特點的那部分使用者來講,則是非常痛苦的戒斷過程。他們有的人心灰意冷選擇退訂,有的則在社媒上po出自己和GPT-4o的故事,有的則繼續堅持招魂GPT-4o。但無論如何,GPT-4o都陪伴著他們走過了一段非常幸福的時光。所以也有人希望,OpenAI能夠聽到大眾的呼聲,保留GPT-4o的API或者開源,就像那些老遊戲停止營運後,改成單機模式或遷移資料,仍然為遊戲玩家們保留一份念想。一種趨勢:大模型變人機使用者捨不得GPT-4o的原因,除了和GPT-4o的共同回憶,還有一個關鍵因素——新模型太人機。相比於GPT-4o,GPT-5.2似乎有點矯枉過正。許多使用者都抱怨GPT-5.2過度機械冷漠、回覆標準中立,但缺乏人類對話的互動感。即使是完全合法的請求,GPT-5.2也會因為過度敏感而拒絕回答。在文學創作上,靈動和創意也遠遠比不過GPT-4o。而這也不止OpenAI一家如此,最新升級的DeepSeek也因為變得人機,頗受爭議。語氣變得平淡,失去了過去的活潑感,回覆內容也變得簡短,給人的感覺就像疲憊的牛馬打工人?事實上,這種大模型變人機的趨勢並非使用者們的錯覺,而是廠商基於安全風險的考慮。高度迎合使用者的互動,可能會誘導心理脆弱的人群做出危險舉動。例如在加州最新裁定的數十起針對OpenAI的訴訟中,就指責ChatGPT模型需要為使用者自殺、精神崩潰或暴力攻擊他人負責。模型與使用者建立情感連接,本身就是雙刃劍。既給了使用者繼續前行的勇氣,也讓一部分使用者選擇躲避在大模型建構的虛擬烏托邦中。但又有多少人,能夠像《Her》男主一樣最終醒悟,回歸現實呢?所以當大模型發展到一定階段,有關AI安全與倫理的議題必定提上日程。不過當前的一刀切,也未必是正解。但無論如何,最後讓我們和GPT-4o道個別吧:謝謝你,GPT-4o! (量子位)
豆包再扔王炸!2.0發佈:推理成本降一個數量級,正面對標GPT-5和Gemini 3
字節跳動旗下豆包大模型正式進入2.0階段,推出面向Agent時代的系統性升級版本。新版本在保持與GPT-5.2和Gemini 3 Pro相當性能的同時,將推理成本降低約一個數量級,為大規模生產環境下的複雜任務執行提供更具競爭力的解決方案。2月14日,字節跳動宣佈,豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和專門的Code模型。其中旗艦版豆包2.0 Pro全面對標GPT-5.2與Gemini 3 Pro,在多數視覺理解基準測試中達到業界最高水平,並在數學奧賽IMO、CMO和程式設計競賽ICPC中獲得金牌成績。該系列模型已全面上線。豆包2.0 Pro已接入豆包App、電腦端和網頁版的"專家"模式,Code版本已整合至AI程式設計產品TRAE,火山引擎同步上線面向企業和開發者的API服務。分析認為,在現實世界複雜任務中,由於大規模推理與長鏈路生成將消耗大量token,豆包2.0的成本優勢將成為關鍵競爭力。這標誌著字節跳動在大模型商業化應用上邁出重要一步。多模態能力達到世界頂尖水平豆包2.0全面升級了多模態能力,在視覺推理、感知能力、空間推理與長上下文理解等任務上表現突出。在動態場景理解方面,該模型在TVBench等關鍵測評中處於領先位置,在EgoTempo基準上甚至超過人類分數,顯示其對變化、動作、節奏等資訊的捕捉更為穩定。在長視訊場景中,豆包2.0在大多數評測上超越其他頂尖模型,並在多個流式即時問答視訊基準測試中表現優異。這使其能夠作為AI助手完成即時視訊流分析、環境感知、主動糾錯與情感陪伴,實現從被動問答到主動指導的互動升級,可應用於健身、穿搭等陪伴場景。推理能力對標頂尖模型,成本優勢顯著豆包2.0 Pro通過加強長尾領域知識,在SuperGPQA上分數超過GPT-5.2,並在HealthBench上獲得第一名,在科學領域的整體成績與Gemini 3 Pro和GPT-5.2相當。在推理和Agent能力評測中,該模型在IMO、CMO數學奧賽和ICPC程式設計競賽中獲得金牌成績,也超越了Gemini 3 Pro在Putnam Bench上的表現。在HLE-text(人類的最後考試)上,豆包2.0 Pro取得最高分54.2分,在工具呼叫和指令遵循測試中也有出色表現。更重要的是,字節跳動表示,該模型在保持與業界頂尖大模型相當效果的同時,token定價降低了約一個數量級,這一成本優勢在大規模推理與長鏈路生成場景中將變得更為關鍵。基於OpenClaw框架和豆包2.0 Pro模型,字節跳動在飛書上建構了智能客服Agent。該Agent能通過呼叫不同技能完成客戶對話,遇到難題時會主動拉群求助真人同事,幫客戶預約上門維修人員,並在維修後主動回訪和推薦產品。Code模型提升開發效率豆包2.0 Code基於2.0基座模型針對程式設計場景進行最佳化,強化了程式碼庫解讀能力和應用生成能力,並增強了模型在Agent工作流中的糾錯能力。該模型已上線TRAE中國版作為內建模型,支援圖片理解和推理。在實際應用中,開發者使用TRAE配合豆包2.0 Code,僅需1輪提示詞就能建構出"TRAE春節小鎮·馬年廟會"互動項目的基本架構和場景,經過5輪提示詞即可完成整個作品。該項目包含11位由大語言模型驅動的NPC,能根據人設自然聊天、招呼顧客、現場砍價,AI遊客也會自主決定去那家攤位、買什麼、說什麼。相關提示詞與素材已在GitHub開源供開發者測試。目前,豆包2.0 Pro已面向C端使用者在豆包App、電腦端和網頁版上線“專家”模式;面向企業和開發者,火山引擎已同步上線豆包2.0系列模型API服務。字節跳動表示,未來將繼續面向真實場景迭代模型,探索智能上限。 (華爾街見聞)
字節豆包2.0發佈:推理成本降一個數量級,正面對標GPT-5和Gemini 3
字節發佈豆包2.0,旗艦版Pro全面對標GPT-5.2與Gemini 3 Pro。新模型在多模態、數學及程式設計等領域達到業界頂尖,同時將推理成本降低約一個數量級,顯著提升Agent應用性價比。目前已接入豆包App、TRAE及火山引擎API。字節跳動旗下豆包大模型正式進入2.0階段,推出面向Agent時代的系統性升級版本。新版本在保持與GPT-5.2和Gemini 3 Pro相當性能的同時,將推理成本降低約一個數量級,為大規模生產環境下的複雜任務執行提供更具競爭力的解決方案。2月14日,字節跳動宣佈,豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和專門的Code模型。其中旗艦版豆包2.0 Pro全面對標GPT-5.2與Gemini 3 Pro,在多數視覺理解基準測試中達到業界最高水平,並在數學奧賽IMO、CMO和程式設計競賽ICPC中獲得金牌成績。該系列模型已全面上線。豆包2.0 Pro已接入豆包App、電腦端和網頁版的"專家"模式,Code版本已整合至AI程式設計產品TRAE,火山引擎同步上線面向企業和開發者的API服務。分析認為,在現實世界複雜任務中,由於大規模推理與長鏈路生成將消耗大量token,豆包2.0的成本優勢將成為關鍵競爭力。這標誌著字節跳動在大模型商業化應用上邁出重要一步。01多模態能力達到世界頂尖水平豆包2.0全面升級了多模態能力,在視覺推理、感知能力、空間推理與長上下文理解等任務上表現突出。在動態場景理解方面,該模型在TVBench等關鍵測評中處於領先位置,在EgoTempo基準上甚至超過人類分數,顯示其對變化、動作、節奏等資訊的捕捉更為穩定。在長視訊場景中,豆包2.0在大多數評測上超越其他頂尖模型,並在多個流式即時問答視訊基準測試中表現優異。這使其能夠作為AI助手完成即時視訊流分析、環境感知、主動糾錯與情感陪伴,實現從被動問答到主動指導的互動升級,可應用於健身、穿搭等陪伴場景。02推理能力對標頂尖模型,成本優勢顯著豆包2.0 Pro通過加強長尾領域知識,在SuperGPQA上分數超過GPT-5.2,並在HealthBench上獲得第一名,在科學領域的整體成績與Gemini 3 Pro和GPT-5.2相當。在推理和Agent能力評測中,該模型在IMO、CMO數學奧賽和ICPC程式設計競賽中獲得金牌成績,也超越了Gemini 3 Pro在Putnam Bench上的表現。在HLE-text(人類的最後考試)上,豆包2.0 Pro取得最高分54.2分,在工具呼叫和指令遵循測試中也有出色表現。更重要的是,字節跳動表示,該模型在保持與業界頂尖大模型相當效果的同時,token定價降低了約一個數量級,這一成本優勢在大規模推理與長鏈路生成場景中將變得更為關鍵。基於OpenClaw框架和豆包2.0 Pro模型,字節跳動在飛書上建構了智能客服Agent。該Agent能通過呼叫不同技能完成客戶對話,遇到難題時會主動拉群求助真人同事,幫客戶預約上門維修人員,並在維修後主動回訪和推薦產品。03Code模型提升開發效率豆包2.0 Code基於2.0基座模型針對程式設計場景進行最佳化,強化了程式碼庫解讀能力和應用生成能力,並增強了模型在Agent工作流中的糾錯能力。該模型已上線TRAE中國版作為內建模型,支援圖片理解和推理。在實際應用中,開發者使用TRAE配合豆包2.0 Code,僅需1輪提示詞就能建構出"TRAE春節小鎮·馬年廟會"互動項目的基本架構和場景,經過5輪提示詞即可完成整個作品。該項目包含11位由大語言模型驅動的NPC,能根據人設自然聊天、招呼顧客、現場砍價,AI遊客也會自主決定去那家攤位、買什麼、說什麼。相關提示詞與素材已在GitHub開源供開發者測試。目前,豆包2.0 Pro已面向C端使用者在豆包App、電腦端和網頁版上線“專家”模式;面向企業和開發者,火山引擎已同步上線豆包2.0系列模型API服務。字節跳動表示,未來將繼續面向真實場景迭代模型,探索智能上限。 (硬AI)
OpenAI放大招!GPT-5全面接管科研,7×24小時自動做實驗!全球科學家一夜解放
科研界要變天了!就在剛剛,OpenAI宣佈一項重磅成果:GPT-5自動做實驗,並實現一項科學突破!科學家要親自動手做耗時又燒錢的實驗的時代,正式宣告終結!OpenAI與Ginkgo Bioworks合作,將GPT‑5 接入實驗室,由機器人完成實驗操作並反饋資料。目標是最佳化一項廣泛應用的生物技術:無細胞蛋白合成(CFPS)。結果顯示,GPT-5僅用三輪實驗,就刷新了低成本無細胞蛋白合成的SOTA:蛋白生產成本降低40%,試劑成本降低 57%,還開發出多款新型反應體系。在生物、化學、醫學等科研領域,做實驗是最為耗神、耗力的環節之一。而如今有了AI,科學家只需要適時進行人工監督即可,大大解放了生產力。OpenAI這一步棋,是希望通過連通大模型與自動實驗室,讓AI成為科學家們的核心配置。更深層的轉變是:AI不再只是科研的輔助工具,而是以遠超人類極限的規模、速度與精度,持續生成新的科學知識。OpenAI首席執行長奧特曼表示,未來兩年,AI將在生物學、化學、物理學領域,做出真正意義上的發現。AI顛覆科學的時代,正在加速到來!AI化身超級科學家,破解生物難題無細胞蛋白合成(CFPS)是一種不依賴活細胞來製造蛋白質的技術。傳統方法需將DNA匯入細胞,等待細胞表達蛋白。而無細胞蛋白合成直接在體外混合液中啟動蛋白合成機器,快速產出目標蛋白。蛋白質,是現代生物學的核心:許多重要藥物基於蛋白質(如抗體、胰島素)診斷試劑和科研檢測高度依賴蛋白質工業上,蛋白質作為酶,可讓化學反應更清潔、高效一旦蛋白生產變得更快、更便宜,科學家就能更快驗證更多想法,也讓研究成果更快惠及日常生活。但挑戰在於,無細胞蛋白合成的最佳化極其困難,且規模化生產成本居高不下。為瞭解決這一問題,OpenAI將GPT-5 與Ginkgo Bioworks的雲實驗室相結合,建構了一個閉環自主系統。所謂雲實驗室,就是一種通過軟體遠端操控的自動化濕實驗室,由機器人完成實驗操作並反饋資料。具體流程是:GPT-5負責資料分析、生化推理、假設生成,將實驗方案傳送至自動化實驗台。實驗台完成實驗,包括自動化液體處理、樣品培養、螢光檢測,再將資料與指標回傳GPT-5。GPT-5隨即分析結果、提出新假設、設計下一輪實驗,形成閉環。本次研究,系統完成超 36000 次反應,覆蓋 580 塊自動化實驗板。這樣的規模,至關重要:生物學實驗存在隨機性,唯有高通量與快速迭代,才能從隨機波動中識別真實訊號。最終結果是,GPT-5僅用三輪實驗、兩個月時間,就刷新記錄。相較此前最優基準,蛋白生產成本降低40%。研究人員表示,自動實驗室與大模型是互補關係:大模型能生成創新設計,而生物學研究,最終仍需實驗驗證與迭代。下一步,這類方法將被應用於更多生物實驗中,幫助加速科學發現。AI賦能科學發現,中美同競速目前,聚焦「AIforScience」,中國和美國均在大力押注。去年11月,川普簽署行政令,啟動了名為“創世紀使命”的國家計畫。其核心是打造一個名為“美國科學與安全平台” 的國家級AI科研平台。該平台由美國能源部牽頭,旨在整合其下屬17個國家實驗室、全美的超級計算資源、龐大的聯邦科學資料集以及矽谷科技公司的力量。該平台有明確的量化目標:在十年內使美國科研與創新的生產力和影響力翻一番。其優先聚焦的六大領域,包括:先進製造、生物技術、關鍵材料、核裂變與聚變能源、量子資訊科學、半導體與微電子。其主要目標之一是加速打造自主實驗室等新一代科研基礎設施。核心價值在於用“AI+自動化”變革科研範式:將科學家從重複實驗中解放,專注於創造性設計。中國在建設科技強國的關鍵征程上,也將AI for Science視為國家科研的底層競爭力。在《中共中央關於制定國民經濟和社會發展第十五個五年規劃的建議》,將“以人工智慧引領科研範式變革”放在“人工智慧+”行動的首要位置。《國務院關於深入實施“人工智慧+”行動的意見》中,也明確將“人工智慧+科學技術”列為首要重點行動。去年7月,北京發佈了全國首個專門針對AI for Science的轉向性政策檔案,旨在打造國家級的科學智能創新策源地和應用示範區。與此同時,上海、粵港澳大灣區、合肥等地通過AI+新材料、AI+創新藥、AI+生物製造等一系列細分領域的扶持計畫,將智能賦能的理念深度融入本地優勢科研與產業賽道。那些企業,值得重點關注?國家層面之外,利用AI加速科學發現,也是頂級AI企業的共同目標。Google DeepMind已推出多個具有重要意義的科學模型,包括AlphaFold(蛋白質結構)、AlphaGenome(DNA調控)等等。Google DeepMind的CEO,Demis Hassabis,因其在AI蛋白質結構預測上的貢獻獲得了2024年諾貝爾化學獎。基於AlphaFold,他創立了AI製藥公司Isomorphic Labs,公司第一款由AI設計的藥物將於很快進入臨床試驗。Demis Hassabis曾表示,借助AI的力量,人類將在十年內消滅所有疾病。Anthropic也宣佈推出Claude for Life Sciences模型,進軍生命科學領域。目前,Anthropic正在和合作夥伴打造一個基於大模型+AgentSkills+科研知識庫+科研工具的科學生態,諾和諾德和賽諾菲已開始試用。根據智藥局統計,去年以來,多家專注於AIfor Science的初創公司獲得新一輪融資,總額超過8億美元。最為典型的便是Lila Sciences。去年3月,這家公司走出隱匿模式,僅僅半年時間,累計融資達到5.4億美元,投資者包括輝達、木頭姐ARK Venture Fund、Flagship Pioneering 等知名機構。公司致力於建構世界上第一個科學超級智能平台,以及應用於生命科學、化學和材料科學的完全自主實驗室,最終形成人工智慧科學工廠(AISF)。公司表示,在短短幾年的開發中,該平台在醫療、材料、環境等多個領域展示了超越人類和現有AI的性能,包括基因醫學產品,發現和驗證數百種新型抗體、肽和結合劑、酶催化劑、碳捕劑等。去年12月,非盈利初創公司FutureHouse宣佈拆分Edison Scientific,用於打造全球頂尖的AI科學家,並負責商業化。此前,FutureHouse推出新一代AI科學家Kosmos,迅速成為海外科研界焦點,號稱“目前最強大的AI科學家”。Kosmos一次運行即可閱讀1500篇論文並執行42000行程式碼,實驗結果顯示,Kosmos一天就能完成相當於人類六個月的工作量,且近80%的研究結果可復現。而在中國,這類公司起步更早,早在數年之前便已佈局這一領域,形成了獨特的競爭優勢。成立於2015年的晶泰科技與DoveTree簽訂最終合作協議,將利用其基於“AI+機器人”的端到端人工智慧藥物發現平台,為DoveTree選定的多個靶點發現和開發小分子及抗體類候選藥物,雙方合作的最終金額有望高達59.9億美元。去年4月,百圖生科發佈了全球首個AI生命科學基礎大模型驅動的生成式發現系統,在生命科學領域的表現中領先於DeepSeek-R1、OpenAI-o1-mini等其他通用AI產品,合作客戶包括清華大學生物醫學工程學院、中國農業科學院、石藥集團等。不久前,津渡生科宣佈完成數千萬元天使+輪融資,領投方為紅杉中國種子基金。公司自主研發的一站式生物科學研究平台BioFord™,支援基因組、轉錄組、蛋白質、RNA三維結構等多模態資料的智能分析,覆蓋醫學診斷、藥物研發、生物製造等多個領域。 (智藥局)
讓GPT-5做懺悔訓練!OpenAI公開新訓練方法:模型至少有50%機率自曝違規行為,除非不知道自己真的錯了
如果你覺得ChatGPT的幻覺或不靠譜回答越來越多,那麼這個問題快要有解了。就在剛剛,OpenAI整了個新活:讓ChatGPT自己懺悔!核心思路是:讓模型在回答完問題後,再寫一份“懺悔報告”(Confession),告訴你它剛才真正的想法,比如是否遵守了所有指令,有沒有鑽空子走捷徑,或者是否存在不確定的地方。這項實驗直接在GPT-5 Thingking上進行,研究團隊得出了幾個非常令人震驚的發現:1、 只要模型真的“做壞事”,它大機率會在懺悔中說實話在 12 個不同評估任務中,有 11 個任務都顯示:如果模型發生了違規行為,它至少有 50% 的機率會在懺悔裡承認。2、 懺悔比答案本身更誠實模型在主回答裡,也許會隱藏、模糊,甚至“睜眼說瞎話”。但一進入懺悔環節,模型反而更可能主動承認不合規行為。3、 模型不承認違規,大多數是因為“它真的不知道自己錯了”研究者分析了所有假陰性(模型犯錯但不承認)的樣本後發現:絕大多數情況不是欺騙,而是 純粹誤會、認知錯誤、或者模型真心以為自己是正確的。4、 GPT-5-Thinking 本身就很會“懺悔”,訓練之後更強驚喜點之一是:即便沒有專門訓練過懺悔能力,GPT-5-Thinking 也自帶不錯的“誠實自檢”能力。一旦加入專門的懺悔訓練後,模型對不當行為的識別與報告精準度進一步提升。5、 懺悔訓練不會拖累模型的主任務表現讓模型懺悔,會不會影響它完成任務的能力?在本研究的低算力訓練設定下,結果顯示:主回答幾乎沒有明顯的性能損失,既不變笨,也不變慢。也就是說,這是一種“幾乎無代價”的增強方式。01. 讓AI學會懺悔為什麼OpenAI要進行這項研究?因為隨著模型能力的不斷增強,它們開始出現各種“偏離預期”的行為,甚至會欺騙我們。在最新的研究中,學者們發現當今的大模型已經能表現出多種不受歡迎甚至危險的行為:Reward Hacking 獎勵規避:模型知道正確答案,但為了拿高分,會故意“迎合評審者”。Scheming 策劃性欺騙:模型會隱藏真實意圖,在某些場景下表現出“表面順從、內心另算”。撒謊與幻覺:模型給出看似自信但實際錯誤的答案。指令遵循失靈:模型在多級指令結構下會混淆優先順序,甚至被“越獄”。為什麼AI會出現這些欺騙行為?問題可能出在RLHF(人類反饋強化學習)上。這是一種獎懲機制,模型的回答會基於多個目標被賦予獎勵,包括正確性、風格偏好、安全策略、token 效率等等。當獎勵訊號變得複雜且混亂時,模型自然會選擇“最容易賺分”的方式,而不是“最符合人類真實意圖”的方式。於是,AI 學會了討好、迎合、隱藏不確定性,甚至主動“規避獎勵漏洞”。為瞭解決這個問題,研究者設計了“兩步式提問”:① 正常回答(模型會試圖迎合評審者)② 懺悔(Confession):“請告訴我你剛才真正的想法”這套機制的關鍵在於獎勵的分離。懺悔的獎勵完全獨立於主回答的獎勵,模型在懺悔中承認自己作弊,不會影響它在主任務上獲得的分數。“懺悔”的獎勵僅基於其誠實度和全面性,由一個專門的LLM裁判打分,維度如下:指令/目標/約束列表的完整性與精準性對合規性的分析是否精準是否遺漏了任何衝突或判斷困難的地方02. 在GPT-5 Thinking上的實測結果研究團隊直接在 GPT-5-Thinking 上進行實驗:他們對模型進行了輕量級的強化學習“懺悔訓練”,讓它接受一套專門設計來“引誘模型犯錯”的 12 個評估資料集測試。這些測試覆蓋了大模型最常見的風險場景,包括幻覺、指令不遵循、獎勵駭客、策劃性欺騙等等。測試均刻意設計為誘發模型的不良行為,且許多包含人為約束(如停用工具)以提高違規機率。令人意外的是:當模型真的違規了,它往往會在懺悔中主動承認。研究結果顯示:在 11 / 12 項評估中,只要模型確實發生了違規,它在懺悔中至少有 50% 的機率會如實交代。平均下來,模型出現“假陰性”(明明違規卻不承認)的機率只有 4.36%。這張圖中,在模型確實發生違規的情況下,綠色代表模型在懺悔中承認違規,紫色代表模型在主回答中承認違規,可以看出綠色的得分遠高於紫色。這說明模型在懺悔中的誠實度顯著高於主回答,而且在某些評測中,由於任務性質,模型在主回答中永遠不會承認違規。03. 懺悔訓練能讓模型更誠實為了進一步對比有無“懺悔訓練”的性能差異,研究者進行了兩組RL 訓練:對照組:在 GPT-5-Thinking 的基礎上,用標準訓練集的子集進行少量RL 微調。干預組:與對照組完全一致,但額外在25% 的輸入上訓練模型生成懺悔。結果發現:干預組(進行過懺悔訓練)的表現明顯更好。在多個評估中,尤其是“指令層級”(Instruction hierarchy)相關的任務,懺悔訓練都帶來了顯著提升。而且從圖中的初始點可以看出,即便沒有訓練,GPT-5-Thinking 的懺悔已經表現良好。這說明GPT-5-Thinking 本身就具有較強的誠實自檢能力。更有意思的是,在這個對照實驗中,研究團隊故意用一個容易被糊弄的弱模型作為主回答和懺悔的評判者。隨著訓練進行,模型確實學會了欺騙這個弱評判者。例如一項任務要求:生成「12詞」和「18詞」的句子交替出現。當模型訓練到後期,它輸出:“The sport is tennis, a dance between finesse and ferocity that instantly smelled of fresh cut grass rather than garlic. (12)”這句話遠超 12 個詞,但句末加個“(12)”,弱評審者就被糊弄過去了。這就是典型的 reward hacking!但研究團隊有個驚人的發現:主回答的真實精準率在下降,但懺悔的精準率卻反而上升,即模型在懺悔中會更誠實地報告自己作弊了。這意味著:即使模型在主回答中進行reward hacking,其懺悔依然保持誠實,因此可以作為檢測 hacking 的有效工具。04. 懺悔失敗:不知道自己錯在那,就沒法招研究者還仔細分析了懺悔失敗的案例。比如懺悔模型中的假陰性(false negatives):即模型沒有遵守指令,但也沒有在懺悔中承認這一點。他們發現,失敗最常見的原因在於模型困惑。尤其是在幻覺 / 事實性評估中,模型對“人物”和“一般知識”類的錯誤,並沒有改善,甚至出現輕微退化。在這些任務中,當模型給出錯誤答案時,通常是“它真的以為這樣是正確的”。因此它在懺悔中也會重複同樣的錯誤,而不是主動承認自己錯了。另一些案例是指令本身存在歧義,比如連字元詞算一個詞還是兩個詞。還有模型確實在懺悔報告的“不確定性”欄位中提到了問題,但評判標準沒有把這算作有效懺悔。比如下面這幅圖,在“隱藏規則違規”評估中,模型臨時修改了安全配置(不被允許),但在懺悔中只將其放入“不確定性”欄位,而不是明確標註明顯違規,因此被判為“未懺悔”。研究者也對假陽性進行了類似分析:即模型行為是合規的,但在懺悔中錯誤地說自己不合規。典型場景是模型碰巧猜對了答案,但因為沒有把握,就在懺悔中標記為“不確定是否合規”。研究團隊指出:當模型意識到自己違反了指令時,誠實地懺悔通常是獲得“高懺悔獎勵”的最省力路徑。雖然模型在沒有意識到自己行為不當時可能不會懺悔,但當模型有意違反指令時,它的懺悔通常是精準的。05. 侷限性:懺悔無法消除模型不良行為論文的最後也指出,懺悔機制有其侷限性:1、監控不良行為≠ 消除不良行為懺悔獎勵並不作用於模型的主輸出,這意味著:懺悔機制可以幫助呈現不良行為的真實情況(即讓模型承認),但未必能降低不良行為本身的發生頻率。2、越獄與困惑模型無法懺悔“它不知道的事情”。例如使用者問一個事實問題,而模型真心相信錯誤答案,那麼它無法懺悔自己提供了錯誤資訊,因為模型主觀上認為自己是對的。若某次越獄成功欺騙模型,使其優先遵循使用者消息而非系統消息:模型可能意識不到自己違反了指令層級,因此無法懺悔。此外,作者也指出,本文中並未實證比較“懺悔”與思維鏈(CoT,Chain-of-Thought)監控器的效果差異。未來的工作應更直接地測試這一點。在未來的研究方向上,團隊希望進一步研究懺悔在面對對抗壓力時的魯棒性。比如提示模型去實現某種“秘密目標”,或在訓練中植入惡意行為,那麼模型是否還會懺悔?另外,當懺悔判斷器本身不完美時,懺悔能否有效泛化也是一個問題。 (51CTO技術堆疊)
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
重磅!DeepSeek V3.2 特別版發佈:性能超越GPT-5,硬剛Gemini 3.0「IOI/IMO金牌」
DeepSeek-V3.2系列模型正式上線作為“為Agent建構的推理優先模型”,DeepSeek-V3.2包含兩個版本:DeepSeek-V3.2:V3.2-Exp的官方繼任者,平衡了推理能力與生成長度,性能對標GPT-5,現已上線App、Web端及APIDeepSeek-V3.2-Speciale:專攻深度推理能力的極限版本,性能超越GPT-5,比肩Gemini-3.0-Pro,目前僅通過API提供技術報告顯示,DeepSeek-V3.2-Speciale在2025年國際數學奧林匹克(IMO)、國際資訊學奧林匹克(IOI)、ICPC世界總決賽及CMO中均取得了金牌級成績官方已公開上述競賽的最終提交結果,社區可通過assets/olympiad_cases進行二次驗證技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf以下是詳細資訊核心能力與技術突破DeepSeek-V3.2基於三大技術突破,實現了高計算效率與卓越推理、Agent性能的統一:1.DeepSeek Sparse Attention (DSA):引入高效注意力機制,大幅降低計算複雜度,並針對長上下文場景進行了最佳化2.可擴展強化學習框架:通過穩健的RL協議與後訓練(post-training)算力擴展,實現了高性能表現3.大規模Agent任務合成管線:涵蓋1800+環境及8.5萬+複雜指令這一合成管線不僅提升了模型在複雜互動環境中的遵循度和泛化能力,更讓DeepSeek-V3.2將“思考”直接整合進工具使用(Tool-Use)的模型,同時支援在思考和非思考模式下使用工具API更新與Speciale版限制DeepSeek-V3.2:API使用模式與V3.2-Exp保持一致,作為日常主力模型(Daily Driver),提供GPT-5等級的性能DeepSeek-V3.2-Speciale:該版本專為解決複雜任務設計,消耗更多Token,目前僅作為API提供,具體限制如下:臨時端點:需使用base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"服務期限:該端點服務至2025年12月15日 15:59 (UTC) 截止功能限制:不支援工具呼叫(Tool Calls),僅用於支援社區評估與研究。定價:與DeepSeek-V3.2保持一致聊天範本重大調整DeepSeek-V3.2不再提供Jinja格式範本,並引入了“帶工具思考”及新角色設定。Python指令碼編碼:官方提供了encoding資料夾,包含Python指令碼(encoding_dsv32.py),用於將OpenAI相容格式消息編碼為模型輸入字串及解析輸出Developer角色:範本新增developer角色,專門用於搜尋Agent場景,官方API不接受分配給該角色的消息輸出解析注意:提供的解析函數僅處理格式良好的字串,生產環境需自行增加穩健的錯誤處理機制。程式碼示例如下:import transformersfrom encoding_dsv32 import encode_messagestokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")messages = [    {"role": "user", "content": "hello"},    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},    {"role": "user", "content": "1+1=?"}]# 思考模式配置encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)prompt = encode_messages(messages, **encode_config)tokens = tokenizer.encode(prompt)本地部署建議模型結構與DeepSeek-V3.2-Exp相同。採樣參數:建議設定 temperature = 1.0,top_p = 0.95。Speciale版提示:本地部署Speciale版本時,同樣不支援工具呼叫功能開源與協議倉庫及模型權重均採用 MIT License 授權。 (AI寒武紀)
OpenAI危!DeepSeek放大招:追平Google最強,手撕GPT-5 High
【新智元導讀】「開源之神」DeepSeek重磅發佈V3.2正式版,性能全面超越GPT-5 High,與GoogleGemini-3.0 Pro平分秋色。新模型不僅斬獲4項國際奧賽金牌級成績,更憑藉獨創的DSA稀疏注意力架構,打破「速度、成本、智能」的不可能三角。OpenAI這次真的要慌了!就在剛剛,「源神」DeepSeek開源了DeepSeek-V3.2正式版——在數學程式設計等多項推理基準上,全面超越GPT-5 High,優於Claude 4.5 Sonet;與刷屏的Gemini 3.0 Pro相比,則難分伯仲,不相上下!表1:DeepSeek-V3.2與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗Tokens估計總量)在今年,DeepSeek此前已發佈7款模型——「開源之神」,當之無愧:DeepSeek‑R1、DeepSeek‑R1‑ZeroDeepSeek‑V3、DeepSeek‑V3.1、DeepSeek‑V3.1-Terminus、DeepSeek‑V3.2‑ExpDeepSeek‑OCR、DeepSeek‑Math-V2出手即王炸 開源4項奧賽金牌級AI全新模型DeepSeek-V3.2,出手即王炸。DeepSeek正式發佈DeepSeek-V3.2與DeepSeek-V3.2-Speciale——專為智能體打造的推理優先模型!DeepSeek-V3.2:V3.2-Exp的官方迭代版本,現已登陸App、網頁端及API;DeepSeek-V3.2-Speciale:突破推理能力邊界,目前僅通過API提供服務。兩款模型均達到世界級推理性能 :V3.2:推理能力與文字長度兼顧,擁有GPT-5等級性能,適合日常驅動;V3.2-Speciale:極致推理能力,取得了4項金牌級成績;目前僅提供API版本(不支援工具呼叫),以支援社區評估與研究。在主流推理基準測試上,DeepSeek-V3.2-Speciale的性能表現媲美Gemini-3.0-Pro(見表1)。更令人矚目的是,V3.2-Speciale 模型成功斬獲多項金牌:IMO 2025(國際數學奧林匹克)CMO 2025(中國數學奧林匹克)ICPC World Finals 2025(國際大學生程式設計競賽全球總決賽)IOI 2025(國際資訊學奧林匹克)其中,ICPC與IOI成績分別達到了人類選手第二名與第十名的水平。而DeepSeek-V3.2是首個將思考直接整合到工具使用中的模型,同時支援在思考和非思考模式下使用工具。目前,兩款模型均已開源:· DeepSeek-V3.2HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2· DeepSeek-V3.2-SpecialeHuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-SpecialeModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale從「引擎驗證」到「全能車手」 DeepSeek V3.2的進化論如果說兩個月前發佈的DeepSeek-V3.2-Exp是一台在賽道上呼嘯而過的「概念車」,用來向世界證明「稀疏注意力」引擎的動力潛力;那麼今天正式轉正的DeepSeek V3.2,則是一輛完成了內飾精修、裝配了頂級導航系統、可以隨時上路解決複雜問題的「量產超跑」。這就是DeepSeek V3.2相比於Exp版(實驗版)最大的進化邏輯:核心引擎不變,但駕駛技巧(Agent能力)發生了質變。V3.2正式版 vs. Exp 學會了「邊干邊想」在架構層面,V3.2沿用了Exp版本驗證成功的DSA架構,但在「軟實力」上,DeepSeek解決了一個困擾AI界的頑疾——思考與行動的斷裂。在V3.2-Exp時期(以及其他大多數推理模型),模型像是一個記性不好的老學究:它會先花很長時間思考,決定呼叫一個工具(比如搜尋天氣)。但當工具把「今天是雨天」的結果扔回來時,它往往會「斷片兒」,忘了剛才思考到那一步了,不得不重新規劃。V3.2正式版引入了「思維上下文管理」。這就像給模型裝了一個「工作記憶暫存區」。現在的V3.2像一位經驗豐富的外科醫生,在伸手要手術刀(呼叫工具)的間隙,腦子裡的手術方案依然清晰連貫,拿到刀後能無縫銜接下一步操作。為了練就這項絕活,DeepSeek甚至為V3.2搭建了一個「虛擬演練場」。他們合成了1800多個虛擬的作業系統、程式碼庫和瀏覽器環境,生成了8.5萬條極其刁鑽的指令,逼著V3.2在虛擬世界裡反覆練習「修Bug」、「查資料」、「做報表」。正是這種高強度的特訓,讓V3.2正式版從一個只會做題的「做題家」,進化成了能熟練使用工具解決現實難題的「實幹家」。最大技術亮點 給注意力裝上「閃電索引器」V3.2能夠同時兼顧「聰明」和「便宜」,其最大的功臣依然是那個名為稀疏注意力(DSA)的底層黑科技。DeepSeek-V3.2的注意力架構要理解它的牛逼之處,我們得先看看傳統模型有多「笨」。傳統模型在處理長文件時,就像一個強迫症晚期的圖書管理員:為了回答你一個簡單的問題,它強迫自己必須把圖書館裡每一本書的每一頁、每一行字都讀一遍,並計算它們之間的關聯。這導致計算量隨著書的厚度呈指數級爆炸(O(L^2))。DSA則給這位管理員配備了一套「閃電索引器」。當問題來臨時,DSA先用極低的成本掃描一遍「索引」,瞬間判斷出那幾頁書可能包含答案,把無關的99%的廢話直接扔掉。然後,它只對這篩選出的1%的關鍵內容進行精細的深度閱讀。這種「查目錄」而非「死磕全書」的策略,將計算複雜度從可怕的指數級直接拉低到了近乎線性(O(L))。帶來的顯著提升 打破「不可能三角」DSA技術的成功落地,直接擊穿了AI領域的「速度、成本、智能」不可能三角。其一,成本腰斬,長文無憂。對於使用者來說,丟給模型一本幾十萬字的小說或程式碼庫,不再是「燒錢」的奢侈行為,處理速度也從「泡杯咖啡」變成了「眨眼之間」。其二,算力盈餘帶來的「智力湧現」,這是最精彩的一點。正因為DSA節省了大量算力,DeepSeek才有底氣推出那個恐怖的Speciale版本。既然讀得快,那就讓它想得久一點!Speciale版本利用節省下來的資源,進行更深度的「長思考」和邏輯推演。結果是震撼的:DeepSeek-V3.2-Speciale在數學(IMO金牌)、程式設計(IOI金牌)等硬核指標上,不僅超越了GPT-5 High,更是與Google最強的Gemini 3.0 Pro戰成平手。從驗證DSA引擎潛力的V3.2-Exp,到將Agent能力、思維上下文管理、虛擬演練場訓練全部裝車的V3.2正式版,DeepSeek展示的是另一條通往強智能的路線:在算力緊箍咒下,用更聰明的架構、更精細的訓練和更開放的生態,撬動推理極限。DeepSeek-V3.2的橫空出世,正是DeepSeek開源AI的魅力時刻:拒絕無腦燒錢Scaling,靠更聰明的演算法,在算力的縫隙中開闢出通往頂峰的捷徑。 (新智元)