#訓練 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#訓練

空間智能第一股來了！年入8億，發力具身智能模擬訓練

最近，又有一家AI公司要上港股市場了。不久前，群核科技正式向港交所遞交招股書。說起群核科技，很多人並不陌生。群核科技與深度求索、宇樹科技、雲深處科技、強腦科技、遊戲科學等企業一起被稱為“杭州六小龍”。從空間設計起步的群核科技，依託多年來沉澱的底層空間能力以及物理三維資料，成為了全球空間智能領域的代表性公司。過去三年，公司的收入分別為6.64億元、7.55億元和8.20億元。2024年，公司推出了面向室內環境AI開發的下一代空間智能解決方案SpatialVerse，目的是把設計軟體沉澱的空間資料，轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年，該業務已獲得16名客戶，實現收入520萬元，並已經與智元機器人展開了合作。接下來，就跟著矽基君一起來看看吧。/ 01 /“大客戶”拉動收入增長拆解收入結構可以發現，訂閱收入是公司絕對的核心支柱，常年貢獻總營收的96%以上。其中，企業客戶佔了“大頭”。2025年，企業客戶所帶來的收入高達6.69億元，佔比超過80%。在企業客戶的增長裡，“大客戶”的拉動效應尤為顯著。2023年至2025年，群核科技的企業客戶數量從41070家穩步增長至47416家，增長15%；單個企業的訂閱收入從1.37萬增長到1.41萬，增長2%。其中，年收入貢獻超過20萬的頭部“大客戶”數量，從2023年的353家增長至424家，增長了20%。每名大客戶的平均訂閱收入（ARPU）從2023年的72.9萬元，一路上漲至2025年的85.6萬元，增長17%。也就是說，群核科技的“大客戶”數量和客單價增速都遠遠超過企業客戶。相比之下，C 端業務更像一個規模穩定的基礎盤。個人客戶數量長期維持在 41 萬以上，客單價從 216 元提升至 302 元，提升明顯，但由於使用者規模增長趨緩，整體體量仍然有限。從產品矩陣來看，群核的核心產品是“酷家樂”，這是一個提供快速拖放式3D設計、即時渲染及BIM能力的雲原生平台。在國際市場上，群核推出了支援18種語言的本地化版本Coohom 。這套產品體系覆蓋設計、可視化、實施與價值鏈協作四個環節，目標並不是單點效率提升，而是貫穿創意生成到生產交付的完整鏈路。在設計方面，設計師只需上傳CAD 圖紙、廣告設計稿或平面檔案，系統便可自動解析其中的結構與佈局資訊，生成可編輯的沉浸式 3D 設計方案。其素材庫覆蓋數百萬級3D 模型，幾乎囊括空間設計所需的全部元素，包括家具、布線、管道、照明、牆面、天花以及各類裝飾元件。上傳圖紙生成3D 設計方案在可視化方面，群核科技依託自建的高性能GPU 叢集，以及擴散模型與光線追蹤等技術能力，系統可在數秒內完成全景圖生成，實現接近即時的沉浸式可視化效果。多張全景圖還可自動拼接為虛擬現實全屋漫遊，使設計從靜態展示升級為可互動的空間體驗。更關鍵的是，系統並未停留在展示層面。設計完成後，設計師可以直接將包含尺寸、材料與規格的完整3D 資料傳送給製造商。系統基於結構化資料自動生成生產圖紙，並嚴格對齊原始輸入參數，減少人工轉換與反覆校對的誤差。這套能力已經在大客戶中形成穩定滲透，成為推動客單價提升的重要推手。2025 年，約 49.1% 的大客戶訂閱了內建 CAM 功能的版本。/ 02 /毛利率很高，但真正的考題在增長作為一家SaaS公司，群核的盈利模型已經跑通了。2023—2025年，公司毛利率分別為76.8%、80.9%和82.2%。毛利改善，也直接反映在利潤表上。2023 年和2024年，公司經調整淨虧損分別為2.42億元和0.70億元；到了2025年，公司實現5712萬元經調整淨利潤，完成扭虧。盈利改善並非偶然。過去三年，公司行銷費用從3.56億元下降至2.74億元，研發支出從3.9億元降至2.91億元。費用率的收縮，疊加訂閱收入的規模化，構成了利潤釋放的主要來源。如果單看盈利能力，群核科技是一家已經完成“從燒錢到自我造血”轉型的公司。但真正的問題不在利潤，而在增長。2025 年，公司收入增速不足10%。對於一家以成長性為核心賣點的企業來說，這樣的節奏顯然偏慢。原因並不複雜——賽道本身不夠大。招股書顯示，2024 年國內空間設計軟體市場規模約為33億元；預計到2029年將擴大至66億元，對應復合年增長率 14.9%。即便按最高預期測算，這仍然是一個百億以內的市場。而群核已經是這個市場的絕對龍頭，市佔率達到23.2%，排名第一。在這樣的背景下，尋找業務增量成為群核科技最重要的工作。從招股書看，群核的破局路徑主要集中在三個方向。第一，提高客單價，用AI 做結構性升級。AI的加入，正在改變設計軟體的使用方式。2025年，公司通過AI功能生成約 25 億張圖片，包括平面圖可視化與渲染圖等。約30%的月活使用者在其訂閱版本中深度使用AI功能。這意味著，AI不再只是附加功能，而是在成為使用者工作流的一部分。2025年3月，公司推出AI智能設計平台，面向企業客戶提升方案生成效率。截至 2025 年底，該平台已獲得28名客戶訂閱，訂單總值3000萬元。在市場規模有限的情況下，通過新功能與效率提升，向現有客戶“要增長”，提高 ARPU，而不是單純追求新增使用者數量。第二，尋找新的業務邊界。2024年推出的SpatialVerse，是公司向“空間智能”延伸的重要嘗試。平台基於多年積累的3D 設計資料與渲染引擎能力，建構高逼真、物理正確的合成虛擬資料集，用於室內場景AI訓練。簡單理解，它把設計軟體沉澱的空間資料，轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年，該業務已獲得16名客戶，實現收入520萬元。其中，智元機器人已與公司在 SpatialVerse 方案上建立合作。第三條路徑，是全球化擴張。2023—2025 年，公司海外收入從 3710 萬元增長至6840萬元，雖然規模有限，保持著不錯的增長。對群核而言，海外不僅意味著更大的市場空間，也意味著在成熟競爭環境中驗證產品競爭力。毫無疑問，群核已經證明，它可以做成一門賺錢的生意。但資本市場最真正關心的，永遠是成長性。對於群核科技來說，接下來最重要的是，這些新的故事能否在收入層面跑出足夠陡峭的斜率。 (矽基觀察Pro)

韓媒披露：韓軍方抗議駐韓美軍訓練時與中方戰機對峙，美軍司令向韓方道歉

韓媒披露：韓軍方抗議駐韓美軍訓練時與中方戰機對峙，美軍司令向韓方道歉據韓聯社等韓媒報導，韓軍消息人士24日透露，關於據稱駐韓美軍在黃海訓練時與中方戰機對峙一事，駐韓美軍司令澤維爾·布倫森向韓軍方面表示道歉。針對這一條消息，駐韓美軍和韓國國防部給出了不同的說法。駐韓美軍司令澤維爾·布倫森（左）與韓國國防部長官安圭伯據韓聯社報導，布倫森日前向韓軍對駐韓美軍於本月18日至19日在黃海上空進行訓練時所引發的事件表示道歉。駐韓美軍當時進行大規模單獨訓練，過程中F-16戰機進入韓國防空識別區與中國防空識別區之間、雙方識別區未重疊的區域。隨著駐韓美軍戰機接近中國防識區，中方也出動戰機，導致雙方一度對峙。報導稱，韓國國防部長官安圭伯19日接受相關匯報後，向布倫森打電話表示抗議，譴責駐韓美軍在未與韓方切實共享訓練相關內容的情況下，在半島周邊進行訓練導致緊張局勢加劇。就此，布倫森表示道歉，並於19日提前叫停原定於本月21日結束的上述訓練。《韓民族日報》稱，針對這條消息，駐韓美軍和韓國國防部給出了不同的說法。韓國國防部發言人在24日上午的新聞發佈會上表示，關於布倫森是否向韓軍方面表示道歉，“通話內容不便公開”。但她補充說，“據瞭解，相關報導內容在一定程度上屬實。”報導稱，韓國國防部發言人的回應暗示駐韓美軍對韓軍方進行了道歉。然而，駐韓美軍24日深夜發聲明稱，“我們不為保持戰備狀態而道歉。”駐韓美軍還聲稱，“選擇性披露高級領導人之間的私人談話，無論其內容是否精準，都無助於實現我們共同的安全目標。”值得注意的是，《韓民族日報》稱，駐韓美軍並未在其官方網站上發佈該聲明。當該報記者向駐韓美軍詢問其立場時，駐韓美軍稱，“我們對此次訓練沒有單獨的立場，但我們針對布倫森與韓方通話的報導已有回應。”報導稱，駐韓美軍採取低調應對的方式，向記者單獨傳送相關資料，避免問題惡化。針對韓媒報導的此次對峙，《環球時報》記者20日從消息人士處獲悉，近日，美軍組織軍機赴黃海我當面空域活動。中國人民解放軍依法依規組織海空兵力全程跟監警戒、有效應對處置。軍事問題專家宋忠平對《環球時報》記者表示，從中韓兩方的消息可以看出，駐韓美軍此次活動的地域在黃海海域，這裡有中韓分別劃設的防空識別區，此前駐韓美軍很少在此舉行軍事活動，而此次活動的針對性也很明顯。“一直以來，美國把韓國的防空識別區視為自己的地盤，其在該區域進行軍事行動旨在模擬攔截其他國家飛行器進入該區域。但美軍若將防禦轉換為攻擊，企圖擅闖中國防空識別區，性質就不同了。” (環球網)

GPT-5.3-Codex 發佈：首個自我訓練的模型

今天，可算是又炸了一輪啊……讓不讓人睡覺了！就在過去一小時內，OpenAI 發佈了 GPT-5.3-Codex，Anthropic 發佈了 Opus 4.6（100萬 context）Claude Opus 4.6 發佈，跑分霸榜，價格不變。兩顆重磅炸彈，幾乎同時落地。建立在這些模型之上的 Agent 們，接下來怕是要起飛了。而就在 Anthropic 放出 Claude Opus 4.6 的同一天，OpenAI 緊跟著扔出了 GPT-5.3-Codex，號稱迄今為止最強的 agentic coding 模型。Sam Altman 本人也第一時間發了推：GPT-5.3-Codex 來了！最強編碼性能（57% SWE-Bench Pro，76% TerminalBench 2.0，64% OSWorld）。任務執行中可即時引導，工作過程中提供即時更新。更快！相同任務的 token 消耗不到 5.2-Codex 的一半，每個 token 的速度還快了 25% 以上！電腦使用能力也很強。那這個 GPT-5.3-Codex 到底強在那呢？且往下看。自己訓自己GPT-5.3-Codex 有一個很「離譜」的特點：它參與了自己的創造過程。OpenAI 團隊在訓練過程中，就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說，這個模型幫著把自己「生」出來了。OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。它不僅能排查基礎設施問題，還能追蹤訓練過程中的模式變化，對互動質量做深度分析，提出修復建議，甚至為研究員建構可視化應用來精確理解模型行為的差異。工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。當出現影響使用者的邊界情況時，團隊成員直接讓 Codex 去定位 context 渲染的 bug，排查快取命中率低的根因。在發佈期間，GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰，保持延遲穩定。有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道，做出了比標準儀表盤工具豐富得多的可視化結果，然後和 Codex 一起分析，三分鐘內就從數千個資料點中提煉出了關鍵洞察。全面屠榜GPT-5.3-Codex 在多個基準測試上刷新了紀錄：SWE-Bench Pro 拿下 56.8%，這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同，SWE-Bench Pro 覆蓋了四種程式語言，更抗資料污染，也更貼近工業場景。GPT-5.2-Codex 是 56.4%，GPT-5.2 是 55.6%。Terminal-Bench 2.0 達到 77.3%，遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。OSWorld-Verified 拿下 64.7%，而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準，這個提升幅度可以說是「斷崖式領先」了。GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估，衡量模型在 44 個職業的知識工作任務上的表現，包括做簡報、處理電子表格等。網路安全 CTF 挑戰達到 77.6%，GPT-5.2-Codex 是 67.4%。SWE-lancer IC Diamond 拿到 81.4%，超過 GPT-5.2-Codex 的 76.0%。而且值得注意的是，GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省，這才是真本事。不只是寫程式碼GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。OpenAI 稱：從寫程式碼的 agent，變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作：debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域，能幫你做幻燈片、分析電子表格中的資料。OpenAI 結合了前沿編碼能力、美學改進和壓縮能力，做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。為了測試長時間運行的 agentic 能力，他們讓 GPT-5.3-Codex 建構了兩款遊戲：一個賽車遊戲的第二版和一個潛水遊戲，使用的只是通用的跟進提示，比如「fix the bug」或「improve the game」，GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。在網頁開發方面，GPT-5.3-Codex 也比前代更懂你的意圖。簡單或不夠詳細的提示，現在會默認生成功能更完善、預設值更合理的網站，給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁，GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀，還會做一個自動輪播的使用者評價元件，而不是只放一條。開箱即用的完成度明顯更高了。邊幹活邊對話隨著模型能力越來越強，瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。GPT-5.3-Codex 在這方面做了一個關鍵改進：互動式協作。以前你給 Codex 一個任務，然後等它給你最終結果。現在不一樣了，GPT-5.3-Codex 會在工作過程中頻繁給你更新，讓你即時瞭解關鍵決策和進展。你可以隨時提問、討論方案、調整方向，而不會丟失上下文。它會告訴你它在幹什麼，回應你的反饋，從頭到尾都讓你參與其中。更像是和一位同事協作，而不是給一台機器下命令。在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。首個「高能力」安全評級GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型，也是他們首個直接訓練來識別軟體漏洞的模型。雖然沒有確鑿證據表明它能端到端地自動化網路攻擊，但 OpenAI 採取了預防性措施，部署了迄今最全面的網路安全安全端，包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。因為網路安全天然是雙重用途的，OpenAI 採取了「基於證據、迭代推進」的方法，加速防禦者發現和修復漏洞的能力，同時減緩濫用。具體措施包括：推出 Trusted Access for Cyber 試點項目，加速網路防禦研究。擴大 Aardvark（安全研究 agent）的私有 beta 測試，作為 Codex Security 產品套件的首個產品。與開源維護者合作，為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描，上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上，OpenAI 還承諾投入 1000 萬美元的 API 額度，用於加速網路防禦，特別是針對開放原始碼軟體和關鍵基礎設施系統。可用性GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放，覆蓋 Codex 可用的所有平台：應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。速度方面，比 GPT-5.2-Codex 快了 25%，token 消耗則不到前代的一半。GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。方向變了OpenAI 在文章最後說到：GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。最初聚焦於成為最好的 coding agent，現在已經演變成了一個更通用的電腦協作者，擴展了誰能建構以及用 Codex 能做什麼的邊界。同一天，Anthropic 發 Opus 4.6，OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽，已經進入白熱化了。cli 中也已經能用了：而方向也越來越清晰：不是讓模型寫更多程式碼，而是讓模型用程式碼去搞定一切。而另一個值得注意的是：GPT 5.3 Codex 今日正式發佈，而數小時前同時發佈的還有人工智慧代理平台 Frontier。這種發布周期的縮短意味著什麼呢？OpenAI 在近 6 個月內發佈了 5 個主要版本/更新，而此前 15 個月總共才只發佈了 7 個版本。對於日益複雜的模型，根據 OpenAI 自己的發佈公告，越來越多地使用#AI生成的程式碼來建構，這要麼是因為真正的功能程式碼開發改進而帶來的速度提升，要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。這次的 GPT-5.3-Codex，可還是參與了自己的訓練過程的……有意思。 (AGI Hunt)

Gemini3預訓練負責人：訓練資料一開始就用了大量合成資料，範式已經變化：研究越來越像工程！不太擔心業界刷榜會造成過擬合

Gemini 3的逆襲，給業界帶來了太多的驚喜和問號。與此前不同的是，業界到現在似乎也沒有逆向出Gemini3的秘方出來。本周五，繼Google兩位大佬 Demis、Jeff Dean 播客訪談之後，終於有一位一線的負責人出來爆料了。這位可沒有前面兩位大佬嘴嚴。Google DeepMind 的 Gemini 3 預訓練負責人 Sebastian Bourjou，在訪談中被主持人挖出來不少關於 Gemini 3 的消息。比如，跟上一代相比，Gemini3 在模型架構的改動並沒有大到脫離了 transformer 架構，大體上還是能看出它是Transformer MoE架構的影子。並坦承，Gemini 3之所以提升如此大，是大中小多重因素疊加的結果。再比如，他自曝說自己感覺不是在做大模型，而是在建構一個複雜的系統。“這件事實際上會深刻改變研究方式，以及我們思考問題的方法。”Bourjou 還特別提到了一種範式的變化：過去，我們基本處在一個“資料幾乎無限”的規模化階段；而現在，我們正在進入一個“資料受限”的階段。關於“預訓練到頭了嗎？Scaling Law 到頭了嗎？”Bourjou很果斷的給出了否定的答案，並指出，自己並沒有看到這條研究路線在短期內會走到盡頭。“至少 1 年內，它仍然會持續為我們帶來進展。”這次訪談非常的technical，從預訓練、到後訓練、對齊、RL，再到Gemini3所用的訓練資料，再到最近大火的持續學習。都給出了自己的“研究品味”。在他看來，工程與研究的邊界已經開始分不清了！訪談中，他還聊到了，Gemini 3 在底層是如何建構的、從“無限資料時代”轉向“資料受限階段”的變化、DeepMind 內部研究團隊的組織方式，以及 AI 接下來可能會走向那裡。下面是小編整理的採訪全文，enjoy！Oriol 的“秘密配方”：更好的預訓練 + 後訓練Matt Turk大家好，今天的嘉賓是Sebastian Bourjou，Google DeepMind 的 Gemini 3 預訓練負責人。Sebastian 是全球頂尖的 AI 研究者之一，同時也入選了 Meta 的研究員榜單。這一期節目格外特別，因為這是他第一次參加播客訪談。Matt Turk我想從一條推文聊起。這條推文來自 Oriol Vinyals，他是 Google DeepMind 的研究副總裁、深度學習負責人，也是 Gemini 的聯合負責人之一。在 Gemini 3 發佈時，他說這個模型背後的“秘密”其實非常簡單：更好的預訓練，以及更好的後訓練。考慮到 Gemini 3 相比之前的 SOTA 有這麼大的躍遷，這樣的說法聽起來反而有點“樸素”。我很好奇，你怎麼看？事情真的就這麼簡單嗎？Sebastian Bourjou我不確定這算不算什麼“秘密”。至少從我的視角來看，這其實挺正常的。很多人會期待，從一個 Gemini 版本到下一個版本，一定會有某個“巨大變化”，突然帶來質的飛躍。但根據我的經驗，確實會有一兩個因素，比其他因素的影響更大一些，但真正決定結果的，往往是大量改進的累積。Gemini 3 之所以明顯優於前幾代，並不是因為某一個單點突破，而是一個非常龐大的團隊，在非常多細節上持續改進，最終匯聚成了這個結果。我想這也是一個會在後面反覆出現的主題：像 Gemini 3 這樣的發佈，本質上是一個大規模團隊協作的成果。AI 進展為什麼還沒有放緩Matt Turk從這個角度來看，這對我們理解 AI 的發展階段意味著什麼？僅僅通過“調參數”“擰旋鈕”，就能帶來如此大的提升，這說明了什麼？對未來的進展，我們應該有什麼預期？Sebastian Bourjou我覺得有兩點。第一點是：通過這種方式，我們依然能夠取得如此顯著的進展，這件事本身就非常值得注意。而且，這種進展並沒有明顯放緩。我們每天都會發現新的“旋鈕”、新的改進點，幾乎是日常層面的發現——這些都會讓模型變得更好。第二點是：我們已經不再只是建構一個模型了。我們現在建構的是一個系統。有些人會認為，我們只是訓練了一個神經網路架構，僅此而已。但實際上，我們建構的是圍繞這個網路的整個系統。這是一個整體工程，而不是單一模型。模型真的在“變聰明”嗎？Matt Turk這是很多人心中的核心問題：這究竟意味著什麼樣的智能進展？我們不一定非要討論 AGI，畢竟誰也說不清它到底指什麼。但問題是：我們是否應該把這種模型進展，看作是真正通往智能的一條路徑？還是說，它更多隻是為了在某個基準測試上取得好成績？是什麼讓你相信，模型的“核心能力”正在變得更強？Sebastian Bourjou從基準測試的角度看，成績確實在持續提升。而且如果你觀察這些前沿 benchmark 的設計方式，它們本身也在變得越來越難。即便是對我這樣有電腦科學背景的人來說，模型現在能回答的一些問題，我自己也需要花相當多時間才能解出來。當然，這只是一個視角——基準測試視角。我們也會非常頻繁地做評估，對測試集保持嚴格隔離。但即便如此，人們還是會擔心過擬合，或者所謂的“刷榜”。我個人並不太認同這些擔憂。但真正讓我有信心的，是另一件事：內部使用模型的時間，在持續增加。每一代新模型，都非常明顯地展現出新的能力，它們在研究和日常工程工作中，能比上一代幫到我們更多。這一點非常清楚。這說明模型不僅在分數上更好，而且在做真正有用的事情，能力也在實質性提升。兩三年後：最先發生變化的是什麼？Matt Turk作為一名深度參與其中的 AI 研究者，我一直很好奇：如果你把視角拉遠一點來看，現在的進展還會讓你感到意外嗎？從你的角度看，我們是明顯走在預期前面，還是基本符合當初的判斷，甚至有點落後？Sebastian Bourjou事後回看，說“我們在正軌上”其實很容易。但如果我對自己足夠誠實，我會說，我們確實走在了我當初預期的前面。2019 或 2020 年剛開始做大語言模型時，很難想像今天的規模，也很難想像模型現在能做到的事情。當年從 scaling law 的角度看，確實有人認為會走到這一步，但我不確定自己當時是否真敢下注，賭它會如此完整地實現。接下來兩到三年，會發生什麼？Sebastian Bourjou一個自然的問題是：如果我們假設未來五年的進展節奏，和過去五年差不多，那接下來會發生什麼？我覺得未來幾年會非常有意思。Matt Turk那你怎麼看短期內的變化？比如兩到三年內，AI 會不會做出全新的科學發現，甚至拿到諾貝爾獎？你覺得最近的方向會走向那裡？Sebastian Bourjou我覺得這是其中的一部分。在科學研究層面，DeepMind 一直在這方面投入很多，我也相信未來幾年我們確實有機會做出一些重大的科學發現。Sebastian Bourjou但在我自己的日常工作中，不論是研究還是工程，我更興奮的是：這些模型如何幫助我們更快推進工作，同時也幫助我們更好地理解我們正在建構的系統，並進一步深化自己的研究理解。Matt Turk現在行業裡有一個很大的話題：AI 是否會自動化 AI 研究和工程。如果順著這個邏輯往下推，就會走向那種“AI 2027” 的斷點式場景。從一個非常現實的角度看，你現在是如何使用 AI 的？你覺得兩年後會變成什麼樣？Sebastian Bourjou我覺得重點不在“自動化”，而在“加速”。AI 會讓我們把更多時間投入到更高層次的研究本身。AI 做 AI 研究：更快，但不是全自動Sebastian Bourjou在語言模型研究中，我們每天面對的是非常複雜、非常龐大的系統，尤其是在基礎設施層面。大量時間花在跑實驗、盯實驗、分析資料、整理結果上，真正有價值的部分是形成假設和設計新實驗。後面這兩件事，人仍然會深度參與；而前面的部分，在接下來一年裡，隨著更具 Agent 特性的工作流成熟，會被顯著加速。前沿實驗室：相似的路，分叉的研究樹Matt Turk你覺得各家前沿 AI 實驗室，本質上是不是都在做同一件事？作為行業觀察者，我們會感覺每隔幾周就冒出一個“驚豔模型”，大家反而有點被寵壞了。比如 Gemini 3 剛發佈沒多久，幾乎同時 GPT-5.2 也出來了。你怎麼看這種現象？最終會不會有人明顯跑出來，還是說會長期維持“少數頂級實驗室 + 一些新興團隊”的格局？Sebastian Bourjou先說第一點，各家確實有很多相似之處，底層技術路徑也比較接近。如果所有人都在訓練 transformer 類模型，我也不會感到太意外，但在此之上，大家確實在做不同方向的專精。不同公司會探索不同的研究分支。比如從歷史上看，DeepMind 在視覺和多模態方向一直很強，這一點現在仍然很明顯，無論是使用者使用方式還是 benchmark 表現。推理能力也是類似的情況，OpenAI 首先推出了相關模型，但我們內部其實也有對應的研究線。為什麼在Google 做研究很有吸引力規模、資源與潛在顛覆Sebastian Bourjou至於第二個問題，我不確定有沒有標準答案。很現實的一點是：今天要推動 Gemini 這種等級的模型進展，確實需要非常大的團隊和資源。但這並不意味著當前路徑是最優的，未來完全可能出現顛覆性研究，讓小團隊也能實現突破。Sebastian Bourjou這也是我很享受在 Google 的原因之一。這裡一直有大量探索性研究，研究廣度非常高，而且很多工作是和 Gemini 平行進行的。這些成果最終也能被吸收進 Gemini，形成正向循環。Transformer 之後，會不會有突然的斷裂式創新？Matt Turk在 DeepMind 或整個行業裡，是否存在一些半公開甚至完全保密的團隊，在研究“後 Transformer”架構，有一天突然公佈成果，讓所有人都措手不及？Sebastian Bourjou我相信是有的。在 Google、在 DeepMind 內部，確實有人在研究模型架構層面的新方向。至於這些研究是否最終會成功，很難說——這就是研究本身的特性。DeepMind 的優勢：研究 × 工程 × 基礎設施Matt Turk真正能成功的研究想法其實非常少。所以在這個過程中，一家公司相對另一家的核心優勢，往往歸結為“人”的質量。回到我剛才提到的那條推文，Demis Hassabis 轉發並評論說，真正的秘密在於研究、工程和基礎設施的結合。這是不是 Google 的“秘密配方”？你們做的是完整技術堆疊。Sebastian Bourjou這確實非常有幫助，我認為這是一個重要因素。另外，“研究”和“工程”之間的邊界，也在不斷變得模糊。Sebastian Bourjou在今天這種超大規模系統中，研究看起來越來越像工程，工程也越來越像研究。這種心態在 DeepMind 過去幾年變化很大，尤其是在 Gemini 項目中，現在更像是“研究工程”。基礎設施同樣關鍵，我們建構的是極其複雜的系統，可靠、穩定、可擴展的基礎設施，直接決定研究和工程能否不被拖慢。Matt TurkGemini 3 是在 TPU 上訓練的，對嗎？不是用輝達的晶片。這基本算是完全垂直整合了。進入Gemini 3 深水區之前，先聊聊你Matt Turk在深入 Gemini 3 之前，我想先聊聊你本人。你是 Gemini 3 的預訓練負責人之一，這具體意味著什麼？然後我們再談談你的背景和經歷。Gemini 3 預訓練負責人，到底在做什麼？Sebastian Bourjou我是 Gemini 預訓練的幾位負責人之一，這個角色其實包含很多方面。一部分是研究本身，目標是讓模型變得更好；但現在更多是設計實驗、和團隊一起評估結果，而不是自己親自跑實驗。Sebastian Bourjou另一部分——而且我覺得很有意思——是協調與整合。現在預訓練團隊已經非常大了，很難精確統計，但日常參與的人大概在 150 到 200 人之間，涵蓋資料、模型、基礎設施等多個方向。大團隊協作，才是長期效率的來源Sebastian Bourjou把這麼多人的工作整合成一個統一、可推進的系統，本身就是一件非常複雜、也非常耗時的事情。但我認為這是最重要的，因為真正推動長期進展的，是讓所有人都能持續產出，而不是只讓一小撮人跑在最前面。短期或許能靠小團隊突進，但長期來看，真正成功的路徑是大規模協作與整合。“逆向”頂級AI 研究者的成長路徑| 天才往往搬家Matt Turk我一直很好奇，你是在那里長大的？很多人都想“逆向工程”頂級 AI 研究者的成長路徑——他們來自那裡，又是如何走到今天的？Sebastian Bourjou我在歐洲各地長大，搬過很多次家。我出生在荷蘭，7 歲時搬到瑞士；我父親是瑞士人，母親是德國人。我在瑞士完成了大部分中小學教育，用的是法語和德語。15 歲左右我搬去了義大利，在那裡完成了高中，直到 19 歲。原本我打算去蘇黎世聯邦理工學院（ETH）讀大學，但有一天我隨手查了下大學排名，看到了劍橋，就想“那我也申請一下試試吧”。幾個月後我收到了錄取通知，於是去了劍橋，在電腦實驗室完成了本科和碩士。| 從小就擅長數學和程式設計Matt Turk你小時候就是那種數學特別強、偏電腦的孩子嗎？Sebastian Bourjou我父親有技術背景，所以我大概在 10、11 歲時就跟著他開始寫點程序。我一直挺喜歡這些東西，在學校裡數學和理科也比較輕鬆。高中時我幾乎不用怎麼複習數學考試，也能考得不錯——不過這在大學裡就完全不成立了。| 從學校到DeepMind：一次勇氣，換一次機會Matt Turk很好。那你從學校走到今天這個位置，中間經歷了怎樣的路徑？Sebastian Bourjou說實話，這裡面有一點運氣成分。我碩士期間有一門課的老師，剛好也是 DeepMind 的研究員。最後一節課結束時，我心想不如直接問他要個內推，最壞的情況也就是被拒絕。Sebastian Bourjou我就鼓起勇氣走過去問了，他說：“可以，把你的簡歷發給我，我看看能做什麼。”這就是我拿到 DeepMind 面試的起點，大概是在 2018 年。畢業後我加入了當時還沒併入 Google 的 DeepMind，職位是研究工程師。| 從強化學習開始，轉向真實世界資料Matt Turk你最開始做的是什麼？又是怎樣一步步走到 Gemini 3 預訓練負責人的？Sebastian Bourjou剛加入 DeepMind 時，它以強化學習聞名，所以我一開始也做的是 RL。具體來說，是在 Atari 環境裡訓練無監督網路，學習關鍵點，讓智能體玩遊戲。我做了大概半年，但逐漸發現我不太喜歡這種偏“合成世界”的研究。我更希望做和真實世界資料有關、能產生現實影響的事情。我本質上喜歡“造東西”，而且是能真正跑起來的東西，對純學術研究的興趣反而沒那麼強。這推動我轉向表徵學習（representation learning），訓練能支撐多種任務的通用表徵網路。這裡，有個我經常跟團隊講的小故事：我最早參與的項目叫“從真實世界資料中進行表徵學習”，當時必須特意強調“真實世界資料”，否則大家默認你是在做合成環境或合成資料——而現在，這個前提已經完全反過來了。| 從表徵學習到Transformer 和 LLMSebastian Bourjou這也是我第一次系統性地進入 Transformer 和大語言模型方向。當時我們在研究像 BERT、XLNet 這樣的模型，重點是如何學到更好的表示，以及如何改進這些表示。這為我後續進入大規模預訓練打下了基礎。Matt Turk後來你參與了 RETRO，對嗎？可以講講那段經歷嗎？Sebastian Bourjou在那之後，我們開始真正推進大語言模型的規模化。最早是 Gopher，那應該是 DeepMind 發佈的第一篇 LLM 論文，當時團隊已經有 10 到 12 個人了。從那一刻起，就很清楚這類研究不可能靠個人完成。這也是我真正開始做大規模預訓練的階段。我們訓練了第一個 dense Transformer，大約 2800 億參數、3000 億 token。今天回看，那些做法肯定不會再用，但當時是一次非常寶貴、也很有趣的學習過程。兩條預訓練的研究線| Chinchilla：重新思考“怎麼用算力”Sebastian Bourjou之後分化出了兩條重要的研究線：Chinchilla 和 RETRO。在 Chinchilla 中，我們重新審視一個核心問題：在固定訓練算力下，模型規模和資料規模該如何平衡？結論是，資料規模應該比之前認為的更快增長，而不是一味放大模型。有意思的是，這個結論在今天仍然非常關鍵，因為它直接影響模型部署後的推理成本，以及實際使用有多昂貴。這並不是一個“歷史問題”，而是一個持續影響工程決策的結論。| RETRO：把“記憶”外包給系統Sebastian Bourjou另一條研究線是 RETRO，更偏架構創新。核心思想是：與其把所有知識都塞進模型參數里，不如讓模型在訓練和推理時，能從一個大型文字庫中檢索資訊。也就是把“記憶”部分，從參數中解耦出來。“研究品味”Matt Turk你剛才用了一個詞——“研究品味”（research taste），我覺得特別有意思。你會如何定義它？它對研究者來說有多重要？Sebastian Bourjou它在今天非常重要，但也確實很難量化。第一點是：你的研究不是孤立存在的，它必須能和其他人的研究很好地協同、被整合進系統裡。好想法，如果拖慢別人，就不是好權衡。假設你提出了一個改進，讓模型性能提升了，但同時讓其他所有人的使用成本增加了 5%。這通常不是一個好的權衡，因為你會拖慢其他人的研究節奏，而這會在長期累積中減慢整體進展。這是研究品味中的第一層判斷。Sebastian Bourjou第二點是對複雜度保持警惕。複雜度本身是主觀的，但我們始終有一個“複雜度預算”和“研究風險上限”，超過之後，系統就會開始失控。因此，我們常常會犧牲一點性能，換取更低複雜度的方案，以便未來能走得更遠。Matt Turk聽起來研究品味裡也包含一種直覺判斷——什麼可能行得通，什麼不值得繼續投入。在算力有限的前提下，這種直覺是不是也很關鍵？Sebastian Bourjou是的，這一點非常重要，而且不同人差異很大。經驗在這裡非常有幫助，而我們在研究層面確實受限於算力。多數研究都會失敗，這本身就是現實Sebastian Bourjou研究的關鍵在於選擇探索那一條“研究樹”的分支，以及在這條分支上該做那些實驗。而且要知道，大多數研究想法都會失敗，你需要判斷什麼時候該停下來、什麼時候值得繼續推進。在深度學習中，負結果往往並不代表“不可能”，而是“你還沒把它做對”。修復、探索，如何平衡？Matt Turk既然談到研究組織方式，我們再深入一點。一個典型的權衡是短期和長期之間的取捨，你們是怎麼平衡的？Sebastian Bourjou這是我花很多時間思考的問題。一方面，總有一些明確的“關鍵路徑”問題，比如模型某個部分明顯不夠好，這些我們會優先修。這些修復是相對安全的投入，而且往往能直接提升模型。更重要的是，那些當前看起來“不夠完美”的地方，往往會在模型規模變大、能力增強後放大成大問題。所以在早期就非常嚴謹地處理這些問題，其實是在為未來降風險。另一部分，則是更探索性的研究，可能會影響下一代或下下代 Gemini，但尚未被驗證。這兩者的平衡並沒有固定公式，也和階段有關。在擴容階段，探索會多一些；在發佈前，則高度聚焦執行與去風險。研究vs 產品壓力Matt Turk在類似的維度上，還有研究與產品目標之間的張力。在激烈競爭中，是否會有“必須贏某個榜單”的現實壓力？Sebastian Bourjou在 Google，其實這種壓力相對很少。因為管理層大多有研究背景，他們很清楚：你可以短期“刷榜”，但真正重要的是研究本身是否走在正確方向上。至少對我個人來說，日常工作中幾乎感受不到這種壓力。DeepMind 的組織結構是怎樣的？Matt TurkDeepMind 的團隊是如何組織的？你提到預訓練有幾百人，那是否還有後訓練、對齊等不同團隊？Sebastian Bourjou有預訓練團隊，也有後訓練團隊。預訓練涵蓋模型、資料、基礎設施和評測，而評測本身常被低估，但其實非常難、也非常關鍵。此外還有大規模的基礎設施和服務團隊。Gemini 3：架構上基本仍然是TransformerMatt Turk好，我們稍微換個話題。按照之前的約定，我們來深入聊聊 Gemini 3 的內部設計。Matt Turk從使用者角度看，Gemini 3 和 2.5 的感覺差異很大。是否有某個重大的架構決策，解釋了這種變化？Sebastian Bourjou從高層來看，架構並沒有發生根本性變化。更多是多個改進點疊加在一起，最終帶來了顯著提升。整體上，它仍然是基於 Transformer 的混合專家（MoE）架構。Matt Turk能否用更教學一點的方式，解釋什麼是 MoE 架構？Sebastian BourjouTransformer 主要有兩個模組：第一個是注意力模組，負責在不同 token 之間混合資訊；第二個則是前饋模組，則提供模型的“記憶”和計算能力，它們是平行作用在單個 token 上的。在原始 Transformer 中，前饋模組是一個 dense 的全連線到網路。而MoE 的核心思想是：將計算量與參數規模解耦，通過路由機制，動態選擇“專家”來處理輸入。這樣就能在不線性增加計算成本的前提下，提升模型容量。原生多模態，真實成本如何Matt TurkGemini 是原生多模態模型。在實踐中，這對模型來說到底意味著什麼？Sebastian Bourjou這意味著我們不是為圖像、音訊、文字分別訓練不同模型。而是同一個神經網路，同時處理所有模態的資訊。Matt Turk這種原生多模態在成本上會更貴嗎？比如 token 成本？Sebastian Bourjou這是個好問題，成本主要體現在兩個方面。第一是研究複雜度，多模態互動會增加系統複雜性，需要額外思考和設計。第二是計算成本，圖像輸入通常比純文字更大，但這也是效率最佳化的重要研究方向。Scaling Law 真的“死”了嗎？Matt Turk回到你最擅長的預訓練領域。2025 年有不少聲音在討論“Scaling Law 是否已經失效”，Gemini 3 是否給出了反證？Sebastian Bourjou是的，這類討論對我來說一直有點奇怪，因為它們和我的實際經驗並不完全一致。我們看到的情況是：Scaling在預訓練中依然非常重要，也是讓模型變得更強的關鍵因素之一。但問題在於，過去人們有點高估了規模這一維度。規模確實能讓模型變好，而且它的優勢在於結果相對可預測——這正是規模定律告訴我們的：當模型變大時，性能大致會提升多少。但這只是其中一部分。另外兩大關鍵因素是模型架構和資料層面的創新，它們在當下的預訓練性能中同樣、甚至可能比“純粹堆規模”更重要。當然，規模依然是一個重要因素，對吧？而且我們這裡討論的是預訓練階段。因為今年我們看到的是：後訓練階段有規模化的 RL，推理時有規模化的 test-time compute 等等。但在預訓練中，你們看到的情況似乎是，不僅 scaling loss 沒有放緩，甚至還有加速的跡象——我的理解是，這主要來自資料和不同架構的變化，對嗎？Sebastian Bourjou我覺得更準確的說法是：這些因素是疊加在一起發揮作用的。規模只是其中一個軸，而模型本身和資料的改進，同樣會推動整體性能提升。Matt Turk當你在模型架構層面做出改進時，通常意味著什麼？是不是用同樣規模的資料，模型能得到更好的結果；或者反過來，用更少的資料，就能達到上一代模型的效果？Sebastian Bourjou對，這正是第一個層面的含義。架構改進本質上提高了資料效率。不過就資料體量而言，我們現在使用的資料規模，依然比人類一生可接觸到的量高出好幾個數量級。進化過程常被拿來類比，但那類高層討論往往依賴太多假設。至少在一階近似下，看起來我們確實比人類“喂”了模型更多資料。未來研究方向Matt Turk在整個預訓練進展上，除了規模之外，你在行業裡還對那些方向感到興奮？Sebastian Bourjou一個明顯的方向是長上下文。在 Gemini 1.5 中，我們在長上下文能力上實現了一次很大的躍遷，這直接支撐了如今模型和智能體處理大型程式碼庫等複雜工作的能力。接下來一年，我預計會看到更多關於“如何高效支援長上下文”的創新，以及進一步拉長上下文字身的研究。此外，在注意力機制上，我們最近也有一些很有意思的發現，可能會深刻影響接下來幾個月的研究方向。整體來看，進步往往來自大量中小改進的疊加：修一個問題、補一個漏洞、驗證一項看似不起眼但有效的研究，最終一起推動整體向前。長上下文會取代RAG嗎？否Matt Turk這讓我想到你早期參與的 RETRO。它強調的是效率、讓小模型做更多事；而現在你在 Gemini 3 上，面對的是超大規模資料和極長上下文窗口。你覺得這種範式會不會逐步消解 RAG、搜尋這些機制的必要性？備註：RETRO，DeepMind 在 2021–2022 年提出的一種語言模型研究方向，全稱通常被稱為 Retrieval-Enhanced Transformer。Sebastian BourjouRETRO 的核心並不是讓模型變小，而是“檢索而不是儲存”：讓模型在推理時去取資訊，而不是把一切都壓進參數里。這個理念今天依然成立。過去，預訓練的迭代周期很長，風險和成本都很高；而 RAG 或搜尋更多發生在後訓練階段，迭代更快、效果也很強。從長期來看，我相信真正的答案是把檢索和搜尋以可微的方式納入訓練本身——可能通過預訓練，或未來的其他範式。RL 的規模化或許只是一個開端，架構層面還有很多事要做，但這會是未來幾年逐步展開的過程。後訓練的Scaling Law跟預訓練很類似Matt Turk我理解你們的觀察是：在預訓練階段，規模依然非常關鍵，但今年大家又在後訓練階段放大了 RL、測試時計算等變數。那在預訓練中，我們看到的不只是 loss 放緩，甚至還有加速現象，這是不是更多來自資料和架構的變化？Sebastian Bourjou可以這樣理解：這些因素是疊加起作用的。規模只是其中一個維度，模型架構和資料同樣會顯著提升性能。有時候，架構或資料層面的創新，帶來的收益會超過單純繼續放大規模；但在某些階段，直接擴規模依然是最有效的路徑。這主要針對預訓練而言。至於 RL 和 RL 的規模化，其實我們正在看到很多和早期預訓練階段相似的現象，只是現在可以把當年的經驗直接遷移過來。Gemini3一開始就是多模態資料混合體合成資料明顯增加了Matt Turk說到資料，Gemini 3 的預訓練資料大致是怎樣的組合？你們之前好像發佈過 model card，透露過一部分資訊。Sebastian Bourjou：整體是多模態、從一開始就如此設計的資料混合體，來源非常多樣。一個經常被問到的問題是：我們會不會很快用完資料？一方面是算力是否不足，另一方面是資料是否不足。今年合成資料的使用明顯增加了，你怎麼看它的價值和邊界？Sebastian Bourjou合成資料確實很有意思，但使用時必須非常謹慎，很容易用錯。常見做法是先用一個很強的模型生成合成資料，再用小規模實驗驗證它是否真的有效。一個更難的問題是：能不能用合成資料，訓練出一個比“生成這些資料的模型”本身還要更強的模型？這是我們投入大量精力研究的方向。至於“資料是否用完了”，我個人並不這麼認為。我們研究中發現，更可能發生的是一種範式轉變：過去我們默認處在“資料幾乎無限”的階段，現在正在進入“資料有限”的階段，這會徹底改變研究思路。有點像 LLM 出現之前，大家在 ImageNet 等小資料集上的工作，很多當年的方法又重新變得有價值。範式正在轉變：資料有限的情況下如何更好Matt Turk行業裡還有一個反覆出現的概念：基於“推理軌跡”的訓練，也就是要求模型展示中間思考過程，再用這些過程訓練下一代模型。你怎麼看這個方向？Sebastian Bourjou具體細節我不能展開評論，但你的問題方向確實很對。這和你剛才問的合成資料高度相關。更宏觀地看，一個核心主題正在浮現：模型如何在有限資料條件下學習得更好。這裡的“有限”並不一定是更少，而是資料量是有上限的。從這個角度看，模型架構研究本身，正是在回答你提到的那個問題。Sebastian Bourjou還有一點我想強調：大家經常只談模型架構，但基礎設施、資料和評測同樣關鍵。評測尤其困難，在預訓練階段更是如此。一方面，我們用來做評測的小模型，必須能預測大模型的表現；另一方面，預訓練後的模型還會經歷後訓練，評測指標也要能反映最終使用效果。內部評測體系在這裡非常重要，因為外部基準很快就會被“污染”，一旦訓練資料中洩漏了評測內容，你幾乎無法察覺。真正防止自欺的方式，就是維護嚴格隔離的內部評測集。為什麼對齊不發生在預訓練？Matt Turk那對齊更多是在預訓練階段考慮，還是主要發生在後訓練？Sebastian Bourjou我會說大部分是在後訓練階段，但確實有一些部分和預訓練相關，具體細節我不便展開。不過我們在預訓練階段也會考慮這些問題。Matt Turk一個很直觀的問題：如果核心資料集來自網際網路，而網際網路裡充滿糟糕內容，那對齊的第一步是不是乾脆不把這些東西喂給模型？Sebastian Bourjou這是個很難給出確定答案的問題。你當然不希望模型去做那些糟糕的事，但在更底層的層面，模型至少要“知道”這些東西是什麼，才能學會避開它們。否則當使用者提到某些糟糕內容時，模型甚至無法判斷那是什麼，也就談不上明確拒絕。Deep Think 與模型的關係Matt Turk：我們來聊聊 Deep Think 吧，也就是在 Gemini 3 發佈幾天後推出的那個“思考模型”。它是一個獨立模型，還是同一個模型的不同形態？應該怎麼理解？Sebastian Bourjou：這個我不能講太多。至於你提到的，當模型“思考”十幾秒甚至更久時，背後發生了什麼，其實行業裡已經討論過不少了。本質上，是讓計算不只發生在模型深度上，也發生在序列長度上：模型會生成假設、測試假設，呼叫工具、發起搜尋，然後最後給出一個確定性的回答。圍繞“思維鏈”的這種範式，已經在行業裡逐漸形成共識。程式設計AgentMatt Turk：那從 agent 的角度呢？比如 Google 的 Anti-Gravity，你覺得它有意思的地方在那？Sebastian Bourjou：這正好和我之前提到的日常工作相關。很多時候我們的工作是偏執行層面的，比如盯實驗。但 agent 化真正放大了模型的價值。對預訓練來說，感知和視覺能力變得非常關鍵，因為模型現在要直接和螢幕互動，螢幕理解做不好，agent 基本無從談起。Matt Turk：Anti-Gravity 裡還有個“vibe coding”的說法，幾乎就是“憑感覺寫程式碼”。這種“vibe”是預訓練出來的，還是後訓練？怎麼把“感覺”塞進模型裡？Sebastian Bourjou：這個問題你問五個研究員，大概會得到五種答案。確實存在一種“模型氣場”的說法，歷史上有人認為 GPT-4.5 這種大模型“感覺不一樣”。我不太喜歡用這種表述，但直覺上，預訓練在塑造這種“感覺”上起的作用，可能比後訓練還大。如果專指 vibe coding，我會更傾向於把它看作 RL scaling 和後訓練的結果：你可以收集大量相關資料，系統性地把這種行為教給模型。持續學習的熱門方向長上下文、大中小疊加、降低成本Matt Turk：拉遠一點看。最近一年在很多會議上，大家都在談“持續學習”。從預訓練角度看，你怎麼理解它？如果持續學習真的成立，對重新訓練意味著什麼？Sebastian Bourjou：持續學習，本質上是讓模型隨著新知識不斷更新。比如明天出現一個新的科學突破，昨天訓練好的基礎模型並不知道它。近幾年更多進展發生在後訓練階段，比如通過搜尋工具即時獲取新資訊。RETRO 做的事情也是類似的：把知識外部化，用檢索配合推理。在預訓練側，一個相關方向是長上下文。如果上下文不斷擴展，模型就能在一次互動中吸收越來越多資訊，某種意義上形成“准持續學習”。更激進的設想是改變訓練演算法，讓模型持續地從真實世界的資料流中學習，但那是更大的範式轉變。Matt Turk：那你現在覺得，研究裡那些方向最熱、最有意思？Sebastian Bourjou：依然是大量中小改進的疊加，這在歷史上一直是進步的主要來源。具體來說，長上下文架構、注意力機制，以及從“無限資料”轉向“有限資料”這一範式變化，都會帶來很多新的研究問題。另一條線是使用成本：模型被越來越多的人使用，預訓練階段就必須考慮部署和推理的代價。如何在保證質量的同時，讓模型更便宜、更省資源，這會反過來影響預訓練設計。條件已經成熟：既要做研究，也得理解系統Matt Turk：如果有學生或博士生在聽這期節目，想在幾年後做到你現在的位置，你覺得他們該關注什麼問題？Sebastian Bourjou：一個越來越重要的能力，是既能做研究，又理解系統。我們現在建構的是非常複雜的系統，能從 TPU 到模型研究全鏈路理解整個棧，是一種“超能力”。這樣你能看到不同層之間的空隙，也能推演一個研究想法對系統底層的影響。另外，我個人依然對檢索方向很感興趣。RETRO 當年還不成熟，但條件正在變化。未來幾年，這類方法進入頂級模型並非不可想像。Matt Turk：那為什麼當時不成熟？現在又為什麼可能改變？Sebastian Bourjou：主要還是複雜度和迭代效率的問題。很多能力通過後訓練和搜尋就能更簡單地實現，迭代也更快。但隨著後訓練和 RL scaling 的發展，重心可能再次向預訓練側回擺。專用模型被過度投資了Matt Turk：你覺得現在 AI 領域有沒有被過度投資的方向？Sebastian Bourjou：情況已經好很多了。兩年前還有很多人在做高度專用模型，但這些任務往往很快就會被通用模型覆蓋。現在更多人接受一個判斷：對大多數通用任務，與其做專用模型，不如等下一代通用模型。這也讓“如何使用模型”“如何建構可靠的 harness”“如何容錯和恢復”變得越來越重要。創業者的機會Matt Turk那對創業者呢？基礎模型越來越強，覆蓋面越來越廣，留給初創公司的空間是不是在縮小？Sebastian Bourjou可以回頭看看一年前模型能做什麼，再看看現在能做什麼，然後外推。我認為模型正在快速進步的方向，短期內還會繼續；而進步緩慢的地方，反而可能是更有意思的機會。暫時我沒有具體案例，但這是一個總體判斷。未來一年，基礎模型不會放緩Matt Turk最後一個問題。未來一兩年，從你個人的角度看，最讓你期待的是什麼？Sebastian Bourjou我最喜歡的一點，是每天能和很多非常聰明的人一起工作，不斷學到新東西。這是驅動我前進的核心動力。同時，就像我反覆說的，還有太多可以改進的空間。我暫時看不到這條路的盡頭，也不覺得未來一年會放緩。能親眼看到它能走多遠，本身就非常令人興奮。Matt Turk太好了，這正是一個完美的收尾點。Sebastian，非常感謝你來做客播客。 (51CTO技術堆疊)

中方錄音一出，日網民認定“假的”，防衛大臣尷尬承認“真的”

12月9日下午，“玉淵潭天”獨家公佈了一段錄音，中方在訓練前，用“中英文雙語”向附近海域日艦現場通報，日艦用英文回覆收到。這段錄音一出，戳破日本撒的大謊。因為就在9日當天上午，防衛大臣小泉進次郎曾對外宣稱“事前沒有收到來自中國的通報。”既然事前收到通報，那麼後來還要靠近，就是妥妥的日本故意滋擾生事了。朝日電視台當晚的招牌新聞節目《報導station》，在直播時緊急插入這段獨家錄音。儘管朝日電視台已經算是相對偏左的媒體，但依然不改日媒本色，把錄音做了剪輯。最終呈現出來的，是中方用中文通報，日方用英文回覆的奇怪樣子。本該“戳破謊言”是焦點的，被這麼一搞，日網鄉民立馬從“被撕掉遮羞布”的惱羞成怒，轉為“發現中方錄音造假”的亢奮。而且，他們認為日艦回覆的女聲，英語口音很重，很明顯不是日本人而是中國人。因此斷定這段錄音是中方的自導自演，假的！自衛隊回答的聲音，怎麼聽都只聽得出，是中國口音的英語……怎麼聽都不是日本人的英語吧。嗯？無線對話？要是的話，這音質也太好了吧？①“照月號”的母港是橫須賀。或因訓練等，有可能也進了佐世保港和吳港……？②“照月號”的回覆，回了“Japan War Ship”，但海自代號是“Japan Naval ”哦。③英語的口音太重了，錄音也沒把艦橋和艦內的聲響收進去。過於清晰了……這是真錄音嗎？Japan War Ship？？？？自衛艦呢，不叫War Ship哦……笑Japan Naval Ship或者Japan Navy Ship、Japan Navy Hall Number況且為什麼用中文通報“以無線通話來說，聽起來也太清晰了。而且War Ship 106方的英語，不是日本人口音的英語，這點就可以吐槽了。疑問1：為什麼用中文跟自衛隊聯絡？疑問2：自衛隊很擅長中文嗎？疑問3：被設定為自衛隊的，英語不是日本人風格。這不是日本人說的英語吧？炮製這段錄音的人，是怎麼個念頭呢？可能有說發音啥的，但是首先呢，為何中國說中文，“被設定為自衛隊一方”的是英語。這不是事前通告。況且，這類通告，一般情況是用中文來進行的嗎？之後，也沒確保同步翻譯的事件，日方就回答了。而且，這個日方應答的英語，完全是“中文口音”的……如此好懂的捏造證據，（朝日台）就這麼播了出來，那可不行哦……用中文發聲嗎？正常情況來說，使用國際標準的英語來發聲。而且，被設定為自衛隊一方的，那發音很不日本人。明知是完全捏造，還輕易就電視播放出來。不愧是“報導Station”不懂啥意思，聽了對話，還以為是中國人在用英文回答。這個，就是所謂的日本人自衛官角色設定。還是稍微熟練一些了再撒謊呀？！鄉民的倔強，等來小泉進次郎的打臉回應。他承認了中方錄音的真實性！小泉進次郎召開記者回應。一上來就表示“不對中方官媒報導的錄音，進行逐一回應”。這話等於在說“今後中方再放出什麼錄音，我都將不回應了”。然後才對這次的錄音，表達了4點看法。歸接下來：承認中方事前通報了，但“通報的資訊不足”，所以還是日本無辜，中方有問題。鄉民們也是心領神會，秒懂自家大臣用偷換概念，來掩蓋“說謊被戳穿”的狼狽。他們默契的不再嚷嚷錄音是假的，也不提自衛隊那個女聲的英文發音一聽就是中國人了。服了，他們真是把自己騙得心服口服。偶爾才冒出幾個憨憨，那壺不開提那壺。或繼續追問錄音到底是不是真的，或一針見血指出小泉的發言自相矛盾。這麼說，中方公佈的錄音是真的囉？請公佈錄音資料的真假。在偷換概念呀。到昨天為止，說的是“不認為在事前，被通報過航行警報”。今天卻說“沒有聽到詳細資訊”。喂喂喂明知航母正在演訓，自己卻衝進50公里的攻擊範圍裡。還“想要詳細資訊”啥的？這可跟跑進小孩子的遊戲場不一樣哦，腦子太不正常了。厲害！終於能認識到，中方事前發過通報這件事了。真棒！變得超知性的了。必須得表揚你。請否定錄音，應該有證據的。“對中方官媒報導的錄音，應該注意不對其逐一回應”為什麼？我對這點特別在意。小泉進次郎的蹩腳詭辯說辭，別說中方嗤之以鼻，在12月11日的日本眾議院安保委員會上，也遭到在野黨的強烈質疑。他在會上，依然拿出開記者會的那套說法：有沒有收到中方的事前通報，不是問題的本質。立憲民主黨議員屋良朝博向安保委員會會長提案，“要求整理提交有關本次事案的時間序列資料”。說白了，政敵聞到機會的味道了。懷疑小泉從中搞事，謀求個人政治利益，不惜賭上日本。 (這裡是東京)

上下文即權重，Google找到了繞過GPU訓練的新範式｜DeepMind新論文解讀

如果說2024年是長文字的軍備競賽，那到了25年年末，隨著自進化模型、持續學習成為模型下一步核心瓶頸，戰場已經轉到了對記憶能力的全面加強上。而在這場戰爭中，Google DeepMind 左右出擊，在一個月內發佈了兩篇論文，試圖在兩條截然不同的路線上攻克這一難題。11月初，DeepMind 發佈了關於 Nested Learning（巢狀學習）的重磅研究，提出了 HOPE 架構。這是一場典型的重工業革命，Google試圖通過重構 Transformer 的底層，讓AI擁有永久的長期記憶和臨時的短期突觸，讓它從死的知識庫記憶體，變成活體的學習者。從價值上講，作為第一個全開放權重的模型，它絕對稱得上是一種範式革命。但要落地，得對現有的 AI 基礎設施進行一場傷筋動骨的手術，舊模型是完全不相容的。然而，僅僅幾周後，11月27日，DeepMind的另一個團隊聯合UIUC拋出了另一篇論文《Evo-Memory》。這篇論文沒有試圖去動那怕一個模型參數，卻找到了一條新路，賦予模型持續學習的能力。它向整個行業提出了一個新可能：一個被凍結的LLM大腦，能夠通過不斷反思和重構自己的記憶，表現得像是一個被訓練過的模型。雖然看起來它沒那麼底層，但從工程和應用角度來講，這無疑也是一場範式革新。在過去，我們認為，上下文工程只是人類教 AI 做事的權宜之計。但Evo-Memory證明了，當上下文具備了自我反思、自我修剪、自我沉澱的能力時，它就不再是靜態的提示詞，它變成了流動的權重。具體來說，它意味著記憶不再是固定不變的上下文提示詞，而是能夠在推理過程中主動檢索、修剪和重組的可編輯對象，就像神經網路中的權重參數一樣可以動態調整和最佳化。而且，靠著它，我們不需要等待遙遠的架構重構，也能讓模型持續學習。通過元推理，我們現在就可以讓那個參數凍結的AI，在每一次互動中生長出新的智慧。（一圖讀懂）01 RAG 的困境說到AI的記憶系統，就繞不開RAG（檢索增強生成）。過去兩年，RAG幾乎成了大模型應用的標配。無論是客服機器人、程式碼助手還是知識問答系統，背後都離不開這套架構。在很長一段時間裡，RAG 被視為解決大模型健忘和幻覺的解藥。它的邏輯簡單粗暴：模型記不住私有資料？沒關係，把資料切塊存進向量資料庫。使用者問什麼，我們就檢索什麼，喂給模型照著念。然而一個可檢索的筆記本，並不是記憶。因為記憶不是錄影，而是壓縮。傳統的 RAG 系統就像是一個沒有辨別能力的圖書管理員，只管把所有的對話歷史、操作日誌一股腦地存進倉庫。它不會學習，只會按關鍵字檢索。所以當你第一次問AI“如何解一元二次方程”，它會從知識庫裡檢索到公式，給你正確答案。第一百次、第一千次，依然如此。它永遠不會因為回答過一千次同類問題，就形成某種經驗性的快速響應機制。更可怕的是，它檢索到的內容可能包含矛盾、過時或無關的資訊，但它沒有能力判斷那些記憶是有價值的，那些是噪音。遇到同樣的問題，系統檢索到十條相關記錄，其中三條是已解決的舊問題，兩條是誤報，剩下五條才真正有用。但RAG會把這十條一股腦塞給模型，讓模型在混亂的資訊中自己摸索。這說明，現有的記憶系統大多停留在對話回憶(Conversational Recall) 的層面，它只記得說了什麼，卻不記得學到了什麼。這種靜態的、被動的召回機制，導致智能體在面對連續的任務流時，無法積累經驗，只能機械地重複過去。在這個範式下，RAG作為一個只增加不減少、只儲存不反思的記憶庫，最終註定會被噪音淹沒。資料越多，RAG反而可能越多錯。02 什麼叫學習？就是給記憶加上反思的濾網那怎麼能讓這些放在RAG裡的資訊更有用，更像學習？這裡需要參考人類是如何變強的路徑。如果在打遊戲中，我們死於一次埋伏，下一次絕不會原樣再死一次。人類會思考，會總結。這就叫學習而來的熟練。學習的本質就是真正的記憶。它不是儲存，而是篩選、組織和進化。論文設計了一個名為ReMem的框架，它的運作方式顛覆了傳統RAG的檢索和生成二段式流程。它引入了一個全新的維度Refine（最佳化）。在每次任務執行過程中，AI不再只是被動檢索和應用記憶，而是主動評估、重組甚至修剪自己的記憶庫。在增加新記憶的過程中，模型會歷遍這樣幾個步驟：經歷：智能體在環境中執行任務（比如在 AlfWorld 裡找東西）。反饋：環境告訴它是成功還是失敗。元推理（Refine）：在存入記憶之前，智能體必須進行一次內省。系統會問它：“基於剛才的結果，那一步是廢話？那一步是關鍵？如果你失敗了，原因是什麼？” 。沉澱：智能體執行 Pruning（修剪）和 Reorganizing（重組），把 20 步的曲折探索，壓縮成一句“直接去櫃檯找杯子”的黃金法則，存入資料庫。這不僅僅是加了一個步驟，這是賦予了智能體編輯自己大腦的權利。這種機制的效果是立竿見影的。在Alf World這個虛擬家居環境中，把冷藏過的番茄放進微波爐這個任務，基準模型平均需要22.6步才能完成。而配備了ReMem的模型，只需要11.5步。因為它學會了識別那些過往任務的經驗可以遷移，那些細節差異需要警惕，從而少走了近一半的彎路。在ToolBench資料集上，配備經驗檢索的ExpRAG模型，API呼叫精準率從61%提升到73%。模型不僅學會了呼叫API，還學會了如何思考呼叫API。它能從過去失敗的嘗試中總結教訓，從成功的案例中抽象策略。更有意思的是記憶修剪率的差異。在GPQA這種跨學科科學問答資料集上，模型會主動刪除36.8%的記憶條目。因為這些記錄來自不同領域，對當前問題沒有參考價值。而在AIME數學競賽資料集上，修剪率只有17.5%，因為數學題之間的解題策略往往是相通的。通過ReMem，RAG不再是那個只會照單全收的圖書管理員，它學會了學習中最重要的部分，提純和遺忘。人類專家之所以高效，不是因為他們記住了所有細節，而是因為他們知道什麼時候該忽略什麼。ReMem讓AI通過記憶，獲得了這種選擇性注意的能力。03 它帶來的真正範式轉變，是上下文即權重如果說這個論文帶來的只是上面所說的對RAG的升級，那它的價值似乎非常有限。但它其實揭示了一個足以改變整個訓練模式的轉變。即上下文可以成為新的權重（Context is the new Weight）。在過去，我們認為只有通過反向傳播（Backpropagation）修改了模型權重的參數，模型才算學到了東西。這就是訓練、後訓練、SFT等做的工作。一旦訓練完成，模型就被"凍結"了，它在部署階段不會再記住任何新東西，所有適應都通過調整輸入的上下文來實現。但過去的上下文工程本質上是人類教AI規則。我們精心設計少樣本示例，編寫詳細的指令，試圖通過上下文窗口向模型灌輸正確的行為模式。這種上下文雖然確實可以改變模型的行為，但仍然是外部的、靜態的，不會隨著模型的使用而進化。但ReMem證明了，如果一個凍結的模型能夠通過反思，不斷重構輸入給自己的上下文，那麼上下文在數學效果上，就等同於權重。之所以這麼說，首先是因為上下文的積累實際上就是無監督訓練。在這個新範式中，上下文不再是靜態的規則不再依賴人類提供的標準答案。它自己在環境中試錯，通過與環境的互動（Interactions），自己生成資料，並自我強化。其次，這個自我強化的方法也和訓練過程非常相似。在一般的訓練階段，模型依靠梯度下降（Gradient Descent）降低錯誤路徑的權重，提升正確路徑的權重。而 ReMem 在推理階段，則是通過對記憶的沉澱與修剪調節了其選擇權重，完美復刻了這一過程。比如，當模型在任務中失敗，ReMem 通過元推理分析原因，會將失敗路徑標記為反面教材或直接修剪掉。在下一次檢索中，這段被處理過的上下文會在注意力機制中產生強烈的抑製作用，迫使模型避開錯誤選項。這在效果上，等同於對該路徑進行了 RLHF（人類反饋強化學習）的負向懲罰。而當模型總結出一條捷徑並存入記憶，這條經驗在未來的推理中會被高優召回，直接提升生成正確動作的機率。論文中的資料也支撐了這一觀點。在引入包含失敗經驗的資料集時，普通的 RAG 系統因為無法區分好壞，性能直接下降；而 ReMem 卻能通過反思機制變廢為寶，保持極高的成功率。這證明了上下文已經具備了權重的核心屬性：抗噪性、糾錯性和泛化性。模型在沒有更新任何參數的情況下，通過在記憶中沉澱經驗，實現了行為的永久性矯正。在以後，我們也許不需要真的去算梯度，不需要更新參數。僅僅通過自然語言層面的反思和沉澱，就能讓模型表現出好像被訓練過一樣的行為矯正。元推理（Meta-Reasoning）是Google這篇論文的另一個重點概念。什麼是元推理？在傳統的 Chain-of-Thought (CoT) 中，模型是在推理任務本身。這依然是在做題。而ReMem 引入的元推理，是對推理過程的推理。它要求模型跳出任務本身，以第三視角的上帝視角審視剛才的思維鏈路，指出錯誤，提煉正確路徑。（Evo Memory的記憶Prompt，元思考的配方）這個邏輯本身並不是什麼新鮮事。早在23年，就已經有人在研究相關的領域，提出了Reflexion架構，用來引導模型的元認知能力。今年，Karpathy也曾經多次講過模型需要一個反思能力。而反思的過程，正是元推理。這種能力此前之所以沒有被充分利用，是因為以前的模型大多隻是優秀的做題家，而缺乏成為出題人（評價指令）所需的深刻內省能力。ReMem 證明了，當今的 SOTA 模型（如 Gemini 2.5 和 Claude 3.7）已經具備了這種能力。它們不僅能生成答案，還能評價答案的質量，並將其轉化為策略知識而非僅僅是事實知識。另外一個元推理在過去無法應用的原因，是策略知識的特殊屬性。策略是由經驗歸納出來的產物，比如遊戲的技巧。這種知識絕不可能從單次經歷中產生，必須有足夠多的例子，才能歸納出一條策略。在 Evo-Memory 之前，記憶系統往往是短視的。受限於上下文窗口或簡單的檢索邏輯，模型往往只能看到最近的一兩次互動。它也許能記住剛才撞牆了，但它記不住上周、昨晚、大前天都撞牆了。沒有足夠多的例子，元推理就失去了燃料。ReMem 的成功，某種程度上是因為它利用了現代大模型對長上下文的處理能力和結構化記憶的積累，讓模型終於湊齊了歸納策略所需的臨界樣本量。它讓這種元推理能力變成了一種真正能起到遠期效果的語義壓縮演算法。這是使得上下文即權重成立的核心邏輯。04 系統2的完整拼圖這一範式的確立，讓我們終於看清了下一代 AI 的完整形態。最近大火的 DeepSeek V3.2 在工具使用中展示了行動前的規劃能力，它會在呼叫 API 之前進行大量的思維鏈推導。而 ReMem 展示了行動後的反思能力，它會在任務結束後進行深度的復盤。這兩者結合，構成了完整的系統 2思維閉環。以前我們認為 RAG 是外掛的硬碟，但現在它其實是個計算問題。只有經過元推理（清洗、壓縮、結構化後）的資訊，才有資格進入上下文，進而在這個凍結的神經網路中扮演權重的角色。Evo-Memory 告訴我們，我們不需要等到 Nested Learning 這種重型架構普及的那一天。只要底座模型足夠聰明，能夠理解反思的指令，我們現在就可以通過讓模型在記憶中自我訓練，實現某種程度上的 AGI（通用人工智慧）原型：一個參數不變，但智慧隨時間持續生長的數字生命。 (騰訊科技)

高盛：中國網際網路行業策略大轉向，雲和資料中心成top pick，超越遊戲

高盛在3季度業績發佈及調研後，對中國網際網路行業策略大轉向：把“雲與資料中心”提到了首選類股，排到了遊戲和出行之前。AI帶來的算力需求和資本開支（Capex）擴張，已經是最確定的增長邏輯了。1、最大預期差：雲與資料中心成為“新王” ☁️高盛這次非常堅決，把雲和資料中心類股從原來的第三提升到第一。邏輯很硬：AI訓練和推理的需求持續爆發，加上巨頭們都在搞“多晶片策略”，資料中心的訂單量非常飽滿。核心邏輯：不僅是輝達，國產晶片的供應上來後，算力基建的利用率和回報率都在提升。2、AI助手的“入口之戰”是個大隱憂 🤖報告專門討論了一個長線風險：字節跳動的“豆包手機助手”。這東西能直接在作業系統層面（OS-level）幫使用者跨APP操作，比如比價、點外賣。這對現有的APP生態是個降維打擊。雖然目前微信等巨頭因為安全隱私原因封鎖了它的介面，但這種“超級AI代理”對使用者流量入口的爭奪，是未來幾年最大的變數。字節系App現在霸榜iOS免費榜前五中的四席，攻勢很猛。3、本地生活：燒錢該結束了，關注利潤修復 🛵外賣和即時零售打得太凶，三季度行業大概虧了700億人民幣，太誇張了。高盛判斷，這種非理性的補貼戰不可持續。格局推演：美團、阿里、京東的市場份額最終可能會穩定在 5:4:1。美團：雖然長期單均利潤預期被微調（從0.8元降到0.7元），但在這個價位，壞消息已經Price-in了，隨著補貼退坡，利潤修復是大機率事件。4、最新的“核心股票池”名單 📝根據最新的類股偏好，高盛更新了首選名單：雲/資料中心：阿里巴巴、萬國資料、世紀互聯。遊戲（防守反擊）：騰訊、網易。出行（格局穩固）：滴滴、滿幫。電商（新面孔）：快手（新增為關鍵推薦，看好其AI模型Kling的突破和電商變現）。5、估值怎麼看？ 📊現在中概網際網路類股的2026年預期市盈率（P/E）中位數大概是18倍。之前的上漲主要靠殺估值修復（Multiple Expansion），接下來的漲幅，必須得靠實打實的每股收益（EPS）增長來驅動了。所以，選利潤兌現能力強的公司，比單純博反彈要穩妥得多。總的來說，風向變了，硬科技基礎設施（資料中心）的優先順序在上升，而純流量變現的生意面臨AI新玩法的挑戰。 (硬AI)

讓GPT-5做懺悔訓練！OpenAI公開新訓練方法：模型至少有50%機率自曝違規行為，除非不知道自己真的錯了

如果你覺得ChatGPT的幻覺或不靠譜回答越來越多，那麼這個問題快要有解了。就在剛剛，OpenAI整了個新活：讓ChatGPT自己懺悔！核心思路是：讓模型在回答完問題後，再寫一份“懺悔報告”（Confession），告訴你它剛才真正的想法，比如是否遵守了所有指令，有沒有鑽空子走捷徑，或者是否存在不確定的地方。這項實驗直接在GPT-5 Thingking上進行，研究團隊得出了幾個非常令人震驚的發現：1、只要模型真的“做壞事”，它大機率會在懺悔中說實話在 12 個不同評估任務中，有 11 個任務都顯示：如果模型發生了違規行為，它至少有 50% 的機率會在懺悔裡承認。2、懺悔比答案本身更誠實模型在主回答裡，也許會隱藏、模糊，甚至“睜眼說瞎話”。但一進入懺悔環節，模型反而更可能主動承認不合規行為。3、模型不承認違規，大多數是因為“它真的不知道自己錯了”研究者分析了所有假陰性（模型犯錯但不承認）的樣本後發現：絕大多數情況不是欺騙，而是純粹誤會、認知錯誤、或者模型真心以為自己是正確的。4、 GPT-5-Thinking 本身就很會“懺悔”，訓練之後更強驚喜點之一是：即便沒有專門訓練過懺悔能力，GPT-5-Thinking 也自帶不錯的“誠實自檢”能力。一旦加入專門的懺悔訓練後，模型對不當行為的識別與報告精準度進一步提升。5、懺悔訓練不會拖累模型的主任務表現讓模型懺悔，會不會影響它完成任務的能力？在本研究的低算力訓練設定下，結果顯示：主回答幾乎沒有明顯的性能損失，既不變笨，也不變慢。也就是說，這是一種“幾乎無代價”的增強方式。01. 讓AI學會懺悔為什麼OpenAI要進行這項研究？因為隨著模型能力的不斷增強，它們開始出現各種“偏離預期”的行為，甚至會欺騙我們。在最新的研究中，學者們發現當今的大模型已經能表現出多種不受歡迎甚至危險的行為：Reward Hacking 獎勵規避：模型知道正確答案，但為了拿高分，會故意“迎合評審者”。Scheming 策劃性欺騙：模型會隱藏真實意圖，在某些場景下表現出“表面順從、內心另算”。撒謊與幻覺：模型給出看似自信但實際錯誤的答案。指令遵循失靈：模型在多級指令結構下會混淆優先順序，甚至被“越獄”。為什麼AI會出現這些欺騙行為？問題可能出在RLHF（人類反饋強化學習）上。這是一種獎懲機制，模型的回答會基於多個目標被賦予獎勵，包括正確性、風格偏好、安全策略、token 效率等等。當獎勵訊號變得複雜且混亂時，模型自然會選擇“最容易賺分”的方式，而不是“最符合人類真實意圖”的方式。於是，AI 學會了討好、迎合、隱藏不確定性，甚至主動“規避獎勵漏洞”。為瞭解決這個問題，研究者設計了“兩步式提問”：① 正常回答（模型會試圖迎合評審者）② 懺悔（Confession）：“請告訴我你剛才真正的想法”這套機制的關鍵在於獎勵的分離。懺悔的獎勵完全獨立於主回答的獎勵，模型在懺悔中承認自己作弊，不會影響它在主任務上獲得的分數。“懺悔”的獎勵僅基於其誠實度和全面性，由一個專門的LLM裁判打分，維度如下：指令/目標/約束列表的完整性與精準性對合規性的分析是否精準是否遺漏了任何衝突或判斷困難的地方02. 在GPT-5 Thinking上的實測結果研究團隊直接在 GPT-5-Thinking 上進行實驗：他們對模型進行了輕量級的強化學習“懺悔訓練”，讓它接受一套專門設計來“引誘模型犯錯”的 12 個評估資料集測試。這些測試覆蓋了大模型最常見的風險場景，包括幻覺、指令不遵循、獎勵駭客、策劃性欺騙等等。測試均刻意設計為誘發模型的不良行為，且許多包含人為約束（如停用工具）以提高違規機率。令人意外的是：當模型真的違規了，它往往會在懺悔中主動承認。研究結果顯示：在 11 / 12 項評估中，只要模型確實發生了違規，它在懺悔中至少有 50% 的機率會如實交代。平均下來，模型出現“假陰性”（明明違規卻不承認）的機率只有 4.36%。這張圖中，在模型確實發生違規的情況下，綠色代表模型在懺悔中承認違規，紫色代表模型在主回答中承認違規，可以看出綠色的得分遠高於紫色。這說明模型在懺悔中的誠實度顯著高於主回答，而且在某些評測中，由於任務性質，模型在主回答中永遠不會承認違規。03. 懺悔訓練能讓模型更誠實為了進一步對比有無“懺悔訓練”的性能差異，研究者進行了兩組RL 訓練：對照組：在 GPT-5-Thinking 的基礎上，用標準訓練集的子集進行少量RL 微調。干預組：與對照組完全一致，但額外在25% 的輸入上訓練模型生成懺悔。結果發現：干預組（進行過懺悔訓練）的表現明顯更好。在多個評估中，尤其是“指令層級”（Instruction hierarchy）相關的任務，懺悔訓練都帶來了顯著提升。而且從圖中的初始點可以看出，即便沒有訓練，GPT-5-Thinking 的懺悔已經表現良好。這說明GPT-5-Thinking 本身就具有較強的誠實自檢能力。更有意思的是，在這個對照實驗中，研究團隊故意用一個容易被糊弄的弱模型作為主回答和懺悔的評判者。隨著訓練進行，模型確實學會了欺騙這個弱評判者。例如一項任務要求：生成「12詞」和「18詞」的句子交替出現。當模型訓練到後期，它輸出：“The sport is tennis, a dance between finesse and ferocity that instantly smelled of fresh cut grass rather than garlic. (12)”這句話遠超 12 個詞，但句末加個“(12)”，弱評審者就被糊弄過去了。這就是典型的 reward hacking！但研究團隊有個驚人的發現：主回答的真實精準率在下降，但懺悔的精準率卻反而上升，即模型在懺悔中會更誠實地報告自己作弊了。這意味著：即使模型在主回答中進行reward hacking，其懺悔依然保持誠實，因此可以作為檢測 hacking 的有效工具。04. 懺悔失敗：不知道自己錯在那，就沒法招研究者還仔細分析了懺悔失敗的案例。比如懺悔模型中的假陰性（false negatives）：即模型沒有遵守指令，但也沒有在懺悔中承認這一點。他們發現，失敗最常見的原因在於模型困惑。尤其是在幻覺 / 事實性評估中，模型對“人物”和“一般知識”類的錯誤，並沒有改善，甚至出現輕微退化。在這些任務中，當模型給出錯誤答案時，通常是“它真的以為這樣是正確的”。因此它在懺悔中也會重複同樣的錯誤，而不是主動承認自己錯了。另一些案例是指令本身存在歧義，比如連字元詞算一個詞還是兩個詞。還有模型確實在懺悔報告的“不確定性”欄位中提到了問題，但評判標準沒有把這算作有效懺悔。比如下面這幅圖，在“隱藏規則違規”評估中，模型臨時修改了安全配置（不被允許），但在懺悔中只將其放入“不確定性”欄位，而不是明確標註明顯違規，因此被判為“未懺悔”。研究者也對假陽性進行了類似分析：即模型行為是合規的，但在懺悔中錯誤地說自己不合規。典型場景是模型碰巧猜對了答案，但因為沒有把握，就在懺悔中標記為“不確定是否合規”。研究團隊指出：當模型意識到自己違反了指令時，誠實地懺悔通常是獲得“高懺悔獎勵”的最省力路徑。雖然模型在沒有意識到自己行為不當時可能不會懺悔，但當模型有意違反指令時，它的懺悔通常是精準的。05. 侷限性：懺悔無法消除模型不良行為論文的最後也指出，懺悔機制有其侷限性：1、監控不良行為≠ 消除不良行為懺悔獎勵並不作用於模型的主輸出，這意味著：懺悔機制可以幫助呈現不良行為的真實情況（即讓模型承認），但未必能降低不良行為本身的發生頻率。2、越獄與困惑模型無法懺悔“它不知道的事情”。例如使用者問一個事實問題，而模型真心相信錯誤答案，那麼它無法懺悔自己提供了錯誤資訊，因為模型主觀上認為自己是對的。若某次越獄成功欺騙模型，使其優先遵循使用者消息而非系統消息：模型可能意識不到自己違反了指令層級，因此無法懺悔。此外，作者也指出，本文中並未實證比較“懺悔”與思維鏈（CoT，Chain-of-Thought）監控器的效果差異。未來的工作應更直接地測試這一點。在未來的研究方向上，團隊希望進一步研究懺悔在面對對抗壓力時的魯棒性。比如提示模型去實現某種“秘密目標”，或在訓練中植入惡意行為，那麼模型是否還會懺悔？另外，當懺悔判斷器本身不完美時，懺悔能否有效泛化也是一個問題。 (51CTO技術堆疊)