#訓練
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI沒把它當“生圖”模型訓練
GPT Image 2 憑什麼這麼強?是擴散模型又迭代了一版?是把 DiT 的參數量從 7B 擴到 20B?是訓了更多高品質資料?這些答案都對,但都不夠。以下是我們與多位從業者交流後,提煉出的幾個值得關注的技術方向,並嘗試做出更清晰的解釋。先給結論:OpenAI 很可能已經不在“純擴散模型”這條主賽道上了。他們已經把圖像生成從“美術課”調到了“語文課”——用一個能讀懂指令、能記住上下文、能理解物體關係的 LLM 主導語義規劃,至於最後一步的像素生成,可能由擴散元件或其他解碼器完成。而這個LLM,極大可能是GPT-4o。支撐這個推論的,首先是兩條直接線索。1. 模型自述2. C2PA溯源驗證C2PA 是一種內容溯源標準,相當於給每張 AI 生成的圖打上一個數字身份證。任何人拿到這張圖,都能查到它是由 GPT Image 2 生成的、生成時間是什麼、經過了那些修改。有專業人士在metadata2go.com上對image 2生成的圖片進行中繼資料提取。發現在actions_software_agent_name一欄上記錄著GPT-4o。這也能理解為什麼這次image 2的表現驚人了。圖片源於: 【深入調查:OAI最新圖像模型底層是GPT-4o - 祈星函 | 小紅書 - 你的生活興趣社區】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share單憑這兩條當然不足以拆解全部秘密。但當我們帶著“LLM 主導”的假定回頭審視它的每一項能力躍遷時,這些變化,忽然有了統一的解釋。一、圖像語義,從像素到token1.1過去兩年,AI 生圖領域有一條不成文的鄙視鏈:Midjourney 負責美學,Stable Diffusion 負責可控性,DALL·E 負責……嗯,負責被 OpenAI 發佈。但不管你站那一隊,有一件事是所有人的共識——文字是 AI 的鬼門關。你能讓 AI 畫出逆光下緬因貓毛髮的半透明質感,卻無法讓它寫對招牌上的“Coffee”六個字母。一個能理解頂級光影描述的模型,在文字上給出的結果彷彿楔形文字。這件事的荒誕與根源,就藏在擴散模型的工作原理裡。先說擴散模型為什麼寫不好字?因為它的核心是一個從噪聲中還原圖像的“雕塑家”:訓練時,向清晰照片逐步撒噪聲,直到變成純電視雪花,模型學習逆向去噪。生成時,從一片隨機噪聲開始,每步都靠 U-Net 預測並擦除噪聲,幾十步迭代後“雕”出毛髮、虹膜和光影。這個過程本質上在還原連續的、可以用機率無限逼近的紋理。毛髮可以稍微硬一點或軟一點,顏色可以偏暖 5%,無傷大雅。但文字是離散符號,不存在“像不像”,只有“是不是”。字母 A 就是 A,你不能給它加 15% 的 B 和 8% 的 C 還指望它依然是 A。擴散模型的每一步去噪都是一個微小“估計”,用在紋理上是風格,用在文字上就是 O 變 0,或是拼出 WElcOm e。最終就成了外行眼中的“楔形文字”。不僅如此,擴散模型天然缺乏跨輪編輯的穩定一致性。你讓它改一個局部,它本質上是整張圖重新畫一遍,沒改動的地方也會悄悄漂移。但GPT Image 2現在不僅能“寫對字”,還能保持“有記憶”的一致性例如:你修改一個字之後,周圍的文字會自動調整間距;當你把“咖啡”改成“紅茶”,它不只是替換那個詞,而是連帶把杯子的顏色從深棕調成了琥珀色。這說明文字在它的系統裡不是圖層標註,而是畫面語義的一部分。文字內容的改動會像語言中的主語替換一樣,連鎖驅動畫面其他元素的合理變化。GPT Image 2 與其他模型對比圖1.2它不再把圖像當圖像看,而是把圖像當語言看。這聽起來像玄學,但其實是個很具體的工程選擇。要理解這件事,得先搞明白一個概念:Tokenizer。Tokenizer 的作用是把一種東西“翻譯”成另一種東西。GPT 處理文字前,會先把“你好”這個詞切碎編號,變成一個數字 ID,比如 [11892]。這是文字 token 化。圖像能不能也這麼幹?當然能。你把一張圖切成 16×16 的網格,每個格子編個號,也是一種 token 化。但這種做法太笨重——一張 1024×1024 的圖會變成幾千個 token,LLM 還沒開始畫就先被淹死了。所以過去兩年,各家大模型公司在拼一件事:怎麼把一張圖壓成儘量少的 token,同時還不丟關鍵資訊。這事有多難呢?想像你是一個情報員,要把《蒙娜麗莎》用一封電報發出去。電報局規定你最多隻能發 256 個字。你怎麼辦?你不能說“一個女人在笑”,因為對方畫不出來;你也不能逐個像素描述,因為字數不夠。你必鬚髮明一套只有你和對方懂的密語——“52號微笑、3號背景、17號手勢”——對方收到後能八九不離十地還原出來。這就是 OpenAI 在 tokenizer 上干的 事。從 CLIP 到 DALL·E 再到 GPT-4o,他們逐漸建構了一種能夠在視覺與語言之間進行對應的語義表示體系。這意味著:圖像和文字被投影到了同一個對齊後的語義 embedding 空間。現在在 LLM 眼裡,“一隻逆光的緬因貓”這行字,和一張逆光緬因貓的照片,是同一個語義空間裡的兩套坐標。它能像理解文字一樣理解圖像,也能像生成文字一樣生成圖像。所以當你說“把第三行公司名改成團夥名”,它不是在修圖軟體裡找那個圖層,而是在改寫一段描述這個畫面的密文。改完後,解碼器再把密文翻譯回像素。這就是為什麼文字突然能寫對了。因為對 LLM 來說,寫一個W和寫一個我,沒有任何本質區別——都是它在密語系統裡調整幾個 token 的事。1.3既然 GPT Image 2 很可能把圖像變成了語義密文,那這串密文怎麼變回一張能看的圖?如果直接把 token 對應成像素,畫質必然一塌糊塗,這是自回歸模型的通病:它極度擅長決定畫什麼,卻不太擅長畫得好看——就像建築系教授徒手畫效果圖,空間關係全對,筆觸就是不及美院學生。而擴散模型正好相反,紋理光影以假亂真,卻經常不知道自己在畫啥。因此,一個高度自洽的推測浮現:讓兩款模型打配合。自回歸負責定調:根據你的 prompt 生成那幾百個語義 token,敲定畫面裡有什麼、它們的位置關係、整體構圖邏輯。這一步決定了“聽得懂”,也保證了多輪編輯時對修改對象的記憶與一致性。擴散負責潤色:拿到這串語義 token 後,不再負責理解內容,只負責填充高保真像素,把既定框架變成光影自然的成圖。這一步決定了“畫得好”。這不是理論空想。Google 發過一篇叫 Transfusion 的論文,Meta 搞過 Chameleon,走的都是類似路線。當然,這一切都是基於公開資訊和模型表現的推斷。OpenAI 有沒有在用?2026 年 4 月的媒體會上,OpenAI 拒絕回答任何關於模型架構的問題。拒絕本身就是一個訊號。如果這個假設成立,那就解釋了一切——文字寫對是因為自回歸天然懂離散符號;多輪編輯一致是因為自回歸記住了那一串 token;畫質沒崩是因為擴散在最後一關做了精細渲染。二、資料飛輪,GPT-4o 自己教自己生圖2.1但上文那個能把圖像壓成幾百個 token 的“密語系統”,到底是怎麼訓出來的?為什麼不是別的模型,偏偏是GPT-4o?答案藏在一件看起來最沒有技術含量的事裡:資料標註。在 AI 圈,資料標註長期處於鄙視鏈底端。研究員聊架構可以聊一晚上,聊資料標註三句話就冷場。但 GPT Image 2 這次的表現,甚至表明OpenAI 可能已經不需要人工標註了。而GPT-4o 本身就是全世界最強的圖像理解模型之一。你給它一張圖,它能寫出一段比真人標註師還細膩的描述。所以OpenAI 可以把過去幾年積累的幾十億張圖片,重新“過一遍水”——用 GPT-4o 生成新的、高維度的標註。但到這裡,只解決了“描述”的問題,沒解決“篩選”的問題。一個模型生成一百張圖,並不是每一張都值得拿來當下一輪訓練的教材。這裡需要一套嚴格的“質檢”機制——在機器學習裡,這叫拒絕採樣。具體來說就是,GPT-4o 先根據一段 prompt 生成一批圖像,然後根據美學偏好、指令匹配度、物理合理性等多條標準,逐張打分。批到符合條件的才“收下”,連同它為自己撰寫的詳細解析,一起塞進下一輪訓練集。批到不及格的就直接扔掉。這保證飛輪裡的資料不是在低水平循環,而是在有選擇地自我提純。上一代模型給下一代模型當老師,下一代模型再給下下代當老師。每轉一圈,對世界的理解就深一層。大家的差距也在這個過程中越來越大。這也解釋了為什麼Midjourney在畫質上能和OpenAI掰手腕,但在指令遵循和文字渲染上被拉開代差。當然,聽上去像個永動機騙局——自己教自己,那不得越教越傻?學術界確實有這個擔憂,管它叫模型崩潰:模型反覆吃自己吐出來的東西,會逐漸丟失分佈的尾部資訊,生成結果越來越單一、越來越平庸。但OpenAI在文字側已經證明:只要老師模型足夠強,並且配合拒絕採樣這樣的嚴格篩選機制,這事不但不會崩,還能加速,形成資料飛輪。2.2這個飛輪裡還有一個重要且難搞的角色——RLHF 在圖像側的質檢員。我們在文字側已經習慣了 RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習):給一段文字打分,判斷它有用、有趣、符合人類偏好,這件事 GPT-4o 做得很好。但在圖像側,難度驟升。因為質檢員需要同時盯住三條線:美學偏好;指令遵循;安全過濾。三條線的標準各不相同,甚至互相衝突。一道強光影可能很“好看”,但壓暗了 prompt 裡要求的某個細節,就會被“指令遵循”扣分。一層安全濾鏡可能誤傷正常的醫學解剖圖,又得回頭調閾值。這種多維度權衡,在文字側已經跑通,但在圖像側變得前所未有的複雜。而 OpenAI 之所以能做成,很可能是因為他們把圖像側的問題全部拉回了自己最擅長的戰場:語言理解。美學偏好被轉譯成一段構圖評語,指令遵循被轉譯成一組約束條件的核對清單,安全過濾被轉譯成一套規則判例。所有判斷最終都落到了 LLM 的語義空間裡。可能這才是資料飛輪真正的底牌。不是資料多,而是從標註、篩選到打分,全鏈路都被統一到了一個理解框架裡。拒絕採樣負責海選淘汰,RLHF 負責精修調優,兩者共享一套語義標準,飛輪才轉得起來。三、工程解法,兼顧推理速度和對話整合3.1到這裡,我們聊的都是效果。接下來聊一個經常被刻意繞開的話題:推理速度。先不說審美和一致性上的飛躍,且說一個看似矛盾的現象:生圖質量躍升了一個代際,但速度並沒有明顯變慢。這本身就是一種工程奇蹟——OpenAI 是怎麼做到的?自回歸模型的運作方式是逐 token 生成——每個 token 都依賴上一個 token 的完成。擴散模型則不同,它可以在整張畫布上平行去噪,一次處理所有像素。按理論推算,如果 GPT Image 2 確實用了自回歸架構,它的推理延遲應該比純擴散模型高出一個數量級。但實際體驗是:沒有。第一條線索:Token 壓縮率可能遠超預期。 如果一張 1024×1024 的圖只需要 256 個 token 就能完整描述,對 Transformer 來說就是一次呼吸的事。這意味著 OpenAI 不僅做到了語義對齊,更在壓縮率上做到了極致,把高資訊密度濃縮到幾行字的程度。第二條線索:推理架構的深度最佳化。 混合架構中,自回歸生成的是粗粒度的語義 token,決定“畫什麼”,不負責“畫成什麼樣”。生成步驟大幅縮短,擴散模型只用在最後一小段“按圖施工”,而不是從頭噪到尾。第三條線索:投機解碼(Speculative Decoding)可能被用到了圖像側。 用一個更小的“草稿模型”快速生成候選 token,再由大模型一次性驗證,這套 LLM 推理加速經典技巧如果用在圖像 token 上,速度可以成倍提升。OpenAI 在 GPT-4 時代已把這套玩熟,移植到圖像側沒有原理障礙。所以結論是:GPT Image 2 的快,不是因為擴散模型變快了,而是因為可能它把最慢的語義規劃,從擴散模型手裡搶了過來,交給了擅長快速推理的 LLM。3.2比速度更影響體驗的,是與對話系統的整合。在傳統圖像生成工具中,例如 Midjourney 或基於 Stable Diffusion 的工作流,使用者通常通過編寫 prompt 來控制輸出結果。雖然這些工具已經支援諸如variations、inpainting和歷史記錄等功能,但整體流程仍然以“單次輸入 → 單次輸出”為主,使用者需要通過多次嘗試逐步逼近目標效果。這種過程在實踐中往往表現為反覆試錯:使用者根據結果調整 prompt,但模型對指令的理解程度並不完全透明,因此需要多輪迭代來校正偏差。相比之下,整合在對話系統中的圖像生成引入了連續上下文機制,改變了互動方式。使用者可以在多輪對話中逐步細化需求模型能夠利用對話歷史理解“當前修改”對應的對象或屬性修改請求可以以更自然語言的形式表達,而不需要一次性寫出完整 prompt例如,在多輪互動中,使用者可以先生成一個基礎場景,再逐步提出局部修改(如顏色、位置、風格)。最後,模型基於上下文生成新的結果。對話式互動還帶來另一個優勢:需求澄清能力clarification。將模糊的自然語言意圖,逐步轉化為更具體的生成條件,從而提高生成結果與使用者預期之間的一致性。結語在 GPT Image 2 出現之前,AI 生圖領域的討論框架是這樣的:“擴散模型的縮放定律還能走多遠?”“DiT 架構和 UNet 架構誰更優?”“Flow Matching 會不會取代 DDPM?”“多模態對齊的損失函數怎麼設計?”這些問題都有價值,但它們共享一個隱含前提:圖像生成是一個獨立的、需要專門架構來解決的問題。而GPT Image 2 給出的的回答是:不一定。如果我們把鏡頭再拉遠一點,GPT Image 2 的出現其實指向了一個更大的命題:世界模型。讓我們重新思考什麼是生成,以及世界。 (矽星人)
空間智能第一股來了!年入8億,發力具身智能模擬訓練
最近,又有一家AI公司要上港股市場了。不久前,群核科技正式向港交所遞交招股書。說起群核科技,很多人並不陌生。群核科技與深度求索、宇樹科技、雲深處科技、強腦科技、遊戲科學等企業一起被稱為“杭州六小龍”。從空間設計起步的群核科技,依託多年來沉澱的底層空間能力以及物理三維資料,成為了全球空間智能領域的代表性公司。過去三年,公司的收入分別為6.64億元、7.55億元和8.20億元。2024年,公司推出了面向室內環境AI開發的下一代空間智能解決方案SpatialVerse,目的是把設計軟體沉澱的空間資料,轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年,該業務已獲得16名客戶,實現收入520萬元,並已經與智元機器人展開了合作。接下來,就跟著矽基君一起來看看吧。/ 01 /“大客戶”拉動收入增長拆解收入結構可以發現,訂閱收入是公司絕對的核心支柱,常年貢獻總營收的96%以上。其中,企業客戶佔了“大頭”。2025年,企業客戶所帶來的收入高達6.69億元,佔比超過80%。在企業客戶的增長裡,“大客戶”的拉動效應尤為顯著。2023年至2025年,群核科技的企業客戶數量從41070家穩步增長至47416家,增長15%;單個企業的訂閱收入從1.37萬增長到1.41萬,增長2%。其中,年收入貢獻超過20萬的頭部“大客戶”數量,從2023年的353家增長至424家,增長了20%。每名大客戶的平均訂閱收入(ARPU)從2023年的72.9萬元,一路上漲至2025年的85.6萬元,增長17%。也就是說,群核科技的“大客戶”數量和客單價增速都遠遠超過企業客戶。相比之下,C 端業務更像一個規模穩定的基礎盤。個人客戶數量長期維持在 41 萬以上,客單價從 216 元提升至 302 元,提升明顯,但由於使用者規模增長趨緩,整體體量仍然有限。從產品矩陣來看,群核的核心產品是“酷家樂”,這是一個提供快速拖放式3D設計、即時渲染及BIM能力的雲原生平台 。在國際市場上,群核推出了支援18種語言的本地化版本Coohom 。這套產品體系覆蓋設計、可視化、實施與價值鏈協作四個環節,目標並不是單點效率提升,而是貫穿創意生成到生產交付的完整鏈路。在設計方面,設計師只需上傳CAD 圖紙、廣告設計稿或平面檔案,系統便可自動解析其中的結構與佈局資訊,生成可編輯的沉浸式 3D 設計方案。其素材庫覆蓋數百萬級3D 模型,幾乎囊括空間設計所需的全部元素,包括家具、布線、管道、照明、牆面、天花以及各類裝飾元件。上傳圖紙生成3D 設計方案在可視化方面,群核科技依託自建的高性能GPU 叢集,以及擴散模型與光線追蹤等技術能力,系統可在數秒內完成全景圖生成,實現接近即時的沉浸式可視化效果。多張全景圖還可自動拼接為虛擬現實全屋漫遊,使設計從靜態展示升級為可互動的空間體驗。更關鍵的是,系統並未停留在展示層面。設計完成後,設計師可以直接將包含尺寸、材料與規格的完整3D 資料傳送給製造商。系統基於結構化資料自動生成生產圖紙,並嚴格對齊原始輸入參數,減少人工轉換與反覆校對的誤差。這套能力已經在大客戶中形成穩定滲透,成為推動客單價提升的重要推手。2025 年,約 49.1% 的大客戶訂閱了內建 CAM 功能的版本。/ 02 /毛利率很高,但真正的考題在增長作為一家SaaS公司,群核的盈利模型已經跑通了。2023—2025年,公司毛利率分別為76.8%、80.9%和82.2%。毛利改善,也直接反映在利潤表上。2023 年和2024年,公司經調整淨虧損分別為2.42億元和0.70億元;到了2025年,公司實現5712萬元經調整淨利潤,完成扭虧。盈利改善並非偶然。過去三年,公司行銷費用從3.56億元下降至2.74億元,研發支出從3.9億元降至2.91億元。費用率的收縮,疊加訂閱收入的規模化,構成了利潤釋放的主要來源。如果單看盈利能力,群核科技是一家已經完成“從燒錢到自我造血”轉型的公司。但真正的問題不在利潤,而在增長。2025 年,公司收入增速不足10%。對於一家以成長性為核心賣點的企業來說,這樣的節奏顯然偏慢。原因並不複雜——賽道本身不夠大。招股書顯示,2024 年國內空間設計軟體市場規模約為33億元;預計到2029年將擴大至66億元,對應復合年增長率 14.9%。即便按最高預期測算,這仍然是一個百億以內的市場。而群核已經是這個市場的絕對龍頭,市佔率達到23.2%,排名第一。在這樣的背景下,尋找業務增量成為群核科技最重要的工作。從招股書看,群核的破局路徑主要集中在三個方向。第一,提高客單價,用AI 做結構性升級。AI的加入,正在改變設計軟體的使用方式。2025年,公司通過AI功能生成約 25 億張圖片,包括平面圖可視化與渲染圖等。約30%的月活使用者在其訂閱版本中深度使用AI功能。這意味著,AI不再只是附加功能,而是在成為使用者工作流的一部分。2025年3月,公司推出AI智能設計平台,面向企業客戶提升方案生成效率。截至 2025 年底,該平台已獲得28名客戶訂閱,訂單總值3000萬元。在市場規模有限的情況下,通過新功能與效率提升,向現有客戶“要增長”,提高 ARPU,而不是單純追求新增使用者數量。第二,尋找新的業務邊界。2024年推出的SpatialVerse,是公司向“空間智能”延伸的重要嘗試。平台基於多年積累的3D 設計資料與渲染引擎能力,建構高逼真、物理正確的合成虛擬資料集,用於室內場景AI訓練。簡單理解,它把設計軟體沉澱的空間資料,轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年,該業務已獲得16名客戶,實現收入520萬元。其中,智元機器人已與公司在 SpatialVerse 方案上建立合作。第三條路徑,是全球化擴張。2023—2025 年,公司海外收入從 3710 萬元增長至6840萬元,雖然規模有限,保持著不錯的增長。對群核而言,海外不僅意味著更大的市場空間,也意味著在成熟競爭環境中驗證產品競爭力。毫無疑問,群核已經證明,它可以做成一門賺錢的生意。但資本市場最真正關心的,永遠是成長性。對於群核科技來說,接下來最重要的是,這些新的故事能否在收入層面跑出足夠陡峭的斜率。 (矽基觀察Pro)
韓媒披露:韓軍方抗議駐韓美軍訓練時與中方戰機對峙,美軍司令向韓方道歉
韓媒披露:韓軍方抗議駐韓美軍訓練時與中方戰機對峙,美軍司令向韓方道歉據韓聯社等韓媒報導,韓軍消息人士24日透露,關於據稱駐韓美軍在黃海訓練時與中方戰機對峙一事,駐韓美軍司令澤維爾·布倫森向韓軍方面表示道歉。針對這一條消息,駐韓美軍和韓國國防部給出了不同的說法。駐韓美軍司令澤維爾·布倫森(左)與韓國國防部長官安圭伯據韓聯社報導,布倫森日前向韓軍對駐韓美軍於本月18日至19日在黃海上空進行訓練時所引發的事件表示道歉。駐韓美軍當時進行大規模單獨訓練,過程中F-16戰機進入韓國防空識別區與中國防空識別區之間、雙方識別區未重疊的區域。隨著駐韓美軍戰機接近中國防識區,中方也出動戰機,導致雙方一度對峙。報導稱,韓國國防部長官安圭伯19日接受相關匯報後,向布倫森打電話表示抗議,譴責駐韓美軍在未與韓方切實共享訓練相關內容的情況下,在半島周邊進行訓練導致緊張局勢加劇。就此,布倫森表示道歉,並於19日提前叫停原定於本月21日結束的上述訓練。《韓民族日報》稱,針對這條消息,駐韓美軍和韓國國防部給出了不同的說法。韓國國防部發言人在24日上午的新聞發佈會上表示,關於布倫森是否向韓軍方面表示道歉,“通話內容不便公開”。但她補充說,“據瞭解,相關報導內容在一定程度上屬實。”報導稱,韓國國防部發言人的回應暗示駐韓美軍對韓軍方進行了道歉。然而,駐韓美軍24日深夜發聲明稱,“我們不為保持戰備狀態而道歉。”駐韓美軍還聲稱,“選擇性披露高級領導人之間的私人談話,無論其內容是否精準,都無助於實現我們共同的安全目標。”值得注意的是,《韓民族日報》稱,駐韓美軍並未在其官方網站上發佈該聲明。當該報記者向駐韓美軍詢問其立場時,駐韓美軍稱,“我們對此次訓練沒有單獨的立場,但我們針對布倫森與韓方通話的報導已有回應。”報導稱,駐韓美軍採取低調應對的方式,向記者單獨傳送相關資料,避免問題惡化。針對韓媒報導的此次對峙,《環球時報》記者20日從消息人士處獲悉,近日,美軍組織軍機赴黃海我當面空域活動。中國人民解放軍依法依規組織海空兵力全程跟監警戒、有效應對處置。軍事問題專家宋忠平對《環球時報》記者表示,從中韓兩方的消息可以看出,駐韓美軍此次活動的地域在黃海海域,這裡有中韓分別劃設的防空識別區,此前駐韓美軍很少在此舉行軍事活動,而此次活動的針對性也很明顯。“一直以來,美國把韓國的防空識別區視為自己的地盤,其在該區域進行軍事行動旨在模擬攔截其他國家飛行器進入該區域。但美軍若將防禦轉換為攻擊,企圖擅闖中國防空識別區,性質就不同了。” (環球網)
GPT-5.3-Codex 發佈:首個自我訓練的模型
今天,可算是又炸了一輪啊……讓不讓人睡覺了!就在過去一小時內,OpenAI 發佈了 GPT-5.3-Codex,Anthropic 發佈了 Opus 4.6(100萬 context)Claude Opus 4.6 發佈,跑分霸榜,價格不變。兩顆重磅炸彈,幾乎同時落地。建立在這些模型之上的 Agent 們,接下來怕是要起飛了。而就在 Anthropic 放出 Claude Opus 4.6 的同一天,OpenAI 緊跟著扔出了 GPT-5.3-Codex,號稱迄今為止最強的 agentic coding 模型。Sam Altman 本人也第一時間發了推:GPT-5.3-Codex 來了!最強編碼性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。任務執行中可即時引導,工作過程中提供即時更新。更快!相同任務的 token 消耗不到 5.2-Codex 的一半,每個 token 的速度還快了 25% 以上!電腦使用能力也很強。那這個 GPT-5.3-Codex 到底強在那呢?且往下看。自己訓自己GPT-5.3-Codex 有一個很「離譜」的特點:它參與了自己的創造過程。OpenAI 團隊在訓練過程中,就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說,這個模型幫著把自己「生」出來了。OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。它不僅能排查基礎設施問題,還能追蹤訓練過程中的模式變化,對互動質量做深度分析,提出修復建議,甚至為研究員建構可視化應用來精確理解模型行為的差異。工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。當出現影響使用者的邊界情況時,團隊成員直接讓 Codex 去定位 context 渲染的 bug,排查快取命中率低的根因。在發佈期間,GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰,保持延遲穩定。有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道,做出了比標準儀表盤工具豐富得多的可視化結果,然後和 Codex 一起分析,三分鐘內就從數千個資料點中提煉出了關鍵洞察。全面屠榜GPT-5.3-Codex 在多個基準測試上刷新了紀錄:SWE-Bench Pro 拿下 56.8%,這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同,SWE-Bench Pro 覆蓋了四種程式語言,更抗資料污染,也更貼近工業場景。GPT-5.2-Codex 是 56.4%,GPT-5.2 是 55.6%。Terminal-Bench 2.0 達到 77.3%,遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。OSWorld-Verified 拿下 64.7%,而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準,這個提升幅度可以說是「斷崖式領先」了。GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估,衡量模型在 44 個職業的知識工作任務上的表現,包括做簡報、處理電子表格等。網路安全 CTF 挑戰 達到 77.6%,GPT-5.2-Codex 是 67.4%。SWE-lancer IC Diamond 拿到 81.4%,超過 GPT-5.2-Codex 的 76.0%。而且值得注意的是,GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省,這才是真本事。不只是寫程式碼GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。OpenAI 稱:從寫程式碼的 agent,變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作:debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域,能幫你做幻燈片、分析電子表格中的資料。OpenAI 結合了前沿編碼能力、美學改進和壓縮能力,做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。為了測試長時間運行的 agentic 能力,他們讓 GPT-5.3-Codex 建構了兩款遊戲:一個賽車遊戲的第二版和一個潛水遊戲,使用的只是通用的跟進提示,比如「fix the bug」或「improve the game」,GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。在網頁開發方面,GPT-5.3-Codex 也比前代更懂你的意圖。簡單或不夠詳細的提示,現在會默認生成功能更完善、預設值更合理的網站,給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁,GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀,還會做一個自動輪播的使用者評價元件,而不是只放一條。開箱即用的完成度明顯更高了。邊幹活邊對話隨著模型能力越來越強,瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。GPT-5.3-Codex 在這方面做了一個關鍵改進:互動式協作。以前你給 Codex 一個任務,然後等它給你最終結果。現在不一樣了,GPT-5.3-Codex 會在工作過程中頻繁給你更新,讓你即時瞭解關鍵決策和進展。你可以隨時提問、討論方案、調整方向,而不會丟失上下文。它會告訴你它在幹什麼,回應你的反饋,從頭到尾都讓你參與其中。更像是和一位同事協作,而不是給一台機器下命令。在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。首個「高能力」安全評級GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型,也是他們首個直接訓練來識別軟體漏洞的模型。雖然沒有確鑿證據表明它能端到端地自動化網路攻擊,但 OpenAI 採取了預防性措施,部署了迄今最全面的網路安全安全端,包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。因為網路安全天然是雙重用途的,OpenAI 採取了「基於證據、迭代推進」的方法,加速防禦者發現和修復漏洞的能力,同時減緩濫用。具體措施包括:推出 Trusted Access for Cyber 試點項目,加速網路防禦研究。擴大 Aardvark(安全研究 agent)的私有 beta 測試,作為 Codex Security 產品套件的首個產品。與開源維護者合作,為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描,上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上,OpenAI 還承諾投入 1000 萬美元的 API 額度,用於加速網路防禦,特別是針對開放原始碼軟體和關鍵基礎設施系統。可用性GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放,覆蓋 Codex 可用的所有平台:應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。速度方面,比 GPT-5.2-Codex 快了 25%,token 消耗則不到前代的一半。GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。方向變了OpenAI 在文章最後說到:GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。最初聚焦於成為最好的 coding agent,現在已經演變成了一個更通用的電腦協作者,擴展了誰能建構以及用 Codex 能做什麼的邊界。同一天,Anthropic 發 Opus 4.6,OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽,已經進入白熱化了。cli 中也已經能用了:而方向也越來越清晰:不是讓模型寫更多程式碼,而是讓模型用程式碼去搞定一切。而另一個值得注意的是:GPT 5.3 Codex 今日正式發佈,而數小時前同時發佈的還有人工智慧代理平台 Frontier。這種發布周期的縮短意味著什麼呢?OpenAI 在近 6 個月內發佈了 5 個主要版本/更新,而此前 15 個月總共才只發佈了 7 個版本。對於日益複雜的模型,根據 OpenAI 自己的發佈公告,越來越多地使用#AI生成的程式碼來建構,這要麼是因為真正的功能程式碼開發改進而帶來的速度提升,要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。這次的 GPT-5.3-Codex,可還是參與了自己的訓練過程的……有意思。 (AGI Hunt)
Gemini3預訓練負責人:訓練資料一開始就用了大量合成資料,範式已經變化:研究越來越像工程!不太擔心業界刷榜會造成過擬合
Gemini 3的逆襲,給業界帶來了太多的驚喜和問號。與此前不同的是,業界到現在似乎也沒有逆向出Gemini3的秘方出來。本周五,繼Google兩位大佬 Demis、Jeff Dean 播客訪談之後,終於有一位一線的負責人出來爆料了。這位可沒有前面兩位大佬嘴嚴。Google DeepMind 的 Gemini 3 預訓練負責人 Sebastian Bourjou,在訪談中被主持人挖出來不少關於 Gemini 3 的消息。比如,跟上一代相比,Gemini3 在模型架構的改動並沒有大到脫離了 transformer 架構,大體上還是能看出它是Transformer MoE架構的影子。並坦承,Gemini 3之所以提升如此大,是大中小多重因素疊加的結果。再比如,他自曝說自己感覺不是在做大模型,而是在建構一個複雜的系統。“這件事實際上會深刻改變研究方式,以及我們思考問題的方法。”Bourjou 還特別提到了一種範式的變化:過去,我們基本處在一個“資料幾乎無限”的規模化階段;而現在,我們正在進入一個“資料受限”的階段。關於“預訓練到頭了嗎?Scaling Law 到頭了嗎?”Bourjou很果斷的給出了否定的答案,並指出,自己並沒有看到這條研究路線在短期內會走到盡頭。“至少 1 年內,它仍然會持續為我們帶來進展。”這次訪談非常的technical,從預訓練、到後訓練、對齊、RL,再到Gemini3所用的訓練資料,再到最近大火的持續學習。都給出了自己的“研究品味”。在他看來,工程與研究的邊界已經開始分不清了!訪談中,他還聊到了,Gemini 3 在底層是如何建構的、從“無限資料時代”轉向“資料受限階段”的變化、DeepMind 內部研究團隊的組織方式,以及 AI 接下來可能會走向那裡。下面是小編整理的採訪全文,enjoy!Oriol 的“秘密配方”:更好的預訓練 + 後訓練Matt Turk大家好,今天的嘉賓是Sebastian Bourjou,Google DeepMind 的 Gemini 3 預訓練負責人。Sebastian 是全球頂尖的 AI 研究者之一,同時也入選了 Meta 的研究員榜單。這一期節目格外特別,因為這是他第一次參加播客訪談。Matt Turk我想從一條推文聊起。這條推文來自 Oriol Vinyals,他是 Google DeepMind 的研究副總裁、深度學習負責人,也是 Gemini 的聯合負責人之一。在 Gemini 3 發佈時,他說這個模型背後的“秘密”其實非常簡單:更好的預訓練,以及更好的後訓練。考慮到 Gemini 3 相比之前的 SOTA 有這麼大的躍遷,這樣的說法聽起來反而有點“樸素”。我很好奇,你怎麼看?事情真的就這麼簡單嗎?Sebastian Bourjou我不確定這算不算什麼“秘密”。至少從我的視角來看,這其實挺正常的。很多人會期待,從一個 Gemini 版本到下一個版本,一定會有某個“巨大變化”,突然帶來質的飛躍。但根據我的經驗,確實會有一兩個因素,比其他因素的影響更大一些,但真正決定結果的,往往是大量改進的累積。Gemini 3 之所以明顯優於前幾代,並不是因為某一個單點突破,而是一個非常龐大的團隊,在非常多細節上持續改進,最終匯聚成了這個結果。我想這也是一個會在後面反覆出現的主題:像 Gemini 3 這樣的發佈,本質上是一個大規模團隊協作的成果。AI 進展為什麼還沒有放緩Matt Turk從這個角度來看,這對我們理解 AI 的發展階段意味著什麼?僅僅通過“調參數”“擰旋鈕”,就能帶來如此大的提升,這說明了什麼?對未來的進展,我們應該有什麼預期?Sebastian Bourjou我覺得有兩點。第一點是:通過這種方式,我們依然能夠取得如此顯著的進展,這件事本身就非常值得注意。而且,這種進展並沒有明顯放緩。我們每天都會發現新的“旋鈕”、新的改進點,幾乎是日常層面的發現——這些都會讓模型變得更好。第二點是:我們已經不再只是建構一個模型了。我們現在建構的是一個系統。有些人會認為,我們只是訓練了一個神經網路架構,僅此而已。但實際上,我們建構的是圍繞這個網路的整個系統。這是一個整體工程,而不是單一模型。模型真的在“變聰明”嗎?Matt Turk這是很多人心中的核心問題:這究竟意味著什麼樣的智能進展?我們不一定非要討論 AGI,畢竟誰也說不清它到底指什麼。但問題是:我們是否應該把這種模型進展,看作是真正通往智能的一條路徑?還是說,它更多隻是為了在某個基準測試上取得好成績?是什麼讓你相信,模型的“核心能力”正在變得更強?Sebastian Bourjou從基準測試的角度看,成績確實在持續提升。而且如果你觀察這些前沿 benchmark 的設計方式,它們本身也在變得越來越難。即便是對我這樣有電腦科學背景的人來說,模型現在能回答的一些問題,我自己也需要花相當多時間才能解出來。當然,這只是一個視角——基準測試視角。我們也會非常頻繁地做評估,對測試集保持嚴格隔離。但即便如此,人們還是會擔心過擬合,或者所謂的“刷榜”。我個人並不太認同這些擔憂。但真正讓我有信心的,是另一件事:內部使用模型的時間,在持續增加。每一代新模型,都非常明顯地展現出新的能力,它們在研究和日常工程工作中,能比上一代幫到我們更多。這一點非常清楚。這說明模型不僅在分數上更好,而且在做真正有用的事情,能力也在實質性提升。兩三年後:最先發生變化的是什麼?Matt Turk作為一名深度參與其中的 AI 研究者,我一直很好奇:如果你把視角拉遠一點來看,現在的進展還會讓你感到意外嗎?從你的角度看,我們是明顯走在預期前面,還是基本符合當初的判斷,甚至有點落後?Sebastian Bourjou事後回看,說“我們在正軌上”其實很容易。但如果我對自己足夠誠實,我會說,我們確實走在了我當初預期的前面。2019 或 2020 年剛開始做大語言模型時,很難想像今天的規模,也很難想像模型現在能做到的事情。當年從 scaling law 的角度看,確實有人認為會走到這一步,但我不確定自己當時是否真敢下注,賭它會如此完整地實現。接下來兩到三年,會發生什麼?Sebastian Bourjou一個自然的問題是:如果我們假設未來五年的進展節奏,和過去五年差不多,那接下來會發生什麼?我覺得未來幾年會非常有意思。Matt Turk那你怎麼看短期內的變化?比如兩到三年內,AI 會不會做出全新的科學發現,甚至拿到諾貝爾獎?你覺得最近的方向會走向那裡?Sebastian Bourjou我覺得這是其中的一部分。在科學研究層面,DeepMind 一直在這方面投入很多,我也相信未來幾年我們確實有機會做出一些重大的科學發現。Sebastian Bourjou但在我自己的日常工作中,不論是研究還是工程,我更興奮的是:這些模型如何幫助我們更快推進工作,同時也幫助我們更好地理解我們正在建構的系統,並進一步深化自己的研究理解。Matt Turk現在行業裡有一個很大的話題:AI 是否會自動化 AI 研究和工程。如果順著這個邏輯往下推,就會走向那種“AI 2027” 的斷點式場景。從一個非常現實的角度看,你現在是如何使用 AI 的?你覺得兩年後會變成什麼樣?Sebastian Bourjou我覺得重點不在“自動化”,而在“加速”。AI 會讓我們把更多時間投入到更高層次的研究本身。AI 做 AI 研究:更快,但不是全自動Sebastian Bourjou在語言模型研究中,我們每天面對的是非常複雜、非常龐大的系統,尤其是在基礎設施層面。大量時間花在跑實驗、盯實驗、分析資料、整理結果上,真正有價值的部分是形成假設和設計新實驗。後面這兩件事,人仍然會深度參與;而前面的部分,在接下來一年裡,隨著更具 Agent 特性的工作流成熟,會被顯著加速。前沿實驗室:相似的路,分叉的研究樹Matt Turk你覺得各家前沿 AI 實驗室,本質上是不是都在做同一件事?作為行業觀察者,我們會感覺每隔幾周就冒出一個“驚豔模型”,大家反而有點被寵壞了。比如 Gemini 3 剛發佈沒多久,幾乎同時 GPT-5.2 也出來了。你怎麼看這種現象?最終會不會有人明顯跑出來,還是說會長期維持“少數頂級實驗室 + 一些新興團隊”的格局?Sebastian Bourjou先說第一點,各家確實有很多相似之處,底層技術路徑也比較接近。如果所有人都在訓練 transformer 類模型,我也不會感到太意外,但在此之上,大家確實在做不同方向的專精。不同公司會探索不同的研究分支。比如從歷史上看,DeepMind 在視覺和多模態方向一直很強,這一點現在仍然很明顯,無論是使用者使用方式還是 benchmark 表現。推理能力也是類似的情況,OpenAI 首先推出了相關模型,但我們內部其實也有對應的研究線。為什麼在Google 做研究很有吸引力規模、資源與潛在顛覆Sebastian Bourjou至於第二個問題,我不確定有沒有標準答案。很現實的一點是:今天要推動 Gemini 這種等級的模型進展,確實需要非常大的團隊和資源。但這並不意味著當前路徑是最優的,未來完全可能出現顛覆性研究,讓小團隊也能實現突破。Sebastian Bourjou這也是我很享受在 Google 的原因之一。這裡一直有大量探索性研究,研究廣度非常高,而且很多工作是和 Gemini 平行進行的。這些成果最終也能被吸收進 Gemini,形成正向循環。Transformer 之後,會不會有突然的斷裂式創新?Matt Turk在 DeepMind 或整個行業裡,是否存在一些半公開甚至完全保密的團隊,在研究“後 Transformer”架構,有一天突然公佈成果,讓所有人都措手不及?Sebastian Bourjou我相信是有的。在 Google、在 DeepMind 內部,確實有人在研究模型架構層面的新方向。至於這些研究是否最終會成功,很難說——這就是研究本身的特性。DeepMind 的優勢:研究 × 工程 × 基礎設施Matt Turk真正能成功的研究想法其實非常少。所以在這個過程中,一家公司相對另一家的核心優勢,往往歸結為“人”的質量。回到我剛才提到的那條推文,Demis Hassabis 轉發並評論說,真正的秘密在於研究、工程和基礎設施的結合。這是不是 Google 的“秘密配方”?你們做的是完整技術堆疊。Sebastian Bourjou這確實非常有幫助,我認為這是一個重要因素。另外,“研究”和“工程”之間的邊界,也在不斷變得模糊。Sebastian Bourjou在今天這種超大規模系統中,研究看起來越來越像工程,工程也越來越像研究。這種心態在 DeepMind 過去幾年變化很大,尤其是在 Gemini 項目中,現在更像是“研究工程”。基礎設施同樣關鍵,我們建構的是極其複雜的系統,可靠、穩定、可擴展的基礎設施,直接決定研究和工程能否不被拖慢。Matt TurkGemini 3 是在 TPU 上訓練的,對嗎?不是用輝達的晶片。這基本算是完全垂直整合了。進入Gemini 3 深水區之前,先聊聊你Matt Turk在深入 Gemini 3 之前,我想先聊聊你本人。你是 Gemini 3 的預訓練負責人之一,這具體意味著什麼?然後我們再談談你的背景和經歷。Gemini 3 預訓練負責人,到底在做什麼?Sebastian Bourjou我是 Gemini 預訓練的幾位負責人之一,這個角色其實包含很多方面。一部分是研究本身,目標是讓模型變得更好;但現在更多是設計實驗、和團隊一起評估結果,而不是自己親自跑實驗。Sebastian Bourjou另一部分——而且我覺得很有意思——是協調與整合。現在預訓練團隊已經非常大了,很難精確統計,但日常參與的人大概在 150 到 200 人之間,涵蓋資料、模型、基礎設施等多個方向。大團隊協作,才是長期效率的來源Sebastian Bourjou把這麼多人的工作整合成一個統一、可推進的系統,本身就是一件非常複雜、也非常耗時的事情。但我認為這是最重要的,因為真正推動長期進展的,是讓所有人都能持續產出,而不是只讓一小撮人跑在最前面。短期或許能靠小團隊突進,但長期來看,真正成功的路徑是大規模協作與整合。“逆向”頂級AI 研究者的成長路徑| 天才往往搬家Matt Turk我一直很好奇,你是在那里長大的?很多人都想“逆向工程”頂級 AI 研究者的成長路徑——他們來自那裡,又是如何走到今天的?Sebastian Bourjou我在歐洲各地長大,搬過很多次家。我出生在荷蘭,7 歲時搬到瑞士;我父親是瑞士人,母親是德國人。我在瑞士完成了大部分中小學教育,用的是法語和德語。15 歲左右我搬去了義大利,在那裡完成了高中,直到 19 歲。原本我打算去蘇黎世聯邦理工學院(ETH)讀大學,但有一天我隨手查了下大學排名,看到了劍橋,就想“那我也申請一下試試吧”。幾個月後我收到了錄取通知,於是去了劍橋,在電腦實驗室完成了本科和碩士。| 從小就擅長數學和程式設計Matt Turk你小時候就是那種數學特別強、偏電腦的孩子嗎?Sebastian Bourjou我父親有技術背景,所以我大概在 10、11 歲時就跟著他開始寫點程序。我一直挺喜歡這些東西,在學校裡數學和理科也比較輕鬆。高中時我幾乎不用怎麼複習數學考試,也能考得不錯——不過這在大學裡就完全不成立了。| 從學校到DeepMind:一次勇氣,換一次機會Matt Turk很好。那你從學校走到今天這個位置,中間經歷了怎樣的路徑?Sebastian Bourjou說實話,這裡面有一點運氣成分。我碩士期間有一門課的老師,剛好也是 DeepMind 的研究員。最後一節課結束時,我心想不如直接問他要個內推,最壞的情況也就是被拒絕。Sebastian Bourjou我就鼓起勇氣走過去問了,他說:“可以,把你的簡歷發給我,我看看能做什麼。”這就是我拿到 DeepMind 面試的起點,大概是在 2018 年。畢業後我加入了當時還沒併入 Google 的 DeepMind,職位是研究工程師。| 從強化學習開始,轉向真實世界資料Matt Turk你最開始做的是什麼?又是怎樣一步步走到 Gemini 3 預訓練負責人的?Sebastian Bourjou剛加入 DeepMind 時,它以強化學習聞名,所以我一開始也做的是 RL。具體來說,是在 Atari 環境裡訓練無監督網路,學習關鍵點,讓智能體玩遊戲。我做了大概半年,但逐漸發現我不太喜歡這種偏“合成世界”的研究。我更希望做和真實世界資料有關、能產生現實影響的事情。我本質上喜歡“造東西”,而且是能真正跑起來的東西,對純學術研究的興趣反而沒那麼強。這推動我轉向表徵學習(representation learning),訓練能支撐多種任務的通用表徵網路。這裡,有個我經常跟團隊講的小故事:我最早參與的項目叫“從真實世界資料中進行表徵學習”,當時必須特意強調“真實世界資料”,否則大家默認你是在做合成環境或合成資料——而現在,這個前提已經完全反過來了。| 從表徵學習到Transformer 和 LLMSebastian Bourjou這也是我第一次系統性地進入 Transformer 和大語言模型方向。當時我們在研究像 BERT、XLNet 這樣的模型,重點是如何學到更好的表示,以及如何改進這些表示。這為我後續進入大規模預訓練打下了基礎。Matt Turk後來你參與了 RETRO,對嗎?可以講講那段經歷嗎?Sebastian Bourjou在那之後,我們開始真正推進大語言模型的規模化。最早是 Gopher,那應該是 DeepMind 發佈的第一篇 LLM 論文,當時團隊已經有 10 到 12 個人了。從那一刻起,就很清楚這類研究不可能靠個人完成。這也是我真正開始做大規模預訓練的階段。我們訓練了第一個 dense Transformer,大約 2800 億參數、3000 億 token。今天回看,那些做法肯定不會再用,但當時是一次非常寶貴、也很有趣的學習過程。兩條預訓練的研究線| Chinchilla:重新思考“怎麼用算力”Sebastian Bourjou之後分化出了兩條重要的研究線:Chinchilla 和 RETRO。在 Chinchilla 中,我們重新審視一個核心問題:在固定訓練算力下,模型規模和資料規模該如何平衡?結論是,資料規模應該比之前認為的更快增長,而不是一味放大模型。有意思的是,這個結論在今天仍然非常關鍵,因為它直接影響模型部署後的推理成本,以及實際使用有多昂貴。這並不是一個“歷史問題”,而是一個持續影響工程決策的結論。| RETRO:把“記憶”外包給系統Sebastian Bourjou另一條研究線是 RETRO,更偏架構創新。核心思想是:與其把所有知識都塞進模型參數里,不如讓模型在訓練和推理時,能從一個大型文字庫中檢索資訊。也就是把“記憶”部分,從參數中解耦出來。“研究品味”Matt Turk你剛才用了一個詞——“研究品味”(research taste),我覺得特別有意思。你會如何定義它?它對研究者來說有多重要?Sebastian Bourjou它在今天非常重要,但也確實很難量化。第一點是:你的研究不是孤立存在的,它必須能和其他人的研究很好地協同、被整合進系統裡。好想法,如果拖慢別人,就不是好權衡。假設你提出了一個改進,讓模型性能提升了,但同時讓其他所有人的使用成本增加了 5%。這通常不是一個好的權衡,因為你會拖慢其他人的研究節奏,而這會在長期累積中減慢整體進展。這是研究品味中的第一層判斷。Sebastian Bourjou第二點是對複雜度保持警惕。複雜度本身是主觀的,但我們始終有一個“複雜度預算”和“研究風險上限”,超過之後,系統就會開始失控。因此,我們常常會犧牲一點性能,換取更低複雜度的方案,以便未來能走得更遠。Matt Turk聽起來研究品味裡也包含一種直覺判斷——什麼可能行得通,什麼不值得繼續投入。在算力有限的前提下,這種直覺是不是也很關鍵?Sebastian Bourjou是的,這一點非常重要,而且不同人差異很大。經驗在這裡非常有幫助,而我們在研究層面確實受限於算力。多數研究都會失敗,這本身就是現實Sebastian Bourjou研究的關鍵在於選擇探索那一條“研究樹”的分支,以及在這條分支上該做那些實驗。而且要知道,大多數研究想法都會失敗,你需要判斷什麼時候該停下來、什麼時候值得繼續推進。在深度學習中,負結果往往並不代表“不可能”,而是“你還沒把它做對”。修復、探索,如何平衡?Matt Turk既然談到研究組織方式,我們再深入一點。一個典型的權衡是短期和長期之間的取捨,你們是怎麼平衡的?Sebastian Bourjou這是我花很多時間思考的問題。一方面,總有一些明確的“關鍵路徑”問題,比如模型某個部分明顯不夠好,這些我們會優先修。這些修復是相對安全的投入,而且往往能直接提升模型。更重要的是,那些當前看起來“不夠完美”的地方,往往會在模型規模變大、能力增強後放大成大問題。所以在早期就非常嚴謹地處理這些問題,其實是在為未來降風險。另一部分,則是更探索性的研究,可能會影響下一代或下下代 Gemini,但尚未被驗證。這兩者的平衡並沒有固定公式,也和階段有關。在擴容階段,探索會多一些;在發佈前,則高度聚焦執行與去風險。研究vs 產品壓力Matt Turk在類似的維度上,還有研究與產品目標之間的張力。在激烈競爭中,是否會有“必須贏某個榜單”的現實壓力?Sebastian Bourjou在 Google,其實這種壓力相對很少。因為管理層大多有研究背景,他們很清楚:你可以短期“刷榜”,但真正重要的是研究本身是否走在正確方向上。至少對我個人來說,日常工作中幾乎感受不到這種壓力。DeepMind 的組織結構是怎樣的?Matt TurkDeepMind 的團隊是如何組織的?你提到預訓練有幾百人,那是否還有後訓練、對齊等不同團隊?Sebastian Bourjou有預訓練團隊,也有後訓練團隊。預訓練涵蓋模型、資料、基礎設施和評測,而評測本身常被低估,但其實非常難、也非常關鍵。此外還有大規模的基礎設施和服務團隊。Gemini 3:架構上基本仍然是TransformerMatt Turk好,我們稍微換個話題。按照之前的約定,我們來深入聊聊 Gemini 3 的內部設計。Matt Turk從使用者角度看,Gemini 3 和 2.5 的感覺差異很大。是否有某個重大的架構決策,解釋了這種變化?Sebastian Bourjou從高層來看,架構並沒有發生根本性變化。更多是多個改進點疊加在一起,最終帶來了顯著提升。整體上,它仍然是基於 Transformer 的混合專家(MoE)架構。Matt Turk能否用更教學一點的方式,解釋什麼是 MoE 架構?Sebastian BourjouTransformer 主要有兩個模組:第一個是注意力模組,負責在不同 token 之間混合資訊;第二個則是前饋模組,則提供模型的“記憶”和計算能力,它們是平行作用在單個 token 上的。在原始 Transformer 中,前饋模組是一個 dense 的全連線到網路。而MoE 的核心思想是:將計算量與參數規模解耦,通過路由機制,動態選擇“專家”來處理輸入。這樣就能在不線性增加計算成本的前提下,提升模型容量。原生多模態,真實成本如何Matt TurkGemini 是原生多模態模型。在實踐中,這對模型來說到底意味著什麼?Sebastian Bourjou這意味著我們不是為圖像、音訊、文字分別訓練不同模型。而是同一個神經網路,同時處理所有模態的資訊。Matt Turk這種原生多模態在成本上會更貴嗎?比如 token 成本?Sebastian Bourjou這是個好問題,成本主要體現在兩個方面。第一是研究複雜度,多模態互動會增加系統複雜性,需要額外思考和設計。第二是計算成本,圖像輸入通常比純文字更大,但這也是效率最佳化的重要研究方向。Scaling Law 真的“死”了嗎?Matt Turk回到你最擅長的預訓練領域。2025 年有不少聲音在討論“Scaling Law 是否已經失效”,Gemini 3 是否給出了反證?Sebastian Bourjou是的,這類討論對我來說一直有點奇怪,因為它們和我的實際經驗並不完全一致。我們看到的情況是:Scaling在預訓練中依然非常重要,也是讓模型變得更強的關鍵因素之一。但問題在於,過去人們有點高估了規模這一維度。規模確實能讓模型變好,而且它的優勢在於結果相對可預測——這正是規模定律告訴我們的:當模型變大時,性能大致會提升多少。但這只是其中一部分。另外兩大關鍵因素是模型架構和資料層面的創新,它們在當下的預訓練性能中同樣、甚至可能比“純粹堆規模”更重要。當然,規模依然是一個重要因素,對吧?而且我們這裡討論的是預訓練階段。因為今年我們看到的是:後訓練階段有規模化的 RL,推理時有規模化的 test-time compute 等等。但在預訓練中,你們看到的情況似乎是,不僅 scaling loss 沒有放緩,甚至還有加速的跡象——我的理解是,這主要來自資料和不同架構的變化,對嗎?Sebastian Bourjou我覺得更準確的說法是:這些因素是疊加在一起發揮作用的。規模只是其中一個軸,而模型本身和資料的改進,同樣會推動整體性能提升。Matt Turk當你在模型架構層面做出改進時,通常意味著什麼?是不是用同樣規模的資料,模型能得到更好的結果;或者反過來,用更少的資料,就能達到上一代模型的效果?Sebastian Bourjou對,這正是第一個層面的含義。架構改進本質上提高了資料效率。不過就資料體量而言,我們現在使用的資料規模,依然比人類一生可接觸到的量高出好幾個數量級。進化過程常被拿來類比,但那類高層討論往往依賴太多假設。至少在一階近似下,看起來我們確實比人類“喂”了模型更多資料。未來研究方向Matt Turk在整個預訓練進展上,除了規模之外,你在行業裡還對那些方向感到興奮?Sebastian Bourjou一個明顯的方向是長上下文。在 Gemini 1.5 中,我們在長上下文能力上實現了一次很大的躍遷,這直接支撐了如今模型和智能體處理大型程式碼庫等複雜工作的能力。接下來一年,我預計會看到更多關於“如何高效支援長上下文”的創新,以及進一步拉長上下文字身的研究。此外,在注意力機制上,我們最近也有一些很有意思的發現,可能會深刻影響接下來幾個月的研究方向。整體來看,進步往往來自大量中小改進的疊加:修一個問題、補一個漏洞、驗證一項看似不起眼但有效的研究,最終一起推動整體向前。長上下文會取代RAG嗎?否Matt Turk這讓我想到你早期參與的 RETRO。它強調的是效率、讓小模型做更多事;而現在你在 Gemini 3 上,面對的是超大規模資料和極長上下文窗口。你覺得這種範式會不會逐步消解 RAG、搜尋這些機制的必要性?備註:RETRO,DeepMind 在 2021–2022 年提出的一種語言模型研究方向,全稱通常被稱為 Retrieval-Enhanced Transformer。Sebastian BourjouRETRO 的核心並不是讓模型變小,而是“檢索而不是儲存”:讓模型在推理時去取資訊,而不是把一切都壓進參數里。這個理念今天依然成立。過去,預訓練的迭代周期很長,風險和成本都很高;而 RAG 或搜尋更多發生在後訓練階段,迭代更快、效果也很強。從長期來看,我相信真正的答案是把檢索和搜尋以可微的方式納入訓練本身——可能通過預訓練,或未來的其他範式。RL 的規模化或許只是一個開端,架構層面還有很多事要做,但這會是未來幾年逐步展開的過程。後訓練的Scaling Law跟預訓練很類似Matt Turk我理解你們的觀察是:在預訓練階段,規模依然非常關鍵,但今年大家又在後訓練階段放大了 RL、測試時計算等變數。那在預訓練中,我們看到的不只是 loss 放緩,甚至還有加速現象,這是不是更多來自資料和架構的變化?Sebastian Bourjou可以這樣理解:這些因素是疊加起作用的。規模只是其中一個維度,模型架構和資料同樣會顯著提升性能。有時候,架構或資料層面的創新,帶來的收益會超過單純繼續放大規模;但在某些階段,直接擴規模依然是最有效的路徑。這主要針對預訓練而言。至於 RL 和 RL 的規模化,其實我們正在看到很多和早期預訓練階段相似的現象,只是現在可以把當年的經驗直接遷移過來。Gemini3一開始就是多模態資料混合體合成資料明顯增加了Matt Turk說到資料,Gemini 3 的預訓練資料大致是怎樣的組合?你們之前好像發佈過 model card,透露過一部分資訊。Sebastian Bourjou:整體是多模態、從一開始就如此設計的資料混合體,來源非常多樣。一個經常被問到的問題是:我們會不會很快用完資料?一方面是算力是否不足,另一方面是資料是否不足。今年合成資料的使用明顯增加了,你怎麼看它的價值和邊界?Sebastian Bourjou合成資料確實很有意思,但使用時必須非常謹慎,很容易用錯。常見做法是先用一個很強的模型生成合成資料,再用小規模實驗驗證它是否真的有效。一個更難的問題是:能不能用合成資料,訓練出一個比“生成這些資料的模型”本身還要更強的模型?這是我們投入大量精力研究的方向。至於“資料是否用完了”,我個人並不這麼認為。我們研究中發現,更可能發生的是一種範式轉變:過去我們默認處在“資料幾乎無限”的階段,現在正在進入“資料有限”的階段,這會徹底改變研究思路。有點像 LLM 出現之前,大家在 ImageNet 等小資料集上的工作,很多當年的方法又重新變得有價值。範式正在轉變:資料有限的情況下如何更好Matt Turk行業裡還有一個反覆出現的概念:基於“推理軌跡”的訓練,也就是要求模型展示中間思考過程,再用這些過程訓練下一代模型。你怎麼看這個方向?Sebastian Bourjou具體細節我不能展開評論,但你的問題方向確實很對。這和你剛才問的合成資料高度相關。更宏觀地看,一個核心主題正在浮現:模型如何在有限資料條件下學習得更好。這裡的“有限”並不一定是更少,而是資料量是有上限的。從這個角度看,模型架構研究本身,正是在回答你提到的那個問題。Sebastian Bourjou還有一點我想強調:大家經常只談模型架構,但基礎設施、資料和評測同樣關鍵。評測尤其困難,在預訓練階段更是如此。一方面,我們用來做評測的小模型,必須能預測大模型的表現;另一方面,預訓練後的模型還會經歷後訓練,評測指標也要能反映最終使用效果。內部評測體系在這裡非常重要,因為外部基準很快就會被“污染”,一旦訓練資料中洩漏了評測內容,你幾乎無法察覺。真正防止自欺的方式,就是維護嚴格隔離的內部評測集。為什麼對齊不發生在預訓練?Matt Turk那對齊更多是在預訓練階段考慮,還是主要發生在後訓練?Sebastian Bourjou我會說大部分是在後訓練階段,但確實有一些部分和預訓練相關,具體細節我不便展開。不過我們在預訓練階段也會考慮這些問題。Matt Turk一個很直觀的問題:如果核心資料集來自網際網路,而網際網路裡充滿糟糕內容,那對齊的第一步是不是乾脆不把這些東西喂給模型?Sebastian Bourjou這是個很難給出確定答案的問題。你當然不希望模型去做那些糟糕的事,但在更底層的層面,模型至少要“知道”這些東西是什麼,才能學會避開它們。否則當使用者提到某些糟糕內容時,模型甚至無法判斷那是什麼,也就談不上明確拒絕。Deep Think 與模型的關係Matt Turk:我們來聊聊 Deep Think 吧,也就是在 Gemini 3 發佈幾天後推出的那個“思考模型”。它是一個獨立模型,還是同一個模型的不同形態?應該怎麼理解?Sebastian Bourjou:這個我不能講太多。至於你提到的,當模型“思考”十幾秒甚至更久時,背後發生了什麼,其實行業裡已經討論過不少了。本質上,是讓計算不只發生在模型深度上,也發生在序列長度上:模型會生成假設、測試假設,呼叫工具、發起搜尋,然後最後給出一個確定性的回答。圍繞“思維鏈”的這種範式,已經在行業裡逐漸形成共識。程式設計AgentMatt Turk:那從 agent 的角度呢?比如 Google 的 Anti-Gravity,你覺得它有意思的地方在那?Sebastian Bourjou:這正好和我之前提到的日常工作相關。很多時候我們的工作是偏執行層面的,比如盯實驗。但 agent 化真正放大了模型的價值。對預訓練來說,感知和視覺能力變得非常關鍵,因為模型現在要直接和螢幕互動,螢幕理解做不好,agent 基本無從談起。Matt Turk:Anti-Gravity 裡還有個“vibe coding”的說法,幾乎就是“憑感覺寫程式碼”。這種“vibe”是預訓練出來的,還是後訓練?怎麼把“感覺”塞進模型裡?Sebastian Bourjou:這個問題你問五個研究員,大概會得到五種答案。確實存在一種“模型氣場”的說法,歷史上有人認為 GPT-4.5 這種大模型“感覺不一樣”。我不太喜歡用這種表述,但直覺上,預訓練在塑造這種“感覺”上起的作用,可能比後訓練還大。如果專指 vibe coding,我會更傾向於把它看作 RL scaling 和後訓練的結果:你可以收集大量相關資料,系統性地把這種行為教給模型。持續學習的熱門方向長上下文、大中小疊加、降低成本Matt Turk:拉遠一點看。最近一年在很多會議上,大家都在談“持續學習”。從預訓練角度看,你怎麼理解它?如果持續學習真的成立,對重新訓練意味著什麼?Sebastian Bourjou:持續學習,本質上是讓模型隨著新知識不斷更新。比如明天出現一個新的科學突破,昨天訓練好的基礎模型並不知道它。近幾年更多進展發生在後訓練階段,比如通過搜尋工具即時獲取新資訊。RETRO 做的事情也是類似的:把知識外部化,用檢索配合推理。在預訓練側,一個相關方向是長上下文。如果上下文不斷擴展,模型就能在一次互動中吸收越來越多資訊,某種意義上形成“准持續學習”。更激進的設想是改變訓練演算法,讓模型持續地從真實世界的資料流中學習,但那是更大的範式轉變。Matt Turk:那你現在覺得,研究裡那些方向最熱、最有意思?Sebastian Bourjou:依然是大量中小改進的疊加,這在歷史上一直是進步的主要來源。具體來說,長上下文架構、注意力機制,以及從“無限資料”轉向“有限資料”這一範式變化,都會帶來很多新的研究問題。另一條線是使用成本:模型被越來越多的人使用,預訓練階段就必須考慮部署和推理的代價。如何在保證質量的同時,讓模型更便宜、更省資源,這會反過來影響預訓練設計。條件已經成熟:既要做研究,也得理解系統Matt Turk:如果有學生或博士生在聽這期節目,想在幾年後做到你現在的位置,你覺得他們該關注什麼問題?Sebastian Bourjou:一個越來越重要的能力,是既能做研究,又理解系統。我們現在建構的是非常複雜的系統,能從 TPU 到模型研究全鏈路理解整個棧,是一種“超能力”。這樣你能看到不同層之間的空隙,也能推演一個研究想法對系統底層的影響。另外,我個人依然對檢索方向很感興趣。RETRO 當年還不成熟,但條件正在變化。未來幾年,這類方法進入頂級模型並非不可想像。Matt Turk:那為什麼當時不成熟?現在又為什麼可能改變?Sebastian Bourjou:主要還是複雜度和迭代效率的問題。很多能力通過後訓練和搜尋就能更簡單地實現,迭代也更快。但隨著後訓練和 RL scaling 的發展,重心可能再次向預訓練側回擺。專用模型被過度投資了Matt Turk:你覺得現在 AI 領域有沒有被過度投資的方向?Sebastian Bourjou:情況已經好很多了。兩年前還有很多人在做高度專用模型,但這些任務往往很快就會被通用模型覆蓋。現在更多人接受一個判斷:對大多數通用任務,與其做專用模型,不如等下一代通用模型。這也讓“如何使用模型”“如何建構可靠的 harness”“如何容錯和恢復”變得越來越重要。創業者的機會Matt Turk那對創業者呢?基礎模型越來越強,覆蓋面越來越廣,留給初創公司的空間是不是在縮小?Sebastian Bourjou可以回頭看看一年前模型能做什麼,再看看現在能做什麼,然後外推。我認為模型正在快速進步的方向,短期內還會繼續;而進步緩慢的地方,反而可能是更有意思的機會。暫時我沒有具體案例,但這是一個總體判斷。未來一年,基礎模型不會放緩Matt Turk最後一個問題。未來一兩年,從你個人的角度看,最讓你期待的是什麼?Sebastian Bourjou我最喜歡的一點,是每天能和很多非常聰明的人一起工作,不斷學到新東西。這是驅動我前進的核心動力。同時,就像我反覆說的,還有太多可以改進的空間。我暫時看不到這條路的盡頭,也不覺得未來一年會放緩。能親眼看到它能走多遠,本身就非常令人興奮。Matt Turk太好了,這正是一個完美的收尾點。Sebastian,非常感謝你來做客播客。 (51CTO技術堆疊)