近期不管是Dwarkesh Podcast上Ilya的訪談,還是行業前沿一些最新的論文進展與NeurIPS 的最佳論文,似乎都在揭示一個真相就是AI的Scaling 時代正在進入尾聲?這屆 NeurIPS 的最佳論文名單,我看了一遍,似乎也並不是在說“Scaling 完全沒用了”,而是在給 2018–2025 這一輪“簡單堆大模型 + RLHF”的路線開一份“體檢報告”:哪些地方已經到 邊際收益遞減 / 隱患暴露期;哪些方向還存在 新的可擴展維度(結構、更深網路、訓練動力學)。結合 Ilya 在 Dwarkesh 訪談裡那句“It’s back to the age of research again, just with big computers”,這 7 篇論文確實在接近一個真相,就是“Scaling 時代”正在接近尾聲,要通過scaling獲得模型邊際性能的提升變得越來越難了。一、先把 7 篇論文拎成 3 條主線按主題而不是按官方獎項看,會更清楚:主線 A:對“無腦 Scaling + RLHF”的反思Artificial Hivemind(Best Paper)這對未來兩個東西都很要命:這篇論文在實證層面告訴你:繼續按照現在這套 RLHF + 合成資料流水線往前堆,遲早會撞到“資訊熵天花板”。創意 / 多樣性:LLM 越來越像一個“平均值人類”,長尾觀點全被削平。合成資料訓練:如果你再用這些“高度平均化”的 LLM 輸出去訓練下一代模型,訓練分佈的資訊熵會持續下降 → 相當於在做一個“生態等級的 mode collapse”。Intra-model:同一個模型對不同採樣、不同時間,回答非常像。Inter-model:不同家的 SOTA 模型(不同架構、不同實驗室)對開放問題的回答也高度相似。做了一個大規模開放式問答資料集 Infinity-Chat(26K 開放式問題 + 超 3 萬人類標註)。發現兩個層面的同質化:這種“人工蜂巢思維”很大一部分來自 RLHF / 對齊階段的 reward model 把“安全、無爭議、平均偏好”的那一塊分佈壓得特別重。2. Does RL really incentivize reasoning capacity?(Runner-up)這基本在幫 Ilya 把話說完:你不能指望一個表徵不夠好的基座,只靠後期 RL 就“解鎖智力上限”。RLVR 是在擠同一塊資訊海綿裡的最後一點水,而不是往海綿裡再灌海水。RL 更像是在隱空間裡學會“少走彎路、直接拿出自己已經會的解法”;但要讓模型學會真正 OOD 的邏輯結構,主戰場仍然是 pre-training 表徵質量。做了嚴格控參實驗,比較 base model 與 RLVR / CoT RL 後的模型。結論不是“RL 沒用”,而是:大部分提升來自“更會採樣”而不是“更會推理”。3. Superposition Yields Robust Neural Scaling(Runner-up)從這裡開始,Scaling 不再是“經驗公式”,而變成“有前提條件的物理定律”:前提不滿足(比如特徵太同質、資料熵不足、RLHF 拉平分佈),Scaling 的收益自然就塌了。Scaling Law 不是玄學,是網路在“塞越來越多特徵進去同一維度空間”時的統計結果;但一旦 superposition 太極端,也會帶來干擾、解釋性差等問題。做的是 toy model + 理論:解釋 Scaling Law 為何看起來像“物理定律”。觀點:網路不是“一維一個特徵”,而是在有限維度裡做了大量 非正交特徵疊加(superposition),在一定條件下可以推匯出類似 “loss ∝ 1/d” 這樣的反比關係。主線 B:從“堆大”轉向“改結構 / 改動力學”這裡是最貼近 Ilya 所說的“Age of Research”的部分:不是把模型做更大,而是在相似計算預算下,重寫 Recipe。4. Gated Attention for LLMs(Best Paper,阿里 Qwen)很小的改動:在 scaled dot-product attention 的輸出後面,加一個 head-specific 的 sigmoid gate。實驗:在 1.7B dense + 15B MoE 模型、3.5T tokens 上系統比較了 30 多種 gating 變體。給原本線性的 low-rank attention 對應加了一層非線性;按 query 自適應做稀疏門控,抑制不該擴大的殘差。結果:這個簡單門控能同時帶來:訓練更穩定、允許更大的學習率;更好的 scaling 性能;長上下文 extrapolation 更好,並且 緩解 attention sink(那種開頭 token 吃掉一堆注意力的現象)。本質上這類工作說明:架構級的小手術 + 訓練動力學的理解,可以在“不多加算力”的前提下,把 Scaling 繼續向前推一段。這就是 Ilya 所謂“回到 research,只不過有更大的電腦”。5.1000 Layer Networks for Self-Supervised RL(Best Paper)有點反轉:說明 “Scaling 結束” 不是全行業的,而是 “某種簡單 scaling 策略的天花板到了”;其他範式(RL + SSL + 具身智能)反而剛剛拉開帷幕。LLM 那邊大家在喊“Scaling 遇到瓶頸”;RL 這邊反而剛進入自己的 Scaling Moment(但靠的是深度 + 自監督,而不是僅僅加寬點 MLP)。傳統 RL policy 網路一般就 2–5 層,深了就梯度斷、訊號稀疏。這篇用 自監督目標 + goal-conditioned 無獎勵設定,把網路深度做到 1024 層,在 Locomotion / Manipulation 的目標達成任務上提升 2x–50x。更重要的不是數字,而是 qualitative change:深層表徵開始出現 “湧現的目標達成策略”,而不是簡單的局部最優。6. Why Diffusion Models Don’t Memorize(Best Paper)研究擴散模型在訓練過程中的 兩階段動力學:早期:迅速學到資料流形的結構 → 泛化能力主要形成於此;後期:緩慢開始記憶孤立樣本 → 過擬合主要在這個階段發生。把這個現象解釋為一種 隱式動力學正則化(implicit dynamical regularization):噪聲調度 + 損失景觀,讓模型更傾向學“結構”而不是“具體樣本”。這對現實世界有兩個含義:從理論上解釋了為什麼擴散模型在很多實驗裡 不太“死記硬背”訓練樣本;也給出了一個穩健操作建議:控制訓練時長 / 早停點,就可以在不改變結構的前提下獲得 better generalization。這裡的關鍵詞是:理解訓練動力學 → 調 recipe,而不是再堆參數。7. Optimal Mistake Bounds for Transductive Online Learning(Runner-up)這是純理論,把一個 30 年的 open problem(直推線上學習的 mistake bound)補完。配上上面幾篇,可以看出一個趨勢:Scaling 不再等於“加 labeled data + 加參數”,而是“利用 unlabeled / self-supervised 結構,把資訊效率榨滿”。給半監督 / 自監督學習的 “極限收益” 一個更清晰的下界;幫你回答“多利用 unlabeled data 到底理論上能好多少”。結論:在有大量未標註資料的情境下,可以把錯誤界從線性降到 √n 等級。主線 C:回到“生物與歷史”的兩塊基石Test of Time:Faster R-CNN10 年前的工作被授予時間檢驗獎,本質是在提醒大家:當年深度學習取代手工特徵工程(Selective Search 等)的邏輯,就是:“只要接上梯度,一切皆可學習”。和 Gated Attention 一起看,相當於在說:真正改變時代的架構創新,往往不是“多 10 倍參數”,而是“發現一個新的 end-to-end 可微組合方式”。Sejnowski-Hinton Prize:Random Synaptic Feedback / Feedback Alignment這篇 2016 年的工作證明:即使反向傳播的 feedback 權重是固定隨機的,前向權重也可以在訓練中“自動對齊”它們,從而逼近真正梯度。對今天的暗示:深度學習不必拘泥於“生物不可能實現 exact backprop,所以不 biologically plausible”;你可以探索 更鬆弛、但可實現的學習機制。配合 Ilya 現在在 Safe Superintelligence 做的事情,其實是在告訴你:下一階段的“Research”不僅是工程層面的 recipe,更是“理解大腦 / 理解學習規律”層面的基礎研究回歸。二、這 7 篇論文是如何給 Ilya 那句“Scaling 時代結束”做註腳的?把 Ilya 訪談裡的時間軸簡單整理一下:2012–2020:Age of ResearchCNN / RNN / attention / Transformer / RL breakthroughs。2020–2025:Age of Scaling大模型 + 巨量資料 + 大算力,“公式非常簡單、低風險”:堆 GPU 就是正解。2025 以後:Back to the age of research, just with big computers規模已經很大,再 100× 不會“質變一切”,必須重新在“方法 / 架構 / 理論”上做發現。NeurIPS 這幾篇獲獎論文剛好對應三個層面:1. Scaling 舊範式的“副作用清單”這幾篇一起,把“簡單繼續沿用過去 5 年的 scaling recipe” 的邊界畫出來了。Artificial Hivemind:過度對齊 + 合成資料 = 生態級 mode collapse 風險。RLVR 去魅論文:把 RL 當“神奇推理放大器”是不現實的;它更多是採樣器最佳化。Superposition Scaling:Scaling Law 只是某些結構下的“物理現象”,前提一旦被破壞,law 就不再適用。2. 新範式的“起點示例”博弈的重點,從 “再加多少 GPU” 變成 “在既有算力預算下,如何通過結構 + 動力學 + 理論把效率榨盡”。Gated Attention:通過理解 attention 動力學(attention sink、低秩對應),做最小結構改動,換來更穩定、更可擴展的訓練。1000-Layer Self-supervised RL:在 RL 場景裡把深度 scaling 打開,但必須配合自監督世界模型。Diffusion Dynamics:通過分析訓練動力學,給出“不 memorization” 的機制解釋和操作準則。Transductive Mistake Bounds:為“如何利用 unlabeled data 到極限”提供理論下界。3. 回到“世界怎麼工作的”這和 Ilya 現在的強調完全對應:模型已經“足夠大”,但 泛化比人差得多;下一個階段必須是理解“泛化的物理 / 生物機制”,而不是繼續盲目擴表。Faster R-CNN 與 Feedback Alignment 兩個獎項,某種意義上是在說:深度學習最強的時候,從來不是模型最大的時候,而是我們第一次找到“世界 / 視覺 / 大腦”真正規律的那些時刻。三、這個判斷在提醒什麼?換成很實在的視角:1. 資料與分佈:不要再把“更多樣本”當唯一武器合成資料 ≠ 免費午餐,如果源模型高度同質,我們只是把“平均人類”的偏見重複寫 N 遍;對於開放式任務,需要設計能衡量 輸出多樣性 / 長尾質量 / 個體偏好差異 的基準,而不只是平均分。真正的泛化很多時候來自訓練動力學(比如噪聲 schedule),而不是資料量超大;未來圍繞“資料版權 / 記憶與泛化邊界”的爭論,會越來越依賴這種動力學層面的理論。2. 模型與架構:規模相近的情況下,誰的 Recipe 更聰明?許多“訓練不穩 / sink token / 長上下文塌陷”的問題,可以通過 非常局部的結構改動 來解決;這類工作對工業界極具價值,因為它幾乎是“drop-in replacement”。在 RL 這種傳統上偏淺層的領域,深度本身就是一個還沒被用完的 scaling 維度;但要開啟它,你必須引入 自監督世界模型 / 輔助目標,否則梯度與訊號撐不住。如果把 2018–2025 的 LLM 熱潮比作一次“大煉丹”:這幾年我們已經證明:Scaling 非常有效,但不是無限有效。NeurIPS 2025 的這幾篇獲獎論文,在不同維度上給出了同一個答案:再往前走,不能再靠“多幾倍 GPU”來當默認路線了。 需要的是:理解分佈、理解架構、理解訓練動力學、理解泛化極限。換成 Ilya 的話就是:時代沒有從 Scaling 退回“什麼都沒有”, 而是從“只有 Scaling”回到了“Research + 大算力”並重。 (貝葉斯之美)