OpenAI試圖在奇點前夜，搶回人類的控制權｜OpenAI新論文解讀

2025/11/26

•

我們正生活在一個由黑匣子統治的時代。這些黑匣子被我們稱為AI。

幾十年來，我們與這些機器的契約很簡單：我們給它們海量的資料，它們還給我們一個魔法：精準推薦下一首歌、能以99%的精準率識別貓、或寫出莎士比亞十四行詩。

我們不在乎怎麼做到的，我們只要它能做到。

但現在，當這個黑匣子不再是用來識別貓，而是用來診斷癌症、批准貸款或（老天保佑）控制核武器時，“怎麼做到的”成了不能規避問題。

於是，一個被稱為機制可解釋性的AI研究領域誕生了，他們的工作就是試圖搞清楚模型到底在想什麼。

在這個領域中，Anthropic貢獻了很多技術，比如探針，試圖通過觀察注意力的變化，去逆向猜測大腦的運轉。但這些猜測都是模糊且多解的，因為他們不得不面對神經網路的一個本質特性，那就是疊加。

直到這個月，OpenAI出手，用一篇名為《權重稀疏的Transformer具有可解釋的電路》的論文給出了拆掉這座高牆的鎯頭，打算從根本上解決不可解釋性的問題。

01. 疊加態的詛咒

疊加上所以令人頭疼，是因為它讓神經網路變得像一個過度擁擠的單身公寓。

在一個普通的密集神經網路裡，為了節省成本（參數量），模型會讓一個神經元同時打幾份工。

這就像一個只有十個櫃子的房間，卻要塞進一千件不同的東西。當你拉開一個櫃子（神經元），你會發現裡面壓扁了的冬衣、貓糧和一團電線塞在一起。

對於同一個神經元，當你問它“這是什麼？”時，它會告訴你：如果看到“貓”，我啟動 0.8；如果看到“狗”，我啟動 -0.5；如果看到“引號”，我又啟動 0.3。

這種一詞多義的現象就是疊加。

讓情況更糟糕的是，這些資訊還會以複雜的方式分散在多個神經元之間。一個簡單的任務（比如識別程式碼裡的引號），其邏輯可能被撕碎，分散在幾十個這種亂七八糟的神經元裡，要靠著其他神經元同步啟動，才能顯現出來。

這也是目前的 AI 這麼強的原因。它極致地壓縮了資訊，高效利用了每一個參數。

但也正因如此，想要看懂它的工作流，就跟拆開一團複雜的線團一樣困難。

02. 極簡主義的經濟制裁

OpenAI 的思路很直接。既然疊加是因為模型為了省錢（節省參數）而把概念混在一起，那乾脆就改變經濟規則，讓它不去疊加了。

於是，他們設計了一個模型簡化計畫。從頭開始訓練一種權重稀疏（Weight-Sparse）的模型。在每個訓練步驟後，OpenAI會直接把每個權重矩陣裡除了最大的那些值之外的所有參數都清零。

這樣，最極端的情況下，他們的模型只有千分之一的參數是非零的。此時，一個原本可以有一百萬個連接的神經元，現在只被允許保留一千個。

這不是在限制模型能學多少知識，而是在限制它能動用多少關係。

在這種嚴苛的預算下，模型為了完成任務，必須精打細算。它發現，把毫不相關的概念（比如貓和引號）塞進同一個神經元變得不再划算，因為解開它們需要額外的連接，而連接極其珍貴。

於是，在這套極簡主義的經濟下，模型被迫學會了斷舍離。訓練出來的模型中，一個神經元只負責一個概念，這種解耦策略反而成了最經濟的生存之道。

然而，訓練出一個整潔的模型只是第一步。整個模型依然是一個有著龐大參數的迷宮。想要在迷宮裡找到處理特定任務的那條紅線，他們需要第二個工具，即自動剪枝（Automated Pruning）。

如果說稀疏訓練是把雜亂的房間整理得井井有條，那麼剪枝就是關掉燈，只讓那些正在工作的電線發光。

這不是靠人工去猜，而是一個自動化過程。研究人員會為選定一個具體任務（比如數括號），然後給模型裡每一個神經元都裝上一個可調節的調光器（Mask）。

通過最佳化演算法，系統會不斷嘗試關掉參數的燈光（均一化響應）。只要關掉這個神經元不影響任務結果，就立刻把它徹底關死。

當數百萬個調光器被關閉後，黑暗中只剩下那幾十個還亮著的節點。這些倖存下來的節點連接在一起，就構成了能夠解釋具體任務的電路（Circuit）。

所謂電路，本質上就是從那個龐大而複雜的神經網路中提取出來的、專門負責某項具體任務的最小核心子圖 。是模型在處理問題時，用到的所有邏輯判斷的精簡思維導圖。

在這個稀疏中，AI 的思考路徑變得驚人地乾淨。

當研究人員對比同樣表現的稀疏模型和密集模型時，發現稀疏模型處理特定任務的電路體積，平均小了16倍。

03. 讀懂AI的心

有了清晰的電路，研究人員終於可以讀懂 AI 的思想了。

在論文中，研究人員向我們展示了模型是如何把一個簡單的認知任務（看到引號 -> 記住引號 -> 閉合引號），拆解成了一套嚴密的寫入-檢索邏輯。

這個任務，大概是模型讀到了一個開頭的雙引號 ("，中間經過了一串字元，現在它走到了句子的盡頭，需要預測下一個字元是 ") 還是 ') 。

它做的第一步是標記。當模型讀到開頭的 (" 時，電路中的一個元件被啟動。它向資訊流中寫入了兩條資訊，先用引號檢測器標明這裡有個引號（位置標記），再用一個類型分類器判別了一下標記的類型，確認這是個雙引號（類型標記）。

第二步則是回溯。 當模型處理到句子的最後一個字，準備預測結尾時，第 10 層的一個注意力頭啟動了。它利用了注意力機制經典的Q-K-V（查詢-鍵-值）結構來完成一次精準的資料庫檢索。回過頭去尋找那個位置標記，也搜尋到了前面的類型標記（雙引號）。

模型拿著這個資訊，立刻排除了單引號的選項，自信地輸出了 ")。

模型整個行為的過程，非常符合人類的邏輯架構，用內容分離去判別，再用檢索去確認。

在這些電路里，我們可以看到是清晰、可偵錯的程式碼邏輯。

研究人員甚至發現了更複雜的變數追蹤電路，模型通過兩層注意力機制，像接力跑一樣，先把變數名存入記憶體，再在需要時通過變數名檢索出它的類型。

04. 有效性的證明

為了驗證這些線路圖不僅僅是好看，而是真的在工作，研究團隊還做了一系列實驗驗證其充分性和必要性。

針對充分性，當他們把電路以外的所有神經元全部切斷（設為平均值），發現模型依然能完美完成任務。

而當他們僅僅切斷電路以內的那幾個關鍵節點，模型的能力瞬間崩潰。這就說明它確實是必要的。

由此，研究者可以自信的說，他們提取出來的不僅僅是統計上的相關性，而是模型真正的思維流程。

但即使模型是真的用這個電路思考的，研究人員怎麼證明他們的理解沒有問題呢？

證明也很簡單如果他們真的懂這個電路，他們就應該能“黑”了它。

在研究一個“計算括號巢狀深度”的電路時，他們發現模型為了省事，用了一種“取平均值”的快捷演算法來估算深度。研究人員立刻意識到：既然是取平均值，那如果我把上下文拉得特別長，這個數值不就被稀釋了嗎？

於是，他們故意構造了一個超長的列表作為輸入。結果不出所料，模型正如預測那樣，在巢狀深度判斷上徹底失效了。

這簡直是可解釋性領域的登月時刻。這就像神經科學家聲稱破解了視覺皮層，然後通過畫一張特定的圖畫，精準地讓你的眼睛產生了預期的幻覺。

通過精準預測模型的失敗，他們反向證明了對模型原理的掌控。

現在，OpenAI的研究人員可以完全自信的說，他們已經理解了模型是怎麼處理括號問題的了。

05. 找到了聖盃，但還是遇到了硬體的牆

故事到這裡，似乎我們已經找到了聖盃。只要把所有模型都做成稀疏的，可解釋性的問題不就解決了嗎？

聽著挺好，結果論文在角落裡藏著一個巨大的但是，就是效率。

這些權重稀疏模型，在現有的電腦上運行，效率低得令人髮指。訓練它們可能需要比普通模型多消耗100到1000倍的算力。

過去三十年的晶片工業，都是為了密集計算而生的。GPU之所以快，是因為平行能力強，能一次性做很多運算。

但在稀疏模型裡，任何時候，只有零星幾個神經元在做著計算。

當你把稀疏模型放到 GPU 上時，它那龐大的平行能力就完全失效了，只能一次算一點點。

我們為了讓人類理解而設計的模型結構，恰好被我們需要它運行的硬體物理結構所排斥。

更糟糕的是，除了跑得慢，它還胖得驚人。

這樣一個稀疏模型，因為其中神經元的利用很低效，因此想要達到和密集模型同樣的聰明程度，你往往需要極大地增加它的總參數量。由此產生的模型體積也會大到讓硬體裝下很吃力。

這意味著，用這種方法訓練一個稀疏版的 GPT-5根本不現實。

06. B 計畫：橋接

那這一切努力都白費了嗎？

OpenAI 提出了一個B計畫，雖然無法用可解釋性稀疏模型去取代那些高效但不可解釋的密集模型，但我們可以用橋接的方式造一個區域翻譯器，只翻譯其中一小部分。

這一橋接的方法，就是凍結那個強大的密集模型，然後在它旁邊訓練一個小的稀疏模型。同時，訓練一組翻譯層，讓它們時刻保持同步。

這樣，當稀疏模型裡的引號分類器亮起時，我們就能知道原來密集模型裡對應的，是那一套複雜的神經元組合了。

這個稀疏模型的橋接，就像一台連接到密集模型上的 X 光機。

雖然因為規模和效率問題，我們沒法通過它翻譯密集模型的全部思想。但針對我們關心的那些安全任務（比如欺騙、誘導、製造生化武器），針對性的翻譯還是完全做得到的。

比如研究人員可以手動蒐集一個模型進行欺騙行為的資料集。然後我們在這個資料集上訓練橋接模型，強迫它去翻譯GPT-5在進行欺騙時的內部計算。由此也許就能搞清楚其中到底是出了什麼問題，模型為什麼要撒謊。

07. 不完美，但意義同樣重大

雖然這篇論文沒有給我們一個完全安全、可解釋、超智能的AI。

但它給了我們一套工具，和一線希望。

它證明了，AI的黑匣子並非堅不可摧。只要我們施加正確的壓力（稀疏性），並使用正確的手術刀（修剪演算法），我們就可以強迫這個黑匣子開口，把它最深的秘密暴露在人類的理解之下。

這也許是我們在超級智能降臨的前夜，唯一能為它套上的思想韁繩。它讓我們不再是被動地等待黑盒裡的審判，而是第一次擁有了主動。

在AI學會欺騙之前看穿謊言，在它孕育出惡意之前，將其扼殺於神經元的閃爍之中。

這可能是在這場遊戲中，我們唯一能贏的方式。（騰訊科技）