未來將出現一個完全可解釋的GPT-3！ OpenAI華人一作重磅突破：首次揭秘AI內部的“微觀機制”，電路越小，模型越可解釋

2025/11/15

•

就在幾個小時前，OpenAI發布了一篇重磅的最新研究，建構了一個實驗性的大語言模型，並且提出稀疏訓練+剪枝+橋接的新方法，讓原本黑箱的LLM內部機制可視化了。

大家都知道，如今GPT、Claude等LLM越來越強大，寫文章、產生程式碼、做推理，樣樣不在話下。但是，模型內部是如何「思考」的呢？這一直是個黑盒子問題。

打個比方，傳統神經網路的工作方式就像一堆糾纏在一起的電線：每個神經元與成千上萬個神經元相連，訊號在其中不斷流動、疊加。這些連結雖然能讓模型學習複雜模式，但也形成了人類難以解讀的、高度密集的連結網絡。

解釋 Transformer 的一個主要困難在於：其活化與權重並不直接可理解。例如，神經元會以難以預測的方式啟動，這些啟動模式往往不對應於人類可理解的概念。

而OpenAI的最新研究，透過對語言模型進行極度稀疏權重訓練，「解開」了模型內部的機制。他們建構了一個權重稀疏的Transformer模型，比GPT-5、Claude 或Gemini等主流模型小得多。論文第一作者Leo Gao表示，它的表現大致相當於2018年的GPT-1。

相對於常規模型來說，更透明的模型有助於揭示語言模型為何會出現幻覺、行為不可預測，或在關鍵情況下做出不可靠的判斷。

OpenAI提出對Transformer模型進行「稀疏訓練」方法，其核心思路在於：絕大多數權重設為零，讓每個神經元只連接少數節點，這樣網路內部的訊號不再在成千上萬個節點之間糾纏，而是沿著少量路徑傳遞。

他們首先在標準Transformer 架構（ GPT‑2 風格）上訓練模型，並強制絕大多數權重為0（L0 範數很小），讓每個神經元只連接少數其他神經元。

為了驗證稀疏訓練的效果，研究者設計了一些簡單任務，讓模型完成特定操作，例如：

1. Python引號閉合任務：輸入 "hello，模型要輸出匹配的引號 "hello"；

2. 列表巢狀深度計數：輸入 [ [ ] ]，模型需要正確預測列表結束的符號；

3. 變數類型追蹤：追蹤變數 current 是字串還是集合類型。

為了評估模型的可解釋性，研究者使用一種新型剪枝（Pruning）方法，以隔離關鍵電路：對每個任務，刪除模型中非必要的神經元/通道/權重，只保留完成任務所必需的最小子網路。剪枝方法會透過「均值遮蔽」（mean-ablating）凍結被刪除節點的啟動，確保任務行為仍然由剩餘的電路完成。

結果發現，每個任務對應一個最小電路（Minimal Circuit），只包含少量神經元和注意力通道，足以完成任務：

這意味著，這些電路不僅可用，而且必要且充分——正是模型執行任務的核心「機制」。

舉個例子，閉合引號任務的電路只用到兩個MLP神經元和一個注意力頭，就能判斷字串是單引號還是雙引號，然後正確閉合。

此外，研究者也發現電路越小、越獨立，模型行為就越可解釋。

他們比較了一個稀疏模型和一個在預訓練損失相同的稠密模型。透過調節目標損失，測量每個模型在完成該損失時所需的最小電路規模，並對任務進行平均。結果顯示，在任意給定損耗下，稀疏模型的電路大約比稠密模型小16倍。

稀疏訓練還有一個亮點：可調控性。

研究者將這個關係繪製成“帕累托前沿”，顯示能力與可解釋性的權衡。在總參數量固定的情況下，提高模型稀疏度（即減少權重的L0 範數）會在能力和可解釋性之間產生權衡：能力下降，但可解釋性提升。

稀疏模型雖然容易解釋，但訓練成本高，難以直接取代像GPT-3這樣的前緣大模型。為瞭解決這個問題，研究者又提出了橋接方法（Bridges）。透過橋接，把稀疏模型與已有密集模型關聯，實現已有模型行為的可解釋性分析。

「橋接」就是一系列線性對應，用於在稀疏模型和稠密模型的表示之間轉換——從而確保透過稀疏層與稠密層混合的所有路徑在預訓練任務上仍能保持良好性能。

在論文最後，研究者提到，稀疏訓練非常有前景，但仍有不少挑戰：

論文第一作者Leo Gao也表示：

「我們還沒有完全解決可解釋性問題，仍有很大的改進空間，許多電路仍然比較複雜。但我們仍然能學到很多——例如，在檢查閉合巢狀列表的電路時，我們發現了一種對模型的對抗攻擊，這是我們原本不會想到的。”

對於未來的研究方向，研究團隊表示，他們對擴展這項技術感到非常興奮。

「雖然不太可能將其擴展到最前沿的規模，但一個令人激動的目標是訓練出一個完全可解釋的GPT-3。這樣的『模型生物體』將教會我們關於AI 工作原理的重要經驗，這些經驗可能會遷移到最前沿的模型上。”

可以預見，可解釋性將是未來大模型發展的關鍵方向。在不遠的將來，我們有望真正理解“AI是怎麼思考的”，而不是僅僅看它的輸出。（51CTO技術棧）