99.9%權重清零,大模型內部思維變“透明”。
智東西12月15日報導,昨天,OpenAI開源新模型Circuit-Sparsity,模型參數量僅0.4B,99.9%的權重為零。
這個技術試圖解決模型的可解釋性問題,簡單來說就是回答“模型為什麼做出這個決策?”以及“它是如何得出這個結果的?”這兩個問題。
在AI飛速發展的今天,大語言模型(LLM)雖然表現出了驚人的能力,但其內部運作機制始終像一個神秘的“黑箱”。
我們不知道它為何做出某個回答,也不清楚它是如何從海量資料中提取知識的。這種不可解釋性,成為了AI在醫療、金融、法律等高風險領域落地的重大障礙。
對此,OpenAI研究團隊訓練出了一個權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。
在這項研究中,研究團隊在模型內部形成了緊湊且可讀的“電路”(Circuits),每個電路都僅保留了保證模型性能的關鍵節點,神經元的啟動變得具有明確的語義。
有外網網友稱這一技術讓當下的MoE(混合專家模型)走到了盡頭,並說“我們一直以來都將權重隔離到‘專家’中,以此粗略地近似稀疏性,僅僅是為了滿足稠密矩陣核的要求。”
更有網友將這項研究形容為將模型“減肥到只剩骨架”,還說這項研究就好像打開了黑匣子,不試圖解開稠密模型而是直接建構稀疏模型,正是這項研究有趣的地方。
但有些網友卻不這麼認為,稱其沒有看出MoE模型為何會因此走到盡頭,並進一步解釋說這一技術是針對XAI(可解釋AI)的,它的訓練成本要高100-1000倍,回到“研究時代”並不意味著讓事情變得更複雜。
該模型目前受限於計算效率瓶頸,其運算速度較密集模型慢100至1000倍,將該技術直接應用於千億參數等級的前沿大模型,現階段尚不具備可行性。
開源地址:
Github:
https://github.com/openai/circuit_sparsity
Hugging Face:
https://huggingface.co/openai/circuit-sparsity
要理解這項研究的突破,首先需要明白傳統大模型為何難以解釋。
在標準的密集模型(Dense Models)中,神經網路存在一種被稱為“超級位置”(Superposition)的現象。簡單來說,為了儲存海量的資訊,模型被迫讓單個神經元或權重矩陣同時編碼多個完全不同的概念。
這種特徵糾纏導致了嚴重的後果,例如模型的決策不可追溯和邏輯混亂,當模型輸出一個結果時,我們無法確定是哪個具體的“概念”在起作用。
針對以上問題,以前的研究通常從試圖拆解密集、糾結的網路開始。但OpenAI團隊採取了一種“反直覺”的策略,即訓練權重稀疏的Transformer模型,強制模型權重矩陣中99.9%權重為零,僅保留0.1%非零權重。
強制模型限制了模型只能使用其神經元之間極少的可能連接,而這一簡單的更改,幾乎從根本上理清了模型的內部計算。
具體的技術手段包括:
1、動態剪枝與稀疏約束:在訓練過程中,系統會動態執行“剪枝”操作,每一步最佳化後僅保留絕對值最大的權重(Top-K稀疏化)。
2、啟動稀疏化:在殘差流、注意力鍵/值矩陣等關鍵位置,研究團隊引入了AbsTopK啟動函數,強制僅保留前25%的啟動值。
3、架構微調:為了配合稀疏化,研究團隊用RMSNorm替代了傳統的LayerNorm,避免歸一化操作破壞稀疏性,同時引入了“Bigram表”來處理簡單的模式匹配,從而釋放模型的主幹容量去處理複雜的邏輯推理。
這項技術的最大成果,是模型內部形成了緊湊且可讀的“電路”(Circuits)。
在傳統密集模型中,完成一個任務可能需要成千上萬個節點協同工作,邏輯分散且難以捕捉。而在稀疏模型中,研究團隊觀察到了極簡的計算路徑:
1、極簡的邏輯單元:例如在處理“字串閉合”任務時,模型僅用12個節點就建構了一個完美的電路,清晰地展示了它是如何檢測單引號或雙引號是否閉合的。
2、可讀的特徵:神經元的啟動變得具有明確的語義。研究人員發現了一些神經元專門負責檢測“單引號”,另一些則像“計數器”一樣精確地追蹤列表的巢狀深度。
3、規模縮減16倍:對比實驗顯示,在相同的任務損失下,稀疏模型的電路規模比密集模型小了16倍。這意味著解讀AI思維的難度降低了整整一個數量級。
為了驗證這些電路的真實性,團隊進行了“均值消融”實驗。結果證明,移除非電路節點對任務幾乎沒有影響,而一旦移除電路中的關鍵節點,模型性能就會瞬間崩塌。這證實了這些電路確實是模型執行任務的“必經之路”。
為了測量稀疏模型計算的解耦程度。研究團隊設計了一套簡單的演算法任務。對於每個模型,他們都將其剪裁成了仍能執行該任務的最小電路,並檢查了該電路的簡潔程度。
研究團隊發現,用規模更大、稀疏度更高的模型進行訓練後,就能夠依託結構更簡潔的電路,建構出性能更強的模型。
從模型可解釋性與性能的對比圖可見,在稀疏模型規模固定的前提下,提升稀疏性,也就是將更多權重設零,雖會導致模型性能有所下降,但能顯著增強其可解釋性。
儘管稀疏模型在可解釋性方面優勢突出,但其應用目前受限於計算效率瓶頸:稀疏矩陣運算無法借助Tensor Cores實現加速,運算速度較密集模型慢100至1000倍。這意味著,將該技術直接應用於千億參數等級的前沿大模型,現階段尚不具備可行性。
為此,研究團隊提出了“橋樑網路”(Bridges)方案:
1、編碼-解碼對應:在稀疏模型與預訓練的密集模型之間插入一個編碼器-解碼器對。
2、跨模型干預:編碼器將密集模型的啟動對應到稀疏空間,解碼器則反向轉換。
“橋樑網路”(Bridges)方案可以在“透明”的稀疏模型上修改某個特徵,然後通過橋樑將這種擾動對應回“黑箱”的密集模型,從而實現對現有大模型的可解釋性行為編輯。
OpenAI研究團隊的這項研究,標誌著AI可解釋性領域的一項重要突破,也印證了理解AI並非遙不可及的目標。
研究團隊在論文部落格中稱,這項工作是邁向更宏大目標的早期探索。接下來,他們計畫將相關技術擴展至更大規模的模型,同時進一步解釋更多模型的行為邏輯。
為解決稀疏模型訓練效率低下的問題,團隊提出了兩個後續研究方向:一是從現有密集模型中提取稀疏電路,替代“從頭訓練稀疏模型”的傳統方式;二是研發更高效的可解釋性模型訓練技術,推動相關技術更易落地生產。
“我們的目標是逐步擴大可可靠解釋的模型範圍,同時打造相關工具,讓未來的AI系統更易於分析、偵錯與評估。”研究團隊在論文部落格中寫道。 (智東西)