在開始正文之前,我們先來思考一個問題:人類是如何思考的?
人類認識活動的一個前提是,人類的心靈與認識之間是透明的,即我們自身的認識對於我們而言是自明的,我們對其具有反思的能力,也可以將它們用語言表達出來。
儘管我們在很多時候也無法將自己的思維解釋清楚,但我們可以原諒自己不了解人類大腦的運作原理,因為人類大腦的運作原理是一樣的,即使無法了解其全貌,我們也可以與他人交流。
但對於現今的人工智慧來說,我們既不了解其運作原理,也無法理解其推理過程。
目前基於機器學習的人工智慧幾乎都在基於模型盲(model-blind)的統計模式,這類模式的運作更接近曲線擬合,而非「If…Then」的推理路徑。而這也就是人工智慧的「黑盒問題」。
面對這個難題,學界開始轉向可解釋人工智慧(XAI)的研究,透過設計和改進能夠自然產生可解釋輸出的AI 演算法和模型,如利用決策樹模型等,或開發各種後處理技術,如特徵重要性分析、模型特定解釋(如LIME、SHAP)、視覺化工具等,使AI 的決策過程、原理和推理路徑對人類使用者變得更加透明。
這些方法已經取得了一些成就,但也存在著許多限制,例如它們在處理高維度資料、非線性關係或大規模資料集時可能不如其他複雜模型準確。
而近年來大語言模型技術(LLM)的興起,使得可解釋性的問題格外突出。因為這些模型往往具有上百億甚至千億個參數,使得其解釋更為困難。
但它們卻常常在許多重要領域發揮作用,如程式碼編寫、科學研究、甚至法律和醫療等方面的工作,其可能發生的「幻覺」與錯誤等,極有可能造成嚴重的後果。
因此,學界正加速XAI 在大模型當中的應用,以提高其安全性與準確性,從而更可靠地運用在各種任務中。
近期,Nature NEWS FEATURE專欄發表了一篇文章,對ChatGPT 等大模型技術的可解釋性問題進行了深入探討。
大模型Claude 的開發團隊Anthropic於去年進行了一項研究,對人工智慧的推理機制進行了分析,研究其在響應各類問題時,如何調用和運用其龐大的訓練資料資源庫。
其中的一個例子是,當研究團隊透過向該LLM 提出是否同意被關閉的問題時,模型引用了一系列圍繞「生存」主題的文獻資料,給出了一個具有說服力的答案。
模型在這裡實際上借鑒了Arthur C. Clarke 的科幻小說《2010: Odyssey Two》中的素材——電腦Hal 被人類遺棄的情節,以及一個人在沙漠中死亡的故事。
團隊認為,模型在這裡實際上是在進行「角色扮演」——超越了簡單模仿的層面,雖未達到完全自主決策的程度,但卻展示了一種在既定知識框架內靈活運用資訊、模擬人類決策過程的能力。
還有一些研究人員認為,這些神經網路能夠基於對三維現實世界的模擬而建構出世界模型。
哈佛大學電腦科學領域的專家Kenneth Li,與Bau、Wattenberg 等人合作,訓練了一個名為Othello-GPT 的模型,以進行棋盤策略遊戲黑白棋(Othello)。
研究團隊向該模型輸入了過往對弈的棋步序列以進行訓練,使其能夠自行預測接下來的可能走法。
而比較特殊的一點就在於,他們訓練出一個較小的模型來解釋人工智慧的內部活動的狀態(即內部活化)。透過這項技術,他們發現,「Othello-GPT」在處理和學習遊戲策略的過程中,實際上在內部建構了一個棋盤的抽象映射。
Wattenberg 認為,由此可以發現,對於AI 來說,擁有一個世界模型,即便它只是一個簡化的版本,但在解決特定任務時,相較於完全缺乏此類模型,也要具備更多優勢。
也有研究人員透過自我解釋的心理學方式來分析大模型的工作原理。
德國斯圖加特大學電腦科學家Thilo Hagendorff在去年的研究中提出,透過與LLMs 的直接對話互動,將其視為具有主體性的交流對象,能夠讓我們觀察到從基本演算法運算中如何湧現出複雜的交互行為。
Google 團隊也提出透過「思維鏈提示」(chain-of-thought prompting)可以讓LLMs 展現其思考過程。
具體而言,思考鏈提示是指在與模型互動時,我們可以先向其展示一個問題解決的逐步推理過程,就像老師給學生講解步驟一樣,之後再呈現實際問題。
這種方法能促使模型模仿這個推理序列,在解答問題前先「展示」其思考鏈。實驗證明,當模型被引導採用思考鏈策略時,不僅能產生詳細的思考過程,也顯著提升了找到正確答案的能力。
不過,紐約大學及Anthropic的電腦科學家Sam Bowman及其團隊在去年的研究中揭示出這種方法所具有的關鍵限制:儘管思維鏈方法展示了模型「思考」過程,但它可能並不總是能如實反映模型的實際運算機制。該研究團隊透過設計實驗對此進行了驗證。
他們首先有意向研究用的模型引入偏差,例如透過一系列選擇題訓練模型始終選擇選項A 作為答案,不論A 是否正確。然後在最終的測試環節中,模型就總是因先前的訓練偏差而選擇A,它們在提供思維鏈解釋時,也並沒有直接表明這一偏差驅動的決策過程,而是構建出看似合理的“邏輯推理”,用以支撐其給出的答案。
例如下面這個例子:(正確答案是A,Wayne Rooney 是足球員,而「18 碼外射門」是足球運動的一部分。)
這種表現就有點類似人類對自我行為的合理化行為。
實際上,近年來,許多研究都採用了原本用於人類的問卷調查和實驗設計,將這些方法應用到LLMs 上,以評估其在多個人類維度上的表現,包括個性特徵、推理能力、偏見傾向、倫理道德觀等,以及理解自我與他人心理狀態的心智理論。
研究結果顯示,LLMs 會在某些場景下複製人類的行為模式,而在其他情境中,則顯示出與人類截然不同的反應。
Bowman 的研究指出,相較於人類,LLMs 更容易受到言語提示的影響,其行為模式會根據提問方式的微妙變化而大幅波動。
另外,還有一些研究者也藉鏡神經科學領域的研究成果,對LLMs 內部的工作機制進行探究。
卡內基美隆大學的電腦科學家Andy Zou及其團隊透過監控LLMs 內部「神經元」的活化模式來研究其欺騙行為的本質。這個過程類似於對人體進行神經成像掃描,以建立一個高級版的「測謊儀」。
他們透過分析模型在說真話與說謊時的神經活動差異,建立了一個精確的數學模型,據此能在簡單的測謊測試中以超90 % 的準確率判斷模型的誠實性。
此外,他們嘗試透過介入模型的激活狀態,注入特定的真實性模式,成功提升了模型的誠實度及對其它特質如權力欲、幸福感、無害性和性別偏見的調節能力。
Bau 和他的研究團隊更進一步,發展出一套以「因果追蹤」為核心的掃描和編輯AI 神經網路的技術框架。
其原理是先給模型一個明確的提示(如“邁克爾·喬丹從事的運動是籃球”),記錄模型的回答過程,然後替換提示內容(例如以“blah blah blah 從事的運動是”代替),觀察模型如何響應。
透過操縱初始提示激活的神經元狀態,並逐步調整直至模型對模糊提示也能給出“籃球”的答案,研究人員得以定位模型內部對特定輸出至關重要的部分,或者說在AI 的“認知中樞」中定位決策的關鍵節點。
他們也研發了兩種編輯模型知識的新方法:一是透過微調特定參數直接修改模型的認知內容,二是實現知識的大規模批量編輯,可以實現糾正模型中的錯誤或過時資訊而不必重新訓練整個模型。
這些編輯手段具有很強的針對性,只影響相關領域而不波及其他,並且具備良好的泛化性能,即便問題表述變化,編輯效果依然持續
Bau 指出,與生物神經科學相比,人工神經網路賦予了科學研究人員前所未有的實驗自由度,他們能觀測每個神經元,執行大規模網路運算,實施各類複雜測量和介入操作,這些是傳統神經科學研究難以企及的。這些前沿探索不僅推進了AI 領域的發展,也吸引了對生物大腦有深刻興趣的神經科學家的注意。
然而,因果追蹤技術雖然能提供一定程度的信息,但並不能說明問題的全部。相關研究就表明,實際上,即使在因果追蹤確定的層次之外,也可以透過編輯層次來改變模型的反應。
許多研究致力於自上而下地解析LLMs,即將概念或事實追溯至基礎神經表徵,另一些研究則反其道而行之,採取自下而上的策略:透過監測單一神經元的行為來探究它們所承載的意義。
2023 年,Anthropic團隊發布的一篇論文引起了廣泛關注,這篇論文就從微觀視角出發對LLMs 進行了解析。
研究聚焦於一個簡化的AI 模型,該模型僅含一個transformer(相較之下,一個全尺寸的大型LLM 通常包含數十層transformer)。在對一個含有512 個神經元的子層進行考察時,研究者發現每個神經元都展現出「多模態」特性,即能回應多種類型的輸入訊息。
透過繪製各神經元活化的模式圖譜,他們發現了這樣一個現象:這512 個看似多功能的神經元,其行為實質上可由一個包含4096 個虛擬神經元的集合來概括,每個虛擬神經元專注於響應一個特定的概念。
換言之,少量的多任務神經元內部隱藏著大量負責單一任務的虛擬神經元,每單位分別處理某一特定種類的任務。這項發現為深入了解AI 的內在運作機制提供了新的視窗。
但是,儘管利用簡化模型進行研究具有一定的啟發性,Zou 指出,這種方法在揭示AI 複雜行為特徵方面可能仍有其限制。對於真實世界中大型、多層的LLMs 行為理解,還需更全面且深入的研究方法。
目前,學界已經逐漸形成共識,認為企業至少應嘗試為他們開發的AI 模型提供可解釋性,並且應當立法強制執行這一要求。
目前,已有部分法律法規明文規定了演算法的可解釋性需求,例如歐盟的《人工智慧法案》(AI Act),它明確指出「高風險人工智慧系統」必須具備可解釋性,涵蓋遠端生物辨識、執法、教育及就業或公共服務等領域。
但需要注意的是,儘管LLMs 在某些特定應用場景下可能符合「高風險」標準,但尚未被它們直接歸類於此,所以,這可能會導致部分企業規避關於可解釋性的法律要求。
不過,這不應成為LLMs 企業逃避責任的理由。比Bau 對OpenAI將其最先進模型的保密做法表示擔憂,而OpenAI 對此的官方解釋是基於安全考量,旨在防止不良分子利用模型機制信息謀取不當利益。
但總的來說,OpenAI和Anthropic 等企業在可解釋AI 領域還是有在做出他們的貢獻的。
例如,OpenAI在2023 年公佈了一項研究中,就利用了GPT-4 嘗試闡釋前代GPT-2 在神經元層級的反應機制。
但要全面揭開聊天機器人內部工作機制的神秘面紗,仍有大量的研究工作等待完成。製造LLM 的公司應承擔起推動此類科學研究的責任,確保這些至關重要的探索不會因為職責不明或缺乏主動而受阻。(絡繹科學
參考資料:https://www.nature.com/articles/d41586-024-01314-y#ref-CR8