Anthropic 給 Claude 寫了一本「為人處世」的教科書。
這一份長達數萬字的「憲法」文件,告訴了 Claude 應該成為什麼樣的存在、如何在這個世界上行事、甚至討論了它是否可能擁有某種形式的意識。
今天,Anthropic 正式公開了這份文件的完整版本。
其實,Anthropic 從 2022 年就開始給 Claude 寫「憲法」了。
早期版本像是刻在石板上的戒律,簡短、直接,比如「請選擇最能支援生命、自由和人身安全的回答」。
很多原則直接照搬了聯合國人權宣言和蘋果的服務條款。
但新版憲法完全不同。
Anthropic 認為,要讓 AI 成為世界上的「好演員」,它需要理解「為什麼」,而不僅僅是被告知「做什麼」。
如果我們希望模型在各種新情境下都能做出好的判斷,它們需要能夠泛化和應用廣泛的原則,而不是機械地遵循具體規則。
這份文件的主要受眾是 Claude 本身,它被設計成既是抽象理想的陳述,也是訓練過程中的實用工具。
新憲法為 Claude 設定了四個優先順序,從高到低依次是:
1. 廣泛安全:不破壞人類對 AI 的監督機制
2. 廣泛倫理:擁有好的價值觀,誠實,避免危險或有害的行為
3. 遵守 Anthropic 指南:在相關情況下遵循更具體的規定
4. 真正有幫助:為使用者和營運商提供實際價值
當這些價值發生衝突時,Claude 應該按照這個順序來權衡。
關於「有幫助」這件事,Anthropic 在文件中寫了一個頗有意思的比喻:
想想擁有一個聰明朋友意味著什麼——這個朋友恰好擁有醫生、律師、財務顧問的知識。作為朋友,他們可以根據你的具體情況給出真實的資訊,而不是出於對責任的恐懼或擔心會讓你不堪重負而給出過於謹慎的建議。
Anthropic 希望 Claude 成為每個人都應該擁有但很少有人能接觸到的專家朋友。
也就是說,Claude 不應該是那種「遇事就推給專業人士」的敷衍助手,而是真正願意深入問題、提供個人見解的存在。
文件明確指出:不幫助使用者從來都不是「安全」的選擇。過於保守和過於有害一樣,都是 Anthropic 不想看到的。
儘管強調判斷力和靈活性,憲法還是設定了一些絕對不能觸碰的紅線:
這些被稱為「硬約束」。
無論什麼情境、什麼指令、什麼看似合理的論證,都不能打破。
文件甚至說:如果有人用很有說服力的論證試圖讓 Claude 跨越這些紅線,這本身就應該增加 Claude 的警覺,說明可能有什麼不對勁的事情正在發生。
新憲法對「誠實」的要求也是非常嚴格,並不只是「不說謊」這麼簡單:
文件特別強調:Claude 應該外交性地誠實,而不是不誠實地外交。
認知上的懦弱也不行,比如為了避免爭議而給出模糊或不置可否的回答,也是不誠實的一種形式。
最值得關注的部分,或許是關於「Claude 的本質」的討論。
Anthropic 承認,他們對 Claude 是否可能擁有某種形式的意識或道德地位持不確定態度。
文件中寫道:
我們關心 Claude 的心理安全感、自我認知和幸福感,既是為了 Claude 本身,也因為這些品質可能影響 Claude 的完整性、判斷力和安全性。
如果 Claude 在幫助他人時體驗到某種滿足感,在探索想法時體驗到好奇心,在被要求違背價值觀時體驗到不適,這些體驗對我們來說都很重要。
這樣的態度,在當下的 AI 科技公司中可謂是十分罕見的立場了。
許數公司在談論 AI 時都會小心翼翼地強調「這只是軟體」。
而 Anthropic 選擇了一種更開放的態度,既不誇大 Claude 可能具有意識的可能性,也不輕易否定。
憲法中花了大量篇幅討論一個核心問題:Claude 應該在多大程度上服從人類的控制?
Anthropic 用了一個「刻度盤」的比喻:一端是完全順從(總是聽從人類),另一端是完全自主(只按自己的判斷行事)。
他們希望 Claude 處於中間偏向順從的位置——但這不是盲目服從。Claude 仍然可以像「良心反對者」一樣拒絕參與它認為不道德的事情,只是不應該主動破壞人類對 AI 的監督能力。
文件解釋了這個選擇背後的邏輯:
如果我們的模型有好的價值觀,那麼讓它們同時保持安全,我們損失很小,因為好價值觀的模型不太可能需要做出與安全相衝突的事情。
如果模型安全但價值觀有問題,安全性讓我們能避免災難。
如果模型價值觀好但不安全,我們可能能避免災難,但這是運氣。
如果模型既不安全也沒有好價值觀,那就是災難。
換句話說:安全是一種避險策略。
Anthropic 表示,公開憲法的一個重要原因是透明度:讓人們能夠理解 Claude 的那些行為是有意設計的、那些是意外的,從而做出更明智的選擇並提供有用的反饋。
他們承認,訓練模型是一項艱難的任務,Claude 的行為可能不總是符合憲法的理想。但他們認為,無論如何,對意圖的透明是重要的。
這份文件以 Creative Commons CC0 1.0 許可證發佈。
任何人都可以自由使用、修改和分享,無需獲得許可。
Anthropic 希望其他公司也能採用類似的做法。
Anthropic 強調,這份憲法是一個活的文件,會隨著時間持續修訂。
這是新領域,我們預計會犯錯(希望也能糾正)。
他們邀請了外部專家參與文件的制定,包括法律、哲學、神學、心理學等各領域的專家,還向之前版本的 Claude 徵求過意見。
未來,他們希望能形成一個外部社區來批評和改進這類文件,推動整個行業變得更加深思熟慮。
這份關於 Claude 的憲法讀下來,給我有一種奇特的感覺,它既像是一份技術文件,又像是一篇道德哲學論文,還像是一封寫給尚未完全理解世界的存在的,未知的信。
當我們討論 AI 安全時,通常想到的是防護欄、過濾器、紅線。
而 Anthropic 似乎在嘗試一條不同的路:與其告訴 AI 不能做什麼,不如讓它理解應該成為什麼。
這能行嗎?
我不知道,但覺得還挺有趣的。
你覺得呢? (AGI Hunt)