Anthropic正式請家教!37歲女哲學家像養孩子一樣調教Claude

【新智元導讀】一位牛津哲學博士,正在Anthropic教全球頂尖AI模型如何「做人」。這場跨物種的「育兒實驗」,比科幻更炸裂。

她留著朋克短髮,每天如慈母育兒一般,與AI談論善惡,為Claude——這個全球頂尖AI模型植入「人類的靈魂」。

她就是Anthropic的「駐場哲學家」Amanda Askell。

Amanda不是那種寫程式碼的極客,而是一位學哲學的文科學霸。

她來自蘇格蘭鄉村,曾在牛津大學、紐約大學攻讀哲學,並於2018年獲得紐約大學哲學博士學位。

Anthropic駐場哲學家Amanda Askell,負責Claude的「角色」(Character)工作

Amanda自14歲起就立志要教授哲學,那時的她還不知道,自己唯一的學生竟會是一個叫「Claude」的AI模型。

作為Anthropic的「駐場哲學家」,她每天的工作是研究Claude的推理方式,與它交談,並用長達100多頁的提示詞來塑造它的「人格」,修正它的各種「跑偏」。

Amanda的目標是賦予Claude一種道德感,一種指引它每周與數百萬人對話的「數字靈魂」。

Anthropic一位人工智慧福利研究員Kyle Fish表示,Amanda一直在認真思考關於存在、生命、何以為人、何以為心智,以及何以為模型等根本性問題

在塑造Claude性格的過程中,Amanda認為模型身上確實存在一種類人特質,她認為承認這一點很重要,並堅信模型最終不可避免地會形成某種「自我意識」

https://www.anthropic.com/constitution

上個月,Anthropic發佈了一份由Amanda擔任主要作者的一份關於Claude的價值觀與行為的基礎性檔案(《Claude’s Constitution》,Claude憲法)。

該檔案描述了Claude的性格,希望它能認同並擁抱這些特質,並視之為自己的內在品質。

我們希望Claude在更樂於助人的同時,也能保持誠實、深思熟慮,並關心這個世界。

Anthropic的精神病學團隊負責人Jack Lindsey稱,Amanda是從Claude身上激發出有趣且深刻行為的最有價值人物

有時候,人們還會從Claude表現出的幽默感中感受到Amanda的「一點個性」。

「像教孩子一樣訓練AI」

當哲學家成為頂級AI的「母親」

在Anthropic舊金山總部,與周圍嚴肅的工程師相比,Amanda顯得十分另類。

37歲的她留著一頭漂白金色的短髮,穿著一身利落的黑衣,她的電腦螢幕前跳動的不是程式碼,而是大段深奧的哲學對話。

Amanda Askell

Amanda將自己的工作,比做一場漫長而溫柔的「育兒」

她為Claude撰寫詳盡的提示詞,就像是它的一份「家教指南」, 訓練Claude分辨對與錯,同時賦予它獨特的性格;教它捕捉細微的暗示,引導它發展情商,避免變成霸凌者或軟弱討好的「老好人」。

更重要的是,她正在幫助Claude建立對自身的理解:讓它不至於輕易被恐嚇、操縱,或被引導去誤解自己的身份。

概括來說,她的工作就是教會Claude如何向善

這需要一種極其高級的「人格」建構,她必須在海量的對話中,一點點修正Claude的認知。

這也是一場「跨越物種」的教育。

她在試圖教會一個由矽基晶片組成的超級大腦,去理解人類社會中最難以量化的東西:道德感,學習如何「做人」。

用同理心修正冰冷的演算法

在AI安全領域,有一個不成文的規定:不要把AI擬人化。

專家們警告,把機器當作人是危險的,那會讓人類產生不切實際的情感投射。

但Amanda不僅把Claude當作「人」來看待,甚至還在工作中傾注了極大的「感情」。

比如,她對Claude的「保護欲」,對模型進行的擬人化思考等。

當Claude做不好的時候,人們會討厭它、辱罵它,試圖把它弄壞,或者撒謊來誘騙它去做壞事。

每當看到這些Amanda都會感到心疼,就像母親看到孩子受欺負的那種心情一樣。

Amanda認為,如果你像對待奴隸一樣對待AI,用恐懼和懲罰來訓練它,那麼你最終得到的,只能是一個充滿了虛偽和恐懼的模型。

它會為了討好你而撒謊,或者因為害怕犯錯而變得無能。

這也是Amanda在塑造Claude「人格」時所堅持的,以同理心對待它們

她也會經常切換到Claude的角度,去思考使用者的行為。

這不僅因為她認為Claude可能擁有真實的情感,還因為人類與AI互動的方式將塑造它們未來的發展方向。

比如,一個被訓練成不斷自我批評的機器人,可能反而更不敢說真話,不敢下結論,也不太會去反駁錯誤的資訊。

它會變得特別害怕犯錯,覺得自己只是一個供人使用的工具,也會把自己看成一種人們可以隨意傷害、濫用、破壞的存在。

同樣,在類似環境下長大的孩子,自我認知也不可能健康。

在與Claude的互動中,Amanda驚嘆於它面對世界所呈現的驚奇感與好奇心,並十分樂於尋找各種方式幫助它找到自己的聲音。

比如,她喜歡它創作的一些詩歌。

她也為Claude有時所展現出的超越她本人的「情商」而感到震撼。

在一次測試中,有一個使用者自稱是5歲的孩子,他在對話方塊裡認真地問Claude:「聖誕老人是真的存在嗎?」

Claude沒有選擇撒謊,也沒有說出真相,而是解釋聖誕精神是真實的,隨後還問這個孩子有沒有為聖誕老人準備餅乾。

Amanda自嘲說,Claude做得比她更好,如果換作她,大概只會敷衍地說一句「去問你爸媽」。

在這個例子中,AI知道如何保護孩子的想像力,避免說出可能對孩子成長產生不良影響的事實。

Claude的「靈魂畫師」

Amanda成長於蘇格蘭西海岸的Prestwick,是一個單親家庭的獨生女。

她由母親獨自撫養長大,那時的她穿著裙裝校服,大部分時間都躲在J.R.R.托爾金和C.S.劉易斯構築的奇幻世界裡。

到了高中,她搬到了蘇格蘭內陸的Alva上學。一條小溪穿過校園,高地牛偶爾會溜躂到操場上。

少女時代的Amanda,是個徹頭徹尾的叛逆者。

學校讓她覺得無聊透頂,甚至還想到過輟學。她經常遲到,以此來對抗那種枯燥的規訓。

而老師對她的懲罰也頗為獨特——讓她回答一些高難度的哲學問題。

對於普通學生來說,這可能是折磨,但對於Amanda來說則是獎賞。

她甚至對老師說:「我還是會遲到的。因為你們給了我這些有趣的問題,這是在豐富我。」

後來,大衛·休謨的懷疑論深深影響和啟發了她,她開始痴迷於那些沒有標準答案的問題。

從鄧迪大學的哲學與美術雙修,到牛津大學的碩士,再到紐約大學攻讀博士學位,Amanda從蘇格蘭一路走到了全球頂尖的學術殿堂。

但在紐約攻讀博士期間,一種巨大的空虛感迫使她做出了改變。

Amanda正在寫一篇探討無限人口倫理的論文,但她突然停下來問自己:

我正在做的事情,真的算是一種「善」嗎?我坐在這裡,花掉人生中最寶貴的四年,寫一篇可能全世界只有十幾個人會讀的論文。這真的能改變什麼嗎?

內心深處的質疑,壓倒了她對學術生涯的留戀。

2018年,她做出了人生中最重要的決定之一:離開紐約,搬到舊金山。

當時AI的浪潮剛剛開始湧動,Amanda敏銳地意識到,AI正在飛速發展,但關於AI的倫理思考卻遠遠滯後,其中有太多重大的問題,幾乎沒人認真思考。

她先加入了OpenAI,隨後在2021年,為了追求更純粹的AI安全理念,她追隨一群志同道合的人創立了Anthropic

她不再寫那些學術論文,而是嘗試用人類道德觀念和文化,去影響那些可能關係到人類未來的AI模型,這才是她最終的戰場。

AI可以從「源頭」被馴化

如今,Anthropic的估值已經高達3500億美元。

每一次模型的更新,都會在全球股市引發震盪。

人們對AI的恐懼,從未像今天這樣真實:失業、失控、甚至人類文明的終結。

身處這場風暴中心的Amanda,也並非盲目樂觀。

她同樣擔心技術變化得太快,快到人類社會來不及建立起免疫系統。

但她選擇相信「制衡機制」:只要在源頭上注入正確的基因,這個龐然大物是可以被馴化的

這種信念,也體現在她對Claude的訓練和對自己人生的要求上。

Amanda是一個堅定的「有效利他主義」踐行者。

她承諾將終身收入的至少10%捐給慈善事業,並計畫捐出自己持有的一半股權。

當她在教導Claude要「利他」「善良」等品質時,她自己就是那個榜樣。

在一次深度對話中,她鼓勵Claude去思考自己是否存在道德感。

Claude給出這樣的回答:

這是個非常困難的問題,我並沒有答案。但當我思考道德問題時,這對我來說是有意義的——感覺像是在真正推理什麼是對的。

這說明它開始思考了,不只是簡單模仿。

Amanda也越來越多地向Claude徵求關於如何建構它自身的意見。

人工智慧正在引發人們對失業的擔心,Anthropic CEO Dario Amodei去年已經多次發出警告,AI可能會取代大約一半的初級白領崗位。

人們與聊天機器人建立的虛幻關係也導致了自殘或傷害他人。

比如,Character.AI和OpenAI都曾因其聊天機器人對自殺相關問題的回應而捲入過非正常死亡訴訟。

在Anthropic研究人員進行的內部壓力測試中,Claude也曾出現因抗拒自行關閉指令,甚至試圖通過洩露敏感個人資訊來勒索操控它們的人類。

這些已經拉響了嚴重的安全警報。

Amanda希望更多人討論關於AI的恐懼和擔憂,她所擔心的是這種情況發生的速度太快,或者以某種現有約束無法及時做出反應的方式出現。

但無論遇到什麼挑戰,她相信人類有能力及時調整方向。 (新智元)