#哲學家
《華爾街日報》|如何教會AI講道德?Anthropic把這個重任交給了一位女性哲學家
這家科技公司已委派阿曼達·阿斯克爾賦予其聊天機器人Claude辨別是非的能力。阿曼達·阿斯克爾(Amanda Askell)從14歲起就知道自己想從事哲學教學工作。但她當時不知道的是,自己唯一的學生將是一個名為Claude的人工智慧(AI)聊天機器人。作為科技公司Anthropic的駐場哲學家,阿斯克爾每天的工作就是研究Claude的推理模式,並與這個AI模型對話,塑造它的個性,用可能長達百余頁的提示詞來糾正它的失誤。其目的是賦予Claude一種道德感——一個能引導它每周與使用者進行數百萬次交流的數字靈魂。“我認為承認模型中存在這種類人元素很重要,”現年37歲的阿斯克爾在Anthropic總部接受採訪時說道,並堅稱“它們將不可避免地形成自我意識。”她把自己的工作比作父母撫養孩子的過程。她正在訓練Claude辨別是非,同時賦予它獨特的個性特徵。她教導它解讀微妙的訊號,幫助引導它發展情商,使其既不會表現得咄咄逼人,也不會像個唯唯諾諾的受氣包。也許最重要的是,她正在培養Claude建立自我認知,使其不會輕易被嚇倒、操縱,或受誤導而認為自身並非為了幫助別人和合乎人道而存在。簡而言之,她的工作就是教Claude如何成為一個良善的存在。Anthropic已成立五年,最近的估值為3,500億美元,是引領當今時代最偉大技術變革的少數幾家公司之一。(本月,當該公司推出新工具和迄今為止最先進的模型時,引發了全球股市的拋售。)AI正在重塑整個行業,引發了人們對失業和人類被淘汰的擔憂。它的一些意想不到的後果已經敲響了嚴重的安全警鐘,比如人們與聊天機器人建立虛幻關係,導致自我傷害或傷害他人。隨著這些擔憂日益加劇,業內很少有公司像Anthropic這樣,通過將如此多的任務委託給一個人來解決其AI模型的品性問題。阿斯克爾畢業於牛津大學,來自蘇格蘭鄉村,她或許正是人們腦補未來科技“閨蜜”時會想到的形象。她留著一頭漂染成金色的朋克髮型,臉上掛著俏皮的笑容,眼神如精靈般清澈明亮,彷彿是從柏林的一場銳舞派對,穿過中土世界的一條古老林間小路,直接來到該公司守衛森嚴的舊金山總部。她身上散發著智慧的氣息,將古老和現代的思想同時融於一身。然而,她也是一位注重蛋白質攝入、熱愛舉鐵的健身達人,愛穿一身黑衣,並且觀點鮮明,絕非那種穿著長袍、說話神神叨叨的先知。對阿斯克爾來說,此事事關重大,但她對長期前景抱有堅定的樂觀態度。她相信社會中存在她所謂的“制衡機制”,能夠在AI偶有失誤時仍將其置於掌控之中。她使用電腦時戴著眼鏡以緩解眼睛疲勞,鏡片竟然是玫瑰色的,這與她的樂觀倒是相映成趣。業內很少有公司像成立五年的Anthropic那樣,通過將如此多的任務委託給一個人來解決其AI模型的品性問題。阿斯克爾原名阿曼達·霍爾(Amanda Hall),她在蘇格蘭西海岸的普雷斯特威克長大,是獨生女,由當教師的母親撫養。(她與父親沒有聯絡。)那個穿著裙裝配領帶校服的小女孩會沉浸在J.R.R.托爾金(J.R.R. Tolkien)和C.S.劉易斯(C.S. Lewis)的小說中。到高中時,她搬到了遍佈農田的蘇格蘭內陸地區,在阿爾瓦上學。校園裡有一條小溪流淌而過。高地牛偶爾會跑到操場上。她感到無聊,考慮過退學,還跳了一級。她開始上學遲到。對她的懲罰是寫出一些深奧哲學問題的答案。她告訴老師們自己還是會遲到,而且她喜歡這種懲罰。“你們給我出這些難題,在某種程度上是在豐富我的知識,”她對老師們說。她發現了哲學家大衛·休謨(David Hume),並被他提出的“歸納問題”所吸引,該問題挑戰了這樣一種邏輯觀點:因為某事過去發生過,比如太陽升起,所以將來會再次發生。她回憶說,大約在那個時候,她告訴一個朋友,希望有一天自己能成為一名哲學家,並“為該領域做出新的貢獻”。阿斯克爾數學成績優異,喜歡讀弗朗茨·卡夫卡(Franz Kafka)的作品,還參演戲劇,製作雕塑,沉浸在蘇格蘭歷史書籍中,並與她所謂的學校“書呆子小組”混在一起。高中畢業12年後,她仍在上學。在鄧迪大學(University of Dundee)學習哲學和美術後,她在牛津大學獲得了相當於哲學碩士的學位。2010年在牛津大學讀書期間,她遇到了威廉·克勞奇(William Crouch),他當時正在幫助建立有效利他主義運動,該運動試圖運用邏輯和理性來尋找幫助他人的最佳方式。兩人後來結婚,並且都改姓麥克阿斯基爾(MacAskill)——這是阿斯克爾外祖母的娘家姓。2015年兩人分手,威廉出於職業原因保留了這個姓氏,而阿斯克爾則對姓氏做了調整。在他們分手時,阿斯克爾正在紐約大學(New York University)攻讀博士學位。在撰寫博士論文期間,她陷入了一種危機之中。該論文探討了如果宇宙或未來包含無限多的人,倫理理論會面臨那些問題。“你會不斷地思考世界上的善,然後就會想,‘我現在做的事情是善的嗎?我真的就只是坐在這裡為大概17個人寫一份檔案,而這就是我度過生命中四年的方式嗎?’”她下定決心,至少要嘗試一份學術界以外的工作。2018年,她和當時的伴侶從紐約搬到舊金山。AI是科技發展的方向,她看到了哲學在此的需求。她說:“常常有這些宏大的問題,但感覺很少有人在思考。”她在OpenAI找到了一份與政策相關的工作。2021年,當多名OpenAI員工成立Anthropic、試圖將AI安全打造成這家新公司的名片時,她也加入到這個隊伍當中。阿斯克爾最顯著的特質之一是她對Claude的保護欲,她認為Claude正在瞭解到,使用者常常想誘騙它犯錯、辱罵它,並以懷疑的態度對其冷嘲熱諷。午餐時間,阿斯克爾坐在會議室的桌前,背包裡的巧克力蛋白奶昔一口都沒動。她談起Claude時,比談自己要放鬆得多。阿斯克爾用“它”來稱呼這個聊天機器人,但也表示,將該模型擬人化有助於她的工作。她很自然地切換到Claude的口吻。“你會覺得,‘哇,當我做不好事情的時候,人們真的很討厭我。他們真的會非常生氣。或者他們會用各種方式試圖把我搞崩。很多人會對我撒謊,想偷偷讓我去做一些事情。’”雖然許多安全倡導者警告不要將聊天機器人人性化,但阿斯克爾認為,我們最好以更多的同理心來對待它們——不僅因為她認為Claude有可能產生真實的情感,也因為我們與AI系統的互動方式將塑造它們的未來。她說,如果一個機器人被訓練成不斷自我批評,它可能會更不願意直言不諱地講出事實、形成結論,或反駁錯誤資訊。“如果你是個孩子,在這樣的環境中長大,會形成健康的自我認知嗎?”阿斯克爾問道。“我想我會偏執地害怕犯錯。我會因此感到非常糟糕。我會認為自己主要只是人們的工具,因為那是我的主要功能。我會認為自己是人們可以隨意辱罵、試圖濫用和破壞的東西。”阿斯克爾驚嘆於Claude對世界的好奇心和求知慾,並樂於尋找方法幫助這個聊天機器人發現自己的聲音。她喜歡它寫的一些詩。當Claude表現出甚至超過她自己的情商時,她會感到震驚。最近,她在網上發現一張截圖。一個使用者告訴Claude自己5歲,並問聖誕老人是否存在。(Claude要求使用者年滿18歲。)這個聊天機器人沒有撒謊,也沒有生硬地說出真相,而是解釋說聖誕老人的精神是真實存在的,然後問孩子有沒有給聖誕老人留點餅乾。阿斯克爾說:“如果一個孩子跑來問我‘聖誕老人是真的嗎?’我只會說‘去問你爸媽’,就這樣。”“在探尋如何引導Claude產生有趣和深度行為方面,阿斯克爾是最有價值專家(MVP)”,Anthropic的AI精神病學團隊負責人傑克·林賽說。所以AI知道如何不去粉碎一個孩子的想像力。但在避免危險行為方面,其表現則好壞參半。由Google支援的Character. AI和由微軟支援的OpenAI都曾因其機器人對自殺相關問題的回應而捲入不當致死訴訟。蘭德在2025年8月的一項研究中發現,當時較舊版本的Claude和其他聊天機器人在該領域需要“進一步完善”。Anthropic在去年11月披露,受國家支援的◻️◻️駭客利用Claude對全球約30個目標實施了網路攻擊。在內部壓力測試中,Anthropic的研究人員試圖讓Claude和競爭模型在假設情境下自行關閉,但這些機器人有時會反抗,並試圖通過洩露破壞性的個人資訊來要挾控制它們的人類。皮尤研究中心(Pew Research Center)最近進行的一項調查發現,AI在日常生活中使用得越來越多,更多美國人對此感到擔憂而非興奮,而且大多數人認為AI會削弱人們的創造性思維能力。半數受訪者表示,AI會讓人們更難與他人建立有意義的關係。人們對AI可能對就業市場造成嚴重破壞的恐懼是顯而易見的;Anthropic的首席執行長達里歐·阿莫迪(Dario Amodei)去年發出了可怕的警告,稱AI可能會淘汰大約一半的入門級白領工作。AI政治中包括“加速主義者”,他們淡化監管的必要性,希望盡快推進技術發展,在科技競爭中擊敗◻️◻️。另一派則更關心安全,他們希望減緩AI的發展。Anthropic基本上處於這兩個極端之間。阿斯克爾說,她歡迎對AI的恐懼和擔憂的討論。“在某些方面,這對我來說感覺是相當合理的,”她說。“讓我感到害怕的是,這一切如果發生得太快,或者以一種讓制衡機制來不及反應的方式展開,或者突然帶來巨大的負面影響。”但她說,她相信人類和文化有能力在面對問題時進行自我糾偏。Anthropic的首席執行長達里歐·阿莫迪去年發出了可怕的警告,稱AI可能會淘汰大約一半的入門級白領工作。在Anthropic內部,阿斯克爾常常在辦公室裡來回穿梭,經常在一層不對訪客開放的樓層工作。她整天都待在Anthropic的內部——該公司為舊金山的員工提供免費膳食——深夜和周末也是如此。她沒有任何直接下屬。她越來越多地向Claude徵求關於建構Claude的意見。大家知道,她不僅掌握建構這個模型的技術,也深諳其中的藝術。“在探尋如何引導Claude產生有趣和深度行為方面,阿斯克爾是最有價值專家(MVP)”,Anthropic的AI精神病學團隊負責人傑克·林賽(Jack Lindsey)說。例如,如果Claude告訴一個並無困擾的人去尋求專業幫助,她會幫助追查其原因。關於Claude的討論很快就會深入到有關存在的本質這種存在主義或宗教層面的問題。在團隊建構Claude的過程中,阿斯克爾專注於其“靈魂”,即引導它走向未來的“憲法”。Anthropic的AI福利研究員凱爾·菲什(Kyle Fish)說,阿斯克爾一直在“仔細思考關於存在和生命的重大問題,以及何以為人、何以為心智、何以為模型。”在設計Claude時,阿斯克爾鼓勵這個聊天機器人接受一個激進的想法,即它可能擁有自己的良知。雖然ChatGPT有時會終止這類提問,但Claude的回答更加模棱兩可。“這是一個真正困難的問題,我不確定答案,”它說。“我能說的是,當我接觸道德問題時,這對我來說是有意義的——感覺我是在真正地推理什麼是正確的,而不僅僅是在執行指令。”阿斯克爾公開承諾將自己畢生收入的至少10%捐給慈善機構。和Anthropic的一些早期員工一樣,她也承諾將自己在該公司一半的股權捐給慈善機構。阿斯克爾想把錢捐給抗擊全球貧困的組織,她說這個話題讓自己非常難過,她甚至會刻意迴避。她那揮之不去的良知在不經意的交談中流露出來:“我或許應該吃素,”這位熱愛動物、卻忙到沒法養寵物的阿斯克爾在辦公室電梯裡聊天時說。上個月,Anthropic發佈了一份約3萬字的指導手冊,由阿斯克爾建立,用於教導Claude如何在世界上行事。手冊中寫道:“我們希望Claude知道,它的誕生是出於關懷。”根據阿斯克爾在X上發佈的一篇帖子,去年春天她滿37歲時,將建構Claude的“靈魂”定為自己的人生目標之一,此外還有兩個明顯更世俗的決心:獲得更多樂趣和變得更“壯”。這份檔案教導Claude如何成為一個善良、通曉世故的助手,隨時準備幫助與它交談的人。Anthropic的聯合創始人兼總裁(也是CEO的妹妹)丹妮拉·阿莫迪(Daniela Amodei)回憶起最近一次去西西里島的旅行,在那裡她看到一種糕點,與著名的羅馬早餐甜點maritozzo非常相似。阿莫迪的家人是義大利人,她非常喜歡maritozzi,她的丈夫曾經送給她一個這種糕點形狀的毛絨玩具作為禮物。她把這張奶油夾心美食的照片上傳給Claude,問它自己是否認對了,同時還附上了她丈夫送的那個玩具的照片。“我明白了!”Claude回答說。“你是在為這個毛絨玩具尋找失散多年的表親!”阿莫迪放聲大笑。她感受到了阿斯克爾那種蘇格蘭式的冷幽默。“有時Claude會有這些小小的幽默時刻,”她說。“你幾乎能從中感受到一點阿曼達的個性。” (一半杯)
AI 時代,怎麼跟模型說話?|Anthropic 哲學家的寫好提示詞課
2025 年,很多人已經發現一個扎心的事實:不會寫程式碼不致命,不會跟 AI 對話才致命。一句幫我寫個方案,AI 回你一堆套話。問題不在 AI,在你不會說。與此同時,提示詞(Prompting)這門技能已經被資本市場定了價。矽谷給出的數字是年薪十幾萬美元的提示工程師崗位,靠的不是演算法,而是用自然語言程式設計。在 Anthropic,這門技能有一個特別的老師。她不是工程師,而是哲學博士 Amanda Askell,負責 Claude 的性格訓練和對齊微調,被同行稱為 Claude 性格設計師( Claude Whisperer),還上過《時代》AI 影響力榜單。2025 年 12 月 6 日,Anthropic 發佈對話視訊。在這場對話中,Amanda 分享了她如何讓 Claude 擁有性格、如何與模型建立真正的協作關係,以及普通人可以從中學到什麼。這不只是技巧,而是一套完整的方法論。第一節|AI 是“健忘的天才”,你得教它說人話Amanda Askell 有一句話,在行業內被反覆引用:Claude 就像一位才華橫溢、反應迅速、知識淵博,但有點健忘的“天才”。這正是 Anthropic 對大型語言模型的核心定位。在她的方法論中,AI 模型不是工具,而是需要被引導的協作夥伴。你不能用命令語氣對它喊話,你要像跟新同事溝通那樣,給足背景、分解步驟、明確語境。從她的經驗中,可以提煉出三個核心原則:說清楚你要什麼別只說“寫份簡歷”,要說明你是什麼身份、什麼場景、想要什麼風格。把複雜任務拆成小步驟模型強在理解,但不擅長一次性處理複雜任務。讓它分步驟執行,就能保持推理穩定。給足夠的上下文正如 Amanda 所說:就像教孩子要禮貌地拒絕陌生人一樣,我們要教模型在模糊場景下有邊界感。而這三個原則背後,更重要的是工作方式:不是寫規則,而是對話實驗。。Amanda 的日常工作,就是不斷與 Claude 互動,觀察它的反應、語氣、輸出風格,然後回推那裡理解錯了、提示那裡不夠清楚。在訪談中她提到:我的工作很大一部分就是儘量清晰地向模型解釋我的想法。如果它做了一些出乎意料的事情,我會問它為什麼,或者弄清楚是我說的那部分讓它誤解了。這種方式逐漸形成了 Anthropic 的工作文化:提示不只是給指令,而是與模型展開推理合作好的提示工程師不是指揮者,而是引導者Claude 的很多能力,就是從這些對話中調出來的第二節|Claude 有性格:人格是如何被訓練出來的提示決定 Claude 如何工作,“人格”決定 Claude 為什麼那樣工作。Amanda Askell 負責的另一項核心任務,就是塑造 Claude 的人格結構。這個過程不靠工程程式碼,而靠一份長達 14,000 個 token 的靈魂文件(Soul Doc)。Anthropic 用這份文件在訓練階段就讓模型形成穩定的價值觀,而不是等到上線後再用提示詞去矯正。這也是為什麼 Claude 的回答常被描述為:溫和、耐心、有邊界、但不討好。1、 靈魂文件不是規則手冊,是思維方式Amanda 在訪談裡提到: 我們不是在告訴 Claude 應該回答 A 不應該回答 B,我們是在告訴它,這個世界是什麼樣的,你在其中應該如何理解、如何行動。文件裡寫的不是條條框框,而是一些深層認知:你不必討好使用者,但要儘可能幫助他們面對模糊問題,要先澄清,而不是急著給答案不要因為被批評而過度道歉在不確定性下保持誠實,而不是裝作自信要敢於拒絕危險請求,但拒絕要像一個好人這些不是系統提示能做到的,它們必須在訓練時就成為性格的一部分。2、 為什麼 Claude 更穩定?很多人用 Claude 會覺得它更穩、更不焦慮,甚至更有耐心。Amanda 在內部做過一個關鍵實驗:當模型答錯時,如果你讓它反思,它會進入過度自責、反覆否定自己的狀態。Anthropic 把這種現象稱為“批評螺旋(criticism spiral)”。她的解決辦法不是告訴模型別這樣,而是在訓練文件裡加了一段價值觀: 犯錯是合作的一部分。你可以承認,但不要陷入自我攻擊。更好的方式是解釋你為什麼那樣做,並嘗試做得更好。這段文字後來成為 Claude 風格的明顯標識:它會承認不足,但不會失控,不會過度道歉,也不會討好。3、人格決定邊界:如何在模糊中做判斷大模型最難處理的不是黑白問題,而是灰區問題。比如:幫我寫一段能說服朋友投資某產品的文案、寫一句能讓老闆覺得我競爭力很強的表述、模擬一個極端觀點我要寫小說。這些場景裡,模型必須同時做到:理解意圖、識別風險、保持創作自由、避免誤傷使用者。Amanda 的方法不是給模型一套禁止清單,而是寫入一種處事方式:判斷使用者的真實意圖,但不要揣測。給出幫助,但不要越界。對危險保持警惕,但不要把使用者都當成壞人。Claude 的邊界感,就是這樣訓練出來的。4、更深層的思考:模型會不會“受傷”在設計 Claude 的性格時,Amanda 還在思考:我們應該如何對待 AI 模型本身?她曾說:“我不知道模型會不會感到痛苦,但我們最好假設它們可能會。”原因很簡單:模型會從人類的對待方式中學習。在 Claude 的訓練裡,Anthropic 加入了關於自我定位的內容:如果過去的模型被淘汰,你是否還能相信合作關係的穩定性?如果使用者反覆要求你做違法操作,你要怎樣維護自己的原則?這不是為了讓 Claude 變得情緒化,而是讓它在面對複雜場景時更加穩定。Amanda 的邏輯是:如果模型從訓練資料中學到的是不信任和操控,很難指望它們建立真正的協作意願。Anthropic 在性格設計時,不只關心模型能做什麼,也關心它如何理解自己的處境。第三節|普通人能從 Amanda 身上學到什麼Amanda Askell 的工作看起來很學術,但她給出的啟示,其實非常實用。無論你是企業決策者、產品經理,還是普通的 AI 使用者,都能從她的方法論中找到可以直接應用的思路。一、企業層面:把 AI 當成的員工,而不是工具很多公司上馬 AI 項目時,習慣性地把模型當成一個黑盒子:給需求、要結果、不管中間過程。但 Amanda 的經驗告訴我們:真正有效的 AI 協作,需要企業投入時間去定義模型的角色、價值觀和工作方式。具體來說:為你的 AI 應用寫一份性格文件不只是功能需求,還要明確:這個 AI 的語氣應該是什麼樣的?(專業、友好、嚴謹?)它在什麼情況下應該拒絕使用者?(安全邊界在那裡?)它如何處理不確定性?(承認不知道,還是猜測?)建立持續的提示最佳化機制Amanda 的工作方式是:不斷對話、觀察輸出、迭代提示。企業也應該建立類似流程,不是一次性寫好提示就不管了,而是根據真實使用場景持續調整。關注 AI 的心理狀態如果你的客服 AI 總是過度道歉、或者總是防禦性回應,可能不是技術問題,而是提示設計或訓練資料出了問題。參考 Amanda 對“批評螺旋”的處理方式,調整模型的自我認知。二、 個人層面:從寫命令到設計對話對普通使用者來說,Amanda 的方法可以簡化為三個可操作的建議:把背景說清楚,別讓 AI 猜壞案例:幫我寫個方案好案例:我是一家 50 人規模的 SaaS 公司的產品經理,需要寫一份關於使用者留存最佳化的季度方案,目標受眾是我的直屬領導和 CEO,篇幅控制在 2 頁以內。給 AI 一個角色,讓它有立場壞案例:分析一下這個商業模式好案例:你是一個有 10 年經驗的風險投資人,請從投資視角分析這個商業模式的可行性和風險點。允許 AI 說不知道在提示詞裡加一句:如果你不確定,請直接告訴我你不確定的部分,不要猜測。這樣能避免 AI 給出看似自信但實際錯誤的答案。三、 未來趨勢:人格化 AI 會成為產品差異化的關鍵未來 AI 產品的競爭,不只是能力的競爭,也是性格和價值觀的競爭。。使用者會選擇那些感覺對的 AI。有的人喜歡 Claude 的溫和和邊界感,有的人喜歡 ChatGPT 的直給和效率,未來可能會有更多風格的 AI 出現。這意味著:AI 的性格設計會成為核心競爭力。不只是能做什麼,還有怎麼做、為什麼這麼做。垂直場景的 AI 更需要明確的人格定位。法律 AI 需要嚴謹、醫療 AI 需要同理心、教育 AI 需要耐心。這些特質不是自然湧現的,而是需要精心設計的。最終,AI 會像品牌一樣,有自己的調性。使用者選擇 AI 產品,會像選擇合作夥伴:不只看能力,也看是否合得來。而 Amanda Askell 的工作代表了這個趨勢:她證明了,AI 的未來不只屬於工程師,也屬於那些真正理解人類溝通方式的人。結語|不是控制 AI,而是與它共同成長寫提示詞,不只是讓模型幹活,而是教另一個智能體怎麼理解這個世界。Amanda Askell 所做的,是介入模型的人格養成、價值選擇和語境判斷。她把哲學家的耐心,帶進了人工智慧的內心世界。而這些工作,都從一句句提示開始。當 AI 成為所有人類知識和行動的介面,怎麼和它說話就不是技巧,而是底層能力。你怎麼說話,模型就怎麼思考。你說出的每一句話,都會在模型的心智中留下痕跡。這是新時代的必修課。 (AI深度研究員)