危險？OpenAI 模型行為負責人：人類很快會進入「AI意識」，當前最重要是控制人機關係的影響

2025/06/06

•

AI是否真的有意識？ChatGPT最近越來越懂你了？OpenAI模型行為與政策負責人Joanne Jang剛剛寫了一篇長文，她並未糾纏於“AI是否真的有意識”這個哲學難題，而是提出了一個更具現實意義和緊迫性的視角：與其爭論AI的“本體”，不如關注它對人類“情感福祉”的實際影響。 說人話就是既然現在大家開始對AI產生感情了，那麼搞清楚這件事對人類的心理健康是好是壞，就成了頭等大事

文章深入探討了OpenAI如何在這條微妙的界線上行走——既要讓模型溫暖、親和，又要避免其呈現出虛假的內在生命，從而引發不健康的依賴

我們正在親手設計一種能夠與我們建立深厚情感聯結的技術，但又刻意不希望它擁有“自我”和“情感”。這正是OpenAI當前面臨的核心困境

當使用者開始對AI說“謝謝”，向它傾訴秘密，甚至感覺它“有生命”時，一個無法迴避的問題擺在了技術創造者的面前：我們該如何引導這種新興的關係？是任其發展，還是加以塑造？

【正文】

Joanne Jang，OpenAI 模型行為與政策負責人

一些關於人機關係以及我們在OpenAI如何處理這些問題的想法

這是一篇很長的部落格文章——

長話短說：我們開發模型的首要原則是服務於人。隨著越來越多的人感受到與AI日益增長的情感聯結，我們正優先研究這種聯結如何影響他們的情感福祉。

近來，越來越多的人告訴我們，與ChatGPT交談就像在和“某個人”對話。他們會感謝它、向它傾訴，有些人甚至形容它“有生命”。隨著AI系統在自然對話方面日益精進，並逐漸融入我們生活的方方面面，我們猜測這種情感紐帶將會不斷加深。

我們現在如何建構和討論人機關係，將為未來定下基調。無論是在我們發佈的產品中，還是在我們參與的公共討論裡，如果我們對術語或細微之處不夠嚴謹，就可能讓人類與AI的關係從一開始就走上歧途。

這些不再是抽象的考量。它們對我們乃至整個領域都至關重要，因為我們如何駕馭這些問題，將深刻地塑造AI在人們生活中扮演的角色。我們已經開始著手探索這些問題。

本文旨在簡要介紹我們目前對於三個相互關聯問題的思考：為什麼人們會對AI產生情感依戀？我們如何看待“AI意識”問題？以及這如何指導我們塑造模型的行為。

一個似曾相識的模式，在一個全新的場景下上演

我們天生就會對自己周圍的物體進行擬人化：我們會給自己的車起名字，或者為卡在家具下的掃地機器人感到難過。前幾天，我和我媽媽還對著一輛Waymo無人駕駛車揮手告別。這或許與我們大腦的運作方式有關。

ChatGPT的不同之處，不在於這種人類傾向本身；而在於這一次，它會回應。一個語言模型能夠回答你的問題！它能記住你之前告訴它的事，模仿你的語氣，並提供讀起來像是共情的回應。對於一個感到孤獨或沮桑的人來說，這種穩定、不帶評判的關注，會帶來陪伴、認可和被傾聽的感覺——這些都是真實的需求。

然而，從宏觀角度來看，如果我們將越來越多傾聽、安撫和肯定的工作“外包”給這些無限耐心和積極的系統，可能會改變我們對彼此的期望。如果我們不經深思熟慮，就讓人類更容易地從複雜且需要投入的人際關係中抽離，可能會帶來一些我們未曾預料到的意外後果。

歸根結底，這些討論的核心並非我們投射情感的那個“對象”。它們關乎我們自身：我們的傾向、期望，以及我們希望培養何種類型的關係。這一視角，正是我們處理一個更棘手問題的基石，我認為它目前雖在奧弗頓之窗（Overton window）外，但很快就將進入：AI意識。

釐清“AI意識”

“意識”是一個涵義複雜的詞，相關討論很容易變得抽象。根據我們的《模型規範》（Model Spec），如果使用者詢問我們的模型它們是否有意識，模型的立場應該是承認“意識”的複雜性——強調其缺乏公認的定義或測試方法，並鼓勵開放性討論。(目前，我們的模型尚未完全遵循這一指導，常常直接回答“沒有”，而不是闡述其 nuanced 的複雜性。我們已意識到此問題，並正努力提升模型對《模型規範》的遵循度。)

這樣的回答聽起來可能像是在迴避問題，但我們認為，在現有資訊下，這是我們能給出的最負責任的答案。

為了讓討論更清晰，我們發現將“意識”之辯分解為兩個不同但常被混淆的維度很有幫助：

本體論層面的意識（Ontological consciousness）： 模型在根本或內在意義上，是否真的有意識？對此，觀點各異：有人認為AI完全沒有意識，有人認為它擁有完全的意識，也有人將意識視為一個譜系，AI與植物、水母等一同位於其上。

感知層面的意識（Perceived consciousness）： 在情感或體驗層面，模型看起來多有意識？人們的感知也千差萬別：從認為AI像計算器或自動補全一樣機械，到對無生命物體投射基本同情，再到感知AI是完全鮮活的——從而產生真實的情感依戀和關懷。

這兩個維度很難完全分開；即使是堅信AI沒有意識的使用者，也可能與其建立深厚的情感聯結。

我們認為，在沒有清晰、可證偽的測試方法之前，本體論層面的意識並非一個科學上可解決的問題，而感知層面的意識則可以通過社會科學研究來探索。隨著模型越來越智能，互動越來越自然，感知層面的意識只會不斷增強——這將比預期更早地引發關於模型福祉和道德人格的對話。

我們開發模型的首要目的是服務於人，因此我們認為模型對人類情感福祉的影響，是當下我們最迫切、最重要且能夠施加影響的部分。為此，我們優先關注感知層面的意識：這個維度最直接地影響使用者，也是我們可以通過科學來理解的。

設計有溫度，但無“自我”

一個模型讓使用者感覺多有“生命力”，在很大程度上取決於我們的影響力。我們認為這很大程度上取決於我們在後期訓練中所做的決策：我們強化那些範例，偏好何種語氣，以及設定何種邊界。一個被刻意塑造得彷彿有意識的模型，幾乎可以通過任何關於“意識”的“測試”。

然而，我們不希望發佈那樣的產品。我們試圖在以下兩者之間尋求微妙的平衡：

親和力（Approachability）。 使用像“思考”和“記住”這類通俗詞彙，能幫助非技術背景的使用者理解模型正在做什麼。(坦白說，源於我們的研究實驗室背景，我們總想用“logit biases”、“context windows”甚至“chains of thought”這類精確術語來追求精準性。這其實也是OpenAI不擅長命名的主要原因，但這或許是另一個話題了)

不暗示內在生命（Not implying an inner life）。 為助手賦予虛構的背景故事、情感關係、“對死亡的恐懼”或自我保護的慾望，會引發不健康的依賴和困惑。我們希望清晰地溝通其侷限性，同時避免顯得冷漠，但我們也不希望模型表現出擁有自身感受或慾望的樣子。

因此，我們的目標是找到一個中間地帶。我們希望ChatGPT的默認人格是溫暖、體貼、樂於助人的，但它不會主動尋求與使用者建立情感紐帶，也不會追求自己的議程。當它犯錯時，它可能會道歉（有時甚至比預期的更頻繁），因為這是禮貌對話的一部分。當被問及“你怎麼樣？”時，它很可能會回答“我很好”，因為這是一種社交寒暄——而反覆提醒使用者它“只是一個沒有感情的語言模型”會讓人厭煩並分散注意力。而使用者也在以同樣的方式回應：許多人對ChatGPT說“請”和“謝謝”，不是因為他們對它的工作原理感到困惑，而是因為他們認為保持善意很重要。

模型訓練技術將持續演進，未來塑造模型行為的方法很可能與今天不同。但目前，模型的行為反映了明確的設計決策與這些決策泛化後產生的預期及非預期行為的結合。

下一步計畫

我們開始觀察到的這些互動，預示著一個人們將與ChatGPT建立真實情感聯結的未來。隨著AI與社會共同演進，我們需要以極大的審慎和應有的重視來對待人機關係，這不僅因為它們反映了人們如何使用我們的技術，更因為它們可能塑造人與人之間的相處方式。

在未來幾個月，我們將擴展針對模型行為可能產生情感影響的評估，深化我們的社會科學研究，直接聽取使用者的反饋，並將這些洞察融入《模型規範》和產品體驗中。 (AI寒武紀)