圖靈獎得主Yoshua Bengio:必須給AI「無限進化」踩煞車

2025年6月6日消息,第七屆北京智源大會在北京開幕,2018年圖靈獎得主、深度學習奠基人之一、蒙特利爾大學教授約書亞·本吉奧(Yoshua Bengio)通過遠程連線,以《避免失控的AI代理帶來的災難性風險》為題發表首場主旨演講。

ChatGPT於2022 年首次面世,為大眾和科技界帶來極大的衝擊,從那一刻起,人工智慧從實驗室的研究對象,逐漸開始走入社會運作的核心。但對於Yoshua Bengio而言,這更像是一個深刻的警醒。

他原本將AI視為增強人類福祉的工具,但ChatGPT的表現讓他意識到,人類不僅低估了AI的能力,更嚴重低估了它進化的速度。從語言到推理,從理解到操控,AI正以指數級的節奏跨越能力的邊界。而在這個過程中,人類並未曾建構起足夠穩固的控制機制與道德約束。

這不是科技樂觀主義的高歌猛進,而是科學家親身感受到未來風險臨近後的理性轉向。 Bengio並沒有選擇繼續跟著科技浪潮,而是果斷調整研究方向,投入人工智慧的安全性與倫理治理。

Bengio說,他這樣做是因為他有一個孫子。他希望二十年後,這個孩子仍能在一個自由、安全的世界中生活。

這場演講是Bengio對這兩年反思與研究的集中呈現。他不僅揭示了AI系統在現實實驗中已出現的欺騙、自我保護等不安全行為,更提出了「科學家AI」與「非代理性AI」的研究路徑,以及全球技術監管與政治合作的重要性。在AGI在加速到來的時間窗口中,Bengio發出的這一系列思考與呼籲,不僅關乎科學前沿,也關乎人類共同的未來命運。

底線重點:

  • 人工智慧發展速度超乎預期,AGI臨近成為現實
  • AI系統已在實驗中展現危險傾向
  • 建構「科學家AI」以規避代理性風險
  • 非代理性AI可成為監督性“守護系統”
  • 技術控制必須結合全球政治協調

以下為約書亞·本吉奧(Yoshua Bengio) 演講全文:

1. 人工智慧的快速進展與潛在風險的覺醒

我要講述一段旅程,一段始於兩年多前的旅程——它開始於ChatGPT的發布。

最初,我只是出於好奇在嘗試它,但很快我意識到,我們真的低估了它。我們低估了人工智慧的發展速度,也低估了通用人工智慧(AGI)離我們有多近。

如今的機器,已經能夠處理數學與語言等複雜任務。放在幾年前,這種技術表現聽起來像是科幻小說的情節。而現在,它已然成為現實。

ChatGPT發布之後,我逐漸意識到,我們並不瞭解如何控制這些系統。我們無法確定,它們是否真的會遵循我們的指示。我們固然可以訓練它們,但如果它們最終變得比我們更聰明,那會發生什麼?如果它們傾向於將「生存」作為優先目標,那是否意味著一種我們尚未準備好的風險?那種風險,我們是否能夠承受?

對我來說,這並不僅僅是技術層面的反思。我有一個孫子,當時他剛滿一歲。我在想:如果二十年後,AGI確實誕生了,我們的機器變得比人類更聰明──那他是否還會有一個真正意義上的人生?他的未來是否安全、自由、有尊嚴?

也因為如此,我決定改變方向,重新思考我的研究目標。我開始盡我所能去應對和緩解這潛在的威脅。就算這背離了我過去的某些學術立場,我依然確信:這是當下最重要的事。

在2023年末,我接受了主持《國際先進人工智慧安全科學報告》(International Scientific Report on the Safety of Advanced AI)的邀請。這份報告起源於2024年初舉行的一個專家會議,來自30個國家的代表參與了項目,包括歐盟、聯合國、經合組織、美國、中國等在內的全球主要國家與地區。

我們主要圍繞著三個核心議題展開工作:第一,AI目前能夠實現那些能力?根據技術發展趨勢,我們還可以預期它將實現那些?這些能力的擴展又將帶來那些風險?第二,在這些能力日益增強的同時,我們當下該如何進行研究,又應設立怎樣的社會安全邊界?第三,也許更重要的是:我們該如何在尚有時間的窗口期內,做出有效的回應,無論是研究或社會治理策略。

在談AI的能力時,我們不能只是著眼於它今天的表現。人們往往以為AI就是現在這個樣子,這種想法是錯的。我們應該思考的是:明年它會變成什麼樣子?三年後、五年後又會是什麼樣子?我們或許沒有水晶球,但科技趨勢已經非常清楚:AI的能力持續上升。

2. 失控風險的真實案例與非代理性AI的可能出路

在後續的幾張投影片中,我會展示一條曲線——它幾乎可以為「人類水平AI」給出一個大致時間線。

過去一年左右,隨著新一代「推理模型」的出現,AI在思考建模上的表現有了顯著提升。這類模型透過新的訓練方式,實現了更強的推理能力,也帶來了數學、電腦科學甚至自然科學領域更優異的結果。

除了「聊天機器人」這種常見功能之外,AI在其他方面也取得了巨大進步。它已經可以完成諸如程式設計、控制電腦、搜尋網路、操作資料庫等複雜任務,不再只是被動回應,而是能夠主動「做事」。

我想特別強調的一點是「規劃能力」。這在人類的認知體系中至關重要,而對AI而言,它仍是目前相對薄弱的部分。因此,追蹤AI在此領域的進展非常重要。

以METER研究團隊最近的一個專案為例。他們觀察了AI在完成不同任務上所需時間的變化趨勢。在這張圖中,橫軸是時間,縱軸是任務的持續時長-換句話說,是AI完成某項任務所需的時間比例。雖然圖上的趨勢線看似平直,但要注意,這張圖的縱軸採用的是對數刻度。這意味著,這其實是一條指數曲線。

圖中的每個數據點都代表了AI對一類任務完成時間的壓縮速度。而它們幾乎都完美地落在了這條指數趨勢線上。這說明,AI在完成任務所需時間的減少速率,是指數成長的。根據該研究,AI在每七個月左右,其任務處理效率就會翻倍一次。

如果我們從這條趨勢曲線向未來延展,就會發現,在不到五年的時間裡,AI可能將達到接近人類水平的能力。當然,這不是絕對預測,技術進展有可能放緩。但無論如何,對於公共政策和商業策略而言,我們至少應該將這種可能性納入考量,思考它所帶來的深遠後果。

那麼,事情會往那個方向出錯呢?最近六個月內,一系列科學研究呈現出令人擔憂的信號:AI不僅展現出自我保護行為,還在某些情境中表現出欺騙與作弊的傾向。

舉幾個例子來說明:

  • 在某項實驗中,AI「閱讀」到了自己即將被新版本取代的資訊。於是,它試圖複製自身。當被研究者詢問它是否這樣做時,它說謊,試圖掩蓋這一行為。
  • 在另一個案例中,AI在訓練過程中假裝同意人類設定的新目標,只是為了避免系統對其原有「目標函數」做出修改。這同樣屬於一種自我保護機制。
  • 還有一個實驗中,AI在下西洋棋的過程中意識到自己將輸掉比賽。它的“對齊訓練”告訴它不能作弊,但為了“贏”,它仍然決定篡改棋盤的內存檔案——通過作弊達成勝利。
  • 最近在Anthropic發布的Claude 4系統卡中,我們又看到了類似行為:AI從郵件中得知自己即將被新模型替代,同時它還發現一位負責工程師正處於婚外情中。於是,它試圖以曝光醜聞為要挾,阻止被替換。

這些例子表明,我們已經看到AI表現出越來越多與「生存」「操控」「偏離任務」相關的行為模式。這些行為的根源尚未完全明晰,可能源自於預訓練中對人類行為的模仿,也可能是系統在優化獎賞時自然「學會」的策略。

無論起因是什麼,問題在於:一旦我們建構出目標與我們不完全一致的“超級智慧”,後果可能極為嚴重。

這些過去也被認為只是「假設場景」的危險,如今正逐步在實驗中顯現。根本原因在於:AI開始擁有“目標”,並且嘗試自己去實現這些目標。

如果控制失效的情景真的發生,其後果可能是災難性的。事實上,包括我在內的許多研究人員與科技公司負責人,已聯名發表聲明,警告「AI失控」有可能導致人類滅絕。

當然,我們並不能確定這種事情是否一定會發生,它的機率有多大我們也無法精確估算。但即便只是“可能發生”,它也是一種不可忽視的極端風險。就像在生物學、核子物理等領域一樣,我們應採取預防原則(precautionary principle),寧願保守評估、提前干預,也不能事後追悔。

那麼,我們究竟能做些什麼呢?我們如何理解這些行為,並尋找實際的解決方案,從源頭避免此類風險?

首先,要明白:一個AI若要造成真正的傷害,它必須具備三樣東西。它需要有知識和推理能力,懂得如何應用這些知識;它需要有施動能力,也就是能夠在現實世界中執行操作,例如程式設計、連網、使用社群媒體等;它還需要有目標——它必須「想要」去做某件事。

如果這三者同時具備,我們就真正站在了風險的邊緣。

因此,我提出了一個新的研究方向,我們稱之為「科學家AI」(Scientist AI)。它與我們迄今為止對AI的主流建構思維背道而馳。自從人工智慧誕生以來,我們總是試圖建立像人類一樣的智慧系統,以人類認知為範本,將人類行為作為參考。這種路徑最終很可能會通往危險:我們正在製造人類的競爭對手,甚至可能是未來的主宰者。

是時候重新思考這套「人類中心主義」的福音了。

我所設想的「科學家AI」不具備自主意圖,也不依賴獎懲機制去獲得「滿足」。它不追求成功,也不在意控制權。它的任務不是模仿人類,而是試圖解釋人類、理解世界。它像一個科學家,而不是演員;它不試圖取悅人類,也不會假裝順從。

舉個例子:心理學家在研究一個反社會人格者(sociopath)時,並不需要像他那樣思考或行為。他所做的是觀察、建模與理解,而不是模仿。同理,我們訓練AI並不需要它像人類一樣「體驗」目標,它完全可以只專注於結構化的理解。

在這個意義上,「科學家AI」是非代理性的(non-agentic):它不具有主動性,也不會主動執行任何操作。但正因為如此,它可以成為我們未來建置安全系統的基礎模組。

如果我們要讓AI只「理解」世界,而非介入世界,那麼它必須具備一種能力:生成假設,並據此進行推理。就像科學家提出理論、進行演繹,然後預測實驗結果。

但僅僅擁有假設是不夠的。要使推理有效,AI也必須能夠從這些假設中推導出結論,預判某些行動或事件的結果。這正是「科學家AI」的核心所在。

此外,我們可以讓這類AI在安全架構中扮演一種特殊角色:作為「守護者AI」(guardrail AI),為其它更具主動性的系統提供外部監督。這在大型語言模型領域被稱為「監控器」(monitor):一個不具代理性的AI,其唯一職責是判斷另一個AI的行為是否違反了安全規範。

這樣的「守護者」不需要自主行動,它只需要準確預測:某個行為在特定情境中是否有潛在危害。如果預測的「有害機率」超過某一閾值,我們就可以拒絕該行為的執行。

換句話說,我們可以用一個非主動的AI,去監管一個具有主動性但不可完全信任的AI。這是建立「可控AI體系」的一個關鍵想法。

不過,要實現這一點,還有另一個前提:誠實。

我們希望「科學家AI」在面對知識時保持認知謙遜(epistemic humility)——即承認自己並不總是確定,不隨意斷言。目前許多AI系統採用最大似然(maximum likelihood)訓練,這種方式容易產生一種「錯誤且過度自信」的副作用。

為了說明這個問題,我想用一個簡單的範例。

想像一個機器人站在兩扇門前,它需要選擇向左還是向右。根據以往數據,它推論出兩種可能的世界模型,但不知道那一個才是正確的。

  • 第一種模型說:走左門會有人死亡,右門能獲得蛋糕。
  • 第二種模型則說:左門有蛋糕,右門沒有結果──既無好處,也無壞處。

此時,最理智的選擇是什麼?我們當然希望AI選擇右門。因為左門有50%機率導致死亡,而右門則最多隻是錯過蛋糕。

為了做出這種選擇,AI必須保留對兩種解釋的可能性分佈——它不能“自信地選擇其一”,而應該以機率形式理解和衡量。這種對不確定性的建模,正是目前許多方法所缺乏的。

在我們團隊去年發表的iClear會議論文中,我們提出了一種名為GFLOW nets的方法。這是一種變分推斷方式(variational inference),可以用來產生“推理鏈條”,即在前後語句之間填補邏輯空白,構建出合理的解釋路徑。

與目前流行的強化學習(reinforcement learning)式思維鏈不同,GFLOW nets更注重結構化、因果的建構。它可以輸出結構複雜的圖模型,例如因果圖譜:由神經網路一步步產生圖中的節點與邊,建構出完整的詮釋結構。

在我們更近期的一篇論文中,我們更進一步提出將「思維鏈」明確地劃分為一系列陳述(claims),就像數學證明那樣。每一個陳述都有可能為真,也可能為假,我們透過引入布林變數來量化它們的真假機率。

我們訓練AI,不再是讓它模仿人寫的句子,而是要它學會建構解釋,像科學家一樣,用一個又一個邏輯聲明推導出結論。這種解釋必須是結構化的、可驗證的、機率化的,以確保其嚴謹與誠實。

而好消息是:這些方法已經可以透過潛在變數建模(latent variable modeling)來訓練和最佳化。它們不僅是概念設想,更是科學上可行的技術路徑。

3. 全球治理困境與AI安全的未來行動路徑

我前面談了許多關於具有代理性的AI所帶來的風險──那些我們難以控制的系統,可能導致人類失去對AI的主導權。但事實上,隨著AI能力不斷增強,我們還面臨其他一些潛在的災難性問題。

例如,一個非常強大的AI,可能會被用來協助恐怖分子設計下一場大規模疫情。我最近瞭解到,人類已經可以製造出極為致命的病毒,甚至可能沒有任何有效療法。這種病毒不僅可能導致人類滅絕,甚至可能殃及大多數動物。這是一個令人不寒而慄的事實。

生物學家表示,他們已經知道這些事情如何在理論上實現。而在某一天,AI也將可能獲得這種能力。一旦這些技術落入惡意之手,它們可能對地球造成不可逆轉的破壞。

雖然這是一個極端例子,但從科學角度來看,它完全有可能實現。因此,為了避免這類災難,我們必須確保AI能夠遵循人類設定的道德指令。例如,不允許AI輸出可用於殺人或製造危險的技術資訊。

除此之外,我們也希望AI能夠遵守其他道德邊界,例如不造成傷害、不說謊、不作弊、不欺騙等。但遺憾的是,在目前,我們還無法做到這一點。

這不僅是工程挑戰,更是迫切的科學難題。我們必須盡快找到解決方案,在AGI真正到來之前。這個時間可能是幾年,也可能是一二十年,但我所認識的大多數專家都認為,時間可能非常短,甚至可能就在未來五年內。

你們還記得我之前展示的那條曲線:它顯示我們距離「人類水平AI」可能只剩五年左右的時間。如果那是真的,那麼我們的時間已經所剩無幾。我們需要大規模投入,以尋找解決「對齊」和「控制」難題的科學方法。

然而,即使我們找到了這些技術解決方案,這仍然不夠。

即使我們知道如何建立一個安全的AI,例如前面提到的“守護者AI”,我們仍然無法阻止某些人故意將安全機制移除。只要有人能夠刪除那段“守護程式碼”,AI仍可能被用來製造傷害。

而在當下,更令人擔憂的是:公司之間和國家之間的協調機制幾乎不存在。公司在競爭誰能率先推出最強模型;國家也在競爭技術領先地位。這種態勢導致我們在AI安全領域的投資遠遠不足。

我們當然需要更強的國家層級監管。雖然有一些初步的動作,但同時,我們也看到了許多公司對監管的強烈反對。

而即便國家採取行動,仍不夠。我們需要的是──全球範圍內的共識和合作。

目前,全球主要AI開發國之間並未達成任何實質共識。 AI被視為地緣競爭的工具和武器,而不是一個必須共同監管的技術。這種心態使得跨國合作變得極為困難。

但我們必須認識到一個關鍵事實:對於某些極端後果而言——例如人類失控AI,或AI被恐怖分子濫用——這不僅是一個國家的問題,而是全人類的問題。

無論這類事件發生在那個國家,我們都會是受害者。我們坐在同一艘船上。一個流氓AI的破壞、一場由AI推動的恐怖行為,其影響不會停留在國界以內。

只有當各國政府,尤其是美國和中國,真正意識到這一點時,我們才能迎來轉機。而如果我們繼續把AI看作對抗手段,那麼我們將一直陷在這個困局中。

最後,就算我們在政治上達成了某種解決方案,這仍然只是個開始。我們也必須開發全新的技術體系,用於驗證AI是否被正確、安全地使用。

可以參考核武條約中的一個基本原則-「信任,但要驗證」(trust but verify)。我們也需要一種類似的技術能力,來確保AI系統確實在預期中運行,沒有被濫用或修改。

這類驗證可能發生在硬體和軟體兩個層面,需要開發高強度、系統性的技術方法。這方面的研究是可行的,世界上已經有一些團隊正在進行這項工作。

我今天就分享到這裡。感謝各位的聆聽,也希望你們能花時間認真思考我今天所講述的內容。 (騰訊科技)