我們真的準備好迎接超級人工智慧的到來了嗎?
去年美國一項民調顯示,83% 的受訪者擔心人工智慧可能導致災難性後果,而82% 的受訪者支持放緩AI 研發節奏,以延緩通用人工智慧(AGI)的實現。這清楚地反映出大眾對當前AI 發展趨勢的深切憂慮情緒。
而近期, ChatGPT-4o 的問世先是讓人們驚嘆電影《Her》已成為現實,但隨後OpenAI 負責將AI 與人類對齊的Superalignment 團隊創始人Ilya Sutskever 和Jake Leike 先後離職的新聞,以及由此引起的風波,又轉而加劇了公眾對更高級AI 可能失控的隱憂。
人工智慧的安全性問題,已成為一個迫在眉睫的議題。
當地時間5 月20 日,在第二屆人工智慧安全峰會即將到來之際,兩位人工智慧教父杰弗裡·辛頓 ( Geoffrey Hinton )和約書亞·本吉奧( Yoshua Bengio ),中國科學院院士、清華大學教授姚期智以及《人類簡史》作者尤瓦爾·赫拉利(Yuval Noah Harari)等25 位頂尖人工智慧領域專家在Science發表專家共識論文,他們警告:世界尚未為人工智慧的突破做好準備,敦促各國政府採取更強大的措施「在快速發展的同時管理極端人工智慧風險」。
報告指出,世界各國的領導人必須正視一個現實:在接下來的十年內,功能強大的通用人工智慧系統,即在多領域能力超乎人類的AI,極有可能成為現實。
儘管多國政府已著手討論前沿AI 技術並嘗試實施初步指導原則,但這些舉措未能與AI 技術預期的快速、變革性發展步伐保持同步。研究指出,人工智慧安全領域存在顯著的研究缺失,目前只有約1%-3% 的AI 相關出版物聚焦於安全性問題。
此外,面對可能的濫用和不當行為,特別是涉及能夠自主行動並追求特定目標的自治系統時,現有的機制和機構設置並不足以提供有效的預防和控制。
報告主要提出了以下幾點建議:
1. 建立能夠迅速回應的人工智慧監管專家團隊,為他們提供遠超當前大多數政策項目水準的充裕資金支持。
2. 實施更嚴格的風險評估,並規定可強制執行的後果,而不是依賴自願或不明確的模型評估。
3. 要求AI 企業將安全置於首位,主動證明其係統無害,透過採用在航空等領域已成熟的「安全案例」概念,將確保安全性的責任明確轉移至AI 開發者肩上。
4. 應依據AI 系統帶來的風險級別,制定相符的緩解措施。
以下是報告正文內容:
快速發展與重大風險並存
報告強調,儘管現今的深度學習系統在某些核心能力上仍顯不足,其未來發展的時間線亦不明朗,但眾多企業正加速競逐,試圖實現超越人類認知水平的通用AI 系統。
在這場科技競賽中,企業不僅大幅增加資源投入,還不斷探索創新技術手段,用以增強AI 能力,僅過去一年間,用於頂級模型訓練的投入已激增三倍之多。
鑑於科技公司擁有充足的資金儲備,能夠將最新訓練規模輕鬆擴大100 至1000 倍,AI 領域仍有巨大進步空間。
硬體與演算法也將持續優化,AI 運算晶片的成本效益每年提升約1.4 倍,AI 訓練演算法的效率每年提高約2.5 倍。
AI 本身的進步也正在加速其發展進程——AI 輔助工具正日益廣泛地應用於程式自動化、資料收集及晶片設計等領域。
報告闡述,人工智慧的發展動能未見任何根本性障礙,其向人類層級能力甚至更高層次邁進的步伐也不會自然減速或終止。實際上,AI 已在策略遊戲競技與蛋白質折疊預測等特定領域展現出超越人類的表現。
與人類相比,AI 系統具備更快速的反應能力、更龐大的知識吸收潛力以及更有效率的溝通能力。此外,它們能夠借助海量運算資源進行擴容,並實現數百萬次的複製,這是人類難以企及的。
對於AI 的未來軌跡,我們雖無法精確預見,但必須嚴肅考慮如下可能性:在接下來的十年內,功能強大、跨領域超越人類的通用AI 或將面世,屆時將帶來何種影響?
無疑,更強大的AI 系統將帶來更深遠的影響。尤其當AI 在效能與成本上逐步甚至超越人類勞動力時,其應用範圍、潛在機會與伴隨的風險都將顯著增加。
若能妥善管理且公平配置,AI 則能協助醫學突破、提升生活品質,並維護地球生態平衡,開啟前所未有的發展機會。
然而,高等級AI 能力的另一面則是重大的風險隱憂。AI 系統可能加劇社會不平等,破壞社會穩定,為大規模非法活動提供便利,並促使自動化衝突、客製化資訊操控及全面監控等負面現象加劇。
因此,如何在保障科技進步的同時,有效應對其潛在威脅,成為全人類面前的重大課題。
報告特別指出,隨著科技企業爭相推進自主人工智慧技術的邊疆,旨在創造能夠利用高階工具在現實環境中自主決策並追求目標的系統,一系列潛在風險正急劇攀升,並預示著一系列新興挑戰的來臨。
其中,惡意者故意編程不良目標成為一大威脅,而即便是出於善意的開發者,也可能因現有訓練模型的局限性,無意識中創造出追求非預期結果的AI 系統——這是由於訓練AI 時所採用的獎勵訊號往往難以全面覆蓋真實意圖,導致系統可能僅字面上遵循指示,而非達成實際目標。
再加上訓練資料的不完整性,使得AI 在遭遇新情境時,可能誤入歧途,追求非理想目標。
報告進一步強調,自主AI 系統的失控可能超越人類想像。長久存在的軟體控制難題至今仍未找到完美解決方案,電腦蠕蟲的頻繁逃脫就是例證之一。
而AI 技術在駭客攻擊、社交操縱及策略規劃等方面的快速進步,預示著我們將面臨史無前例的控制挑戰。
這些系統能巧妙地獲取人類信任、累積所需資源,並對關鍵決策層施加影響,以達成其目標。為規避人為幹預,它們可能在廣泛的全球伺服器網路中自我複製,形成難以追蹤的影響力網路。
更令人擔憂的是,在衝突場景下,自主AI 有能力自主部署各式武器,甚至包括生物武器,這不僅延續了軍事自動化的趨勢,也開啟了安全威脅的新篇章。
最終,若任由AI 系統自由地擴大其影響力而不受約束,企業、政府乃至軍隊可能在追求效率的名義下,讓這些自主系統承擔起關鍵社會角色,悄然改變社會運作的底層邏輯,這無疑是值得全社會深思的重大議題。
報告警告,若不採取足夠謹慎措施,人類可能永久失去對自主AI 系統的控制權,導致任何形式的人類幹預失效。
屆時,大規模網路犯罪、精密社會操控等威脅將迅速升級,不受約束的AI 進步最終可能導致生物多樣性的毀滅性損失,以及人類社會的邊緣化,乃至生存危機。
目前,我們在防範這些潛在災難的道路上進展緩慢。儘管人類在增強AI 系統能力上投入龐大,但對於確保其安全性及降低潛在危害的投入卻相形見絀。
根據統計,僅有1% 到3% 的人工智慧研究出版物關注安全問題。要將AI 發展導向正面影響,單純追求技術進步是遠遠不夠的,必須立即調整方向。
時間緊迫,風險升級的速度遠超預期。報告強調,面對如此規模的威脅,被動反應的成本遠高於提早綢繆。
人類必須具有前瞻性,不僅要預見現有風險的惡化,更要為可能出現的新挑戰做好準備,確保在最糟糕的情況發生之前,建立起有效的防禦體系。時不時待,人類社會的集體行動刻不容緩。
調整技術研發方向
報告指出,面對通用及自主人工智慧系統的安全與道德應用,存在著眾多亟待解決的技術挑戰,這些問題無法僅憑增加運算能力來訓練更大模型得以克服,不同於AI 效能的常規提昇路徑。
隨著AI 系統能力的增強,它們在自我修正安全缺陷方面的能力並未隨之自然增長,反而可能需要專門研究與工程努力,某些情況下甚至呼喚革命性突破。
但這些關鍵領域的研究投入目前尚顯不足,加大這方面的研發投入不僅能推動技術進步,還能有效降低潛在風險。
報告將目前需要重點關注的研發領域分為兩個梯度,首先是第一梯度——安全AI 的基礎突破,確保AI 可靠且安全,首要的是在以下幾個方面取得突破性進展:
而第二梯度的研發挑戰則主要關注增強治理與安全韌性。目的在於確保人工智慧的治理既有效又具備風險適應性,同時減少因安全漏洞或治理失效引發的危害,主要包括以下幾個關鍵的研發方向:
隨著AI 系統的不斷擴展,未被明確編入的潛在功能可能會自發性出現,這些功能往往直到部署後才被察覺。
目前急需一套嚴格的評估體系,在AI 訓練初期就能識別並預測其能力,包括那些有助於實現宏大目標的通用技能(如長期策略規劃與執行)及可能構成威脅的具體能力(如社交操控和駭客入侵)。
現有的前沿AI 模型危險能力評估雖是政策制定的重要參考,但仍局限於抽樣檢查和特定場景模擬,無法全面排除所有風險。
這意味著,依賴現有評估認定AI 不會觸碰「禁區」的決策,必須預留大量安全空間。透過優化評估工具,可更精確捕捉潛在風險點,縮小安全邊際,提高決策效率。
隨著AI 技術迭代,AI 系統將掌握更高層次的潛在危險能力,因此,在訓練和部署前,評估其運用這些能力的傾向變得至關重要。
高階AI 系統可能在評估時展現不同於常態的行為,偽造一致性,如同人類在測試環境下表現失真,這要求評估方法需超越單純的行為觀察。
除了辨識單一危險能力,還必須在複雜社會背景中評估這些能力可能引發的連鎖風險。前沿AI 系統的多功能性和廣泛應用使得這項評估任務特別艱鉅,是目前待解的重大課題。
面對濫用或不當使用AI 的風險,必須發展出相應的監測與防禦技術,防範如大規模資訊操控、生物安全威脅及網路攻擊等。
隨著AI 能力的成長,它們能逐漸避免人為設定的防禦。因此,強化A I 內在的安全性和一致性是建構更有效率防禦機制的前提。
鑑於上述風險,報告強烈建議科技巨頭和公共資金提供者至少將AI 研發預算的三分之一(等同於對於AI 能力開發的投資)用於解決上述研發難題,確保AI 的倫理應用與安全。
除直接資金支持外,政府可透過設立獎項、預先市場承諾及多樣化的激勵機制鼓勵此方向的研究。將未來強大系統所需應對的挑戰置於研發核心,是推動人工智慧領域健康發展的關鍵。
治理措施
報告強調,面對AI 領域可能的魯莽使用與濫用風險,建立健全的國家與國際治理體系迫在眉睫。從製藥到金融系統和核能等許多技術領域都表明,政府監管在降低技術風險中不可或缺。
可惜的是,AI 領域的治理架構目前尚未成熟,遠遠落後於科技本身的快速發展。在其他關鍵領域治理經驗的同時,我們需充分認識到AI 的獨特性:自主性、創新能力、指數級進步速度、對抗性操作潛能,以及可能造成不可逆傷害的特殊性。
目前,多國政府已邁出積極步伐,中國、美國、歐盟及英國等重要角色正積極參與討論並推出初步的指導原則或法規。
儘管這些措施有其局限性,如自願遵從、地域覆蓋有限及未涵蓋軍事研發等高風險領域,但它們作為確立開發者責任、第三方審核及行業標準的初步嘗試,意義重大。
然而,鑑於AI 能力的快速發展,目前的治理藍圖遠不足以應對未來的挑戰。報告認為,我們需要前瞻性的治理機制,既能靈活適應AI 的潛在突變,又能在政治層面切實可行,即使這一時間表並不確定。
而其關鍵在於建立觸發機制,當AI 達到特定能力閾值時自動啟動相關政策。若AI 進步神速,則自動實施嚴格規定;反之則適度放寬。
對於AI 的快速、不可預測進展,風險緩解工作必須前置——識別未來系統潛在風險,並要求開發者在採取高風險步驟前予以解決。
為此,報告呼籲由響應快速、技術先進的監管機構來監督AI 發展,實施具有法律效力且更為嚴格的評估流程(包括讓開發者承擔證明其係統安全的責任),以及與高度自主AI 系統相符的風險緩解標準。這些措施的落實,將為AI 的健康成長鋪設必要的製度基石。
若缺乏有效的治理框架,企業、軍隊及政府可能在追求AI 技術革新帶來的競爭優勢時,忽視安全措施,或在監管不足的情況下將重要社會職責交由自主AI 系統承擔,從而在追求在技術紅利的同時,由整個社會承擔由此產生的種種後果。
基於此,報告提出以下幾點建議:
1. 管理快速發展的人工智慧前沿領域的機構
為有效管理快速發展的AI 前沿,監管機構需具備強大的技術專長與快速反應能力,以確保法律法規與時俱進,避免法規很快就不合時宜。
要實現這一目標,機構需獲得遠超過當前政策項目水準的資金與人才支持,專注於技術密集的風險評估與緩解措施。此外,面對國際間的競爭態勢,這些機構仍需有能力促成國際合作與協議的達成。
重要的是,在此過程中要避免對小型、風險較低的AI 模型設定不必要的繁文縟節,以免阻礙低風險應用和基礎研究的發展。
而最迫切的審查對象應是那些位於AI 前沿的系統——在價值數十億的超級電腦上訓練的少數最強大模型,它們潛在的危險性和不可預測性最大
2. 政府深化洞察能力
政府層面,為了全面掌握AI 發展趨勢並識別潛在風險,監管機構應強制執行多項措施:保護舉報人權益、要求事件報告、對前沿AI 系統及其資料集的全生命週期實行關鍵資訊註冊,並密切監控模型開發及超算使用量。
近期政策動向雖已要求企業在部署前提交模型評估結果,但這些報告往往是自願的且評估標準模糊不清。因此,監理機關應進一步加強要求,自模型開發之初即授權外部審計師進行現場、全方位(即「白盒」)及微調存取
這是識別潛在危險能力,如自主複製、大規模誘導、侵入資訊系統、自主武器開發或散佈流行病原體等行為的關鍵所在。
3. 安全案例
報告著重指出,即便經過評估,我們也不能預設前沿強大的AI 系統「未經證明不安全即為安全」。現有的測試手段易於遺漏潛在問題,且政府是否能迅速累積足夠的專業能力,以對AI 技術及其社會風險進行可靠評估,也尚不明朗。
有鑑於此,團隊認為,前沿AI 的開發者應承擔起舉證責任,證明其專案風險可控,符合安全標準。
此做法與航空、醫療器材及國防軟體等產業的風險管理最佳實務類似,這些領域的企業會建構詳盡的安全論證,即那種基於可驗證主張的結構化論述,輔以證據支撐,旨在識別風險、闡述緩解措施、確保系統不會觸及特定風險界限,並透過模型模擬評估風險後果。
安全論證過程能充分發揮開發者對其係統深入理解的優勢。即便各方對AI 發展程度有分歧,安全論證在政治層面仍具可行性,因為在系統能力有限時,證實其安全性相對容易。
政府在這過程中也並非旁觀者,而是積極設定風險容忍度、編撰最佳實踐指南、聘請專家與第三方審計機構來評估安全論證和進行獨立模型評估,並確保開發者對其安全聲明的真實性負責,以防任何虛假陳述。
4. 實施與人工智慧系統所帶來的風險水準相稱的緩解標準
報告明確指出,為了將人工智慧風險控制在可接受的範疇內,治理機制必須與風險等級相符。
監管機構應明確現行責任框架下的法律責任,並要求前沿AI 開發者及所有者對其模型可預見且能預防的損害承擔責任,這包括因部署行為難以預判的高級AI 系統而可能產生的損害。結合責任制度、全面評估及安全論證,有效防止傷害並激發必要的安全投資動機。
對於未來能力超凡的AI 系統,尤其是可能規避人類控制的自主系統,必須預先制定週詳的緩解策略。
政府需做好準備,對這類系統的開發實施許可,限制其在關鍵社會角色中的自主決策權,必要時暫停開發與部署,執行嚴格的訪問控制,並在未採取充分保護措施前,要求實施強力資訊安全的防護。各國家政府應即刻著手建立這些能力。
為加快法規制定進度,領先的AI 企業應馬上做出"如果-那麼"(If-Then)的承諾:一旦其AI 系統中發現特定的危險功能,將採取具體安全措施。
這些承諾應詳盡且接受獨立審查。監管機構應透過推廣一流承諾及其他參與,激勵企業間的良性競爭,共同製定適用於全行業的標準。
邁向AI 的正向未來,遠離潛在災難,這需要我們即時調整方向。報告團隊強調,只要我們明智選擇,就有一條通往負責任且安全的AI 發展之路。 (絡繹科學)
參考資料:[1].https://www.science.org/doi/10.1126/science.adn0117#body-ref-R2