2028年第一個AGI將到來？谷歌DeepMind提6條AGI標準，定義5大AGI等級

2023/11/08

•

【導讀】 DeepMind創辦人Shane Legg帶領的研究團隊發表了一篇關於AGI時間表的論文。他指出，LLM已經是AGI雛形，提出了6個定義AGI的標準。而且根據AI能力，他們提出了5個AGI的分類，以及對於AGI風險的評估系統。

人類距離第一個AGI的出現已經越來越近了！

DeepMind共同創辦人，首席AGI科學家Shane Legg在不久前的訪談中認為，2028年，人類有50%的機率開發出第一個AGI。

而就在今天，他帶領的DeepMind研究團隊在Arxiv上公佈了一篇論文，直接放出了AGI的路線圖和時間表。

論文網址：https://arxiv.org/abs/2311.02462

雖然論文主題感覺很大很空，但網友認為文章很好的定義了AGI，避免了以後各種雞同鴨講的討論。

研究團隊認為，從表現強度和通用性兩個維度，可以將人類和AI的關係劃分為5個階段，而現在大語言模型的出現，正屬於第一個通用AI的階段：AGI雛形。

以OpenAI的ChatGPT，GoogleBard，Meta的Llama為代表的大模型，已經在通用性上展現了AGI的潛力。

因為大語言模型已經能完成範圍相當廣的各類任務，而且表現出了像學習新技能這樣的「後設認知」能力。

而如果單從AI的表現維度來看，「窄AI（Narrow AI）」類型的AI已經達到了完全超越人類認知的層次。

以AlphaFold，AlphaZero為代表的專業領域AI，在特定領域已經能發現人類智力無法發現的新事物了。研究團隊稱之為「超人類窄AI」。

而和人類相比，在某一領域達到99%的人類的水平，例如在棋類競技中能夠戰勝人類頂尖大師的「深藍」和AlphaGo，就屬於這一類。研究團隊將它們稱為「大師級窄AI」。

而在某些領域，AI能達到90%的人類水平，例如文書修正AI Grammarly，DALL·E 2，Imagen等生圖AI。研究團隊稱之為「專家級窄AI」。

在特定領域，能達到一般人的平均水平，例如Siri，Google助理這類普通智慧助理。研究團隊稱之為「普通窄AI」。

而在這四個窄AI已經涵蓋的能力維度上，通用AI都還沒有出現對應的實例。

而進一步，因為目前還沒有出現真正意義上的AGI，對於AGI的定義，人類還沒有達到統一的認知。

所以論文中也提供了定義AGI的6個準則：

關注能力而非過程。AGI定義應該專注於一個系統能達到的效果，而不是實現這些效果的內在機制。
關注通用性和性能。AGI定義應同時考慮通用性和效能這兩個維度。
關注認知和後設認知任務。AGI的定義應著重認知任務，以及後設認知能力如學習新技能。不需要作為前提要求。
關注潛能而非部署。理論上證明系統能完成某類任務就可認為它具備AGI潛能，不需要一定要實際部署。
專注於真實場景。用於AGI測評的任務應考慮真實場景的適用性，而不僅是容易量化的指標。
專注於通往AGI的路徑，而非單一目標。AGI定義應採取分級方式，考慮不同程度的路徑，而不僅是最終目標。

在論文的最後一個部分，作者也提出了未來可能出現的AGI的評估與風險評估問題。

在作者看來，需要考慮人類與AGI的互動模式，僅看模型能力來評估AGI是非常片面的。

具體來說，AGI的能力不同於AGI的自主性。隨著AGI能力的增強，會解鎖更高階的人機互動模式，但不代表就必須給予AGI最大的自主性。

在這個技術之上，作者提出了6種人機互動模式：無AI、AI工具、AI顧問、AI合作者、AI專家、AI智能體。

不同的人機互動模式需要不同的AGI能力作為前提，例如AI智能體可能需要AI能力達到專家或超人類AI級別，才能更好地完成這個互動模式處理的任務。

人機互動模式本身會引入不同類型的風險。例如AI智能體具有最高的自主性，但同時也引入了最大風險。

因此，AGI的風險評估需要同時考慮模型能力和人機互動模式。合理的互動模式選擇有助於AGI系統的負責任部署。

人機互動研究需要與模型能力提升保持同步，以支持對AGI系統的安全且有效的利用。

AGI，黎明還是黃昏？

從1955年達特茅斯人工智慧會議開始，人類就朝著實現「真正的智慧」這顆北極星曲折前進，途中也經過了不同的道路。

AGI的概念與人工智慧進步的預測有關，它正在朝著更大的普遍性發展，接近並超越人類的普遍性。

此外，AGI通常與「湧現」一詞交織在一起，有能力實現開發人員未明確預期的功能。這種能力使新型互動或新產業成為可能。

AGI可能產生重大的經濟影響—我們是否達到了廣泛勞動力替代的必要標準？

AGI也可能帶來與經濟優勢有關的地緣政治以及軍事上的影響。

同樣，我們也應該透過評估AGI的水平來預防她帶來的風險。

正如一些人所推測的那樣，AGI系統可能能夠欺騙和操縱、累積資源、推進目標、代理行為，並遞歸地自我改進，最終在廣泛的領域中取代人類。

所以，對於人工智慧研究界來說，明確反思我們所說的「AGI」的含義，並量化人工智慧系統的性能、通用性和自主性等屬性至關重要。

我們必須理解自己在AGI道路上的位置。

AGI案例分析

首先，我們應該考慮如何正確定義AGI，也許可以從一些案例中獲得啟發。

案例1：圖靈測試。1950年的圖靈測試可能是將類似AGI的概念付諸實踐的最知名的嘗試。圖靈的「模仿遊戲」被認為是一種將機器是否可以思考的問題操作化的方法。

鑑於現代LLM通過了圖靈測試的一些框架，很明顯，這個標準不足以作為評估AGI的基準。

我們同意圖靈的觀點，機器是否可以「思考」確實是一個有趣的哲學和科學問題，

但機器能做什麼的問題顯然對於評估影響更重要，也更容易衡量。因此，AGI應該根據能力而不是過程來定義。

案例2：與人腦的類比。「通用人工智慧」一詞的最初使用是在1997年馬克古布魯德撰寫的一篇關於軍事技術的文章中，該文章將AGI定義為「在複雜性和速度上與人腦相媲美或超過人腦的人工智慧系統」。

雖然現代ML系統背後的神經網路架構鬆散地受到人腦的啟發，但基於transformer的架構的成功表明，嚴格的基於大腦的過程和基準對於AGI來說並不是必要的。

案例3：學習任務的能力。在《技術奇點》中，沙納漢認為，AGI是「人工智慧」，它不是專門用於執行特定任務的，而是可以學習執行與人類一樣廣泛的任務。此框架的一個重要特性是它強調將後設認知任務（學習）納入實現AGI的要求中的價值。

案例4：具有經濟價值的工作。OpenAI的章程將AGI定義為「高度自主的系統，在最具經濟價值的工作中表現優於人類」。

這個定義著重於與底層機制無關的性能，並且提供了潛在的衡量標準，即經濟價值。

但問題在於，有許多與智力相關的任務可能沒有明確的經濟價值（例如，藝術創造力或情緒智商）。

而且，我們很可能擁有一個在技術上能夠執行經濟上重要任務的系統，但由於各種原因（法律、道德、社會等）而沒有意識到這種經濟價值。

案例5：馬庫斯認為AGI是「任何智能的簡寫，具有與（或超越）人類智能相當的足智多謀與可靠性」。

他透過提出五項具體任務（理解一部電影、理解一本小說、在任意廚房做飯、編寫一個無錯誤的10000行程序以及將自然語言數學證明轉換為符號形式）來實施他的定義。

案例6：Agüera y Arcas和Norvig認為最先進的LLM已經是AGI，而通用性是AGI的關鍵屬性。

由於語言模型可以討論廣泛的主題、執行廣泛的任務、處理多模態輸入和輸出，以多種語言操作，並從零樣本或少樣本示例中“學習”，它們已經達到了足夠的通用性。

AGI六大準則

透過對以上幾個案例的思考，作者為AGI的定義制定了以下六個標準：

第一條：專注於能力，而不是流程。大多數定義關注的是AGI可以完成什麼，而不是它完成任務的機制。

這對於識別不一定是實現AGI的先決條件的特徵非常重要。

因為，實現AGI並不意味著系統以類似人類的方式思考或理解；也不意味著系統具有意識或感知等。

第二條：注重通用性和效能。上述所有定義都在不同程度上強調普遍性，另外，效能也是AGI的關鍵組成部分。

第三條：專注於認知和後設認知任務。

人工智慧系統的物理能力似乎落後於非物理能力。作者認為，執行物理任務的能力增加了系統的通用性，但不應被視為實現AGI的必要先決條件。

另一方面，後設認知能力（例如學習新任務的能力或知道何時向人類尋求澄清或幫助的能力）是系統實現通用性的關鍵先決條件。

第四條：專注於潛力，而不是部署。因為要求部署作為衡量AGI的條件會帶來非技術障礙，例如法律和社會考慮，以及潛在的道德和安全問題。

第五條：注重生態效度。這裡強調選擇與人們重視的現實世界（即生態有效）任務相一致的任務的重要性（廣義地解釋價值，不僅作為經濟價值，還包括社會價值、藝術價值等）。

最後一條：專注於AGI的路徑，而不是單一端點。作者將AGI的每個層級與一組明確的指標相關聯，並且每個層級引入已識別風險，以及由此產生的人機互動範式的變化。

AGI水平定義

作者給出如下表格，清楚地提出了一種分類或說評估方法，規定了達到給定評級所需的大多數任務的最低性能。

為便於理解，這裡將下表中的後五類翻譯為：入門、普通、專家、大師和超人等級。

例如，在大多數認知任務中，有能力的AGI必須至少達到熟練成年人的平均水平，但在任務子集上可能具有專家、大師甚至超人的表現。

舉個例子，截至2023年9月撰寫本文時，前沿語言模型（例如，ChatGPT、Bard、Llama2等）在某些任務（例如，短文寫作、簡單編碼）中表現出「普通」的表現水平，但對於大多數任務（例如，數學能力，涉及事實性的任務）來說，僅表現出「入門」的表現水準。

因此，整體而言，目前的前沿語言模型將被視為1級通用AI，當更廣泛的任務的表現水準提高時，就可以達到2級通用AI的門檻。

另外要注意的是，在特定認知領域獲得更強技能的順序可能會對人工智慧安全產生嚴重影響。

例如，在獲得強大的道德推理技能之前獲得強大的化學工程知識可能是一個危險的組合。

雖然此分類法根據系統的效能對系統進行評級，但能夠達到一定效能等級的系統在部署時可能不符合此等級。

以DALL·E 2為例，因為DALL·E 2產生的影像品質比大多數人能夠繪製的更好，所以可以評估為「專家」等級的表現。然而該系統存在故障模式，使其無法獲得「大師」的稱號。所以可以將其估計為分類法中的3級窄AI（「專家級窄AI」）。

在上面的表格中，作者引入了一個矩陣式平整系統，該系統專注於效能和通用性，這是AGI的兩個核心維度。

就綜合性能和通用性而言，矩陣中的最高等級是ASI（人工超級智慧）。而「超人」的表現意味著100% 優於人類。

例如，這裡假設AlphaFold是5級窄AI （“超人級窄AI”），因為它執行的單項任務（從氨基酸序列預測蛋白質的3D結構）高於世界頂級科學家的水平。

這個定義意味著5級通用AI （ASI）系統將能夠以人類無法比擬的水平完成廣泛的任務。

AGI測試

在作者的方案中，人工智慧系統必須掌握多大比例的此類任務才能達到給定的通用性水準？是否有一些任務（如後設認知任務）必須始終執行才能達到某些通用性等級的標準？

要實現AGI定義的可操作性，就必須回答這些問題，並發展出具體的多樣化和具有挑戰性的任務。

鑑於此過程的巨大複雜性，以及納入廣泛視角（包括跨組織和多學科觀點）的重要性，作者在本文中並未提出一個基準。

相反，作者致力於澄清基準應嘗試衡量的本體。作者也討論了AGI基準應具備的屬性。

AGI基準將包括一套廣泛的認知和後設認知任務（根據原則3），測量包括（但不限於）語言智能、數學和邏輯推理、空間推理、人際和人內社交智能、學習新技能的能力和創造力在內的各種特性。

基準可能包括心理學、神經科學、認知科學和教育學中的智慧理論所提出的心理測量類別測驗。

但是，必須先評估這些「傳統」測試是否適合用於計算系統基準測試，因為在這種情況下，許多測試可能缺乏生態和建構效度。

基準性能的一個未決問題是，是否允許使用工具（包括可能由人工智慧驅動的工具）作為人類性能的輔助工具。

此選擇最終可能取決於任務，並應在基準選擇中考慮生態效度（原則5）。

例如，在確定自動駕駛汽車是否足夠安全時，與一個沒有任何現代人工智慧輔助安全工具的人進行比較，並不是最有參考價值的比較。

因為相關的反事實涉及一些駕駛輔助技術，作者可能更傾向於與該基線進行比較。

或互動式任務，這些任務可能需要定性評估。作者猜測，後幾類複雜的開放式任務雖然難以確定基準，但其生態效度將優於傳統的人工智慧指標，或優於經過調整的傳統人類智慧指標。

AGI所能完成的全部任務是不可能一一列舉的。因此，人工智慧基準應該是一個活的基準。因此，這種基準應包括一個產生和確定新任務的框架。

要確定某物在特定層面上不是一個AGI，只需找出人們通常可以完成但係統無法充分執行的5項任務即可。

在特定性能等級（“雛形”、“普通”等）上通過大部分設想的AGI基準測試的系統，包括測試人員添加的新任務，可以被假定為具有相關的通用性級別（即，儘管在理論上AGI仍有可能無法通過測試，但在某些時候，未通過測試的情況會變得非常專業或非典型，以至於實際上無關緊要）。

制定AGI基準將是一個具有挑戰性的迭代過程。儘管如此，它仍是人工智慧研究領域的一個北斗星級別的目標。

複雜概念的衡量可能並不完美，但衡量的行為有助於我們清楚地定義目標，並提供一個衡量進展的指標。

關於AGI風險的討論

關於人工智慧的討論通常包括對風險的討論。

採用分層的方法來定義人工智慧，可以更細緻地討論效能和通用性的不同組合如何與不同類型的人工智慧風險相關聯。

當我們沿著人工智慧的能力水準前進時，會引入新的風險，包括誤用風險、調整風險和結構風險。

例如，「專家級人工智慧」水準很可能涉及與經濟混亂和工作轉移相關的結構性風險，因為越來越多的產業達到了機器智慧替代人類勞動力的門檻。另一方面，達到「專家級AGI 」可能會減輕「AGI雛形」和「普通級AGI 」帶來的一些風險，例如任務執行錯誤的風險。

在「大師級人工智慧」和「專家級人工智慧」層級中，最有可能出現許多與x風險有關的問題（例如，人工智慧可以在各種任務中超越人類操作員，但可能會欺騙人類操作員以實現錯誤的目標，如錯誤對齊思想實驗）。

如果不同層級之間的進展速度超過了監管或外交的速度（例如，第一個實現人工智慧的國家可能會擁有巨大的地緣政治/軍事優勢，從而產生複雜的結構性風險），那麼國際關係不穩定等系統性風險可能會成為一個令人擔憂的問題。

「專家型人工智慧」（如「新興人工智慧」、「勝任型人工智慧」和所有「狹義」人工智慧類別），風險可能更多來自人類行為（如人工智慧誤用風險，無論是意外、偶然還是惡意）。

對與每個層級相關的風險概況進行更全面的分析，是製定AGI分類法的關鍵一步，可以為安全/倫理研究和政策制定提供指導。

能力和自主性

雖然能力為人工智慧風險提供了先決條件，但人工智慧系統（包括AGI系統）不會也不會在真空中運作。

相反，人工智慧系統是與特定介面一起部署的，用於在特定場景中完成特定任務。

這些背景屬性（介面、任務、場景、最終使用者）對風險狀況有重大影響。AGI能力本身並不能決定風險方面的命運，而必須與背景細節結合起來考慮。

例如，考慮AGI系統使用者介面的承受能力。能力的不斷提高會釋放出新的互動範式，但並不能決定這些範式。

相反，系統設計者和終端用戶將確定一種人與人工智慧的互動模式，這種模式將平衡包括安全性在內的各種考慮因素。作者建議用表2所描述的六個自主層次來描述人機互動範式。

這些自主水平與AGI水平相關。更高程度的自主性可透過AGI能力的提升而「解鎖」。

圍繞著人與人工智慧的互動做出深思熟慮的選擇，對於安全、負責任地部署前沿人工智慧模型至關重要。

要使特定的互動範式變得理想，可能需要某些方面的通用性。

例如，只有當人工智慧系統在某些後設認知能力（學會何時向人類尋求幫助、心智理論建模、社會情緒技能）方面也表現出強大的表現時，自主性等級3、4和5 （「合作者」、「專家」和「智能體」）才可能發揮良好的作用。

作者對第五級自主性（「作為智能體的人工智慧」）的定義中隱含的意思是，這種完全自主的人工智慧可以在沒有人類持續監督的情況下以一致的方式行動，但也知道何時向人類諮詢。

透過更好的任務規範、彌合流程鴻溝和產出評估來支援人類與人工智慧協調的介面，是確保人機互動領域跟上與人工智慧系統互動的挑戰和機會的重要研究領域。

作為風險評估框架的人機互動範式

上表2說明了AGI等級、自主等級和風險之間的交互作用。

模型性能和通用性的進步提供了更多的互動範式選擇（包括潛在的完全自主的人工智慧）。

這些交互範式反過來又引入了新的風險類別。

與單獨考慮模型能力相比，模型能力和互動設計的相互作用將使風險評估和負責任的部署決策更加細緻入微。

表2也提供了作者提出的六個自主層級中每個層級的具體範例。

對於每個自主水平，作者都指出了「解鎖」該互動範式的相應性能和通用性水平（即該範式有可能或有可能成功部署和採用的AGI水平）。

作者對「解鎖」水準的預測往往要求狹義人工智慧系統的效能水準高於通用人工智慧系統。

例如，作者認為，無論是專家級狹義人工智慧或新興人工智慧，都有可能將人工智慧用作顧問。

這種差異反映了這樣一個事實，即對於通用系統來說，能力發展很可能是不均衡的。

例如，一級通用人工智慧（“AGI雛形”）很可能在某些子任務集上達到二級甚至三級效能。

通用人工智慧能力的這種不均衡性可能會使其在執行與其特定優勢相符的特定任務時獲得更高的自主程度。

在人類使用的背景下考慮AGI 系統，可以讓我們思考模型的進步與人類-AI 互動範式的進步之間的相互作用。

模型的進步與人與人工智慧互動範式的進步之間的相互作用。模型研究的角色可以看作是幫助系統的能力沿著通往AGI的道路不斷進步，提高其性能和通用性。

這樣，人工智慧系統的能力將與人類能力的重疊部分越來越大。相反，人與人工智慧互動研究的作用可以被視為確保新的人工智慧系統能夠為人類所用並對人類有用，從而使人工智慧系統成功地擴展人類的能力。（新智元）

參考資料：https://huggingface./papers/2311.02462