AI的未來是兩類模型的結合|DeepMind CEO 萬字實錄


3月25日,DeepMind 的聯合創始人兼CEO  Demis Hassabis在劍橋大學發表演講,演講中分享了DeepMind的歷程,DeepMind創立初被視為旨在建構AGI的“阿波羅計畫” ,還回顧了AI發展的兩種主要路徑,並將遊戲作為AI試驗場,遊戲領域的成功是手段目的,是為了開發能解決現實問題的通用問題。此外談論了GoogleDeepMind 正在開發的 AI 工具如何能夠大幅加快從健康到環境等科學領域的發現。

Demis Hassabis表示,AI 發展的下一步是將AlphaGo 所展現的那類基於智能體的模型(它們能在遊戲等有限領域內高效搜尋並找到優良解決方案)與Gemini 這類更通用的模型相結合,將高效規劃和搜尋能力與對世界廣泛理解的能力相結合。

任何在自然界中能夠生成或被發現的、具有真實物理結構的模式,或許都能被像AlphaFold 這樣的經典學習演算法高效地發現和建模。

DeepMind押注的方向是強化學習以及強化學習和深度學習的結合,深度學習用於對環境和世界建模,強化學習則用來制定計畫、尋找解決方案並在環境中行動。

以下是本次演講實錄 經數位開物團隊編譯整理

能回到劍橋真是太好了。每次回到劍橋,都感覺像回家一樣,心裡暖暖的。特別是這座演講廳,我記得曾對朋友們說過,也許有一天我會回到這裡做演講,宣佈AGI的到來,或許還會有一個機器人走上台,震驚全場。今天我不會這麼做,也許幾年後我會再回來,帶給大家那樣的演講。

對我而言,我的AI 之旅始於遊戲,特別是國際象棋,我從四歲開始下棋,這段經歷引導我開始思考「思考」本身。我們的大腦是如何構思出這些計畫和想法的?我們是如何解決問題的?又該如何改進?這讓我深深著迷,甚至可能比下棋本身更吸引我的是背後的實際思考過程。

我第一次接觸電腦和AI 就是透過西洋棋,當時我嘗試使用非常早期的西洋棋電腦,我想這就是我的第一台象棋電腦。它們是實體棋盤,你必須實際按下棋盤上的方格來移動棋子。當然,我們本來應該用這些像棋電腦來訓練開局理論,學習更多國際象棋知識。但我記得當時我完全被一個事實迷住了:竟然有人能給這個看起來毫無生氣的塑膠塊程式設計,讓它能和你對弈得如此出色。我當時真的非常好奇這是怎麼做到的,怎麼會有人能編出這樣的程式。後來在我十幾歲的時候,我自己用Amiga 500 電腦做了實驗——那可是80 年代末90 年代初非常棒的一款家用電腦——並自己動手編寫了類似奧賽羅這種遊戲的AI 程式。那真是我第一次嘗到AI 的滋味,從那一刻起我就被深深吸引了。因此,我很早就下定決心,要將我的整個職業生涯都投入到推動這項技術的前沿發展中去。

在2010 年,我們在倫敦創立了DeepMind。當時我們確實是把它看作一項旨在建構AGI的'阿波羅計畫'——這是我們當時的想法。也就是一種真正通用的、能執行人類所有認知能力的AI。一個真正意義上的通用AI 系統。實際上,這個想法真正源自於圖靈和他的圖靈機,即一種能夠計算任何可計算之物的機器,正如圖靈透過其圖靈機所證明的那樣。這對我來說是重要的基礎,也是我在劍橋的課堂上學到的核心內容之一:電腦科學與計算理論的基石,這些都是由圖靈等人在40 和50 年代奠定的著名理論。

我們在2010 年創立DeepMind。令人感慨的是,這已經是將近15 年前了。但當時,幾乎沒什麼人在研究AI,這在幾乎人人都在談論AI 的今天看來,簡直難以置信。僅僅十幾年間,AI 領域的發展速度之快令人驚嘆,而我們顯然也參與並推動了這段令人興奮的旅程。

我們DeepMind 從創立之初的使命是負責任地建構AI,以造福全人類。但我們最初的表述方式是分成兩步:第一步,解決智能;第二步,用智能解決所有其他問題。在2010 年,這個想法聽起來非常大膽甚至有些不切實際。你可以想像,拿著這樣的使命去向創投融資會是什麼情景。這聽起來相當瘋狂。但我至今依然從根本上堅信這一點。而且我認為,越來越多的人開始意識到,以通用方式建構的AI,確實可能對幾乎所有領域帶來深刻的、變革性的影響。這顯然就是我們使命宣言的第二部分。對我而言,這意味著利用AI 加速科學發現本身、推動醫學進步,並增進我們對周圍宇宙的理解。

回想我們剛創業時,或者說我在90 年代在這裡(劍橋)學習的時候,廣義上講,建構AI 主要有兩種路徑。一種是專家系統的路徑,也就是將解決方案直接預先程式設計到系統中。例如在90 年代非常有名的、擊敗了國際象棋世界冠軍加里·卡斯帕羅夫(Garry Kasparov) 的Deep Blue,這或許是專家系統的巔峰之作。但專家系統的問題在於它們無法處理預期之外的情況,這也是它們從未真正擴展到完全通用智慧的原因。如果發生了開發者沒有預先設定好的意外狀況,系統本身就沒有任何機制可以應付。它們的設計想法主要源自於邏輯系統,因此往往比較死板、脆弱,適應性差。

相較之下,現代方法則是基於學習系統。這些系統能夠自主學習,直接從原始經驗或資料中學習,遵循第一原理。其靈感較來自神經科學。顯然,我們今天這類系統的潛力在於,它們有望超越我們這些程式設計師或系統設計者所擁有的知識範疇,解決我們還不知道答案的問題。

因此,在2010 年代初,我們自然而然地從遊戲入手。遊戲在我生命中扮演了多重角色:首先,我用它來訓練自己的思維;後來,我為電腦遊戲開發遊戲和AI;最終,也是第三種方式,我們用遊戲來訓練我們的AI 系統。遊戲是 AI 系統的絕佳試驗場。 你可以從非常簡單的遊戲開始,例如70 年代的Atari 遊戲。而DQN 這個系統,是第一個能夠直接從原始資料中學習的端對端學習系統。在DQN 的案例中,輸入就是螢幕上的原始像素。系統沒有被告知任何關於遊戲規則或其控制對象的資訊。它唯一的目標就是基於輸入的視訊串流(或者說像素串流)來最大化遊戲得分。

大約在2013 年,我們用DQN 掌握了各種不同的Atari 遊戲。之後,我們將這些系統進一步擴展,去挑戰我認為是遊戲AI 領域的終極難題:發展出能夠在圍棋這項運動上達到甚至超越世界冠軍水準的系統。圍棋,無疑是人類發明過的最複雜的遊戲之一。要理解圍棋的複雜性,一個方法是看它的可能性:圍棋中可能的局面數量達到了 10 的 170 次方。這個數字遠遠超出可觀測宇宙中的原子總數。這背後重要的一點是:你不可能用暴力窮舉的方法來制定圍棋策略。那是不可能的,計算上是完全不可行的,所以你必須採取更聰明的方法。

然後在2016 年,我們迎來了一個舉世矚目的時刻:在一場百萬美元的挑戰賽中,我們的程式AlphaGo 擊敗了十次世界冠軍、韓國傳奇棋手李世石九段。全球有兩億人觀看了這場比賽。 AlphaGo 不僅贏得了比賽,更重要的是,它甚至開創了全新的、原創的圍棋策略。要知道,圍棋已經有數千年歷史,職業圍棋也發展了數百年,但AlphaGo 仍然能發現人類從未見過的下法。

所以,這再次向我揭示了這類系統在發明和發現新知識的潛力。當然,當時我們談論的只是遊戲領域的知識,但我的夢想顯然是將這種能力推廣到科學發現的所有領域。

那麼這些系統是如何運作的呢?我們基本上是透過一套自我對弈機制來訓練這些神經網路的。這其實就是AlphaGo 以及後續系統,如AlphaGo Zero 和Alpha Zero 所採用的方法。這些後續系統將我們為圍棋開發的技術進行了泛化,能夠從零開始學習玩任何雙人遊戲。初始時,系統是版本一,它對遊戲幾乎一無所知,只瞭解規則,因此下棋是隨機的。然後,你讓這個系統與自身對弈大約10 萬局。這10 萬局遊戲就產生了一個包含各種棋局位置的新資料庫。基於這個資料庫,你訓練出第二個版本,也就是一個稍微改進了的模型,版本二。這個版本經過訓練,能夠預測在任何給定棋局下最可能的著法,以及那一方(黑棋或白棋) 更可能從當前局面獲勝,還有他們獲勝的機率是多少。

接著,你可以用版本二與版本一對弈,進行例如100 局的比賽。如果版本二以顯著優勢勝出(例如勝率達到55%) ,就用版本二替換版本一,並用新的對局創建一個質量更高的遊戲資料庫。然後,你再訓練出版本三系統。如果你重複這個過程大約17 到18 次,系統就能在24 小時甚至更短的時間內,從最初的隨機亂下,進化到第17 或18 版時,棋力超越世界冠軍的水平。所以,能親眼見證這個自我提升的過程在如此短的時間內完成,是相當不可思議的。

那麼,這些神經網路究竟在做什麼呢?它們實際上是將圍棋那種極其龐大、難以處理的搜尋空間(大約有10 的170 次方種可能性) ,壓縮到在幾分鐘計算時間內就可以處理的規模。它是如何做到的呢?透過利用神經網路來有效引導搜尋機制,從而縮小搜尋範圍。想像一下,所有可能的下法構成一棵巨大的“可能性之樹”,樹上的每個節點代表一個圍棋棋局。神經網路的功能是,讓你不必漫無目的地檢查所有可能性,而是引導你集中探索那些最有趣、最有價值的分支路線。最後,當思考時間用盡時,你就選擇迄今為止所看到的最佳、最有希望的那條路線。

這自然而然地引導我們,將這種能力應用於不僅僅是圍棋,而是任何雙人完美資訊遊戲。令人驚訝的是,它甚至能夠在國際象棋領域發現全新的策略和風格。考慮到當時像Stockfish 這樣的國際象棋程式已經非常強大,這一點尤其了不起。而Alpha Zero 當時竟然能在西洋棋上擊敗Stockfish,這幾乎被認為是件不可能的事。 Alpha Zero 不僅擊敗了Stockfish更重要的是它下出了一些名局。在其中一盤最著名的對局的這個特定局面中,白方的AlphaZero 正處於勝勢,因為它選擇了犧牲子力來換取機動性。大多數西洋棋電腦傾向於保全子力,而如果你懂西洋棋,你會看到圖中黑棋雖然子力佔優,但棋子幾乎動彈不得,都被困在角落裡。正是AlphaZero 主動棄子,獲得了這種機動優勢。對於人類特級大師和頂尖棋手而言,這種下法不僅非常有效,而且具有極高的美學價值,是一種優美的棋風。

所以,AlphaZero 能夠發現這種全新的、動態的下棋方式,確實非常了不起。而當時的世界冠軍Magnus Carlsen,在研究了AlphaZero 的對局和相關書籍後將AlphaZero 的許多思路融入了自己的棋風,並藉此統治了國際象棋界將近十年。

所以,在DeepMind 成立後的頭十年左右,我們在遊戲人工智慧領域取得了一系列里程碑式的突破。但當然,這些成就只是我們實現更宏大目標的訓練場。玩遊戲本身並非終點而是一種手段。我們的目的是創造出能夠廣泛應用於解決現實世界問題的演算法。

那麼,我們在現實世界中尋找那些問題來應用這些技術呢?不只是科學問題,也包括工業領域的問題。我們主要依據三個標準來判斷一個問題是否適合用我們最初為遊戲開發的這類AI 系統、理念和演算法來解決。第一,我們尋找那些可以被描述為龐大的組合搜尋空間的問題。這類問題通常極為複雜,組合方式太多,無法透過暴力破解找到解決方案。但關鍵在於,其中可能存在某種潛在結構,我們的神經網路可以學習並利用這種結構來有效地引導搜尋。第二,我們尋找能夠用明確的目標函數或某種可最佳化的度量來描述的問題。在遊戲中,這很簡單,例如最大化得分或贏得比賽。但實際上,許多現實世界的問題也可以被簡化、歸結為幾個你希望最大化的度量或目標函數。

最後,第三個標準是,你需要有充足的數據或經驗可供學習,並且需要有一個精確且高效的模擬器,以便產生更多的合成數據來補充你所擁有的真實數據。事實證明,如果你從這個角度審視,會發現有大量問題都符合這些標準,其中包含了科學領域的許多重要難題。對我而言,有一個問題一直縈繞在我心頭,實際上從我還在劍橋讀本科、初次接觸到它時就是如此,那就是蛋白質折疊問題。對於不熟悉生物學和蛋白質的朋友,我來簡單介紹一下。

蛋白質至關重要,它們是生命的基石。生物體內的幾乎所有功能,從神經元放電到肌纖維收縮,都依賴蛋白質。可以說,正是蛋白質使生命成為可能。那麼,蛋白質折疊問題其實很容易描述。基本上,蛋白質是由其基因序列或遺傳序列所定義,而這個序列決定了胺基酸序列。在自然界中,這條胺基酸鏈會自發性地折疊成一個通常非常精美的特定蛋白質結構。所以,過程就是從遺傳序列到蛋白質結構。

蛋白質結構,也就是它的三維結構之所以非常重要,是因為它在很大程度上決定了蛋白質的功能,也就是它在生物體內扮演的角色。當然,結構並非功能的全部,但它確實是決定蛋白質在自然界中實際作用的關鍵因素。因此,蛋白質摺疊問題歸根究底就是:我們能否只根據一維的胺基酸序列,直接預測出蛋白質的三維結構?我們能否透過計算,從這個序列出發,預測出那個極為複雜的立體結構呢?

那麼,為什麼這個問題如此困難呢?著名蛋白質研究員Leventhal 在1960 年代提出了一個猜想,後來被稱為Leventhal 悖論。他計算出,一個普通蛋白質可能形成的形狀數量大約是天文數字般的10 的300 次方。然而,在自然界和生物體內,蛋白質卻能在短短幾毫秒內自發性地完成摺疊。這就是悖論所在:既然有這麼多的可能性,自然界是如何做到快速折疊的呢?或者說,物理定律是如何實現這個過程的?這個悖論也給了我們希望:既然物理過程能解決這個問題(並且在體內每秒發生數十億次) ,那麼透過計算也一定能在合理的時間內找到解決方案,這個問題在計算上應該是可行的。

此外,吸引我投身這個問題的另一個原因是,有一個名為CASP的競賽,科學家們透過艱苦的工作,使用電子顯微鏡等尖端且昂貴的設備來解析蛋白質結構。他們會將那些剛剛解析出來、尚未公開發表的結構提供給CASP 作為競賽題目。這樣一來,競賽主辦單位掌握著實際的基準真相,而來參賽的數百支計算團隊則利用各自的計算方法嘗試預測這些未知結構。等到夏末,主辦單位公佈真實的結構,大家就可以將預測結果與真實結構進行比較,評估預測的誤差。

於是,我們在2016 年啟動了Alpha Fold 項目,實際上差不多就在我們從韓國首爾的AlphaGo 人機大戰回來後的第二天。我們當時覺得,科技已經夠成熟,是時候將其應用於遊戲領域之外,去解決那些真正有意義的重大難題了。我們稱這類問題為“根節點問題”,因為一旦解決,它們就能開闢出全新的研究分支和發現途徑,後續的大量工作都可以在此基礎上展開。蛋白質折疊正是這類問題的典型代表。我們在2018 年首次帶著Alpha Fold 1 參加了CASP 競賽。

我們從2016 年開始這項工作。幾年後,Alpha Fold 1 準備就緒,我們用它參加了CASP 13 競賽。你可以從圖表中看到,在此之前的十年間,在最難預測的蛋白質類別中,獲勝團隊的最高得分一直徘徊不前。這個分數可以大致理解為一個準確度百分比,衡量預測出的胺基酸有多少比例位於真實結構的正確位置。如圖所示,過去十年進展甚微,分數一直卡在60 分左右的水平。而實驗科學家告訴我們,預測精度需要達到90 分這個門檻——也就是達到原子級精度——計算方法才真正具有與實驗方法相媲美的實用價值,實驗科學家們才能真正依賴這些計算預測,而不必總是進行那些費時費力的實驗工作來解析結構。

生物學家們普遍認為,一個博士生需要花費整個博士生涯,也就是四到五年的時間,才能解析出僅僅一個蛋白質的結構。科學界已知的蛋白質有2 億種,而人類蛋白質體中就有2 萬種。我們憑藉Alpha Fold 1 贏得了蛋白質結構預測競賽,並且比次優系統好了將近50%。 Alpha Fold 1 首次將機器學習技術作為系統的核心組件引入。但這還不足以達到原子級精度。我們必須從頭開始,利用現有的經驗教訓,為Alpha Fold 2 重新設計架構,並運用從Alpha Fold 1 中學到的一切,最終達到了這種原子級精度。這使得競賽組織者在2020 年底宣佈,蛋白質折疊問題已解決。

Alpha Fold 不僅極其精確,而且速度極快——它能在幾秒鐘內完成一個普通蛋白質的折疊。我們很快就意識到,實際上可以預測所有已知的2 億種蛋白質的結構。在隨後大約一年的時間裡,我們利用Google Cloud 上的大量計算資源完成了所有蛋白質的結構預測,然後透過我們歐洲生物資訊研究所的同事們,將這些數據在一個資料庫中免費公開發布,為全球任何人提供了免費、無限制的存取權。

實驗方法確定一個蛋白質結構就需要四到五年時間,預測這2 億個蛋白質結構,相當於在一年內完成了實驗方法下需要十億年博士研究才能完成的工作量。科學研究能被加速到何種程度,可見一斑。這也開啟了全新的探索領域。許多蛋白質結構,特別是那些研究較少的生物體(例如某些特定類型的植物),雖然對科學和農業研究極為重要,但其結構卻鮮有被解析和公開。現在,這些結構資料都唾手可得了。此外,有了這2 億個結構數據,我們可以在宏觀層面分析跨物種的結構模式,甚至是元結構,探索演化過程中的共通性。這確實為結構生物學開啟了引人入勝的新研究方向,目前正有待探索。

我們從一開始就將安全問題置於優先地位,並嚴肅對待作為AI 前沿開拓者的責任。在這個計畫上,我們諮詢了超過30 位生物安全和生物倫理學專家,確保向世界公開成果所帶來的益處遠超任何潛在風險。全球幾乎每個國家都有研究人員在使用Alpha Fold,總數已超過200 萬人。這項工作已被引用超過3 萬次,已成為生物學研究的標準工具之一。在座的許多博士生們,希望你們也在使用並受益於它。如今,Alpha Fold 的應用幾乎遍及生物學和醫學研究的各個領域。

在過去幾年裡,我們持續開發,取得更多進展並改善系統。今年早些時候,我們發布了供學術界使用的Alpha Fold 3。我們將Alpha Fold 3 的能力擴展到處理互動作用。 Alpha Fold 2 主要提供蛋白質的靜態結構快照,但生物學本質上是一個動態過程。因此,理解不同生物分子元件之間如何相互作用至關重要。這包括蛋白質與其他蛋白質的相互作用,也包括蛋白質與生命必需的其他分子(如DNA 和RNA) 以及配體的相互作用。配體是小分子,例如藥物化合物。瞭解蛋白質與這些化合物的結合方式非常重要。

此外,我們也開發了Alpha Proteo,它致力於解決蛋白質設計的逆向問題,並同樣基於Alpha Fold 的技術。也就是說,如果想設計一種自然界中可能不存在的新型蛋白質,賦予其特定任務或功能,就需要確定能夠形成這種特定結構的胺基酸序列和基因序列。這便是嘗試設計出能夠執行新穎功能的新結構,在設計藥物、抗生素和抗體等方面具有極高的應用價值。

無論是早期在遊戲領域的成就,或是後來在科學研究工作,其核心都在於解決棘手的搜尋問題。面對極為複雜的問題和海量的可能解決方案必須找到最優解。這在巨大的組合搜尋空間中,單靠暴力破解是無法實現的。因此,必須訓練一個神經網路模型。此模型能學習問題的拓樸結構,從而有效地引導搜尋過程,以找到預定目標的最佳解決方案。

這是一種極為通用的方法。以Go 為例,我們利用系統尋找最佳落子點。若將棋盤節點想像成化學化合物,那就是在化學空間中尋找最佳分子。找到最佳分子,便是藥物設計的開端-找到能特異性與目標標靶結合、而不影響其他分子的化合物,進而減少副作用和毒性。目前我們用於設計這些分子的技術,與先前的原理一脈相承,標誌著我們向藥物發現領域邁出了新的一步。

我們相信,生物學正進入一個可稱為數位生物學的新時代。生物學在其最根本層面上是一個資訊處理系統,在不斷抵抗周圍環境的熵增,這或許是生命的本質。它是一個極為複雜且具湧現性的資訊處理系統。 AI 正是應對這種複雜性的理想工具。正如數學是描述物理學和物理現象的完美語言,AI 有潛力成為描述生物學的完美語言。AI 尤其擅長處理像生物學這樣的動態系統中複雜、湧現的行為和相互作用。


Alpha Fold 正是這理念的力證。希望十年後回望,它不僅是一個孤立的突破,而是真正開啟了數位生物學的黃金新紀元。


AI 的應用遠不止生物學,它可以廣泛用於科學、數學、醫學等領域。我們已取得一系列突破,涵蓋健康(透過視網膜掃描識別眼疾)、新材料發現、助力等離子體約束和聚變反應器、研發更快演算法(如AI 發現更快的矩陣乘法演算法)、天氣預測,甚至在量子計算機及其糾錯方面提供幫助。 AI 的應用潛力幾乎涵蓋所有領域。因此,我們鼓勵大學加強多學科交叉合作,將AI 應用於特定專業領域的關鍵問題。相信未來5 到10 年,透過這種方式可以取得許多進展。

最後,談談更宏觀的視角:通往AGI 的路徑以及相關進展。 我們在對世界進行一般性理解的各個方面都取得了很大進展,有時稱之為世界模型。去年底發布的VO2 影片模型就是一個例子。 VO2 是目前最先進的影片產生技術,能僅憑文字描述或單張靜態影像產生影片。

其中一些影片效果驚人。例如那個切番茄的視頻,堪稱視頻模型的圖靈測試。通常模型會出錯,例如番茄復原、切到手指或刀移位。但VO2 能較好地處理,說明系統為了產生逼真效果,必須深刻理解現實世界的物理規律。再例如藍莓掉入水中的氣泡效果,僅根據文字生成,卻準確地模擬了物理現象。還有卡通人物的運動、蜜蜂的飛行等,都展現了模型對物理和動態的理解。五年前,如果有人告訴我無需專門編程、僅靠學習就能達到這種效果,我會覺得難以置信。然而,這些學習系統竟能透過觀看海量YouTube 影片學習到現實世界的物理規律。這展現了學習系統驚人的能力。

我們已經在這方面取得了進展,並且透過Genie 2 專案更進了一步。這讓我得以再次運用我在遊戲領域的經驗。 Genie 2 將相關的視覺輸出或理解模型提升到了新的水平。現在,使用者僅憑一條文字指令,就能產生一個完整的遊戲。例如,我們曾輸入指令:「生成一個可玩世界,玩家扮演一個身處未來城市的機器人」。系統隨之產生了對應的遊戲畫面,玩家可以用QWE 鍵和箭頭鍵控制機器人。目前,這個生成世界的連貫性只能維持幾秒鐘,但我們正在努力延長這個時間,目標是讓遊戲世界的連貫性可以持續數分鐘。這樣一來,使用者就能真正體驗到我所謂的世界模型──一種對真實世界及其互動規律、物理法則的深刻理解。

我們一直非常專注於AI 技術的安全問題。早在2010 年,當AI 領域還鮮有人問津時,我們就已經開始為這項技術未來可能的成功進行規劃和準備。我們當初設想這會是一個長達二十年的使命,令人欣慰的是,十五年過去,我們基本上仍行走在預定的軌道上。我們當時就意識到,如果真要建構這類具有變革力量的系統和技術,就必須承擔起重大的責任,確保它們以安全、負責任的方式部署。為此,我們開發了名為Synth ID 的技術系統。該系統利用AI 技術,具體是一個對抗性AI 系統,對影像的像素、文字或音訊進行微調,嵌入人眼或人耳無法察覺的無形浮水印。但專門的偵測系統能夠辨識出這些經過處理的內容是合成生成的影像,無論其形式是音訊、影像或影片。隨著此類技術日益普及,能夠輕鬆區分合成內容和真實內容的能力,其重要性將愈發凸顯。

AI 展現出巨大的潛力,有望幫助我們應對從氣候變遷到公共衛生等最嚴峻的全球性挑戰。但顯而易見,這項技術將深刻影響社會中的每一個人。因此,至關重要的一點是,相關決策不能僅由技術專家掌握,而需要社會各界的廣泛利害關係人參與深入的溝通和互動。令人欣喜的是,過去幾年AI 的主流化帶來了積極的現象,許多國家的政府及社會各界都開始高度關注AI。國際高峰會的召開也極具意義,例如,英國幾年前在Bletchley Park主辦的首屆峰會,匯集了各國政府首腦、學術界和公民社會代表,共同探討如何為AI 技術發展設立恰當的“護欄”,確保我們既能擁抱機遇,又能有效減輕潛在風險。鑑於AI 技術正以指數級的速度發展和改進,這種跨界對話與合作只會變得越來越重要。

對於如何推進AI 發展,我的看法不同於矽谷盛行的「快速行動,打破常規」的信條。雖然這種模式催生了許多創新和我們日常使用的技術,但我認為它並不適用於AI 這樣具有深遠變革力量的技術。恰恰相反,我們應該採用科學方法,以謙遜和尊重的態度對待它——這是這項技術應得的審慎。我們必須承認,關於AI 的未來發展,仍有許多未知數,它畢竟是一項非常新的技術。我相信,只要以極其審慎的態度和富有遠見的規劃來推進,就能夠充分發掘AI 的益處,並將其潛在的負面影響降至最低。然而,這一切的前提是,我們必須從現在就開始相關的研究和深入討論。

我們目前正在建立自己的大型多模態模型系列,稱為Gemini。其目標是整合先前各種模型的精華與優勢,建構成一個統一強大的系統。最新發布的Gemini 2.0 版本,在眾多領先的基準測試中都達到了當前最佳水平。我們正利用Gemini 推動下一代助手的發展,我對這個方向充滿期待,並稱之為通用助手,內部專案代號為Project Astra。設想一下,你可以將這樣的助手安裝在手機、智慧眼鏡或其他裝置上,它就像一個能伴隨你進入現實世界的個人助手,幫助你豐富日常生活體驗,或提升工作效率。

AI 發展的下一步是將AlphaGo 所展現的那類基於智能體的模型(它們能在遊戲等有限領域內高效搜尋並找到優良解決方案)與Gemini 這類更通用的模型相結合。

我們期望將這類搜尋與規劃系統,建構於(如Gemini 所具備的)能夠理解現實世界運作方式的世界模型基礎之上,從而使其能夠在現實世界中進行規劃並達成目標。

這對於機器人技術的實現和應用至關重要。

我相信在未來兩到三年內,機器人技術將迎來飛躍的進展,成為一個極為重要的領域。

最後,我想就這一切進展的深層意義提出一個推測,特別是回溯到Alan Turing 為奠定電腦科學基礎所做的奠基性工作。從某種意義上說,我視自己為圖靈理念的傳承者和實踐者,致力於探索圖靈機和經典計算的思想邊界究竟在那裡。我常常思考P=MP 問題──這或許是受到了曾經在此地聆聽的某場講座的啟發。作為計算機科學領域的一個著名難題,它探討的是:對於經典計算系統而言,那些類型的問題是容易解決的?

目前,量子計算領域的研究如火如荼,無論是在劍橋還是在Google,都有許多傑出的工作正在進行中。人們普遍認為,許多複雜問題,包括模擬眾多真實世界的系統,都需要依賴量子運算才能解決。

然而,我的猜想是:經典的圖靈機,也就是我們建構AI 系統所依賴的經典計算機,其能力可能遠超乎我們過去的認知。 以AlphaFold 和蛋白質折疊為例:蛋白質本質上是量子系統,在原子尺度上運作。理論上似乎需要進行量子模擬才能精確解析其三維結構。但我們卻成功地利用神經網路近似地解決了這個問題。

這啟發了我一個想法,任何在自然界中能夠生成或被發現的、具有真實物理結構的模式,或許都能被像AlphaFold 這樣的經典學習演算法高效地發現和建模。 如果這個猜想最終被證實,它將對量子力學乃至基礎物理學產生極​​其深遠的影響。這也是我個人及眾多同事熱切希望探索的方向——借助這些日益強大的經典AI 系統,我們或許能更深入地揭示現實世界的真正本質。

這讓我回想起多年前我投身人工智慧領域的初衷。我始終相信,以這種方式建構的通用人工智慧,能夠成為理解我們周圍宇宙以及我們在其中位置的終極通用工具。

觀眾1提問:在神經科學領域,您是否遇到過您認為值得解決並且至今仍值得解決,以助於我們更好地理解生物智能和人工智慧的根節點問題?

確實有很多這樣的問題。我的博士研究主題是記憶和想像力,也就是關於未來思考和規劃。我當時非常想弄清楚大腦是如何完成這些功能的。研究發現海馬體同時參與了這兩個過程,所以我們或許可以利用我們的一些演算法來模擬它。因此,我認為這裡面有很多關鍵點。當然,還有很多宏大的問題,像是創造力、夢境、意識等等。我認為,建構AI ,然後將其與人類心智進行比較,是我們在這些「根節點問題」上取得進展的最佳途徑之一。 例如,意識的本質是什麼?大腦基質的物理實現與在矽基上透過演算法模擬它相比,是否存在某些特殊之處。

觀眾2提問:第一,DeepMind 是在深度學習革命之前成立的,如果深度學習沒有像後來那樣發展起來,當時的心態如何?又打算如何繼續前進?第二,鑑於您在處理極具挑戰性的高維度問題方面經驗豐富,且梯度下降及其變體只能達到局部最優解,是否曾對這些系統竟然能起作用感到驚訝?另外,是否認為自然界在很大程度上是次優的,因此有可能建立一個更優化的「自然」?

第一個問題很棒。將公司命名為DeepMind,部分原因是「Deep」指涉深度學習。當時,深度學習的早期形式已開始普及,例如Jeffrey Hinton 在幾年前發明的玻爾茲曼機和分層神經網路等技術。對於當時在學術界接觸它的人而言,這似乎是個極具前景的方向。我們押注的另一項技巧是強化學習以及兩者的結合。強化學習對於解決AlphaGo 這樣的問題至關重要。你需要深度學習來對環境和世界進行建模,然後需要強化學習來製訂計劃、找到解決方案並在世界中採取行動。

強化學習現在再度流行,它對於解決AlphaGo 這類問題也至關重要。這需要兩部分配合:深度學習用於對環境和世界建模,而強化學習則用來製訂計劃、尋找解決方案並在環境中行動。

我們當時之所以在它剛起步時就押注於此,主要基於兩點:首先,我們認識到經典方法,即專家系統,無法規模化。這也是我在求學和研究期間的體會之一——當時存在著推崇專家系統的不同'陣營'或'學派'。從學習中不僅能瞭解該做什麼,也能瞭解不該做什麼,以及為何某些方法行不通。我當時思考過這些經典方法,感覺它們永遠無法擴展到我想用人工智慧解決的那類問題的規模。

相較之下,學習系統似乎擁有無限的潛力,儘管在初期讓它們取得任何顯著進展要困難得多,主要因為它們的規模還不夠大。我們在2010 年創立DeepMind 的另一個原因是,我們看到計算範式在硬體層面正在轉變,GPU 等技術開始興起——GPU 最初也是為遊戲發明的,結果發現智慧、遊戲和電腦圖形學,本質上都是矩陣乘法。所有這些不同的影響因素匯集到了一起。

同時,在那之前的十年裡,對神經科學和fMRI 技術的理解也取得了長足的進展。因此,我感覺2010 年是將所有這些要素整合在一起的絕佳時機。我們當時下注,並非確信會成功,而是相當確信其他方法行不通。基本上,所謂的AI 寒冬就是因為人們試圖強行推廣那些專家系統而導致的。

關於第二個問題,我想說的是,首先,這些系統最終能夠收斂,確實令人驚訝,我們起初並不確定。在最初的幾年裡毫無進展。如果你還記得Pong 這款早期電腦遊戲,非常簡單的模擬網球遊戲,我們甚至無法讓AI 得到一分。所以我們當時就在想:我們是不是太超前了,早了10 年或20 年?就像Babbage 和他的差分機一樣,想法很了不起,理論也行得通,但他最終還是早了50 年甚至100 年。我總是說,你希望自己領先時代五年,而不是五十年。否則,你會經歷很多痛苦,就像Babbage 那樣。我們當時確實擔心這一點,但後來演算法確實收斂了,這給了我們信心去攻克更難的問題。至於問題中關於自然界的部分,我的看法是,它們並非次優,實際上可能已經相當優化。因為它們經歷了漫長的演化過程──不僅是生物學意義上的生命演化,也包括地質和物理層面的演化。例如小行星和各種物理現象相互作用,它們能存續至今,是因為在漫長時間裡保持了穩定。如果一個系統能長期穩定,其內部很可能就蘊含著值得學習的結構。這是我的推測。

觀眾3提問:您對建構高頻寬腦機介面及可植入式記憶與推理模組有何看法?這樣可以進一步增強人類自主進行探索發現的能力,而不僅僅是與雲端的AI 進行對話。

是的,我對此領域很感興趣並持續關注,也曾協助建造腦電圖帽等裝置。當然,目前的問題在於這些裝置的解析度,即從大腦讀取訊號的精度,並且理想情況下我們希望它能同時具備讀寫功能。但我對Neurolink 這類項目,即植入大腦的晶片,非常著迷。顯然,目前這些技術主要是為了幫助例如退伍軍人等族群恢復身體功能。我認為這方面將會有驚人的進展,例如讓脊椎受傷的人能夠重新行走等等。我相信醫學領域將取得一些令人矚目的實質進展。在此之外,如果將來這類技術變得常規化,手術足夠安全,並且有可靠的操作方法,那麼我可以想像,這或許是人類跟上技術發展步伐的一種途徑。從某種意義上說,這與我們今天身邊無所不在的技術並無本質不同。我們每個人幾乎全天候帶著手機,還有電腦等裝置。我們幾乎已經與科技處於一種共生狀態。當然,將裝置植入體內會是更進一步,但我不太確定。這兩種狀態-技術植入體內與隨身攜帶技術,其間的差異究竟在那,是否有明確的界線。

觀眾4問題:您提到Genie 2 模型目前能維持幾秒鐘的連貫性,並希望最終能達到分鐘等級。但我們玩的遊戲,需要近乎無限的連貫性。那麼,您認為這類模型未來將如何整合到實際工作流程中?或者更具體地說,您如何看待AI、您的模型以及您目前的研究在未來幾十年內融入遊戲開發?

是的,我認為AI 將從多個方面融入遊戲領域。

首先是作為工具,用於建立遊戲所需資產,如3D 模型、動畫等。我認為這些在未來幾年內就會出現。其次,AI 可用於遊戲平衡性的調整。想像一下,你設計了一款遊戲,AI 可在一夜間模擬百萬次遊戲過程,第二天設計師就能收到報告,指出不平衡之處,例如某個單位能力過強等等。

再次,是Bug 測試,特別是對於開放世界遊戲。我以前製作過模擬遊戲和開放世界遊戲,它們的Bug 測試極其困難,因為其特點是玩家行為高度自由,遊戲需隨之回應。那麼如何測試一千萬玩家在遊戲中走出各自獨特的路徑呢?實際上,讓AI 玩家在發佈前進行大量測試,有助於發現並解決許多Bug。

還有一點,我認為非常令人興奮,那就是更逼真的AI 角色,它們能夠推動故事情節發展。我們曾夢想擁有這樣的大型多人線上世界:其中的AI 角色具備智能,能根據玩家行為更新自身信念和故事線,從而讓世界感覺更加生動、真實。我認為我們正處於能夠建構這類遊戲的關口。

最後,關於我們正在建立的世界模型,它更多是關於通用人工智慧。它代表了理解世界的能力──你的模型是否理解世界?如果模型能在一定時間內產生這個世界,顯然它必須在某種程度上理解其底層的物理規律。這更多是為了實現通用智能。至於像全像甲板一樣只需想像就能呈現一切的技術,或許擁有AGI 後可以實現,但目前看還需要一段時間。 (數位開物)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題