大神的誕生:OpenAI首席科學家Ilya · GPT-3發布前夕深訪全紀錄

前言:

Ilya Sutskever,OpenAI聯創和首席科學家, 被Elon Musk稱之為「缺少他OpenAI絕不可能成功」的男人,在2020年GPT3發布之前,還只是AI圈裡的傳說。當GPT-3以及後續ChatGPT引爆了全球熱情之後, Ilya就成為了全球公眾眼中神一般的人物。

可惜的是, 因為現在OpenAI已經成為了“Close AI”,Llya已經很少在公眾場合談話,即使偶爾出來,所講內容也都蜻蜓點水一般。

而在2020年5月初,正是在具有劃時代意義的GPT-3發布前一個月(GPT-3於2020.6.10發布),Ilya做了一次90分鐘的深度訪談,內容非常乾貨紮實,我們可以從中完整理解,當下AI第一大神對AI的完整思考。



完整中文版影片傳送門:

【「當大神在誕生」OpenAI首席科學家Ilya 於GPT-3發布前夕深度訪談【中英精校】-嗶哩嗶哩】

https://b23.tv/iM9y6Oc


=以下是本城根據談話內容全文重寫整理,全文2.3w字=

主持人Lex:以下是與Ilya Sutskever的對話,他是OpenAI的共同創辦人和首席科學家,也是史上被引用次數最多的電腦科學家之一,擁有超過165,000次引用。在我看來,他是深度學習領域有史以來最聰明、最有洞察力的人之一。在這個世界上,很少有人能像Ilya一樣,讓我如此願意與之交談和探討深度學習、智慧和生活等方面的問題,無論是在麥克風前還是麥克風外。這是一種榮譽和樂趣。

你是著名的AlexNet論文的三位作者之一,與Alex Krizhevsky、Geoff Hinton共同完成。這篇論文可以說是標誌著深度學習革命開始的重大催化時刻。回到那個時候,你對神經網路、神經網路的表示能力有什麼直覺?也許你可以提到在接下來的幾年裡,直到今天,在這10年間,這種直覺是如何演變的?

是的,我可以回答這個問題。在2010年或2011年的某個時候,我在腦海中聯繫了兩個事實。基本上,我的意識到是這樣的。在某個時刻,我們意識到我們可以使用反向傳播端對端訓練非常大的--我不應該說非常大,以今天的標準來說,它們是微小的,但足夠大且深度的神經網絡。不同的人得到了這個結果。

James Martens在2010年發明​​了Hessian自由優化器,並且首次從頭開始,不預訓練就訓練了一個10層的神經網路時,我第一次意識到深度神經網路是有力的。當發生這種情況時,我想,這就是了。因為如果你可以訓練一個大的神經網絡,一個大的神經網路可以表示非常複雜的函數。因為如果你有10層的神經網絡,就好像你讓人腦運轉了一段時間。神經元的火花是緩慢的,所以在大概100毫秒內,你的神經元只會火花10次。所以它也有點像是10層。在100毫秒內,你可以完美地辨識任何物件。所以我當時就有了這個想法,我們需要在大量的監督資料上訓練一個非常大的神經網路。然後它必定會成功,因為我們可以找到最好的神經網路。

還有一種理論認為,如果你有的數據比參數多,你就不會過度擬合。現在我們知道,實際上這個理論是非常不完整的,即使你擁有的數據比參數少,你也不會過度擬合。但肯定的是,如果你有的數據比參數多,你就不會過度擬合。

所以,神經網路被大量的超參數化並沒有讓你感到氣餒?所以你是在思考關於參數數量的理論,認為有大量的參數是可以接受的,會沒問題的嗎?

之前有一些證據顯示這是可以的,但是理論上最主要的是,如果你有一個大的數據集和一個大的神經網絡,它會起作用。超參數化並沒有真正成為一個問題。我認為,對於圖像,你只需添加一些資料增強就可以了。那麼,有什麼疑慮呢?主要的疑慮是,我們是否有足夠的運算能力來訓練一個足夠大的神經網路?用反向傳播。我認為反向傳播會起作用。之前並不清楚的是,我們是否有足夠的計算能力來得到令人信服的結果。然後,Alex Krizhevsky編寫了一些用於訓練卷積神經網路的非常快速的OODA內核,於是我們開始著手進行ImageNet的訓練,這將是最偉大的事情。

直覺大部分是來自於你自己和別人的實證結果嗎?例如,實際證明一個程式可以訓練一個10層的神經網路?還是有一些筆和紙或白板的思考、直覺?因為你剛剛將一個10層的大型神經網路與大腦連結了起來。所以你提到了大腦。在你對神經網路的直覺中,人腦是否作為一種直覺的建構者?

當然。我們在人工神經網路和大腦之間的類比上必須要準確。但毫無疑問,大腦一直是深度學習研究人員的巨大靈感源泉,自1960年代的Rosenblatt以來一直是如此。整個神經網路的概念直接受到大腦的啟發。有像麥卡盧姆(McCallum)和皮茨(Pitts)這樣的人說,你們看,大腦中有這些神經元,我們最近了解了電腦和自動機。我們能否利用電腦和自動機的一些概念設計出一個簡單、計算性強、類似大腦的計算對象?於是他們發明了神經元。所以他們當時就受到啟發了。然後,你有來自福島(Fukushima)和後來的Yann LeCun的捲積神經網絡,他們說,如果你限制神經網絡的感受野,它會特別適合圖像,事實證明確實如此。所以,大腦的類比成功的例子非常少。我認為,如果你仔細觀察,人工神經元和大腦之間可能沒有那麼大的差異。所以我們就假設它們是一樣的,然後繼續研究。

現在我們處在一個深度學習非常成功的時代。那我們不再細究,睜大眼睛看看,對你來說,人腦和人工神經網路之間有趣的差異是什麼呢?現在,我知道你可能不是專家,既不是神經科學家也不是生物學家,但是寬泛地說,人腦和人工神經網路之間有趣的差異是什麼,這對未來十年或二十年來說很重要?

這是一個好問題。人腦和我們的人工神經網路之間有什麼有趣的差異呢?我覺得今天的人工神經網絡,我們都認為在某些方面人腦遠遠超過了我們的模型。但我也認為,我們的人工神經網路在某些方面有許多非常重要的優點。比較優點和缺點是找出重要差異的好方法。大腦使用的是脈衝,這可能是也可能不是重要的。

這真的是一個有趣的問題。你認為這很重要還是不重要?

這是人工神經網路與大腦之間的一個重大架構差異。這很難說,但我的先驗認知不是很高,我可以解釋為什麼。有些人對脈衝神經網路感興趣,基本上他們發現的是,他們需要在脈衝中模擬非脈衝神經網路。這是他們能夠使之工作的方法。如果你不在脈衝中模擬非脈衝神經網絡,它是不會工作的,因為問題是,為什麼它應該工作?這涉及到關於反向傳播和深度學習的問題。你有這個巨大的神經網路。為什麼它應該起作用呢?為什麼學習規則應該要運作呢?這不是一個不言自明的問題,尤其是如果你剛進入這個領域,你讀了一些早期的論文,你會說,人們說,我們要建立神經網路。這是個好主意,因為大腦是一個神經網絡,所以建立神經網路會很有用。現在,我們來弄清楚如何訓練它們。應該有可能訓練它們,但是如何訓練呢?所以大的想法是代價函數。這是個大想法。代價函數是一種衡量系統效能的方法。

實際上,讓我想想。這是一個很難得到的想法嗎,代價函數這個概念有多大?抱歉,讓我停一停。監督學習這個概念很難得到嗎?所有的概念事後看起來都很簡單。這就是為什麼它現在看起來很微不足道,但我之所以這麼問,是因為還有其他的東西嗎?有沒有一些不一定有代價函數,可能有很多代價函數,或者可能有動態的代價函數,或者可能有完全不同類型的架構的東西?因為我們必須這樣思考,才能得到一些新的東西,對吧?

沒有明確代價函數的好例子是GANs。在GAN中,你有一個遊戲。所以你不是在考慮代價函數,你知道你有一個演算法,梯度下降,它會優化代價函數,然後你可以根據它優化的內容推斷出系統的行為。對於GAN,你會說,我有一個遊戲,我會根據遊戲的平衡來推斷系統的行為。但這一切都是關於提出這些數學對象來幫助我們推理系統的行為。這確實很有趣。

是的,GAN(生成對抗網路)是唯一的。它有點像...成本函數是從比較產生的。我不知道它是否有成本函數。我不知道討論GAN的成本函數是否有意義。這有點像是討論生物演化或經濟的成本函數。你可以討論它會趨向於哪些區域,但我不認為成本函數的類比是最有用的。

這真的很有趣。所以,如果演化真的沒有類似我們數學概念中的成本函數,那麼你認為深度學習中的成本函數在阻礙我們嗎?是的,你剛剛提到了成本函數是一個很好的首要深刻的想法。你認為這是個好主意嗎?你認為我們會超越這個想法嗎?

自我對弈(self-play)在強化學習系統中已經開始涉及到這一點了。沒錯。自我對弈和探索的概念,你試著採取一些行動來驚訝預測器。我非常喜歡成本函數。我認為成本函數很好,為我們服務得很好。我認為,每當我們可以用成本函數做事情時,我們都應該這樣做。也許,我們會找到一種新的深刻的看待事物的方式,這種方式不會如此核心地涉及成本函數。但我不知道。我不會打賭反對成本函數。

關於大腦,你有沒有什麼東西浮現在腦海中,對我們在設計人工神經網路時考慮可能是不同的和有趣的?

所以我們談了一點脈衝的事情。有一件可能有用的事情,我認為,神經科學家已經找出了一些關於大腦的學習規則,或者我在說關於脈衝時間獨立可塑性的事情,如果有人能在模擬中研究那將會很好。

等一下,抱歉。脈衝時間獨立可塑性是什麼?

這是一種特定的學習規則,它使用脈衝時間來決定如何更新突觸。如果一個突觸在神經元發射之前向神經元發射,那麼它會加強突觸。如果突觸在神經元發射後不久就會向神經元發射,那麼它會削弱突觸。這大致是這樣。我有90%的把握這是對的,所以如果我說錯了什麼,不要太生氣。

但你在說的時候聽起來很聰明。但時間,那是缺失的一件事。時間動態沒有被捕獲。我認為,大腦的一個基本屬性就是訊號的時序。你有遞歸神經網路。但你認為,那是一個非常粗糙的簡化了的,遞歸神經網路有一個時鐘,我猜。看起來大腦是那個的連續版本,是一般化的,所有可能的時序都是可能的,然後在這些時序中包含了一些資訊。你認為遞歸神經網路的遞歸能捕捉大腦中神經元的發射時序似乎很重要的相同類型的現象嗎?

我認為遞歸神經網路是驚人的,它們可以做,我認為它們可以做任何我們希望它們做的,我們希望一個系統做的事情。現在,遞歸神經網路已經被transformer模型取代了,但也許有一天它們會捲土重來,也許它們會回來,我們會看到。

讓我稍微離題一下,你認為它們會回來嗎?最近我們將在自然語言處理和語言建模上討論的許多突破都是與不強調遞歸的Transformer模型有關的。你認為遞歸會捲土重來嗎?

某種形式的遞歸,我認為,非常有可能。遞歸神經網絡,因為它們通常被認為是用於處理序列,我認為也是可能的。

對你來說,什麼是遞歸神經網路?

什麼是遞歸神經網路?你有一個神經網絡,它維持著一個高維的隱藏狀態,然後當一個觀察到達時,它通過它的連接以某種方式更新它的高維隱藏狀態。所以你認為,那是專家系統所做的,對吧?符號AI,基於知識的,成長知識庫是維持一個隱藏狀態,這是它的知識庫,並透過順序處理來成長它。

您是否更一般地以這種方式考慮它,或者它只是我們今天在LSTM等中考慮的具有某些門控單元的隱藏狀態的更受限形式?您剛剛描述的隱藏狀態技術上是進入LSTM或RNN或類似之物的隱藏狀態。但是,如果您想做專家系統類比,我不是很確定,您可以說知識儲存在連接中,然後短期處理是在隱藏狀態中完成的。能這麼說嗎?因此,您認為未來有在神經網路內建立大規模知識庫的可能性嗎?

絕對有可能。那麼,我們在這個確定性中暫停一下,因為我想探索一下,但讓我回頭談談ImageNet的歷史。正如您所提到的,神經網路已經存在了幾十年。您認為是什麼關鍵思想導致了它們的成功,即ImageNet時刻以及過去10年的成功?

好的,所以問題是,為了確保我沒有錯過任何內容,過去10年深度學習成功的關鍵想法是什麼?

確實,儘管深度學習背後的基礎事物已經存在了很長時間。所以關於深度學習的關鍵思想,或者更準確地說,在深度學習開始成功之前深度學習的關鍵事實是,它被低估了。從事機器學習工作的人簡單地認為神經網路無法做很多事。人們不相信可以訓練大型神經網路。人們認為,機器學習中存在著許多關於什麼是正確方法等的爭論,人們爭論是因為沒有辦法獲得硬性事實,沒有真正困難的基準,如果您在這些基準上表現得很好,那麼您可以說,看,這是我的系統。這時,這個領域變得有點更像是工程領域。因此,在回答這個問題時,這些思想都存在。

缺少的東西是大量的監督數據和大量的計算能力。一旦您擁有大量的監督數據和大量的計算能力,那麼還需要第三樣東西,那就是信念。確信如果您採取已經存在的正確材料並將其與大量的數據和計算能力結合應用,那麼它實際上會奏效。

因此,這是缺失的一部分。您需要數據,您需要以GPU的形式出現的運算能力,您需要確信您需要將它們結合在一起。

這真的很有趣。所以我猜計算能力和有監督數據的存在使得實證證據能夠說服計算機科學界的大多數人。所以我猜有一個關鍵時刻,他們是非常懷疑的,對吧?然後有一個Geoffrey Hinton完全不懷疑。有一個說服的時刻,我認為EmissionNet就是那個時刻。

沒錯。它代表了電腦視覺社群的大型支柱這種情況...巫師聚集在一起,然後突然之間發生了轉變。僅有所有的思想和計算能力存在是不夠的,它是為了說服存在的懷疑論。有趣的是,人們幾十年來只是不相信。是的,但不僅如此。這種方式講述起來,聽起來那些不相信的愚蠢人失去了什麼。但實際上,情況很混亂,因為神經網路確實沒有在任何事情上運作。它們也不是幾乎任何事物上的最佳方法。說,是的,這東西沒有任何吸引力是相當理智的。這就是為什麼您需要有這些非常困難的任務,它們產生無可否認的證據。這是我們取得進展的方式。這就是為什麼這個領域今天正在取得進展,因為我們有這些代表真正進展的硬基準。這就是為什麼我們能夠避免無止盡的爭論。

您非常了不起,為人工智慧領域,包括電腦視覺、語言、自然語言處理、強化學習以及介於這些之間的各個方向貢獻了一些最重大的最新思想。也許生成對抗網路(GANs)除外。有沒有您沒有涉獵過的主題呢?當然,還有深度學習的基礎科學。對您來說,在視覺、語言和強化學習行動中,學習問題之間的差異是什麼?它們之間有什麼共通點呢?您認為它們都是相互連結的嗎?還是說它們本質上是需要不同方法的不同領域?

這是個好問題。機器學習是一個具有許多統一性的領域,極為統一。

你說的統一是什麼意思?意味著理念的重疊嗎?

理念的重疊,原則的重疊。實際上,只有一、兩三個非常簡單的原則。然後它們幾乎以相同的方式應用於不同形式的不同問題。這就是為什麼如今,當有人在電腦視覺領域發表關於深度學習最佳化的改進論文時,它會改善不同的自然語言處理應用,也會改善不同的強化學習應用。所以我會說,電腦視覺和自然語言處理非常相似。

今天,它們的不同之處在於它們有稍微不同的架構。我們在自然語言處理中使用Transformer,在視覺中使用卷積神經網路。但也有可能有一天這會改變,一切都會用統一的架構來實現。因為如果你回到幾年前的自然語言處理,每個不同的小問題都有大量的架構。今天,所有這些不同的任務只有一個Transformer。如果你再往回看,你會發現更多的碎片化,人工智慧中的每個小問題都有自己的小專業化領域和一小部分人,他們知道如何設計特徵。現在,這一切都被深度學習所包含。我們實現了這種統一。

因此,我預期視覺會與自然語言也實現統一。或者,我不應該說預計。我認為這是可能的。我不想過於肯定,因為我認為卷積神經網路在計算上非常有效率。

強化學習是不同的。強化學習確實需要一些稍微不同的技術,因為你確實需要採取行動。你確實需要去探索。你的變異數要高得多。但我認為即便在這裡也存在著許多的統一性。而且我預計,在某個時候,會有一些強化學習和監督學習之間的廣泛統一,其中強化學習將做出決策,使監督學習變得更好。它將會是一個大的黑盒子,你只需把一切扔進去,它就會弄清楚該怎麼處理你扔進去的任何東西。

強化學習幾乎集合了語言和視覺的一些面向。它應該利用長期記憶的元素,它有一個非常豐富的感官空間。所以它看起來像是它們兩者的結合體或類似的東西。我會稍微不同地說。我會說,強化學習既非此也非彼,但它自然地與它們兩者介接並整合。

你認為行動是從根本上來說不同的嗎?所以,有趣的是,學習行動的策略有什麼獨特之處呢?例如,當你學會行動時,你基本上處於一個非靜態的世界,因為隨著你的行動改變,你看到的事物開始改變。你以不同的方式體驗世界,這在更傳統的靜態問題中是不存在的,在那裡你有一些分佈,你只是對那個分佈應用一個模型。你認為這是一個根本上不同的問題,還是說它只是理解問題的一個更困難的泛化?

這幾乎是一個定義問題。肯定有很多共性。你在兩種情況下都採取梯度,你試圖在兩種情況下近似梯度。在強化學習的情況下,你有一些工具來減少梯度的變異數。你這麼做。有很多共性。在兩種情況下,你都使用相同的神經網路。你計算梯度,在兩種情況下都應用Adam。所以,當然有很多共同點,但也有一些不完全無關緊要的小差異。這真的取決於你的觀點,你在觀察這些問題時要放大或縮小多少。

那麼,您認為哪個問題比較難呢?像諾姆·喬姆斯基這樣的人認為語言是一切的基礎,它潛在地支撐著一切。您認為語言理解比視覺場景理解困難,還是反之?我認為問問題是否困難是有些不妥的。我覺得這個問題有點問題,我想解釋一下原因。那麼,一個問題難的意義是什麼呢?對此的無趣且愚蠢的答案是,有一個基準,有一個人類水平的基準表現。那麼,要達到人類水準的基準需要多大的努力呢?從我們離達到一個非常好的基準的人類水準還有多遠的角度來看?

是的,我明白您的意思。所以我要說的是,很多時候這取決於,一旦您解決了一個問題,它就不再困難了。這總是成立的。所以,某事物是否困難取決於我們現在的工具能做什麼。那麼,您會說,現在,真正的人類水平語言理解和視覺感知是困難的,因為在接下來的三個月裡,沒有完全解決問題的方法。

我同意這個說法。除此之外,我的猜測和您的一樣準確,所以您對語言理解有多困難沒有根本性的直覺?

我想,我改變主意了。我會說語言可能更難。這取決於您如何定義。像如果您的意思是絕對的,頂尖的,100%的語言理解,我會選擇語言。但是,如果我給您看一張紙上的字母,那是,您明白我的意思嗎?您有一個視覺系統,您說這是最好的人類水平視覺系統。我給您看,我打開一本書,給您看字母。它會理解這些字母是如何組成單字和句子和意義的嗎?這是視覺問題的一部分嗎?視覺在哪裡結束,語言在哪裡開始?是的,喬姆斯基會說它從語言開始。所以視覺只是一種在我們的大腦中以某種方式透過語言表示的結構和基本思想層次的小例子。但是,視覺在哪裡停止,語言在哪裡開始?這真是個非常有趣的問題。

所以一種可能性是,要在圖像或語言中實現真正深刻的理解,基本上需要使用同樣類型的系統。所以您將免費獲得另一種。我認為很有可能,如果我們能得到其中一個,我們的機器學習可能已經足夠好,可以得到另一個。但我不能100%確定。

而且,我認為這確實很大程度上取決於您的定義。定義是什麼?完美的視覺。因為,閱讀是視覺的一部分,我的定義是,如果一個系統看了一張圖片,然後系統看了一段文本,然後告訴我一些事情,我感到非常震驚。那是相對的。您會在半小時內感到震驚,然後您會說,所有系統都這樣做。

但我對人類沒有這種感覺。人類一直讓我印象深刻。我是一位一夫一妻制的支持者。所以我喜歡和某人結婚,和他們在一起幾十年的想法。所以我相信,是的,有可能有人不斷地帶給你愉快的,有趣的,機智的新想法,朋友。是的,我認為如此。他們會繼續帶給你驚喜。驚喜,那種隨機性的注入似乎是一個很好的,持續的靈感來源,就像機智,幽默。我想,這是一個非常主觀的測試...

是的,我明白您的意思。是的,我覺得我誤解了您對打動您的意思。我以為您是說用它對圖像的理解程度,用它的智能來打動您。我以為您是說類似於,我會給它一個非常複雜的圖像,它會猜對,您會說,哇,這真的很酷。我們2020年1月的系統還沒有做到這一點。

所以就像幽默或機智或洞察力一樣。我相信我們也會得到這一點。所以原諒這個浪漫化的問題,但回顧一下,您認為在深度學習或AI領域,您遇到的最美麗或令人驚訝的想法是什麼?

我認為深度學習最美麗的事物是它真的有效。我這麼說是因為您有這些想法,您有小型神經網絡,您有反向傳播演算法,然後您有一些理論,這有點像大腦。所以也許,如果您讓神經網路變大,如果您在大量資料上訓練它,那麼它將執行大腦所做的相同功能。結果證明是真的。這太瘋狂了。

現在,我們只是訓練這些神經網絡,讓它們變得更大,它們就會變得越來越好。我覺得這簡直難以置信。這整個利用神經網路的AI的運作,我都覺得難以置信。

您是否建立了一種直覺,為什麼這整個事物會起作用,有沒有一些直覺或見解的碎片?

我想,確實有一些。我們知道,最佳化是行得通的,我們現在有很多實證的理由,讓我們相信大多數我們關心的問題上優化都應該有效。

您有為什麼會這樣的見解?你剛剛說了實證。所以大多數這種實證證據會讓您信服嗎?

這就像進化論是實證的。它告訴你,看,這個演化過程似乎是設計適應環境的有機體的好方法。但它真的沒有讓你了解整個事物是如何運作的。我認為一個好的類比是物理學。你會說,讓我們做一些物理計算,提出一些新的物理理論,做一些預測。但然後你得進行實驗。你得進行實驗。這很重要。所以這裡也有點類似,除了也許有時實驗在理論之前進行,但情況仍然如此。

你有一些數據,你提出一些預測。你會說,是的,讓我們製作一個大型神經網絡,讓我們訓練它。它會比以前任何東西都要好得多。而且事實上,隨著你使它變得更大,它將繼續變得更好。結果證明是真的。這真是令人驚奇,一個理論被這樣驗證,這不是數學理論,更像是生物學理論。所以我認為深度學習和生物學的類比並非都是不恰當的。我會說深度學習就像是生物學和物理學的幾何平均。那是深度學習。生物學和物理學的幾何平均。

我想我需要幾個小時來理解這件事。因為,只是要找出生物學代表的那套東西。嗯,生物學中,事物真的很複雜。而理論真的非常難以有很好的預測性。而在物理學中,理論太完美了。物理學家提出了這些超精確的理論,並做出了驚人的預測。而在機器學習中,我們則介於兩者之間。介於兩者之間,但如果機器學習能幫助我們發現兩者的統一而不是介於兩者之間,那會很好。但你說得對。你在試圖兩者兼顧。那麼,您認為神經網路中還有未被發現的美麗和神秘的屬性嗎?

絕對有。我認為我們仍然在很大程度上低估了深度學習。

您認為它會是什麼樣子?

如果我知道的話,我已經做到了。但如果您看看過去十年的所有進展,我會說其中大多數,確實有一些新的想法出現的情況。但整體而言,我們每年都認為,深度學習到此為止了。不,實際上它能走得更遠。然後第二年,現在這是深度學習的巔峰了。我們真的完成了。不,它還能走得更遠。它每年都在不斷向前發展。這意味著我們一直在低估。我們一直沒有理解它。它一直都有令人驚訝的屬性。

您認為取得進展變得越來越難了嗎?需要有進展嗎?

這取決於您的意思。我認為這個領域將會繼續穩健地發展很長一段時間。對於個別研究人員,尤其是那些正在進行研究的人來說,可能會更困難,因為現在研究人員非常多。我認為,如果您有大量的運算資源,那麼您可以進行很多有趣的發現,但然後您需要應對管理龐大的運算叢集來執行實驗的挑戰。這有點困難。

所以我在問這些沒人知道答案的問題,但您是我認識的最聰明的人之一,所以我會繼續問。那麼,讓我們想像一下,在未來30年中深度學習領域中發生的所有突破。您認為大部分的這些突破可以由一個人用一台計算機完成嗎?在突破領域,您認為計算和大規模努力會是必要的嗎?

我不能確定。當你說一台計算機時,你是指多大的計算機?

啊,你真機智。一個GPU。

我明白了。我認為這相當不太可能。我認為這相當不太可能。我認為深度學習的技術堆疊開始變得相當深了。如果你看看,從建立資料集的想法、系統,到分散式編程,建立實際的集群,GPU編程,將所有這些整合在一起。所以現在這個技術堆疊變得真的很深了。我認為對一個人來說,在技術棧的每個層面都做到世界級是相當困難的。

關於Vladimir Vapnik堅持採用MNIST並嘗試從很少的例子中學習,以更有效地學習,您認為在這個領域會有突破,而這可能不需要巨大的計算嗎?

我認為整體上會有很多不需要大量計算的突破。所以,也許我應該澄清這一點。我認為一些突破會需要大量的計算。而我認為建立實際執行任務的系統會需要大量的計算。這一點是相當明顯的。如果你想做X,而X需要一個巨大的神經網絡,你就得獲得一個巨大的神經網路。但我認為會有很多,我認為有很多小團體和個人可以完成的非常重要的工作的空間。

能否在深度學習的科學主題上談論您最近發表的一篇論文,即深度雙下降,其中更大的模型和更多的數據會受到傷害。我認為這是一篇非常有趣的論文。您能描述一下主要思想嗎?

是的,當然。所以情況是,這些年來,一些研究人員注意到,當你使神經網路變大時,它的表現會變得更好,這似乎與統計學的理論相矛盾。然後有些人進行了分析,顯示實際上出現了這個雙下降現象。我們所做的就是顯示實際上幾乎所有的實用深度學習系統都會出現雙重下降現象。

所以你能退後一步嗎?雙下降圖的X軸和Y軸是?

好的,很棒。所以,你可以做一些事情,例如,你可以拿一個神經網絡,然後慢慢地增加它的大小,同時保持你的資料集不變。所以,如果你慢慢地增加神經網路的大小,而且如果你不進行早停,這是一個相當重要的細節,那麼當神經網路真的很小的時候,你使它變大,你會得到性能的非常快速的提高。然後你繼續使它變大。在某個時刻,效能會變差。並且在它達到零訓練錯誤,精確的零訓練損失的時候,表現變得最差。然後當你繼續使它變大時,它開始再次變得更好。

這有點違反直覺,因為你會期望深度學習的現像是單調的。而且很難確定它意味著什麼,但它也出現在線性分類器的情況下。基本上直覺可以歸結為以下幾點。當你有一個大的資料集和一個小的模型時,然後小的、微小的、隨機的...

所以,基本上,什麼是過度擬合?

過度擬合是當你的模型以某種方式對資料集中的小的、隨機的、不重要的東西非常敏感時。確切地說,在訓練資料集中。所以,如果你有一個小模型,你有一個大數據集,可能會有一些隨機的東西,一些訓練案例可能會隨機地出現在資料集中,而其他的可能不會。但小模型對這種隨機性是相當不敏感的,因為當資料集很大時,模型基本上沒有不確定性。

所以,在最基本的層面上,對我來說,最令人驚訝的事情是,神經網路不是每次都很快就會擬合,而是在能夠學到任何東西之前。參數的數量非常龐大。所以有一種方式。讓我試著給出解釋,也許那會有用。所以你有一個巨大的神經網路。假設你有一個巨大的神經網絡,你有大量的參數。現在讓我們假設一切都是線性的,實際上並非如此。就這樣假設。然後這裡有一個大的子空間,你的神經網路在這個子空間內達到零錯誤。SGD會找出在該子空間內近似最小範數的點。並且這也可以被證明在資料的維度很高時對資料中的小隨機性是不敏感的。但是當資料的維度等於模型的維度時,所有的資料集和模型之間都存在著一一對應的關係。

所以資料集的小變化實際上會導致模型的大變化,這就是為什麼效能會變差。所以,這大致上是最好的解釋。所以,模型的參數會更多,所以比資料更大會更好。

您是對的。但這僅在您不早停的情況下適用。如果您在正規化中引入早停,您幾乎可以完全消除雙下降現象。

什麼是早停?早停是指您訓練模型時,並監控驗證效能。然後,如果某一時刻驗證性能開始變差,您就會說,好的,我們停止訓練,這已經足夠好了。所以,魔法就發生在那一刻之後,因此您不想早停。如果您不進行早停,您會得到一個非常明顯的雙重下降。

您對為什麼會發生這種情況有直覺嗎?

雙下降?所以…嗯,對。所以我試著…讓我們看看。直覺基本上是這樣的,當資料集與模型有同樣多的自由度時,它們之間存在著一一對應的關係。因此,對資料集的小改變會導致模型的顯著變化。所以,您的模型對所有的隨機性都非常敏感。它無法拋棄這些隨機性。然而,事實證明,當您擁有比參數多得多的數據,或比數據多得多的參數時,由此產生的解決方案將對數據集中的小變化不敏感。

所以,它能夠,我們可以很好地說,拋棄小的變化,隨機性。確切地說,這是您不希望的偽相關性。傑夫·辛頓(Jeff Hinton)建議我們需要重新考慮反向傳播。我們已經稍微討論過這個問題了,但他建議我們完全拋棄反向傳播,重新開始。當然,這有點是智慧和幽默的結合,但您怎麼看?訓練神經網路有什麼替代方法?

嗯,他確切地說的是,由於我們在大腦中找不到反向傳播,值得看看我們是否能從大腦學習的方式中學到一些東西。但反向傳播非常有用,我們應該繼續使用它。

哦,您是在說,一旦我們發現大腦中的學習機製或任何方面的機制,我們也應該嘗試在神經網路中實現它?

如果我們在大腦中找不到反向傳播的話。如果我們在大腦中找不到反向傳播。嗯,所以我猜您對此的回答是反向傳播非常有用。那我們為什麼還要抱怨呢?

我個人非常喜歡反向傳播。我認為這是一個偉大的演算法,因為它解決了一個極其基礎的問題,即在一些約束條件下找到一個神經迴路。而我不認為這個問題會消失。所以,這就是為什麼我認為我們之間不太可能有什麼巨大的差異。這可能會發生,但我現在不會打賭。

所以,讓我問一個大致的問題。您認為神經網路能夠推理嗎?

為什麼不能呢?嗯,如果您看一下AlphaGo或AlphaZero,AlphaZero的神經網路比99.9%的人類更擅長下圍棋,我們都同意圍棋是一種需要推理的遊戲。只是神經網絡,不使用搜索,只是神經網路本身。這不就給我們提供了一個存在證明,證明神經網路能夠推理嗎?

稍微反駁並不同意一點,我們都同意圍棋是推理。我認為我同意。我不認為這是一個瑣碎的……顯然,推理和智能有點像是一個模糊的灰色地帶。也許您不同意這一點。但是,是的,我認為它具有一些相同的推理元素。推理幾乎類似於搜索,對吧?這是一個順序的元素,逐步考慮可能性,並在這些可能性的基礎上順序建立,直到您獲得一些洞見。所以,是的,我猜下圍棋就是這樣。當您有一個單一的神經網路在沒有搜尋的情況下做這件事時,這就是這樣的事情。所以,在一個特定的受限環境中,存在著許多人稱之為推理的過程。但更一般的推理,就是說,離開棋盤。還有另一個存在證明。

那麼,您認為將允許神經網路推理的架構是否會與我們今天擁有的神經網路架構相似?

我認為會。我不想做出過於絕對的聲明。我認為未來產生推理突破的神經網路架構很可能與今天存在的架構非常相似。也許更多的是循環的,也許更深。但這些神經網路是如此強大。為什麼它們不能學會推理呢?人類可以推理,為什麼神經網路不能呢?

所以您認為我們看到神經網路做的事情只是一種弱推理?所以,這不是一個根本不同的過程?

再次強調,沒有人知道這個問題的答案。當談到我們的神經網路時,我想說的是,神經網路具有推理能力。但是,如果你訓練神經網路執行不需要推理的任務,它就不會進行推理。這是一個眾所周知的效應,即神經網路會以可能的最簡單的方式解決你擺在它面前的問題。

對,這讓我們想到了你描述神經網路的一種絕妙方式,你將神經網路稱為尋找小電路的過程,而將通用智慧視為尋找小程式的過程,這個比喻我覺得非常引人入勝。能詳細解釋一下這種差異嗎?

是的。所以,我確切地說過,如果你能找到最短的能輸出你手頭數據的程序,那麼你將能夠用它做出最佳的預測。這是一個可以數學證明的理論聲明。現在,你也可以數學證明,找到產生某些資料的最短程式不是一個可計算的操作。沒有有限量的運算能力能做到這一點。

因此,對於神經網路來說,神經網路是實際上可行的次優方案。我們無法找到產生我們的數據的最佳、最短程序,但我們能夠找到以某種方式適應我們數據的小(現在應該修正為大)電路。我認為,你所說的小電路是指最小所需電路。我現在會改變的一點是,那時我還沒有完全內化過參數化的結果,我們對過參數化神經網絡的了解,現在我會把它描述為一個大電路,其權重包含少量信息,我認為這就是實際情況。如果你把神經網路的訓練過程想像成你慢慢地從資料集傳遞熵到參數,那麼權重中的資訊量最終不會很大,這就解釋了為什麼它們能夠如此好地泛化。所以,大電路可能有助於泛化。

是的,就是這樣。但你認為嘗試學習類似程式的東西重要嗎?

如果我們能做到,當然了。我認為答案大概是肯定的,如果我們能做到的話。我們應該做我們能做的事情。我們之所以推崇深度學習,根本原因、根源在於我們能夠訓練它們。換句話說,訓練是首要的。我們有了訓練這個支柱。現在我們正試圖將我們的神經網路圍繞著訓練支柱扭曲。我們必須保持可訓練性。這是我們不能違反的不變性。因此,保持可訓練性意味著從零開始,一無所知。你實際上可以相當快地收斂到知道很多,甚至慢慢地。但這意味著,鑑於你手邊的資源,你可以訓練神經網絡,使其達到有用的效能。

是的,我們不能離開這個支柱。沒錯。因為如果你說,讓我們找出最短的程式。我們做不到。所以,無論那會多有用,都沒關係。我們做不到。所以我們不會做。那麼,你認為,你提到神經網路擅長尋找小電路或大電路。那麼,尋找小程式的問題就只在於資料嗎?

不是。抱歉,不是大小或性質,而是資料的類型。比如說,給它程式。我認為現在的情況是,還沒有好的先例表明人們真正能夠很好地找到程序。因此,你找程式的方式就是訓練一個深度神經網路來做得更好。基本上是這樣。對,這是正確的方法。但還沒有好的例證。這還沒做到。但從原理上講,這應該是可能的。

能詳細解釋一下嗎?從原理上講,你有什麼見解?換句話說,你不明白為什麼這是不可能的。

這更像是一個聲明,我認為,我認為對深度學習持懷疑態度是不明智的。如果這是人類似乎能夠做到的一種認知功能,那麼,不久就會出現某個能做到這一點的深度神經網路。

是的,我和你在一起。我可以,到目前為止,我已經停止對神經網路持懷疑態度了,因為它們一直在帶給我們驚喜。那麼長期記憶呢?神經網路能夠擁有長期記憶或類似知識庫嗎?也就是說,能夠在長時間內累積重要訊息,然後作為有用的狀態表示,以便你可以依此做出決策。

所以,根據你所做的決定,有一個長期的脈絡。從某種意義上說,參數已經做到了這一點。參數是神經體驗的全部的聚合。因此,它們被視為長期知識。人們已經訓練了各種神經網路來充當知識庫,人們已經研究了語言模型作為知識庫。

是的,確實有相關的研究工作正在進行中。你認為這完全只是一個問題,找到一個更好的機制來遺忘無用的東西,記住有用的東西嗎?

因為目前,還沒有機制能夠準確地記住長期的資訊。「準確地」是什麼意思?我確實喜歡“準確”這個詞。所以我在想,這種壓縮資訊的方式,就像知識庫所代表的,創造一種,現在我為我以人為本的思考方式道歉,因為神經網路不一定能解釋他們發現的知識類型。但對我來說,一個很好的例子就是知識庫,能夠隨著時間的推移建立起類似維基百科所代表的知識。這是一個非常壓縮、結構化的知識庫。顯然不是實際的維基百科或語言,而更像是語義網,語義網所代表的夢想。所以這是一個非常好的壓縮知識庫,或是神經網路以非解釋性的方式所具有的類似東西。

神經網路如果你觀察它們的速率,它們會是非解釋的,但它們的輸出應該是非常可解釋的。好的,那麼,你是如何使非常聰明的神經網絡,例如語言模型,變得可解釋的呢?你讓它們產生一些文本,文本通常是可以解釋的。你覺得這是解釋性的極致嗎,還能做得更好嗎?因為你不能,好的,我想知道它知道什麼,不知道什麼。我希望神經網路能夠舉出一些例子,它完全愚蠢的例子和完全聰明的例子。而我現在唯一知道的方法就是產生大量的例子,用我的人類來判斷。但如果神經網路有一些自我意識,那就太好了。是的,我非常相信自我意識。我認為神經網路的自我意識將允許實現諸如你所描述的能力,讓它們知道它們知道什麼,不知道什麼,讓它們知道在哪裡投資可以最佳化地提高它們的技能。

至於你關於可解釋性的問題,實際上對這個問題有兩個答案。一個答案是,我們有神經網絡,所以我們可以分析神經元,我們可以試著理解不同的神經元和不同層的意義。你實際上可以這樣做,OpenAI已經做了一些這方面的工作。

但有另一個不同的答案,我會說,這是一個以人為本的答案,你看著一個人,你不能讀懂,你怎麼知道一個人在想什麼?你問他們,你說,你對這件事有什麼看法?你對那個有什麼看法?你得到了一些答案。你得到的答案在某種意義上是黏性的,你已經有了一個心智模型。你已經有了對那個人的理解,對那個人的大概念,他們如何思考,他們知道什麼,他們如何看待世界。然後你問的每一件事,你都在添加到那個模型上。這種黏性似乎是,這是人類真正有趣的品質之一,資訊是黏性的。你似乎記住了有用的東西,很好地整合了它,忘記了大多數無用的信息。

這個過程,也與神經網路做的過程非常相似。只是神經網路在這個時候要差得多。它們似乎並沒有從根本上有什麼不同。但為了更長時間地堅持推理,你說,為什麼不呢?我為什麼不能推理呢?

你心目中有什麼好的、令人印象深刻的推理基準,如果神經網路能做到,你會對此印象深刻嗎?你已經有了嗎?

我認為編寫非常好的程式碼。我認為證明非常困難的定理,解決具有開創性解決方案的開放性問題。還有定理類型的數學問題。是的,我認為這些也是非常自然的例子。如果你能證明一個未經證明的定理,那就很難說不推理了。順便說一句,這也回到了關於硬結果的問題。機器學習,深度學習作為一個領域是非常幸運的,因為我們有能力有時產生這些無可爭議的結果。當它們發生時,辯論就會改變,對話就會改變。我們有能力產生改變對話的結果。然後,就像你說的,人們會認為這是理所當然的,說那其實不是一個難題。

嗯,有一天,我們可能會耗盡難題。是的,死亡問題確實是我們還沒有完全弄清楚的棘手問題。也許我們會解決那個問題。

在你的整個工作中,但也是最近在OpenAI的工作中,其中一個改變了對話的事情,就是在語言模型的世界。你能簡要地試著描述一下在語言和文字領域使用神經網路的近期歷史嗎?

歷史有很多。我認為Elman網路是一種小型的、微型的遞歸神經網絡,應用於80年代的語言。所以歷史真的,至少是相當長的。改變了神經網路和語言的軌跡的事情,是改變了所有深度學習的軌跡,那就是數據和計算。所以突然之間,你從小型語言模型轉變為學到一些東西的模型。特別是對於語言模型,有一個非常清晰的解釋,為什麼它們需要大才能變好。因為它們試圖預測下一個單字。

當你一無所知時,你會注意到非常、非常寬泛的筆觸,表面層次的模式,例如,有時會有字符,而這些字符之間有空格。你會注意到這種模式。你會注意到有時會有一個逗號,然後下一個字元是一個大寫字母。你會注意到這種模式。最終,你可能開始注意到有某些字經常出現。你可能注意到拼字是一種東西。你可能會注意到語法。當你在所有這些方面都變得非常擅長時,你開始注意到語義。你開始注意到事實。但要實現這一點,語言模型需要更大。

那麼,我們就花點時間討論一下,因為這是你和諾姆·喬姆斯基意見不一致的地方。所以你認為我們實際上正在採取逐步的步驟,更大的網絡,更大的計算能力將能夠。理解語義,理解語言。而不是諾姆喜歡認為的,對語言結構的基​​本理解,例如將你的語言理論強加在學習機制上。所以,你在說,你可以從原始資料中學習,這是語言所基於的機制。

嗯,我認為這很有可能。但我也想說,我不確切知道喬姆斯基談論他時是什麼意思。你說了一些關於將你的結構強加於語言的事情。我不能百分之百確定他是什麼意思。但從經驗上看,當你檢查那些更大的語言模型時,它們表現出了理解語義的跡象,而較小的語言模型則沒有。

我們在幾年前做情緒神經元的工作時看到了這一點。我們訓練了一個較小的LSTM來預測亞馬遜評論中的下一個字元。我們注意到,當你將LSTM的大小從500個LSTM細胞增加到4000個LSTM細胞時,其中一個神經元開始表示評論的情緒。這是為什麼呢?情感是一個相當語意的屬性。這不是一個語法屬性。

對於可能不知道的人來說,我不知道這是不是一個標準術語,但情緒是指評論是正面還是負面。沒錯。這個人對某件事感到滿意,還是不滿意?所以在這裡我們有非常明確的證據,一個小的神經網路並沒有捕捉情感,而一個大的神經網路則有。

這是為什麼呢?嗯,我們的理論是,在某一點上,你會耗盡模型的語法,你開始關注別的東西。隨著大小的增加,你很快就會耗盡模型的語法,然後你真的開始專注於語義。這就是這個想法。沒錯。所以,我不想暗示我們的模型有完整的語意理解,因為那不是事實。但他們確實表現出了語義理解的跡象,部分語義理解。但較小的模型並沒有表現出這些跡象。

你能退一步,說說什麼是GPT-2,這是過去幾年改變了對話的大型語言模型之一嗎?

是的,GPT-2是一個擁有十五億參數的Transformer。它是在大約400億個來自Reddit文章連結的網頁文字上進行訓練的,這些文章得到了三個以上的讚。

那什麼是Transformer?Transfomer,這是近年來神經網路結構最重要的進展。什麼是注意力?因為我認為這是一個有趣的概念,不一定是從技術上講,但注意力的概念可能與循環神經網路代表的內容有所不同。是的,事實上,Transformer是同時結合了多種概念的組合,其中註意力是其中之一。

你認為注意力是關鍵嗎?

不,它是一個關鍵,但它不是唯一的關鍵。Transformer之所以成功,是因為它是多個概念的同時結合。如果你去掉其中任何一個概念,它就會不那麼成功。所以,Transformer使用了大量的注意力,但注意力已經存在了幾年,所以那不可能是主要的創新。Transformer的設計使得它在GPU上運作得非常快。這產生了巨大的影響。這是一點。第二點是,Transformer不是循環的。這也非常重要,因為它更淺層,因此更容易優化。

所以,換句話說,它使用了注意力。它非常適合GPU。它不是循環的,因此較為淺層且易於優化。這些因素的結合使它成功。所以,現在它充分利用了你的GPU。這使你能夠在相同的計算量下獲得更好的結果。這就是它成功的原因。

你對Transformer的工作效果和GPT-2的工作效果感到驚訝嗎?所以,你一直在研究語言。在Transformer出現之前,你就有了很多偉大的想法。所以,你看到了之前和之後的一整套革命。你感到驚訝嗎?

是的,有一點。

有一點嗎?

是的。

我記得的確很難,因為人很快就適應了。但它確實令人驚訝,

事實上,你知道嗎?我要收回我的話。那真的很令人驚嘆,看到這樣的文字生成實在是令人驚奇。而且,你要知道,那時候,我們見證了生成對抗網路(GANs)的所有進步。

GANs產生的樣本令人驚訝,有這些逼真的臉孔,但文字的進展並不真正那麼大。突然間,我們從2015年的GANs走到了最好的、最令人驚嘆的GANs,這真的令人震驚。儘管理論預測,是的,你訓練了一個大型語言模型,當然,你應該得到這個。但親眼看到它又是另一回事。

然而,我們真的很快就適應了。現在有一些認知科學家寫文章說GPT-2模型並不真正理解語言。所以我們很快就適應了它們能夠如此好地建模語言的事實。

那麼,你認為標準是什麼?你認為這個標準會不斷提高嗎?

絕對會。我認為當你開始看到真正顯著的經濟影響時,那就是…在某種意義上,我認為那是下一個障礙。因為現在,如果你考慮AI的工作,它真的很令人困惑。所有這些進展真的很難了解。有點像,你有了進步。現在你可以做更多的事情。你有了另一個改進。你有了另一個很酷的演示。在某個時候,我認為不搞AI的人已經無法區分這個進展了。

我們在線下談論了將俄語翻譯成英語,以及世界上其他地方不知道的俄國有很多出色的工作。中文也是如此。這對許多科學家和一般的藝術作品來說都是真的。你認為翻譯是我們將看到經濟大影響的領域嗎?

我不知道。首先,我想指出的是,翻譯今天已經很重要了。我認為數十億人主要透過翻譯與網路的大部分互動。所以翻譯已經很重要了。而且它也非常積極。我認為自動駕駛將會產生巨大的影響。而且不知道什麼時候會發生。但同樣,我不會對深度學習下注。所以那整體來說是深度學習。

只是檢查一下,你沒有看到駕駛和語言之間的連結嗎?

不。或者說,兩者都使用了神經網路。那會是一個詩意的聯繫。我認為可能會有一些…像你說的,可能會有一種統一,一種能夠處理語言和視覺任務的多任務Transformer。那會是一個有趣的統一。現在,讓我看看。我還能問GPT-2什麼呢?它很簡單。所以沒有什麼好問的。所以你採用一個Transformer,使其變得更大,給它更多的數據,突然間它就能做所有這些了不起的事情。

是的,GPT的美妙之處之一是,Transformer基本上很容易解釋,很容易訓練。你認為在語言方面,更大會繼續表現出更好的結果嗎?

可能會。

GPT-2的下一步是什麼,你認為?

我認為肯定看到更大版本能做什麼是一個方向。而且,還有很多問題。有一個問題我很好奇,那就是:現在,GPT-2,我們把網路上的所有資料都餵給它,這意味著它需要記住網路上關於一切的所有隨機事實。如果模型能夠以某種方式使用它自己的智能,決定它想要接受什麼數據,拒絕什麼數據,那會很好。

就像人們一樣。人們不是無差別地學習所有數據。我們對我們學習的內容非常挑剔。我認為這種主動學習會很好。

我喜歡主動學習。讓我問一下,數據的選擇…可以再詳細解釋嗎?你認為數據的選擇是…

我有一種感覺,優化你選擇數據的方式,所以主動學習的過程,將是未來很多突破的地方,即使是在不遠的未來。因為那裡還沒有公開的很多突破。我覺得可能有一些公司保密的私人突破,因為如果你想解決自動駕駛,如果你想解決特定的任務,基本問題必須解決。

你對這個領域整體有什麼看法?

是的,所以我認為對於像主動學習這樣的東西,或者實際上對於任何像主動學習這樣的能力,它真正需要的是一個問題。它需要一個需要它的問題。如果你沒有任務,那麼做研究是很困難的,因為那樣會發生的是,你會提出一個人工任務,取得好的結果,但並不能真正說服任何人。對,我們現在已經過了在MNIST上獲得結果,某種巧妙的MNIST公式會說服人們的階段。

確實如此。事實上,你很容易就能建立一個簡單的在MNIST上應用的主動學習方案,並實現10倍的加速,但那又有何意義呢?我認為,隨著需要主動學習的問題的出現​​,主動學習會自然而然地產生。這是我的看法。

OpenAI在GPT-2上提出了另一個有趣的問題,當你創造了一個強大的人工智慧系統,發布GPT-2後,其負面效應並不清晰。因為如果你有一個能夠產生相當真實文字的模型,你可以想像它會以我們無法想像的方式被某些機器人使用。所以,人們對它可能做什麼感到緊張。因此,你真的做了一件非常勇敢且深刻的事情,就是開始了這個討論。我們該如何向大眾發布強大的人工智慧模型?如果我們這樣做,我們該如何與他人,甚至是競爭對手私下討論如何管理這些系統的使用等等?總的來說,你有從中獲得任何洞見嗎?

我的看法是,人工智慧領域一直處於童年狀態,現在逐漸走向成熟。這意味著人工智慧非常成功,也產生了巨大影響,這種影響不僅廣泛,而且還在成長。因此,有理由在發布系統之前開始考慮其影響。寧願早做考慮,不要晚做。就像我之前提到的GPT-2一樣,結果確實令人震驚,人們覺得GPT-2很可能容易被用來降低假資訊的成本。所以,發布的最佳方式是什麼,分階段發布似乎是合理的。一個小模型被發布了,然後有時間看到……許多人以許多酷炫的方式使用這些模型。有很多真正酷炫的應用。我們所知道的,還沒有任何負面應用,所以最終它被發布了。但同時,也有其他人複製了類似的模型。不過,我們所知道的,這是一個有趣的問題。

在你看來,分階段發布至少是我們創建了這樣一個系統後該怎麼辦問題的部分答案嗎?

這是答案的一部分,是的。

還有其他洞見嗎?假設你根本不想發布模型,因為它對你的業務有用。很多人已經不發布模型了。對,當然。但當你擁有一個非常強大的模式時,是否存在一些道德、倫理責任要溝通呢?正如你所說,當你有了GPT-2,它能夠被用於虛假資訊的程度並不清晰。這是一個懸而未決的問題,要回答這個問題,你可能需要與你的團隊之外的其他非常聰明的人交流。請告訴我,世界各地的人們在這類案例上合作有一些樂觀的途徑嗎?或者,一家公司與另一家公司交談仍然很困難嗎?

這當然是可能的。與其他地方的同事討論這類模型並了解他們的看法是完全可能的。

但這有多困難呢?我的意思是……你看到這種情況發生了嗎?

我認為,在公司之間逐漸建立信任是很重要的。因為歸根究底,所有AI開發者都在開發越來越強大的技術。所以……可以這樣認為,我們最後都是共同體。是的,我傾向於相信我們本性中更好的一面,但我確實希望,當你在某個領域建立了一個非常強大的AI系統時,你也會考慮潛在的負面後果。這是一個有趣又令人恐懼的可能性,即會有一場推動人們關閉開發並不與他人分享想法的AI開發競賽。

我不喜歡這一點。我已經是純粹的學者有10年了。我真的喜歡分享想法,這很有趣,令人興奮。

(註:有趣的是,後面OpenAI和Ilya走了一條相反的路)

讓我們稍微談談AGI。你認為建構一個具有人類智慧水平的系統需要什麼?我們談到了推理,我們談到了長期記憶。但總的來說,你認為需要什麼?

嗯,我不能確定。但我認為深度學習加上也許還有另一個小想法。你認為自我對弈會參與其中嗎?就像你提到的,自我對弈是一種強大的機制,系統透過在競爭性環境中探索世界,與具有類似技能的其他實體進行對弈,從而逐步提高。

您認為自我對弈會是建構具有人工智慧的系統的一個組成部分嗎?

是的。我認為要建立具有人工智慧的系統,我們需要的是深度學習加上一些創新思維。我相信自我對弈會是其中之一。自我對弈具有一種令人驚訝的特性,它能以真正新穎的方式帶給我們驚喜。例如,幾乎每個自我對弈系統,無論是我們的Dota機器人,還是OpenAI發布的有關多代理的系統,其中有兩個小代理在玩捉迷藏遊戲,當然還有AlphaZero,它們都會展現出令人驚訝的行為。這些都是我們沒預料到的行為,它們是對問題的創意解決方案。這看起來像是我們的系統目前不常展現的,但在人工智慧中卻十分重要的一部分。正因為如此,我喜歡這個領域,喜歡它帶給我們驚喜的方向。人工智慧系統會從根本上帶給我們驚喜。確切地說,不僅僅是隨機的驚喜,而是找到一個令人驚訝但有用的問題解決方案。

目前,大量的自我對弈機制都是在遊戲背景下,或至少在模擬環境中使​​用的。您認為在模擬環境中我們將如何朝著人工智慧的道路前進?您對模擬與系統在真實世界中的操作有多少信心和期望,無論是在數位真實世界的數據,還是在實際物理世界的機器人方面?

我不認為這是非此即彼的問題。我認為模擬是一種工具,它有助於我們。它有一定的優點和缺陷,我們應該利用它。

是的,我明白了。但是,自我對弈和強化學習的一項批評是,儘管目前的成果令人驚嘆,但這些成果大多都是在模擬環境或非常受限的物理環境中展現的。您認為有可能逃離模擬環境,能夠在非模擬環境中學習嗎?或者,您認為也有可能以逼真的方式模擬真實世界,從而用模擬中的自我對弈解決實際問題嗎?

我認為從模擬到真實世界的轉換絕對是可能的,許多不同的團隊已經多次展示了這一點。這在視覺方面尤其成功。此外,OpenAI在夏季展示了一個完全在模擬中訓練的機器人手,這使得模擬到真實的轉換成為可能。

這是用於魔術方塊的嗎?

是的,沒錯。我不知道那是在模擬中訓練的。實際上,它完全是在模擬中訓練的。

真的嗎?那麼,在物理學方面,這隻手沒有經過訓練嗎?

不,訓練100%是在模擬中完成的。在模擬中學到的策略被訓練得非常適應。適應到了當您轉移它時,它可以非常快速地適應物理世界。

那種用長頸鹿或其他東西做的擾動是模擬的一部分嗎?

嗯,模擬大體上……模擬被訓練得對許多不同的事物都很穩健,但不包括我們在視頻中出現的那種擾動。它從未與手套一起訓練過,也從未與填充長頸鹿一起訓練過。

所以,從理論上講,這些都是新的擾動?

正確。這不是理論上的,是實際操作中的。

這些都是新的擾動?

是的,沒問題。這是一個從模擬世界到物理世界的小規模但清晰的轉換範例。是的,我還要說,我預期深度學習的轉移能力會普遍提高。轉移能力越強,模擬就會變得越有用。因為那時你可以在模擬中體驗到一些事情,然後學到一個故事的寓意,然後帶到真實世界。就像人們在玩電腦遊戲時一直在做的那樣。

讓我問一個與人工智慧有關的具體問題。您認為人工智慧系統需要有一個身體嗎?我們需要有一些人類的自我意識、意識、對死亡的恐懼、在物理空間中的自我保護等元素嗎?

我認為有一個身體會很有用。我不認為這是必要的。但是,我認為有一個身體肯定是很有用的,因為你可以學到一些沒有身體無法學到的東西。但同時,我認為即使你沒有身體,你也可以彌補它並仍然獲得成功。

您這樣認為嗎?

是的,確實有證據支持這個觀點。舉例來說,有許多人從出生開始就是聾啞的,但他們能夠彌補這種缺陷。我這裡特別指海倫凱勒(Helen Keller)。因此,即便你無法與世界進行物理互動,我其實是在談論…

也許我該更具體地問……我不確定這是否與擁有身體有關,但是有意識的概念,更為有限的版本是自我意識。您認為一個AGI(通用人工智慧)系統應該擁有意識嗎?

我們無法定義意識,無論您如何理解意識。是的,鑑於定義起來非常困難,這個問題很難回答。

您認為思考這個問題有意義嗎?

這絕對很有趣,令人著迷。我認為我們的系統可能會有意識,這絕對是可能的。

您認為這是一種突然出現的東西,來自於您的網路中儲存的表示?當您能夠越來越多地表現出世界時,它自然就會出現。

嗯,我會提出以下論點,即人類是有意識的。如果您認為人工神經網路與大腦足夠相似,那麼至少應該存在一些我們認為是有意識的人工神經網路。您在這個存在證明上依賴得相當重。

但這是我能給的最好答案。我知道,大腦是否擁有我們還不了解的某種魔力,仍是一個懸而未決的問題。我的意思不是一種非物質的魔力,而是大腦可能比我們想像的要複雜得多,也更有趣。如果是這樣的話,那麼它應該會顯現出來。在某個時候,我們會發現我們無法繼續取得進展。我認為這是不太可能的。

所以我們討論了意識,但是讓我來談談另一個對智能的含糊不清的概念。同樣,我們談論了推理,我們討論了記憶。您認為對您來說,什麼是測試智能的好方法?您對艾倫圖靈提出的模仿遊戲,用自然語言測試,印像如何?在您的腦海中,如果一個系統能夠做到,會讓您深感印象嗎?

有很多事情。現在存在著一定的能力邊界,也存在著這個邊界之外的事物。任何這樣的事情我都會覺得印象深刻。例如,我會為一個深度學習系統印象深刻,它解決了一個非常平常的任務,例如機器翻譯或電腦視覺任務,而在任何情況下都不會犯人類不會犯的錯誤。我認為這是一種尚未展示過的東西,我會覺得非常印象深刻。

是的,所以現在他們犯不同的錯誤。他們可能比人類更準確,但仍然會犯下不同的錯誤。因此,我猜測人們對深度學習的一些懷疑來自於他們觀察到的錯誤,他們會說,嗯,這些錯誤毫無道理。如果你理解了這個概念,你就不會犯這樣的錯誤。是的,我認為改變這一點會激勵我。那會讓我覺得,是的,這是進步。是的,這是一種很好的表達方式。

但我也不喜歡人們本能地批評一個模型不夠聰明。這和我們批評任何一群生物是外來者的本能是一樣的。因為很有可能GPT-2在許多事情上比人類聰明得多。這絕對是真的。它有著更廣泛的知識。是的,更廣泛的知識,甚至可能在某些主題上更深入。

評判深度的含義有點困難,但人類絕對不會犯下這些模型所犯的錯誤,這是確實存在的。是的,這同樣適用於自動駕駛汽車。這可能會繼續被應用於許多人工智慧系統。我們發現,這是令人討厭的事。這是21世紀分析AI進展的過程,尋找一個系統在人類不會的情況下大大失敗的案例。然後許多人就此寫文章。然後,大眾普遍會相信該系統不夠聰明。我們透過這個案例安慰自己,認為它不夠聰明。這似乎會繼續發生。

是的,我是同意這個觀點的。雖然我敢肯定也有很多人對今天存在的系統印象深刻。但我認為這與我們之前討論的一個觀點有關,那就是評判AI進展真的很困惑。當您有一個新機器人展示某個東西時,您應該有多印象深刻?我認為一旦AI開始真正推動GDP的成長,人們就會開始印象深刻。您是OpenAI中可能創造AGI系統的人之一。如果您真的創造了一個AGI系統,並且有機會與它,他,她度過一個晚上,您覺得會談論什麼?

第一次?第一次的話,我會問各種問題,試著讓它犯錯。我會對它不犯錯誤感到驚訝,並繼續提出寬泛的問題。

您認為會提出哪些問題,這些問題是事實性的,還是個人的、情緒的、心理的呢?您怎麼看?答案可能包含以上所有可能性。您會尋求建議嗎?

絕對會。我的意思是,為什麼我會限制自己與這樣一個系統溝通呢?

再次強調,您確實可能是這歷史性時刻見證人之一。那麼,讓我問一個較為深刻的問題,我剛剛與一位史達林歷史學家交談過,也與許多研究權力的人士交談過。亞伯拉罕·林肯曾說:「幾乎所有人都能忍受逆境,但如果你想測試一個人的性格,就給他權力。」我認為21世紀,也許是22世紀,但希望是21世紀的權力,將是創造一個AGI系統,並直接擁有和控制這個AGI系統的人。那麼,在與AGI系統交流了一個晚上後,您認為會採取什麼行動呢?

我希望想像的理想世界是人類像公司董事會成員一樣的世界,AGI就是CEO。我想像的畫面是,有不同的實體、不同的國家或城市,人們投票決定代表他們的AGI應該做什麼,然後這個代表他們的AGI就會去執行。我覺得這樣的畫面非常吸引人。可以有多個AGI,每個城市、每個國家都可以有一個AGI,試圖將民主過程提升到一個新的層次。董事會始終可以解僱CEO,可以說,重新設置,重新隨機化參數。

這確實是一個美麗的願景,只要能夠重新設定就好。您認為能一直重新設定嗎?

我認為絕對有可能建立這樣的系統。所以,您提出的問題實質上是,人類會控制他們所建造的AI系統嗎?是的。我的回答是,絕對有可能建造願意被人類控制的AI系統。這是他們存在的目標之一。他們不僅不得不被控制,而且存在的目的之一就是被控制。就像人類父母通常想幫助他們的孩子一樣,他們希望孩子成功。這對他們來說不是負擔。他們很樂意幫助孩子,餵養他們,給他們穿衣,照顧他們。我堅信,AGI也會如此。我們可以這樣編程AGI,設計它,使其具有類似的深層驅動力,樂於實現這一驅動力。這個驅動力就是幫助人類繁榮。

但讓我退後一步,回到創造AGI系統的那一刻。我認為這是一個至關重要的時刻。在那一刻與董事會成員和AGI首長之間,必須有權力的交接。自從喬治華盛頓以來,儘管他做了很多壞事,但他做的一件大事就是他放棄了權力。首先,他不想當總統。即便當上了總統,他也沒有像大多數獨裁者那樣無限期地連任。您認為自己能放棄對AGI系統的控制嗎,考慮到您可以對世界有多大的權力?首先,從財務上講,可以賺很多錢,對嗎?然後,透過擁有AGI系統來控制。

我覺得放棄這種權力是小事一樁。我的意思是,您描述的這種情況聽起來讓我恐慌。我絕對不想處於那種位置。

您認為自己代表的是AI社群中的多數人還是少數人呢?

嗯,這是一個開放性問題,也是一個重要議題。這另一種提問方式是,大多數人都是好人嗎?所以,我不知道大多數人是否善良,但我認為,在關鍵時刻,人們可以比我們想像得更好。

這麼說非常好。您能想到確保AI基因價值與人類價值一致的具體機制嗎?您是否考慮了我們在開發AI系統過程中持續保持一致性的問題?

是的,絕對考慮了。從某種意義上說,您提出的問題可以翻譯為當今的問題,即如何讓一個優化了學習到的價值函數的強化學習代理。如果你看看人類,人類就是這樣,因為人類的獎勵函數、價值函數不是外在的,而是內在的。確實如此。有一些明確的想法,關於如何訓練價值函數,基本上是一個目標,盡可能客觀的感知系統,將分別被訓練來識別、內化人類對不同情境的判斷。然後,這個組件將被整合為一些更有能力的強化學習系統的基礎價值函數。您可以想像這樣一個過程。我不是說這就是過程,我是說這是您可以做的事情的一個例子。

在探討人類存在的目標函數這個主題上,您認為人類存在著隱含著什麼樣的目標函數?生命的意義是什麼?

哦,我認為這個問題在某種程度上是錯誤的。這個問題暗示著存在一個客觀答案,這是一個外在的答案。你的生命意義是x。我認為真正的情況是,我們存在,這本身就令人驚嘆。我們應該盡量充分利用它,並在我們存在的這段短暫時光中,盡量提高我們的價值和享受。

有趣的是,行動確實需要一個目標函數。它以某種形式肯定存在,但是要明確表達它是困難的。我猜你想說的是,也許無法明確表達它。這是強化學習環境中的一個有趣事實。但是,我提出的是一個稍微不同的觀點。就是人們有所渴求,他們的渴求產生了驅使他們的動力…

我們的渴求就是我們的目標函數,我們個人的目標函數。我們可以在後來決定我們想要改變,我們之前想要的已經不再好,我們想要別的。是的,但它們是如此動態。一定有某種潛在的佛洛伊德式的東西。有一些事情,有一些性方面的東西。有些人認為這是對死亡的恐懼。還有對知識的渴望和所有這些類型的事情,繁衍生息,所有的進化論論點。似乎可能存在某種基本的目標函數,一切都從中湧現。但是,明確表達它似乎非常困難。

我認為可能存在一種演化目標函數,就是生存、繁衍後代並使你的孩子成功。這是我的猜測。但這並沒有回答生命的意義是什麼這個問題。我認為你可以看到人類是這個大過程的一部分,這個古老的過程。我們存在於一個小行星上,僅此而已。既然我們存在了,就盡量充分利用它,盡量讓我們多享受,減少痛苦。

讓我問兩個關於生活的愚蠢問題。一,你有遺憾嗎?如果回到過去,有些時刻你會做得不同嗎?二,有沒有讓你感到特別驕傲,讓你真正快樂的時刻?

我可以回答這兩個問題。當然,我做了大量的選擇和決定,如果能夠事先知道結果,我本來不會那麼做。我確實有一些遺憾,但我試著從我當時盡了最大努力的知識中得到安慰。在我為之驕傲的事情方面,我很幸運,做了一些我為之驕傲的事情。它們讓我有一段時間很快樂,但我不認為那是幸福的來源。

那麼,你在學術上的成就,所有的論文,你是世界上被引用最多的人之一。我提到的所有電腦視覺和語言方面的突破。對您來說,幸福和驕傲的泉源是什麼?

我的意思是,所有這些事情確實是驕傲的來源。我為做到所有這些感到非常感激。而且做這些事情非常有趣。但幸福來自…我現在的觀點是,幸福感在很大程度上來自我們看待事物的方式。你可以吃一頓簡單的飯,因此感到很快樂,或者你可以和某人交談,也因此感到快樂。反過來,你可以吃一頓飯,因為飯菜不夠美味而感到失望。所以我認為,很多幸福都來自於這一點。

但我不確定,我不想過度自信。在不確定面前保持謙遜似乎也是這整個幸福事務的一部分。

嗯,我認為沒有比討論生命的意義和幸福更好的結束方式了。因此,Ilya,非常感謝您。您給了我一些令人難以置信的想法。您為世界提供了許多令人難以置信的想法。我非常感激。謝謝您今天的分享。(Web3天空之城)