3月19,GTC 2025期間,Meta首席AI科學家楊立昆與輝達首席科學家兼研究高級副總裁Bill Dally 進行圓桌對談,對話中討論了拋開大語言模型 AI領域更值得關注的4個問題、 AI 最具優勢的應用領域、大模型訓練與推理的權衡、Meta開發世界模型方面的工作、 AI 模型對硬體的需求、AI 創新的全球化等等。
楊立昆表示,大語言模型並非 AI 的全部,高級機器智能將在三到五年內實現。現有 LLM 預測離散的 Token,無法處理視訊等高維連續資料,且在像素級預測上基本失敗。當前 LLM 通過推理能力增強的方式並非正確途徑,未來的挑戰是找出允許在抽象空間進行推理的新架構。
以下是GTC2025楊立昆圓桌實錄經數字開物團隊編譯整理
Bill Dally 提問:
1.過去一年,AI 領域最激動人心的進展是什麼?
2.如果不是 LLM,那什麼才是對物理世界進行推理、擁有持久記憶和規劃的底層模型?
3. Token 能否表示物理世界?
Yann LeCun 實錄:
令人矚目的進展有很多,簡直數不勝數。不過,可能讓一些朋友感到驚訝的是:我對大語言模型已經不那麼感興趣了。
目前,大語言模型主要掌握在業界產品人員手中,他們進行著邊際改進,試圖獲取更多資料、更強算力,以及生成合成資料。
我認為,有四個方面的問題更值得關注。首先,如何讓機器理解物理世界?Jensen 今天上午在他的主題演講中也談到了這一點。其次,如何讓機器擁有持久記憶?這方面的討論相對較少。另外兩個問題是,如何讓機器進行推理和規劃?當然,目前已經有一些研究致力於讓大語言模型進行推理,但在我看來,那是非常簡單化的推理方式。我認為,或許存在更好的方法來實現推理和規劃。因此,我更感興趣的是那些在這個領域以及整個技術社區中,許多人或許會在五年後感到興奮的事情。不過,這些進展目前看起來並不那麼令人興奮,因為它們往往只是一些晦澀難懂的學術論文。
許多研究人員正在探索世界模型。那麼,究竟什麼是世界模型?其實,我們每個人的頭腦中都存在著世界模型,因此我們能夠進行思維操作。我們對當前世界擁有一種模型。比如,如果我從頂部推這個瓶子,它可能會翻倒;但如果我從底部推它,它則會滑動。而且,如果我用力過猛,瓶子還可能會爆裂。我們所擁有的關於物理世界的模型,是在生命最初的幾個月裡逐漸形成的,這使得我們能夠應對現實世界。與現實世界打交道,遠比與語言打交道要困難得多。
因此,我認為,真正能夠處理現實世界的系統所需要的架構類型,與我們目前所使用的架構是截然不同的。大語言模型預測的是 Token。
Token 是離散的。當我們談論 Token 時,通常指的是一個有限的可能性集合。在典型的大語言模型中,可能的 Token 數量大約在 10 萬個左右。當你訓練一個系統來預測 Token 時,你永遠無法訓練它精準預測文字序列中接下來將出現的那個 Token,但是你可以生成一個機率分佈,這個機率分佈涵蓋了字典中所有可能的 Token。它本質上就是一個包含 10 萬個介於 0 和 1 之間的數字的長向量,這些數字的總和為 1。我們知道如何處理這種機率分佈。
然而,我們並不知道如何處理視訊資料,或者說,如何處理那些高維度且連續的自然資料。所有試圖通過訓練系統預測像素等級的視訊,從而讓系統理解世界或建立世界模型的嘗試,基本上都以失敗告終。即便是訓練一個系統(例如神經網路)來學習圖像的良好表徵,所有試圖通過從圖像的損壞或變換版本重建圖像的技術,基本上也都失敗了。這些技術並非完全無效,只是效果不如其他替代架構。
有一種架構叫做聯合嵌入(Joint Embedding),它本質上並不試圖在像素等級進行重建,而是試圖學習圖像、視訊或被訓練的自然訊號的抽象表示,從而使得你可以在該抽象表示空間中進行預測。舉一個我常說的例子,如果我拍攝這個房間的視訊,然後移動相機,並在此處停止,讓系統預測視訊接下來的內容,它可能會預測這是一個房間,裡面有人坐著,等等。但是,它不可能預測出在座每一位的樣貌,這完全無法從視訊的初始片段中預測出來。
世界上有許多事物是不可預測的。如果你訓練一個系統在像素等級進行預測,它會耗費所有資源來嘗試生成它無法憑空創造的細節。這完全是一種資源浪費。我已經研究這個問題 20 年了,我們嘗試過的所有通過預測視訊來進行自監督學習的訓練方法,均不奏效。只有在表示等級上進行預測才有效。這意味著這些架構並非生成式的。
我並不是說 Transformer 不具備這種能力,因為你完全可以將 Transformer 應用於這種架構。我所說的架構類型被稱為聯合嵌入預測架構(joint embedding predictive architecture)。具體來說,就是獲取一段視訊、圖像或任何內容,甚至是文字,讓它通過一個編碼器,你會得到一個表示,然後獲取該段文字、視訊的後續內容或圖像的變換版本,同樣讓它通過一個編碼器。接下來,嘗試在該表示空間中進行預測,而不是在輸入空間中進行預測。
關於聯合嵌入架構的難點,這裡的難點在於,如果你不夠謹慎,如果你沒有採用一些巧妙的技術,系統就會崩潰。它會完全忽略輸入,只產生一個恆定的表示,而這個表示無法提供關於輸入的任何有效資訊。直到五六年前,我們還沒有任何技術手段來防止這種情況的發生。如果你希望將這種架構應用於一個具有代理能力的系統,或者一個可以進行推理和規劃的系統,那麼你需要一個預測器。當這個預測器觀察到一段視訊時,它能夠獲取關於世界狀態的資訊。
它需要能夠預測下一個世界狀態是什麼,前提是假設我會採取一個我想像中要採取的行動。因此,你需要一個預測器,在給定當前世界狀態和你所設想的行動的情況下,它能夠預測世界的下一個狀態。如果你擁有這樣一個系統,那麼你就可以規劃一系列行動,從而實現特定的結果。這才是我們所有人進行規劃和推理的真正方式,而不是在 Token 空間中進行。
讓我舉一個非常簡單的例子。目前,存在著許多所謂的代理推理系統。這些系統的工作原理是,利用不同的隨機方法生成大量的 Token 序列。然後,使用第二個神經網路從所有生成的序列中挑選出最佳序列。這就像是在不知道如何編寫程序的情況下編寫程序。你編寫一個隨機程序,然後對它們進行測試,最終保留那個實際上能夠給出正確答案的程序。這完全是徒勞的。對於短程序,當然可以。但是,它的複雜度會隨著程序長度呈指數級增長。所以,很快就會變得完全不可行。
Bill Dally 提問:
AGI何時到來?原因是什麼?存在那些差距?
Yann LeCun 實錄:
我不喜歡 AGI 這個術語,因為人們用它來指代具備人類水平智能的系統。然而,人類智能是高度專業化的。因此,稱之為“通用”是一種用詞不當。我更傾向於使用 AMI 這個短語,它的意思是先進機器智能(Advanced Machine Intelligence)。當然,這只是一個術語選擇的問題。
我認為,我所描述的這個概念,即能夠學習世界的抽象模型並將其用於推理和規劃的系統,我們很可能在三到五年內,在小規模上實現它。接下來的問題就是如何擴展其規模,直到我們最終實現人類水平的 AI。
在 AI 發展史中,一代又一代的 AI 研究人員發現了一種新的範式,並聲稱,在很短的時間內,我們將擁有與人類水平相當的智能,我們將擁有在所有領域都超越人類的智慧型手機器。這種情況已經持續了 70 年。大約每隔 10 年,就會出現一次這樣的浪潮。然而,當前的這股浪潮同樣是錯誤的。
因此,那種認為你只需要擴展大語言模型,或者讓它們生成數千個 Token 序列並從中挑選出最佳序列,就能在幾年內實現人類水平智能的觀點,或者像某些人所說的,需要“一個資料中心裡的天才國度”才能實現,我認為這純粹是無稽之談。毫無疑問,在許多應用領域,相關系統將達到博士水平。但是,就整體智能而言,我們還有很長的路要走,或許會在十年左右的時間內發生。
Bill Dally 提問:
1. AI 的那一種應用最為引人注目,最具優勢?
2. AI 應用的精準性要求和容錯性如何?
3.你對 AI 的應用最擔憂的是什麼?如何減輕這些擔憂?
Yann LeCun 實錄:
有一些應用是顯而易見的。我認為,AI 對科學和醫學領域的影響可能會遠遠超出我們目前的想像,儘管它已經產生了巨大的影響。
這不僅僅體現在蛋白質摺疊、藥物設計等領域的研究,以及對生命機制的理解方面,還包括一些短期的應用。例如,在美國進行醫學影像檢查時,通常都會涉及到 AI 技術。如果是乳腺 X 光檢查,很可能會使用深度學習系統進行預先篩查,以檢測腫瘤。如果去做 MRI 檢查,在 MRI 機器中停留的時間會縮短大約四倍,這是因為現在我們可以利用更少的資料來恢復 MRI 圖像的高解析度版本。
因此,AI 帶來了許多短期的影響。現在使用的每一輛汽車,大多數都配備了駕駛輔助系統或自動緊急制動系統。在歐洲,這些系統實際上在幾年前就已經成為強制性組態。這些系統使得碰撞事故減少了 40%,拯救了生命。這些都是非常重要的應用。請注意,這些應用並非生成式 AI,也不是大語言模型,而是感知技術,本質上是感知,當然,對於汽車而言,還涉及到一些控制技術。
目前,大語言模型在工業界、服務業等領域已經擁有廣泛的應用,並且在未來幾年內,還將湧現出更多的應用。然而,我們也必須清醒地認識到大語言模型的侷限性。要部署一套具備預期精準性和可靠性水平的系統,遠比大多數人想像的要困難得多。對於自動駕駛而言,情況尤其如此。何時能夠實現 L5 級自動駕駛,一直是一個不斷推遲的目標。
我認為,AI 出現問題的地方,通常不是在基本技術層面,也不是在那些華麗的演示中,而是在實際部署、應用並使其足夠可靠,以及與現有系統進行整合的時候。在這些環節,往往會遇到困難,導致成本增加,並且花費的時間超出預期。
關於AI應用的精準性,對於像自動駕駛汽車這樣的應用,系統必須始終保持正確,否則就可能有人受傷甚至喪生。因此,精準性必須達到近乎完美的程度。不過,在許多其他應用領域,只要系統在大多數情況下是正確的,就能帶來顯著的效益。即使是在一些醫療應用中,醫生也會進行複查;而在娛樂、教育等領域,你只需要確保 AI 的應用利大於弊,並且即使出現錯誤,後果也不是災難性的。
對於大多數系統而言,真正最有價值的系統是那些能夠提高人們的生產力或創造力的系統。這些系統是輔助人們工作的工具,在醫學、藝術、文字創作等領域,情況都是如此。AI 最終可能會取代人類,但我認為人們不會接受這種局面。我們與未來 AI 系統(包括超級智能系統)的關係將是,我們將成為它們的主導者。我們將擁有一批超級智能的虛擬人為我們服務。我非常樂意與比我更聰明的人共事,這簡直是世界上最美妙的事情。
關於AI的潛在風險,Meta 的一項重要工作是,利用 AI 作為對抗攻擊的手段,無論這些攻擊是否源自 AI。有一點可能會讓你感到驚訝,儘管大語言模型和各種深度偽造技術已經存在了好幾年,但負責檢測和消除此類攻擊的同事告訴我們,他們並沒有觀察到社交網路上發佈的生成內容出現大幅增加。
或者至少,這些內容並非以惡意的方式發佈,它們通常會被標記為合成內容。因此,我們並沒有看到人們在三四年前所擔憂的那些災難性場景,即 AI 將會摧毀所有的資訊。我想分享一個項目的故事。在 2022 年秋季,Meta 的幾位同事組成了一個小組,開發了一個大語言模型,這個模型在整個科學文獻上進行了訓練。他們收集了所有能夠找到的技術論文,模型被命名為 Galactica。他們發佈了這個模型,同時還發佈了一篇詳細的論文,介紹了模型的訓練資料、開放原始碼,以及一個可供使用者試用的演示系統。
然而,這個模型卻遭到了猛烈抨擊。人們紛紛表示,這太可怕了,這會害死我們,它將摧毀整個科學交流體系。現在,任何一個缺乏專業知識的人都可以撰寫一篇聽起來很科學的論文,鼓吹食用碎玻璃的好處等等。我的同事們,一個只有五個人的小團隊,承受了巨大的負面輿論壓力,他們夜不能寐,最終被迫關閉了演示系統,但保留了開放原始碼和論文。
我們當時的結論是,世界還沒有為這種技術做好準備,沒有人對它感興趣。然而,僅僅三周之後,Chat GPT 就問世了。這簡直就像是救世主再次降臨。我們面面相覷,感到難以置信:究竟發生了什麼?我們完全無法理解公眾對 Chat GPT 的熱情,考慮到他們之前對 Galactica 的強烈牴觸。實際上,OpenAI 自身也對 Chat GPT 在公眾中取得的巨大成功感到非常驚訝。這在很大程度上是一個公眾認知的問題。
在某種程度上,它對更多人來說更有用,或者說,更接近於有用。因此,AI 的確存在著潛在的風險,各種類型的濫用行為都有可能出現。但是,應對濫用的有效方法是發展更先進的 AI 技術。正如我之前提到的,現有的系統存在著不可靠的問題。解決這個問題的途徑同樣是發展更先進的 AI。未來的 AI 系統可能具備常識和推理能力,能夠檢查自身答案的正確性,並評估自身答案的可靠性,而目前的系統還不具備這些能力。坦率地說,我並不相信那些關於 AI 將會導致災難性後果的預測。
Bill Dally 提問:
1.未來 AI 領域的創新將主要源自那裡?
2.開源 AI 的優點和缺點是什麼?
Yann LeCun 實錄:
好主意可以來自任何地方,任何地方都有聰明人。沒有人能獨佔所有好主意。有些人有很強的優越感,認為自己可以閉門造車,不需要和任何人交流就能想出所有好主意。但以我作為科學家的經驗來看,情況並非如此。好主意來自許多人的互動和思想交流,而且,在過去十年左右的時間裡,還包括程式碼的交流。這就是為什麼我一直大力倡導開源 AI 平台。這也是 Meta 採納這一理念的部分原因。我們沒有壟斷好主意。不管我們自認為有多聰明,我們就是沒有。
最近關於 Deep Seek就充分表明,好主意可以來自任何地方。中國有很多非常優秀的科學家。大家應該知道一個故事,如果你問,過去 10 年裡,整個科學界被引用次數最多的論文是那一篇?這篇論文發表於 2015 年,正好是 10 年前。它是關於一種特殊的神經網路架構,叫做 Residual Network。
這篇論文出自北京的 Microsoft Research,由一群中國科學家完成。主要作者是 Kaiming He。一年後,他加入了加州的 FAIR (Facebook AI Research), Meta,在那裡工作了大約八年。他最近去了 MIT。所以,你看,世界各地都有很多優秀的科學家。好點子可以來自任何地方。但是要把這些想法付諸實踐,你需要一個龐大的基礎設施,大量的算力。你需要給你的朋友和同事很多錢,去購買這些算力。但是,擁有開放的學術社區可以加速進步,因為如果有人提出了一個好主意的一半,而另一個人有另一半,如果他們互相交流,那麼這個好主意就能實現。但如果他們都非常封閉、保守,進步就不會發生。
另外,要讓創新想法出現,你需要給人們足夠的自由。你需要真正地讓人們去創新,而不是每三個月或每六個月就催促他們出成果。事實上,Deep Seek 的情況就是這樣。Llama 也是如此。有一個不太為人知的故事,2022 年,FAIR 有好幾個 LLM 項目。
其中一個項目擁有大量資源,得到了領導層和各方面的支援。另一個項目是由巴黎的十幾個人發起的一個小型“海盜”項目,他們基本上決定建構自己的 LLM,因為他們在某些方面需要它。那就是 Llama。而那個大項目,你從未聽說過,它被叫停了。所以,即使你沒有得到所有支援,你也能想出好主意。基本上,如果你在一定程度上與你的管理層隔離,有自主權,你就能想出比按部就班的創新更好的主意。所以,這十幾個人,他們開發了 Llama 1,然後,公司決定選擇這個作為平台,而不是另一個項目。然後圍繞它組建了建構團隊,開發出了 Llama 2,Llama 2 最終開源了,並在業界引發了一場革命。然後是 Llama 3,截至昨天,Llama 的下載量已經超過了 10 億次。我覺得這太驚人了。
關於開源AI的利弊,如果你是一家希望直接從這項服務中獲得收入的公司,我認為這有壞處。如果那是你唯一的業務,那麼,透露你所有的秘密可能對你不利。但如果你是一家像 Meta,或者某種程度上的 Google 這樣的公司,收入來源是其他的。重要的不是你能在短期內產生多少收入,而是你能否建構出你想要建構的產品所需的功能,並且,你能否讓世界上最多的聰明人為此做出貢獻?對整個世界來說,如果其他公司將 Llama 用於其他目的,這對 Meta 並沒有什麼損害,因為他們沒有一個可以建立在這個基礎上的社交網路。
所以,對 Google 來說這更像是一種威脅,因為顯然你可以用它來建構搜尋引擎。所以,這可能就是他們對這種方法不那麼積極的原因。但是,我們首先看到了 PyTorch 的影響,然後是 Llama 2 對整個生態系統和社區的影響。基本上,它啟動了整個創業公司的生態系統。我們也在更大的行業中看到了這一點,人們有時會用專有的 API 來建構 AI 系統的原型,然後當需要部署時,最划算的方法是在 Llama 上部署,因為你可以在本地或其他一些開源平台上運行它。
但是,從哲學上講,我認為最重要的因素,也是想要擁有開源平台的最重要的原因,是,在不久的將來,我們與數字世界的每一次互動都將由 AI 系統來中介。我現在戴著 Ray-Ban Meta 智能眼鏡。我可以通過它與 Meta AI 交談,並向它提出任何問題。我們不相信人們會只想要一個助手,而且這些助手將來自美國西海岸或中國的少數幾家公司。我們需要非常多樣化的助手。他們需要說世界上所有的語言,理解世界上所有的文化、所有的價值觀、所有的興趣點,他們需要有不同的偏見、政治觀點等等。
因此,我們需要各種各樣的助手,就像我們需要多樣化的媒體一樣。否則,我們都會從相同的來源獲得相同的資訊,這對民主以及其他一切都不利。所以,我們需要一個任何人都可以使用的平台,來建構這些助手,一個多樣化的助手群體。目前,這只能通過開源平台來實現。
我認為這在未來會更加重要,因為如果我們希望基礎模型能夠說世界上所有的語言等等,沒有一個實體能夠獨自完成。誰會收集世界上所有語言的所有資料,然後交給 OpenAI、Meta、Google 或 Anthropic?沒有人。他們想保留自己的資料。所以,他們希望,世界上的各個地區會將他們的資料貢獻給一個全球基礎模型,但實際上並不交出他們的資料。他們可能會為訓練一個全球模型做出貢獻。
我認為這就是未來的模式。基礎模型將是開放原始碼的,將以分佈式方式進行訓練,世界各地的各個資料中心可以訪問不同的資料子集。並且基本上訓練一個共識模型。所以,這就是開源平台完全不可避免的原因,我認為專有平台將會消失。大多數 AI 創業公司的商業模式基本上都是圍繞這個,為特定應用建構專門的系統。
Bill Dally 提問:
1.在建構一個強大的模型時,訓練時間和推理或測試時間之間的權衡是什麼?最佳點在那裡?
2.進行推理的正確方法是什麼?
Yann LeCun 實錄:
首先,我認為 Jensen 完全正確,你最終會在一個能夠推理的系統中獲得更多的能力。我不同意的是,進行推理的正確方法是當前 LLM 通過推理能力進行增強的方式。
當我們推理、思考時,我們是在某種抽象的心理狀態下進行的,這和語言沒關係。都是潛空間,抽象空間。如果我告訴你,想像一個立方體漂浮在你面前,我將那個立方體繞垂直軸旋轉 90 度,你可以在心裡做到這一點。這和語言沒關係,貓也能做到。我們不能向貓解釋這個問題,顯然,這是通過語言。但是,當貓計畫跳到一件家具上的軌跡時,它們做的事情比這複雜得多。這與語言無關。它肯定不是在某種 Token 空間中完成的,Token 空間代表的是行動。它是在某種抽象的心理空間中完成的。所以,這就是未來幾年的挑戰,找出允許這種類型的新架構。這就是我一直在研究的。
我們稱之為 JEPA,或 JEPA 世界模型 (JEPA world models)。我和我的同事們在過去幾年裡發表了一系列關於這種朝著這個方向邁出的第一步的論文。JEPA 的意思是聯合嵌入預測架構 (Joint Embedding Predictive Architecture)。這些世界模型學習抽象表示,能夠操縱這些表示,並進行推理,產生一系列行動,以達到一個特定的目標。我認為這就是未來。大約三年前,我寫了一篇關於此的長篇論文,解釋了這可能是如何工作的。
Bill Dally 提問:
1.你期望什麼樣的事情能夠讓我們建構 JEPA 模型和其他更強大的模型?
2.神經形態硬體在那些方面可以補充或取代 GPU 來進行 AI?
3. PIM (Processor-in-Memory) 或處理器記憶體一體化技術有作用嗎?
4.量子計算、超導邏輯或其他任何即將到來的技術,將為我們提供 AI 處理能力的巨大進步嗎?
5.建構能夠像幼年動物一樣通過觀察進行學習的 AI會對硬體提出什麼樣的要求?
Yann LeCun 實錄:
我們需要所有我們能獲得的算力。在抽象空間中進行推理的想法在執行階段計算成本會很高。它與我們都非常熟悉的東西有關。心理學家談論系統 1 和系統 2。系統 1 是你可以完成的任務,而無需真正思考它們。你已經習慣了它們,你可以在不假思索的情況下完成它們。所以,如果你是一個有經驗的司機,你甚至可以在沒有駕駛輔助的情況下開車。你可以在不怎麼思考的情況下開車,你可以同時和別人說話,等等。但如果你是第一次開車,在前幾個小時,你會非常專注。
在駕駛位時,你必須真正專注於你在做什麼。而且你正在腦補各種災難場景,想像各種各樣的事情。那是系統 2,你正在調動你的整個前額葉皮層到你的世界模型,你的內部世界模型,以弄清楚將會發生什麼,然後計畫行動,以便好事發生。而當你熟悉這個時,你可以直接使用系統 1 並自動執行此操作。這種想法,你從使用你的世界模型開始,能夠完成一項任務,即使是你從未遇到過的任務,零樣本,你不必接受訓練來解決該任務。你可以直接完成該任務,而無需學習任何東西,只需根據你對世界的理解和你的計畫能力。這就是當前系統中所缺少的。但是,如果你多次完成該任務,那麼最終它會被編譯成所謂的策略,一種反應式系統,允許你完成任務而無需計畫。所以,推理是系統 2。這種自動的、潛意識的、反應式的策略,就是系統 1。LLM 可以做系統 1,並且正在努力向系統 2 邁進,但最終,我認為我們需要一個不同的架構來實現系統 2。
我認為它不會是一個生成式架構。如果你想讓系統理解物理世界。物理世界比語言更難理解。我們認為語言是人類智力能力的縮影。但事實上,語言很簡單,因為它是離散的。它是離散的,因為它是一種通訊機制,它需要是離散的,否則它將無法抵抗噪聲。否則你就聽不懂我現在說的話了。所以,出於這個原因,它很簡單。但現實世界要複雜得多。你們中的一些人可能以前聽我說過。當前的 LLM 通常使用大約 30 兆個 Token 進行訓練, Token 通常約為 3 個字節。所以,這是 0.9 乘以 10 的 13 次方字節。假設是 10 的 14 次方字節。我們中的任何一個人都需要超過 40 萬年的時間才能讀完,因為這是網際網路上所有文字的總和。
現在,心理學家告訴我們,一個四歲的孩子總共清醒了 16,000 個小時。我們大約有 2 兆字節通過我們的視神經進入我們的視覺皮層。每秒 2 兆字節,大致如此。將其乘以 16,000 小時,再乘以 3,600。在四年內,通過視覺,大約是 10 的 14 次方字節。你看到的資料量與需要你 40 萬年才能閱讀的文字一樣多。這表明,我們永遠無法僅僅通過文字訓練來達到 AGI,無論你怎麼定義它。
關於神經形態硬體,短期內不會。我必須告訴你一個關於這個的故事。1988 年,當我開始在貝爾實驗室工作時,我所在的團隊實際上專注於用於神經網路的模擬硬體。他們建造了幾代完全模擬的神經網路,然後是混合模擬數字,然後在 90 年代中期完全數位化。那時人們對神經網路失去了興趣,所以就沒有意義了。像這樣的奇異的底層原理的問題在於,當前的數字 CMOS 處於一個非常深的局部最小值中,替代技術需要大量的投資才能趕上。甚至不清楚在原理層面上,它是否有任何優勢。
所以,模擬或脈衝神經元,或者脈衝神經網路,它們可能有一些內在的優勢,但基本上它們使得硬體重用非常困難。我們目前使用的每一塊硬體都太大太快了。所以,你必須基本上重用同一塊硬體,多路復用同一塊硬體來計算模型的不同部分。
如果你使用模擬硬體,基本上就不能使用多路復用。因此,在你的虛擬神經網路中,必須為每個神經元都配備一個對應的物理神經元。這意味著你無法在單個晶片上放置一個足夠大的神經網路,必須採用多晶片方案。一旦能夠做到這一點,它的速度將會非常快,但效率不會很高,因為需要進行跨晶片通訊。而且,記憶體管理也會變得複雜。最終,實際上還是需要進行數字通訊,因為這是唯一有效的方法。這是為了抗噪聲。
實際上,關於大腦,這裡有一個有趣的資訊。在大多數動物的大腦中,神經元通過尖峰訊號進行通訊,尖峰是二進制訊號。所以,它是數字的,而不是模擬的。神經元的計算層面可能是模擬的,但神經元之間的通訊實際上是數字的。除了微小的動物。比如,如果你觀察線蟲,就是那種 1 毫米長的蠕蟲,它有 302 個神經元,它們不產生尖峰。它們不需要產生尖峰,因為不需要進行遠距離通訊。所以,它們可以在那個尺度上使用模擬通訊。這告訴我們,即使想使用模擬計算這樣的特殊技術,仍然需要以某種方式使用數字通訊,至少對於記憶體來說是這樣。所以,這一點並不明確。
我認為模擬計算在某些特定領域可能有應用,比如邊緣計算。所以,如果你想要一個超級便宜的微控製器,用來運行你的吸塵器或割草機的感知系統,那麼模擬計算也許是有意義的。如果你能把整個系統都放在一個晶片上,也許可以使用相變儲存器或類似的技術來儲存權重,也許可以。我知道有些人正在非常認真地建構這些東西。
關於PIM,我的一些同事實際上對此非常感興趣,因為他們想建構智能眼鏡的下一代產品。你想要的是持續不斷的視覺處理。而現在,這是不可能的,因為功耗太高。僅僅是一個感測器,比如一個圖像感測器,你不能在這樣的眼鏡裡一直開著它,電池會在幾分鐘內耗盡。
所以,一個潛在的解決方案是直接在感測器上進行處理。這樣就不必將資料從晶片中移出,這實際上才是耗費能量的,資料移動才是耗能大戶,而不是計算本身。生物學已經解決了這個問題。我們的視網膜,大約有 6000 萬個光電感測器,而且,在視網膜前面,有四層神經元,透明的神經元,它們處理訊號,將其壓縮到 100 萬個視神經纖維,然後傳輸到我們的視覺皮層。所以,這裡有壓縮、特徵提取,各種各樣的處理,從視覺系統中提取出大部分有用的資訊。
超導也許有希望。我對這方面瞭解不夠,無法真正判斷。光學技術一直非常令人失望,已經有很多代了。我記得在 20 世紀 80 年代,我對關於神經網路的光學實現的演講感到非常驚訝,但它們從未取得成功。當然,技術在不斷髮展,所以情況可能會改變。我認為那裡的很多成本都類似於模擬的,你在模數轉換中會損失掉很多,以便與數字系統連接。至於量子計算,我對此非常懷疑。我認為我看到的量子計算的唯一中期應用是用於模擬量子系統。比如,如果你要做量子化學或類似的研究,也許可以。對於其他任何應用,我都非常懷疑。
關於類動物學習的硬體需求,這不會便宜,因為視訊資料量很大。讓我告訴你一個實驗,我的一些同事做的,直到大約一年前。有一種自監督學習技術,利用圖像重建來學習圖像表示。我告訴過你,那些方法不起作用。這是一個名為 MAE (Masked Autoencoder) 的項目。它基本上是一個自編碼器,一個去噪自編碼器,非常類似於 UNet。它工作得還可以。你必須耗費大量的計算資源才能做到這一點。它的效果不如那些聯合嵌入架構。你可能聽說過 Dino、Dino V2、i-JEPA 等。這些是聯合嵌入架構,它們往往工作得更好,而且實際上訓練成本更低。
所以,在聯合嵌入中,你基本上擁有兩個輸入類別的兩個潛在空間,而不是將所有內容都轉換為一種 Token。與其說你有一張圖像,然後是它的一個損壞或變換後的版本,然後從損壞或變換後的版本重建完整的圖像,不如說你同時獲取完整的圖像和損壞的、變換後的版本,將它們都通過編碼器。然後從部分可見的、損壞的那個圖像的表示中,訓練出完整圖像的表示。這就是聯合預測架構。這效果更好,而且更便宜。MAE 團隊嘗試對視訊做這個,這需要耗費更多的計算資源,而且基本上是失敗的。那個項目被終止了。所以,我們現在的替代方案是一個名為 V-JEPA 的項目,它已經接近版本 2,基本上它是那些聯合預測架構之一。
它在視訊上進行預測,但是在表示層面上。它似乎工作得非常好。我們有一個例子,這是它的第一個版本,它是在非常短的視訊上訓練的,只有 16 幀,它被訓練來從一個部分被遮擋的視訊版本中預測完整視訊的表示。而且該系統顯然能夠告訴你一個特定的視訊在物理上是否可行,至少在有限的情況下是這樣。
你測量系統產生的預測誤差。所以,你在視訊上取一個 16 幀的滑動窗口,然後觀察,你能否預測接下來的幾幀?然後你測量預測誤差。當視訊中發生一些非常奇怪的事情時,比如一個物體消失或改變形狀,或者突然出現,或者不遵守物理定律,預測誤差就會很大。你在自然視訊上訓練它,然後在合成視訊上測試它,其中發生了一些非常奇怪的事情。
這有點像,年幼的人類需要一段時間來學習直觀物理學,比如,一個沒有支撐的物體會掉下來,也就是重力的影響。嬰兒在大約 9 個月大的時候學習到這一點。所以,如果你給一個五六個月大的嬰兒看一個物體漂浮在空中的場景,他們不會感到驚訝。但是到了 9 個月或 10 個月,他們會睜大眼睛看著它,你實際上可以測量到,心理學家有測量注意力的方法。這意味著嬰兒的內部世界模型,或者說世界的心理模型,正在被打破。嬰兒正在看到她認為不可能的事情。所以,她必須觀察它來修正她的內部世界模型,並意識到,也許我應該瞭解一下這個。
Bill Dally 提問:
在模型和硬體方面,實現聯合嵌入空間中推理和規劃的瓶頸是什麼?
Yann LeCun 實錄:
很大程度上只是讓它能夠工作。所以,我們需要一個好的方法。就像在人們想出一個好的方法來訓練甚至簡單的摺積網路之前。回到 21 世紀初,Jeff Hinton 只是告訴每個人,使用反向傳播訓練深度網路非常困難。當時,這是事實,但並非完全如此。事實證明這並不那麼困難,但有很多技巧你必須弄清楚,比如工程技巧或直覺技巧,或者你使用那種非線性函數。ResNet 的這個想法,這篇論文在過去 10 年裡被引用了 25 萬次,是所有科學領域中被引用次數最多的論文。這是一個非常簡單的想法,你只需讓連接跳過每一層,這樣在默認情況下,深度神經網路中的一層基本上計算的是該層輸入的恆等函數,而神經網路所做的則是對該恆等函數的偏離。非常簡單的想法,但這使得可以訓練具有 100 層或類似層數的神經網路。因為在那之前,人們會使用各種技巧,他們會提取出中間結果,並對這些結果使用損失函數,以避免梯度消失,因為你無法一直反向傳播。
某一層可能會“死亡”,你的網路基本上就失效了。所以,你必須重新開始訓練。人們很快就放棄了,因為他們沒有掌握所有的技巧。所以,在人們提出一個包含所有這些殘差連接 (residual connections) 的好方法之前,比如 Adam 最佳化器和歸一化 (normalization) 等等。順便說一句,我們剛剛發表了一篇論文,表明Transformer中的歸一化。在你擁有這個完整的方法和所有技巧之前,實際上什麼都行不通。在自然語言處理系統中也是如此。在 2010 年代中期,有那些系統,基本上是基於去噪自編碼器,比如 BERT 類型的系統,你取一段文字,破壞它,然後訓練一個大型神經網路來恢復缺失的單詞。最終,這被 GPT 風格的架構所取代,你只需在整個資料集上進行訓練。你基本上是把它作為一個自編碼器來訓練,但你不需要破壞輸入,因為這個架構是因果的。這是一個有效的方法。事實證明它非常成功,並且可以很好地擴展。所以,我們必須為這些架構提出一個好的方法,使它們能夠擴展到相同的程度。這就是目前所缺少的。
Bill Dally 提問:
在我們結束之前,你有什麼最後的想法想留給觀眾嗎?
Yann LeCun 實錄:
我想重申我之前提出的觀點。AI 的進步,以及朝著人類水平的 AI 或高級機器智能,或者 AGI,無論你怎麼稱呼它,都需要每個人的貢獻。它不會突然出現,它不會來自某個秘密進行研發的單一實體。這不會發生。它不會是一個單一事件。它將是許多連續的進步,一步一個腳印。人類不會在這種情況發生後的一小時內滅亡,因為它不會是一個單一事件。而且因為它需要來自世界各地的貢獻,它必須是開放的研究,並且基於開源平台(如果它們需要大量訓練)。我們需要更便宜的硬體。
我們將擁有一個擁有高度多樣化的 AI 助手的未來,它們將在我們的日常生活中幫助我們,通過我們的智能眼鏡或其他智能裝置一直陪伴在我們身邊。我們將成為它們的老闆,它們將為我們工作。這將就像我們所有人都要成為管理者。 (數字開物)