楊立昆巴黎AI峰會萬字實錄 | 未來的AI 研究應聚焦模型架構創新

2025/02/13

•

2月10日，Meta 首席 AI 科學家楊立昆在巴黎人工智慧峰會發表演講，批判了當前人工智慧對大型語言模型的過度依賴，提倡“世界模型”，楊立昆稱，儘管大語言模型取得了顯著進展，但它們存在根本性的缺陷，缺乏對物理世界的真正理解、常識性推理以及人類和動物所展現的快速、零樣本學習能力。未來的 AI 研究應聚焦於模型架構的創新，而非僅僅依賴於擴大模型規模和資料量。

此外，楊立昆強調了開源 AI 平台在促進創新和防止這項變革性技術被壟斷的關鍵作用，他警告了閉源開發和政府可能限制開源模型的風險。

以下是本次對話完整實錄，經翻譯編輯：

主持人：我想歡迎我們的第二位，也是最後一位全體會議演講嘉賓上台。接下來是 Yann LeCun。他是 Meta 的首席 AI 科學家，同時也是紐約大學的教授。Yann 是 Meta FAIR 以及紐約大學資料科學中心的創始主任。他的研究領域廣泛，主要包括機器學習、電腦視覺、移動機器人和計算神經科學。2019 年，Yann 因在人工智慧領域的傑出貢獻榮獲 ACM 圖靈獎，並且是美國國家科學院和法國科學院院士。熱烈歡迎 Yann，很高興您能到來。

01 對人類等級人工智慧的需求

Yann LeCun：非常感謝。很高興來到這裡。上次來應該還是在疫情之前吧。好的，接下來我要講的內容會與 Bernard 剛才所談及的內容有所關聯。而且，我將要探討的是 Michael Jordan 今天早些時候建議大家不要研究的領域。

實際上，我們確實需要達到人類水平的人工智慧。這不僅僅是一個有趣的科學議題，更是一種實際的產品需求。未來，我們將佩戴智能眼鏡等智能裝置。通過這些裝置，我們可以隨時訪問 AI 助手，並可以通過語音或肌電圖等方式與它們進行互動。未來的眼鏡最終會配備螢幕，儘管目前尚未實現。

我們需要這些系統具備人類水平的智能，因為我們最熟悉與人類智能進行互動。我們習慣於與他人互動，也熟悉人類的智能水平。因此，與具有類似智能形式的系統互動會更加自然和容易。

因此，這些無處不在的助手將成為我們與數字世界互動的媒介。正因如此，我們需要它們易於使用，以便更廣泛的人群，包括那些不熟悉技術的使用者，也能夠輕鬆上手。然而，問題在於，與人類和動物相比，目前的機器學習技術還遠遠不足。我們尚未掌握能夠製造出在學習能力、常識以及對物理世界的理解方面與人類和動物相媲美的機器的技術。

動物和人類都擁有背景知識，這使得他們能夠快速學習新任務，理解世界運行的規律，並進行推理和規劃。而這一切都基於我們所說的常識，儘管常識本身的概念尚不明確。我們的行為以及動物的行為本質上都受到目標的驅動。

因此，我認為，目前我們所擁有，或者說幾乎所有人都在使用的 AI 系統，並不具備我們期望的特性。究其原因，主要是因為它們以自回歸的方式，逐個 Token 地生成內容。你會得到一個 Token 序列——Token 可以是子詞單元，但具體形式並不重要，重要的是它是一個符號序列。然後，系統會使用一個預測器在序列上重複運作，這個預測器會擷取先前 Token 的一個窗口，並預測下一個 Token。

這些系統的訓練方式是將序列輸入到系統，然後訓練系統在輸出端復現輸入內容。由於採用了因果結構，系統無法作弊，不能使用當前輸入來預測自身。它只能依賴於位於其左側的符號。這被稱為因果架構。

這種方法非常高效。這就是人們常說的 GPT ——通用 Transformer 模型，當然，你也可以使用其他架構，不一定非得是 Transformer。關鍵在於這是一個因果架構。抱歉，螢幕閃爍的問題似乎沒有解決。不管怎樣，訓練這些系統之後，你就可以用它來生成文字。方法是自回歸地生成一個 Token，將其移至輸入端，然後再生成下一個 Token，依此類推。這就是自回歸預測，顯然不是什麼新概念。

但這種方法存在一個問題，那就是生成過程本質上是發散的。每次生成 Token 時，都有可能生成不合理的 Token，從而偏離合理答案的範圍。一旦發生這種情況，後續就無法糾正。如果我們假設錯誤 Token 的生成存在一定機率，且這些錯誤是相互獨立的（當然實際並非如此），那麼誤差就會呈指數級增長，最終導致我們今天所看到的大語言模型的幻覺問題。

然而，我們忽略了一些至關重要的東西。先不說要重現人類的智能，我們甚至連貓或老鼠，更不用說狗的智能都無法重現。它們可以完成許多令人驚嘆的事情，並且理解物理世界。例如，家貓可以規劃非常複雜的行動。它們對世界有因果模型。有些貓甚至知道如何開門、開水龍頭等等。

再看人類，一個十歲的孩子可以在無需任何指導的情況下，零樣本完成清理餐桌和裝洗碗機的工作。第一次讓一個十歲的孩子做這些事，她就能完成。一個 17 歲的青少年通過 20 小時的練習就能學會開車。但我們仍然沒有能夠像貓一樣行動的機器人，沒有可以清理餐桌的家務機器人，也沒有實現 L5 級自動駕駛，儘管我們已經積累了成千上萬，甚至數百萬小時的監督訓練資料。

這表明我們在某些方面存在根本性的缺失。然而，我們已經擁有可以通過律師資格考試、解答數學難題、證明定理的系統，但卻沒有家務機器人。這就引出了我們不斷遇到的莫拉維克悖論：我們認為理所當然的事情，因為人類和動物可以輕而易舉地做到，就以為它們很簡單。但事實卻遠非如此，它們實際上非常複雜。而那些我們認為獨特的人類能力，例如操縱和生成語言、下象棋、下圍棋、玩撲克、創作詩歌等，結果卻相對容易實現。

02 當前機器學習的侷限性

也許造成這種現象的原因可以用一個簡單的計算來解釋。如今，典型的大語言模型是在約 30 兆個Token，每個Token 大約是 3 個字節，因此，訓練資料總量約為100 TB字節。即使是我們，也要花費近 50 萬年才能讀完如此龐大的資料量。這幾乎相當於網際網路上所有公開可用的文字內容。

現在，考慮一個人類兒童。一個四歲的孩子，累計清醒時間約為 16000 小時，順便說一句，這僅僅相當於 30 分鐘 YouTube 視訊上傳量。我們有 200 萬根視神經纖維，每根纖維每秒大約傳輸 1 字節的資料，或許略少，但這並不重要。粗略計算，一個四歲兒童在四年內接收到的視覺資料量約為100TB，與最大規模的大語言模型資料量相當。對於盲童而言，他們通過觸覺獲取資訊，資料頻寬也大致相同。這說明了一些問題：僅僅依靠文字訓練，我們永遠無法達到人類水平的智能。這根本不可能實現。

儘管有些人，特別是那些在此領域有既得利益的人宣稱，我們明年就能達到博士水平的智能。但這絕不可能發生。我們或許能在某些子領域、特定問題上，例如在下棋等領域達到博士水平，但在更廣泛的領域，只要我們針對特定問題對系統進行專門訓練，就像 Bernard 用視覺錯覺所解釋的那樣，情況可能會有所不同。當你向大語言模型提出問題時，如果問題類似於標準謎題，系統會在幾秒鐘內給出答案，這實際上是它對預訓練知識的簡單 “反芻”。如果你稍微修改問題的表述方式，系統仍然會給出相同的答案，因為它並沒有真正理解謎題背後的邏輯和原理。

那麼，人類，特別是嬰兒，是如何學習世界運作方式的呢？嬰兒在最初幾個月裡就積累了大量關於世界的背景知識，例如物體永存性、固體性、剛性以及物體的自然分類等概念。甚至在理解語言之前，兒童就已經能夠區分桌子和椅子。這種認知是自然而然形成的。大約在 9 個月大時，他們開始理解直覺物理學的概念，例如重力、慣性和相關現象。

這是一個漫長的過程，主要通過觀察學習。四個月之前的嬰兒主要通過觀察，因為他們在那之前幾乎無法與世界互動。但四個月之後，學習方式轉向互動。然而，令人驚訝的是，嬰兒所需的互動量非常小。因此，如果我們想要開發最終達到人類水平的 AI 系統（這可能需要相當長的時間），我們在 Meta 將其稱之為高級機器智能（AMI）。我們不太喜歡 “通用人工智慧”這個術語。因為我們認為人類智能實際上是非常專業化的，稱之為 AGI 容易產生誤導。所以我們稱之為 AMI，發音為 “Ami”，在法語中是 “朋友” 的意思。

我們需要一些系統，這些系統能夠從感官輸入中學習世界模型，即關於世界如何運作的心理模型，你可以在腦海中操控這些模型，並從視訊中學習直覺物理學。這些系統應具備持久記憶，能夠規劃行動，最好是以分層方式實現目標，並進行推理。此外，系統在設計上應是可控且安全的，而非依賴於微調，微調是當前大語言模型常用的方法。在我看來，建構此類系統的唯一途徑是改變當前人工智慧系統執行推理的方式。目前，大語言模型執行推理的方式是，通過運行固定層數的神經網路，生成一個 Token ，然後將該 Token 注入輸入端，再次運行固定層數的網路。

問題在於，無論問題簡單還是複雜，即使要求系統用“是”或“否”回答，例如“2 + 2 等於 4 嗎？”或“P 等於 NP 嗎？”，系統都會消耗幾乎相同的計算量。因此，人們一直使用“作弊”手段，例如，指示系統進行“解釋”，即採用“思維鏈技巧”，迫使系統生成更多 Token，以此增加計算量來解答問題。但這只是一種“權宜之計”。然而，統計學等領域的推理方法並非如此。在經典人工智慧、統計學、結構預測以及許多其他領域，推理的工作方式是，首先定義一個函數來衡量觀察結果與提出的輸出之間相容或不相容的程度。然後，推理過程轉化為尋找能夠最小化這種不相容性度量的輸出值。明白嗎？我們稱之為“能量函數”。所以，存在一個“能量函數”，當它顯示時，系統通過最佳化執行推理。現在，如果推理問題更複雜，系統自然會花費更多時間進行推理。換句話說，相比於答案顯而易見的簡單問題，系統會花費更多時間思考複雜問題。

實際上，這在經典人工智慧中是非常核心的概念。經典人工智慧的本質就是推理和搜尋，以及由此產生的最佳化。基本上，所有計算問題都可以簡化為最佳化問題或搜尋問題。這在機率建模中也很常見，例如機率圖模型。因此，這種推理方式更接近心理學家所說的“系統 2” 思考模式，或者可以理解為人類思維中的“系統 2”。“系統 2” 指的是在行動或一系列行動之前，你會預先思考計畫。也就是在做事前先思考。而“系統 1” 則指無需思考即可完成的事情，它更像是一種潛意識反應。所以，目前的大語言模型屬於“系統 1”，而我所提倡的是“系統 2” 模式。進一步解釋，描述這種模式的恰當半理論框架是“基於能量的模型 ”。今天我無法深入細節，但其核心思想是通過“能量函數”捕捉變數間的依賴關係，例如觀察變數 X 和輸出變數 Y。當 X 和 Y 相容時，“能量函數”值較低；反之，當 X 和 Y 不相容時，“能量函數”值較高。

03 世界模型的必要性

你不希望僅僅像之前那樣，直接從 X 計算 Y。你只需要一個“能量函數”來衡量不相容程度，然後，給定 X，找到能使該 X 能量值儘可能低的 Y。好的，現在我們更詳細地瞭解一下這種架構的建構方式，以及它與思考或計畫的關聯。一個系統大致會是這樣的：系統從外部世界接收觀察資訊，這些資訊被輸入到“感知模組”，該模組負責生成對世界狀態的估計。當然，世界的真實狀態並非完全可完全觀測，因此可能需要結合記憶，即儲存你對當前未直接感知到的世界狀態的理解。感知資訊和記憶的結合構成了“世界模型”。那麼，什麼是“世界模型”？“世界模型” 是指，給定當前對世界狀態的估計，以及你設想執行的一系列行動，它可以預測在你執行這些行動後，世界將演變成什麼狀態。明白了嗎？這就是“世界模型”。例如，如果我讓你想像一個懸浮在你面前的立方體，然後想像將這個立方體繞垂直軸旋轉 90 度，你就能輕鬆在腦海中形成旋轉後的立方體的心理模型。

好的，我開個玩笑，或許在我們擁有真正可靠的音視訊技術之前，我們就已經實現人類水平的人工智慧了。好的，那麼，如果我們擁有這樣一個“世界模型”，並且它能夠預測一系列行動的後果，我們就可以將其輸入到一個“目標”函數，更準確地說，是一個“任務目標 (task objective)”。這個“任務目標”函數評估預測的最終狀態在多大程度上符合我們預設的目標，實際上就是一個成本函數。此外，我們還可以設定一些“護欄目標 (guard rail objectives)”。可以將這些“護欄目標”視為確保系統以安全方式運行所必須滿足的約束條件。這些“護欄”將被明確地程序化實現，系統的運行方式將是通過最佳化。系統將不斷尋找能夠最小化“任務目標”和執行階段“護欄目標”的行動序列。請注意，我們這裡討論的是推理，而不是學習。

這樣就能確保系統的安全性，因為“護欄”機制本身就保障了安全。而且，你無法通過向系統傳送“提示 (prompt)”來“越獄 (jailbreak)”系統，使其逃脫“護欄目標”的約束。“護欄目標”將被“硬編碼 (hardwired)”到系統中，它們或許經過訓練，但最終會被“硬編碼”固定下來。現在，一個行動序列應使用同一個“世界模型”，並在多個時間步驟中重複使用。例如，你有一個“世界模型”，輸入第一個動作，它預測下一個狀態；再輸入第二個動作，它預測下下一個狀態。你可以在整個行動軌跡中設定“護欄”成本和“任務目標”。我沒有具體指出可以使用那種最佳化演算法，但這對於我們當前的討論並不重要。如果世界並非完全確定和可預測，我們的“世界模型”可能需要引入“潛在變數 (latent variables)”來解釋那些未被觀察到的世界因素，這些因素會導致預測不精確。最終，我們期望得到一個能夠進行“分層計畫 (hierarchical planning)”的系統，即系統可能在多個抽象層級上運作。例如，在底層，我們計畫低等級的精細動作，如肌肉控制；而在高層，我們可以規劃更抽象的宏觀動作。在規劃宏觀動作時，“世界模型”可以預測更長時間跨度的未來狀態，並使用更抽象的表示空間，從而忽略不必要的細節。

例如，如果我坐在紐約大學的辦公室裡，決定去巴黎，我可以將任務分解為兩個子任務：去機場和趕飛機。現在，我的子目標是去機場。我在紐約市，所以去機場意味著走到街上打輛計程車。如何走到街上？這可以細分為走到電梯前，按下按鈕，下樓，走出大樓。如何走到電梯前？這又可以細化為：從椅子上站起來，拿起包，打開門，走到電梯，避開沿途障礙物。最終，我會到達一個無需詳細計畫的層級，可以直接採取行動。我們一直在進行這種“分層計畫”。但我要強調的是，我們尚不清楚如何通過機器學習實現這一點。幾乎所有機器人都在進行分層規劃，但層級結構中每一層的表示都是人工設計的。我們需要訓練一種架構，也許就是我在這裡描述的架構，使其能夠學習抽象表示，包括世界狀態的抽象表示，預測世界模型（用於預測未來），以及各個抽象層級的抽象動作。這樣我們才能實現真正的分層計畫。動物可以做到，人類尤其擅長。而這正是目前人工智慧系統所欠缺的。如果你正考慮攻讀博士學位，這將是非常好的研究方向，當然，可能需要三年以上的時間。

因此，基於以上思考，大約三年前，我寫了一篇長文，闡述了我對人工智慧研究方向的看法。這一切都發生在 “Chat GPT 熱潮” 之前。我沒有改變我的想法，“Chat GPT” 並未帶來任何根本性改變。因為我們早就瞭解問答系統和大型語言模型，所以預見到今天的情況。這就是我寫的那篇論文——《通往自主機器智能的道路》，現在我們稱之為《邁向高級機器智能之路》，因為“自主”一詞有時會引起不必要的擔憂。這篇論文在開放評審 (open review) 平台上可以找到，我也以不同形式做過關於這個主題的演講。

為了讓系統理解世界如何運作，一個非常直接的思路是，借鑑我們訓練系統進行自然語言處理的相似方法，並將其應用於視訊等領域。例如，如果系統能夠預測視訊內容，你給它看一小段視訊片段，並要求它預測接下來會發生的事情。我們推測，這將有助於系統理解視訊背後的世界運行規律。因此，訓練系統進行預測實際上可以促使其理解世界的深層結構。這種方法對文字有效，因為預測單詞相對簡單。為什麼單詞預測相對簡單？因為單詞本身，可能的單詞數量是有限的，Token的數量也是有限的。因此，我們雖然無法精確預測序列中的下一個單詞，或文字中缺失的單詞，但可以為字典中的每個單詞生成“機率分佈”或評分。然而，我們無法對圖像或“視訊幀”進行類似操作。我們缺乏表示視訊幀分佈的有效方法。每次嘗試這樣做，基本上都會遇到數學上的難題。因此，可以嘗試利用物理學家發明的統計學和數學工具來解決這個問題，例如“變分推理 (variational inference)”等等。但更有效的做法是徹底放棄機率建模的思路，轉而學習一個“能量函數”。這個函數可以評估輸出與輸入的相容性，而我並不需要關心這個“能量函數”是否是某個分佈的負對數。我們需要這樣做，根本原因是我們無法精確預測世界將發生什麼。世界存在各種可能性。如果僅僅訓練系統預測單個“視訊幀”，效果不會理想。因此，解決這一問題的新架構是“聯合嵌入預測架構”，我稱之為JEPA。因為“生成式架構” 根本不適合用於生成視訊內容。

04 JEPA架構作為潛在的解決方案

你可能已經看過一些視訊生成系統，它們可以生成非常驚人的東西。它們背後有很多超出它們的技巧，而且它們並不真正理解物理學。它們不需要。它們只需要預測漂亮的圖片。它們不需要真正擁有某種精確的世界模型。好的，這就是JEPA。這個想法是，你同時運行觀察和輸出，也就是下一個觀察，到一個編碼器中，這樣預測就不在於預測像素，而基本上是預測視訊中發生的事情的抽象表示。視訊或任何東西，好的？所以，讓我們比較一下這兩種架構。在左邊，你有生成式架構。你運行 X，觀察結果，通過一個編碼器，也許通過一個預測器或一個解碼器，你對 Y 做出預測。好的？那是直接的預測。然後在右邊，這個JEPA架構，你同時運行 X 和 Y 到編碼器，這些編碼器可能是相同的或不同的。然後你在這個抽象空間中從 X 的表示預測 Y 的表示。這將導致系統基本上學習一個編碼器，消除所有你無法預測的東西。這真的是我們所做的。如果我觀察這個房間的左邊部分，並且我把相機搖向右邊，任何視訊預測系統，包括人類，都不可能預測你們每個人長什麼樣子，或者預測牆壁上的紋理，或者硬木地板上的木材紋理。有很多東西是我們根本無法預測的。因此，與其堅持我們應該對我們無法預測的東西做出機率預測，不如乾脆不預測它。學習一種表示，其中所有這些細節基本上都被消除，以便預測變得更簡單。它可能仍然需要是非確定性的，但至少我們簡化了問題。

因此，JEPA有各種各樣的變體，我不會詳細介紹，其中一些有潛在變數，一些是動作條件化的。所以我將談論動作條件化的，因為那是最有意思的，因為它們真的是世界模型，對吧？所以你有一個編碼器，X 是世界的當前狀態或當前的觀察，SX 是世界的當前狀態，你向預測器輸入一個動作，你想像採取這個動作，而預測器，這是一個世界模型，預測世界下一個狀態的表示。這就是你如何進行規劃的。好的，所以，你需要，我們需要訓練這些系統，我們需要弄清楚如何訓練這些JEPA架構，事實證明這並非完全微不足道，因為你需要在這個JEPA架構中訓練成本函數，這個成本函數衡量的是 Y 的表示和 Y 的預測表示之間本質上的差異。我們需要這個在訓練資料上很低，但我們也需要它在訓練集之外很大。好的？所以，這是，你知道，這種能量函數在這裡有等能量的輪廓。我們需要確保能量在資料流形之外很高。而我只知道兩種方法。一種方法叫做對比方法。它包括擁有資料點，這些資料點是那些藍色深藍色點，降低這些點的能量，然後生成，你知道，那些閃爍的綠色點，然後提高它們的能量。這種類型的方法，對比方法的問題是，它們在高維度上不能很好地擴展。如果你的 Y 空間中有太多的維度，你將需要在很多不同的地方提高能量，而且它不能很好地工作。你需要大量的對比樣本才能使之工作。

還有另一組方法，我稱之為正則化方法，它們所做的是在能量上使用正則化器，以便最小化可以接受低能量的空間體積。好的？這導致了兩種不同的學習程序。一種是對比學習程序，你需要生成那些對比點，然後將它們的能量提高到某個損失函數。另一種是某種正則化器，它將有點像收縮包裹資料的流形。以便確保能量在外部更高。因此，有很多技術可以做到這一點。我將只描述少數幾個，以及我們幾年前開始測試它們的方式，也許五六年以前，是為了訓練它們學習圖像的表示。所以你取一張圖像，你以某種方式破壞它或轉換它，然後你在相同的編碼器中運行原始圖像和損壞的版本，你訓練一個預測器來從損壞的圖像預測原始圖像的表示。一旦你完成訓練系統，你移除預測器，你使用編碼器輸出端的表示作為到一個簡單的，像線性分類器或類似類型的東西的輸入，你訓練有監督的分類器，以便驗證學習到的表示是好的。這個想法非常古老，它可以追溯到 1980 年代，以及像我們過去稱之為 Siamese 網路的東西。以及一些關於那些聯合嵌入架構的更新近的工作，然後加入預測器是更近期的。Simclear，來自Google，是一種從 Siamese 網路衍生的對比方法。

但同樣，維度是受限制的。因此，正則化方法的工作方式如下。你嘗試估計，對來自編碼器的資訊內容進行某種估計，你需要做的是防止編碼器崩潰。訓練JEPA架構的一個簡單解決方案是編碼器基本上忽略輸入，產生恆定的輸出，現在預測誤差始終為零。好的？顯然，這是一個崩潰的解決方案，它沒有意義。因此，你需要一個系統，你需要防止系統崩潰，這就是我之前談到的正則化方法，一種間接的方法是保持來自編碼器的資訊內容。好的？因此，你將有一個訓練目標函數，如果你願意，這是一個負的資訊內容，因為我們在機器學習中最小化，我們不最大化。一種方法是基本上獲取來自一批樣本的編碼器的表示向量。並確保它們包含資訊。你如何做到這一點？你可以獲取表示向量的矩陣，並計算該矩陣與其轉置的乘積，你得到一個協方差矩陣，你嘗試使該協方差矩陣等於單位矩陣。所以這有一個壞消息，那就是這基本上通過對變數之間依賴關係的性質做出非常強的假設來近似資訊內容，實際上，它是資訊內容的上界，我們正在向上推它，交叉手指，下面的實際資訊內容將會跟隨。好的？所以這在理論上有點不規則，但是它有效。對吧？再次，你有一個來自你的編碼器的矩陣。它有一些樣本。每個向量是一個單獨的變數。我們要做的是嘗試使每個變數單獨地具有資訊量。因此，我們將嘗試防止變數的方差變為零，例如，強制它為 1。

然後我們將變數彼此去相關，這意味著計算這個矩陣的協方差矩陣，轉置乘以自身，然後嘗試使結果協方差矩陣儘可能接近單位矩陣。還有其他方法試圖使樣本正交，而不是變數。那些是對照樣本的對比方法。但它們在高維度上不起作用，並且需要大批次。因此，我們有一種這種類型的方法，這意味著方差不變協方差正則化，它有用於此協方差矩陣的特定損失函數。已經有類似的方法由 Yima 和他的團隊提出，稱為 MCR 平方，然後是紐約大學的一些同事提出的另一種方法，稱為 MMCR，來自神經科學。所以這是一組方法，我真的很喜歡這些方法，我認為它們效果很好。我期望在未來看到更多這樣的方法。但是還有另一組方法，在某種程度上，在過去幾年中稍微更成功一些，這些方法是基於蒸餾的。所以再次，你有兩個編碼器。它仍然是一個聯合嵌入預測架構。你有兩個編碼器。它們有點共享相同的權重，但並非真正如此。因此，右側的編碼器獲得了左側編碼器的權重版本，這些權重是通過指數移動平均獲得的。好的？移動平均。所以基本上你強制右側的編碼器比左側的編碼器更慢地改變其權重，由於某種原因，這可以防止崩潰。有一些關於這個的理論工作。

事實上，有一個 John Paul 剛剛完成寫作。但這有點神秘，為什麼這會起作用，坦率地說，我對這種方法有點不舒服，但我們必須接受它實際上有效的事實。如果你小心的話。你知道，真正的工程師在不一定知道它們為什麼工作的情況下建造東西。那是好工程師。然後在法國通常的笑話是，這裡每個人都應該學習的是，當他們建造東西時，它不起作用，但他們可以告訴你為什麼。抱歉。我沒在這裡學習，你可以看出來。好吧，讓我向前切換，稍微跳過一點，以節省時間，因為我們浪費了一點時間。好吧，所以有一種特殊的方式來實現這種蒸餾的想法。還有另一種叫做 Dino，我稍微跳過了。所以 Dino 是 V2。人們正在研究 V3。這是我巴黎的一些同事提出的方法。然後是一個稍微不同的版本，叫做 IJepa，VJepa，也是 Fair 的人在蒙特利爾和巴黎。因此，那裡不需要負樣本，而且那些系統學習的通用特徵，你可以學習用於任何下游任務，而且這些特徵真的很好。這效果非常好。我不打算用細節來煩你，因為我沒有時間。

最近，我們研究了一個用於視訊的版本。所以這是一個系統，它從視訊中獲取 16 幀的塊，你獲取那 16 幀，通過一個編碼器運行它們，然後你通過掩蓋其中的一些部分來破壞這 16 幀，通過相同的編碼器運行它們，然後訓練一個預測器來從部分掩蓋或損壞的視訊中預測完整視訊的表示。這效果非常好，因為你學習的特徵，你可以將這些特徵輸入到一個可以對視訊中的動作進行分類的系統中，並且你使用這些方法獲得了非常好的結果。這是我們剛剛提交的一篇論文。如果你向該系統展示一些非常奇怪的事情發生的視訊，該系統實際上能夠告訴你，我的預測誤差正在飆升。那個窗口裡發生了一些奇怪的事情。你拿一個視訊，然後你取 16 個視訊幀窗口，你在視訊上滑動它，測量系統的預測誤差，如果發生了一些非常奇怪的事情，比如一個物體自發地消失或改變形狀，預測誤差會飆升。

所以這告訴你的是，儘管該系統很簡單，但它已經學習到某種程度的常識。它可以告訴你世界上是否正在發生一些非常奇怪的事情。大量的實驗表明了這一點，在各種類型的直覺物理學的各種背景下，但我不會跳到這個最新的工作。所以這是使用 Dino 特徵，然後在它之上訓練一個預測器，它是動作條件化的，所以它是一個世界模型，我們可以用於規劃。這是一篇在 arXiv 上的論文。還有一個網站，你可以在上面查看。所以基本上訓練一個預測器，使用，你知道，世界的圖片，你通過 Dino 編碼器運行它，然後是一個動作，可能是機器人採取的動作，所以你得到視訊的下一幀，來自世界的下一張圖像，通過 Dino 編碼器運行它，然後訓練你的預測器，只需預測給定採取的動作會發生什麼。好的？非常簡單。

為了進行規劃，你首先觀察初始狀態，通過Dino編碼器處理它，然後使用想像的動作多次運行世界模型。接下來，你有一個目標狀態，它由目標圖像表示。例如，你通過編碼器運行目標圖像，計算預測狀態與表示目標圖像的狀態之間的狀態空間距離。然後，規劃的過程就包括最佳化，找到一系列動作，以在執行時最小化該成本。你知道，測試時要計算等等，這聽起來非常令人興奮，彷彿它是一個新鮮的事物。實際上，這在最優控制中是一個完全經典的概念。這種方法被稱為模型預測控制，它與我在世的時間差不多長，最早關於使用這種類型的模型進行規劃、利用最佳化的論文來自上世紀60年代初期。那些實際學習模型的論文則更新一些，主要來自70年代，特別是來自法國。熟悉最優控制領域的人可能會知道它。這是一個非常簡單的概念，但效果驚人。

所以，讓我跳到視訊，假設你有一個T形物體，你想把它推到一個特定的位置。你知道它必須去那個位置，因為你已經為那個位置放置了圖像，並通過編碼器處理該圖像，這就給你一個目標狀態的表示。讓我再次播放那個視訊。在視訊的頂部，你可以看到當你按照計畫採取一系列動作時，真實世界中發生的實際情況，而在底部，你看到的是系統內部通過計畫產生的動作序列預測，這些是通過一個解碼器處理的，該解碼器生成內部狀態的圖像表示，但該解碼器是單獨訓練的，並且沒有圖像生成功能。讓我跳到一個更有趣的例子。所以在這裡，你有一個初始狀態，地板上是一堆隨機散落的藍色籌碼，目標狀態在上方，你看到的是通過規劃生成的動作，以及機器人執行這些動作。這個環境的動力學實際上相當複雜，因為那些藍色籌碼會相互作用。系統只是通過觀察一系列狀態-動作-下一個狀態來學習。這種方法在很多場景中都有效，例如，機械臂操作、在迷宮中移動、推動T形物體等等。

我不確定我們為什麼又回到了這個話題，為了節省時間，我會跳過這部分。基本上，這是一個系列的視訊，其中每一幀都在某個時間點拍攝，然後機器人移動。通過里程計，你可以知道機器人走了多遠，接著你得到下一幀。你只是訓練系統去預測如果你採取特定的運動動作，世界會發生什麼。接下來你可以告訴系統，比如說“導航到那個點”，它就能做到，並且能避開路徑上的障礙物。這是非常新的工作。但讓我轉到結論部分。所以，我有幾點建議：放棄生成模型。今天最流行的方法、每個人都在研究的方法，應該停止研究這些。你們應該研究JEPA。那些並不是生成模型，它們在表示空間中進行預測。放棄機率模型，因為它是棘手的。採用基於能量的模型。我和Mike就這個話題已經爭論了大約20年。放棄對比學習方法，轉而支援正則化方法，放棄強化學習，我已經說過很多次了。我們知道強化學習是低效的。當你的模型不精準，或者你的成本函數不精準時，你真的應該將強化學習作為最後的手段。但如果你對人類水平的AI感興趣，就不要研究大語言模型。沒有意義。

事實上，如果你在學術界，應該避免研究LLM，因為你正在與成百上千的人以及成千上萬的GPU競爭，你幾乎沒有什麼可以貢獻的。去做別的事吧。這個領域有很多問題亟待解決，涉及用大規模資料訓練這些模型等等。規劃演算法目前效率較低，我們必須想到更好的方法。因此，如果你喜歡應用於最佳化數學的工作，那是非常好的。帶有潛在變數的JEPA、不確定性下的規劃、分層規劃，這些問題完全沒有得到解決。學習成本模組，因為大多數時候你無法手工建構這些，你需要學習它們。還有探索等問題。

05 開源人工智慧平台的重要性

所以在未來，我們將擁有通用的虛擬助手。它們將始終陪伴我們，並調解我們與數字世界的所有互動。我們不能容忍這些系統只由美國西海岸或中國的少數幾家公司主導，這意味著我們建構這些系統的平台必須是開放原始碼的，並且廣泛可用。雖然它們的訓練成本很高，但一旦你有了基礎模型，對特定應用的微調相對便宜，很多人都能負擔得起。所以，平台必須是共享的。它們需要能夠理解世界上所有的語言、文化、價值體系和興趣點。世界上沒有那個單一實體能夠訓練這種類型的基礎模型。這可能需要以協作或分佈式的方式進行。再次給那些對大規模最佳化和分佈式演算法感興趣的應用數學家提供一些工作。因此，開源AI平台是必要的。

我在歐洲以及其他地方看到的一個危險是，地緣政治競爭可能誘使一些政府宣佈開源模型為非法，因為他們認為如果一個國家保密它的科學研究，它將保持領先。但這將是一個巨大的錯誤。當你秘密地進行研究時，你將最終落後。這是不可避免的。最終，世界其他地方將轉向開源，並超越你。目前，開源模型正慢慢但穩步地超越專有模型。非常感謝。 (數字開物)