在昨天哥倫比亞大學最新一期的AI講座上,Meta首席科學家Yann LeCun(楊立昆)分享了他對人工智慧未來的深刻見解。作為深度學習領域的先驅者和2018年圖靈獎得主,LeCun的觀點引發了廣泛關注。
這位法國電腦科學家的學術之路充滿傳奇。從1987年在索邦大學提出開創性的反向傳播演算法,到1989年在貝爾實驗室開發出轟動業界的筆跡識別系統,再到在AI"寒冬"期間堅守陣地、深耕摺積神經網路(CNN)技術,LeCun最終見證了2012年深度學習的爆發性革命,並於2018年與Geoffrey Hinton和Yoshua Bengio一起摘得圖靈獎的至高榮譽。
然而,對於當前備受追捧的大語言模型(LLM),這位Meta首席科學家卻持謹慎態度。他直言不諱地表示,LLM並非下一代AI革命的關鍵,也無法幫助系統真正理解物理世界。在他看來,雖然各大公司正在投入大量資源研發LLM,但這項技術的主導地位可能僅能維持三到五年。未來,LLM或將成為更複雜系統中的一個元件,而非主流架構。對於年輕研究者,LeCun給出了富有遠見的建議。他指出,分層規劃(hierarchical planning)領域仍有諸多待解難題,這將是極具潛力的博士研究方向。同時,基於能量的模型(energy-based models)在理論基礎方面也存在大量亟待突破的問題。
展望接下來幾年,LeCun描繪了一幅令人期待的藍圖:開發出具備人類水平智能的虛擬助手。這種助手不僅能夠協助我們處理日常事務,更將成為我們的導師和教授,幫助放大人類的智慧潛能。正如15世紀的印刷機為人類帶來了知識傳播的革命,這種新一代AI助手也將掀起一場認知革命,開啟人類智慧增強的新紀元。
非常感謝您的精彩介紹。
很高興來到這裡演講,這次的演講讓我不用坐飛機,挺不錯的(笑)。不過如果你去問住在市中心的人,他們大多數都很少走出23街,所以來這兒對他們來說也是件特別的事。說到這兒,我一直努力想擺脫我的法國口音,已經努力了三年半了。不過我最近瞭解到,如果你說帶有法國口音的英語,人們會自動認為你聰明20分(笑)。所以,也許我應該保持法國口音,可能會顯得更聰明點。
當然,真正應該顯得智能的是機器。如今,許多人已經賦予了這些機器超乎實際的智能,甚至給它們打上了“智商”的標籤,不管這是什麼意思。但實際上,機器還遠沒有達到我們所認為的那種“智能”。距離製造出具有像人類一樣的智能,甚至是超越人類的智能,還有很長的路要走。我們還沒有達到“人類水平的智能”,也就是有些人稱之為的AGI(通用人工智慧)。其實,我不太喜歡“AGI”這個詞,我一直在試圖反對它的使用。
原因並不是說機器永遠不可能達到人類的智能,當然有可能,未來某一天,我們會擁有像人類一樣聰明的機器,甚至會超過人類的智能。但問題是,我們人類的智能並不是真的“通用”的。我們總是認為自己很聰明,因為我們能理解的問題都是我們能夠解決的,但其實還有許多我們根本無法想像的問題。人類的智能是有限的、專門化的,所以把“通用”這個詞用在我們身上並不精準。
因此,我更喜歡“人類水平的智能”這個詞。我們在Meta內部也採用了AMI這個術語,意思是“高級機器智能”(Advanced Machine Intelligence),這個詞還有點特別,它在法語中是“朋友”(Ami)的意思。
那麼,如何才能讓機器達到人類水平的智能呢?機器需要具備一些基本能力,比如學習、記憶、理解物理世界、擁有常識、能夠規劃和推理,行為合適,不會變得不守規矩或危險。
第一個問題是,我們為什麼要建構智能?智能是一個巨大的科學問題,驗證我們對智能的任何理論的最佳方式就是去真正建構一個能夠實現這些理論的機器,這是一種非常工程化的科學方法。
另一個原因是,我們需要人類水平的智能來增強人類的能力。未來有一天,我們每個人都將擁有一個AI助手,隨時為我們解答問題,幫助我們解決日常生活中的難題。這將會極大地放大人類的智慧,就像印刷術在15世紀極大地擴展了人類知識一樣。
事實上,我現在戴著一副智能眼鏡,我可以讓它拍照,或者問它問題。雖然它們現在還很“笨”,但已經很有用了。未來的10到20年內,這些系統會變得非常聰明,並會在我們的日常生活中幫助我們。因此,我們需要這些系統達到人類水平的智能,因為這是讓它們不會讓我們感到沮喪的最佳方式。機器需要理解物理世界。當前的AI系統對物理世界的理解甚至還不如家貓。我們需要具有持久記憶、能規劃複雜行動序列、能推理,並且是可控、安全的AI系統。要做到這一點,我們需要一些全新的原則,而不僅僅是通過像現在這樣的神經網路進行微調。
現有的AI系統通過一系列神經網路層來進行推理,但這非常有限。通過最佳化系統的輸入和輸出相容性,才能實現更強大的推理能力。事實上,任何計算問題都可以簡化為最佳化問題。未來的AI系統將基於這種最佳化推理的原則,而不僅僅是簡單的前饋傳播。這種基於能量的模型,可以用來解釋輸入和輸出之間的相容性。如果輸入和輸出相容,系統會給出低能量值,反之則是高能量值。
當前的AI熱潮集中在大型語言模型(LLM)上,這些模型通過大量的文字資料訓練,預測下一個詞語,基本上就是自回歸的預測方式。這些系統在一定程度上模擬了系統一(System 1)思維,即通過簡單的模式進行反應,但無法像系統二(System 2)那樣進行複雜的推理或規劃。很多人認為,只要讓現有的AI模型更大,使用更多的資料進行訓練,就能達到人類的智能。但我認為這是非常錯誤的。這些方法不會讓我們實現真正的智能行為,真正的智能需要的是能夠規劃、推理,並且能理解世界的AI系統。
如果我移動講台上的盒子,改變的只是這些小細節,但除此之外,其他的就沒太大變化了。因此,認為我們的感知能讓我們對世界有完整理解的想法是錯誤的。我們需要將感知與記憶結合在一起,才能形成對當前世界狀態的概念。
接下來,我們要將這種感知和記憶提供給一個“世界模型”。你們在我接下來的演講中會聽到很多這個詞。這個“世界模型”的作用是預測一系列行動的結果。這些行動可以是你自己計畫採取的,也可以是其他人或代理者的行動,甚至是某些將要發生的事件。
舉個例子,如果我拿起這個水瓶,把它放在我的頭上,然後抬起手指,你可以預測接下來會發生什麼。瓶子會掉下來,對吧?它可能會掉到左邊,也可能掉到右邊。你可能無法確切預測它會往那邊倒,因為我在平衡它,但你可以確定它會倒下。這是你大腦中的一個直觀物理模型,即便這個情境看起來很簡單,背後的計算卻很複雜。
這個“世界模型”幫助我們進行規劃。通過它,我們可以讓機器設定一個任務目標,評估是否達成了某些條件。同時,我們還可以設定一些“護欄目標”,確保在執行任務時不會發生意外,比如保證沒人會受傷。這些條件像是一個個“成本函數”,我們會最佳化它們,讓任務順利完成。
你可能會問,這些規劃操作是否需要多個“世界模型”?其實不需要。例如,如果我要將瓶子從這裡移動到那裡,再移到另一個地方,這只是兩次動作的序列。我們可以使用同一個“世界模型”,只不過應用了多次。通過這種方式,我們可以最佳化一系列動作來達到任務目標。這種方法在控制領域很常見,叫做“模型預測控制”。自1960年代初以來,這種技術就被用於運動規劃,比如機器人、火箭軌跡等領域。
與傳統方法的不同之處在於,我們的“世界模型”是通過學習得到的,而不是通過一堆手寫的方程式。這些模型會通過資料進行訓練。當然,這裡有兩個難題。首先,我們無法比現即時間運行得更快,這是一個限制。其次,世界並不是確定性的。即使物理學家告訴我們世界是確定的,但我們也無法完全預測,因為我們無法獲取世界的所有資訊。
為了處理不確定性,我們引入了“潛在變數”,這些變數是我們不知道其值的。每次給“世界模型”輸入不同的潛在變數時,模型會給出不同的預測結果。這樣,我們就能處理不確定的情況。
人類和動物也是這樣規劃的。我們會進行“分層規劃”,也就是我們會在不同的抽象層次上去理解和規劃世界的狀態。舉個簡單的例子,假設我現在坐在紐約大學的辦公室裡,想明天去巴黎。在一個非常抽象的層面上,我可以計畫,今天晚上去機場,乘飛機,明天早上到巴黎。這個計畫很簡單,但我不需要預測每一個細節。我只需要知道大致步驟:去機場,然後上飛機。現在我有一個子目標:如何前往機場?在紐約,我需要先去街上打計程車。那麼,怎麼去街上呢?我需要先走到電梯那裡,按下電梯按鈕,走出大樓。那麼,如何走到電梯呢?我需要從椅子上站起來,拿好包,打開門,關上門,然後避開周圍的障礙物,走向電梯,按下按鈕。
那麼,如何從椅子上站起來呢?這個動作屬於一個更低層次的行為,而用語言來描述如何站起來是很困難的,因為這些細微的動作是嵌在我們身體記憶中的。你無法向別人詳細解釋你是如何從椅子上站起來的,這是一種對物理世界的感知和理解。而這是目前大型語言模型(LLM)所無法做到的,它們只處理語言,沒有關於物理世界的感知,因此容易犯一些非常基礎的錯誤,顯得“很蠢”。這就是為什麼我會說,你家的貓在某些方面比最聰明的LLM還聰明。貓雖然沒有LLM那種豐富的抽象知識,但在理解世界和規劃行動方面,它們做得非常好。它們也有能力進行分層規劃。而這一點正是我們在未來的人工智慧系統中需要實現的。
我們需要建立一個可以在不同抽象層次上運作的“世界模型”。這種模型會幫助AI處理從高層次的目標到低層次的具體行動的轉換,如何訓練這種模型目前還不是很明確。這引出了一個被稱為“目標驅動型AI系統”的概念。我兩年半前寫了一篇關於這一構想的願景論文,並在網上公開了它。這篇論文介紹了一個“認知架構”,其中包含了各種元件,比如感知模組(用於估計世界狀態)、記憶模組、世界模型、成本模組(用於定義任務目標或限制條件),以及執行最佳化的“行動者”(actor)。
在這種架構中,行動者的任務是找到一系列最佳行動,來實現設定的目標。這些目標由系統的“組態器模組”動態設定,它根據當前的情況不斷調整目標。
通過這種架構,我們可以開發出理解物理世界的AI系統,但更重要的是,這些系統還需要具備不同的推理能力。要從感官輸入中學習世界模型的關鍵是“自監督學習”。
在過去幾年中,監督學習在自然語言處理(NLP)領域非常成功。它的核心思想是,系統從大規模資料中自我學習,輸入和輸出沒有明顯的區分,系統會通過恢復被部分破壞的輸入來學習理解整個語境。但儘管如此,現有的LLM依然無法勝任許多日常任務。
例如,你第一次讓一個10歲的孩子清理餐桌並裝好洗碗機,他們能夠立即完成任務,不需要額外的學習。而現有的機器人卻無法做到這一點。類似地,一個17歲的青少年只需要20小時左右的練習就可以學會開車,但我們仍然沒有完全自主的5級自動駕駛汽車。現有的一些5級自動駕駛系統,其實依賴於預先設定好的環境地圖,遠非真正的自主駕駛。
這說明我們錯過了某些關鍵的內容。這個現像其實是“Moravec悖論”的新體現:對人類來說簡單的事情對AI來說很難,反之亦然。尤其是涉及現實世界的感知和行動時,AI的表現遠不如人類。
現有的AI在處理現實世界的複雜性上還存在很大不足,而這些挑戰主要來自於對現實世界的感知和行動控制的複雜性。解決這些問題需要新的計算思路和模型。
今天的典型大型語言模型(LLM)是在大約20兆個標記上進行訓練的。這聽起來很多,但實際上這些標記並不等同於單詞。每個標記通常表示的是子詞單位,所以這些訓練資料大約相當於不到20兆個單詞。你可以想像一下,這幾乎涵蓋了整個網際網路上公開的文字內容。
與此相比,一個四歲的人類孩子在醒著的時間裡,總共只經歷了大約16,000小時的資料輸入。這麼看來,似乎人類接觸的資料要少得多,但實際上並非如此。我們的大腦通過視神經從眼睛接收了大量關於現實世界的資訊。雖然這些資訊經過壓縮後傳送到大腦,但四年間孩子接收到的關於現實世界的感官資料,遠遠超過了LLM從網際網路文字中獲得的訓練資料。這意味著,僅僅通過訓練模型讀取文字,是無法達到像人類那樣的智能水平的。因為要真正理解世界,系統需要像人類一樣,通過視覺、觸覺等高頻寬的輸入來學習世界。儘管盲人能通過其他感官變得非常聰明,但這種學習的多樣性和廣泛性是LLM無法通過純文字學習所具備的。
嬰兒通過觀察,花了幾個月的時間去學習世界的基本概念。比如,嬰兒在大約出生兩個月時,就能開始理解物體的持久性。到六個月時,他們已經明白了物體的堅固性和穩定性。而一些直覺上的物理知識,比如重力和慣性,嬰兒在九個月左右時就開始掌握了。同樣,有些動物,比如小山羊,在出生後不久就能理解這些物理現象。但對嬰兒來說,這個學習過程需要幾個月的觀察。四個月前,嬰兒幾乎不與外界互動,更多的是通過觀察世界來獲取資訊。等到他們八個月大的時候,你會看到他們開始將玩具扔到地上,這是他們在做“重力實驗”,試圖理解這個新的物體是否也受重力的影響。
基於這些觀察,我們可以推測,如果能開發出一種像LLM那樣通過視訊預測學習的模型,也許我們可以教會機器理解世界是如何運作的。過去15年,我的研究一直圍繞著這一問題:通過讓模型預測視訊的方式,讓系統學習如何理解現實世界。這個想法在神經科學領域已經存在了很久。具體來說,我們給系統一段視訊,然後讓它預測接下來會發生什麼,就像訓練LLM預測文字中的下一個單詞一樣。我們還可以給系統一些額外的變數,比如它可能要採取的動作,然後讓系統預測這些動作會導致什麼樣的結果。
但是,事實證明,這種方法並不奏效。因為在實際操作中,視訊中可能發生的事情太多,系統無法精準預測。系統往往會給出一個模糊的、折中的答案,因為它無法決定那個預測是精準的。為了應對這一問題,我們提出了一種新的方法,稱為“聯合嵌入預測架構”(JEPA)。與之前不同的是,這種方法不再試圖讓系統預測視訊中的所有細節,而是讓系統預測視訊的抽象表示。這種抽象表示捕捉了視訊中最重要的資訊,而不是去猜測無法預測的細節。
舉個例子,如果我拍攝這個房間的視訊,然後關閉攝影機,系統可以預測出這是一間會議室,裡面有很多人,但它無法預測每個人的長相或牆壁的具體顏色。通過聯合嵌入架構,系統只會關注可以預測的內容,而不再浪費資源去處理那些無關緊要的細節。然而,這種架構也有其問題。如果訓練時僅僅最小化預測誤差,系統可能會忽略輸入資訊,導致不好的結果。因此,新的挑戰在於如何確保系統對不相容的資料對(即訓練集中沒有見過的組合)也能做出合理的預測。當前的生成模型在理解世界的複雜性方面存在很大侷限,而聯合嵌入預測架構為我們提供了新的思路。通過這種方式,系統可以逐步學會在不同的情況下做出合理的預測,最終接近人類的認知水平。
他們使用了一種叫“對比學習”的方法,比如來自Google團隊的SIMCLIR,團隊成員包括Jeff Hinton。還有我在90年代推動的“孿生網路”(Siamese Nets)。對比學習的一個問題是,它生成的嵌入表示通常維度較低,結果有時會顯得退化。
因此,我更喜歡“正則化”方法。正則化的核心思路是,儘量減少低能耗空間的佔用量。也就是說,當你降低某個區域的能量時,其他區域的能量就必須上升,因為低能耗的空間是有限的。雖然這聽起來有點抽象,但實際上有幾種方法可以實現這一點。現在,我會給大家解釋如何測試這些系統是否有效。
在圖像識別的背景下,你可以拿兩張相同的圖片,把其中一張破壞或改變一下,比如調整大小、旋轉、改變顏色,甚至掩蓋圖片的一部分。然後,你訓練一個編碼器和一個預測器,讓它從損壞的圖片中預測出原始圖片的表示。訓練完成後,你可以移除預測器,把編碼器用作分類器的輸入,接著用監督學習來完成任務,比如識別圖片中的對象。這種方法在從圖像中提取通用特徵方面非常有效。相比之下,一些使用生成模型的系統,比如自動編碼器(Autoencoders)、變分自動編碼器(VAEs)等,效果不如聯合嵌入架構。這種聯合嵌入的方法在多項任務中表現出色,尤其是在最大化編碼器提取的資訊量時效果尤為明顯。
為了實現這一點,我們使用了一個叫“方差-協方差正則化”(VCRG)的技巧。這個方法確保每個編碼器輸出的變數有足夠的方差,同時也儘量減少這些變數之間的相關性,保證每個變數都是獨立的。還有一種非常有效的方法叫“蒸餾法”。蒸餾法通過兩個編碼器共享權重,其中一個編碼器的權重是另一個編碼器權重的時間平均值。這種方法雖然原理上有些神秘,但實際效果非常好,像DeepMind的BYOL和Meta的Dinov2等模型都是基於這種方法建構的。
例如,Dinov2是一個通用的圖像特徵提取器。如果你有一個隨機的電腦視覺問題,你可以下載Dinov2,它會從圖像中提取特徵,並用少量的樣本訓練一個分類器來解決問題。這個模型在醫學成像、生物成像等領域也表現得非常出色。我們最近開發的IJEPA方法在學習視覺特徵方面也非常有效。雖然我不想讓大家陷入過多的技術細節,但可以肯定的是,IJEPA比基於重建的方法表現更好。
現在,我們正在嘗試將這些方法應用到視訊中。事實證明,如果我們訓練系統進行時間預測,效果並不好。但如果我們讓系統進行空間預測,效果會非常好,甚至在某些情況下,系統還能展示出一些常識和物理直覺。比如,當系統看到一個物體憑空消失時,它會意識到“有些不對勁”,預測誤差會明顯上升,這說明系統能夠理解基本的物理規律。最後,我們可以用這些系統訓練“世界模型”,並用這些模型進行規劃。比如,我們可以給系統一個環境和一系列動作,讓它預測執行動作後的結果。通過這種方式,我們可以規劃出一系列操作,達到某個目標。
我們已經在一些簡單的任務上測試了這個系統,例如在迷宮中移動物體、推動物體到指定位置等任務上,結果都非常不錯。我們還在一個複雜的任務中測試了這個系統,比如通過機械臂移動桌面上的物體,並成功實現了目標。這證明了系統的強大能力。
讓我再演示一次這個系統。我們從一堆隨機放置的籌碼開始,系統會使用一系列動作推動這些籌碼,直到它們排成一個方形。你看不到動作的過程,只能看到結果。系統在這裡是“開環”的,這意味著它會根據初始條件做出一系列預測動作,然後盲目地執行這些動作,完全不管中間發生了什麼。你現在看到的就是這些動作執行後的結果。
好了,現在總結一下我今天的演講,有五個主要建議:
LLM並不會是下一場AI革命的關鍵,也不會幫助系統真正理解物理世界。更重要的是,大公司已經投入大量資源研究LLM,你沒有太多可以貢獻的餘地。雖然LLM目前在很多領域有應用,但它們的壽命大概只有三到五年。以後,LLM可能會成為更大系統的一部分,但主流架構將會不同。如果你想找一份工作,可以考慮從事LLM相關工作,但未來的AI革命不會依賴於此。
現在,還有很多問題需要解決,比如分層規劃——如果你對此感興趣,這將是一個很好的博士研究課題。同時,基於能量的模型還有很多基礎理論問題需要攻克。我們現在的目標是在未來十年內,開發出具有人類水平智能的虛擬助手。這種助手將會幫助我們更好地處理日常問題,成為我們的導師、教授,甚至幫助放大人類的智慧,類似於15世紀印刷機帶來的知識革命。然而,要實現這一目標,AI平台必須是開放原始碼的。現在,訓練大規模AI模型的成本非常高,只有少數幾家公司能做到。更重要的是,我們現在能使用的資料主要是英文文字,覆蓋面很有限。未來的AI系統需要在全球範圍內訓練,能夠訪問不同語言和文化的資料,這樣才能代表所有人類知識的寶庫。
這種系統需要全球合作,分佈式訓練,才能確保它不僅服務於少數公司或國家的利益。我們不能只依賴於幾家美國公司提供的AI模型,因為這對全球許多政府來說是不可接受的。就像新聞界需要多樣化的聲音,AI系統也需要多樣性。我們不能只有幾家公司的AI系統來主導整個世界的智能發展。有些人擔心讓每個人都能使用AI技術的風險,但我認為好處遠遠超過了風險。真正的危險在於,如果AI被少數公司控制,而這些公司不透明,才會對未來造成嚴重威脅。因此,開放原始碼的AI是非常必要的,不能因為監管而被阻止。
總的來說,如果我們做得對,AI可能會帶來一次新的知識復興,類似於15世紀印刷術帶來的革命性變化。我們應該努力朝著這個目標前進,讓AI真正放大人類的智慧。 (AI深度研究員)