近日, Meta首席AI科學家楊立昆接受海外播客This Is IT 的專訪,對話中深入探討了深度學習的發展歷程、機器學習的三種範式、莫拉維克悖論與AI發展的限制、訓練AI模型的資源、AI基礎設施投資等話題。
楊立昆指出了當前AI發展的3個關鍵限制:物理世界比語言複雜,莫拉維克悖論(電腦可以下棋、解決數學難題,但無法完成簡單的物理任務),感官資訊量遠大於語言。楊立昆認為,缺少訓練系統理解複雜感官資料(如視覺)的能力是當前AI發展的最為關鍵的限制。
他還反駁了AI發展因資料耗盡而終結的觀點,認為訓練AI模型的全球資源遠沒有到盡頭,AI發展仍將繼續。
此外,他強調從觀測中推匯出抽象表徵對深度學習至關重要,他還預測未來十年將是機器人的十年,AI領域很可能取得重大突破,從而創造出更通用的機器人。
關於AI基礎設施投資,楊立昆認為,最終大部分的基礎設施和投資都是用於運行模型,而不是訓練模型。
以下是對話實錄,經翻譯編輯:
主持人:非常榮幸能邀請到您。我的第一個問題是關於您的研究。您在Google Scholar上的論文被引用了50萬次。是什麼讓您與Jeffrey Hinton的合作,特別是深度學習方面的研究如此具有開創性?
Yann LeCun:可能您指的是Yoshua Bengio、我和Jeff Hinton在2015年發表在Nature上的一篇論文,坦率地說,這篇論文並沒有提出什麼新內容。事實上,它更像是一份宣言,或者說是一篇綜述性文章,其目的是向更廣泛的科學界和研究人員介紹一系列效果非常好的新技術。我們在文中列舉了這些方法的應用範圍,以及未來研究方向的建議。您可以說,這是深度學習普及化的一個公開開端。然而,在這篇文章中,我們實際上並沒有展示任何新的研究成果。新的成果和大多數其他引用都來自我在上世紀80年代和90年代的工作。
主持人:您還記得這種受歡迎程度是從什麼時候開始出現的嗎?什麼時候出現了一個歷史性的轉折點,讓人們意識到,這是有史以來最傑出的研究工作之一?
Yann LeCun:實際上經歷了兩次浪潮。第一次是在80年代末,當時我們開始使用多層神經網路(也就是我們現在所說的深度學習)在圖像識別等任務上取得非常好的效果。那時候,我們還不能識別複雜的圖像,這些技術主要應用於相對簡單的圖像,比如手寫數字之類的,但效果已經非常出色了。當我們取得這些成果時,我非常興奮,因為我認為這可能會徹底改變我們進行模式識別的方式,並最終引領我們進入電腦視覺,甚至可能實現通用人工智慧。因此,從80年代末到90年代中期,出現了一股熱潮,但這股熱潮在90年代中期左右逐漸消退。原因是,我們開發的技術需要海量資料進行訓練,而在網際網路時代之前,高品質的資料只存在於少數應用中,例如手寫字符識別、字元識別或語音識別,基本上就這些了。此外,當時運行這些技術所需的電腦非常昂貴,這需要巨額投資。因此,在90年代中期,人們對這個領域的興趣逐漸減弱。
隨後,在21世紀初,人們的興趣開始逐漸回升,尤其是在2010年之後,大約在2013年,出現了真正的爆發式增長。2014年是關鍵的一年。研究界意識到深度學習非常有效,並且可以應用於許多不同的領域,自那時起,它就一直以驚人的速度發展。2015年,又出現了另一個轉折點。
主持人:現在,我們的目標是讓人工智慧達到人類的能力水平。您認為它是否也會繼承人類的缺陷,比如憤怒、嫉妒和其他類似的特徵?
Yann LeCun:不,我認為不會。目前的人工智慧系統在很多方面都還非常“笨”。我們誤以為它們很智能,是因為它們能很好地處理語言,但它們並不理解物理世界,也沒有像我們一樣的長期記憶。它們無法真正地進行推理或規劃,而這些才是智能行為的關鍵特徵。因此,我和我的合作者目前在Meta的人工智慧研究實驗室FAIR以及紐約大學,共同致力於設計一種新型的人工智慧系統,該系統仍然基於深度學習,但能夠在物理世界中運行,擁有長期記憶,並具備推理和規劃能力。我認為,當我們成功建構出這樣的系統時,它們將會擁有情感。它們會感受到諸如恐懼、興奮或喜悅之類的情感,因為這些情感與對結果的預測有關。這些系統本質上將通過實現我們為其設定的目標來運作。我們給它們佈置任務,它們會嘗試確定採取那些行動來實現這些目標。如果它們能提前預測到目標將會實現,就可以說這會給它們帶來某種程度的滿足感。反之,如果它們預測無法實現目標,就不會有這種感覺。
因此,在某種意義上,它們將擁有情感,因為它們能夠預測一系列行動的後果。然而,我們不會刻意地在它們身上植入任何類似於憤怒、嫉妒之類的東西,也不會植入意識之類的東西,因為我們的意識是另一回事。我們並不知道意識究竟是什麼,也沒有一個明確的定義。目前還沒有一個明確的指標可以告訴我們某個事物是否具有意識。例如,當我們觀察動物時,我們可能都會認同靈長類動物和猴子是有意識的,也許大象和其他類似的動物也是如此。
主持人:Roger Penrose在我們的訪談中也表達了類似的觀點,看來您和他的看法一致。
Yann LeCun:是的。但您知道,他是一位哲學家。
主持人:開個玩笑,狗有意識嗎?老鼠呢?意識的邊界在那裡?正是因為我們沒有明確的定義,所以很難回答這些問題。
主持人:大約一年前,您曾說過機器學習是“胡扯”。現在有什麼改變嗎?
Yann LeCun:這正是我們目前正在努力的方向。
主持人:考慮到當前人工智慧的發展。
Yann LeCun:我們正在研究新的機器學習方法,讓AI系統能夠像人類和動物一樣高效地學習,因為目前還做不到這一點,我可以簡單介紹一下機器學習在過去幾十年的發展歷程。基本上有三種範式。
第一種是所謂的監督學習,這是最經典的一種。在這種方法中,我們通過向系統展示圖像(例如桌子的圖像)來訓練圖像識別系統。我們會告訴系統:“這是一張桌子。”這就是監督學習,因為我們向系統提供了正確的答案。系統計算輸出結果,如果輸出與“桌子”不同,它就會調整自身的參數(即內部結構),使生成的結果更接近預期結果。如果我們在大量樣本上重複這個過程,包括桌子、椅子、汽車、貓、狗等等,系統不僅能學會識別訓練過的圖像,還能識別出與之相似的圖像,即使它以前從未見過這些圖像。我們稱之為泛化能力。
還有另一種範式,被許多人認為更接近人類和動物的學習方式,叫做強化學習。在這種方法中,我們不向系統提供正確的答案,只提供結果是好是壞的資訊。在某種意義上,這反映了我們學習騎自行車的過程。我們不斷嘗試,一開始並不知道如何掌握平衡,會摔倒,這給我們一個訊號:某些地方出錯了。然後我們稍微調整策略,最終學會騎自行車。然而,事實證明,強化學習的效率極低。在訓練系統下棋、圍棋、撲克或其他類似遊戲時,強化學習非常有效。我們可以讓系統自我對弈數百萬次,從而提高其技能,但在現實世界中,這種方法卻行不通。如果我們想訓練一輛自動駕駛汽車,僅僅依靠強化學習是不夠的,汽車會發生無數次事故。類似地,如果我們教機器人抓取物體,強化學習可能只是解決方案的一部分,但並非全部,它還遠遠不夠。
因此,出現了第三種學習方式,稱為自監督學習。正是這種學習方式推動了自然語言理解和聊天機器人領域的最新進展。在這種學習方式中,我們並不訓練系統執行特定任務,而是讓它學習捕獲輸入資料(例如文字)的內在結構。我們選取一段文字,以某種方式進行破壞,例如移除一些單詞,然後訓練一個大型神經網路來預測缺失的單詞。一個特例是,我們選取一段文字,隱藏最後一個單詞,然後訓練系統預測這個單詞。大語言模型正是基於這一原理進行訓練的。每個聊天機器人都是這樣訓練出來的。從技術上講,某些方面會略有不同,但這是核心原理。我們稱之為自監督學習。我們不訓練系統執行特定任務,而是讓它學習輸入資料中的內在關聯。這種方法的成功令人震驚。它非常有效,由此產生的系統似乎真的能夠理解語言。如果再結合監督學習或強化學習進行改進,它就可以回答問題。
主持人:這就是整個行業都在努力的方向,
Yann LeCun:對,但是如果我們想讓系統理解物理世界,僅有大語言模型是不夠的,還缺少一些關鍵要素。
主持人:缺少一些關鍵要素。
Yann LeCun:是的。物理世界遠比語言複雜。我們誤以為語言是智能的象徵,因為只有人類才能操縱它。但實際上,語言很簡單,因為它具有離散性,是由一系列離散的符號組成的。字典裡的詞彙數量有限。因此,我們不可能訓練出一個系統來精確預測下一個出現的詞,但可以訓練它評估每個詞出現的機率。這樣,就可以處理預測的不確定性。然而,我們無法訓練一個系統來預測視訊裡接下來會發生什麼。我嘗試了20年,很多人都有這個想法,大家都認為,如果能訓練一個系統預測視訊內容,那麼這個系統就隱含地理解了世界的基本結構,也就是“直觀物理學”,這是每個動物和嬰兒都具備的能力,能理解物理定律。
主持人:是的,物理直覺。
Yann LeCun:例如,物體會下落,是因為重力把它拉向地球。嬰兒大約在九個月大的時候就能理解這一點。也許,當前AI發展的限制在於我們對現實的認知。我們無法創造出超越自身理解能力的東西。我們不清楚重力是如何產生的,也不知道量子世界如何轉變為經典世界。
Yann LeCun:但這實際上是個簡單的問題。貓和狗能在幾個月內就理解重力,不是嗎?貓尤其擅長利用重力,它們可以規劃複雜的行動,比如攀爬、跳躍等等。顯然,它們對“直觀物理學”有很好的理解,但我們仍然無法在電腦中複製這一點。另一個例子是AI研究領域中的莫拉維克悖論。
主持人:莫拉維克悖論。
Yann LeCun:Hans Moravec是一位機器人學家,他注意到,電腦可以下棋、解決數學難題,但我們卻無法讓它們完成一些簡單的物理任務,比如操縱物體、跳躍,而這些任務動物卻可以輕鬆完成。這是莫拉維克悖論的又一個體現,電腦可以輕鬆處理離散的對象和符號空間,但現實世界過於複雜,在一種情況下有效的技術,在另一種情況下可能完全失效。
主持人:好的。
Yann LeCun:一個很好的例子是比較我們通過感官(如視覺或觸覺)獲取的資訊量,和通過語言獲取的資訊量。感官獲取的資訊量遠大於語言。這解釋了為什麼我們擁有了大語言模型,可以建立聊天機器人。它們可以通過律師資格考試,解決數學難題,甚至可以寫出非常流暢的文章。但是,我們仍然沒有真正意義上的機器人。我們還沒能製造出可以完成貓狗能做的任務的機器人,也沒有實現L5等級的自動駕駛汽車。更不用說像17歲的青少年那樣,經過20小時訓練就能學會開車。顯然,有些關鍵的東西缺失了,我們缺少的是訓練系統理解複雜感官資料(比如視覺)的能力。如果我們希望機器像人類和動物一樣高效地學習,這是必不可少的。
主持人:是的。
Yann LeCun:如果我們希望機器擁有與動物和人類相似的智能,並具備常識,那麼它們最終可能也會擁有意識和其他人類特徵。然而,為了讓機器在真正複雜的環境中運作,我們必須解決這個問題。這就是我們正在努力的方向。
讓我給你舉一個非常簡單的例子。一個典型的大語言模型大約是在200億到2兆個Token上訓練的。Token差不多就是一個詞。通常,一個Token用三個字節表示,200億到2兆個Token,每個Token三個字節,總共大約是10的14次方字節,也就是1後面跟著14個零。這幾乎是網際網路上所有公開文字的總和。一個人要花幾十萬年才能讀完這些材料,這是海量的資訊。現在,我們來比較一下這個資料量和一個孩子在出生後頭四年裡,通過視覺系統接收到的資訊量。結果發現,兩者大致相當。一個孩子在四年裡,大約有1.6萬個小時是醒著的,視神經每秒傳輸的資訊量大約是2MB。計算下來,也是大約10的14次方字節,基本相同。也就是說,一個四歲的孩子所看到的視覺資料,和最大的語言模型訓練所用的文字資料量相當。這表明,僅僅依靠文字訓練,我們永遠無法實現接近人類水平的AI。我們必須學會讓AI理解真實世界,而這非常困難。
主持人:你在LinkedIn和Facebook的帖子中,將AI與熵的概念聯絡起來。這兩者有什麼關係?因為你寫的內容非常難理解。你能否用更簡單的話解釋一下?
Yann LeCun:好吧,這已經成了我非常著迷的一個問題。有一個基本問題是電腦科學、物理學、資訊理論以及許多其他領域的基礎。這個問題是:資訊如何被量化?或者說,一條資訊包含了多少資訊?我一直強調的是,一條資訊所包含的資訊量並不是一個絕對值,它取決於資訊的接收者。我們能從感官資料、資訊或者別人的語言中提取多少資訊,取決於我們如何解讀它。認為資訊可以被絕對地衡量,這種觀點可能是錯誤的。任何資訊的度量都是相對的,取決於具體的解讀方式。這就是我的意思。這個觀點的意義非常深遠,因為如果沒有絕對的方法來衡量資訊,那麼物理學中的許多概念,比如熵,就沒有真正客觀的定義。熵是對我們對物理系統狀態無知程度的度量,它顯然取決於我們對這個系統的瞭解程度。這就是為什麼我一直致力於尋找定義相對的熵、複雜性和資訊含量的方法。
主持人:你是否認為我們用於訓練AI模型的全球資源已經耗盡了?我們已經數位化了100%的資料。而在2000年,只有25%的資料被數位化。這是不是意味著AI發展的終結?
Yann LeCun:遠沒有到盡頭。還有大量的文字知識沒有被數位化。在許多發達國家,大部分資料可能已經被數位化了,但大部分資料都不是公開的。例如,大量的醫療資料是不公開的。此外,世界上許多地區還有大量的文化和歷史資料沒有被數位化。即使被數位化了,也往往是掃描文件,而不是純文字資料。所以,說資料已經耗儘是不對的。我認為還有很多資料。這也引出了關於現實本質的問題,例如,我們不知道物質是如何在大腦中產生意識的,所以我們在這方面沒有任何知識,但也許將來我們能夠瞭解。我認為我們不應該過分糾結於意識的本質,但世界上很多人對此非常著迷。
主持人:世界上的某些地區,對“意識”這個問題極度關注。
Yann LeCun:坦率地說,我認為這是一種現象。我們之所以找不到一個關於“意識”的精準定義,可能是因為我們問錯了問題。舉個例子。早在18世紀,實際上17世紀人們就發現,光線通過瞳孔和晶狀體,最終落在視網膜上的圖像是倒置的,人們當時非常驚訝:視網膜上的圖像是反的,我們怎麼能看到正的世界呢?這在當時是個謎。直到後來人們意識到這個問題本身沒有意義,關鍵在於我們的大腦如何解釋圖像,和圖像在視網膜上如何成像沒有關係。
我認為“意識”也是類似的,我們總認為它存在,但又無法精準定義。意識或許使我們人類變得獨特,但這可能只是人與其他事物不同的眾多原因之一。當然,我的觀點也不一定完全精準。我的意思是,有很多因素讓我們彼此不同。每個人都有不同的經歷,學習不同的東西,我們在不同的環境中長大,我們的大腦結構也略有不同。每個人都是獨一無二的。從進化的角度看,這種獨特性至關重要,因為人類是社會性動物。這就是為什麼當群體中不同的人擁有略微不同的技能時,會形成巨大的優勢,因為他們可以互通有無、集思廣益。如果每個人都完全相同,就不會有“人多力量大”的優勢,但因為我們彼此不同,我們的多樣性反而讓我們更強大。這正是進化的結果,它可以通過大腦結構和功能的細微差異、神經遞質、激素和其他因素的調控差異來實現,這些因素造就了我們的獨特性。
主持人:那麼像O1這樣的自由推理和抽象思維模型呢?您的實驗室會有類似的研究成果嗎?
Yann LeCun:從觀測中推匯出抽象表徵,這個問題對於深度學習至關重要。深度學習的核心就是學習表徵。事實上,有一個致力於深度學習的主要會議,叫做“國際學習表徵會議”(ICLR),這是我和Yoshua Bengio共同創辦的。這足以表明學習抽象表徵的問題對於整個AI領域,特別是深度學習,是多麼重要。現在,如果我們希望一個系統能夠推理,就需要一套完全不同的特性。本質上,傳統AI中的推理或規劃,不僅僅是在基於機器學習的系統中,從20世紀50年代以來,一直都是在尋找特定問題的解決方案。
例如,如果我給你一份城市清單,讓你找出“經過所有這些城市的最短路線”,你會想,“我應該把距離近的城市連接起來,使總路線最短”。所有可能的路線構成了一個空間,也就是所有城市排列組合的集合。這是個巨大的空間,而演算法(例如GPS導航裡的演算法)會在這個空間裡搜尋,找到所有可能路徑中最短的那一條。所有的推理系統都基於搜尋的思想。在可能的解決方案空間中,我們尋找最符合目標的那個方案。當前系統實現這種搜尋的方式,也就是當前的大語言模型,很多都非常原始。它們在所謂的Token空間(也就是輸出空間)中進行搜尋。
本質上,系統會生成許多不同的Token序列,或多或少有些隨機性,然後另一個神經網路會審查所有這些假設的序列,從中選出看起來最好的一個,然後返回這個結果。這種方式的計算成本非常高,因為它需要生成大量的結果,然後再從中挑選。而且這並不是人類的思考方式。我們思考時,不會先產生大量可能的行動,然後分析結果,再選出最好的一個。這不是我們的思考方式。
舉個例子,如果我讓你“想像一個立方體懸浮在你面前的空中”,然後“把這個立方體繞垂直軸旋轉90度”。你現在想像出了一個旋轉了90度的立方體,再進一步想像,告訴我,旋轉後的立方體和旋轉前看起來一樣嗎?一樣的。答案是肯定的,因為我們知道立方體的特性,我們知道如果將它旋轉90度,從相同的視角觀察,它看起來仍然是一樣的。
主持人:您的意思是,這是自由推理的錯覺?
Yann LeCun:不。我們是在進行一種內在的、在我們的精神狀態中的推理,而不是在外在的行動空間、物理世界或者輸出結果中進行推理。我們在抽象空間中推理,這就是為什麼我們擁有關於世界的“心理模型”,這些模型使我們能夠預測將要發生的事情,從而能夠預先推演,預測我們行動的後果。如果我們能夠預測行動的後果,比如旋轉立方體90度,或者其他任何事情,我們就可以規劃一系列行動來實現特定目標,當我們有意識地執行任務時,我們所有的注意力都會集中在這上面,我們會思考需要什麼樣的行動順序,比如組裝宜家的家具,用木頭搭建東西,或者做任何事情,基本上,當我們使用大腦來規劃這類任務時,我們每天都在這樣做。
此外,我們通常會進行分層規劃,所以我們不會直接行動。例如,你最終要返回華沙,如果你現在決定從紐約返回華沙,你知道你首先需要去機場趕飛機。這就給你設定了一個中間目標:去機場。這就是分層規劃的含義。我們會根據最終目標來設定中間目標。你的最終目標是返回華沙,而其中一個中間目標就是到達機場。如何到達機場?我們現在在紐約,所以你走到街上,打一輛計程車。如何在街上行走?你必須離開大樓,走到電梯前,乘電梯下樓,然後走到街上。要到達電梯,你必須起身,走到門口,打開門。在這個過程中,你會不斷細化目標,直到達到一個足夠具體、不需要進一步規劃的程度,比如從椅子上站起來,這個動作你會自動完成,因為你已經習慣了,並且擁有所有必要的資訊。
因此,我們將不得不使用分層規劃的概念,智能系統必須在分層等級上運行,這一點至關重要。我們目前還不知道如何在機器中實現這一點。這是未來幾年的一個巨大挑戰。
主持人:這就是為什麼您在達沃斯花了這麼多時間討論機器人技術嗎?您在那裡談到了即將到來的機器人十年。機器人技術在過去和現在都經歷了長期的資金短缺。為什麼這次會有所不同?
Yann LeCun:是的,關於機器人技術。我的意思是,機器人已經被廣泛應用,但是它們主要被用於特定的場景。
主持人:這次的不同之處在於,是電子感測器、更好的模擬器,還是什麼?
Yann LeCun:機器人適用於那些相對簡單,並且可以用非常簡單的方式自動化的任務,在這些任務中,感知系統不需要太複雜。例如,工廠裡的生產機器人可以給汽車噴漆、組裝零件,以及執行類似的活動,前提是所有東西都始終在固定的位置。這些機器人基本上只是自動裝置。但是,讓我們考慮另一個任務,比如駕駛車輛。自動駕駛汽車或者帶有駕駛員輔助系統的車輛,也是一種機器人。然而,我們目前還沒有像人類駕駛員一樣可靠的自動駕駛汽車。我的意思是,這樣的解決方案是存在的,但它們有點“作弊”的成分,因為它們使用的感測器比人類的感官要先進得多。
主持人:但是Musk說特斯拉將在未來五年內實現L5級自動駕駛。他已經說了八年了。過去八年他一直說“明年就能實現”,但顯然並沒有。所以我們不能再相信他在這方面的說法了,因為他一直都在說錯話。要麼是他自認為正確,但結果是錯的,要麼他就是在撒謊。
Yann LeCun:我認為這是他激勵團隊成員不斷進步、力爭每年都有突破的一種方式。是的,但對於一個工程師或者科學家來說,聽到公司的CEO說你投入整個職業生涯去研究的問題將在明年得到解決,這種感覺其實非常不好受。所以,情況就是這樣。
主持人:因此,您認為我們這個時代最大的挑戰是AI、機器人和感測器的整合以及如何巧妙地運用它們嗎?
Yann LeCun:如果我們能夠建構理解物理世界、擁有持久記憶、能夠推理和計畫的AI系統,那麼我們就有能力開發出適應性更強的機器人。過去一兩年,我們見證了許多機器人公司的崛起,他們製造人形機器人等裝置,演示效果令人印象深刻。然而,這些機器人的能力非常有限。它們無法完成人類能做的事情,並非因為缺乏身體能力,而是因為智能化程度不足以應對現實世界。因此,許多公司寄希望於AI在未來三到五年內取得快速進展,這樣當他們準備大規模銷售和生產這些機器人時,AI的進步能讓它們具備足夠的智能。這是一場高風險的賭注。我無法斷言這是否會在未來三到五年內實現,但在未來十年內,AI領域很可能取得重大突破,從而創造出更通用的機器人。因此,我認為未來十年將是機器人的十年。
主持人:看到當今AI發展的穩步進展,您是否感到驚訝?
Yann LeCun:不,其實並不驚訝。
主持人:現在,全世界都在討論中國的新模型DeepSeek,它是開放原始碼軟體,而且比美國的同類產品便宜得多。您是否覺得我們已經錯過了時機?您對此有何看法?
Yann LeCun:好,這裡需要澄清一下。如果任何研究或工作的成果以公開的方式發佈,例如通過科學論文或白皮書描述其技術細節,並且程式碼是開放原始碼的,那麼整個世界都會受益,不僅僅是創造者或團隊。創造者或團隊會獲得聲望、認可,甚至可能獲得投資,但整個世界都能從中獲得實際利益。這就是開放研究和開放原始碼的魅力所在。Meta、我自己以及整個Meta公司,都是開放研究和開源理念的堅定支持者。每當有人進行開放研究並行布開放原始碼軟體時,整個社區都會受益。人們誤以為這是競爭,但實際上更多的是合作。問題在於,我們是否希望這種合作是全球性的?我的回答是肯定的,因為好的想法可以在世界任何地方產生。以Llama為例,這是Meta發佈的第一個大語言模型,雖然不是我們發佈的第一個LLM,但之前的模型沒有引起太大關注。這個模型是在巴黎的實驗室開發的。
主持人:您知道,是在巴黎開發的。
Yann LeCun:是的,就是那個實驗室,我十年前建立的實驗室。那是巴黎FAIR實驗室,有100多名科學家在那裡工作。許多優秀的項目都誕生於巴黎實驗室,以及我們在蒙特利爾的實驗室。AI研究社區是真正全球化的。每個人都在貢獻。沒有任何機構能壟斷好想法,因此開放合作加速了這一領域的進步。這也是我們積極倡導這種開放模式的原因,因為與其他科學家交流能促進整個領域更快地發展。的確,業界有些人利用開放研究成果取得了領先地位。OpenAI就是一個例子。Anthropic從未公開其技術,所以他們的一切都是保密的。而Google,很大程度上是受我們的影響,已經從部分開放走向了全面開放,現在又回到了部分封閉的狀態。例如,他們並沒有公開Gemini背後的所有技術。他們仍然進行大量的開放研究,但主要集中在更基礎、更長遠的問題上。我認為這很令人遺憾,因為這意味著許多人被排除在研究社區之外,無法參與並為進步做出貢獻。過去十年AI發展如此迅猛,正是因為開放研究。我們必須認識到這一點。
主持人:您真的這麼認為嗎?
Yann LeCun:當然,這是事實,並非只有我這麼認為。這不是一種信念,而是事實。舉個例子,幾乎整個AI行業在建構系統時,至少在研發階段,都會使用一個名為PyTorch的軟體。PyTorch是開放且開放原始碼的。最初是由我在Meta的同事,也就是FAIR團隊開發的,後來由更廣泛的社區共同維護。幾年前,PyTorch的所有權被轉移到了Linux基金會,因此Meta不再擁有它。Meta仍然是主要的貢獻者,但不控制它。它基本上是由程式設計社區來管理的。整個行業都在使用它,包括OpenAI和Anthropic。Google有自己的解決方案,但Microsoft、Nvidia以及其他所有公司都在使用PyTorch。整個學術研究界也都在使用PyTorch。據我所知,在科學文獻中發表的論文中,大約70%都提到了PyTorch。這表明AI的進步是建立在共享他人成果的基礎上的,而這正是科學和技術進步的方式。
主持人:如果不是DeepSeek,或許美國的Stargate項目能改變一切?
Yann LeCun:不,不會,絕對不會。
主持人:您覺得這不是人類歷史上最大的項目嗎?
Yann LeCun:請允許我再補充一點關於DeepSeek的資訊。這是一項出色的工作。參與這個項目的人們提出了非常好的想法。他們做得非常棒。這並不是中國第一次產出具有創新性的成果。我們早就知道這一點,特別是在電腦視覺領域。中國對大語言模型的貢獻相對較新,但在電腦視覺領域,這已經有很長的歷史了。看看那些頂級的電腦視覺會議,一半的參會者都是中國人。那裡有非常優秀的科學家,非常聰明的人才,所以無論是美國、歐洲,還是世界上任何其他地區,都沒有壟斷好想法。DeepSeek的想法可能會在幾周內被其他人復現,並可能被整合到美國、歐洲、中東或其他任何地方的實體開發的未來版本中。現在,它已經成為全球知識的一部分,這正是開放研究和開放原始碼的魅力。這不是產品層面的競爭,而是在基礎方法層面的合作。現在,我們來談談Stargate。所有AI公司都預見到,在不久的將來,數十億人每天都將使用AI助手。
主持人:在那裡。
Yann LeCun:要知道,未來將有數十億人使用AI。
主持人:我現在戴著的眼鏡,你可能看不清楚,但它們內建了攝影機。據說這是Meta製造的。沒錯,它們是Meta的產品。我們可以跟眼鏡對話,因為它們連接了一個AI系統,我們可以向這個AI系統提出任何問題。我們甚至可以讓它識別相機拍攝到的植物種類等等。因此,我們可以預見到,未來人們會佩戴智能眼鏡,或者使用智慧型手機和其他智能裝置,AI助手將成為他們日常生活中不可或缺的一部分,協助處理各種日常任務。這意味著這些AI系統將擁有數十億使用者,並且每天會被頻繁使用。這需要龐大的計算基礎設施來支撐,因為運行一個大語言模型或者任何其他類型的AI系統,成本都非常高昂。需要大量的計算能力,而大部分的投資都集中在這方面。
Meta今年在基礎設施上的投資額大約在600億到650億美元之間,主要用於AI領域。微軟也宣佈了800億美元左右的投資計畫。另一方面,Stargate項目的投資額高達5000億美元,預計將在5到10年內完成,但資金來源尚不明確。這些投資的規模都是相當可觀的,與微軟和Meta已經進行的投資沒有顯著差別。這些支出中的大部分是推理成本,也就是運行AI系統來服務數十億使用者的成本。這與訓練大模型無關,訓練大模型的成本實際上相對較低。
因此,我認為,最近幾天金融市場對DeepSeek發佈的反應——認為我們可以訓練更便宜的模型,從而不再需要那麼多電腦——是完全錯誤的。訓練成本可能會略微降低,我們會回歸到一個更合理的狀態。我的意思是,訓練效率只會略微提高,但因此,我們會訓練更大的模型。最終,大部分的基礎設施和投資都是用於運行模型,而不是訓練模型。這才是投資支出的重點。
主持人:我這裡有一個來自觀眾的問題。
JEPA 架構的潛力
主持人:提出了一種可以替代Transformer架構的方案,Transformer架構是大語言模型中最重要的組成部分。JEPA World模型與Transformer有什麼不同?為什麼您認為這些模型代表著AI的未來?您之前稍微提到了這一點,但主要還是在介紹JEPA。
Yann LeCun:好的,有一種架構,實際上應該稱之為宏觀架構,叫做JEPA,也就是聯合嵌入預測架構。它並不是Transformer的替代品。你可以在JEPA內部使用Transformer,JEPA是一種宏觀架構,由不同的模組組成,這些模組可以是Transformer。如果需要,它們也可以是其他的解決方案,但Transformer是可以的。這兩個概念並不矛盾,它們是正交關係,而不是對立關係。另一方面,JEPA可以看作是對現有大語言模型的一種替代方案,現有大語言模型沒有一個統一的名稱,但在業界,它們通常被稱為自回歸Transformer、僅基於解碼器的架構,或者像OpenAI的GPT那樣,被稱為通用Transformer GPT只是一種特定的架構,它不一定只基於Transformer。
它是一種特定的架構,採用自監督學習技術進行訓練。我之前提到過,我們會獲取一系列符號,比如文字、單詞序列,然後訓練系統。系統的設計方式是,為了預測輸入序列中的某個特定單詞,它只能使用該單詞左側的單詞,我們稱之為因果架構。如果我們給系統輸入文字,並訓練它復現這段文字,那麼我們實際上就是在間接地訓練它預測文字中的下一個單詞。然後,當系統訓練完成後,我們可以用它逐字生成文字,也就是自回歸生成。這就是大語言模型的基本原理。現在,讓我們嘗試將這種方法應用到現實世界中,比如訓練一個機器人來規劃行動,或者預測周圍環境中將要發生的事情。這種方法就不再有效了。
如果我們不用單詞,而是用視訊中的幀,將這些幀轉換成類似於單詞的Token,然後嘗試訓練系統預測視訊中將要發生的事情,這是行不通的。原因在於,現實世界中發生的很多事情是根本無法預測的。要表達“無法精準預測將會發生什麼”這一事實,在像視訊這樣的高維空間中,本質上是一個數學難題。在文字這樣的離散空間中,這是可以做到的。我們可能無法預測某個特定單詞會出現在文字的那個位置,但我們可以預測所有可能單詞的機率分佈。對於視訊,我們做不到這一點。我們無法表示所有可能的視訊幀的機率分佈。因此,那些在文字、DNA序列或蛋白質上非常有效的技術,在視訊或其他自然訊號上卻不起作用。
JEPA就是解決這個問題的答案。其核心思想是,我們不再在原始輸入空間中進行預測,而是訓練一個系統來學習輸入的抽象表示,然後在這個抽象表示空間中進行預測。事實證明,這是一種更好的問題表述方式。舉個例子,如果我拍攝一段你所在房間(或者我們現在所在的房間,或者任何其他房間)的視訊,我把攝影機對準一個地方,然後慢慢轉動攝影機,停下來,然後讓系統預測接下來會發生什麼,系統可以預測攝影機會繼續轉動。但是,我們無法預測攝影機轉動後視野中會出現的所有細節。那裡可能有一棵植物,牆上可能掛著一幅畫,可能有人坐著。系統無法預測這些人的長相,無法確定植物的種類,也無法預測地板的紋理或其他細節。這些都是無法預測的。因此,如果我們訓練一個系統去做這樣的預測,它會耗費大量資源,試圖預測那些無法預測的事情,最終導致失敗。
主持人:Yann LeCun的實驗室最大的成就是?
Yann LeCun:沒有Yann LeCun實驗室這樣的說法。很難給出一個具體的答案。當然,我最為人所知的是摺積神經網路(CNN),這是一種受視覺皮層結構啟發,專門設計用於處理圖像、視訊、聲音、語音等自然訊號的特定架構,這些系統應用非常廣泛。所以,如果你有車,車裡通常會有一些駕駛輔助系統。
主持人:大多數車,所有車都有。
Yann LeCun:是的,我也有。在歐盟,所有新車都必須配備這個系統,至少它們必須配備一個系統,可以在障礙物出現在車輛前方時自動剎車。所有這些系統都使用了摺積網路。這是我在1988年的發明。時間很久遠了,這是我最廣為人知的工作。最初的應用是字元識別、手寫識別、讀取郵政編碼、支票、支票金額等。這些應用出現在90年代初,然後,從2010年左右開始,這個解決方案的應用範圍迅速擴大。比如我們打電話時,語音識別系統的前幾層神經網路通常使用所謂的摺積網路。手機上的應用程式,可以讓我們拍攝一張植物的照片,然後詢問應用程式這是什麼植物或昆蟲,或者當我們聽鳥鳴聲時,應用程式可以告訴我們鳥的種類,這些都用到了摺積網路。
主持人:您是歐洲人。在美中之間的AI競賽中,歐洲的地位如何?
Yann LeCun:我認為歐洲可以發揮非常重要的作用,因為歐洲要做最困難的事情,那就是實施監管。在歐盟,這類問題肯定會出現。例如,我現在戴著的眼鏡,其中一個應用就是解析攝影機拍攝的圖像,這樣我就可以看菜單了。我可以看到波蘭語的菜單,或者我們可以用波蘭語交談,然後眼鏡可以進行菜單翻譯之類的工作。我們的未來,這就是我們的未來可能的樣子。是的,真的,這已經觸手可及了。這些功能在這個眼鏡裡都有,只是目前還未上市。這款眼鏡在歐洲有售,但視覺功能除外,由於法規的不確定性,視覺功能還不能使用。甚至不清楚法規是否會禁止這項功能。一切都還不明確。但我想說的是,歐洲擁有巨大的資產和優勢,其中最重要的就是人才。我們的程式設計師、數學家、物理學家、電腦科學家、工程師等等。許多AI領域的頂尖科學家,無論他們在世界何處工作,都來自歐洲。我本人就來自歐洲。當然,我現在住在美國。
主持人:您是歐洲人,您還住在巴黎,對嗎?
Yann LeCun:不,我現在住在紐約,但我經常去巴黎。
主持人:我還有一個問題想問您。我記得在諾貝爾獎新聞發佈會上,我問Geoffrey Hinton,如果可以回到過去,您還會這樣做嗎?回顧您在AI領域的研究,您有什麼遺憾嗎?我也想問您同樣的問題。
Yann LeCun:我不知道Jeff是怎麼回答的,但我大概能猜到。首先,讓我來回答這個問題。我的答案是沒有遺憾。有很長一段時間,我對現在所謂的自監督學習不感興趣,因為我認為這個問題提得不好。事實上,很多年來,我和Jeff Hinton一直在討論這個問題,我主張監督學習,而他一直跟我說,我們最終必須找到一種方法來實現他所說的自監督學習,也就是現在一種特殊形式的無監督學習。我直到2000年代中期才改變了想法,這可能晚了10年,我本應該更早地對這個問題感興趣。但當時的情況是,在90年代中期到2000年代初,神經網路和深度學習領域幾乎沒有什麼進展,因為全世界都對這個領域完全不感興趣,所以我們不得不去做其他事情。我研究了其他方面。我研究了圖像壓縮,開發了一個叫做DjVu的系統,我聽說這個系統在波蘭很受歡迎,實際上在整個東歐都很受歡迎。但如果可以重來,這是我會做出改變的一件事。
除此之外,我對事情的發展還算滿意。我本應該在90年代後期更積極地推動學界對神經網路和機器學習的興趣,這樣就不會出現後來的“研究荒漠期”了。我猜Jeff可能會回答的是,兩年前他的想法發生了轉變。他職業生涯的目標是發現大腦皮層的學習演算法。他一直認為反向傳播(我們今天訓練神經網路的主要技術,他也參與其中,我也參與了)並不是大腦使用的演算法,因為大腦肯定使用了其他演算法,因為反向傳播在生物學上不太可能實現。因此,在過去的四年裡,他每隔兩年就會發明一種新的機器學習方法。兩年前,他終於釋然了。他說,“也許大腦並不使用反向傳播。反向傳播效果很好,也許這就足夠了。也許它甚至比大腦使用的任何方法都好。”所以,他頓悟了,基本上就退休了,因為他可以宣告勝利了。
主持人:我最後一個問題。
主持人:您為什麼支援Ataraxis?這是一家在紐約大學成立的波蘭裔美國初創公司,利用AI進行乳腺癌預測。
Yann LeCun:首先,深度學習在醫學領域的應用非常有前景。深度學習方法已經被應用於乳腺癌的診斷,包括乳腺X光檢查等。我有一位年輕的同事,他之前是我們實驗室的博士後,現在是醫學院放射科的講師、教授,他非常出色。他最近發現湧現出了很多新的機會。他告訴我,“我打算和幾個朋友一起創辦一家公司。”所以,他們來找我,問我是否願意擔任他們的顧問。我知道他們的研究工作非常出色,所以我認為這家公司潛力巨大,我也很好奇他們能取得什麼樣的成就。應用範圍非常廣泛,主要包括使用深度學習進行診斷,尤其是在醫學影像方面,但不僅限於此。事實上,他們希望直接從測量資料到治療方案,而不僅僅停留在診斷階段。我認為這非常有前景,也非常吸引人,這就是我支援他們的原因。
主持人:教授先生,非常感謝您抽出寶貴的時間。很榮幸能採訪您。謝謝。
Yann LeCun:非常感謝。 (數字開物)