AI巨頭楊立昆最新的3小時訪談聊了些什麼



AI界泰斗級人物Yann LeCun楊立昆昨天剛和矽谷科技圈第一播客Lex同學進行了一次3小時的深度對話。本城第一時間學習了解,和大家分享巨頭的最新思考。

這段對話的核心,是Yann LeCun對人工智慧未來發展的深度思考,特別是他對開源AI的潛力和挑戰的獨到見解。

LeCun可謂AI領域的"常青藤",他是Meta首席AI科學家、紐約大學教授、圖靈獎得主,更是AI發展史上的開創性人物之一。一直以來,LeCun和他的團隊都在大力支持和推動開源AI的發展。他們毫無保留地分享了許多里程碑式的大模型,如Llama 2和即將推出的最新Llama 3。針對某些人對AGI(通用人工智慧)迫在眉睫的危言聳聽,LeCun直言不諱地予以批駁。他堅信AGI終有一天會問世,但那將是人類的福音,而非災難。

在談到AI的未來時,LeCun拋出了一些令人耳目一新的觀點,尤其是針對GPT-4和即將發布的Llama-3等大型語言模型(LLM)的評論。他指出,儘管這些模型在語言處理上非常出色,但仍難以被視為"超人智能"的載體。因為它們尚不具備理解世界運作規律、掌握物理法則、記憶檢索資訊、持久儲存記憶、邏輯推理和行動規劃等人類智慧的關鍵要素。LeCun強調,相比語言輸入,我們實際上更依靠感官輸入來認知世界。換言之,我們的知識和認知,很大程度源自於對客觀現實的觀察和互動,而非單純的語言學習。

LeCun進一步剖析了LLM的限制。在他看來,LLM無法像人類那樣進行深度思考和周密規劃,它們只是本能地一個接一個地吐露詞句。他質疑LLM是否真的建構了一個內在的世界模型,以及我們能否僅憑語言預測來塑造對世界的深刻理解。語言在訊息傳遞上的"頻寬"和表現力有限,因此單靠對詞語序列的預測,難以建立完善的認知模型。與之相對的,是透過觀察世界,領悟事物演變的內在邏輯。

LeCun特別以視訊預測為例佐證其觀點。過去十年,我們苦心孤詣地嘗試用視訊資料來訓練生成模型,但收效甚微。究其原因,正如我們無法準確預測特定語境下的下一個詞,我們同樣難以窮舉視頻中所有可能出現的幀。癥結在於,我們尚不知道如何有效率地刻畫高維連續空間中的機率分佈。

作為一種可能的解題思路,LeCun提出採用蘊含潛變數的模型。這類模型能夠表徵我們尚未感知、亟需補全的各類世界資訊。然而,儘管這種途徑在像素預測上取得了不俗的效果,但在實踐中卻難以奏效。

LeCun也探討了訓練系統學習圖像表徵的難題。我們雖然掌握了一整套技術,但在面對殘缺影像時,往往難以高品質地復原。為了突破瓶頸,LeCun提出了一種"聯合嵌入"的新方法。其基本想法是,先用編碼器分別處理完整影像和殘缺影像,再訓練一個預測器來預測完整影像的表徵。

在LeCun看來,透過自監督學習掌握抽象表徵,是智慧系統的重要一環。我們不應該只局限於對底層細節建模,而應該在多個抽象層次上描述世界萬象。同時,我們要盡可能地從輸入中榨取資訊,但又要避免提取那些難以預測的冗餘。

有趣的是,"聯合嵌入預測"架構竟然可以學到一些常識,比如預測"搗蛋"的貓咪會如何激怒主人。此架構採用了"非對比"技術,涵蓋基於蒸餾的BYOL(DeepMind)、Vicreg(FAIR)、iJEPA和DINO等方法。它們的共同點是,先將原始輸入(如圖像)編碼為特徵表徵,再對輸入施加擾動,然後訓練一個預測器來擬合原始輸入的表徵。

LeCun認為,大型語言模型(LLM)在處理高階概念和規劃任務上大有可為,但在應對底層操作和細節把控時則力有未逮捕。為此,我們需要藉助JPEG這樣的工具,在不失真的前提下提升表徵的抽象層次。儘管AI和LLM在語言應用上初露鋒芒,但它們尚不具備人類智能的全部特質。舉例來說,它們難以理解和模擬人類的共同經歷,以及那些低階的物理知識。此外,LLM在推理能力上也有先天不足。因為它們的計算開銷與輸出詞元的數量成正比,而與問題本身的複雜性無關。

LeCun為未來的AI系統設計指明了一個新方向:與其過度依賴自回歸預測,不如在完善的世界模型基礎上開展推理和規劃。他堅信,這個範式更接近人類的思考方式。面對錯綜複雜的問題時,我們會投入更多認知資源,展開深入思考和縝密規劃。

這段對話也探討了基於能量的模型在互聯網領域的應用前景,特別是在對話系統和語言模型中的潛力。這類模型可以測量某個回答對特定問題的契合度,進而透過在可能解空間中尋優,輸出最佳答案。此過程需要以語言模型為基座,在抽象表徵空間中開展運算。與其窮舉候選答案再擇優,不如直接在連續空間上施加梯度下降,快速收斂至最優解。這種優化驅動的方法已在視覺領域嶄露頭角,透過對良好輸入的表徵進行預測,再基於預測誤差(即係統能量)迭代優化。強化學習,尤其在更新世界模型和目標函數時,也是一個不可或缺的利器。

LeCun也評論了帶有人類回饋的強化學習(RLHF)的有效性。這個範式先訓練一個質量評估器,再透過反向傳播調整系統參數,使其只輸出高分答案。針對外界對GoogleGemini 1.5的種種詬病,尤其是它生成不實或敏感圖像、對部分話題避而不談的毛病,LeCun旗幟鮮明地指出,開源才是破解偏見和審查困局的金鑰匙。在他看來,一個零偏見的AI系統只能存在於理想國,因為偏見本身就是主觀的,見仁見智。與其另起爐灶,不如擁抱百花齊放的AI生態。未來,AI助手將無所不在,成為人機互動的"中間人"。

LeCun由此出發,暢想了一個多元化的AI未來圖景。與其讓屈指可數的科技巨頭壟斷人類知識寶庫,不如讓頂尖系統開放原始碼,供所有人使用和微調。他以與法國政府、印度Infosys公司創辦人、非洲新創企業Kera的合作為例,闡釋了他推動AI多樣性的不懈努力。

談到開源模式的商業前景,LeCun認為大可不必過於悲觀。如果這些模型物有所值,即便免費供應,公司也能從廣告和企業服務中獲利。他坦言,科技巨頭如今困局重重,內有不滿的員工、狂躁的高管、內訌的董事會,外有壓力團體、極端主義監管機構、政府機構、媒體輿論的接連炮轟,種種亂象無不消解組織的戰鬥力。

歸根究底,LeCun篤信開源和多元是祛除AI系統偏見和審查之弊的兩劑良方。只要在系統中設置合理的"護欄",我們就能讓AI助手更安全、更純淨。即便在仇恨言論和危險言論這樣的灰色地帶,適度的微調也許是個不錯的權宜之計。

值得欣慰的是,儘管有學者對AI系統(尤其是語言模型)的社會影響表示擔憂,但有理有據的證據尚不多見。例如,迄今為止,還沒有確鑿的案例顯示LLM會慫恿用戶製造生化武器。要知道,炮製這類武器需要實打實的專業知識,而這恰恰是LLM的知識盲區。

展望未來,LeCun對即將發布的Llama 3和後續版本充滿期待。作為真正意義上的開源AI系統,它們有望在感知、記憶、規劃、推理等方面不斷突破,最終邁向人類水平的通用智能。當然,實現這宏偉藍圖需要軟硬體的協同演化。

對於AI可能帶來的災難性後果,LeCun並不十分認同。在他看來,AI系統不大可能成為一個威脅人類的物種,因為它們沒有爭奪主導權的野心。不過,AI武器化的風險卻是實實在在的,因為它們能左右人心,控制民意。隨著AI助理不可逆轉地介入人機互動的方方面面,這種威脅只會與日俱增。

此外,LeCun也從社會學的視角解讀了新技術的衝擊波。面對顛覆性的文化運動或科技革命,人們往往會產生一種本能的恐懼,唯恐自己的文化、工作、孩子的未來和生活方式受到波及。

最後,LeCun暢想了人工智慧在機器人領域的美好前景。他認為,機器人將在未來十年大放異彩。儘管業界對機器人寄予厚望已久,但除了一些預設程序,鮮有革命性的突破。癥結還是出在如何讓系統理解世界運轉的規律,並據此制定行動計劃。為了解決這個難題,LeCun首先闡釋了分層規劃的概念,並以從紐約到巴黎的旅行為例,形像地說明瞭如何透過逐層分解來達成目標。在此基礎上,他進一步探討瞭如何利用認知和深度學習來訓練系統學習分層感知表徵,以及如何將這種學習應用到行動規劃中去。

LeCun由衷地憧憬,AI終有一天能提升全人類的智力水平,就好比每個人身邊都有一幫比自己更聰明的AI助手。它們俯首帖耳,言聽計從,還能以更有效率、更優質的方式執行任務。屆時,每個人都像是一群"超級員工"的領導者。

LeCun也將AI的普及與印刷術的發明相提並論,認為二者都是讓人類"腦洞大開"的重大突破。當然,這兩項技術也可能引發一些連鎖反應,如宗教衝突和就業市場的結構性調整。

但歸根結底,LeCun對人性和AI的未來前景保持樂觀。他篤信人性向善的本質,也相信AI能放大人類的善意。(Web3天空之城)