黃教主的演講感覺才沒過幾天,今年的 GTC 輝達大會也即將迎來尾聲了。
和往年一樣,這種科技盛會最受矚目的都是官方重點宣傳的那幾場活動,比如去年,輝達首席科學家比爾·達利(Bill Dally)和“AI 教母”李飛飛來了一場深度對話。
而今年比爾·達利則是對話“AI 教父”楊立昆(Yann LeCun),很有前後呼應的感覺。
但 GTC 並不只有黃仁勳和楊立昆,還有許多精彩的演講與對話,比方說:
…………
接下來的一段時間,CSDN AI 科技大本營將會在「GTC 2025 大師談」欄目持續更新這些精華內容的全文整理,盡情期待。
話題回到本期的主角,楊立昆。在以往我們整理的各種採訪裡,立昆都是直接開噴“自回歸模型很差勁,我們搞的 JEPA 才是對的”或者“人工智慧不如貓”。
今年他是從多個角度論述,從“視覺派” 的根本理念否定現在主流的“語言派”:「和過往的許多浪潮一樣,當前的這波浪潮,我覺得也是錯的。那些複雜的生物行為,都和語言無關,它肯定不會是在 token 空間裡完成的,而是在心智空間當中。」
採訪期間,楊立昆極力讚揚了 DeepSeek 和中國科學家,「現在,中國有很多非常優秀的科學家。最近 DeepSeek 的例子就很好地說明了,好點子可以來自任何地方。」
但面對 DeepSeek-R1 興起的強化學習浪潮,他還是給出了不同的看法,順帶給黃教主潑了個冷水:「我不太認同黃仁勳說的。我認為目前那些通過增強推理能力的大語言模型,它們改採用的推理方式是錯誤的。」
對於更遙遠的未來,他預測:「在整體智能方面,我們還差得很遠——但它可能在十年左右的時間內就會實現。所以也不是那麼遙遠。」
如果只是批判大模型也罷,有意思的是,當比爾問楊立昆怎麼評價輝達本次大會重點宣傳的光學計算和量子計算,立昆並沒有接上話茬,而是對這兩大領域進行了一頓數落:「光學計算,我覺得一直都挺讓人失望的。至於量子計算,我對量子計算的應用前景非常懷疑。」
要知道黃仁勳前腳才在主旨演講介紹完最新的相關產品,立昆大神簡直是來砸場了。
此外,本次黃仁勳主旨演講的核心思想是“token 構成 AI 世界的一切”,楊立昆也進行了否定:「token 不是表示物理世界的正確方式。」
下面,就讓我們回顧這場相當精彩的對話,領略這位 AI 教父懟天懟地但堅持自我的獨特思想。
比爾·達利:過去一年人工智慧領域發生了很多有意思的事兒,其中最讓你覺得興奮的進展是什麼?
楊立昆:太多了,一時半會兒說不完。不過我可以先說一件,可能有些人會覺得挺意外的。我現在對大語言模型(LLM)已經沒那麼大興趣了。感覺它們現在已經有點像走到最後一步了,落到了那些搞產業產品的人手裡,就有點像是在邊邊角角上做改進,想辦法搞更多資料,更多算力,或者搞點合成資料什麼的。
我覺得現在更有意思的問題,主要集中在四個方面:
第一個是怎麼讓機器理解物理世界?黃仁勳 Keynote 也提到了這個。
第二個是怎麼讓機器擁有持久記憶,這個好像沒太多人聊。
然後最後兩個是,怎麼讓機器能推理和規劃?當然,現在也有人在努力讓大語言模型去推理,但在我看來,那種推理方式還是太簡單粗暴了。我覺得肯定有更好、更高級的方法來做推理。所以,我現在比較興奮的點,可能是一些在咱們這個圈子裡,或者在科技圈裡,五年後才會火起來的東西。但現在看起來可能沒那麼激動人心,因為都還只是些挺冷門的學術論文。
比爾·達利:如果不是大語言模型來推理物理世界,並且具備持久記憶和規劃能力,那會是什麼呢?你覺得底層的模型會是什麼樣的?
楊立昆:現在很多人都在研究世界模型。所謂世界模型就是,我們每個人腦子裡都有的東西,是它讓我們能在腦子裡進行思考和操作,我們對現在的世界有個模型。
比如現在桌上有個礦泉水瓶,如果我從上面按這個瓶子,它可能會倒,但如果我從下面推它,它就會滑走。還有,如果我按太用力,它可能會爆掉。所以,我們腦子裡有物理世界的模型,這些模型是在我們出生後幾個月內就慢慢形成的。就是這些模型讓我們能處理現實世界,而且處理現實世界比處理語言要難得多。
所以我覺得,那種真正能處理現實世界的系統,它們需要的架構跟我們現在用的完全不一樣。大語言模型是預測 token 的,但 token 可以是任何東西。像我們的自動駕駛模型,它用的是感測器傳來的 token,然後輸出控制駕駛的 token。從某種意義上說,它也是在對物理世界進行推理,至少是在判斷那裡可以安全駕駛,不會撞到電線杆。
那為什麼說 token 不是表示物理世界的正確方式呢?token 是離散的,當我們說 token 的時候,通常指的是,一組數量有限的可能性。一般的大語言模型,token 的數量大概在 10 萬左右,所以當你訓練一個系統去預測 token 的時候,你永遠不可能訓練它精準預測出一段文字後面會接那個 token,但你可以讓它預測出一個機率分佈,也就是預測字典裡所有可能 token 的機率。
這就像一個長長的向量,裡面有 10 萬個 0 到 1 之間的數字,加起來等於 1——這個我們現在已經很會做了。但是對於視訊,對於我們熟知的那種高維度、連續的自然資料,就不知道該怎麼搞了。
每次我們想訓練系統,讓它通過預測像素等級的視訊來理解世界、建構心智模型,基本上都失敗了。那怕只是訓練一個神經網路或者其他什麼系統,讓它能學到好的圖像表示,所有那些通過從損壞或變形的圖像中重建圖像的技術,基本上都失敗了。當然,也不是說完全沒用,它們還是有點用的,但效果就是不如另一種架構——“聯合嵌入”,這種架構基本上不嘗試在像素等級重建圖像。它們試圖學習一種表示,一種圖像、視訊或者其他自然訊號的抽象表示,這樣你就可以在這個抽象表示空間裡進行預測。我經常舉的例子是,如果我拍一段這個房間的視訊,然後我把鏡頭搖過來,停在這裡,我讓系統預測,接下來會發生什麼,它可能會預測說,這是一個房間,裡面坐著一些人,等等。
它不可能預測出你們每個人長什麼樣,從視訊開頭那一小段來看,這是完全沒法預測的。所以說,世界上有很多東西是根本沒法預測的,如果你訓練系統在像素等級做預測,它就會把所有資源都花在試圖搞清楚那些它根本不可能編造出來的細節上。這完全是浪費資源,而且我們嘗試過的所有方法,我研究這個已經 20 年了,用自監督學習通過預測視訊來訓練系統,都沒用。只有當你把預測放在表示層面,而不是像素層面,才有可能有用。這就意味著,世界模型所需要的架構不可能是生成式的。
比爾·達利:你基本上是在說 Transformer 架構沒法做到這些,但現在大家都在用視覺 Transformer 啊,而且效果還不錯。
楊立昆:我不是這個意思,因為 Transformer 架構是可以用來做這個的,你可以把 Transformer 放到我說的架構裡。我說的這種架構,叫做“聯合嵌入預測架構”(JEPA),舉例來說,你拿一段視訊或者一張圖片,或者隨便什麼東西,甚至是文字,把它扔進一個編碼器。你得到一個表示,然後你再拿這段文字、視訊或者圖片的後續部分,或者它的某種變形版本,也扔進一個編碼器。現在你嘗試在表示空間裡做預測,而不是在原始的輸入空間裡做預測。
比爾·達利:你可以用類似的訓練方法,就是填空,但你是在潛在空間裡填空,而不是在原始的表示裡填空。
楊立昆:完全正確。這裡的難點在於,如果你不小心,如果你不用一些巧妙的技巧,系統就很容易崩潰。它會直接忽略輸入,然後隨便輸出一個恆定的表示,這個表示對輸入內容沒什麼資訊量。所以你必須要,在五六年前,我們還沒什麼好辦法來避免這種情況。
現在,如果你想把這個東西用在智能體(Agent)系統上,或者用在能推理和規劃的系統上,那你需要的就是我說的這個“預測器”。當它看到一段視訊,它就能大致瞭解當前的世界狀態。它需要做的是,能夠預測接下來世界會變成什麼狀態,假設我採取了某個行動,或者我正在考慮採取某個行動,所以你需要一個預測器,它能根據當前的世界狀態,以及你設想的行動,來預測下一個世界狀態。如果你有這麼一個系統,你就可以規劃一系列的行動,最終達到某個目標。這才是我們人類進行規劃和推理的真正方式。我們不是在 token 空間裡做這些的。
我再來舉個簡單的例子,現在有很多所謂的“智能體推理系統”。它們的工作方式是,生成一大堆一大堆的 token 序列,用各種不同的方法隨機生成不同的 token。然後用第二個神經網路,從所有生成的序列裡選出最好的一個。這有點像,在不會寫程序的情況下寫程序。你隨便寫一堆程序,然後一個個測試,留下那個剛好能給出正確答案的。這完全是沒指望的。
比爾·達利:實際上現在有些關於“超級最佳化”的論文,說的就是這個思路。
楊立昆:對,那些是對於短程序的研究,在短程序上當然可以實現,因為這種方法複雜度會隨著程序長度指數級增長。所以,程序稍微長一點就完全沒戲了。
比爾·達利:所以現在很多人都在說,通用人工智慧(AGI),或者我猜你會叫它“高級機器智能”(AMI),馬上就要來了。你對此怎麼看?你覺得它什麼時候會實現?為什麼?現在的差距在那裡?
楊立昆:是啊,我不喜歡“通用人工智慧”(AGI)這個詞,因為,大家用這個詞來指代那些擁有人類水平智能的系統。但問題是,人類的智能其實是非常專業化的,所以說它是“通用”的,我覺得有點用詞不當。
所以我更喜歡用“高級機器智能”(AMI)這個詞,我們發音成“Ami”,就是 Advanced Machine Intelligence 的縮寫。(法語的 ami 是朋友的意思,楊立昆以前接受採訪的時候說過)
我說的這種概念,就是系統能夠學習世界的抽象心智模型,並用這些模型來進行推理和規劃。我覺得我們可能在三到五年內,就能基本搞定,至少在小規模上讓它跑起來。然後接下來就是擴展規模等等的問題。直到我們達到人類水平的人工智慧。
現在問題的關鍵是,人工智慧的歷史上,一代又一代的人工智慧研究者,他們每次發現一種新範式,都會說“就是它了!”,說“再過 10 年,或者 5 年,或者隨便多久,我們就能實現人類水平的智能了!”“我們將擁有在所有領域都比人類更聰明的機器!” 這種說法已經持續了 70 年了,每隔十年左右就會出現一波新的浪潮,而當前的這波浪潮,我覺得也是錯的。
所以,那種認為“只需要擴大模型規模,或者讓它們生成幾十個 token 序列,然後選出就能達到人類水平智能”的想法,認為“幾年之內,兩年之內,我記得有些人預測說,資料中心裡就會出現一個天才狀態”,引用某個不願透露姓名的人的話。我覺得這完全是胡扯。純粹是胡扯。在很多應用領域,在不久的將來,系統當然可能會達到博士水平(如果你想這麼說的話)。但在整體智能方面,我們還差得很遠——但它可能在十年左右的時間內就會實現。所以也不是那麼遙遠。
比爾·達利:那麼,人工智慧已經在很多方面得到了應用,這些應用,改善了人類的狀況,讓人們的生活更輕鬆。你覺得人工智慧的那種應用,是最有說服力、最有利的?
楊立昆:當然有一些很明顯的應用。我認為人工智慧對科學和醫學的影響,可能會比我們現在能想像到的還要大得多,儘管現在已經很厲害了。不只是在蛋白質摺疊、藥物設計這類研究方面,在理解生命的運作機制方面,而且在短期內也會有很大影響。
現在在美國,你經常會做醫學影像檢查,裡面就有人工智慧參與。如果是乳房 X 光檢查,很可能就先用深度學習系統預先篩查一下,看看有沒有腫瘤。如果你去做核磁共振(MRI),你在 MRI 機器裡待的時間能減少四倍左右,因為現在我們可以,用更少的資料恢復出 MRI 圖像的高解析度版本。
所以,像這種短期的好處就有很多。當然,我們每個人的汽車——輝達是這方面的一大驚喜,現在大多數新車都配備駕駛輔助系統或者自動緊急剎車系統。而在歐洲,這些東西現在已經是強制標配好幾年了。這些系統能減少 40% 的碰撞事故。它們能救命。這些顯然都是非常重要的應用。而且這些都不是生成式人工智慧,這些不是大語言模型,這些基本上都是感知 AI 方面的應用。當然,汽車控制也有一點。現在,很明顯,不管是現在的大語言模型,還是未來幾年會發展成什麼樣,在工業界、服務業等等領域,都有很多應用。
但是我們也必須考慮到這些應用的侷限性,也就是說,部署和應用那些達到預期精準性和可靠性水平的系統,其實比大多數人想像的要難。自動駕駛肯定就是這樣,“我們什麼時候能實現 L5 級自動駕駛?”這個問題,就像一個不斷後退的地平線一樣。
我覺得很多領域都會遇到類似的情況。通常人工智慧會失敗的地方,不是在基礎技術上,不是在那些花哨的演示上,而是在你真正需要部署它、應用它,並且讓它足夠可靠,能和現有系統整合的時候,這時候就會變得非常困難、非常昂貴,而且比預期要花更多時間。
比爾·達利:確實,自動駕駛汽車必須一直保持正確,不然就可能有人受傷或者喪命,所以它的精準率必須接近完美。但也有很多應用,只要它大部分時候是正確的,就非常有用了。甚至像一些醫療應用,醫生還會再檢查一遍,當然還有娛樂、教育等等領域,你只需要它做好事多於壞事,而且就算出錯了,後果也不會是災難性的。
楊立昆:沒錯。所以,對於大多數系統來說,真正最有用的,是那些能提高人們生產力或者創造力的系統。
比爾·達利:比如程式碼助手。
楊立昆:基本上就是輔助人們的那種工具,比如在醫學領域、藝術領域、寫作……
比爾·達利:如果人工智慧不是要取代人類,那它基本上就是在給人類提供更強大的工具。
楊立昆:它可能在某個時候會取代人類,但我不覺得人們會願意接受這個事實。基本上,我們和未來人工智慧系統的關係,包括超級智能,超人類等級的系統,應該是讓我們來當老闆,並讓一群超級智能的虛擬員工為我們工作。我不知道你們感覺怎麼樣,反正我挺喜歡和比我聰明的人一起工作的,這簡直是世界上最棒的事兒。
比爾·達利:我也是。所以,反過來說,就像人工智慧能在很多方面造福人類一樣,它也有陰暗面,有些人會用它來做壞事,比如製造深度偽造視訊、傳播假新聞,如果使用不當,它可能會造成情感傷害。你最擔心人工智慧被用在那些方面?我們應該怎麼減輕這些風險?
楊立昆:Meta 很熟悉用人工智慧來對抗各種攻擊,不管這些攻擊是不是也來自人工智慧。可能有點出乎意料的是,雖然大語言模型和各種深度偽造技術已經出現好幾年了,但我們那些負責檢測和處理這類攻擊的同事告訴我們,我們並沒有看到,社交網路上出現大量增加的生成內容。或者至少沒有以一種惡意的方式發佈,而且通常都會被標記為是合成內容。
總之,我們並沒有看到大家之前擔心的那些災難性場景,人們在三四年前警告說,人工智慧會“摧毀所有的資訊”或者會怎麼怎麼樣。
這裡有個挺有意思的故事,我得跟你們說說,在 2022 年秋天,我在 Meta 的同事,一個小團隊,做了一個大語言模型,這個模型是用所有科學文獻來訓練的。他們把能找到的所有技術論文都用上了。這個模型叫 Galactica。他們把它放出來,還附帶一篇長論文,詳細介紹了它是怎麼訓練的,開放原始碼,還有一個演示系統,大家可以直接試用——結果這東西在 Twitter 上被罵慘了。
大家都在說,“太可怕了!”“這會害死我們的!”“這會毀掉科學交流體系!”“現在隨便那個白痴都能,寫出一篇聽起來很科學的論文,鼓吹吃碎玻璃的好處了!”等等。網上鋪天蓋地都是負面評價,以至於,我那些可憐的同事們,一個五人小團隊,晚上都睡不著覺,最後他們只好把演示系統撤下來了。他們保留了開放原始碼和論文,但演示系統下線了。
我們當時的結論是,“世界還沒有準備好迎接這種技術。”“而且沒人感興趣。”
結果,三個星期後,ChatGPT 就橫空出世了,那簡直就像彌賽亞再臨一樣,我們當時都互相看著對方,心想,“什麼鬼?這是怎麼回事?”
我們完全無法理解公眾對 ChatGPT 的熱情,考慮到之前大家對 Galactica 的反應,簡直是天壤之別。而且我覺得,OpenAI 實際上也對 ChatGPT 在公眾中取得的成功感到非常意外。所以,很多時候都是認知問題。但 ChatGPT 並沒有試圖寫學術論文,或者搞科學研究。它基本上就是一個你可以對話的東西,你可以問它任何問題,它更加通用,所以在某種程度上,它對更多人來說更有用,或者說更接近於有用。
總之,危險肯定是存在的,各種濫用 AI 的可能性都有。但我想再強調一遍,對抗濫用的對策,就是更好的人工智慧。確實會存在不可靠的系統,而解決這個問題的方法,就是更好的人工智慧。我們需要的是可能具備常識的系統,它具備推理能力,能夠檢查答案是否正確,並且能夠評估自身答案的可靠性,而這些都是目前系統所不具備的。至於那些災難性的情景,說實話,我不相信它們會發生。
比爾·達利:所以說,人類會適應 AI 的。我也更願意相信,人工智慧總體上是利大於弊的,即使其中會摻雜一些壞的東西。作為一個在大西洋兩岸都有家的人,你擁有非常全球化的視野。你覺得未來人工智慧的創新會來自那裡?
楊立昆:創新可以來自任何地方。那裡都有聰明人。沒有人能壟斷好點子。有些人可能覺得自己高人一等,覺得他們可以不跟任何人交流,就能想出所有好主意。但根據我作為科學家的經驗,情況並非如此。
好點子往往來自很多人的互動,來自思想的交流,而且,在過去十年或者更久的時間裡,也包括程式碼的交流。所以,這也是為什麼,我一直非常提倡開源人工智慧平台,也是 Meta 在一定程度上也採納了這種理念的原因之一。我們不可能壟斷好點子。就算我們自認為有多聰明,也不可能做到。最近 DeepSeek 的例子就很好地說明了,好點子可以來自任何地方。
現在,中國有很多非常優秀的科學家。有一個故事很多人應該知道,如果你問自己,“過去十年裡,所有科學論文中,引用次數最多的論文是那一篇?”
答案是一篇發表於 2015 年的論文,正好是十年前。它是關於一種特定的神經網路架構,叫做 ResNet,殘差網路。這篇論文是微軟亞洲研究院在北京的研究人員寫的,作者都是中國科學家。第一作者是何愷明。一年後,他加入了 Meta 在加州 Menlo Park 的 FAIR 實驗室,在那裡工作了大約八年。
比爾·達利:他現在去麻省理工學院了。
楊立昆:沒錯,去了 MIT。所以,我只是想說明,世界各地都有很多優秀的科學家。好點子可能在任何地方冒出來。但是,要把這些好點子真正變成現實,你需要,龐大的基礎設施,大量的計算資源,而且你需要給你的朋友、同事們很多錢,才能買得起這些東西。
比爾·達利:但是,擁有一個開放的知識交流社區,能讓進步更快,因為,可能有人在這裡想出了一半的好點子,另一個人在那裡想出了另一半,如果他們能互相交流,那事情就能成,但如果大家都各自封閉,互不交流,進步就很難發生。
楊立昆:沒錯。還有一點是,為了讓創新想法湧現出來,作為輝達的首席科學家,你應該很清楚,你需要給人們足夠的自由空間,你需要讓人們真正地去創新,而不是給他們壓力,讓他們每三個月或者每六個月就必須拿出點成果。
事實上,DeepSeek 的例子就是這樣。Llama 也是如此。
有一個故事可能很多人都不知道,在 2022 年,Meta 的 FAIR 實驗室裡,有好幾個大語言模型項目在同時進行。其中一個項目投入了大量資源,得到了領導層的支援,各方面條件都很好。另一個項目,規模比較小,有點像“小作坊”項目,是巴黎的十幾個人搞的,他們基本上是想自己做一個大語言模型,因為他們出於某種原因需要用到。
結果這個“小作坊”項目,反而成了後來的 Llama。而那個資源充足的大項目,你甚至都沒聽說過,因為它被砍掉了。
所以,即使你沒有所有的資源支援,你也能想出好點子。關鍵在於,如果你能在某種程度上和管理層保持一點距離,讓他們別來管你,你反而可能比那些被要求按計畫創新的人,更容易想出更好的點子。
當年那十幾個人,他們做出了 Llama 1。然後,Meta 決定選擇 Llama 作為主要平台,而不是另一個項目。再然後,我們又圍繞 Llama 組建了一個大型團隊,開發出了 Llama 2,最終開源,這基本上在整個行業掀起了一場小小的革命。再後來就是 Llama 3。截至這場對話前,Llama 的下載量已經超過 10 億次了。我覺得這太不可思議了,並且你們(輝達)肯定認識他們,因為他們肯定都買了輝達的硬體,才能跑得動這些模型。我們得感謝你賣出了這麼多 GPU。
比爾·達利:所以,我們再來聊聊開源。我覺得,Llama 在開源方面做得非常創新,它是一個最先進的大語言模型,它提供了開放權重,這樣大家就可以下載並在本地運行。這樣做有什麼優點和缺點?Meta 顯然投入了巨額資金來開發、訓練和微調這個模型,然後又免費把它放出來。這樣做的好處是什麼?缺點又是什麼?
楊立昆:我覺得,如果你是一家指望直接從這項服務中賺錢的公司,那開源肯定是有缺點的。如果那是你唯一的商業模式,那當然,對你來說,公開你所有的秘密可能是不划算的。但如果你是一家像 Meta,或者在某種程度上像 Google 這樣的公司,你的收入來源就不是這個。
比爾·達利:比如廣告。
楊立昆:像 Meta,收入主要來自廣告,Google 的收入來源就比較多樣了。也許未來還會有其他收入來源。但是,重要的不是你在短期內能賺多少錢,而是,你能否建構出你想要建構的產品所需要的功能?你能否吸引全世界儘可能多的聰明人來參與貢獻?為了整個世界。比如,如果其他公司把 Llama 用在其他用途上,對 Meta 來說也沒什麼損失。比如,他們又沒有社交網路可以基於 Llama 來建構。所以,開源對 Google 來說可能威脅更大一些,因為很明顯,你可以用 Llama 來建構搜尋引擎。
這可能也是為什麼 Google 對這種開源模式的態度沒有那麼積極的原因。但是,我們已經看到了 Pytorch 最開始開放原始碼的影響,它對整個行業、對整個社區的影響,以及 Llama 2 開放原始碼的影響,它基本上,一下子就帶動了整個創業生態系統的發展。我們也看到這種情況在更大的行業範圍內出現,有些人一開始可能會用一些專有的 API 來做人工智慧系統的原型,但到了真正要部署的時候,他們發現最划算的方式還是用 Llama,因為你可以在本地或者其他開源平台上運行它。
但從更宏觀的角度來看,從哲學層面來說,我認為想要擁有開源平台,最重要、最根本的原因是,在不久的將來,我們與數字世界的每一次互動,都將由人工智慧系統來調解。我現在就戴著 Ray-Ban Meta 智能眼鏡。我可以通過它和 Meta AI 對話,問它任何問題。我們不認為人們會只想要一個助手,而且這些助手都來自美國西海岸或者中國的少數幾家公司。我們需要的是極其多樣化的助手。他們需要說世界上所有的語言,理解世界上所有的文化、所有的價值體系、所有的興趣點。他們需要有不同的偏見、政治觀點等等。
所以,我們需要多樣化的助手,就像我們需要多樣化的媒體一樣。不然的話,我們所有人都會從相同的來源獲取相同的資訊,這對民主,以及其他各方面來說,都不是好事。所以,我們需要一個平台,讓任何人都可以用它來建構這些助手,建構一個由各種各樣的助手組成的生態系統。而現在,唯一能做到這一點的途徑,就是開源平台。
我認為開源平台在未來會變得更加重要,因為如果我們想要基礎模型能說世界上所有的語言,能理解各種文化,等等,沒有任何一個單一的實體能夠獨自完成這項任務。誰會收集世界上所有語言的所有資料,然後直接交給,OpenAI、Meta、Google 或者 Anthropic 呢?沒人會這麼做。大家都想保留自己的資料。所以,世界各地的不同地區,都希望把自己擁有的資料貢獻到一個全球性的基礎模型中,但實際上並不想直接交出資料。他們可能會參與到訓練全球模型的過程中。我認為這才是未來的模式。基礎模型將會是開放原始碼的,將會以分佈式的方式進行訓練,世界各地的資料中心可以訪問不同的資料子集,然後共同訓練出一個“共識模型”。所以,開源平台是完全不可避免的,而那些專有平台,我認為最終會逐漸消失。
比爾·達利:而且開源模式不僅對語言和文化的多樣性有意義,對應用的多樣性也有意義。比如,一家公司可以下載 Llama,然後在他們不想上傳的專有資料上進行微調。
楊立昆:現在大家基本上都是這麼做的。現在大多數人工智慧創業公司的商業模式,基本上都是圍繞這個思路展開的,就是,基於開源模型,為一些非常酷的應用場景,建構專門的系統。
比爾·達利:所以,在黃仁勳的 Keynote 裡,他舉了一個很棒的例子,用一個智能體大語言模型來做婚禮策劃,來決定婚禮上誰應該和誰坐一桌,這個例子很好地說明了,在訓練上投入精力和在推理上投入精力之間,存在著一種權衡關係。
也就是說,你可以選擇訓練一個非常強大的模型,為此投入大量的資源,或者你可以選擇建構一個相對沒那麼強大的模型,但讓它多次運行,通過多次推理來完成任務。你覺得在建構一個強大的模型時,訓練時間和推理或測試時間之間,應該如何權衡?最佳的平衡點在那裡?
楊立昆:首先,我認為,黃仁勳說得完全正確,一個能夠進行推理的系統,最終會擁有更強大的能力。但我不太認同他說的另一點。我認為目前那些通過增強推理能力的大語言模型,它們改採用的推理方式是錯誤的。
比爾·達利:你是說,這種方法現在能用,但不是正確的方法?
楊立昆:對,不是正確的方法。我認為,當我們進行推理,當我們思考的時候,我們是在某種抽象的心智狀態下進行的,這種狀態和語言沒什麼關係。
比爾·達利:不太像是通過輸出 token 來推理。你覺得應該在潛在空間裡進行推理,而不是在……
楊立昆:對,應該在潛在空間裡,如果我跟你說,“想像一個立方體漂浮在你面前,現在讓這個立方體繞著垂直軸旋轉 90 度”,你可以在腦子裡完成這個操作。這和語言沒什麼關係。貓也能做到這一點。我們當然沒法用語言給貓描述這個問題。但是,當貓計畫跳到家具上的時候,它們會做比這複雜得多的事情,它們做的事情比這複雜得多。
而以上這些,都和語言無關,它肯定不是在 token 空間裡完成的,token 空間可能對應的是一些動作。這些推理和規劃,都是在某種抽象的心智空間裡進行的。所以,這就是未來幾年我們要面臨的挑戰,就是要找到新的架構,能夠實現這種類型的能力。這也是我過去一直在研究的方向。
比爾·達利:那麼,我們是不是可以期待出現一種新的模型,能讓我們在這種抽象空間裡進行推理?
楊立昆:我們把它叫做 JEPA,或者 JEPA 世界模型。我們,我和我的同事們已經發表了一系列關於這方面的論文,算是,在過去幾年裡,朝著這個方向邁出的初步探索。JEPA 的意思是“聯合嵌入預測架構”。這就是我說的那些世界模型,它們學習抽象的表示,這些表示能夠被操縱,並且可能進行推理,產生一系列的行動,最終,達到特定的目標。我認為,我認為這才是未來。我大概在三年前寫過一篇長文,詳細解釋了這種架構可能的工作方式。
比爾·達利:所以,要運行這些模型,你需要非常強大的硬體,在過去十年裡,GPU 的性能提升了,大概 5 千到 1 萬倍,基本上在人工智慧模型的訓練和推理方面,從 Kepler 架構到 Blackwell 架構,我們今天也看到了,未來還會有更大的進步。再加上橫向擴展和縱向擴展,又能提供更強的計算能力。
在你看來,未來硬體會朝著什麼方向發展?你覺得什麼樣的技術進步,能讓我們建構出你的 JEPA 模型,以及其他更強大的模型?
楊立昆:多多益善。因為我們將需要儘可能多的計算資源。所以,這種在抽象空間中進行推理的想法,在執行階段計算量會非常大。這和我們都很熟悉的一個概念有關,心理學家會說 System 1(快思考)和 System 2(慢思考)。
System 1 指的是那些你不需要怎麼思考就能完成的任務。你已經習慣了它們,你可以不怎麼動腦子就能完成。比如,如果你是一個經驗豐富的司機,即使沒有駕駛輔助系統,你也能開車。你可以不用怎麼思考就能開車,你還可以同時和別人聊天,同時做其他事情。
但如果你是第一次開車,或者剛開始學開車的幾個小時,你坐在駕駛座上,就必須全神貫注,集中注意力,你會預想各種各樣的災難場景,想像各種各樣的事情。這就是 System 2。你調動了整個前額葉皮層,呼叫你的內部世界模型,來搞清楚接下來會發生什麼,然後規劃行動,確保好事發生。
而當你對開車這件事已經很熟悉之後,你就可以只用 System 1,有點像自動駕駛一樣完成任務。所以,最開始的推理過程,是 System 2,而那種自動的、潛意識的、反應式的策略,就是 System 1。
大語言模型現在可以做到 System 1 的水平,並且正在努力向 System 2 邁進,但最終,我認為我們需要一種不同的架構來實現 System 2。
比爾·達利:你覺得能實現 System 2(慢思考)的架構會是你的 JEPA 嗎?
楊立昆:我認為,如果你想讓系統理解物理世界,它就不會是一個生成式架構。物理世界比語言要複雜得多,也難理解得多。我們總是覺得語言是人類智慧的巔峰,是人類智力的最高體現。但實際上,語言很簡單,因為它本質上是離散的。之所以是離散的,是因為語言是一種交流機制,它必須是離散的,不然就沒法抗干擾。
如果語言不是離散的,你就沒法聽清楚我現在在說什麼。所以,語言的簡單性,是源於它的本質。但現實世界就複雜得多了。
這裡有一個例子,你們有些人可能以前聽我說過。目前的大語言模型,通常是用大約 30 兆個 token 來訓練的,一個 token 大概是 3 個字節。所以 30 兆個 token,就是 0.9 * 10^13 字節,我們算它 10^14 字節吧。如果讓人來閱讀這麼多文字,即使是閱讀速度很快的人,也需要超過 40 萬年的時間,因為這幾乎相當於網際網路上所有文字的總量,現在,心理學家告訴我們,一個四歲的孩子,總共清醒的時間大約是 16000 個小時,而且我們通過視神經,每秒鐘大約有 2 兆字節的資料進入視覺皮層,大概每秒 2 兆字節。把這個數字乘以 16000 小時,再乘以 3600 秒,結果大約是 10 的 14 次方字節。
也就是說,一個四歲小孩通過視覺在四年內接收到的資料量,和你需要花 40 萬年才能讀完的文字量是差不多的。這說明,無論你對 AGI 的定義是什麼,僅僅通過文字訓練,我們永遠不可能實現通用人工智慧(AGI)。這根本不可能發生。
比爾·達利:回到硬體方面,脈衝神經網路系統也取得了很大進展,有些人非常推崇這種系統,並且研究生物系統的工作原理,他們認為神經形態硬體,在人工智慧領域可以發揮作用。你覺得神經形態硬體在人工智慧領域,在補充或者取代 GPU 方面,有什麼應用前景嗎?
楊立昆:近期內是看不到的。我得給你們講個關於這個的故事。
我 1988 年剛去貝爾實驗室的時候,我所在的那個小組,實際上就是研究用於神經網路的模擬硬體的。他們,做了好幾代完全模擬的神經網路,然後又做了混合模擬數字的,最後在 90 年代中期,轉向了完全數位化的神經網路。那時候大家對神經網路的熱情已經消退了,所以繼續研究模擬硬體也沒什麼意義了。
像這種基於比較特殊的底層原理的硬體,問題在於,目前的數字 CMOS 技術已經發展到了一個非常深的局部最優解,想要用其他技術趕上它,需要很長時間,而且需要大量的投資。而且,從原理層面來說,其他技術是否真的有優勢,也還不清楚。像模擬電路,或者脈衝神經元和脈衝神經網路,它們可能在某些方面有內在的優勢,但問題是,它們讓硬體的復用變得非常困難,我們現在用的硬體,在某種意義上都太大了,速度也太快了。
所以我們必須儘可能地復用同一塊硬體,通過分時復用的方式,讓同一塊硬體計算神經網路的很多不同部分,如果你用模擬硬體,基本上就沒法做分時復用了。你必須在你的虛擬神經網路裡,為每個神經元都配備一個物理神經元,這意味著你沒法把一個像樣規模的神經網路塞進單個晶片裡。你必須用多晶片互聯的方式。一旦你真的能做到這一點,速度肯定會非常快,但效率會很低,因為你需要做晶片間的通訊,而且,記憶體管理也會變得很複雜,而且最終你還是需要用數字訊號來通訊,因為這是在抗干擾方面,實現高效通訊的唯一方法。
事實上關於大腦,這裡有一個有趣的資訊。大多數動物的大腦,或者說大部分動物的大腦,神經元之間都是通過脈衝訊號來通訊的。脈衝訊號是二進制訊號。所以它是數字訊號,不是模擬訊號。神經元內部的計算可能是模擬的,但神經元之間的通訊實際上是數字的。當然,微小的動物除外。比如,秀麗隱桿線蟲,那種 1 毫米長的蠕蟲。它有 302 個神經元。它們的神經元不產生脈衝訊號。它們不需要脈衝訊號,因為它們不需要遠距離通訊。
所以,在那種尺度下,它們可以用模擬訊號進行通訊。這告訴我們,即使我們想用模擬計算這種比較特殊的硬體技術,我們也仍然需要以某種方式使用數字通訊。至少為了記憶體管理,也需要數字通訊。所以,現在還不太明朗。你肯定已經多次做過相關的計算,我知道我可能在這方面沒有你瞭解得多,但是,我不認為神經形態硬體會在近期內有什麼大的應用。也許在一些邊緣計算的場景下,會有一些應用空間。比如,如果你想要一個超便宜的微控製器,用來運行你的吸塵器或者割草機的感知系統,那如果你能把整個系統都整合到單個晶片裡,並且可以用相變儲存器或者其他類似的儲存技術來儲存權重,那模擬計算可能就有意義了。我知道有些人正在認真地研究這些東西。
比爾·達利:就像你說的,這涉及到人們常說的 PIM,或者叫“記憶體計算”技術,包括模擬和數字的混合。你覺得這種技術有應用前景嗎?它有希望嗎?
楊立昆:當然有。我的一些同事實際上對這個非常感興趣,因為他們想開發智能眼鏡的後繼產品,而智能眼鏡需要的是一些視覺處理功能,基本上要一直運行。但現在這還做不到,因為功耗是個大問題。像一個感測器,比如圖像感測器,你不可能讓它一直開著,放在像這樣的智能眼鏡裡,那樣電池幾分鐘就沒電了。
因此,一個可能的解決方案是,直接在感測器晶片上進行處理,這樣你就不用把資料從晶片裡搬出來,而資料搬運才是耗電大戶,而不是計算本身。所以,現在有很多關於這方面的研究,但我們還沒能真正實現。
比爾·達利:但你認為這是一個很有希望的方向。
楊立昆:我認為這是一個很有希望的方向。事實上,生物系統早就搞定了這個問題,也就是我們的視網膜。
視網膜大約有 6000 萬個光感受器,在我們的視網膜前面,還有四層神經元,是透明的神經元,它們負責處理光感受器傳來的訊號,把訊號壓縮到 100 萬根視神經纖維,然後傳到我們的大腦視覺皮層。所以,視網膜本身就做了壓縮、特徵提取……各種各樣的處理,目標就是儘可能從視覺系統中提取出最有用的資訊。
比爾·達利:那麼,其他新興技術呢?你覺得,量子計算或者超導邏輯,或者其他什麼技術,在未來有可能給我們的人工智慧處理能力帶來巨大的飛躍嗎?
楊立昆:超導計算也許有可能。我對這方面瞭解不多,沒法給出確定的判斷。
光學計算,我覺得一直都挺讓人失望的。已經有好幾代人在研究光學了。我記得在 1980 年代,我聽到關於神經網路光學實現的報告時,感覺非常驚豔,但結果一直都沒能真正實現。技術肯定是在不斷進步的,所以也許未來情況會有所改變。我認為光學計算的很多成本,都和模擬計算類似。在與數字系統介面的時候,訊號轉換過程中會損失很多性能。
至於量子計算,我對量子計算的應用前景非常懷疑。我認為量子計算在中期內唯一有應用前景的領域,就是模擬量子系統。比如,如果你,如果你想做量子化學模擬或者其他類似的模擬,也許可以用得上。但對於其他任何應用,比如通用計算,我個人非常懷疑。
比爾·達利:你之前提到過,要建構能像幼年動物一樣從觀察中學習的人工智慧。你覺得要實現這個目標,對硬體會有什麼要求?你認為我們需要在硬體方面做那些發展,才能支援這種人工智慧?
楊立昆:你們能給我們提供多少硬體?
比爾·達利:這取決於你們願意買多少,買得越多,省得越多。而且,正如我們今天聽到的,你們用得越多,我們賺得越多。
楊立昆:這肯定不會便宜,哈哈。
我來跟你們說一個實驗,我的一些同事,大概在一年前做的。當時有一種自監督學習技術,可以用重建的方法來學習圖像表示。就是我之前說的那些“沒用”的技術,這是一個叫做 MAE 的項目,掩碼自編碼器。它基本上就是一個去噪自編碼器,很像 U-Net 用的那種,就是說你拿一張圖片,通過移除其中的一部分,實際上是很大一部分,來破壞它,然後你訓練一個巨大的神經網路,基本上在像素等級,或者 token 等級,重建出完整的圖像。
然後,你把這個神經網路學到的內部表示,作為下游任務的輸入,比如做有監督的對象識別,或者其他任務。這種方法效果還行。但為了運行這個模型,你得先煮沸一個小池塘,才能給那些液冷 GPU 叢集降溫。但它的效果,遠不如那些聯合嵌入架構。你可能聽說過 DINO,DINO V2,I-JEPA 等等。這些都是聯合嵌入架構,它們的效果往往更好,而且實際上訓練成本也更低。
比爾·達利:所以,在聯合嵌入架構裡,你基本上是為兩個輸入類別分別設定了潛在空間,而不是把所有東西都轉換成同一種 token。
楊立昆:與其用一張圖像,然後用它的一個損壞或者變形的版本,再訓練模型從損壞或變形的版本重建出完整圖像,不如直接用完整圖像和損壞或變形的版本,把它們都扔進編碼器,然後你嘗試把這兩個編碼器的輸出表示聯絡起來。就是說,從部分可見的、損壞的版本中學習完整圖像的表示。這就是聯合嵌入預測架構。這種方法效果更好,而且成本更低。
現在 MAE 團隊說,“好吧,這個方法看起來對圖像還行,我們試試用它來處理視訊。”結果,你要對視訊進行 token 化,基本上把視訊變成,16x16 的圖像塊,即使是很短的視訊,也會有很多圖像塊。然後訓練一個巨大的神經網路,來重建視訊中缺失的圖像塊,或者預測未來的視訊幀。為了做這個實驗,你需要煮沸的就不是一個小池塘了,而是一個小湖。而且結果基本上是失敗的。那個項目被砍掉了。
所以,我們現在找到的替代方案,是一個叫做 V-JEPA 的項目,我們正在開發 V-JEPA 的第二個版本,它基本上也是一種聯合嵌入預測架構,它可以在視訊上做預測,而且是在表示層面上做預測,效果看起來非常好。我們有一個例子,V-JEPA 的第一個版本,是用非常短的視訊片段(只有 16 幀)訓練的,它試圖基本上從部分被遮擋的視訊版本中,預測出完整視訊的表示。而且這個系統,似乎能夠判斷一個特定的視訊在物理上是否合理,至少在一些受限的場景下可以做到。
比爾·達利:那麼,系統輸出的是非黑即白的判斷嗎?比如,直接給出“這個視訊是合理的”或者“這個視訊是不合理的”這樣的結果?
楊立昆:不,其實比這更精細。判斷的依據是系統預測產生的誤差大小。具體來說,就是在視訊上滑動一個 16 幀的窗口,然後觀察系統是否能預測出接下來的幾幀,並測量預測的誤差值。當視訊中出現非常不尋常的情況時,例如物體突然消失或變形,或者物體憑空出現,又或者出現違反物理規律的現象,預測誤差就會顯著升高。
比爾·達利:所以,這個系統實際上是通過觀看視訊,自主學習物理世界的規律,從而判斷什麼是符合物理法則的,什麼是合理的。
楊立昆:訓練時,我們使用真實的自然視訊;測試時,則使用人工合成的視訊,並在合成視訊中人為地製造一些非常違反常理的事件。
比爾·達利:我明白了。那麼,如果用那些“違反常理的事件”頻繁發生的視訊來訓練系統,系統是不是就會認為那些“違反常理的事件”是正常的了?
楊立昆:你說的沒錯。那樣的話,系統就不會再認為那些事件是奇怪的了。所以我們當然不會那樣做。這有點類似於人類嬰兒學習“直覺物理學”的過程。例如,嬰兒需要一段時間才能認識到“物體在沒有支撐的情況下會掉落”,也就是理解重力。
嬰兒大約在九個月大的時候才能掌握這個概念。如果你給五六個月大的嬰兒看一個物體懸浮在空中的場景,他們並不會感到驚訝。但是,當嬰兒長到八九個月,或者十個月大的時候,如果再看到類似的場景,他們就會非常驚訝地盯著看。
這種反應是可以被測量到的,心理學家有專門的方法來測量嬰兒的注意力。這表明,嬰兒的內部世界模型,也就是他們對世界的認知模型,受到了挑戰。嬰兒看到了某些他們認為不可能發生的事情。
比爾·達利:也就是和他們的預期不符,是這樣吧。
楊立昆:完全正確。所以嬰兒會進行觀察,以便修正他們自己的內部世界模型,告訴自己,“也許我需要重新認識和學習這種現象”。
比爾·達利:你之前提到過,要在這個聯合嵌入空間中進行推理和規劃。你認為為了實現這個目標,在模型和硬體層面,分別存在那些瓶頸和挑戰?
楊立昆:目前來看,最大的挑戰仍然是讓這個方法真正有效地運行起來。我們需要找到一個有效的“配方”。就像在大家找到訓練簡單摺積神經網路的有效“配方”之前一樣。
回想一下,在 2000 年代末期之前,Geoffery Hinton 一直強調“使用反向傳播訓練深度網路非常困難”,“只有 Yann 能夠用 Cornet 做到,而且他可能是世界上唯一能做到的人”。
當然,這在當時有一定的事實依據,但實際上也並非完全如此。後來的研究表明,訓練深度網路並沒有想像中那麼困難,但確實需要掌握很多技巧,例如工程上的技巧、直覺性的理解,以及選擇合適的非線性啟動函數。
還有像 ResNet 提出的“殘差連接”的思想,那篇論文在過去十年中被引用了 25 萬次,是所有科學論文中引用次數最多的。但其核心思想卻非常簡潔:在網路中加入跨層連接,使得每一層默認情況下都傾向於計算恆等函數,而神經網路的學習目標則轉變為對這種恆等函數進行微小的調整和偏離。這個想法非常簡單,但卻使得建構更深的網路成為了可能。
比爾·達利:殘差連接可以有效防止反向傳播過程中的梯度消失。
楊立昆:的確如此。殘差連接使得訓練上百層的神經網路成為可能。而現在,我們已經能夠建構更深的網路了。
比爾·達利:因為在那之前,為了避免梯度消失,人們嘗試了很多技巧,比如從中間層引出輸出,並在這些中間層加入損失函數,因為梯度很難直接反向傳播到網路的底層。
楊立昆:網路中某些層可能會死亡,導致整個網路失效,不得不重新開始訓練。因此,很多人在早期很快就放棄了,因為他們沒有掌握足夠的技巧。所以,在大家找到一個有效的“配方”,並掌握了所有這些技巧之後,包括殘差連接、Adam 最佳化器、歸一化等等,順便說一句,我們最近發表的一篇論文證明,Transformer 架構實際上並不需要歸一化。
以及其他類似的技巧,在這些完整的“配方”和技巧被充分掌握之前,深度學習技術的發展確實舉步維艱。
自然語言處理(NLP)領域也經歷了類似的階段。在 2010 年代中期,那些基於去噪自編碼器的系統,例如 Bert 類型的系統,其核心思想是破壞文字,然後訓練大型神經網路來恢復缺失的詞語。但最終,這種方法被 GPT 風格的架構所超越。GPT 架構直接在完整的文字序列上進行訓練,本質上是訓練一個自編碼器,但無需手動破壞輸入,因為其架構本身是因果的。這同樣是一個“配方”的成功案例。事實證明,這個“配方”非常有效,並且具有良好的可擴展性。
因此,我們現在需要做的,就是為 JEPA 架構找到一個類似的有效“配方”,使其能夠像 GPT 一樣,實現良好的擴展性。而這正是我們目前所欠缺的。
比爾·達利:結束之前,你還有什麼最後想對聽眾(各位讀者們)說的嗎?
楊立昆:我想再次強調我之前的一個觀點。我認為,人工智慧的進步,以及邁向人類水平人工智慧,或者高級機器智能,或者通用人工智慧(AGI),無論你怎麼稱呼它,都需要每個人的共同努力。它不會憑空產生,也不會僅僅依靠某個機構秘密研發就能實現。這幾乎是不可能的。而且,人工智慧的進步不會是一個突然爆發的事件,而是一個漸進的過程,會經歷持續不斷的進步。人類也不會在人工智慧實現後的短時間內就被毀滅,因為它不會是一個突如其來的事件。
更重要的是,人工智慧的發展需要全球範圍內的共同參與和貢獻,因此,開放研究和基於開源平台至關重要。如果訓練模型需要大量的計算資源,那麼更經濟實惠的硬體就顯得尤為重要。所以,輝達可能需要考慮降低硬體價格了,抱歉。
比爾·達利:這個建議你可能需要直接向黃仁勳提出。
楊立昆:展望未來,我們將會擁有各種各樣的人工智慧助手,它們將在日常生活中為我們提供幫助,可能會通過智能眼鏡或其他智能裝置,時刻伴隨在我們身邊。而我們人類將成為這些人工智慧助手的主導者。它們將服務於我們,為我們工作。未來的社會,或許會變成一個我們每個人都扮演管理者的角色,這聽起來似乎也是一種有趣的未來景象。
比爾·達利:就以此作為我們今天的結尾吧。非常感謝你今天帶來的這場精彩絕倫、富有啟發性的對話。期待未來能有機會再次與你交流。 (AI科技大本營)