11月16日,被譽為“AI教母”的史丹佛大學以人為本AI研究所聯席主任的李飛飛接受了海外播客Lenny's Podcast的訪談。李飛飛詳細回顧了她如何從2006年開始,在AI的“寒冬”期,洞察到“巨量資料”是智能爆發的關鍵,並因此建立了ImageNet。本次對話還深入探討了為何AGI目前更像一個“行銷術語”,Scaling Law的侷限性;AI的下一個前沿“空間智能”;機器人領域“苦澀的教訓”為何可能失效等話題。此外,李飛飛還詳細介紹了Marble及其應用場景。Marble是World-Labs已研發出首個能生成真正“3D可導航世界”的生成式AI模型。它實現了提示詞生成世界,旨在為機器人模擬、電影虛擬製片、遊戲和科學發現提供空間智能的基礎。李飛飛回顧,AI寒冬期的核心痛點是“模型沒有資料可供訓練”,早在2016年,“AI”一詞在矽谷仍被視為“貶義詞”,公司會刻意避免自稱“AI公司”。李飛飛認為AGI在定義上模糊不清,而當前的AI(即使是LLM)在真正的認知、推理和情商上與人類相去甚遠,我們仍需大量的基礎創新。她指出,繼語言模型之後,AI的下一個前沿是“空間智能”。她認為人類智能很大程度上建立在視覺和空間理解之上,而“空間智能”是連接視覺、具身AI(機器人)和語言的“關鍵缺失環節”。機器人是“物理系統”,其難度遠超LLM。她認為巨量資料+簡單模型在機器人領域可能受阻,因為存在“完美錯位”:LLM的訓練(文字)和輸出(文字)完美對齊,而機器人的訓練資料(2D網路影片)與其期望的輸出(3D世界中的動作)完全不同。01 AI的最終走向取決於人類自己的選擇很多人稱你為“AI教母”,但與許多AI領袖不同,你是一位AI樂觀主義者,不認為AI會取代我們或毀滅我們。你如何看待AI將對人類產生的長期影響?你曾說“AI 沒有任何‘人工’的成分。它由人啟發,由人創造,最重要的是,它影響著人。” 既然AI的走向取決於我們,你認為我們需要做對那些事情?我們該如何確保AI走上正軌?李飛飛:首先我要明確一點,我不是一個烏托邦主義者。我並不是認為 AI 對就業或人類毫無影響。事實上,我是一個人本主義者。我相信,無論 AI 現在或未來做什麼,最終都取決於我們,取決於人類自己。我的確相信,如果你縱觀人類文明的漫長歷史,技術總體上對人類是積極的。我認為,我們本質上是一個善於創新的物種。從幾千年前有文字記錄開始,人類就在不斷自我革新、創新工具;借此,我們改善了生活,最佳化了工作,建立了文明。我相信 AI 也是這一處理程序的一部分。我的樂觀正是源於此。但我認為每一項技術都是雙刃劍。如果我們作為一個物種、一個社會、一個社區,或作為個體,沒有做出正確的選擇,我們同樣可能把事情搞砸。(關於AI“非人工”的本質)我對此感受很深。我二十五年前開始從事 AI 研究,在過去的二十年裡,我一直在指導學生。幾乎我實驗室的每位學生畢業時,我都會提醒他們:你們的領域叫作人工智慧,但它的本質沒有絲毫“人工”可言。(關於如何確保AI走上正軌)我認為,無論我們做什麼,都應該首先成為一個負責任的個體。這是我們教育孩子的方式,也是我們成年人應盡的責任。無論你參與的是 AI 的開發、部署還是應用,在那個環節——很可能我們中的許多人,特別是技術專家,同時參與了多個環節,我們都應該像一個負責任的個體那樣行事,並且真正關心這件事。我認為今天的每一個人都應該關心 AI,因為它將影響你的個人生活、你的社區,乃至整個社會和我們的子孫後代。而作為一個負責任的人去關心它,是第一步,也是最重要的一步。02 巨量資料、神經網路和 GPU成為現代 AI 的“黃金組合”大多數人開始聽說和關注AI,大概是幾年前ChatGPT問世的時候。但很少有人知道,在這之前有很長很長的歷史,人們在研究(當時它被稱為機器學習)AI。在很長一段時間裡,有很多人在研究它。然後,出現了人們所說的“AI 寒冬”,那個時期人們幾乎都放棄了。而你所做的工作(ImageNet),本質上是帶領我們走出AI寒冬的火花,並且直接促成了我們今天所處的世界。所以,我非常想聽你分享一下:在 ImageNet 誕生之前,世界是怎樣的?你建立 ImageNet 的歷程是怎樣的?它為什麼如此重要?以及這之後又發生了什麼?李飛飛:我的整個職業生涯都投身於 AI,所以有時我很難意識到 AI 對大多數人來說是多麼新奇。這... 看到一個我剛剛告別青少年時期就開始的個人好奇心,如今正轉變為一股推動我們文明變革的力量,我的一部分內心感到無比滿足。它確實是一種文明等級的技術。所以,這段旅程大約... 大約 30 年,或者說 20 多年,這真的非常令人滿足。那麼,一切是如何開始的呢?其實,我甚至不算是第一代 AI 研究者。第一代 AI 研究者真正要追溯到 50 年代和 60 年代。Alan Turing 在 40 年代就領先於他的時代,他向人類提出了一個大膽的問題:“機器能否思考?” 當然,他設計了一種特定的方法來測試“會思考的機器”這一概念,那就是一個對話聊天機器人。如果按照他的標準,我們現在已經擁有了會思考的機器。但這更多隻是一種軼事般的靈感。這個領域真正始於 50 年代,那時的電腦科學家們齊聚一堂,探討如何使用電腦程序和演算法,來建構那些能完成過去只有人類認知才能勝任的任務的程序。這就是 AI 的開端和奠基者們,在 1956 年的達特茅斯研討會上。後來任教於史丹佛的 John McCarthy 教授,創造了“人工智慧”這個術語。在 50 年代、60 年代、70 年代和 80 年代,是 AI 探索的早期階段。我們有了邏輯系統、專家系統,也對神經網路進行了早期探索。然後到了 80 年代末、90 年代,直到 21 世紀初。這大約 20 年的時間,實際上是機器學習的開端。它是電腦程式設計和統計學習的一次聯姻。這次聯姻為 AI 帶來了一個至關重要的概念:純粹基於規則的程序,是無法涵蓋我們想像中電腦所能擁有的龐大認知能力的。因此,我們必須用機器來學習模式。一旦機器能夠學習模式,它就有望做更多的事情。例如,你給它三隻貓的照片,你希望的不僅僅是機器能認出這三隻貓,而是希望它能認出第四隻、第五隻、第六隻,以及所有其他的貓。這是一種學習能力,是人類和許多動物的基礎能力。我們作為一個領域,認識到我們需要機器學習。這就是 21 世紀初之前的狀況。我進入 AI 領域,精準說是在 2000 年。那是我在 Caltech 開始攻讀博士學位的時候。所以,我是第一代機器學習研究者之一,我們當時已經在研究機器學習的概念,特別是神經網路。我記得我在 Caltech 的第一門課,就叫神經網路。但那段時期非常痛苦。我們仍深陷於所謂的“AI 寒冬”之中,這意味著公眾對此關注甚少,研究經費也不充裕,但學術思想卻在激盪。我認為,有兩件事讓我個人的職業生涯與現代 AI 的誕生如此緊密地聯絡在一起:一是我選擇通過視覺智能的視角來研究人工智慧,因為人類是高度依賴視覺的動物。我們稍後可以深入探討,但我們很大一部分智能是建立在視覺、感知和空間理解之上的,而不僅僅是語言本身。我認為兩者是互補的。所以我選擇了視覺智能。在我的博士和早期任教階段,我和我的學生們都堅定地朝著一個“北極星問題”努力,那就是解決物體識別的問題。因為它是我們感知世界的基石,對吧?我們在世界上詮釋、推理,並與世界互動,或多或少都是在物體層面上進行的。我們不會在分子層面與世界互動。我們... 即使有時會,也非常罕見。例如,當你想拿起一個茶壺,你不會想:“這個茶壺由 100 塊瓷片組成,我要先處理這 100 塊瓷片。” 你會把它當作一個整體來互動。所以,物體這個概念至關重要。因此,我是最早將物體識別確定為北極星問題的研究人員之一。但我認為,當時的情況是,作為 AI 的學生和研究者,我研究了各種數學模型,包括神經網路、貝葉斯網路等等。但存在一個核心痛點:這些模型沒有資料可供訓練。我們整個領域都過度專注於模型本身,但我突然意識到,人類的學習,乃至生物的進化,實際上都是一個巨量資料學習過程。人類通過海量的經驗持續學習;而進化,從時間尺度來看,動物也是在不斷體驗世界中進化的。所以,我和我的學生猜想,要讓 AI 真正實現,一個被嚴重忽視的關鍵要素就是巨量資料。於是在 2006 到 2007 年,我們啟動了 ImageNet 項目。我們當時雄心勃勃,想要獲取網際網路上所有關於物體的圖像資料。當然,那時的網際網路比現在小得多。所以我覺得那個雄心至少不算太瘋狂。如果放到現在,幾個研究生和教授想做這個,那簡直是痴人說夢。但我們確實那麼做了。我們精心收集並整理了網際網路上的 1500 萬張圖片,建立了一個包含 22000 個概念的分類法。我們借鑑了其他研究者的成果,比如語言學家在 WordNet 上的工作,那是一種特殊的詞典編纂方式。我們將這些整合建立了 ImageNet,並將其開源給了研究社區。我們還舉辦了一年一度的 ImageNet 挑戰賽,鼓勵所有人參與。我們自己也繼續著研究。但 2012 年,成為了許多人認為的深度學習的開端,或是現代 AI 的誕生日。因為由 Jeff Hinton 教授帶領的一組多倫多研究人員,參加了 ImageNet 挑戰賽,他們使用了 ImageNet 的巨量資料,以及 NVIDIA 的兩塊 GPU,成功建立了第一個神經網路演算法。它並沒有從根本上完全解決問題,但在解決物體識別問題上取得了巨大進展。這三者的結合——巨量資料、神經網路和 GPU成為了現代 AI 的“黃金組合”。然後快進到 AI 的高光時刻,也就是 ChatGPT 時刻。如果你分析一下推動 ChatGPT 誕生的要素,你會發現它在技術上仍然依賴這三個要素:現在是網際網路規模的資料,並且以文字為主;神經網路架構比 2012 年複雜得多,但它仍然是神經網路;GPU 的數量也多得多,但它仍然是 GPU。所以這三個要素至今仍是現代 AI 的核心。03 9年前,自稱為人工智慧公司基本上就是判了死刑ImageNet誕生前後“AI”和“機器學習”這兩個詞可以互換使用嗎?那是當時的主流叫法嗎?關於那段早期歷史,是否還有什麼是你認為很重要、但人們卻不瞭解的?李飛飛:我覺得這兩個詞當時是互換使用的, 但確實,我記得那些科技公司... 我就不點名了。但我在一次早期的對話中,大概是 2015 年中或 2016 年中,一些科技公司刻意避免使用 AI 這個詞,因為他們不確定 AI 是不是一個“貶義詞”。我記得我當時實際上在鼓勵大家使用 AI 這個詞,因為對我而言,這是人類在探索科學技術過程中提出的最大膽的問題之一,我為這個詞感到非常自豪。但是,在早期,有些人確實心存疑慮。Lenny:“AI 是個貶義詞”大概是在那一年?李飛飛:2016 年。我認為那是一個轉折點。開始有人稱它為 AI。但我認為,如果你回顧矽谷科技公司的行銷術語,大概在 2017 年左右,才開始有公司稱自己為“AI 公司”。(關於早期AI歷史的補充)我想,和所有歷史一樣,我深知自己被視為歷史的一部分,但這段歷史中有太多的英雄和研究者。我們談論的是幾代研究者。在我的經歷中,有很多人激勵了我,我在書中也提到了他們。但我確實感到我們的文化,尤其是矽谷,傾向於將成就歸功於某一個人。雖然我認為這有一定價值,但我們必須記住,AI 是一個至今已有 70 年歷史的領域,我們已經歷了數代人的努力。沒有任何人能獨自走到今天。04 AGI是行銷術語我們似乎總感覺自己處在 AGI 的邊緣,AGI 是人們常掛在嘴邊的一個模糊術語。你如何看待我們與 AGI 之間的距離?你認為我們能沿著當前的軌跡實現它嗎?還是說我們需要更多的突破?李飛飛:Lenny,這是一個非常有趣的術語。我不知道是否有人真正定義過 AGI。目前有很多不同的定義,包括機器擁有某種超能力,甚至到機器能否成為社會中經濟上可行的“代理人”,換句話說,能靠掙工資“養活”自己。這算是 AGI 的定義嗎?作為一名科學家,我對待科學非常嚴肅。我進入這個領域,是受一個大膽問題的激勵:“機器能否像人類一樣思考和行動?” 對我而言,這一直是 AI 的“北極星”。從這個角度來看,我不知道 AI 和 AGI 之間有何區別。我認為我們在實現 AI 的部分目標上做得很好,比如對話式 AI,但我認為我們尚未完全實現 AI 的所有目標。我想,我們的開創者們,比如 Alan Turing,如果 Alan Turing 今天還在世,你讓他比較 AI 和 AGI,他可能只會聳聳肩說:“我在 1940 年代問過同樣的問題。” 所以,我不想在定義 AI 還是 AGI 這個問題上鑽牛角尖。我覺得 AGI 與其說是一個科學術語,不如說更像一個行銷術語。作為一名科學家和技術專家,AI 是我的北極星,是我所在領域的北極星,至於人們想叫它什麼名字,我都很樂意。正如你所描述的,是某些要素(如 ImageNet、AlexNet、GPU、資料、Transformer)將我們帶到了今天。你是否覺得,要實現一個聰明 10 倍的模型,依靠的還是這些相同的要素?還是你認為我們需要更多突破?你是否覺得“現有路徑會達到瓶頸”,或者“不,我們只需要更多資料、更多算力、更多 GPU 就行了”?李飛飛:不,我堅信我們需要更多創新。我認為,依賴更多資料、更多 GPU 和更大規模的現行模型架構的 Scaling Law 確實還有很多潛力可挖,但我絕對認為我們需要更多創新。在人類歷史上,沒有任何一個深度科學學科發展到某個階段後敢說:“我們完工了,我們不需要再創新了。” 而 AI,即使不是最年輕的,也是人類文明科學技術史上最年輕的學科之一。我們仍然只是觸及了皮毛。舉個例子,就像我說的,我們等下會聊到世界模型。今天,你拿一個模型,讓它觀看一段包含幾個辦公室房間的視訊,然後要求模型數出椅子的數量。這件事一個剛會走路的孩子,或者頂多一個小學生就能做到。但 AI 卻做不到。所以,當今的 AI 還有太多事情做不到。更不用說去思考,像 Isaac Newton 這樣的人是如何觀察天體運行,並推匯出一個或一組支配所有物體運動的方程式?那種水平的創造力、外推能力和抽象能力,我們今天完全沒有辦法讓 AI 具備。再來看看情商。想像一個學生來到老師的辦公室,他們討論關於動力、熱情、該學什麼,以及到底是什麼問題在真正困擾著你。這樣的對話,即使今天的對話機器人已經非常強大,你也無法從當今的 AI 身上獲得那種水平的情感和認知智能。所以,我們還有太多可以改進的地方,我絕不相信我們的創新之路已經走到了盡頭。Lenny:Google 的 Demis 說如果我們把直到 20 世紀末的所有資訊都喂給最前沿的模型,看看它能否重現愛因斯坦當年的所有突破。而到目前為止,我們離那一步還差得很遠。李飛飛:沒錯,我們還做不到。事實上,情況可能更糟。讓我們給 AI 所有的資料,包括 Isaac Newton 當年沒有的、由現代儀器觀測的天體資料,然後只要求 AI 建立出 17 世紀那套關於物體運動定律的方程式。今天的 AI 依然做不到。05 空間智能是連接視覺、具身AI和語言的關鍵您很早就預見到世界模型,您投身於此已久,能否談談:什麼是世界模型?它為什麼如此重要?李飛飛:我很高興看到越來越多的人開始討論世界模型,比如 Elon 和 Jensen。我一生都在思考如何真正推動 AI 向前發展。過去幾年裡,從研究界湧現出的大語言模型,以及 OpenAI 等公司的工作,對我這樣的研究者來說也是極具啟發性的。我記得 GPT-2 問世時,大概是在 2020 年底。我當時 (現在仍然是) 史丹佛大學HAI的聯席主任,但我那時是全職的聯席主任。我記得當時公眾還沒有意識到大語言模型的力量,但作為研究者,我們已經預見到了。我們看到了未來。我與我的自然語言處理同事,如 Percy Liang 和 Chris Manning,進行了深入的交流。我們討論了這項技術將變得多麼關鍵。史丹佛 AI 研究所,即 HAI,是全球第一個圍繞基礎模型成立完整研究中心的機構。Percy Liang 和許多研究者領導撰寫了第一篇關於基礎模型的學術論文。所以,這一切都讓我備受鼓舞。當然,我來自視覺智能領域,我一直在思考,除了語言之外,我們還有太多可以推進的領域。因為人類會運用我們的空間智能和對世界的理解來完成許許多多超越語言範疇的事情。想像一個極其混亂的急救人員現場,無論是火災、交通事故還是自然災害。如果你置身其中,想想人們是如何組織起來救人、阻止災難擴大、滅火……這其中很大一部分涉及移動,涉及對物體、世界、人類以及態勢感知的即時理解。語言是其中的一部分,但在很多情況下,語言本身並不能幫你撲滅大火。那麼,這是什麼呢?我思考了很久。與此同時,我正在做大量的機器人學研究。我逐漸意識到,要想連接語言之外的額外智能,要想連接具身 AI (即機器人學),要想連接視覺智能,其關鍵就在於那種理解世界的空間智能。就在那時,我想大概是 2024 年,我做了一場關於空間智能和世界模型的 TED 演講。我早在 2022 年,就基於我在機器人學和電腦視覺領域的研究,開始構思這個想法。然後,有一點對我來說非常清晰:我非常渴望與最頂尖的技術專家合作,並盡快將這項技術變為現實。就在那時,我們創立了這家名為 World-Labs 的公司。你可以看到,“世界” (world) 這個詞就在我們公司的名字裡,因為我們對世界建模和空間智能懷有無比的信念。如果拿大語言模型(聊天機器人)作對比,是否可以簡單理解為:世界模型就是你描述一個場景,它就能生成一個可以無限探索的世界?李飛飛:Lenny,這只是其中一部分。我認為,理解世界模型的一個簡單方式是:這個模型允許任何人在腦海中通過提示 (無論是圖像還是句子) 來創造任何世界;並且能夠在這個世界中互動,無論你是在瀏覽、行走、拾取物體還是改變事物;同時還能利用這個世界進行推理。舉個例子,如果使用這個世界模型輸出的 AI Agent 是一個機器人,它就應該能夠規劃自己的路徑,並幫助整理廚房。所以,世界模型是一個基礎,你可以用它來推理、互動和創造世界。機器人似乎是 AI 研究者的下一個重大關注點。您是否認為,世界模型(或空間智能)是讓機器人在現實世界中真正發揮作用所缺失的關鍵一環?那麼,世界模型的重大突破點是否主要集中在機器人、遊戲和創意領域?李飛飛:嗯,不過首先,我確實認為還有比機器人更令人興奮的東西。但我完全同意你剛才說的。我認為世界建模和空間智能是具身 AI 的關鍵缺失環節。同時,我也認為我們不應低估人類自己就是具身代理人這一事實,AI 的智能同樣可以增強人類。就像今天,人類是“語言動物”,但 AI 在很大程度上增強了我們執行語言任務的能力,包括軟體工程。我認為我們不應該低估,或者說我們傾向於忽視,人類作為具身代理人,其實也能像機器人一樣,從世界模型和空間智能模型中獲益良多。還有設計。人類從事各種設計,從機器到建築再到家居。此外還有科學發現。有太多,我喜歡用 DNA 結構的發現作為例子。如果你回顧 DNA 發現史上最重要的證據之一,那就是 Rosalind Franklin 拍攝的 X 射線衍射照片。那是一張平面的 2D 照片,展示了一個看起來像一個帶有衍射紋路的十字架的結構。你可以去 Google 搜尋那些照片。但憑藉那張 2D 平面照片,人類,特別是兩位重要人物——James Watson 和 Francis Crick,結合他們掌握的其他資訊,成功地在 3D 空間中進行了推理,推匯出了 DNA 高度三維的雙螺旋結構。那個結構不可能是 2D 的。你無法在 2D 層面思考並推匯出那種結構。你必須在 3D 空間中思考,運用人類的空間智能。所以我認為,即使在科學發現領域,空間智能或 AI 輔助的空間智能也至關重要。06 機器人是物理系統,訓練資料與目標輸出“完美錯位”Ben Horowitz 建議我問您:為什麼“苦澀的教訓”(The Bitter Lesson)單獨拿出來看,可能不足以解決機器人學的問題?能否請您首先解釋一下 AI 歷史上的“苦澀的教訓”是什麼?然後,再談談為什麼僅憑它無法讓我們在機器人領域實現目標?李飛飛:AI 領域有很多“慘痛的教訓”,但大家常提的“慘痛的教訓”是一篇由 Richard Sutton 撰寫的論文,他最近獲得了圖靈獎。他從事大量關於強化學習的研究,Richard 曾經說過,如果你回顧歷史,尤其是 AI 的演算法發展史,你會發現,簡單的模型輔以海量資料最終總是會勝出,而不是那些依賴更少資料、更複雜的模型。這篇論文實際上是在 ImageNet 誕生數年後才發表的。對我而言,這並非“慘痛”,反而是一個“甜蜜的教訓”。這也正是我建立 ImageNet 的原因,因為我堅信巨量資料能扮演這樣的角色。那麼,“慘痛的教訓”在機器人學領域是否還適用呢?首先,我認為我們要客觀看待目前取得的進展。機器人學尚處於非常早期的實驗階段。這項研究的成熟度遠不及語言模型等領域。因此,許多人仍在使用不同的演算法進行實驗,其中一些演算法確實是由巨量資料驅動的。所以我認為巨量資料將繼續在機器人學中發揮作用。但是,機器人學領域的難點在於什麼?有幾個方面。其一,獲取資料更難,難得多。你可能會說,“有網路資料。”沒錯,這也是當下機器人學研究正在使用網路影片的原因。而且我認為網路影片確實在發揮作用。但如果你思考一下語言模型成功的原因,作為一名從事電腦視覺、空間智能和機器人學研究的人,我非常羨慕我那些研究語言的同事,因為他們擁有近乎完美的配置:他們的訓練資料是詞語,最終成為 tokens,然後他們生成的模型輸出的也是詞語。因此,在你期望得到的結果,我們稱之為目標函數,和你的訓練資料形態之間,存在著完美的對齊。但機器人學不同,空間智能也不同。你希望機器人能輸出動作,但你的訓練資料卻缺乏 3D 世界中的動作資料,而這恰恰是機器人必須執行的:在 3D 世界中產生動作。因此,你必須尋找不同的方法,這就好比要把一個方形的東西塞進圓形的孔裡。我們擁有的是海量的網路影片。所以我們必須開始討論補充資料,例如遙運算元據或合成資料,以便讓機器人基於“慘痛的教訓”這一假設,即海量資料,進行訓練。我認為希望仍在,因為即便是我們正在做的世界建模工作,也將真正為機器人解鎖大量此類資訊。但我認為我們必須保持謹慎,因為我們尚處於這一領域的早期,而“慘痛的教訓”是否適用仍有待檢驗,因為我們還未完全弄清適合的資料形態。關於機器人學的“慘痛的教訓”,我認為我們還必須非常現實地認識到另一點:與語言模型甚至空間模型相比,機器人是物理系統。因此,機器人更接近於自動駕駛汽車,而不是大語言模型。認識到這一點至關重要。這意味著要讓機器人工作,我們不僅需要“大腦”,還需要“實體”,更需要應用場景。如果你回顧一下自動駕駛汽車的歷史:我的同事 Sebastian Thrun 帶領 Stanford 的團隊在 2006 年或 2005 年贏得了第一屆 DARPA 挑戰賽。從那輛能在內華達沙漠行駛 130 英里的自動駕駛原型車,到今天行駛在舊金山街頭的 Waymo,已經過去了 20 年。即便如此,我們仍未大功告成,還有很長的路要走。這是一段 20 年的歷程。而自動駕駛汽車還是相對簡單很多的機器人,它們只是在 2D 表面上行駛的金屬盒子,目標是“不觸碰”任何東西。機器人則是在 3D 世界中運行的 3D 物體,其目標是“去觸碰”東西。所以,這段旅程將會涉及很多方面和元素。當然,有人可能會說:“自動駕駛早期的演算法屬於前深度學習時代。深度學習正在加速‘大腦’的進化。”我同意這一點。這正是我投身於機器人學和空間智能領域的原因,我對此感到興奮。但與此同時,汽車工業已經是一個非常成熟的產業。產品化同樣涉及成熟的用例、供應鏈和硬體。因此,我認為現在是研究這些問題的絕佳時機,但 Ben 說的沒錯,我們可能仍會遭遇許多“慘痛的教訓”。在從事這項工作時,您是否曾對大腦的運作方式感到敬畏?僅僅是讓一台機器四處走動、不撞到東西,就要克服如此高的複雜性。李飛飛:確實如此。我們的運行功率大約只有 20 瓦,比我現在房間裡任何一盞燈泡都暗。然而,我們卻能完成如此多的事情。所以我認為,實際上,我越是深入 AI 領域的工作,就越是敬佩人類。07 我們建構了世界上第一個能夠生成真正3D世界的生成式AI模型讓我們聊聊您剛發佈的這款產品 Marble。它是什麼,以及它為何重要?李飛飛:我非常興奮。首先,Marble 是 World-Labs 推出的首批產品之一。World-Labs 是一家基礎前沿模型公司。我們由四位擁有深厚技術背景的聯合創始人共同創立。我的聯合創始人 Dustin, John, Christoph Lassner, 和 Ben Mildenhall,都來自 AI、電腦圖形學、電腦視覺的研究領域。我們相信,空間智能和世界建模即便不比語言模型更重要,也至少同等重要,並且與語言模型相輔相成。因此,我們希望抓住這個機遇,建立一個能夠連接前沿模型與產品的深度科技研究實驗室。所以,Marble 是一款基於我們的前沿模型建構的應用程式。我們花了一年多的時間,建構了世界上第一個能夠生成真正 3D 世界的生成式 AI 模型。這是一個非常、非常困難的問題。這個過程也異常艱難,我們擁有一支令人難以置信的創始團隊,彙集了來自頂尖實驗室的傑出技術專家。大概一兩個月前,我們第一次實現了僅通過一個句子、一張或多張圖片作為提示,就能建立出可在其中導航的世界。如果你把它載入到 VR 頭顯中,你甚至可以在裡面四處走動。所以,儘管我們已經為此努力了相當長一段時間,但看到成果時仍然感到無比振奮。我們希望將它交到需要它的人手中。我們知道,有那麼多的創作者、設計師、考慮機器人模擬的人、思考可導航、可互動、沉浸式世界不同用例的人,以及遊戲開發者,都會發現它非常有用。因此,我們開發了 Marble 作為第一步。當然,它仍處於非常早期的階段,但它是世界上第一個實現此功能的模型,也是世界上第一個允許人們僅通過提示詞就能生成世界的產品。我們稱之為“提示詞生成世界”。我試用時,最喜歡的部分是在渲染紋理前,能看到構成世界的“點”。我不知道這是功能還是 bug?你們加入這個“點”的功能是為了幫助人類理解它在做什麼嗎?這讓我想起了《駭客帝國》,這是否是你們的靈感來源?李飛飛:聽到你的反饋真是太好了,因為這也讓我作為研究者學到了東西。那些引導你進入世界的“點”,是一個我們有意設計的可視化功能。它並不是模型的一部分。模型本身只是負責生成世界。但我們當時在嘗試找到一種引導使用者進入世界的方式,工程師們嘗試了不同的版本,最終我們選定了“點”這個方案。有很多人,你不是唯一一個,告訴我們那種體驗是多麼令人愉悅。我們有意設計的這個可視化功能,而不只是那個龐大、硬核的模型本身,能給使用者帶來快樂,這真的讓我們感到非常滿足。就像我說的,有很多工程師參與了這項工作。這可能是他們的靈感。08 Marble的應用:從虛擬製片到心理治療對於那些想要嘗試或使用 Marble 的人來說,目前有那些應用是大家今天就可以開始使用的?這次發佈的目標是什麼?Marble 與 Sora 和其他視訊生成模型有什麼區別?創造出這樣的產品需要投入多少?比如團隊規模有多大?你們用了多少 GPU?李飛飛:我們堅信世界建模是一項具有高度通用性的技術,但我們已經看到了一些非常令人興奮的用例。比如用於電影的虛擬製片,因為他們需要 3D 世界來與攝影機對齊,這樣當演員在綠幕前表演時,他們就可以定位攝影機並完美地拍攝片段。我們已經看到了非常棒的應用。事實上,不知道你是否看了我們展示 Marble 的發佈視訊,它就是由一家虛擬製片公司製作的。我們與 Sony 合作,他們使用 Marble 生成的場景來拍攝那些視訊。我們與那些技術美術師和導演合作時,他們說:“這為我們縮短了 40 倍的製作時間。”事實上,也只能這樣才能完成,因為我們只有一個月的時間來製作這個項目,而他們需要拍攝的場景非常多。因此,使用 Marble 極大、極大地加速了視覺特效和電影的虛擬製片流程。這是一個用例。我們已經看到使用者將我們的 Marble 場景進行網格匯出,然後放入遊戲中,無論是在 VR 平台上的遊戲,還只是他們開發的有趣遊戲。我們還展示了一個機器人模擬的例子。因為我現在仍然是一名從事機器人訓練的研究者,過去最大的痛點之一就是為訓練機器人建立合成資料。這些合成資料需要非常多樣化,需要來自具有不同可操縱物體的不同環境。實現這一目標的一條途徑就是讓電腦去模擬。否則,人類就必須為機器人建構每一個單獨的資產,那將花費太長太長的時間。所以,已經有研究人員聯絡我們,希望使用 Marble 來建立那些合成環境。在如何使用 Marble 方面,我們也收到了一些意想不到的使用者垂詢。例如,一個心理學家團隊聯絡我們,希望使用 Marble 來進行心理學研究。原來,他們研究的某些精神疾病患者,需要瞭解他們的大腦對不同特徵,例如凌亂的場景、乾淨的場景,或任何你能想到的,的沉浸式場景會作何反應。對於研究人員來說,要獲取這類沉浸式場景非常困難,建立它們需要耗費太多的時間和預算。而 Marble 提供了一種幾乎是即時的方式,讓他們能夠獲得大量此類實驗環境。因此,我們看到了多種用例,其中視覺特效、遊戲開發者、模擬開發者以及設計師都對此非常興奮。(關於與視訊模型的區別)World-Labs 的核心理念是,空間智能是至關重要的。空間智能並不僅僅是關於視訊。事實上,我們感知世界的方式並不是被動地觀看視訊流逝。我非常喜歡柏拉圖用“洞穴寓言”來描述視覺。他說:“想像一個囚犯被綁在椅子上,在一個洞穴裡,觀看他面前牆上的一場戲劇表演。但真正的戲劇,演員們表演的地方,是在他的背後。那裡有光照,使得戲劇動作的投影投射在洞穴的牆壁上。”這位囚犯的任務就是要弄清楚到底發生了什麼。這是一個很極端的例子,但它深刻地描述了視覺的本質:即從 2D 圖像中去理解 3D 乃至 4D 的世界。所以,對我而言,空間智能比僅僅建立平面的 2D 影像要深刻得多。空間智能是一種建立、推理、互動並理解具有深度空間屬性的世界的能力,無論是 2D、3D 還是 4D,這其中也包括了動力學等。因此,World-Labs 專注於此。當然,生成視訊本身的能力也可以是其中的一部分。事實上,就在幾周前,我們推出了世界上第一個可以在單個 H100 GPU 上進行即時演示的視訊生成技術。所以我們的技術也包含了那部分。但我認為 Marble 非常不同,因為我們真心希望創作者、設計師和開發者手中能有一個模型,為他們提供具有 3D 結構的世界,以便他們將其用於自己的工作。這正是 Marble 如此與眾不同的原因。順便一提,在 Marble 內部,我們可以允許使用者以視訊形式匯出。所以你完全可以,就像你說的,你進入一個世界,比如一個哈比人的洞穴,特別是作為一名創作者,你在腦海中已經有了一個非常具體的攝影機運動軌跡,對吧?然後你就可以將這段運鏡從 Marble 中匯出為視訊。(關於團隊和資源投入)這需要極大的智慧。我們剛提到過,人類大腦的功耗大約是 20 瓦。從這個角度看,20 瓦是個很小的數字,但它背後是令人難以置信的,是長達五億年的進化才賦予我們的力量。我們現在有一個 30 人左右的團隊,主要由研究人員和研究工程師組成。但我們也有設計師和產品人員。我們堅信,我們要建立一家植根於空間智能深度技術的公司,同時,我們也在打造真正有價值的產品。所以,我們實現了研發與產品落地的整合。當然,我們用了海量的 GPU。這大概是 Jensen 最樂意聽到的。09 AI領域的競爭太激烈了,無論是模型、技術還是人才您是 World-Labs 的創始人,公司成立大約 18 個月了。您現在回想,最希望 18 個月前的 Fei-Fei 當時就知道的事情是什麼?縱觀你的職業生涯,你似乎總是在那些推動了當今科技突破的核心人才高地(ImageNet、Stanford SAIL、Google Cloud)。是什麼指引你加入了這些地方?對於那些希望渴望站在未來中心的人們,這背後是否有一條主線?你提到了現在的年輕人才在選擇工作時會精打細算。你是否想對他們說幾句話?李飛飛:我一直都希望能預知技術的未來。實際上,我認為這是我們能獲得融資的優勢之一,那就是我們通常比大多數人更早地看到未來。但是,這個領域依然如此令人興奮,如此令人驚奇,充滿了未知與即將到來的變革。但我知道你問的不是關於技術未來。你可能更關心別的。我並不是 20 歲就創辦了這種規模的公司。我 19 歲時開過一家乾洗店,但那規模小多了。後來,我參與創立了 Google Cloud AI,然後在 Stanford 創立了一個研究所,但那些都和現在完全是兩碼事。我確實覺得,相比那些 20 歲的創始人,我對於創業這段艱辛的歷程準備得更充分一些。但我仍然時常感到驚訝,甚至有些焦慮不安,AI 領域的競爭實在是太激烈了,無論是模型、技術本身,還是人才方面。我剛成立公司那會兒,還沒有聽說過某些人才的身價會高到如此離譜。這些事情持續讓我感到驚訝,我必須對此保持高度警惕。(關於職業選擇的主線)我也時常思考。顯然,我們談到過,是好奇心和熱情指引我進入 AI 領域。這更像是我科研上的“北極星”。我當時並不在乎 AI 是否炙手可熱。這是一方面。但我是如何最終選擇在我工作過的這些地方,包括創辦 World-Labs 的呢?我想我非常感謝自己,或者感謝我父母的基因,我是一個在求知上無所畏懼的人。我必須說,我在招聘年輕人時,也會尋找這種特質。因為我認為,如果你想有所作為,這是一種非常重要的品質。當你想要有所作為時,你必須接受一個事實:你正在創造前人未曾做過的新事物,或者正在投身於一個全新的領域。一旦你有了這種自我認知,你就必須讓自己保持無畏和勇敢。舉個例子,我來 Stanford 的時候,在學術界,我當時在 Princeton 已經非常接近拿到“終身教職”了,那意味著一份終身的工作。但我選擇來到 Stanford。我愛 Princeton,那是我的母校。但只是在那個時刻,Stanford 有太傑出的人才,矽谷的生態系統太棒了,我願意冒險,那怕讓我的終身教職“時鐘”歸零重啟。再比如,我去擔任 SAIL 的第一位女性主任。坦白說,我當時是相對非常年輕的教員。我之所以想這麼做,是因為我關心那個學術社區。我沒有花太多時間去想各種失敗的可能性。當然,我很幸運,那些資深教授都很支援我,但我當時就是想做點不一樣的事情。去 Google 也是類似的。我想和 Jeff Dean, Jeff Hinton 那些了不起的人一起工作。創辦 World-Labs 也是一樣。我懷有這份熱情,並且我堅信,一群懷有相同使命的人能做出不可思議的成就。這就是指引我人生的信條。我不會過度思考所有可能出錯的細枝末節,因為那樣想是想不完的。(對年輕AI人才的建議)我確實想對所有 AI 領域的年輕人才,對那些工程師和研究員們說幾句話,因為你們中有些人申請了 World-Labs。你們能考慮 World-Labs,我感到非常榮幸。我發現,現在許多年輕人在決定工作時,會精打細算,權衡每一個因素。某種程度上,也許,這只是他們做事的方式。但有時我真的很想鼓勵年輕人專注於真正重要的事情。我發現自己,在和候選人交談時,常常不自覺地扮演起導師的角色,無關招聘與否,只是當我看到一個極具天賦的年輕人,卻過度糾結於工作的每一個細枝末節時,我總想提醒他們,也許最重要的事情是:你的熱情在那裡?你是否認同這家公司的使命?你是否相信並對這個團隊抱有信心?你應該專注於你能產生的影響,以及你將與之共事的工作和團隊。10 史丹佛HAI的使命:建立“以人為本”的AI框架我一定要問問你今天在 Stanford 的工作,在 HAI。你在那裡做什麼?李飛飛:HAI,以人為本的 AI 研究所,是我和 John Etchemendy 教授、James Landay 教授、Chris Manning 教授等一群學者在 2018 年共同創立的。當時我其實快結束在 Google 的學術休假了。那對我來說是一個非常重要的決定。我本可以留在工業界,但我在 Google 的經歷讓我明白了一件事:AI 將成為一種足以影響文明處理程序的技術。我突然意識到它對人類有多麼重要,以至於我2018 年在 《紐約時報》上發表了一篇文章,呼籲我們需要一個指導框架來開發和應用 AI。這個框架必須植根於人類的福祉,也就是‘以人為本’。我覺得 Stanford,作為世界頂尖大學之一,地處誕生了 NVIDIA、Google 等重要公司的矽谷心臟,理應成為思想領袖,去建立這個以人為本的 AI 框架,並將這一理念真正體現在我們的研究、教育、政策和生態建設中。所以我創立了 HAI。一晃六七年過去了,它現在已經成為全球最大的人工智慧研究所,致力於以人為本的研究、教育、生態外展和政策影響。HAI 匯聚了 Stanford 所有八個學院的數百名教員,涵蓋了醫學、教育、可持續發展、商學、工程、人文、法律等領域。我們支援研究人員,特別是那些跨學科領域的研究,從數字經濟、法律研究、政治科學,到新藥發現,再到超越 Transformer 的新演算法。我們還特別關注政策。因為在創立 HAI 時,我意識到科技界與全球的政策制定者之間缺乏溝通。鑑於這項技術如此重要,我們需要讓各方都參與進來。因此,我們設立了多個項目,從‘AI 指數報告’到‘政策簡報’。我們還積極參與政策制定,包括倡導‘國家 AI 研究雲’法案,並參與了州一級的 AI 監管討論。我們做了很多工作。我至今仍是領導者之一,儘管在具體營運上參與得少了,因為我關心的不僅是創造這項技術,更是確保我們以正確的方式使用技術。11 任何技術都不應剝奪人的尊嚴和自主權你還有什麼想分享的嗎?或者想對聽眾說的?李飛飛:我對 AI 感到非常興奮。我想回答一個問題,一個我環遊世界時每個人都會問我的問題:如果我是一個音樂家、一個中學老師、一個護士、一個會計或一個農民,在 AI 時代還有我的位置嗎?還是 AI 終將取代我的生活或工作?我認為這是關於 AI 最重要的問題。我發現,在矽谷,我們不常與普羅大眾,無論是像我們的人,還是和我們不一樣的人,進行坦誠的交流。我們傾向於隨意拋出‘無限生產力’、‘無限休閒時間’或‘無限權力’之類的詞彙。但歸根結底,AI 是關於人的。當人們問我那個問題時,我的答案是毋庸置疑的‘是’,每個人在 AI 時代都有自己的角色。這取決於你的工作和你的追求,但任何技術都不應剝奪人的尊嚴。人類的尊嚴和自主權必須是每一項技術開發、部署和治理的核心。所以,如果你是一個年輕的藝術家,你的熱情是講故事,那麼請擁抱 AI 作為工具。事實上,我希望你擁抱 Marble,希望它能成為你的工具。因為你講故事的方式是獨一無二的,世界仍然需要你的故事。但你如何講述故事,如何使用這些最不可思議的工具,用你最獨特的方式去講述,這很重要,你的聲音需要被聽到。如果你是一個即將退休的農民,AI 對你依然重要,因為你是一名公民。你可以參與社區事務,你應該在 AI 如何被使用和應用上擁有發言權。你和你身邊的人,可以鼓勵大家利用 AI 讓生活變得更輕鬆。如果你是一名護士,我希望你知道,至少在我的職業生涯中,我在醫療保健研究上投入了大量精力,因為我堅信我們的醫護人員應該被 AI 技術極大地賦能和幫助。無論是通過智能攝影機提供更多資訊,還是通過機器人輔助,因為我們的護士工作強度太大、太疲勞了。隨著社會老齡化,我們需要更多幫助來照顧人們。AI 可以在這方面發揮作用。我只想說,這一點非常重要:即使是像我這樣的技術專家,也真誠地相信,每個人在 AI 時代都扮演著重要的角色。 (數字開物)