李飛飛最新訪談:未來需要三維世界的基礎大模型

5月13日,李飛飛接受海外部落格High Signal訪談,本次對話中詳細解釋了「以人為本AI」的核心內涵、實踐維度及其在醫療、教育等多元領域的廣闊應用。此外,還聚焦於空間智慧AI的前沿進展、三維基礎模型的未來構想、開源生態對產業的關鍵作用,並就如何辨別AI發展中的真實訊號與潛在風險,以及建構健康、可持續的AI生態系統等議題展開交流。

李飛飛指出,空間智能作為整體智能及未來AGI的關鍵組成,透過對三維世界的建模、理解與互動,將為內容創作、互動體驗、機器人技術及各類培訓教育帶來革命性變革,它代表了一種超越傳統文字的「空間語言」。她認為,三維本身作為一種計算與程式語言的潛力被嚴重低估,而具備空間特性的三維世界基礎模型正是當前生成式AI時代所缺少的關鍵一環,其創辦的World Labs正致力於此。

以下是本次對話實錄 經數字開物團隊編譯整理

01. 關鍵轉折:從物理初心到以人為本的AI

主持人提問:您擁有非凡的職業履歷,涉足科學研究、創業、教育等諸多領域。在您的發展歷程中,有那些至關重要的轉折點?

李飛飛:謝謝你的提問。我對自己至今的職業生涯心懷感激。要說關鍵的轉折點,第一個是發現我的「初戀」──那絕對是物理學。當我還是個十幾歲的少年,大概十二歲時,我邂逅了物理學的世界。它一開始看起來很簡單,只是力學、光學、電磁學,卻為我打開了一扇全新的大門。那種痴迷,那種好奇,那種科學世界獨有的奇妙魅力,從那時起便一直伴隨著我的人生。所以,那是一個關鍵時刻。另一個關鍵時刻,是在我攻讀博士學位的初期,也就是AI發展的極早期,我投身於AI研究。這在某種非常個人的層面上是關鍵性的,因為那時AI默默無聞,沒有任何光環。世界對AI鮮有提及,那正是AI的「寒冬」時期。事實上,「AI」這個字本身都很少被用到。但正是在那時,我發現了一門能夠探究智慧核心的科學。它為我開啟了研究智慧如何運作以及如何創造智慧手機器,特別是視覺智慧手機器的大門。那是一段令人難以置信的、令人難以置信的旅程,尤其是在初期那些奠定基礎的歲月,對我而言至關重要。

當然,ImageNet項目是一個里程碑式的時刻。它持續了好幾年,從最初的構想到具體實施,再到挺過無人問津的階段,最終迎來了ImageNet挑戰賽,以及摺積神經網絡和深度學習借助ImageNet和GPU的強大算力實現復興。這整個長達五年的歷程,對我來說是一個無比重要的時刻,一段漫長而深刻的時光。

時間快進到大約2018年,作為一名電腦科學家、技術專家和AI教育者,我迎來了一個頓悟的時刻:AI已不再僅僅是我個人的「私愛」。我們這一代人,包括我自己的工作在內,已經將AI以一種超乎我想像的變革力量和影響力帶給了全世界。但正如能力越大,責任也越大,AI已經演變為一項文明等級的技術,它既帶來了巨大的希望和機遇,也伴隨著深刻且影響深遠的人類層面的後果。那一刻,我意識到我應該回到Stanford University,參與建立以人為本AI研究院(Stanford Human-Centered AI Institute) ,致力於研究並倡導在AI的發展中必須將人類價值觀置於絕對核心的理念。所以,對於像我這樣的技術人員而言,那一刻讓我明白,我所熱愛的科學,其意義遠不止於技術本身。

我就不一一列舉了。最後但同樣重要的一點是,我現在正踏上的一段新徵程——成為一名創業者,創立了World Labs,並與我之前的學生以及當今AI時代,特別是生成式AI (Generative AI) 領域的頂尖技術人才在World Labs共事,致力於創造我們認為世界前所未見的技術和產品。這真的非常令人興奮,也充滿樂趣。

主持人提問:回顧您從物理學到電腦視覺,再到以人為本AI的歷程,複雜性不斷提升,路徑也並非總是清晰。在整個過程中,您是否有如同「北極星」般的個人指引?是什麼在驅動著您,您又是如何找到那些讓您得以沿著這條道路前進的信號的?

李飛飛:謝謝Hugo提出這個問題。很多年輕人都會問我類似的問題,因為回過頭看,一切似乎都是順理成章、線性發展的。但事實並非如此,尤其對於科學家的探索之路,我想,對於創業者而言也是一樣。我們常常行進在未知的黑暗中,充滿不確定性。未知遠多於已知。我最近出版了一本書,名為《我看見的世界》 ,而那本書的核心主旨,正是關於「北極星」的探討。如果要說有什麼一直指引著我,那絕對是好奇心。我認為,好奇心是如此根本的人性特質,是人類價值觀與創造力的核心。我一直都以一種近乎執拗,甚至帶點天真般的勇敢去追隨我的好奇心,因為我覺得這本身就充滿樂趣,並且它能超越個體,超越眼前所見。這就是我的「北極星」。而我的好奇心,始終都傾注在對智慧科學的探索和智慧手機器的創造上。正是這份好奇心,引領我在人生的旅程上走了很遠。

隨著這份探索的深入,以及我作為科學家閱歷的增加,我發現另一個重要的「北極星」是堅信科技能夠造福人類。這種對技術向善的確信和樂觀精神,指引我去做那些以人為本、蘊含著我所認同的人類價值的事情。這是另一顆持續指引著我的「北極星」。

主持人提問:您能否為我們定義一下「以人為本」的AI,或提供一些啟發性的思路,幫助我們思考在當前AI系統的背景下,我們應該如何看待它以及它可能意味著什麼?

李飛飛:「以人為本」是AI的另一顆指引方向的北極星。 AI可以是一系列技術,也可以是產品和服務,但對我來說,那顆北極星就是為人類和個人福祉服務。這就是我如何看待「以人為本」。當然,這會受到我們所處社會的價值觀的指引。同時,在我的腦海中,我將「以人為本」設想為三個同心圓。最內層是個體:我們希望創造能夠幫助個體的技術,賦予人們力量的技術,尊重人們尊嚴的技術。我在Stanford從事了大量醫療保健領域的工作,特別是利用智慧傳感器幫助樂齡人士和慢性病患者改善生活質量,並捕捉那些若不加干預則可能導致嚴重後果的臨床相關時刻。即使懷有最美好的初衷,AI技術實際上也可能無意中踰越某些界限,而這些界限,無論是關乎隱私還是個人自主權的剝奪,都與我們的價值觀相悖,值得我們審慎對待。因此,在開發此類技術時,我們必須時刻清醒,如何將個體價值、個體尊嚴、對個體的尊重設於核心地位。這是個體層面。

然後,同心圓中稍大一些的中間層是社區。人們聚集在一起形成社區。 AI是一種能夠在賦能社區方面發揮巨大作用的技術。例如,在當今的生成式AI時代,創作者們創作了大量內容。現在,生成式AI也能創作內容了。那麼,生成式AI與創作者之間是什麼關係呢?我們該如何賦能創作者?我堅信,我們的目標是增強人的能力,是利用科技賦能於人,而非剝奪創造力,更非攫取本應屬於藝術家和創作者的成果。這些都是我們需要以「以人為本」的方式去努力應對的價值觀和議題。

最後同樣重要的是社會層面。 AI是一項文明等級的技術。我們現在都已認識到,AI對我們社會的影響無疑是變革性的。這關乎就業,關乎政府運作方式如何被AI影響,甚至觸及地緣政治。我們如何應對這一切?如何與立法者合作?如何與每一位公民溝通?如何確保這項技術不會撕裂我們的社會?如何確保我們利用科技提高生產力的同時,也能實現共同繁榮?這些都是與「以人為本」的AI相關的更宏大的社會問題。因此,所有這些「以人為本」的同心圓層面,對於當今的AI時代都至關重要。

02. AI的應用具有普適性

主持人提問:像老年護理或氣候變化這樣的應用領域,您認為那些最能凸顯「以人為本」的AI方法的重要性?

李飛飛:坦率地說,AI的應用是如此具有普適性,我真心認為它幾乎觸及所有領域。當然,在醫學領域的例證尤為突出。正如您所言,由於我個人的經歷,我特別關注醫療服務的提供方式以及如何幫助弱勢群體。在這方面,我們談論的是環境智慧傳感器、未來的機器人,或只是更優秀的診斷工具。這些都是極佳的領域。您也提到了可持續性和氣候問題。 AI在幫助我們繪製生物多樣性地圖、理解海洋、模擬天氣與氣候,甚至協助我們發現新能源形態等方面,都擁有巨大的機會。兩年前,核融合領域的突破性進展,很大程度上就得益於美國國家實驗室機器學習方法的改進。

但除此之外,還有例如教育領域。我非常興奮地看到,儘管我們人類的教育體系,尤其是在西方發展起來並如今主導全球的這套體系,在過去一兩百年間,特別是自20世紀初以來,其基本結構幾乎未曾改變,但資訊的編碼、傳播和分發方式已經發生了翻天覆地的變化。我們現在擁有了電腦、網路和AI。所以我認為,生成式AI的出現,確實給教育系統敲響了警鐘。這不僅僅關乎K-12的基礎教育,如今,我們觸手可及的工具已經能支援終身持續學習。這是AI應用中另一個非常重要的「以人為本」的範例。

我還認為,AI在一些不那麼引人注目或鮮為人稱道的領域也有應用實例。例如農業。農業實際上對全球福祉至關重要。如何提高農業效率,如何幫助人類減輕繁重的體力勞動?這些都是AI可以助力的深刻變革。

最後同樣重要的是,我還想特別提及政府本身。全球範圍內,每個社會都離不開政府的運作。而政府若能更有效率地服務於民,對每個人都更為有利。在利用科技提升公共服務方面,AI提供了巨大的機會。因此,可以說在每個行業中,我們都能找到「以人為本」的AI應用範例。

03. 空間智能智能是整體智能與AGI的重要組成部分

主持人提問:您長期思考與專注研究空間感知領域,能否為我們簡要介紹什麼是空間感知AI,以及它為何如此重要?

李飛飛:我對我們所說的空間智能感到非常興奮。我將其視為整體智能,或者說AI乃至AGI的一個至關重要的組成部分。因為理解三維空間並在其中進行互動、創造、革新以及完成各種任務,是動物智能,特別是人類智能的根本,它也將成為電腦、機器人、虛擬智能體等等的基礎。這便是空間智能的宏觀圖景。

空間智能的根本在於其三維特性,因為空間本身就是三維的。對三維空間進行建模,從而能夠建立數學意義上的三維世界,這開啟了前所未有的可能性。例如,任何創作者都明白,要真正進行創作,無論是在設計家具、進行室內佈局,還是製作電影、營銷材料,抑或是純粹為了娛樂,或者是我們當前所見的電子商務模式,他們都需要在創作過程中擁有高度的可控性和一致性。所有這些,都要求創作者俱備極強的掌控能力。而空間智能AI正可以助力這項技術的普及,並降低創作過程中的門檻。

另一個例子是,全球市場中大部分業務都涉及與不同空間的互動。當然,如果您有孩子,自然會想到遊戲的例子,事實也的確如此。遊戲具有極高的互動性,且大多發生在三維空間。但空間智能的應用遠不止於遊戲。您從事教育工作,無論是職業教育還是基礎教育,許多知識的理解和體驗,例如教導孩子認識太陽系,如果能以三維形式呈現,無疑會容易得多。當然,現在的孩子們可以在課堂上製作實體的太陽系模型,但這只是一個例子,用以說明如果我們擁有數字化的虛擬能力,能夠建立可與之互動的三維虛擬世界,那麼從遊戲到互動體驗,再到各類職業培訓,無論是體育訓練、外科醫生技能學習,還是烹飪,乃至你能想到的任何領域,都將迎來新的機遇。所以,這是另一個重要的應用領域。

最後,我只舉三個例子中的最後一個,我們對機器人的未來滿懷期待。它們不僅僅是人形機器人,任何能夠在復雜環境中導航並執行任務以輔助人類的機器,都可以被稱為某種類型的機器人,包括汽車本身。機器人要在世界中導航並輔助完成各種任務,無論是更換燈泡、在倉庫中搬運貨物,還是在自然災害中救援,所有這些都依賴於空間導航能力和對周圍環境的理解,而這正是空間智慧的核心。因此,所有這些例子都表明,正如Hugo你所說,這已經超越了語言的範疇,它需要一種不同的語言——一種自然的語言,一種空間的語言,那就是空間智能和三維表徵。

04. 未來會出現越來越精密的基礎模型

主持人提問:您是否預見到未來會出現能夠集大語言模型、視覺模型於一體,並且具備空間感知能力,甚至可能整合機器人技術的基礎模型或其他形式的模型?目前我們似乎還沒有真正圍繞空間感知AI展開大規模的公開討論,在您看來,空間感知系統有那些實際應用潛力可能是被低估了的?是什麼驅動了您創立World Labs並致力於大規模世界建模的願景?

李飛飛:的確如此。我認為未來會出現越來越精密的基礎模型。我的公司World Labs正在為空間智慧和三維世界產生研發基礎模型。如果您指的是單一的、整合一切的巨型模型,這無疑是一個有趣的設想。我相信會有人進行這樣的嘗試。但這將是資源高度密集的,尤其是在資料和算力方面。這幾乎類似於愛因斯坦試圖統一所有自然力的宏願,帶有一些那樣的意義。所以,這是一個偉大的智慧構想。但在我們實現那種單一的、巨型的、「單一大腦」式AI (我們人類確實擁有這樣的構造) 之前,我們會看到越來越多針對不同多模態、各有側重的不同基礎模型湧現。

關於被低估的潛力,我認為其中一個最被低估的面向是,三維本身就是一種用於計算、用於程式設計的語言。我們看到生成了許多精美的像素圖像。但問題在於,如果僅僅在平面螢幕上產生像素,它們實際上是缺乏資訊的。我們很難進行測量,平面螢幕上兩個像素之間的距離與三維世界中兩個像素之間的距離是根本不同的。當這些像素被呈現在平面螢幕上時,你能用它們進行的計算就非常有限了。如何加入陰影?如何改變攝像機角度?如何處理遮擋問題?如何重新打光?如何進行測量?如何在場景中置入物體?又如何移除物體?所有這些操作都會變得異常困難。因此,我認為一旦我們擁有了真正三維意義上的空間智能,這種情況將會改變,我對此感到非常興奮。

我認為驅動我的主要有兩個原因。其一,我認為應用場景非常廣泛。我們剛才已經簡單提及了一些。從創意設計到體驗互動,再到機器人技術、教育、醫療健康、製造業、農業等等。如果你審視全球市場在媒體娛樂、遊戲以及AR/VR/XR和機器人技術等新興技術領域的覆蓋情況,你會發現用例層出不窮。這本身就非常令人振奮。與此同時,從智識和技術層面來看,這個世界也迫切需要世界模型,而具備空間特性、基於三維的空間智能世界模型,正是生成式AI時代所缺少的一個基礎環節,我視此為一個巨大的機遇。

05. 驅動AI前沿:開源力量與賦能科學發現

主持人提問:目前AI領域的那些進展真正讓您感到興奮,是您認為正在推動整個領域向前發展的?

李飛飛:我認為開源讓我感到興奮。當前全球範圍內正興起一場開源運動,這極大地促進了整個領域的繁榮發展。這是令我興奮的全球趨勢。另一個令我興奮的全球趨勢是,我們有機會利用AI極大地加速科學發現的處理程序。這一點尤其應該也必定會在我們的大學校園中發生。因為有些人可能會持有悲觀的論調,認為在晶片、資料等AI資源高度集中的時代,高等教育和大學將無所作為。我對此持強烈的反對意見,因為我認為高等教育依然是真正由好奇心驅動的「藍天」研究持續發生的場所。更實際地看,大量的跨學科工作正在湧現,無論是臨床醫學研究、生物學、心理學、天體物理學還是土木工程,大學校園裡的任何一個系,你都會發現AI可以成為他們的強大工具。利用AI助力這些學科進行科學發現與創新,是一個讓我倍感振奮的巨大機會。

06. 健康AI生態

主持人提問:在充斥著即時反應和大量資訊的當今世界,您個人是如何在AI的真實進展與過度宣傳之間做出區分的?以及,在思考社區和社會如何利用AI時,一個健康的AI生態系統還需要那些關鍵要素,開源和學術界在其中扮演什麼角色?

李飛飛:Duncan,這個問題非常好。首先,我的人生一直有「北極星」作為指引,這確實幫助了我。因為如果你理解了你的“北極星”,你就可以用它來衡量當前的各種聲音是否屬於過度宣傳,或者有時你會發現一些真正了不起的進展,那就是一顆“北極星”的實現。所以,這始終是我的參照體系。其次,我仍然認為尊重知識和專業素養至關重要。僅僅因為某人在Twitter上有時能夠引發全球規模的關注,並不一定意味著他們就擁有深厚的專業知識。因此,我依然重視發聲者的背景和專業。 Duncan,這其實是一個非常深刻的問題。在ChatGPT時代,在AI時代,資訊無處不在。我們如何教導我們的孩子,甚至是如何引導公眾去辨別資訊,防範虛假資訊?我們還沒有談到這方面的擔憂。在這個AI時代,我最大的擔憂之一就是優質公共教育的缺失。我認為,包括政府本身在內的各方,出於各自的目的,在談論AI時,有時帶有或明或暗的議程。這在某種程度上造成了資訊真空——或許「真空」這個詞有些言重了。有些人正在努力填補,至少Stanford HAI一直在嘗試,但在提供優質、可信、客觀的AI公共教育方面,現狀確實近乎真空。這讓我非常擔憂,因為你、我以及Hugo可能不容易受到影響,我們相對不那麼脆弱,因為我們受過良好教育,有幸生活在能夠方便獲取資訊的地區。但並非每個人都如此。 AI加劇了這個問題,我們必須對此高度警覺。

關於健康AI生態,我認為正如「生態系統」一詞本身所揭示的,它必須是多方利益相關者共同參與的。一個健康的生態系統不僅僅意味著雙贏,更可能實現多方共贏。以美國為例,尤其在第二次世界大戰後,政府透過向公共和私營部門的生態系統注入資源,或多或少地扮演了積極角色,以此推動發展,並建立了一個健康的技術創新生態系統。因此,我們今天所看到的所有AI進展——從微晶片、巨量數據到神經網絡演算法等一些基礎性突破——都可以追溯到數十年的研究積累。所以,擁有一個健康的生態系統至關重要。它不僅關乎資源投入,更關乎人才。一個健康的生態系統,是人才能夠接受教育、獲得工作並最終回饋於此的地方。這一點至關重要。實際上,我對此有所擔憂,也曾公開表達過這種憂慮。因為AI的發展速度實在太快,目前大量的資源不僅掌握在私營企業手中,而且高度集中在極少數幾家公司。這對於整個創新與教育生態系統,乃至社會的長期健康發展,都是不利的。 (數字開物)