李飛飛最新訪談完整實錄:太空智慧、AI 醫療與下一代人工智慧藍圖


1月15日,李飛飛接受海外播客Possible的訪談。分享了她從建立ImageNet到目前擔任空間智能新創公司World Labs 的聯合創始人的歷程,深入討論了大語言模型和世界模型、AI醫療、AGI,並闡述了為什麼空間智能對於人工智慧的發展如此重要。

李飛飛表示,大型世界模型(LWM) 和大語言模型(LLM) 在根本上是不同的,一個關注表達和交流,另一個關注感知和行動,它們在根本上是不同的模態。空間智慧能夠連結和理解物理世界和數位世界,打破兩者之間的界限,為AI 應用開闢新的可能性。

以下是本對話完整實錄,經翻譯編輯:

Reid: Fei-Fei,很高興見到你。歡迎來到Possible。

李飛飛:同樣,很高興見到你和Aria。

ImageNet的起源

Reid : 是什麼啟發你建立了ImageNet?是什麼讓你意識到'我們需要做這個專案'?

李飛飛: 很難說是某個具體的時刻促成了這個想法。大約在2006 年,我正在深入研究機器學習演算法,試圖理解電腦如何認知物體和影像。在研究過程中,我發現一個無法迴避的問題:機器學習模型中存在的過度擬合(overfitting)現象。這種現像往往出現在模型的複雜度與訓練資料不符的情況。關鍵不僅在於資料量,還在於資料的複雜度和規模是否能有效驅動模型學習。

當然,不同類型的模型特性各異。例如我們現在知道,神經網路模型具有更強的容量和表徵能力。但撇開這些技術術語不談,資料和模型之間存在著本質上的相互作用。然而我注意到,當時的研究界過度關注模型本身,而忽略了資料的重要性。這個認知對我來說是一個重要的突破點——我意識到我們不能只專注於模型,或者說,我們的研究視角可能有誤。我們需要更多地關注資料,讓資料來驅動模型的發展。

後來,當我到普林斯頓擔任教職時,我接觸到了WordNet 這個計畫。雖然WordNet 與電腦視覺並無直接關聯,但它為組織現實世界中的概念提供了一個絕佳的範例。我很欣賞WordNet 這個命名,而正是這些因素的結合,最終促成了ImageNet 的誕生。我堅信,電腦視覺領域迫切需要大規模的、多樣化的視覺資料集。

空間智能如何重塑實體與數位世界

Reid : 我想從您AI 職業生涯的重要里程碑ImageNet 說起,一直到現在的World Labs。可以描述一下從ImageNet 到World Labs 的這段發展歷程嗎? World Labs 背後的願景是什麼?您期望透過它實現什麼目標?以及它如何代表了AI 發展的關鍵趨勢?

李飛飛: 是的,Reid,我們確實經常討論這個主題,技術發展的方向。特別是在ImageNet 之後,有一個問題一直縈繞在我心頭:智能的本質是什麼?我們該如何讓機器真正具備智慧?

從人類智慧的角度來看,我認為可以將其歸結為兩個核心要素。第一是語言能力,我們透過語言溝通、組織知識並溝通。但還有另一半同樣深刻的智能形式,那就是行為能力。這體現在我們日常生活的方方面面:從做一個簡單的煎蛋,到健行,再到與朋友相處時那些超越語言的互動,例如我們能自然地坐在一起,手握啤酒輕鬆交談。這些都是智能的重要組成部分。

這部分智能其實源自於我們理解三維世界的能力──我們能感知環境,將其轉化為理解、推理和預測,從而引導我們的行動。這就是我們所說的空間智能(spatial intelligence)。這種在三維空間中運作的能力,就是像人類這樣具身智慧生物的基礎能力。

回看ImageNet ,它的目標是為二維圖像中的像素加入標籤。對人類而言,二維影像是三維世界的投影。因此,ImageNet 是朝著全面理解我們所處的視覺世界邁出的重要一步。無論對於人類、動物或機器來說,理解和標記影像中的物體都是至關重要的第一步。

現在,經過了14、15 年的發展,我認為我們已經準備好迎接更大的挑戰。這是一次雄心勃勃的嘗試,旨在解鎖智慧的另一半核心要素—空間智能。空間智能的獨特之處在於它橫跨兩個維度:實體三維世界和數位三維世界。雖然我們過去難以在這兩個世界之間架起橋樑,但空間智慧技術現在可以成為理解和連結物理三維世界與數位三維世界的統一框架。

Aria :讓我們設想一下空間智慧的潛力。回顧1880 年代,馬車和泥濘的道路構成了一個截然不同的世界。而到了1980 年,雖然汽車款式有所不同,但人們居住的建築、出行的方式基本上保持不變- 現實世界的基礎架構幾乎沒有太大變化。您認為這種新的智慧形式會在未來幾十年改變現狀嗎?我們是否會在實體世界中見證如同近年數位領域那樣翻天覆地的變革?

李飛飛:是的,Aria。我相信實體和數位世界之間的界線將日益模糊。舉個例子:想像我在高速公路上遇到爆胎的情況。即便身為技術專家,處理爆胎對我來說也是個挑戰。但如果我能戴上智能眼鏡,或者用手機對準爆胎的輪子,通過一個應用程式- 無論是通過視覺引導還是對話互動,或兩者結合- 來指導我完成換胎過程,這就是一個很好的例子,展示了實體三維世界和數位三維世界的融合。這種技術賦能的場景,從更換輪胎到進行心臟手術,都讓我倍感振奮。

大語言模型(LLM) 與大型世界模型(LWM) 的區別

Aria :您提到您也在使用大語言模型(LLM)學習,這真的很鼓舞人心。每當我的孩子們說"我已經很擅長數學了,不需要再學習了",我就會告訴他們:"你看,連李飛飛都在用大語言模型學習呢,顯然還有很多值得學習的東西。您如何向人們解釋這種差異,以及它們未來的發展方向?

李飛飛:從本質上說,正如我之前提到的,一個關注表達和交流,另一個關注感知和行動。它們在根本上是不同的模態。大語言模型的基本單位是文字元號,可以是字母或字詞;而在世界模型中,我們使用的是像素或體素。它們使用著完全不同的"語言"。我常常覺得,文字語言是人類的語言,而三維是自然的語言。我們的目標是開發能夠讓人類與像素世界互動的AI 演算法,無論是在虛擬或物理環境中。

Reid :您的回答讓我想起了您曾經引用的社會生物學家Edward O. Wilson 的話:「我們擁有舊石器時代的情感、中世紀的製度和神一樣的技術,這是極其危險的。」那麼,從理性思維、自然語言和教育的角度來看,我們該如何改變這種失衡?在AI 時代,人類又將面臨什麼樣的機會?

李飛飛:是的,我始終堅持這個觀點。正是基於這種信念,我們與志同道合的朋友們一起創立了以人為本的AI 研究所。我想重新詮釋威爾森的那句話:人類有能力創造神一樣的技術,透過它來改進我們的製度,並將我們原始的情感昇華為創造力、生產力和仁愛之心。

Reid:在建立技術以實現這個願景的過程中,您認為最關鍵的是什麼?是同理心嗎?是以人為本和共生關係嗎?在讓科技和AI 幫助我們成為更好的自己方面,您認為下一步該怎麼做?

AI 開發中人類能動性的作用

李飛飛:我能理解為什麼您被稱為跨界思想家,Reid。您很好地融合了哲學與技術的思維。我認同您的觀點。說到"舊石器時代"這個詞,我們常常把它當作貶義詞,但它其實是中性的。人類的情感和自我認知深植於演化過程,銘刻在我們的基因中,這一點無法改變。世界之所以既美麗又混亂,正是因為這個原因。

在思考科技、AI 未來與人類的關係時,我認為我們需要尊重幾個基本原則:首先是尊重人類的主體性。 AI 公共傳播中的一個問題是,我們過於頻繁地把AI 作為句子的主語,彷彿在剝奪人類的主體性。比如說「AI 將治癒癌症」——我自己有時也會犯這個錯誤。事實上,應該是「人類將利用AI 來治癒癌症」。同樣,不是“AI 將解決核融合”,而是科學家和工程師將利用AI 這個工具來攻克核融合難題。更危險的說法是「AI 將奪走你的工作」。實際上,這項技術創造了更多機會和工作崗位,增強了人類的能動性。

第二個核心原則是尊重人性。每個人都渴望健康、希望有生產力、渴望成為受人尊重的社會成員。在開發和使用AI 的過程中,我們絕不能忽視這一點。這兩個原則對指導技術發展至關重要。

我深信任何技術創新的"靈魂"都在於造福人類。這是人類文明發展的軌跡──我們創造工具,是為了讓生活變得更好。當然,工具也可能被濫用,這就更需要我們思考如何使其更好地服務於人。這正是「以人為本的AI 研究所」的根本理念。我和史丹佛的同事們都認識到AI 是一個具有文明意義的強大工具,我們需要儘早建立框架,將人類福祉置於核心位置。以人為本的AI 最重要的就是賦能為人的理念。

Aria:作為一位長期從事AI 研究的專家,您經歷了不同的發展階段。而現在很多人才剛開始瞭解AI。您如何看待當前的AI 創新浪潮?從現狀和挑戰來看,要達到解決這些問題的下一個層次,我們現在需要做些什麼?

李飛飛:這是一個非凡的時刻。我認為我們正處於一個革命性的轉折點,因為AI 終於可以被一般大眾和企業所使用。許多早期AI 先驅曾經的夢想正在實現或即將實現。例如通用的圖靈測試已經基本解決——雖然圖靈測試本身並不能完全衡量智能,但它確實是一個重要且富有挑戰性的標準。再例如自動駕駛,雖然還未完全解決,但比2006 年已經進步很多。

隨著這些強大模式的產業化,以及進入普通用戶和企業手中,我認為這標誌著AI 革命的一個重要階段。不過Aria,我也清醒地體認到,我們生活在矽谷的泡沫中。全球大多數人仍在逐步認識AI 的發展方向,但我們確實已經看到了未來的曙光。

Aria:我想很多的聽眾都會認同您的觀點,AI 可能會大大增強人類能力,帶來巨大的正面影響,但我們也必須警惕潛在的負面影響,努力引導它朝著正確的方向發展。從開發者的角度來看,要確保AI 朝著正面的方向發展,我們需要做些什麼?如果您認為需要政府或跨部門合作,也請分享您的想法。

李飛飛:說實話,我認為有很多工作要做。這些工作本來應該更早開始,但現在開始也不算晚。我認為有幾個關鍵方面。

首先,我們需要基於科學而不是科幻小說來推進AI 發展。現在圍繞AI 的討論中有太多炒作- 無論是預言人類滅絕,還是承諾實現世界和平,這些都更像是科幻而非科學。在製訂AI 政策和治理框架時,我們必須基於數據、科學事實和科學方法論。

其次,就像其他技術一樣,我們應該在AI 應用"落地"的地方設置護欄,也就是在AI 直接影響人類的場景中進行治理,而不是阻礙上游技術開發。這就像早期的汽車發展,我們沒有叫停福特和通用汽車的生產,而是透過安全帶、限速等措施建立了安全框架。對於現今的AI,我們也應該關注具體應用情境:在醫療領域如何更新FDA 監管?在金融領域如何設定監理護欄?

最後,也是最重要的,AI 的積極未來需要一個健康的生態系統。這個生態系統需要私部門的參與,無論是大公司還是創業企業,都很重要。同時也需要公共部門,因為公共部門能夠產出兩類重要的公共產品:一是好奇心驅動的創新和新知識,例如用AI 研究核融合、治療疾病、增強教育能力等,像ImageNet 就來自公共部門;二是人才培養,我們需要向更多年輕人和公眾普及這項技術,而從K-12 到高等教育的公共教育體系承擔著這項重要責任。

Reid:說到這裡,我覺得您應該多談談「AI for All」。您一直在努力確保AI 不僅僅是那些來自加州理工學院、擁有物理學博士學位的史丹佛教授的專利。能否簡單介紹一下「AI for All」的使命和貢獻?

李飛飛: AI for All 是我與前學生和同事共同創立的非營利組織。我們的使命是為不同背景的K-12 學生提供進入AI 領域的機會,包括大學暑期計畫和實習。我們希望將AI 教育作為一種公共產品。我們都知道AI 將改變世界,但關鍵是:誰來改變AI?我們希望吸引更多元化的團體參與,啟發他們運用這項技術,為各種有意義的事業開發解決方案。因此,我們特別關注來自農村、城市中心以及歷史上代表性不足的社區的女性和學生,讓他們參與這些暑期計畫。看到這些年輕人運用AI 改進救護車調度演算法,或評估農村社區水質,令人備受鼓舞。雖然目前規模還不大,但我希望這項工作能持續發展,因為增加AI 領域的多樣性至關重要。

AI 的醫療革命潛力

Reid :您也涉足醫療健康領域。我認為在提升人性、改善人類生活品質方面,AI 在醫療健康領域的應用是人們應該關注的重點之一。能否談談您在這方面的工作,以及您對AI 在醫療健康領域未來發展的展望?

李飛飛:是的,Reid,正如我在書中所寫,我對AI 在醫療健康領域的應用充滿熱情,原因有很多。醫療健康本質上是以人為本的領域。這是一個龐大的產業,從基礎生物科學研究(如藥物研發和診斷),到臨床診斷、治療、醫療服務和公共衛生。令人振奮的是,在這個系統的每個環節,AI 都能發揮重要作用。我特別關注的是醫療服務領域,這是人們幫助人的領域。美國的護理師數量遠遠無法滿足患者需求。護士工作非常辛勞,流失率很高。數據顯示,護士在一個班次中光是取藥和設備就要步行超過四英里。一班次要完成多達150 到180 項不同的任務。同時,由於護理人員不足,病人會從病床上摔落。在危重和非重症病人分類方面也存在許多問題。此外還有獨居老人面臨的跌倒風險和失智症惡化等問題。過去十年,我致力於使用智慧攝影機技術。這些非侵入式、非接觸式的攝影機可以協助護理人員照顧病人:在醫院監測病人活動預防跌倒,在家中關注他們的行為、孤獨感或營養攝入情況,在手術室幫助護士清點器械避免遺留在病人體內。這種我們稱為"環境智慧"的智慧攝影機技術,旨在輔助醫生和醫護人員工作,共同提升病患照護品質。

AGI

Reid : AGI這個術語現在經常被提起。我記得您曾說過,您甚至不確定AGI 的確切含義,因為顯然對許多人來說,它更像是一種投射測試,每個人都有自己的理解。您能談談為什麼會出現圍繞AGI 的討論,以及它應該代表什麼意義嗎?如何讓這些討論更加理性,而不是陷入非此即彼的極端——要麼認為它很完美,要麼認為它很可怕,要麼認為它會消除所有工作崗位,要麼認為它將造福全人類?

李飛飛:是的,Reid。這確實是一個既有趣又令人困擾的話題。我對AGI的確切定義持保留態度,因為這個術語大約在十年前隨著AI商業化興起而流行。最初在AI前加上「通用」這個詞,是為了強調AI未來將具備更廣泛的能力,而不是侷限於特定領域。

例如,今天的自動駕駛汽車就比單純用於識別樹木的攝影機具有更廣泛的應用能力。所以,從僅專注於特定任務到能夠執行多樣化任務的技術進步是真實存在的。我之所以對這個術語有所保留,是因為如果回顧歷史,AI 的奠基人如John McCarthy 和Marvin Minsky,他們在1956 年夏天就已經描繪了願景:創造能夠思考、輔助決策,最終能夠付諸行動的機器。他們最初的AI 願景並不是「創造一個僅用於識別樹木的狹隘AI 系統」。這個領域從誕生之初就是關於思考機器的。從這個角度來看,我們延續著同樣的夢想、科學好奇心和追求——打造能夠執行高度智慧任務的機器。因此,對我而言,無論稱之為AI或AGI ,本質都是一樣的。

AI 智能體與人機互動的未來

Aria :說到能夠完成任務的AI,隨著語音技術的新突破和AI Agent的發展,我們似乎越來越接近能夠與AI 進行自然對話並讓它完成任務的階段。您目前在日常生活中如何使用AI Agent?您認為在未來幾年裡,AI Agent 和語音技術的發展會帶來那些改變?

李飛飛:我認為,透過自然語言進行知識共享、搜尋、構思或學習的方式確實非常強大。即使是我自己,也會使用大語言模型來理解概念、解讀論文,探索未知領域。看到人們,特別是年輕人將其作為學習工具來提升自己,這讓我感到特別興奮。但我要強調的是,無論如何,我們都要確保保持人的主體性和能動性,將這些工具用於增強人的能力而非替代。我相信,隨著我們深入研究這些強大的工具——我自己也在這方面努力,我們將看到更多協作能力的展現,使人類能夠更精確地利用這些工具完成任務。我很期待看到這些發展。

Aria:我認為這不僅重要,因為這當然是正確的事情,而且我認為,您還可以獲得這樣一種說法,即「哦,這些開發AI 的人正在試圖取代人類並擺脫他們,而且我不想每天看10 個小時的螢幕”,而且請注意,最不想每天看10 個小時螢幕的人莫過於我。我認為人際互動對於一切都至關重要,而且非常重要,包括教學、社群和同理心。而且,您知道,您在您那本真正精美的書《我眼中的世界》中講過一個故事,是關於您的一位高中數學老師Mr. Sabella,它表明人際交往確實非常重要。那麼,您能詳細談談這一點,以及他給您的難忘的建議嗎?

李飛飛:這本書確實承認了我作為移民兒童的早期經歷,我15 歲時來到新澤西州,並且進入一所不會說英語的公立高中。那是我旅程的開始,而且我很幸運,很快我就遇到了一位名叫Bob Sabella 的數學老師,他以尊重和無條件的支援對待我。他不僅是我的數學老師,而且在作為新移民的艱難青少年時期,也成為了我的朋友,並且貫穿了我的一生,直到他去世。但他教會我的不是透過言語。他從來沒有讓我坐下來說:「嘿,Fei-Fei,AI 將接管世界,讓我告訴你,要以人為本。」我想那時我們根本沒有這種說法。他只是透過行動教導我,歸根結底,我們社會和生活的意義,是我們為彼此所做的那些積極的事情,以及我們所持有的信念和我們所追求的光明燈塔。而透過他的行動,我開始體會到尊重和提升他人是一件美好的事情,即使那是一個不知道自己在新國家做什麼的茫然的孩子。因此,我認為那種慷慨、基本的善良和同情心,才是做人的核心。而我從他身上學到的最大的一點是,要以人為本。

Reid:非常好。謝謝。是的,很好。

Reid:那麼,快速問答。有沒有一部電影、一首歌或一本書讓您對未來充滿樂觀?

李飛飛:《龍貓》是我一直以來最喜歡的電影之一。我能聽到音樂。我不會嘗試唱歌,因為我唱歌很爛,但是,是的。它太簡單了,太美了。我很喜歡美麗的像素, 而且又如此深刻。我有藉口和孩子們一起看它,但老實說,我不在乎他們的感受。我只是喜歡看它。

Reid:太棒了,太棒了。那麼Fei-Fei,您希望人們更頻繁地問您一個什麼問題?

李飛飛:我希望人們更多地問我「我如何利用AI 來幫助人們?」因為我可以就此談論幾個小時,而且我可以想到許多我在史丹佛大學和世界各地令人驚嘆的同事,他們正在這樣做。如果我不知道他們在做什麼,因為他們是自己專業領域的真正天才專家,至少我可以向人們指出他們的工作。

Reid:絕對是這樣。現在有很多人在做令人驚嘆的事情,我們需要激勵更多人也這樣做。

Reid:在您所在產業之外,您認為有那些進步或動力能夠激勵您?

李飛飛:我實際上認為,全球對能源問題的關注深深激勵了我,因為我發現自己很難將人工智慧的工作與這些問題分開。即使是AI的發展,也在推動解決這個非常現實的能源問題,尤其是電力問題。我認為,環境變遷以及全球人口對能源的平等取得也至關重要。更重要的是,我們不能永遠依賴化石燃料。因此,能源領域的進步和全球性的變革運動都讓我感到興奮。

Reid:那麼,最後一個問題,如果未來15年一切朝著造福人類的方向發展,您認為什麼是可能的?而實現這目標的第一步是什麼?

李飛飛:我希望看到全球在知識、福祉和生產力方面的顯著提升,尤其是要強調共享繁榮。我之所以特別強調這一點,是因為從技術角度來看,我是一個樂觀主義者。我深信科技能夠幫助人類。我知道如果我們正確使用它,它不僅能發現新知識,還能推動創新,提升我們的福祉。然而,我認為最重要的一點是,我們要一次又一次地認識到,當這些成果出現時,我們必須分享這種繁榮。我們需要讓這些利益民主化,確保每個人都能從中受益。

Reid:絕對的,我也希望如此。 Fei-Fei,一如既往地感謝您。

李飛飛:謝謝。 (數位開物)