在生命進化的漫長長河裡,“看見”世界比“談論”世界早了整整5億年。如今,AI正在補上這一課。
這句充滿進化論智慧的判斷,正是李飛飛對當下AI浪潮的最新註解。在充斥著浮躁與噪音的矽谷,她的聲音始終代表著一種冷靜的遠見。
台北時間2月4日凌晨,這位公認的“AI教母”帶著初創公司World Labs現身思科年度AI峰會(Cisco AI Summit)。作為曾經引爆電腦視覺革命的科學家,她沒有隨波逐流於大模型的語言遊戲,而是將目光投向了AI進化的下一塊拼圖:空間智能(Spatial Intelligence)。
她認為,AI的下一個巔峰,不只是會寫程式碼和聊天,而是像生物一樣,真實理解並互動我們所處的這個三維空間。
而超越技術維度之外,她更為AI的未來立下了一把人文標尺:“AI的成功,應當體現為文明的進步,讓每個個體都能由此追求幸福、繁榮和尊嚴。”
以下是本次精彩訪談的解析,為你拆解“空間智能”將如何重塑我們的未來。
很多人認為AI的終極形式是語言模型,但李飛飛提出了一個有趣的視角:從進化論來看,語言其實是“後來者”。
她舉例說,在5億多年前的寒武紀,生命體最先發育出的並不是語言,而是感知系統。動物通過觸覺和視覺觀察環境,才開啟了那場讓生命變得更聰明的“進化軍備競賽”。
李飛飛認為,“理解、推理並與3D物理世界互動的能力,與語言智能一樣,都是最基礎的底層能力。它是AI的下一個前沿。”
這也是World Labs的核心邏輯:如果AI不能像人一樣理解空間,它就永遠無法真正進入現實物理世界。
訪談中,李飛飛詳細介紹了World Labs的第一代模型:Marble。
很多人將其與Sora等視訊生成模型混淆,但李飛飛指出,二者有著本質區別。Marble是一種真正意義上的“世界模型”:
·全場景互動:它能根據文字或圖片提示,生成一個完整的、可導航的、可互動的3D世界。
·物理一致性:它具有幾何結構,不是一段“看起來像”的視訊,而是一個在物理邏輯上始終保持一致的空間。
這意味著,它不僅能用來做遊戲,更能直接成為機器人訓練的“虛擬實驗室”。
空間智能的應用邊界在那裡?李飛飛給出的答案超出了很多人的想像:
·遊戲與影視:開發者可以用它快速建構可穿行的虛擬世界,特效團隊能進行虛擬製片。
·機器人訓練:與輝達等夥伴合作,為機器人提供高精度的模擬環境。
·建築設計:設計師能瞬間將平面圖轉化為可步入的3D樣板間。
最令人稱奇的是醫療科研。心理學家正利用Marble為強迫症(OCD)患者定製個性化的沉浸式環境,通過模擬特定觸發場景來進行科學干預。
當被問及Marble是否像GPT-5那樣燒錢時,李飛飛顯得很坦誠。
目前,Marble的訓練規模比頂級大語言模型要小幾個數量級。這一方面是因為這個領域尚處於“規模定律(Scaling Law)”的早期,另一方面也面臨著資料獲取的挑戰。
李飛飛坦言,不同於網際網路上隨處可見的文字,高品質的3D物理資料非常稀缺。她透露,World Labs當下採用一種混合資料策略,綜合利用網際網路級的圖文視訊、模擬資料以及類似自動駕駛公司的“實景捕獲”資料。
關於通用機器人,李飛飛也潑了一盆冷水:“汽車只是在二維平面上移動、儘量不去碰東西的‘方盒子’。但通用機器人要在三維空間裡完成靈活、精準的抓取和互動。這是一個極高維度的難題,我們不能亂開空頭支票。”
作為AI領域的領軍人物,李飛飛對當下的兩極分化言論感到擔憂。
“技術烏托邦”和“末日生存危機”在她看來都不夠負責任。她強調,技術是雙刃劍,人類必鬚髮揮主觀能動性去引導它。
那麼,AI最終的成功標誌是什麼?
李飛飛借用了“電力”的類比:電力的成功不在於電線本身,而在於它點亮了學校、溫暖了家庭、延長了人類壽命。“AI的成功,也應當體現在文明的進步,讓每個人都能追求幸福、繁榮和尊嚴。”
從理解像素到建構世界,李飛飛正帶領團隊在空間智能的無人區探索。這不僅是技術的跨越,更是人類試圖賦予數字生命“感知力”的又一次嘗試。
空間智能,或許就是我們通往AGI的那把“物理鑰匙”。
(以下為發言實錄)
主持人:好的。接下來,我們要聊聊3D模型,而不僅僅是語言模型。今天,我們有幸請到了被譽為“AI教母”的李飛飛博士。很榮幸,我們也是飛飛博士公司的投資者。讓我們用掌聲歡迎李飛飛博士上台。我今天該穿上World Labs的周邊T恤的,你之前送過我,真的很有心。
李飛飛:是啊,我可還等著思科的周邊呢。
主持人:沒問題,我們馬上安排。感謝你來到這裡。看到World Labs在過去一年取得的進展,真的令人欣喜。飛飛,先跟我們聊聊你們目前在做什麼,以及為什麼這件事如此重要?
李飛飛:好。現在我每天醒來,腦子裡其實只在想一件事:空間智能(Spatial Intelligence)。這就是我大約兩年前和一群年輕的技術專家共同創辦的公司:World Labs的核心。
如果從進化論的角度來看,在5億多年前,最先開啟神經系統發育的並不是語言,而是感知。早在語言出現之前,動物就開始通過觸覺和視覺感知光線、接觸環境。
主持人:那你認為“本能”也屬於感知的範疇嗎?
李飛飛:對我來說,“本能”是一個比較虛泛的詞。但從物理進化上講,正是視覺開啟了進化史上的“軍備競賽”,讓動物變得更加活躍和聰明。
理解、推理、互動並在真實的3D/4D物理世界中穿行的能力,與語言智能一樣,都是最基礎的底層能力。而其中的關鍵技術就是“空間智能”,這是AI的下一個前沿陣地。
主持人:聊聊Marble吧。前陣子剛發佈的Marble到底是什麼?
李飛飛:Marble是我們的第一代空間智能模型。我們私下管它叫“世界模型”。
它能接收多模態輸入:無論是文字、圖片、視訊,還是簡單的3D輸入,然後根據這些提示詞,生成一個可以完全穿行、即時互動、且具有永久一致性的3D世界。這與目前的視訊模型截然不同,它擁有完整的幾何結構,可以支撐機器人模擬訓練或遊戲程式設計。
主持人:有一種觀點認為,如果不增強AI的物理特性,我們就無法實現通用人工智慧(AGI)。隨著時間的推移,這裡面最大的“突破口”會是什麼?除了機器人領域,五年後我們還能用它做什麼?
李飛飛:其實都不用等五年。現在就已經有使用者在用Marble開發遊戲了,影視特效(VFX)客戶也用它進行虛擬製片。我們正與輝達以及一些初創公司合作,將Marble作為機器人的訓練環境。建築師和設計師用它做室內設計。
還有一個令我意外的用例是臨床研究:心理健康研究人員利用它為強迫症(OCD)患者建立沉浸式的個性化環境,來模擬特定的觸發場景。
主持人:你把整個人生都奉獻給了AI。在創辦這家公司、研究空間智能的過程中,最讓你感到驚訝的是什麼?
李飛飛:過去幾年的發展速度簡直令人窒息。每個人都會感到焦慮,覺得“要讀的東西太多,發佈的模型太快”。這讓我時刻保持謙遜,意識到自己所知甚少。
另一件讓我擔憂的事是那些極度兩極分化的言論:要麼是技術烏托邦主義,要麼是“生存危機”之類的末日論。這兩種觀點其實都不太負責任。技術是一把雙刃劍,我們必鬚髮揮主觀能動性,引導它走向善意化和精細化的應用。
主持人:在你看來,未來幾年AI的成功標準是什麼?
李飛飛:回看電力技術,它的成功在於點亮了學校、溫暖了家庭、推動了工業化,並延長了人類的壽命。AI的成功標誌應該是:文明因它而進步,每個個體都能由此追求幸福、繁榮和尊嚴。
主持人:大型世界模型的計算量和語言模型一樣大嗎?
李飛飛:目前,我們的模型規模還沒有最大的大語言模型(LLM)那麼大。GPT-5的訓練算力可能在10^26 FLOPS左右,而Marble要小幾個數量級。部分原因是這個領域還很新:Transformer論文發佈於2017年,而世界模型才剛剛開始進入Scaling Law的上升曲線。
主持人:語言模型是用網際網路上的免費資料訓練的。但物理資料很難獲取,所以合成資料變得至關重要。資料的匱乏會減慢世界模型的發展嗎?另外,未來我們會擁有通用機器人,還是專用機器人?
李飛飛:我們採取的是混合資料策略。語言資料相對幹淨且易於觀察,但像素和體素(Voxel)構成的物理世界則複雜得多。我們利用網際網路規模的文字、圖像和視訊,但也需要模擬資料和“現實世界捕獲”資料,這與特斯拉或Waymo等自動駕駛公司的做法類似。
關於機器人:作為科學家,我不喜歡亂開空頭支票。汽車可以看作是一個在二維平面上移動的“方盒子機器人”,它的主要目標是避開障礙物。而通用機器人是一個三維實體,它必須觸碰並與物體互動,且不能損壞它們。這是一個維度高得多的問題,涉及極高的靈活性和空間精準度。
主持人:在最後的一分鐘裡,企業端應該如何看待世界模型?
李飛飛:空間智能是一項橫向通用技術。除了機器人和遊戲,它還可以應用於醫療、教育、外勤服務、金融服務、農業、製造業和城市規劃。它是下一個前沿領域,我邀請大家共同來探索這個課題。
主持人:非常感謝。
李飛飛:謝謝。 (網易科技)