#李飛飛
李飛飛:當視訊生成、機器人和NVIDIA都自稱世界模型,我們需要一個分類法
“世界模型”大概是 2025 年以來 AI 領域裡最熱也最混亂的概念。Sora出來的時候,OpenAI管它叫世界模擬器;Genie讓你在生成的畫面裡走來走去,也叫世界模型;機器人公司說自己在做世界模型,NVIDIA說Omniverse是世界模型的基礎設施,連遊戲引擎也被拉進了這個敘事。大家都在用同一個詞,但各自說的又完全不是同一件事。 今天,李飛飛在個人 Substack 發表了一篇新文章,對這一概念進行了釐清。她首先回到強化學習教科書裡那個最經典的圖(POMDP閉環:智能體→動作→狀態→觀測→智能體),然後指出:現在被叫做“世界模型”的東西,其實是這個閉環的三種不同投影。輸出像素(觀測)的是渲染器,輸出狀態的是模擬器,輸出動作的是規劃器。分類標準非常簡潔,就看你輸出的是閉環裡的那個部分。 (來源:《麻省理工科技評論》) 她判斷,三者之中,渲染器商業化最成熟但有天花板(好看不等於物理正確),規劃器最令人興奮但離真實部署最遠(實驗室演示和實際可用之間的鴻溝依然巨大),而模擬器是被嚴重低估的關鍵樞紐。因為模擬器工作在幾何、物理和動力學的層面上,既能向上投射為像素供人類消費,也能向下推匯出動作後果供機器人使用。掌握了模擬,就同時擁有了渲染和規劃的基礎;反過來則不行。
史丹佛HAI大重組!李飛飛昇任校長顧問
史丹佛把HAI與Data Science合併,李飛飛昇任校長顧問。這是頂級大學在AI新階段押注「組織力」的全面換擋。剛剛,史丹佛進行了一項重磅重組。5月4日,史丹佛大學宣佈:將旗下兩大AI與資料科學組織——Stanford HAI(以人為本人工智慧研究院)和Stanford Data Science(史丹佛資料科學)合併為一個統一機構,名稱保留Stanford HAI,由電腦科學家James Landay全面掌舵。而那位讓全世界記住ImageNet的女人——李飛飛,則升任校長Jonathan Levin的AI特別顧問,同時與史丹佛前校長、圖靈獎得主John Hennessy共同出任HAI顧問委員會聯席主席。HAI,2019年由李飛飛、前教務長John Etchemendy、NLP大牛Chris Manning和Landay聯合創立。7年間,它集結了超過400位跨學科學者,累計發放6000萬美元研究資助,覆蓋史丹佛全部七個學院。它做出了每年一度的AI Index報告,搞了面向國會議員的「AI訓練營」,還在基礎模型、數字經濟、環境智能等領域建立了多個研究中心。Stanford Data Science,由數學與統計學家Emmanuel Candès領銜建立,專注大規模資料處理,建造了高性能計算叢集Marlowe,並在天體物理、因果推斷、可持續發展、神經科學等領域建立了交叉研究中心。過去,兩個組織各有側重:HAI偏「人文視角+政策影響」,Data Science偏「算力基建+資料方法」。但AI發展到2026年這個節點,問題變了——無論你做天文發現、腦科學建模還是歷史文字挖掘,你都需要同時具備大規模資料能力、高性能算力和AI方法論。把兩套成員拆著跑,效率越來越低。用史丹佛校長Levin的話說,合併後的HAI將是「史丹佛AI的統一入口」。也就是說,以後史丹佛搞AI,不管那個學院、那個方向,都從這一扇門進。李飛飛角色升維作為HAI創始院長和ImageNet的締造者,李飛飛在學術界和產業界的號召力毋庸置疑。但HAI發展到今天,需要的不只是學術聲望,更需要一個能「搞工程、搞協同、搞基建」的操盤手。李飛飛昇任校長AI特別顧問,管的是全校七個學院的AI戰略,格局更大了。她自己說得很明白:AI正在改變的不只是技術,還有我們追求科學發現、學習和教育、服務社會的方式。而接棒的Landay,可能在國內知名度不如李飛飛,但在人機互動(HCI)領域,這是一位教科書級的人物。他在1990年代開發的設計工具SILK,比Figma和Canva早了二十多年;他在2000年代初做的UbiFit項目,比Fitbit和Apple Watch早了近十年。2024年,他拿到了ACM SIGCHI終身研究獎——這是人機互動領域的最高榮譽之一。更關鍵的是,Landay的核心理念和這次合併高度契合。他反覆強調的是「團隊科學(Team Science at Scale)」——不是傳統的五人小實驗室,而是20-30人的跨學科大團隊,包含教授、博士後、研究工程師、資料科學家、項目經理和設計師。這恰恰是AI研究從「個人英雄主義」走向「工業化協同」所需要的組織形態。John Hennessy——這位史丹佛前校長、圖靈獎得主、RISC架構之父、Alphabet董事長——也加入了顧問委員會。他的評價最為直接:這是史丹佛最重要的舉措。新HAI到底要幹什麼?合併後的HAI明確了三大支柱:第一,重新定義大學裡的科學發現方式。史丹佛的天文學家用機器學習搜尋系外行星,神經科學家用模型預測腦活動,歷史學家用NLP挖掘檔案——這些不再是「AI+X」的點綴,而是新的研究範式。HAI要提供算力、研究工程師和資料科學家,讓「團隊科學」真正跑起來。第二,推動教育變革。 從K-12到終身學習,AI正在改變人類學習和被評估的方式。HAI要和史丹佛學習加速器等機構合作,探索適應性輔導系統和新型教育模式。第三,研究和塑造AI的社會影響。 就業怎麼變?組織流程怎麼變?設計方法怎麼從「以使用者為中心」升級到「以社區和社會為中心」?這些問題不能只靠工程師回答。而貫穿這一切的關鍵詞是:開放。開放原始碼、開放資料、開放模型、開放課程。學術界在AI時代的價值史丹佛這次重組,釋放出一個非常清晰的訊號:大學AI競爭的下半場,拼的不再是一篇論文、一個明星教授,而是一整套系統能力——算力、資料、人才、組織力和開放研究生態。過去幾年,前沿AI研究的話語權加速向產業界集中。OpenAI、Google DeepMind、Anthropic手握最強算力和資料,學術界的聲量不斷被壓縮。史丹佛這次的動作,本質上是在回答一個存亡級問題:學術界在AI時代還有沒有不可替代的價值?答案是有的——但前提是你能提供產業界給不了的東西:透明性、可復現性、公共利益導向的長期研究,以及真正跨學科的融合視角。而這些東西,不是靠一兩個超級教授就能實現的,需要從組織架構層面去支撐。李飛飛沒有離開,她只是換了一個更高的位置去看全域。Landay沒有橫空出世,他只是終於站到了與自己三十年積累相匹配的舞台上。Hennessy沒有退休,他只是用另一種方式繼續押注史丹佛最重要的賭注。當產業界拚命卷模型、卷算力、卷融資的時候,史丹佛選擇卷「組織力」——用開放、跨學科、以人為本的方式,重新定義學術界在AI時代的角色。 (新智元)
李飛飛世界模型“殺手鐧”開源!網頁3D大場景秒開,手機暢跑1億點雲
3DGS迎來史詩級升級。智東西4月15日報導,今天,“AI教母”李飛飛的世界模型團隊World Labs開源了動態3D高斯潑濺(3DGS)渲染器Spark 2.0。▲Spark 2.0官宣開源(來源:X)李飛飛本人在該成果發佈的第一時間評論稱:“Spark 2.0現在可以在任意裝置上流式傳輸超過1億個高斯潑濺!能夠為基於網頁的3DGS渲染開源生態做出貢獻,我們感到無比自豪!”▲李飛飛評論(來源:X)Spark系列模型於去年首次發佈,是一個專為網頁建構的動態3D高斯潑濺(3DGS)渲染器。它與網頁端最流行的3D框架THREE.js整合,並利用WebGL2在任意帶有網頁瀏覽器的裝置上運行,包括桌面端、iOS、Android以及VR裝置。與上一版本相比,Spark 2.0新增了一套細節層級(LoD)系統,能夠在任意裝置上流式傳輸並渲染超大規模的3DGS世界。▲在兒童房間裡自由探索,物品細節清晰(來源:World Labs部落格)此外,新版還使用了.RAD的3DGS檔案格式,支援漸進式細化的流式傳輸,而虛擬潑濺分頁系統則通過固定的GPU記憶體分配,實現了對無限潑濺世界的訪問,通俗來講就是可以渲染無限大的3D場景。▲草原中的洞穴小屋,場景轉換無畸變(來源:World Labs部落格)如此流暢連貫的效果是怎麼實現的?針對大規模場景的擴展難題,Spark 2.0運用了3項圖形學與系統底層方案:細節層次最佳化、漸進式流式載入以及虛擬視訊記憶體管理。李飛飛團隊在部落格中,對Spark 2.0背後的三項技術進行了十分詳細的展開,具體如下:01. 採取連續式細節層級穩定渲染百萬級潑濺在電腦圖形學中,處理大型3D場景時常常採用細節層級系統,該系統會根據物體與觀察者之間的距離自動調整渲染的細節程度,不同的細節層級方法介於離散式與連續式之間,形成一個技術譜系。採用離散式細節層級(LoD,Level-of-Detail)時,系統需要為潑濺效果製作多個版本,從精簡到精細依次遞增,再根據各版本的近似邊界與相機的距離,在不同版本間進行切換。Spark的早期系統設計支援離散模式,但其存在明顯缺陷:當使用者在場景中移動、不同版本突然切換時,畫面會出現明顯的跳變;此外,將潑濺效果按區塊分組後,使用者還能看到清晰的邊界痕跡。Spark 2.0的LoD設計採用了一種連續式LoD方法,所有潑濺都存在於一個層級結構中,即LoD潑濺樹。Spark 2.0會沿著樹的一個邊界切割面單獨選取潑濺,從而在視口內最佳化潑濺的細節。▲LoD潑濺樹(來源:World Labs部落格)樹中的每個內部節點都是其子節點的一個低解析度版本,通過將子節點的多個潑濺合併成一個新的潑濺來近似表示子節點潑濺的形狀和顏色。這個過程一直持續到樹的根節點——一個單一的、大的潑濺,它聚合了該物體中所有潑濺的整體形狀和顏色。利用這棵LoD潑濺樹,Spark 2.0會計算出穿過該樹的一個“切片”,從而為當前視口選取最佳的N個潑濺進行渲染。通過設定一個最大潑濺預算N(根據裝置類型不同,通常在50萬到250萬個潑濺之間),系統確保每幀只需渲染恆定數量的潑濺,從而獲得穩定、高影格率的渲染性能。通過上下調整N值,即可在影格率和潑濺細節之間進行權衡。▲公園中的自行車,細節真實,前後一致性強(來源:World Labs部落格)Spark 2.0通過同時遍歷多個LoD潑濺樹實例,對該演算法進行了進一步擴展。與僅從單一根節點開始遍歷不同,針對每個3DGS物體,拓展後的演算法會將其螢幕尺寸及潑濺節點 (dm0,Sm0) 一同加入初始優先佇列,後續流程與原有邏輯保持一致,可在場景中所有3DGS物體上同步篩選需細化的細節層級。這一設計讓大規模組合世界的建立變得簡單高效:只需在空間任意位置加入3DGS LoD物體,Spark 2.0便能自動計算出每幀需渲染的所有LoD潑濺的最優全域子集。02. 設計新型檔案格式大場景3D世界在網頁上秒開Spark2.0定義了一種新的檔案格式.RAD(代表RADiance場),該格式能夠壓縮3DGS資料,並支援隨機訪問流式傳輸,從而在資料通過網路傳輸時實現漸進式細化。目前最常見的兩種3DGS資料檔案格式是.PLY和.SPZ,它們代表了兩種不同的資料編碼方式:行式儲存和列式儲存。.PLY檔案是按行順序儲存的,在接收到資料後立即顯示潑濺,從而實現漸進式載入。但它未經過壓縮,且編碼精度存在浪費。.SPZ檔案將相似類型的資料按列順序儲存在一起,從而獲得了更好的壓縮率。但遺憾的是,它無法實現漸進式載入,因為在任何潑濺獲得其所有屬性之前,必須接收完整的檔案。為實現3DGS資料的高效壓縮與流式傳輸,李飛飛團隊設計了全新的.RAD檔案格式。該格式編解碼簡潔、擴展性強、編碼精度可調節,同時支援隨機訪問。▲.RAD檔案格式(來源:World Labs部落格)檔案結構十分清晰:以RAD0檔案頭開頭,隨後依次為頭部中繼資料長度、中繼資料JSON,以及一個或多個各含6.4萬個潑濺的資料區塊。頭部中繼資料記錄了所有資料區塊的偏移地址與字節大小,支援任意順序讀取資料區塊內容。單個資料區塊也採用相似結構:以RADC塊頭起始,接著是塊中繼資料長度、中繼資料JSON,最後為該6.4萬個潑濺的壓縮資料。潑濺各項屬性按列儲存,可分別選用自訂編碼方式。同類資料集中存放,再通過Gzip壓縮,能獲得出色的壓縮率。頭部採用JSON編碼,可通過版本欄位與新增可選欄位保障後續擴展。資料類型編碼與壓縮演算法均以字串名稱在中繼資料中指定,方便後續擴展新類型。03. 採用虛擬記憶體開闢1600萬潑濺固定視訊記憶體池虛擬記憶體是一項記憶體管理技術,它以固定大小的實體記憶體為基礎,向程序提供大容量的虛擬地址空間,並通過頁表以固定尺寸的頁為單位,完成虛擬地址與實體位址的對應。Spark 2.0將這一思路應用到3DGS渲染中。具體來講,李飛飛團隊在GPU上開闢了一塊可容納1600萬個潑濺的固定視訊記憶體池,自動管理GPU中每6.4萬個潑濺為一頁的“視訊記憶體頁”,與.RAD檔案中對應大小的虛擬資料區塊之間的對應。▲虛擬記憶體(來源:World Labs部落格)資料區塊會按照LoD遍歷順序載入到空閒頁面中;當頁表佔滿,且新資料區塊優先順序更高時,系統會按最近最少使用(LRU)策略淘汰舊資料。Spark 2.0支援同時載入多個.RAD檔案並共用同一張頁表。對每個檔案,系統會記錄資料區塊到頁表的對應,以及頁表到對應檔案與資料的反向對應。在遍歷多棵LoD潑濺樹時,引擎會記錄資料區塊與檔案的訪問順序,形成全域統一的優先順序排序,進而對場景中所有3DGS物體的潑濺載入與儲存進行統一最佳化。04. 結語:Spark 2.0降低空間智能的創作門檻爭奪基礎設施定義權從2025年的首次亮相到今日的2.0版本迭代,Spark的進化軌跡某種程度上也對應著3DGS這一技術的成熟曲線。三維內容的交付長期以來被兩座大山壓著:一是資產太重,動輒GB級的檔案讓網頁端望而卻步;二是渲染太貴,高端GPU才能流暢運行的場景,手機瀏覽器只能圍觀。Spark 2.0通過連續LoD、.RAD格式和虛擬視訊記憶體“三板斧”,讓高品質三維內容像普通圖片和視訊一樣,在網際網路上自由流動、即點即看。李飛飛團隊選擇將該技術開源,降低了空間智能的創作門檻,同樣也是在爭奪下一代空間內容基礎設施的定義權。 (智東西)
李飛飛團隊新作:簡單調整生成順序,大幅提升像素級圖像生成質量
長期以來,AI生圖被一個經典矛盾困擾。潛空間模型效率高,但細節有損耗;像素空間模型保真度高,卻容易結構混亂、速度慢。要麼快要沒準,大家幾乎默認這是架構帶來的取捨問題,沒法徹底解決。但擴散模型生圖,順序真的對嗎?李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識,他們發現生成的質量瓶頸不在架構,而在順序。簡單說就像畫畫必須先打草稿再填色,AI也需要一個「先定結構、後填細節」的強制邏輯。Latent Forcing僅通過重排生成軌跡,像素擴散模型不僅找回了效率,更在多項指標上刷新SOTA。傳統方法瓶頸在深入瞭解Latent Forcing之前,咱先來說說當前兩大方法的瓶頸。傳統像素級擴散模型之所以畫圖會畫歪,是因為它在降噪過程中,高頻的紋理細節往往會干擾低頻的語義結構。模型常常在還沒搞清楚物體的整體輪廓時,就被迫去預測局部的像素顏色,其實這在本質上就違背了視覺生成的自然邏輯。為瞭解決這個問題,行業此前大多轉向潛空間。它通過預訓練的tokenizer把圖像壓到低維空間,生成速度飛起。但潛空間模型必須依賴一個預訓練的解碼器,但這不僅會引入重建誤差,也讓模型失去了端到端建模原始資料的能力。於是李飛飛團隊思考——能不能既保留像素級的無損精度,又獲得潛空間的結構引導?先打個草稿Latent Forcing的答案是——對擴散軌跡重新排序。怎麼做的呢?在不改變基礎Transformer架構的前提下,引入了雙時間變數機制。在訓練和生成過程中,模型會同時處理像素和潛變數。不同的是,團隊為兩者定製了獨立的降噪節奏:潛變數先行:在生成初期,潛變數會率先完成降噪,在大尺度上確立圖像的語義骨架;像素填色:在結構確定後,像素部分再跟進進行精細化降噪。這麼一看,潛變數就像是一個臨時的草稿本。生成結束時,這個草稿本直接丟棄,最終輸出仍是100%無損的原始像素圖像,沒有任何decoder。整個過程端到端、可擴展,幾乎不增加計算量(token數量不變,速度接近原生DiT)。這種先latent後pixel的細微調整,在ImageNet榜單上展現了出色的表現。在相同計算規模,訓練80個epochs的條件下,Latent Forcing在ImageNet-256任務中,條件生成的FID分數較此前最強的像素級模型JiT+REPA,從18.60降到9.76,接近腰斬。在200個epoch的最終模型(ViT‑L 規模)下,Latent Forcing實現了條件生成FID 2.48(guided)、無條件生成FID 7.2(unguided)的分數。創下像素空間擴散Transformer新的SOTA。過去學術界普遍認為,必須通過更高倍率的失真壓縮才能換取好的FID表現。Latent Forcing則用資料反駁了這一觀點——在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。Latent Forcing項目由李飛飛領銜。第一作者Alan Baade是李飛飛的學生,史丹佛電腦系博士生,在擴散模型和生成建模方向有深入研究。其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。此外,密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)
速看!李飛飛最新訪談實錄:AI的終點不是寫程式碼,而是人類的尊嚴
在生命進化的漫長長河裡,“看見”世界比“談論”世界早了整整5億年。如今,AI正在補上這一課。這句充滿進化論智慧的判斷,正是李飛飛對當下AI浪潮的最新註解。在充斥著浮躁與噪音的矽谷,她的聲音始終代表著一種冷靜的遠見。台北時間2月4日凌晨,這位公認的“AI教母”帶著初創公司World Labs現身思科年度AI峰會(Cisco AI Summit)。作為曾經引爆電腦視覺革命的科學家,她沒有隨波逐流於大模型的語言遊戲,而是將目光投向了AI進化的下一塊拼圖:空間智能(Spatial Intelligence)。她認為,AI的下一個巔峰,不只是會寫程式碼和聊天,而是像生物一樣,真實理解並互動我們所處的這個三維空間。而超越技術維度之外,她更為AI的未來立下了一把人文標尺:“AI的成功,應當體現為文明的進步,讓每個個體都能由此追求幸福、繁榮和尊嚴。”以下是本次精彩訪談的解析,為你拆解“空間智能”將如何重塑我們的未來。01 進化論的啟示:感知先於語言很多人認為AI的終極形式是語言模型,但李飛飛提出了一個有趣的視角:從進化論來看,語言其實是“後來者”。她舉例說,在5億多年前的寒武紀,生命體最先發育出的並不是語言,而是感知系統。動物通過觸覺和視覺觀察環境,才開啟了那場讓生命變得更聰明的“進化軍備競賽”。李飛飛認為,“理解、推理並與3D物理世界互動的能力,與語言智能一樣,都是最基礎的底層能力。它是AI的下一個前沿。”這也是World Labs的核心邏輯:如果AI不能像人一樣理解空間,它就永遠無法真正進入現實物理世界。02 什麼是Marble? 它不只是視訊,而是一個“世界”訪談中,李飛飛詳細介紹了World Labs的第一代模型:Marble。很多人將其與Sora等視訊生成模型混淆,但李飛飛指出,二者有著本質區別。Marble是一種真正意義上的“世界模型”:·全場景互動:它能根據文字或圖片提示,生成一個完整的、可導航的、可互動的3D世界。·物理一致性:它具有幾何結構,不是一段“看起來像”的視訊,而是一個在物理邏輯上始終保持一致的空間。這意味著,它不僅能用來做遊戲,更能直接成為機器人訓練的“虛擬實驗室”。03 意想不到的用例:從機器人到心理治療空間智能的應用邊界在那裡?李飛飛給出的答案超出了很多人的想像:·遊戲與影視:開發者可以用它快速建構可穿行的虛擬世界,特效團隊能進行虛擬製片。·機器人訓練:與輝達等夥伴合作,為機器人提供高精度的模擬環境。·建築設計:設計師能瞬間將平面圖轉化為可步入的3D樣板間。最令人稱奇的是醫療科研。心理學家正利用Marble為強迫症(OCD)患者定製個性化的沉浸式環境,通過模擬特定觸發場景來進行科學干預。04 資料與算力:我們離通用機器人還有多遠?當被問及Marble是否像GPT-5那樣燒錢時,李飛飛顯得很坦誠。目前,Marble的訓練規模比頂級大語言模型要小幾個數量級。這一方面是因為這個領域尚處於“規模定律(Scaling Law)”的早期,另一方面也面臨著資料獲取的挑戰。李飛飛坦言,不同於網際網路上隨處可見的文字,高品質的3D物理資料非常稀缺。她透露,World Labs當下採用一種混合資料策略,綜合利用網際網路級的圖文視訊、模擬資料以及類似自動駕駛公司的“實景捕獲”資料。關於通用機器人,李飛飛也潑了一盆冷水:“汽車只是在二維平面上移動、儘量不去碰東西的‘方盒子’。但通用機器人要在三維空間裡完成靈活、精準的抓取和互動。這是一個極高維度的難題,我們不能亂開空頭支票。”05 拒絕“技術末日論”:AI的成功應關乎尊嚴作為AI領域的領軍人物,李飛飛對當下的兩極分化言論感到擔憂。“技術烏托邦”和“末日生存危機”在她看來都不夠負責任。她強調,技術是雙刃劍,人類必鬚髮揮主觀能動性去引導它。那麼,AI最終的成功標誌是什麼?李飛飛借用了“電力”的類比:電力的成功不在於電線本身,而在於它點亮了學校、溫暖了家庭、延長了人類壽命。“AI的成功,也應當體現在文明的進步,讓每個人都能追求幸福、繁榮和尊嚴。”06 結語從理解像素到建構世界,李飛飛正帶領團隊在空間智能的無人區探索。這不僅是技術的跨越,更是人類試圖賦予數字生命“感知力”的又一次嘗試。空間智能,或許就是我們通往AGI的那把“物理鑰匙”。(以下為發言實錄)主持人:好的。接下來,我們要聊聊3D模型,而不僅僅是語言模型。今天,我們有幸請到了被譽為“AI教母”的李飛飛博士。很榮幸,我們也是飛飛博士公司的投資者。讓我們用掌聲歡迎李飛飛博士上台。我今天該穿上World Labs的周邊T恤的,你之前送過我,真的很有心。李飛飛:是啊,我可還等著思科的周邊呢。主持人:沒問題,我們馬上安排。感謝你來到這裡。看到World Labs在過去一年取得的進展,真的令人欣喜。飛飛,先跟我們聊聊你們目前在做什麼,以及為什麼這件事如此重要?李飛飛:好。現在我每天醒來,腦子裡其實只在想一件事:空間智能(Spatial Intelligence)。這就是我大約兩年前和一群年輕的技術專家共同創辦的公司:World Labs的核心。如果從進化論的角度來看,在5億多年前,最先開啟神經系統發育的並不是語言,而是感知。早在語言出現之前,動物就開始通過觸覺和視覺感知光線、接觸環境。主持人:那你認為“本能”也屬於感知的範疇嗎?李飛飛:對我來說,“本能”是一個比較虛泛的詞。但從物理進化上講,正是視覺開啟了進化史上的“軍備競賽”,讓動物變得更加活躍和聰明。理解、推理、互動並在真實的3D/4D物理世界中穿行的能力,與語言智能一樣,都是最基礎的底層能力。而其中的關鍵技術就是“空間智能”,這是AI的下一個前沿陣地。主持人:聊聊Marble吧。前陣子剛發佈的Marble到底是什麼?李飛飛:Marble是我們的第一代空間智能模型。我們私下管它叫“世界模型”。它能接收多模態輸入:無論是文字、圖片、視訊,還是簡單的3D輸入,然後根據這些提示詞,生成一個可以完全穿行、即時互動、且具有永久一致性的3D世界。這與目前的視訊模型截然不同,它擁有完整的幾何結構,可以支撐機器人模擬訓練或遊戲程式設計。主持人:有一種觀點認為,如果不增強AI的物理特性,我們就無法實現通用人工智慧(AGI)。隨著時間的推移,這裡面最大的“突破口”會是什麼?除了機器人領域,五年後我們還能用它做什麼?李飛飛:其實都不用等五年。現在就已經有使用者在用Marble開發遊戲了,影視特效(VFX)客戶也用它進行虛擬製片。我們正與輝達以及一些初創公司合作,將Marble作為機器人的訓練環境。建築師和設計師用它做室內設計。還有一個令我意外的用例是臨床研究:心理健康研究人員利用它為強迫症(OCD)患者建立沉浸式的個性化環境,來模擬特定的觸發場景。主持人:你把整個人生都奉獻給了AI。在創辦這家公司、研究空間智能的過程中,最讓你感到驚訝的是什麼?李飛飛:過去幾年的發展速度簡直令人窒息。每個人都會感到焦慮,覺得“要讀的東西太多,發佈的模型太快”。這讓我時刻保持謙遜,意識到自己所知甚少。另一件讓我擔憂的事是那些極度兩極分化的言論:要麼是技術烏托邦主義,要麼是“生存危機”之類的末日論。這兩種觀點其實都不太負責任。技術是一把雙刃劍,我們必鬚髮揮主觀能動性,引導它走向善意化和精細化的應用。主持人:在你看來,未來幾年AI的成功標準是什麼?李飛飛:回看電力技術,它的成功在於點亮了學校、溫暖了家庭、推動了工業化,並延長了人類的壽命。AI的成功標誌應該是:文明因它而進步,每個個體都能由此追求幸福、繁榮和尊嚴。主持人:大型世界模型的計算量和語言模型一樣大嗎?李飛飛:目前,我們的模型規模還沒有最大的大語言模型(LLM)那麼大。GPT-5的訓練算力可能在10^26 FLOPS左右,而Marble要小幾個數量級。部分原因是這個領域還很新:Transformer論文發佈於2017年,而世界模型才剛剛開始進入Scaling Law的上升曲線。主持人:語言模型是用網際網路上的免費資料訓練的。但物理資料很難獲取,所以合成資料變得至關重要。資料的匱乏會減慢世界模型的發展嗎?另外,未來我們會擁有通用機器人,還是專用機器人?李飛飛:我們採取的是混合資料策略。語言資料相對幹淨且易於觀察,但像素和體素(Voxel)構成的物理世界則複雜得多。我們利用網際網路規模的文字、圖像和視訊,但也需要模擬資料和“現實世界捕獲”資料,這與特斯拉或Waymo等自動駕駛公司的做法類似。關於機器人:作為科學家,我不喜歡亂開空頭支票。汽車可以看作是一個在二維平面上移動的“方盒子機器人”,它的主要目標是避開障礙物。而通用機器人是一個三維實體,它必須觸碰並與物體互動,且不能損壞它們。這是一個維度高得多的問題,涉及極高的靈活性和空間精準度。主持人:在最後的一分鐘裡,企業端應該如何看待世界模型?李飛飛:空間智能是一項橫向通用技術。除了機器人和遊戲,它還可以應用於醫療、教育、外勤服務、金融服務、農業、製造業和城市規劃。它是下一個前沿領域,我邀請大家共同來探索這個課題。主持人:非常感謝。李飛飛:謝謝。 (網易科技)