#世界模型
李飛飛發佈顛覆型AI產品,極有可能重塑教育和創作方式
剛剛,李飛飛萬字長文發佈了首款商用世界模型Mable,AI教母再次引領變革。Marble內建一個原生的AI世界編輯器Chisel,使用者只需一句提示,就能按自己的想法自由改造世界。李飛飛說:空間智能能有潛力徹底變革我們創作和體驗敘事的方式,將其影響力從娛樂延伸到教育。孩子的學習將可能像探險一樣,內在動機將會被充分激發,學生可以利用Mable建構自己心中的文學世界、歷史場景或物理模型,從知識的接受者轉變為主動的創造者和講述者。太酷了!不由得重讀了一遍趙燦翻譯的《李飛飛傳》,激動不已,如果每個父母和孩子都可以好好讀一次這本書,他們大機率可以找到在AI時代,讓自己穿越焦慮、穿越恐懼、成就孩子的中國式答案。至少,你可以看到,一個普通中產家庭,如何通過家庭教育和個人選擇,讓孩子充滿溫情,又能擁有非凡的人生、改變人類的未來。推薦《李飛飛傳》每個孩子和父母必讀李飛飛是AI領域的頂級科學家,神奇的是,她在寫自傳的時候,不是從理性開始,反而從童年的感受開始。“從記事起,感知事物(無論是什麼)的純粹體驗總能以難以言喻的方式讓我深深沉浸其中。目之所及,彷彿總會有新鮮事物在等待著喚起我的驚奇之情,或許是一株植物的靜謐,或許是一隻昆蟲小心翼翼的步伐,又或許是遙遠山峰的朦朧深邃。年幼的我對這個世界還不甚瞭解,但我能感覺到,它值得探索。”在李飛飛之前,“從感受開始”的天才,並不是例外,而幾乎是頂級創造者的共性。愛因斯坦說過:“我們所能體驗到的最美的東西是神秘,它是一切真正的藝術和科學的源泉。一個人如果不再對世界感到驚奇、不能呆立在敬畏之中,那他幾乎等同於死去——他的眼睛是閉著的。”物理學家費曼把整本書命名為《發現事物的樂趣》,他解釋科學動機時說:真正驅動他的是“好奇心”,是去追問“是什麼讓風吹起海浪、讓水像空氣、像沙子那樣運動”——發現這些現象背後有共同的模式,是“看見一切如何運轉”的快感。在商業世界,賈伯斯在史丹佛演講裡沒有講商業模型,而是講直覺、好奇和“保持飢餓,保持愚蠢”——一種對未知持續敞開的心態,他把這當成創新者唯一值得堅守的“宗教”。生態學家蕾切爾·卡森強調,事實只是知識與智慧的“種子”,而“情感和感官印象是種子生長的肥沃土壤”;對於孩子來說,“知道”遠不如“先去感受”重要。正如李飛飛所說:“喚起我的驚奇之情,或許是一株植物的靜謐,或許是一隻昆蟲小心翼翼的步伐,又或許是遙遠山峰的朦朧深邃。年幼的我對這個世界還不甚瞭解,但我能感覺到,它值得探索。”難能可貴的是,李飛飛把這份感受力和驚奇之心,一直保留到了現在。從她的文字,你可以感受到,她的感受力不輸理性,甚至超越理性。而驚奇,則是她整個科研的支撐。還有對於星空的渴望,幾乎貫穿著她的人生始終——老師指向天空的更高處,說:“啊,快看,這是我最喜歡的一個星座。這七顆星星組成了北斗七星。現在沿著這條線往上看,”他指向右邊說,“看到那顆明亮的星星了嗎?這可能是幾百年來天上最重要的恆星,叫作北極星。”從那時起,李飛飛的人生,是被宇宙和星空所定義的。這是為什麼,她無法接受學校老師短視的教育。她曾公開頂撞老師、飽受質疑,一度成績一落千丈……老師跟媽媽投訴她的時候,媽媽對她說:這裡不適合你。李飛飛不是唯一一個“因為人生版圖太大,而容不下在一張課桌裡”的人。愛因斯坦十五歲時離開慕尼黑的路易特波德中學,因為他極度厭惡那種命令式、軍營式的教學——在他看來,那種教育只要求服從,不允許真正的思考。之後他去了瑞士阿勞州立中學,在那裡第一次感受到“受歡迎、被理解”,也看到了更自由的人生可能,於是才有後來的愛因斯坦。諾貝爾文學獎得主泰戈爾一生中頻繁轉學,先後在東方學院、普通學校、孟加拉學院、聖澤維爾學校輾轉,最後乾脆拒絕再上學。他覺得殖民地式的西式學校“枯燥而低劣”,遠不如大家庭裡的詩歌、音樂和思想交往來得豐盈。後來,他在聖地尼克坦親手創辦實驗學校,就是為了給孩子一種不被應試教育綁架的“開闊人生教育”。他們離開的,不是“學校”本身,而是一個過於狹隘的人生說明書。在這個到處都在談論“AI”的時代,我們很少停下來問一句:設計未來技術的人,本人是怎樣長大的?李飛飛給出的答案是——不是從論文、獎項、頭銜開始,而是從一個小女孩仰望星空、被世界驚奇擊中的那一刻開始。她記得北斗七星、北極星,記得山巒的輪廓、昆蟲的步伐,也記得自己如何因為嚮往更遼闊的人生,而不斷“轉學”、不斷離開只講功利的課堂。 (Madam Wang涉川和她的朋友們)
李飛飛和LeCun的世界模型之爭
AGI之路,終於交會到了世界模型的戰場。李飛飛,發佈了旗下首款商用世界模型Marble;幾乎在同一時間,Lecun離職Meta,準備創立自己的世界模型公司;在此之前,Google旗下的世界模型Genie 3,也曾掀起業界轟動。AI界三股大佬力量,雖然同樣進軍世界模型,卻意味著三種截然不同的技術路線賭注—世界模型之爭李飛飛剛剛為空間智能舉大旗的萬字長文發佈,她旗下的創業公司World Labs,就緊鑼密鼓推出了首款商用世界模型Marble。業界普遍認為Marble有商業化潛力,是因為它產生的是持久的、可下載的3D環境。團隊表示,這種方式能顯著減少場景變形和細節不一致的問題,而且還能將生成的世界匯出成高斯斑點、Mesh網格,甚至直接匯出影片。更進一步,Marble還內建原生的AI世界編輯器Chisel,使用者只需一句提示,就能依照自己的想法自由改造世界。對於做VR或遊戲的開發者來說,「一句提示→直接生成3D世界→一鍵匯出到Unity」這樣的鏈路,非常有幫助。然而,Hacker News的一名機器學習工程師指出,比起所謂的世界模型,Marble看起來更像是單純的3D渲染模型。這不就是高斯Splat模型嗎?我在AI產業做了這麼久,到現在都還是搞不懂「世界模型」裡的「世界」究竟指什麼。Reddit網友的說法則更直接:用高斯散射、深度和影像修復把圖片轉成3D環境,確實很酷,但這就是一組3D高斯生成流水線,不是機器人的大腦。這裡的高斯潑濺,指的是近幾年3D建模裡最火紅的一類新技術。它把一個場景表示成成千上萬個漂浮在空間中的彩色模糊小斑點(也就是高斯),再把這些斑點“潑濺”到螢幕上,讓它們自然融合成一張圖像。可以這麼理解:高斯就像是漂浮在立體空間、半透明、有光暈、邊緣柔軟的小氣泡。單一氣泡當然軟乎乎的成不了形,但如果成千上萬個這樣的氣泡聚在一起,再從不同角度渲染出來,就能組合出一幅精美的三維畫面。這樣做,不需要像傳統攝影測量那樣走複雜的建模流程,雖然犧牲了一些精確度,但速度極快,而且操作更輕鬆。Marble採取的正是這樣一種路徑。然而,這也意味著,Marble可能不是大家想的那種、可以直接用於機器人訓練的「世界模型」。Marble確實建構了一個完整世界,但我們看到的其實只是一個能被渲染器直接轉成像素的檢視。換句話說,它捕捉的是「表面是什麼樣子」,而並沒有內建「這個世界為什麼會這樣運作」的物理規律。這對人來說完全夠用了,但對機器人來說,重要的其實不是這些視覺訊息,而是背後的因果結構——例如,一放在斜坡上的球會滾下來,這對人類來說是看一眼就懂的事;但機器人想做出類似判斷,還需要質量、摩擦、速度……這些資訊在Marble里根本不存在。或許正是因為如此,在Marble自己的部落格上,雖然屢屢提及“世界模型”與“匯出高斯散射體、網格和視訊”,但幾乎完全沒有提到機器人。不過在商業化層面,Marble明顯更具優勢。相較於AI圈熱議的那類、可孕育具身智能世界模型,Marble已經不是一個遙遠的概念,而是一款能夠立刻融入遊戲開發者日常工作流程的實用工具。但這也不禁令人有些黯然,難道那條能通往AGI的「世界模型」之路,只是個噱頭嗎?當然不是。確實存在著能與機器人真正互動的世界模型,例如——LeCun的JEPA。LeCun所理解的「世界模型」,根子並不在3D圖形學,而是在控制理論和認知科學。它不需要輸出漂亮的畫面,因為你根本「看不到」這種世界模型。這類世界模型的任務,不是渲染精美的像素,是讓機器人能提前想幾步,學習在行動前預判世界的變化。JEPA走的正是這條路——LeCun認為,對AI來說,只有中間那個抽象表徵才重要,模型沒必要浪費算力去產生像素,只要專注於捕捉那些能用於AI決策的世界狀態。所以,這類模型雖然沒辦法像Marble那樣生成精緻的3D影像,看起來不那麼「驚豔」,但它更像是在訓練機器人的「大腦」。其優勢在於對世界更本質的理解,因此,更適合作為機器人的健身房。這麼一對比,李飛飛和LeCun在「世界模型」上的路線幾乎南轅北轍——前者做的是一個前端資產產生器;後者則更像一個後端預測系統。而在這二位神仙打架的中間,還站著一位科技巨頭——Google。今年8月,GoogleDeepMind推出了新版世界模型,這就是Genie 3。只要一句Prompt,模型就能產生一個可互動的影片環境,使用者可以在其中自由探索數分鐘。最令人印象深刻的是,Genie 3首次在這一類模型中解決了長時一致性的問題——不會再出現那種「轉個身整棟大樓消失」的狀況。同時,它也支援觸發世界事件,例如「開始下雨」「夜幕降臨」等,整個過程就像一款由模型而非傳統引擎驅動的電子遊戲。不過,Genie應該更像一款「世界模型式影片產生器」。儘管Genie 3讓「世界動了起來」,它的核心仍然是視訊邏輯,而非JEPA那種基於物理和因果的邏輯。也就是說,它雖然可以產生動態畫面,但也無法完全「理解」這些畫面背後的物理規律。依然可以用於機器人訓練,但不如JEPA那樣直擊本質。同時,畫面品質和解析度也有限,難以與Marble那種高精度、可匯出的3D資產相提並論。綜上來看,三種「世界模型」雖然都在描繪「世界」,但理解路徑完全不同,也因此各有千秋——Marble渲染「世界長什麼樣子」,Genie 3展示「世界怎麼變」,JEPA則探究「世界的結構是什麼」。而市面上幾乎所有的「世界模型」,大致也都可歸入這三種範式:世界模型金字塔第一種:世界模型即介面以Marble為代表,它讓人們能夠從文字或二維素材,直接產生可編輯、可分享的三維環境。在這個模式下,「世界」是呈現在VR頭戴裝置、顯示器或電腦螢幕上的那片可供人觀賞與遊走的空間。第二種:世界模型即模擬器:以Genie 3為代表,這類模型能產生連續、可控制的視訊式世界,讓智能體在其中反覆嘗試、失敗、再嘗試。像SIMA 2這樣的智能體,便可把這類世界當作「虛擬健身房」。第三種:世界模型即認知框架以JEPA為代表,這是一種高度抽象的形式,沒有像前兩種一樣可供人欣賞的畫面。在這裡,焦點不在於渲染,「世界」以潛在變數和狀態轉移函數的形式呈現,可以說是機器人完美的訓練基地。在智源學者趙昊看來,其實可以將三者拼裝為「世界模型金字塔」——自下而上依序是李飛飛、Genie 3、Lecun。站在地面仰望這座金字塔:越往上,模型越抽象、越貼近AI的思考方式,因此更適合用於機器人訓練與推理;越往下,模型在外觀、互動與視覺化等方面對人類來說更真實,但更難被機器人理解。 (量子位元)
李飛飛團隊推出首款商用世界模型Marble
據科技媒體TechCrunch報導,人工智慧先驅李飛飛聯合創立的World Labs公司近日正式發佈首款商業化“世界模型”產品Marble,標誌著AI空間智能領域迎來重要突破。該產品支援文字、照片、視訊等多模態輸入,可生成可編輯、可下載的3D環境,現已開放免費增值與付費訂閱服務。此次發佈距World Labs結束“隱身模式”並完成2.3億美元融資僅一年有餘,使其在該賽道領先競品,目前Decart、Odyssey僅推出免費演示版,GoogleGenie仍處於有限研究預覽階段。作為業內首款原生整合AI編輯工具的世界模型,Marble核心優勢在於生成持久化3D環境,能減少場景變形與不一致性,支援匯出多種格式,區別於同類動態生成模式。其在創意控制上實現多重突破:輸入方式升級為多模態相容,可生成高逼真數字孿生環境;創新3D編輯器Chisel實現“結構與風格”解耦,支援直接操控3D對象;還新增世界擴展功能與合成器模式,可實現多3D世界無縫拼接。此前World Labs早期模型及Beta版已展現3D生成能力,正式版進一步最佳化邊緣形變等問題。Marble首批聚焦遊戲開發、影視視效、虛擬現實三大場景,同時在機器人領域潛力顯著。在遊戲開發中,針對行業對生成式AI的審慎態度及智慧財產權等關切,Marble作為資產生成工具嵌入現有流程,生成環境可匯入主流引擎;在影視視效領域,其3D資產解決AI視訊生成常見問題;在虛擬現實領域,產品已相容主流頭顯;在機器人研發中,能建構模擬訓練環境降低資料獲取門檻。為滿足多元需求,Marble推出四檔訂閱方案:免費版支援4次基礎生成,標準版(20美元/月)提供12次生成及高級編輯,專業版(35美元/月)含25次生成與商業使用權,旗艦版(95美元/月)解鎖全部功能與75次生成權限。World Labs 首席執行官李飛飛在《世界模型宣言》中表示,Marble 是建構 “真正具備空間智能的世界模型” 的關鍵一步。她指出,下一代世界模型將推動機器在空間智能層面實現質的飛躍,正如大語言模型教會機器 “讀寫”,Marble 這類系統將教會機器 “觀察” 與 “建構”。這種對三維空間中物體存在方式與互動規律的理解,有望讓機器智能突破現有應用領域,延伸至科學探索、醫療創新等更廣闊的領域。李飛飛強調:“若無空間智能,我們對真正智慧型手機器的憧憬便永無圓滿之日。” (環球Tech)
李飛飛終於把空間智能講明白了:AI 的極限不是語言,世界遠比文字更廣闊!
前不久,一場彙集了黃仁勳、Hinton、LeCun 等人工智慧領域頂尖人物的圓桌討論,引發了不小的關注。當李飛飛與這些行業巨擘同台時,也確實在社區裡激起了一些討論——精準地說,是爭議。各種社交媒體上,匯成了一個巨大的聲音:“她憑什麼?”它不是一句簡單的冒犯,更像是一種確認。在今天這個由參數、算力、模型規模定義的 AI 世界裡,人們急於弄清楚,誰才是牌桌上真正的玩家。而許多人眼裡,王牌掌握在兩種人手中:一種是造出了像 GPT 這樣的大模型的人,另一種是造出了能讓這些模型飛速運轉的 GPU 的人。在這個劇本裡,李飛飛的角色就顯得有些模糊。很多人對她的印象或許還停留在 ImageNet 時代。但 ImageNet 的意義,可能比我們想像的要深遠得多。它不僅僅是提供了一個龐大的資料集,更重要的是,它幾乎是以一己之力,為當時的電腦視覺領域建立了一套“標準賽道”,一種通過大規模基準測試來驅動整個領域向前滾動的方法論。可以說,今天大模型研究中“資料+算力+模型”並以 Benchmark 來衡量進展的範式,依然能看到當年 ImageNet 留下的深刻烙印。它不是某一個具體的演算法,而是改變了遊戲規則的基礎設施。那麼,在那個里程碑式的工作之後,當下的 AI 世界,幾乎所有人都擠在語言模型的賽道里狂奔時,李飛飛卻把目光投向了一個更廣闊、也更根本的領域:空間智能。她敏銳地指出了當前 AI 範式的一個核心侷限:語言終究是人類為了交流而創造出來的一種抽象訊號。自然界中本沒有文字,物理世界遵循的是它自身的規律。AI 如果想要真正地理解世界、與世界互動,就不能只停留在文字的符號遊戲裡,做一個“黑暗中的文字大師”。它需要學會看、學會聽、學會理解三維空間中的物體、距離、物理關係和動態互動。這解釋了很多人心中的第一層疑問:ImageNet 之後,李飛飛究竟在做什麼?她和她的團隊,以及新創辦的公司,正是試圖為 AI 補上“物理世界”這一課,讓智能走出螢幕,擁有對空間的感知、理解和互動能力。他們想做的,是建構所謂的“世界模型”,一個遠比語言模型宏大、複雜得多的目標。這並非一個輕鬆的議題,甚至比單純擴大語言模型的規模要困難得多。它關乎人工智慧的下一站將去往何方,是從一個勝利走向另一個勝利,還是需要一次根本性的範式轉換。近日,李飛飛親自撰寫了一篇長文,第一次如此系統、完整地闡述了她對“空間智能”的全部構想,描繪了她眼中人工智慧的新疆界。這篇文章,或許就是對外界所有好奇與疑問的最好回應,也終於解答了那個最大的問題:空間智能,到底是什麼?以下,是這篇文章的全文。跨越語言,構築世界:空間智能,人工智慧的新疆界1950 年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍引人深思的問題:機器能思考嗎?能洞見他所預見的一切,需要非凡的想像力:智能或許某天可以被創造,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧”(AI)的不懈科學探索。在我投身人工智慧領域的 25 年裡,圖靈的遠見卓識至今仍讓我備受鼓舞。但我們距離這個目標還有多遠?答案並非一言以蔽之。如今,以大語言模型(LLMs)為代表的頂尖人工智慧技術,已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍像是黑暗中的文字大師:能言善辯卻缺乏經驗,知識淵博卻脫離現實。空間智能將改變我們創造真實世界和虛擬世界以及與之互動的方式——為敘事、創造、機器人技術、科學發現等領域帶來革命性變化。這,就是人工智慧的新疆界。自進入這一領域以來,對視覺和空間智能的追求,一直是指引我的“北極星”。為此,我曾花費數年時間建構 ImageNet,它是首個大規模視覺學習和基準測試資料集;它與神經網路演算法以及圖形處理器(GPU)等現代計算技術一道,成為催生現代人工智慧的三大關鍵要素之一。也正因如此,我在史丹佛的學術實驗室在過去十年間,一直致力於將電腦視覺與機器人學習相結合。同樣為此,我和我的聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創立了 World Labs:為了首次將這一可能性完全實現。在本文中,我將解釋什麼是空間智能、它為何重要,以及我們正在如何建構能夠解鎖它的“世界模型”——其影響將重塑創造力、具身智能和人類的進步。空間智能:人類認知的腳手架人工智慧的發展從未像今天這樣激動人心。以大語言模型為代表的生成式AI模型已經從實驗室走向日常生活,成為數十億人進行創造、提升生產力和溝通的工具。它們展現了曾被認為不可能實現的能力,能夠輕鬆生成連貫的文字、海量的程式碼、逼真的圖像,甚至是簡短的視訊片段。人工智慧是否會改變世界,這已不再是個問題。無論以何種標準衡量,它都已然做到了這一點。然而,仍有許多目標遙不可及。自主機器人的願景雖然引人入勝,但仍停留在構想階段,遠未成為未來學家長期承諾的那樣,在日常生活中普及開來。在疾病治療、新材料發現和粒子物理學等領域極大加速研究的夢想,在很大程度上仍未實現。而讓人工智慧真正理解並賦能人類創造者的承諾——無論是幫助學生理解分子化學中複雜的概念,協助建築師構想空間,支援電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供服務——也依然未能兌現。要理解為何這些能力依然遙不可及,我們需要探究空間智能是如何進化的,以及它如何塑造我們對世界的理解。長期以來,視覺一直是人類智能的基石,但其力量源於一種更為根本的能力。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,感知這一簡單的行為,悄然開啟了通往智能的進化之旅。這種看似孤立的、從外部世界獲取資訊(無論是一縷光線還是一絲觸感)的能力,在感知與生存之間架起了一座橋樑,並且隨著世代繁衍,這座橋樑變得愈發堅固和精巧。一層層的神經元在這座橋樑上生長,形成了能夠解釋世界、並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知與行動構成了驅動智能進化的核心循環,也是大自然創造出我們這個集感知、學習、思考和行動於一體的終極物種的根基。空間智能在定義我們如何與物理世界互動方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動作:通過想像保險槓與路邊之間的間隙逐漸縮小來停放汽車;接住別人從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而避免碰撞;或者睡眼惺忪地將咖啡倒入杯中,甚至無需直視。在更極端的情況下,消防員在煙霧瀰漫、不斷坍塌的建築物中穿行,對結構的穩定性和生存機會做出瞬時判斷,並通過手勢、身體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在學會說話前的數月乃至數年裡,通過與環境充滿趣味的互動來學習這個世界。所有這一切都發生得如此直觀、自然——這是機器尚未達到的流暢程度。空間智能也是我們想像力和創造力的基礎。講故事的人在腦海中創造出獨特而豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基於空間的想像力,構成了真實或虛擬世界中互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵的商業應用提供了動力。歷史上,空間智能在許多定義文明處理程序的時刻都扮演了核心角色。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城(Syene)的同一時刻,他在亞歷山大港測得太陽光線有 7 度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織業:將多個紡錘並排佈置在同一個框架中,使得一個工人能同時紡多根紗線,生產效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發現了 DNA 的結構,他們不斷擺弄金屬板和金屬絲,直到最終找到了鹼基對的空間排列方式。在每一個案例中,當科學家和發明家需要操控物體、構想結構和對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅靠文字來捕捉。空間智能是我們建構認知所依賴的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是在最抽象的議題上。它對於我們互動的方式——無論是口頭還是身體上的,無論是與同伴還是與環境本身——都至關重要。雖然我們大多數人並非每天都在做出埃拉托斯特尼等級的發現,但我們每天也都在以同樣的方式思考——通過感官來感知複雜的世界,然後利用對世界如何在物理和空間層面運作的直觀理解來認識它。遺憾的是,今天的人工智慧還無法像這樣思考。過去幾年裡,人工智慧確實取得了巨大進步。多模態大語言模型(MLLMs)除了文字資料外,還利用海量的多媒體資料進行訓練,從而引入了一些基礎的空間感知能力,如今的人工智慧已經可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能夠在高度受限的環境中操控物體和工具。然而,坦率地說,人工智慧的空間能力距離人類水平還相差甚遠。其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成圖像來“在腦中”旋轉物體時,當前最先進的多模態大語言模型的表現往往不比隨機猜測好多少。它們無法走出迷宮、識別捷徑或預測基本的物理現象。人工智慧生成的視訊——儘管尚處起步階段,並且確實非常酷——往往在幾秒鐘後就失去連貫性。儘管當前最先進的人工智慧擅長閱讀、寫作、研究和資料中的模式識別,但這些模型在表現或與物理世界互動時,卻存在根本性的侷限。我們看待世界的方式是整體性的——不僅關乎我們正在看什麼,更關乎萬物在空間上如何關聯、其意義為何、其重要性何在。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,人工智慧就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,無法引導機器人在我們的家庭和醫院中服務,無法為學習和娛樂創造全新的沉浸式互動體驗,也無法加速材料科學和醫學領域的探索發現。哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對人工智慧而言,世界遠不止於語言。空間智能代表了超越語言的新疆界——它連接想像、感知與行動,為機器真正改善人類生活開闢了可能,從醫療健康到創意表達,從科學發現到日常輔助。人工智慧的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的人工智慧?要打造出能夠像埃拉托斯特尼那樣推理、像工業設計師那樣精密設計、像故事講述者那樣富有想像力地創造,並像急救人員那樣流暢地與環境互動的模型,其路徑何在?建構具備空間智能的人工智慧,需要比大語言模型更為宏大的目標:世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠非當今的大語言模型所能及。該領域尚處萌芽階段,現有方法從抽象推理模型到視訊生成系統不一而足。World Labs 於 2024 年初正是基於這樣的信念而創立:基礎方法仍在建立之中,這使其成為未來十年最具決定性的挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界能夠解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——無論是代表真實空間還是虛擬空間——同時保持幾何、物理和動態上的一致性。研究界正在積極探索,這些世界在內在的幾何結構上,究竟應該被隱式表達還是顯式表達。此外,我相信,除了強大的潛在表示之外,一個通用的世界模型還必須能為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當下的理解必須與它的過去——即導致當前狀態的先前世界狀態——連貫地聯絡在一起。多模態:世界模型在設計上就是多模態的正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式 AI 領域中稱為“提示詞”。在獲得部分資訊的情況下——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它既能以真實視覺的保真度處理視覺輸入,又能同樣自如地解釋語義指令。這使得智能體和人類都能夠通過多樣的輸入與模型就世界進行溝通,並反過來接收多樣的輸出。互動性:世界模型能夠根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是給到世界模型的提示詞的一部分,那麼它的輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個動作(無論有無目標狀態)作為輸入時,世界模型應該產生一個與世界先前狀態、預期的目標狀態(如果有的話),以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能夠預測世界的下一個狀態,還能基於新狀態預測下一步的動作。這一挑戰的範圍超過了人工智慧以往面臨的任何挑戰。語言純粹是人類認知的一種生成現象,而世界則遵循著遠為複雜的規則。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律制約著每一次互動。即使是最奇幻、最具創意的世界,也是由遵守其自身物理定律和動態行為的空間物體和智能體構成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,將需要克服幾個巨大的技術障礙。在 World Labs,我們的研究團隊正致力於朝著這個目標取得根本性的進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中的“下一詞元預測”那樣簡潔優雅的通用任務函數,一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數的建構本身就更具難度。但儘管仍有許多未知尚待探索,這個目標函數及相應的表示方法必須能反映幾何與物理定律,尊重世界模型作為想像與現實的具身化表示這一根本性質。大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集合代表了豐富且易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即 RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量和模型大小之間的“規模法則”的力量;解鎖世界模型的關鍵,在於建構能夠以同等規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中,對網際網路規模的資料起到了補充作用。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法,以及遠為強大的神經模擬方法。新的模型架構和表示學習:世界模型的研究將不可避免地推動模型架構和學習演算法的進步,特別是超越當前的多模態大語言模型和視訊擴散範式。這兩種範式通常將資料標記化為一維或二維序列,這使得一些簡單的空間任務變得異常困難——比如,在一段短影片中數出不重複的椅子數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於標記化、上下文和記憶的具備三維或四維感知能力的方法。例如,在 World Labs,我們最近在一款名為 RTFM(Real-Time Frame-based Model)的即時生成式幀基模型上的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持生成世界中的持久性。顯然,在我們能通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰。這項研究不僅僅是一項理論探索,它是一個新型創意和生產力工具的核心引擎。而 World Labs 內部的進展令人鼓舞。我們最近向少數使用者展示了 Marble 的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致三維環境的世界模型,供使用者和故事講述者在他們的創意工作流中進行探索、互動和進一步建構。我們正在努力,希望很快能將其向公眾開放!Marble 只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新層面上實現空間智能——這一成就將解鎖當今人工智慧系統中仍然普遍缺失的關鍵能力。用世界模型為人類建構一個更美好的世界發展人工智慧的動機至關重要。作為幫助開啟現代人工智慧時代的科學家之一,我的動機一直很明確:人工智慧必須增強人類的能力,而非取而代之。多年來,我一直致力於使人工智慧的開發、部署和治理與人類的需求保持一致。如今,關於技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:人工智慧由人開發,為人所用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更能互聯、更有效率、更有成就感。空間智能代表了這一願景——人工智慧賦能人類的創造者、照護者、科學家和夢想家,去實現曾經的不可能。正是這一信念,驅動著我將空間智能作為人工智慧下一個偉大疆界的承諾。空間智能的應用橫跨不同的時間線。創意工具正於此刻湧現——World Labs 的 Marble 已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。而最具變革性的科學應用將需要更長的時間,但它們有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個 AI 生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得我們去追求。以下是這個未來所包含的內容:創造力:為敘事和沉浸式體驗注入超能力“創造力是智慧在玩耍。” 這是我的偶像阿爾伯特·愛因斯坦的名言之一,也是我最喜歡的一句話。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義的方式,最重要的是,是我們尋找生命意義和內心之愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計延伸到建築。World Labs 的 Marble 平台將為電影製作人、遊戲設計師、建築師和各類故事講述者提供前所未有的空間能力和編輯可控性,讓他們能夠快速建立和迭代可完全探索的三維世界,而無需傳統三維設計軟體的繁重負擔。創造行為本身依然如故,充滿活力且富有人性;人工智慧工具只是放大並加速了創造者所能達成的成就。這包括:新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來構想完整的世界,而不受預算或地理位置的限制,探索在傳統製作流程中難以實現的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種融合了藝術、模擬和遊戲的全新互動體驗——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並棲居於自己的故事之中。隨著將概念和故事板提升為完整體驗的更新、更快捷的方式的出現,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上,建構擁有共同主線貫穿的世界。通過設計實現空間敘事:基本上,每一個製造出來的物體或建造出的空間,在其實體化之前都必須在虛擬三維環境中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以在投入數月進行設計之前快速構想結構,漫步於尚不存在的空間之中——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業設計師和時尚設計師可以瞬間將想像轉化為形態,探索物體如何與人體和空間互動。全新的沉浸式和互動體驗:體驗本身,是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同生活的這個物理世界。直到近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始瞥見共享我們自己創造的替代世界意味著什麼。現在,空間智能與VR和擴展現實(XR)頭顯、沉浸式顯示器等新形態裝置相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入一個完全實現的多維世界,將變得像打開一本書一樣自然。空間智能讓世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是面向個人創作者、教育者以及任何有願景希望分享的人。機器人技術:行動中的具身智能從昆蟲到人類,動物都依賴空間智能來理解、導航並與它們的世界互動。機器人也不例外。自該領域誕生之初,擁有空間感知能力的機器就一直是人們的夢想,這也包括我和我的學生及合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性感到如此興奮。通過世界模型規模化機器人學習: 機器人學習的進展取決於一個可行的、可規模化的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬以及對人類演示的真實世界捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今的機器人研究缺乏訓練資料。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數的狀態、互動和環境模擬中訓練機器人。夥伴與協作者:機器人作為人類的協作者,無論是在實驗室工作台旁協助科學家,還是幫助獨居老人,都可以補充那些急需更多勞動力和生產力的領域。但要做到這一點,需要機器人具備能夠感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧性或推理的任務;而一個家庭助理可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態甚至可能是與這種期望相符的動作,這樣真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身形態:人形機器人在我們為自己建構的世界中扮演著一定角色。但創新的全部益處將來自更多樣化的設計:遞送藥物的奈米機器人、穿越狹窄空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰是,缺乏適用於這些多種多樣的具身形態的訓練資料。世界模型將在為這些努力提供模擬資料、訓練環境和基準測試任務方面發揮關鍵作用。更長遠的未來:科學、醫療和教育除了創意和機器人應用,空間智能的深遠影響還將延伸到那些人工智慧可以增強人類能力、從而拯救生命和加速發現的領域。我將在下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都極為廣闊。在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室能夠觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床邊的每一個環節。在史丹佛,我和我的學生及合作者多年來與醫院、養老機構以及居家患者共事。這段經歷讓我確信空間智能在此處的變革潛力。人工智慧可以通過多維度建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所必需的人文關懷的前提下,為患者和護理人員提供支援,更不用說機器人在各種不同場景下幫助我們的醫護人員和患者的潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代式體驗。在人工智慧時代,更快、更有效的學習和技能重塑的需求,對於學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞的運作機制或漫步於歷史事件之中。教師可以獲得通過互動環境進行個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:人工智慧應增強人類的專業知識、加速人類的發現、並放大人類的關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結語過去十年見證了人工智慧成為一種全球現象,以及技術、經濟乃至地緣政治的一個轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈 75 年前那個問題背後的精神。我依然懷有他那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望製造出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對最大挑戰的真正夥伴。無論是在實驗室裡加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻給予支援,我們正處在一項能夠提升我們最珍視的生活方面的技術的前沿。這是一個關於更深刻、更豐富、更強大的人生的願景。在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為這一代技術專家中的一員,或許很快就能賦予機器同樣的能力——並有幸利用這些能力為世界各地的人們謀福祉。我們對真正智慧型手機器的夢想,若沒有空間智能,將是不完整的。 (AI 科技大本營)
李飛飛萬字長文爆了!定義AI下一個十年
AI的下一個十年,是建構空間智能的機器。李飛飛最新硬核長文,揭秘了空間智能「世界模型」核心框架和三大核心支柱。AI的下一個前沿,是「空間智能」。它是一項能讓「看見」昇華為「推理」,讓「感知」蛻變為「行動」,讓「想像」落地為「創造」的技術。但「空間智能」究竟是什麼?為何如此重要?該如何建構它?又該如何應用它?今天,李飛飛撰萬字長文分享了自己關於建構和使用「世界模型」以解鎖空間智能的思考。新文章中,她為真正具備空間智能的「世界模型」所需達成的目標勾勒了一個框架。具體來說,建構這樣的AI必須具備三大核心能力:讓AI擁有故事講述家的想像力去創造,擁有急救人員般的敏捷性去導航,並擁有科學家的嚴謹去推理空間。李飛飛與LeCun共識的一點是,「世界模型」是解鎖空間智能的核心。它必須能生成遵循物理定律、在空間上保持一致的世界,能處理從圖像到動作的多模態輸入,並能預測這些世界將如何演變或與之互動。空間智能的應用疆域,正沿著一條清晰路徑演進。當下,它正賦能創意,World Labs Marble項目已經將這些能力交到了創作者和故事講述者的手中。下一步,它將駕馭物理世界,機器人實現感知與行動之間的閉環。而最具變革性的科學應用,雖然需要更長時間,但有望對人類福祉產生深遠影響。哲學家維特根斯坦曾寫道:「我語言的極限,意味著我世界的極限。」李飛飛表示,「我不是哲學家,但我深知,至少對AI而言,世界遠不止於文字」。空間智能代表了超越語言的前沿——它是一種將想像、感知與行動融會貫通的能力,為機器真正提升人類生活開啟了無限可能,從醫療健康到創意揮灑,從科學探索到日常輔助。眾多網友點評,這是李飛飛一篇非常重要的文章,空間智能必讀之作!從語言到世界:空間智能是AI的下一個前沿1950年,當計算還只是自動化算術和簡單邏輯的代名詞時,阿蘭·圖靈提出了一個至今仍振聾發聵的問題:機器能否思考?能洞見他所預見的一切,需要非凡的想像力:智能有朝一日或可後天建構,而非與生俱來。這一洞見,後來開啟了一場名為「人工智慧」(AI)的不懈科學探索。在我投身AI領域的第二十五個年頭,圖靈的遠見卓識依然激勵著我。但我們離這個目標還有多近?答案並非一言以蔽之。如今,以大語言模型(LLM)為代表的頂尖AI技術已開始改變我們獲取和運用抽象知識的方式。然而,它們仍是黑暗中的文字大師;能言善辯卻缺乏經驗,知識淵博卻脫離現實的根基。空間智能將改變我們創造以及與真實和虛擬世界互動的方式——為故事敘述、創意、機器人技術、科學發現等領域帶來革命性的變革。這,就是AI的下一個前沿。對視覺與空間智能的追求,是我踏入該領域以來始終指引我前行的「北極星」。正因如此,我花費數年時間建構了ImageNet——首個大規模視覺學習與基準測試資料集,它與神經網路演算法、圖形處理器(GPU)等現代計算裝置一道,成為催生現代AI的三大關鍵基石之一。正因如此,我在史丹佛大學的學術實驗室在過去十年裡,始終致力於將電腦視覺與機器人學習相結合。也正因如此,一年多前,我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall共同創立了World Labs:旨在首次將這一可能性淋漓盡致地變為現實。World Labs創始人團隊,左起依次為Ben Mildenhall、Justin Johnson、Christoph Lassner和李飛飛在本文中,我將闡釋何為空間智能、其重要性何在,以及我們如何建構能夠解鎖它的「世界模型」——其深遠影響將重塑創意、具身智能與人類的進步。空間智能:人類認知的基石人工智慧的發展從未如此激動人心。像大語言模型這樣的生成式AI已經從實驗室走向日常生活,成為數十億人創意、生產力和溝通的工具。它們展現了曾被認為遙不可及的能力,能輕鬆生成連貫的文字、浩如煙海的程式碼、逼真的圖像,乃至短影片片段。AI是否會改變世界已不再是疑問。無論以何種合理的標準衡量,它都已然做到了。然而,仍有太多領域是我們力所不及的。自主機器人的願景雖引人入勝,卻仍停留在理論層面,遠未成為未來學家們長期許諾的日常必需品。在疾病治療、新材料發現和粒子物理學等領域實現研究處理程序大飛躍的夢想,在很大程度上仍未實現。而AI真正理解並賦能人類創作者的承諾——無論是幫助學生理解分子化學的複雜概念,協助建築師構想空間,支援電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也依然遙不可及。要理解為何這些能力仍難以實現,我們需要審視空間智能的演化歷程,以及它如何塑造我們對世界的認知。視覺長久以來都是人類智能的基石,但其力量源於某種更為根本的能力。遠在動物學會築巢、哺育後代、用語言交流或建立文明之前,感知這一簡單的行為就已悄然點燃了通往智能的進化火花。這種從外部世界(無論是一縷微光還是一絲觸感)收集資訊的看似孤立的能力,在感知與生存之間架起了一座橋樑,並隨著代代繁衍而愈發堅固和精巧。層層疊疊的神經元從這座橋樑上生長出來,形成了能夠解讀世界並協調生物體與環境互動的神經系統。因此,許多科學家推斷,感知與行動的循環成為驅動智能進化的核心動力,也是自然界創造出我們人類——這一集感知、學習、思考與行動於一體的終極造物——的根基。空間智能在定義我們如何與物理世界互動方面扮演著至關重要的角色。每一天,我們都依賴它來完成最平凡的舉動:通過想像保險槓與路緣之間不斷縮小的間隙來停放汽車,接住拋過房間的一串鑰匙,在擁擠的人行道上穿行而避免碰撞,或是在睡眼惺忪中不看一眼便將咖啡倒入杯中。在更極端的情況下,消防員在濃煙瀰漫、搖搖欲墜的建築中穿行,對結構的穩定性和自身的生存在瞬間做出判斷,並通過手勢、肢體語言和一種無可替代的職業直覺進行交流。而嬰幼兒則在學會說話前的整段歲月裡,通過與環境的嬉戲互動來認知世界。所有這一切都發生得如此直觀、自然——這是機器尚未能企及的自如與嫻熟。空間智能同樣是我們想像力與創造力的基石。故事講述者在腦海中創造出異常豐富的世界,並利用從古老的洞穴壁畫到現代電影,再到沉浸式視訊遊戲等多種視覺媒介,將這些世界呈現給他人。無論是孩童在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,基於空間的想像力構成了真實或虛擬世界中互動體驗的基礎。在眾多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生,再到機器人訓練等無數關鍵商業用例提供了動力。歷史上充滿了由空間智能扮演核心角色的、定義文明處理程序的時刻。在古希臘,埃拉托色尼將光影轉化為幾何學——在太陽直射賽伊尼城的同一時刻,於亞歷山大港測得7度的夾角——從而計算出地球的周長。哈格里夫斯的「珍妮紡紗機」憑藉一個空間洞見徹底改變了紡織業:將多個紡錘並排置於同一框架內,使得一名工人能同時紡織多根紗線,生產效率提升了八倍。沃森和克里克通過親手搭建3D分子模型發現了DNA的結構,他們不斷擺弄金屬板和金屬絲,直至鹼基對的空間排列「咔噠」一聲完美契合。在每一個案例中,當科學家和發明家需要操控物體、構想結構、推理物理空間時,空間智能都推動了文明的進步——而這些,都非文字所能單獨承載。空間智能是我們認知賴以建構的基石。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理與規劃,即便是面對最抽象的議題。它對於我們互動的方式——無論是口頭還是肢體,與同伴還是與環境本身——都至關重要。雖然我們大多數人並非每天都能像埃拉托色尼那樣揭示新的宇宙真理,但我們日常的思考方式與他並無二致——通過感官感知複雜的世界,再利用一種對物理、空間運作方式的直觀理解來賦予其意義。不幸的是,今天的AI還不能這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLM)除了文字資料外,還用大量的多媒體資料進行訓練,引入了一些基本的空間意識,今天的AI可以分析圖片、回答關於圖片的問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人可以在高度受限的環境中開始操縱物體和工具。然而,坦率的真相是,AI的空間能力仍遠未達到人類水平,其侷限性很快便會暴露無遺。在估算距離、方向和尺寸,或通過從新角度生成圖像來進行物體的「心理旋轉」等任務上,最先進的MLLM模型的表現鮮有超過隨機猜測的。它們無法走出迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——儘管初露鋒芒,且的確酷炫——通常在幾秒鐘後便會失去連貫性。雖然當前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但這些模型在表徵或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體性的——不僅僅是眼前所見,還包括萬物在空間上的相互關聯、其意義以及其重要性。通過想像、推理、創造和互動——而不僅是描述——來理解這一切,正是空間智能的力量所在。若無此能力,AI便與它試圖理解的物理現實脫節。它將無法有效地駕駛我們的汽車,引導家中的機器人或醫院的護理機器人,也無法為學習和娛樂開啟全新的沉浸式互動體驗,更無法加速材料科學和醫學領域的探索發現。哲學家維特根斯坦曾寫道:「我語言的極限,意味著我世界的極限。」我不是哲學家,但我深知,至少對AI而言,世界遠不止於文字。空間智能代表了超越語言的前沿——它是一種將想像、感知與行動融會貫通的能力,為機器真正提升人類生活開啟了無限可能,從醫療健康到創意揮灑,從科學探索到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的AI?如何才能打造出能夠像埃拉托色尼一樣洞察深遠、像工業設計師一樣精雕細琢、像故事講述家一樣天馬行空,並像急救人員一樣敏捷自如地與環境互動的模型?建構具備空間智能的AI需要比大語言模型更為宏大的構想:世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠非今日的LLM所能企及。不過,這一領域尚處萌芽階段,當前方法涵蓋了從抽象推理模型到視訊生成系統的各種探索。World Labs正是基於這一信念於2024年初創立的:基礎方法尚在建立之中,而這將成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的基本原則。對於空間智能,我通過三大核心能力來定義世界模型:1. 生成式:世界模型能生成在感知、幾何和物理層面保持一致的世界能解鎖空間理解與推理能力的世界模型,也必須能生成屬於自己的模擬世界。它們必須能夠生成無窮無盡、千變萬化的模擬世界,這些世界遵循語義或感知指令,同時在幾何、物理和動態層面保持一致性——無論其表徵的是真實空間還是虛擬空間。研究界正在積極探索,這些世界固有的幾何結構應該被隱式表徵還是顯式表徵。此外,我相信,除了強大的潛在表徵,一個通用的世界模型的輸出還必須能為眾多不同的用例生成一個顯式的、可觀察的世界狀態。尤其重要的是,它對當前狀態的理解必須與其過去——即導致當前狀態的先前世界狀態——連貫地聯絡在一起。2. 多模態:世界模型在設計上是多模態的正如動物與人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域,這被稱為「提示詞」。在給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——的情況下,世界模型應能預測或生成儘可能完整的世界狀態。這要求它既能以真實視覺的保真度處理視覺輸入,又能同樣自如地解讀語義指令。這使得智能體和人類都能通過多樣化的輸入與模型與世界進行交流,並反過來接收多樣化的輸出。3. 互動性:世界模型能根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是給予世界模型的提示詞的一部分,那麼其輸出必須包含世界的下一個狀態,無論是隱式還是顯式表徵。當僅給定一個動作(無論是否包含目標狀態)作為輸入時,世界模型產生的輸出必須與世界先前的狀態、任何預設的目標狀態、其語義含義、物理定律以及動態行為保持一致。隨著具備空間智能的世界模型在推理和生成能力上變得日益強大和穩健,可以想見,在給定目標的情況下,世界模型本身將不僅能預測世界的下一個狀態,甚至還能基於新狀態預測出下一步的動作。這項挑戰的廣度與深度,超越了AI以往所面對的任何課題。語言是人類認知中純粹的生成現象,而世界則遵循著遠為複雜的規則。例如,在地球上,引力支配運動,原子結構決定光如何產生色彩與亮度,無數物理定律約束著每一次互動。即便是最天馬行空的創意世界,也由遵循其自身物理定律和動態行為的空間物體與智能體構成。要將這一切——語義、幾何、動態與物理——持續一致地調和起來,需要全新的方法論。表徵一個世界的維度,遠比像語言這樣的一維、順序訊號複雜得多。要實現能提供如人類般通用能力的世界模型,需要克服若干嚴峻的技術壁壘。在World Labs,我們的研究團隊正致力於朝此目標取得根本性的進展。以下是我們當前研究課題的一些示例。· 一種新的、通用的訓練任務函數:定義一個像LLM中「預測下一個token」一樣簡潔而優雅的通用任務函數,長久以來都是世界模型研究的核心目標。由於其輸入和輸出空間的複雜性,這種函數的建構本質上更加困難。儘管仍有待探索,但這個目標函數及相應的表徵必須能反映幾何與物理定律,尊重世界模型作為想像與現實之根基表徵的本質。· 大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源業已存在。網際網路規模的圖像和視訊集是豐富且易於獲取的訓練材料——挑戰在於開發能夠從這些二維圖像或視訊幀訊號(即RGB)中提取更深層次空間資訊的演算法。過去十年的研究已證明了語言模型中資料量與模型大小之間的「規模定律」的力量;世界模型的關鍵突破在於建構能夠以相當規模利用現有視覺資料的架構。此外,我絕不會低估高品質合成資料以及深度、觸覺資訊等額外模態的力量。它們在訓練過程的關鍵階段對網際網路規模的資料形成了重要補充。但前路漫漫,這有賴於更好的感測器系統、更穩健的訊號提取演算法以及遠為強大的神經模擬方法。· 新的模型架構與表徵學習:世界模型的研究將不可避免地推動模型架構與學習演算法的進步,尤其是在當前MLLM和視訊擴散範式之外。這兩種範式通常將資料「token化」為一維或二維序列,這使得一些簡單的空間任務變得異常困難——例如,計算一個短影片中不重複的椅子數量,或者記住一個小時前房間的樣貌。替代性架構或可助一臂之力,例如具備三維或四維感知能力的token化、上下文和記憶方法。例如,在World Labs,我們近期關於一個名為RTFM的即時生成性幀基模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時在生成的世界中保持持久性。顯然,在我們能夠通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰。這項研究不僅是一次理論演練,它是一類新型創意與生產力工具的核心引擎。而World Labs內部的進展令人鼓舞。我們最近向少數使用者展示了Marble的一瞥——這是首個能夠通過多模態輸入提示,來生成並維持一致三維環境的世界模型,供使用者和故事講述者在其創意工作流中進行探索、互動和進一步建構。我們正努力使其盡快向公眾開放!Marble只是我們創造真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新層面上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺失的核心能力。用世界模型為人類建構一個更美好的世界是什麼在激勵AI的發展?這一點至關重要。作為協助開啟現代AI時代的科學家之一,我的動機始終明確:AI必須增強人類的能力,而非取而代之。多年來,我一直致力於使AI的開發、部署和治理與人類的需求相契合。如今,關於技術烏托邦和末日論的極端敘事甚囂塵上,但我始終持有一種更務實的觀點:AI由人開發,為人所用,由人治理。它必須始終尊重人的能動性與尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、聯絡更緊密、效率更高、生活更充實。空間智能正是這一願景的體現——AI賦能人類的創作者、照護者、科學家和夢想家,去實現曾經的不可能。這一信念,是我將空間智能作為AI下一個偉大前沿並為之奮鬥的動力。空間智能的應用橫跨不同的時間尺度。創意工具正不斷湧現——World Labs的Marble項目已經將這些能力交到了創作者和故事講述者的手中。隨著我們不斷完善感知與行動之間的閉環,機器人技術將是雄心勃勃的中期目標。而最具變革性的科學應用雖然需要更長時間,但有望對人類的福祉產生深遠影響。在所有這些時間尺度上,有幾個領域因其重塑人類能力的潛力而格外突出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。具體來說,它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,乃至政策制定者——共同為實現一個共享的願景而努力。但這個願景值得我們去追求。以下是這個未來所蘊含的圖景:創造力:為故事敘述和沉浸式體驗注入超凡動力「創造力是智力在享受樂趣。」這是我最喜歡的 愛因斯坦名言之一。早在書面語言出現之前,人類就已開始講述故事——將其描繪於洞穴岩壁,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義的方式,最重要的是,在生活中找到意義,在內心發現愛。今天,空間智能有潛力改變我們創造和體驗敘事的方式,既尊重其根本的重要性,又將其影響力從娛樂延伸至教育,從設計延伸至建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速創造和迭代完全可探索的三維世界,而無需傳統三維設計軟體的沉重負擔。創造行為本身依然如故,充滿人性的活力;AI工具只是放大和加速了創作者所能達成的成就。這包括:新維度的敘事體驗:電影製作人和遊戲設計師正使用Marble憑空創造出整個世界,不受預算或地理位置的限制,探索在傳統製作流程中難以企及的各種場景和視角。隨著不同形式的媒體與娛樂之間的界限日益模糊,我們正在接近一種全新的互動體驗,它融合了藝術、模擬與遊戲——個性化的世界,其中任何人,而不僅是工作室,都可以創造並沉浸在自己的故事中。隨著將概念和故事板轉化為完整體驗的更新、更快捷的方式的出現,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線的大千世界。通過設計的空間敘事:幾乎每一個製造的物體或建造的空間,在其實體化之前都必須在虛擬三維環境中進行設計。這個過程在時間和金錢上都高度迭代且成本高昂。有了具備空間智能的模型,建築師可以快速構想結構,而無需投入數月時間進行設計,他們可以在尚未存在的空間中漫步——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業設計師和時裝設計師可以瞬間將想像轉化為形態,探索物體如何與人體和空間互動。新的沉浸式和互動體驗:體驗本身是我們作為一個物種創造意義的最深層方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同生活的物理世界。僅在近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始一窺我們自己創造的替代世界是何種滋味。現在,空間智能與新的裝置形態(如VR和擴展現實(XR)頭顯及沉浸式顯示器)相結合,以前所未有的方式提升了這些體驗。我們正在接近一個未來,屆時,步入一個完全實現的多維世界將像翻開一本書一樣自然。空間智能讓世界建構不再是擁有專業製作團隊的工作室的專利,而是個人創作者、教育工作者以及任何有願景希望分享的人都能觸及的能力。機器人技術:具身智能在行動從昆蟲到人類,動物都依賴空間智能來理解、導航並與它們的世界互動。機器人也不例外。自誕生之日起,具備空間意識的機器就一直是該領域的夢想,這其中也包括我與我在史丹佛研究實驗室的學生及合作者們的工作。這也是為何我如此興奮,期待能用World Labs正在建構的這類模型將這一夢想變為現實。通過世界模型規模化機器人學習:機器人學習的進展取決於一個可擴展的、可行的訓練資料解決方案。考慮到機器人必須學習去理解、推理、規劃和互動的狀態空間極其龐大,許多人推測,需要結合網際網路資料、合成模擬以及對真實世界人類演示的捕捉,才能真正創造出具備泛化能力的機器人。但與語言模型不同,當今的機器人研究缺乏訓練資料。世界模型將在此扮演決定性角色。隨著它們在感知保真度和計算效率上的提升,世界模型的輸出可以迅速彌合模擬與現實之間的鴻溝。這反過來將有助於在無數的狀態、互動和環境模擬中訓練機器人。伴侶與協作者:機器人作為人類的協作者——無論是在實驗室工作台上協助科學家,還是在家中幫助獨居老人——都可以在急需更多勞動力和生產力的領域擴展我們的勞動力。但這需要具備感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情式的對齊。例如,一個實驗室機器人可以處理儀器,讓科學家能專注於需要精細操作或推理的任務;而一個家庭助理則可以幫助一位老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態,甚至可能預測出符合這種期望的下一步動作的、真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身形式:人形機器人在我們為自己建構的世界中扮演著一定角色。但創新的全部益處將來自更多樣化的設計:輸送藥物的奈米機器人、在狹小空間中穿行的軟體機器人,以及為深海或外太空打造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知與運動。但開發這些機器人的一個關鍵挑戰是,在這些五花八門的具身形態上缺乏訓練資料。世界模型將在模擬資料、訓練環境和基準測試任務等方面為這些努力發揮關鍵作用。更長遠的圖景:科學、醫療與教育除了創意和機器人應用,空間智能的深遠影響還將延伸至那些能以拯救生命、加速發現的方式增強人類能力的領域。我下面重點介紹三個可能帶來深刻變革的應用領域,當然,空間智能的用例在更多行業中同樣是廣闊無垠的。在科學研究中,具備空間智能的系統可以模擬實驗、平行測試假設,並探索人類無法觸及的環境——從深邃的海洋到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界的資料收集相結合,這些工具可以降低計算門檻,擴展每個實驗室所能觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床邊的每一個環節。在史丹佛,我的學生和合作者多年來一直與醫院、養老院以及居家患者合作。這段經歷讓我堅信空間智能在此處的變革潛力。AI可以通過在多維空間中建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中識別模式來提升診斷水平,並能實現環境監測系統,在不取代治癒所必需的人類情感聯結的前提下,為患者和照護者提供支援。更不用說機器人在眾多不同場景下幫助我們的醫護人員和患者的巨大潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得觸手可及,並創造出對我們大腦和身體學習方式至關重要的迭代式體驗。在AI時代,更快、更有效的學習和技能再培訓對於學齡兒童和成年人都尤為重要。學生可以在多維空間中探索細胞的運作機制或親歷歷史事件。教師可以利用互動環境獲得個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:AI增強人類的專業知識,加速人類的發現,並放大人類的關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結 論過去十年見證了AI成為一種全球現象,以及技術、經濟乃至地緣政治的轉折點。但作為一名研究者、教育者,如今又是一名創業者,最能激勵我的,仍然是圖靈75年前提出的那個問題背後的精神。我依然懷有他那份好奇與驚嘆。正是這種感覺,每天都激勵著我迎接空間智能的挑戰。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於在我們面臨的最嚴峻挑戰中,可以將它們視為真正的夥伴。無論是加速我們對實驗室中疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻給予支援,我們都正處在一項新技術的風口浪尖,這項技術將提升我們最珍視的生活的方方面面。這是一個更深刻、更豐富、更強大的生活願景。在大自然於遠古動物身上釋放出第一縷空間智能的近五億年後,我們有幸成為可能很快就能賦予機器同樣能力的這一代技術專家中的一員——並有幸利用這些能力為世界各地的人們謀福祉。我們關於真正智慧型手機器的夢想,沒有空間智能是不完整的。這項探索,就是指引我的北極星。我邀請你與我同行。 (新智元)
“AI教母”李飛飛發佈長文,引爆矽谷
昨日晚間,“AI教母”李飛飛發佈了一篇長文,引爆了矽谷的討論。這篇名為《從語言到世界:空間智能是AI的下一個前沿》的文章,解釋了空間智能和世界模型的關係,以及空間智能的應用範圍和所處階段。文章裡,李飛飛提出了“真正具有空間智能的世界模型”必須具備的三個核心能力:生成、多模態、互動。她還分享了World Labs在新一代任務函數、資料、模型架構與學習表示上面的進展,以及世界模型在創造力、機器人,甚至科學、醫療和教育等領域的潛力。她指出,除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。比如在醫療領域,李飛飛認為,空間智能將重塑從實驗室到病床的全過程。她表示,AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。再如教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。她指出,在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。以下為原文:從文字到世界:空間智能是AI的下一個前沿1950年,當電腦還只是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴蕩的問題:機器能思考嗎?他能看到別人尚未看到的未來,需要非凡的想像力——那就是:智能或許有一天可以被“建構”,而非“誕生”。這一洞見催生了一場持續至今的科學征程——人工智慧(AI)。在我投身AI研究的25年中,圖靈的願景依然不斷啟發著我。但我們距離那一願景有多近?答案並不簡單。今天,以大語言模型(LLM)為代表的前沿AI技術,已經開始改變人類獲取與處理抽象知識的方式。 然而,它們仍然是“黑暗中的文字匠”:能言善辯,卻無經驗;知識豐富,卻缺乏根基。空間智能(spatial intelligence)將改變我們創造和互動現實與虛擬世界的方式——徹底革新敘事、創造力、機器人學、科學發現,以及更多領域。這,正是AI的下一個前沿。自我進入這一領域以來,對視覺與空間智能的探索就一直是我的“”。這也是我為何花費多年時間建構了 ImageNet——首個大規模視覺學習與評測資料集。它與神經網路演算法、現代算力(如GPU)一道,成為孕育現代AI的三大關鍵要素。也是為何我的史丹佛實驗室在過去十年中,將電腦視覺與機器人學習相結合。同樣,這也是我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall一年前共同建立 World Labs的原因:為了第一次真正實現這一可能性。在這篇文章中,我將解釋什麼是空間智能、為什麼它重要、以及我們如何建構能夠解鎖它的“世界模型(world models)”——這種技術將深刻重塑創造力、具身智能與人類進步。空間智能:人類認知的腳手架AI從未像今天這樣令人振奮。以生成式AI為代表的模型,如LLM,已從研究室走向日常生活,成為數十億人創作、生產與交流的工具。它們展示了曾被認為不可能的能力:生成連貫的文字、成山的程式碼、逼真的圖像,甚至短影片。AI是否會改變世界?——從任何合理的定義來看,它已經做到了。然而,仍有大量潛能未被觸及。自動化機器人的願景依然誘人卻遙遠;在疾病治療、新材料發現、粒子物理等領域的研究加速夢仍未實現;真正能夠理解並賦能人類創作者的AI,無論是學習複雜分子化學概念的學生、構想空間的建築師、建構世界的電影人,還是任何希望沉浸於虛擬體驗中的人都仍未到來。要理解為何這些能力依舊難以實現,我們需要回溯:空間智能是如何演化的?它又如何塑造了我們理解世界的方式?視覺長期以來是人類智能的基石,但它的力量源自更為根本的東西。早在動物能築巢、撫育後代、用語言交流或建立文明之前,那看似簡單的“感知行為”:感受到一縷光、觸到一種質感就已經悄然點燃了通向智能的進化旅程。這種從外部世界汲取資訊的能力,在感知與生存之間搭建起一座橋樑,而這一橋樑在漫長的進化中變得愈發複雜。神經元層層疊加,形成能解釋世界、協調生物與環境互動的神經系統。因此,許多科學家認為,“感知—行動”循環成為了智能進化的核心機制,也是自然孕育出我們這個物種的根基——一個能感知、學習、思考與行動的終極存在。空間智能在我們與物理世界的互動中扮演著基礎性的角色。每天,我們都在依賴它完成最平常的動作。停車時想像車尾與路緣的距離;接住被拋來的鑰匙;在人群中穿行而不碰撞;半睡半醒間精準地將咖啡倒進杯中。在極端情況下,消防員穿行於坍塌建築與濃煙之中,瞬間判斷穩定性與生死抉擇,通過肢體語言和本能默契溝通——這些都無可言傳。而嬰兒則在學會語言前的漫長時光裡,通過玩耍與環境互動來認識世界。這一切都在直覺中、自然而然地發生——一種機器至今未能獲得的流暢能力。空間智能同樣是我們想像力與創造力的基石。講故事的人在腦中建構出豐富的世界,並用各種視覺媒介將之傳達給他人。從原始洞穴壁畫,到現代電影,再到沉浸式電子遊戲。無論是孩子在沙灘上築城堡,還是在電腦上玩《我的世界》,這種以空間為根基的想像構成了人與虛擬世界互動體驗的基礎。而在工業應用中,對物體、場景與動態互動環境的模擬則支撐著從工業設計、數字孿生到機器人訓練等無數關鍵場景。歷史上那些塑造文明的關鍵時刻中,空間智能往往扮演著核心角色。在古希臘,埃拉托色尼(Eratosthenes)通過對陰影的幾何化思考完成了驚人的壯舉——他在亞歷山大測得太陽影子形成的7度角,並與賽恩(Syene)“正午無影”的現象進行對比,從而計算出了地球的周長。哈格里夫斯(Hargreaves)發明的“珍妮紡紗機”同樣源於空間洞察:他意識到只需將多個紡錘並列安裝在一個機架上,一個工人就能同時紡出多股線,生產效率因此提高了八倍。沃森(Watson)與克里克(Crick)揭示DNA結構的突破,也依賴於他們親手搭建的三維分子模型——他們用金屬板與鐵絲不斷調整、拼接,直到鹼基對的空間排布完美契合。在這些案例中,空間智能都推動了文明的進步——當科學家與發明家需要操縱物體、想像結構、在物理空間中推理時,這些能力是純文字永遠無法承載的。空間智能(Spatial Intelligence)是支撐人類認知的腳手架。無論是被動觀察,還是主動創造,它都在默默發揮作用。它驅動我們的推理與規劃,即便是在最抽象的主題上。它同樣塑造了我們與世界互動的方式——無論是語言交流,還是身體行動,無論是與他人,還是與環境本身。雖然我們大多數人並不會每天像埃拉托色尼那樣發現新的真理,但我們幾乎時時刻刻都以同樣的方式在思考通過感官去理解這個複雜世界,並依託對物理與空間規律的直覺認知,使其變得可理解。遺憾的是,當今的AI還無法以這樣的方式思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLMs),在文字之外又引入了大量多媒體資料進行訓練,初步具備了空間感知能力:它們可以分析圖像、回答與之相關的問題,甚至生成超寫實的圖像與短影片。與此同時,借助感測器與觸覺技術的突破,最先進的機器人已經能在嚴格受限的環境中開始操控物體與工具。然而,坦率地說,AI的空間能力依然遠未接近人類水平。其侷限也顯而易見:最先進的MLLM在估計距離、方向、大小等任務上,表現往往不比隨機猜測好多少;它們無法“心智旋轉”物體——即從新角度再現同一對象的形狀;不會在迷宮中導航、識別捷徑,或預測基本的物理規律;生成的視訊雖然新奇炫目,卻常在幾秒鐘後失去連貫性。如今的頂級AI擅長閱讀、寫作、檢索與模式識別,但當涉及對物理世界的表徵或互動時,卻存在根本性侷限。我們人類理解世界的方式是整體性的:不僅僅看到“眼前的東西”,還理解它們在空間上的關係、在語義上的意義、以及在現實中的重要性。而這種通過想像、推理、創造與互動來理解世界的能力,正是空間智能的力量。缺乏它,AI就與它所試圖理解的物理現實脫節。它將無法真正安全地駕駛汽車、無法在家庭與醫院中引導機器人、無法創造全新的沉浸式學習與娛樂體驗、也無法加速材料科學與醫學的發現。哲學家維特根斯坦曾寫道:“語言的邊界就是我世界的邊界”。我不是哲學家,但我知道,對AI而言,世界不止於語言。空間智能代表著超越語言的前沿。它連接想像、感知與行動,為機器真正提升人類生活打開了新的可能:從醫療到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何打造擁有空間智能的AI?如何讓模型具備:像埃拉托色尼那樣的空間推理能力,像工業設計師那樣的工程精度,像講故事的人那樣的創造性想像力,以及像應急救援人員那樣與環境流暢互動的能力?要實現這樣的AI,我們需要比LLM更具雄心的體系:世界模型(World Models)。這是一種全新的生成式模型,其在理解、推理、生成與互動方面的能力,將超越當今LLM所能觸及的極限。它能夠在語義、物理、幾何與動態層面上,理解並生成複雜的虛擬或真實世界。這一領域尚處於萌芽階段,現有方法從抽象推理模型到視訊生成系統不等。World Labs成立於2024年初,正是基於這樣一種信念:基礎性方法仍在形成之中,而這將成為未來十年人工智慧的決定性挑戰。在這個新興領域中,最重要的是確立指導發展方向的核心原則。對於空間智能而言,我將“世界模型”定義為具備以下三項核心能力的系統:1、生成性(Generative):世界模型能夠生成具有感知、幾何與物理一致性的世界要實現空間理解與推理,世界模型必須能夠生成自身的模擬世界。它應能在語義或感知指令的引導下,生成無限多樣、變化豐富的虛擬世界,同時保持幾何、物理與動態上的一致性,無論這些世界是現實的還是虛擬的。研究界目前正在探索,這些世界應當以隱式(implicit)還是顯式(explicit)的幾何結構形式表示。除了強大的潛在表徵(latent representations)之外,我認為通用世界模型的輸出還應當允許生成顯式、可觀測的世界狀態,以便適應不同的應用場景。尤其重要的是,模型對當下世界的理解必須與其過去的狀態保持連貫一致——理解當前,就是理解它是如何演化而來的。2、多模態(Multimodal):世界模型在設計上就是多模態的正如人類與動物一樣,世界模型應能處理多種形式的輸入。在生成式AI領域中,這些輸入被稱為“提示詞(prompts)”。面對不完整的資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作,世界模型都應能預測或生成儘可能完整的世界狀態。這要求模型既要以真實視覺的精度處理圖像輸入,又能以同樣的靈活性理解語義性指令。如此一來,無論是智能體還是人類,都能通過多樣的輸入形式與模型就“世界”進行交流, 並以多樣的方式接收輸出。3、互動性(Interactive):世界模型能根據輸入動作輸出下一個狀態最後,當動作(actions)和/或目標(goals)作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一個狀態。這一狀態可以是隱式的,也可以是顯式的。當輸入僅包含一個動作(有無目標皆可)時,世界模型應能生成與世界先前狀態、預期目標狀態(如有)、以及其語義意義、物理規律、動態行為相一致的輸出。隨著空間智能世界模型在推理與生成能力上不斷增強,我們可以想像,未來模型不僅能預測世界的下一個狀態,還將能夠基於該狀態預測下一步行動。這一挑戰的規模,超越了AI以往所面臨的一切。語言是人類認知中純粹生成的現象,而“世界”遵循的規則則複雜得多。在地球上,例如:重力決定運動,原子結構決定光的顏色與亮度,無數物理定律約束著一切互動。即使是最奇幻、最具創造性的世界,也由遵守物理與動態規律的空間對象與智能體構成。要在模型中一致地協調這些——語義、幾何、動力學與物理層面——需要全新的方法論。因為“世界”的維度遠比語言這種一維的序列訊號複雜得多。要實現像人類一樣具備普適空間智能的世界模型,必須跨越若干巨大的技術壁壘。在World Labs,我們的研究團隊正致力於這一目標的基礎性突破。以下是我們當前研究的幾個方向示例:一種新的通用訓練任務函數:在世界模型研究中,一個長期目標是定義一種像LLM中“下一個token預測”一樣簡潔優雅的通用任務函數。然而,世界模型輸入與輸出空間的複雜性使這一函數的設計更加困難。儘管仍有大量探索空間,但這一目標函數及其對應表徵必須符合幾何與物理規律,忠實體現世界模型在想像與現實之間的“落地表徵”本質。大規模訓練資料:訓練世界模型所需的資料遠比文字複雜。好消息是我們已經擁有了龐大的資料資源。網際網路上規模宏大的圖像與視訊集合為訓練提供了豐富的素材。挑戰在於:如何讓演算法從二維圖像或視訊幀(RGB)中提取更深層次的空間資訊。過去十年的研究揭示了語言模型中資料量與模型規模的scaling law;對於世界模型,關鍵在於建構能夠在相似規模上有效利用視覺資料的架構。此外,高品質的合成資料以及額外模態(如深度、觸覺)的作用不可低估,它們在訓練過程的關鍵階段起到補充作用。未來的發展取決於更先進的感測系統、更穩健的訊號提取演算法、以及更強大的神經模擬方法。新的模型架構與表徵學習:世界模型研究將不可避免地推動模型架構與學習演算法的革新,特別是超越當下的多模態LLM與視訊擴散模型(video diffusion)。這些模型通常將資料編碼為一維或二維序列,使得簡單的空間任務,例如在短影片中數清不同的椅子,或記住一小時前房間的樣子變得異常困難。新的架構思路或許能改進這一點,例如具備3D或4D感知能力的token化、上下文與記憶機制。例如,在World Labs,我們最近開發了一種基於幀的即時生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空間為基礎的幀(spatially-grounded frames)作為空間記憶形式,實現了高效即時生成的同時,保持了生成世界的持續性與一致性。顯然,在完全釋放空間智能的潛力之前,我們仍面臨艱巨的挑戰。但這項研究不僅僅是理論工作,它正成為新一代創造性與生產力工具的核心引擎。在World Labs的進展令人鼓舞。我們最近向部分使用者展示了Marble的早期版本——全球首個可通過多模態輸入生成並保持一致性3D環境的世界模型,讓使用者與創作者能夠探索、互動並在其中繼續建構他們的創意世界。我們正全力以赴,努力盡快將其向公眾開放。Marble只是我們的第一步。隨著研究的加速,科研人員、工程師、使用者與商業領袖們都開始意識到這一方向的巨大潛能。下一代世界模型將使機器在空間智能上達到全新的層次,這將開啟AI迄今仍普遍缺乏的核心能力,並真正讓人工智慧進入理解與創造世界的時代。用世界模型為人類建構更美好的世界人工智慧的發展動機至關重要。作為推動現代AI時代到來的科學家之一,我的動機始終十分明確:AI應當增強人類的能力,而非取而代之。多年來,我一直致力於讓AI的開發、部署與治理與人類需求保持一致。當下關於“技術烏托邦”與“世界末日”的極端敘事比比皆是,但我依然持一種更務實的立場:AI是由人開發、被人使用、並由人治理的。它必須始終尊重人的自主性與尊嚴。它的“魔力”在於拓展我們的能力,讓我們變得更具創造力、更緊密相連、更高效並更有成就感。空間智能正體現了這一願景——一種能賦能人類創造者、照護者、科學家與夢想家的AI,使他們實現曾經不可能的目標。這一信念,正是我將空間智能視為AI下一個偉大前沿領域的根本原因。空間智能的應用橫跨不同的時間尺度。創作工具正在當下出現——World Labs的 Marble 已經讓創作者與講故事的人能夠親手掌握這種能力。機器人領域則代表著中期的雄心目標,我們正致力於完善感知與行動之間的閉環。而最具變革意義的科學應用可能需要更長時間,但它們將深刻地促進人類的福祉。在所有時間線中,有幾個領域的潛力尤其突出,足以重塑人類的能力。要實現這些潛力,需要集體努力遠超任何一個團隊或公司的能力範圍。它需要整個AI生態系統的參與:研究者、創新者、創業者、企業家,乃至政策制定者,共同朝著一個願景努力。而這個願景,值得我們追求。以下是未來的圖景:創造力:為敘事與沉浸體驗注入超能力“創意,是智慧的樂趣。”這是我最喜歡的愛因斯坦名言之一。在人類發明文字之前,我們就會講故事——把故事畫在洞穴壁上,代代相傳,並以共享的敘事建立文化。故事是人類理解世界、跨越時空連接彼此、探索“人之為人”的方式,也是我們在生活與愛中尋找意義的途徑。今天,空間智能有潛力徹底變革我們創作與體驗敘事的方式,從娛樂到教育,從設計到建造,賦予它們更深遠的影響力。World Labs的Marble平台 將前所未有的空間表達能力與編輯控制權交到電影人、遊戲設計師、建築師及各類講述者手中,讓他們無需傳統3D設計軟體的繁複流程,就能快速創造、迭代、探索完整的三維世界。創造的行為依然是人類的核心活動——AI只是放大並加速創意實現的過程。這包括:多維敘事體驗:電影人和遊戲設計師可以利用Marble 建構整個世界,不受預算或地理限制,探索傳統製作流程中無法實現的場景與視角。隨著媒介與娛樂的界限模糊化,我們正接近一種全新的互動體驗形態——融合藝術、模擬與遊戲的個性化世界,讓任何人(而不僅僅是大型工作室)都能創造並進入自己的故事。以設計講述空間故事:幾乎所有被製造的物品或建造的空間,都必須在物理實現之前經過虛擬3D設計——這一過程往往耗費大量時間與成本。借助空間智能模型,建築師可以在數分鐘內可視化並漫遊尚不存在的建築;工業或時裝設計師可以即時將想像轉化為形態,探索物體與人體及空間的互動。全新的沉浸與互動體驗:人類體驗的最深層方式之一,就是創造意義的體驗本身。在整個人類歷史上,我們只共享一個三維世界:物理世界。直到近幾十年,通過遊戲與早期虛擬現實(VR),我們才得以初步窺見“自造世界”的可能。如今,空間智能結合VR、XR(擴展現實)頭顯與沉浸式顯示裝置,將這種體驗提升到前所未有的高度。未來,人們“走進”多維世界將如同打開一本書般自然。空間智能讓造世界的權力從專業團隊擴展到每一位擁有願景的創作者、教育者與普通人。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航並與世界互動。機器人也不會例外。自該領域誕生以來,“具備空間感知的機器”就是人類的夢想,包括我在史丹佛研究實驗室與學生、合作者共同進行的研究。正因如此,我對用 World Labs 建構的模型實現這一願景感到異常興奮。更長遠的地平線:科學、醫療與教育除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。以下我將重點介紹三個具有深刻變革潛力的方向。當然,空間智能的應用遠不止於此,它的影響範圍幾乎遍及所有行業。在科學研究中,具備空間智能的系統可以模擬實驗、平行驗證假設,並探索人類無法親臨的環境——從深海到遙遠的行星。這項技術有望徹底變革氣候科學、材料研究等領域的計算建模方式。通過將多維度模擬與真實世界資料採集相結合,這些工具能顯著降低計算壁壘,拓展每一個實驗室可觀察與理解的邊界。在醫療領域,空間智能將重塑從實驗室到病床的全過程。在史丹佛,我與學生及合作者多年來一直與醫院、養老機構以及居家患者合作。這些經驗讓我深信空間智能在醫療領域的變革潛力。AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。在教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。跨越這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結 語過去十年間,人工智慧已成為全球現象,在科技、經濟乃至地緣政治層面都帶來了轉折。然而,作為一名研究者、教育者和創業者,最令我振奮的仍是圖靈七十五年前那道問題背後的精神。我依然與他共享那份好奇與驚嘆——正是這份好奇,讓我每天都為探索空間智能的挑戰而充滿動力。人類歷史上第一次,我們正站在這樣一個時刻:有望建構出與物理世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。無論是加速疾病研究、革新故事敘述方式,還是在病痛、受傷或衰老的脆弱時刻給予支援,我們都正處於一場技術變革的門檻上,它將提升我們最珍視的生命價值。這是一個關於更深刻、更豐富、更有力量的生活的願景。距自然在原始動物中首次顯現空間智能的曙光已近五億年,而我們有幸成為這一代技術創造者——可能即將賦予機器同樣能力的人類,也有幸能將此能力用於全人類的福祉。若沒有空間智能,我們關於“真正智慧型手機器”的夢想將永遠不完整。這場探索,是我的“北極星”。邀請你一同追尋它。 (路邊消息社)
李飛飛最新長文火爆矽谷
空間智能,是AI的下一個前沿。剛剛,AI教母李飛飛發表長文,首次系統性地解釋了什麼空間智能、為什麼重要以及如何建構能夠解鎖它的世界模型。文章裡,李飛飛不僅提出了“真正具有空間智能的世界模型”必須具備的三個核心能力:生成(Generative):能創造遵守物理定律、空間一致的世界;多模態(Multimodal):能處理從圖像、視訊到動作的多模態輸入;互動(Interactive):能預測世界隨時間演變或互動的狀態。而且,還分享了World Labs在新一代任務函數、資料、模型架構與學習表示上面的進展,以及世界模型在創造力、機器人,甚至科學、醫療和教育等領域的潛力。一經發出,點贊者眾,瘋傳者廣,都成熱文熱搜趨勢了——將空間智能融入世界模型(LWMs)有望推動大語言模型(LLMs)實現下一次質的飛躍。一旦因果推理能力和能效達到相應水平,我們就將站在通往通用人工智慧的拐點上。好了,不多說了。接下來,我們一起看看李飛飛這篇從文字到世界(from words to worlds)的宣言吧。以下是全文:從文字到世界:空間智能是AI的下一個前沿1950年,當電腦還只是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴蕩的問題:機器能思考嗎?他能看到別人尚未看到的未來,需要非凡的想像力——那就是:智能或許有一天可以被“建構”,而非“誕生”。這一洞見催生了一場持續至今的科學征程——人工智慧(AI)。在我投身AI研究的25年中,圖靈的願景依然不斷啟發著我。但我們距離那一願景有多近?答案並不簡單。今天,以大語言模型(LLM)為代表的前沿AI技術,已經開始改變人類獲取與處理抽象知識的方式。 然而,它們仍然是“黑暗中的文字匠”:能言善辯,卻無經驗;知識豐富,卻缺乏根基。空間智能(spatial intelligence)將改變我們創造和互動現實與虛擬世界的方式——徹底革新敘事、創造力、機器人學、科學發現,以及更多領域。這,正是AI的下一個前沿。自我進入這一領域以來,對視覺與空間智能的探索就一直是我的“北極星”。這也是我為何花費多年時間建構了 ImageNet——首個大規模視覺學習與評測資料集。它與神經網路演算法、現代算力(如GPU)一道,成為孕育現代AI的三大關鍵要素。也是為何我的史丹佛實驗室在過去十年中,將電腦視覺與機器人學習相結合。同樣,這也是我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall一年前共同建立 World Labs的原因:為了第一次真正實現這一可能性。在這篇文章中,我將解釋什麼是空間智能、為什麼它重要、以及我們如何建構能夠解鎖它的“世界模型(world models)”——這種技術將深刻重塑創造力、具身智能與人類進步。空間智能:人類認知的腳手架AI從未像今天這樣令人振奮。以生成式AI為代表的模型,如LLM,已從研究室走向日常生活,成為數十億人創作、生產與交流的工具。它們展示了曾被認為不可能的能力:生成連貫的文字、成山的程式碼、逼真的圖像,甚至短影片。 AI是否會改變世界?——從任何合理的定義來看,它已經做到了。然而,仍有大量潛能未被觸及。自動化機器人的願景依然誘人卻遙遠;在疾病治療、新材料發現、粒子物理等領域的研究加速夢仍未實現;真正能夠理解並賦能人類創作者的AI,無論是學習複雜分子化學概念的學生、構想空間的建築師、建構世界的電影人,還是任何希望沉浸於虛擬體驗中的人都仍未到來。要理解為何這些能力依舊難以實現,我們需要回溯:空間智能是如何演化的?它又如何塑造了我們理解世界的方式?視覺長期以來是人類智能的基石,但它的力量源自更為根本的東西。早在動物能築巢、撫育後代、用語言交流或建立文明之前,那看似簡單的“感知行為”:感受到一縷光、觸到一種質感就已經悄然點燃了通向智能的進化旅程。這種從外部世界汲取資訊的能力,在感知與生存之間搭建起一座橋樑,而這一橋樑在漫長的進化中變得愈發複雜。神經元層層疊加,形成能解釋世界、協調生物與環境互動的神經系統。因此,許多科學家認為,“感知—行動”循環成為了智能進化的核心機制,也是自然孕育出我們這個物種的根基——一個能感知、學習、思考與行動的終極存在。空間智能在我們與物理世界的互動中扮演著基礎性的角色。每天,我們都在依賴它完成最平常的動作。停車時想像車尾與路緣的距離;接住被拋來的鑰匙;在人群中穿行而不碰撞;半睡半醒間精準地將咖啡倒進杯中。在極端情況下,消防員穿行於坍塌建築與濃煙之中,瞬間判斷穩定性與生死抉擇,通過肢體語言和本能默契溝通——這些都無可言傳。而嬰兒則在學會語言前的漫長時光裡,通過玩耍與環境互動來認識世界。這一切都在直覺中、自然而然地發生——一種機器至今未能獲得的流暢能力。空間智能同樣是我們想像力與創造力的基石。講故事的人在腦中建構出豐富的世界,並用各種視覺媒介將之傳達給他人。從原始洞穴壁畫,到現代電影,再到沉浸式電子遊戲。無論是孩子在沙灘上築城堡,還是在電腦上玩《我的世界》,這種以空間為根基的想像構成了人與虛擬世界互動體驗的基礎。而在工業應用中,對物體、場景與動態互動環境的模擬則支撐著從工業設計、數字孿生到機器人訓練等無數關鍵場景。歷史上那些塑造文明的關鍵時刻中,空間智能往往扮演著核心角色。在古希臘,埃拉托色尼(Eratosthenes)通過對陰影的幾何化思考完成了驚人的壯舉——他在亞歷山大測得太陽影子形成的7度角,並與賽恩(Syene)“正午無影”的現象進行對比,從而計算出了地球的周長。哈格里夫斯(Hargreaves)發明的“珍妮紡紗機”同樣源於空間洞察:他意識到只需將多個紡錘並列安裝在一個機架上,一個工人就能同時紡出多股線,生產效率因此提高了八倍。沃森(Watson)與克里克(Crick)揭示DNA結構的突破,也依賴於他們親手搭建的三維分子模型——他們用金屬板與鐵絲不斷調整、拼接,直到鹼基對的空間排布完美契合。在這些案例中,空間智能都推動了文明的進步——當科學家與發明家需要操縱物體、想像結構、在物理空間中推理時,這些能力是純文字永遠無法承載的。空間智能(Spatial Intelligence)是支撐人類認知的腳手架。無論是被動觀察,還是主動創造,它都在默默發揮作用。它驅動我們的推理與規劃,即便是在最抽象的主題上。它同樣塑造了我們與世界互動的方式——無論是語言交流,還是身體行動,無論是與他人,還是與環境本身。雖然我們大多數人並不會每天像埃拉托色尼那樣發現新的真理,但我們幾乎時時刻刻都以同樣的方式在思考通過感官去理解這個複雜世界,並依託對物理與空間規律的直覺認知,使其變得可理解。遺憾的是,當今的AI還無法以這樣的方式思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLMs),在文字之外又引入了大量多媒體資料進行訓練,初步具備了空間感知能力:它們可以分析圖像、回答與之相關的問題,甚至生成超寫實的圖像與短影片。與此同時,借助感測器與觸覺技術的突破,最先進的機器人已經能在嚴格受限的環境中開始操控物體與工具。然而,坦率地說,AI的空間能力依然遠未接近人類水平。其侷限也顯而易見:最先進的MLLM在估計距離、方向、大小等任務上,表現往往不比隨機猜測好多少;它們無法“心智旋轉”物體——即從新角度再現同一對象的形狀;不會在迷宮中導航、識別捷徑,或預測基本的物理規律;生成的視訊雖然新奇炫目,卻常在幾秒鐘後失去連貫性。如今的頂級AI擅長閱讀、寫作、檢索與模式識別,但當涉及對物理世界的表徵或互動時,卻存在根本性侷限。我們人類理解世界的方式是整體性的:不僅僅看到“眼前的東西”,還理解它們在空間上的關係、在語義上的意義、以及在現實中的重要性。而這種通過想像、推理、創造與互動來理解世界的能力,正是空間智能的力量。缺乏它,AI就與它所試圖理解的物理現實脫節。它將無法真正安全地駕駛汽車、無法在家庭與醫院中引導機器人、無法創造全新的沉浸式學習與娛樂體驗、也無法加速材料科學與醫學的發現。哲學家維特根斯坦曾寫道:“語言的邊界就是我世界的邊界”。我不是哲學家,但我知道,對AI而言,世界不止於語言。空間智能代表著超越語言的前沿。它連接想像、感知與行動,為機器真正提升人類生活打開了新的可能:從醫療到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何打造擁有空間智能的AI?如何讓模型具備:像埃拉托色尼那樣的空間推理能力,像工業設計師那樣的工程精度,像講故事的人那樣的創造性想像力,以及像應急救援人員那樣與環境流暢互動的能力?要實現這樣的AI,我們需要比LLM更具雄心的體系:世界模型(World Models)。這是一種全新的生成式模型,其在理解、推理、生成與互動方面的能力,將超越當今LLM所能觸及的極限。它能夠在語義、物理、幾何與動態層面上,理解並生成複雜的虛擬或真實世界。這一領域尚處於萌芽階段,現有方法從抽象推理模型到視訊生成系統不等。World Labs成立於2024年初,正是基於這樣一種信念:基礎性方法仍在形成之中,而這將成為未來十年人工智慧的決定性挑戰。在這個新興領域中,最重要的是確立指導發展方向的核心原則。對於空間智能而言,我將“世界模型”定義為具備以下三項核心能力的系統:1、生成性(Generative):世界模型能夠生成具有感知、幾何與物理一致性的世界要實現空間理解與推理,世界模型必須能夠生成自身的模擬世界。它應能在語義或感知指令的引導下,生成無限多樣、變化豐富的虛擬世界,同時保持幾何、物理與動態上的一致性,無論這些世界是現實的還是虛擬的。研究界目前正在探索,這些世界應當以隱式(implicit)還是顯式(explicit)的幾何結構形式表示。除了強大的潛在表徵(latent representations)之外,我認為通用世界模型的輸出還應當允許生成顯式、可觀測的世界狀態,以便適應不同的應用場景。尤其重要的是,模型對當下世界的理解必須與其過去的狀態保持連貫一致——理解當前,就是理解它是如何演化而來的。2、多模態(Multimodal):世界模型在設計上就是多模態的正如人類與動物一樣,世界模型應能處理多種形式的輸入。在生成式AI領域中,這些輸入被稱為“提示詞(prompts)”。面對不完整的資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作,世界模型都應能預測或生成儘可能完整的世界狀態。這要求模型既要以真實視覺的精度處理圖像輸入,又能以同樣的靈活性理解語義性指令。如此一來,無論是智能體還是人類,都能通過多樣的輸入形式與模型就“世界”進行交流, 並以多樣的方式接收輸出。3、互動性(Interactive):世界模型能根據輸入動作輸出下一個狀態最後,當動作(actions)和/或目標(goals)作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一個狀態。這一狀態可以是隱式的,也可以是顯式的。當輸入僅包含一個動作(有無目標皆可)時,世界模型應能生成與世界先前狀態、預期目標狀態(如有)、以及其語義意義、物理規律、動態行為相一致的輸出。隨著空間智能世界模型在推理與生成能力上不斷增強,我們可以想像,未來模型不僅能預測世界的下一個狀態,還將能夠基於該狀態預測下一步行動。這一挑戰的規模,超越了AI以往所面臨的一切。語言是人類認知中純粹生成的現象,而“世界”遵循的規則則複雜得多。在地球上,例如:重力決定運動,原子結構決定光的顏色與亮度,無數物理定律約束著一切互動。即使是最奇幻、最具創造性的世界,也由遵守物理與動態規律的空間對象與智能體構成。要在模型中一致地協調這些——語義、幾何、動力學與物理層面——需要全新的方法論。因為“世界”的維度遠比語言這種一維的序列訊號複雜得多。要實現像人類一樣具備普適空間智能的世界模型,必須跨越若干巨大的技術壁壘。在World Labs,我們的研究團隊正致力於這一目標的基礎性突破。以下是我們當前研究的幾個方向示例:一種新的通用訓練任務函數:在世界模型研究中,一個長期目標是定義一種像LLM中“下一個token預測”一樣簡潔優雅的通用任務函數。然而,世界模型輸入與輸出空間的複雜性使這一函數的設計更加困難。儘管仍有大量探索空間,但這一目標函數及其對應表徵必須符合幾何與物理規律,忠實體現世界模型在想像與現實之間的“落地表徵”本質。大規模訓練資料:訓練世界模型所需的資料遠比文字複雜。好消息是我們已經擁有了龐大的資料資源。網際網路上規模宏大的圖像與視訊集合為訓練提供了豐富的素材。挑戰在於:如何讓演算法從二維圖像或視訊幀(RGB)中提取更深層次的空間資訊。過去十年的研究揭示了語言模型中資料量與模型規模的scaling law;對於世界模型,關鍵在於建構能夠在相似規模上有效利用視覺資料的架構。此外,高品質的合成資料以及額外模態(如深度、觸覺)的作用不可低估,它們在訓練過程的關鍵階段起到補充作用。未來的發展取決於更先進的感測系統、更穩健的訊號提取演算法、以及更強大的神經模擬方法。新的模型架構與表徵學習:世界模型研究將不可避免地推動模型架構與學習演算法的革新,特別是超越當下的多模態LLM與視訊擴散模型(video diffusion)。這些模型通常將資料編碼為一維或二維序列,使得簡單的空間任務,例如在短影片中數清不同的椅子,或記住一小時前房間的樣子變得異常困難。新的架構思路或許能改進這一點,例如具備3D或4D感知能力的token化、上下文與記憶機制。例如,在World Labs,我們最近開發了一種基於幀的即時生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空間為基礎的幀(spatially-grounded frames)作為空間記憶形式,實現了高效即時生成的同時,保持了生成世界的持續性與一致性。顯然,在完全釋放空間智能的潛力之前,我們仍面臨艱巨的挑戰。但這項研究不僅僅是理論工作,它正成為新一代創造性與生產力工具的核心引擎。在World Labs的進展令人鼓舞。我們最近向部分使用者展示了Marble的早期版本——全球首個可通過多模態輸入生成並保持一致性3D環境的世界模型,讓使用者與創作者能夠探索、互動並在其中繼續建構他們的創意世界。我們正全力以赴,努力盡快將其向公眾開放。Marble只是我們的第一步。隨著研究的加速,科研人員、工程師、使用者與商業領袖們都開始意識到這一方向的巨大潛能。下一代世界模型將使機器在空間智能上達到全新的層次,這將開啟AI迄今仍普遍缺乏的核心能力,並真正讓人工智慧進入理解與創造世界的時代。用世界模型為人類建構更美好的世界人工智慧的發展動機至關重要。作為推動現代AI時代到來的科學家之一,我的動機始終十分明確:AI應當增強人類的能力,而非取而代之。多年來,我一直致力於讓AI的開發、部署與治理與人類需求保持一致。當下關於“技術烏托邦”與“世界末日”的極端敘事比比皆是,但我依然持一種更務實的立場:AI是由人開發、被人使用、並由人治理的。它必須始終尊重人的自主性與尊嚴。它的“魔力”在於拓展我們的能力,讓我們變得更具創造力、更緊密相連、更高效並更有成就感。空間智能正體現了這一願景——一種能賦能人類創造者、照護者、科學家與夢想家的AI,使他們實現曾經不可能的目標。這一信念,正是我將空間智能視為AI下一個偉大前沿領域的根本原因。空間智能的應用橫跨不同的時間尺度。創作工具正在當下出現——World Labs的 Marble 已經讓創作者與講故事的人能夠親手掌握這種能力。機器人領域則代表著中期的雄心目標,我們正致力於完善感知與行動之間的閉環。而最具變革意義的科學應用可能需要更長時間,但它們將深刻地促進人類的福祉。在所有時間線中,有幾個領域的潛力尤其突出,足以重塑人類的能力。要實現這些潛力,需要集體努力遠超任何一個團隊或公司的能力範圍。它需要整個AI生態系統的參與:研究者、創新者、創業者、企業家,乃至政策制定者,共同朝著一個願景努力。而這個願景,值得我們追求。以下是未來的圖景:創造力:為敘事與沉浸體驗注入超能力“創意,是智慧的樂趣。”這是我最喜歡的愛因斯坦名言之一。在人類發明文字之前,我們就會講故事——把故事畫在洞穴壁上,代代相傳,並以共享的敘事建立文化。故事是人類理解世界、跨越時空連接彼此、探索“人之為人”的方式,也是我們在生活與愛中尋找意義的途徑。今天,空間智能有潛力徹底變革我們創作與體驗敘事的方式,從娛樂到教育,從設計到建造,賦予它們更深遠的影響力。World Labs的Marble平台 將前所未有的空間表達能力與編輯控制權交到電影人、遊戲設計師、建築師及各類講述者手中,讓他們無需傳統3D設計軟體的繁複流程,就能快速創造、迭代、探索完整的三維世界。創造的行為依然是人類的核心活動——AI只是放大並加速創意實現的過程。這包括:多維敘事體驗:電影人和遊戲設計師可以利用 Marble 建構整個世界,不受預算或地理限制,探索傳統製作流程中無法實現的場景與視角。隨著媒介與娛樂的界限模糊化,我們正接近一種全新的互動體驗形態——融合藝術、模擬與遊戲的個性化世界,讓任何人(而不僅僅是大型工作室)都能創造並進入自己的故事。以設計講述空間故事:幾乎所有被製造的物品或建造的空間,都必須在物理實現之前經過虛擬3D設計——這一過程往往耗費大量時間與成本。借助空間智能模型,建築師可以在數分鐘內可視化並漫遊尚不存在的建築;工業或時裝設計師可以即時將想像轉化為形態,探索物體與人體及空間的互動。全新的沉浸與互動體驗:人類體驗的最深層方式之一,就是創造意義的體驗本身。在整個人類歷史上,我們只共享一個三維世界:物理世界。直到近幾十年,通過遊戲與早期虛擬現實(VR),我們才得以初步窺見“自造世界”的可能。如今,空間智能結合VR、XR(擴展現實)頭顯與沉浸式顯示裝置,將這種體驗提升到前所未有的高度。未來,人們“走進”多維世界將如同打開一本書般自然。空間智能讓造世界的權力從專業團隊擴展到每一位擁有願景的創作者、教育者與普通人。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航並與世界互動。機器人也不會例外。自該領域誕生以來,“具備空間感知的機器”就是人類的夢想,包括我在史丹佛研究實驗室與學生、合作者共同進行的研究。正因如此,我對用 World Labs 建構的模型實現這一願景感到異常興奮。通過世界模型擴展機器人學習:機器人的學習進步取決於可擴展的訓練資料方案。要讓機器人具備理解、推理、規劃與互動的能力,它們需要覆蓋極為龐大的狀態空間。許多研究者認為,網際網路資料、合成模擬資料與人類演示的真實採集三者結合,是實現可泛化機器人的關鍵。然而,與語言模型不同,如今機器人的訓練資料極為稀缺。世界模型將在此發揮決定性作用。 隨著其感知精度與計算效率的提高,世界模型生成的輸出將迅速縮小模擬與現實之間的差距,從而讓機器人能在數不清的狀態、互動與環境中學習。人機協作夥伴:無論是實驗室中協助科學家的研究助理機器人,還是陪伴獨居老人的家用助理,機器人都可以擴展勞動力並提升社會生產力。但要做到這一點,機器人必須具備空間智能——能感知、推理、規劃、行動,並且最重要的是:保持對人類目標與行為的同理一致。例如,實驗室機器人可以替代科學家完成儀器操作,讓人專注於需要推理的部分;家庭助理機器人則可以幫助老人做飯,而不剝奪他們的樂趣與自主性。真正具備空間智能的世界模型能夠預測下一個狀態,甚至推斷與之匹配的下一步行動,是實現這一願景的關鍵。擴展的具身形態:人形機器人只是我們為自身世界打造的一個形式。真正的創新紅利將來自更加多樣的設計:輸送藥物的奈米機器人、穿行狹窄空間的軟體機器人、以及為深海或外太空而造的機器。無論形態如何,未來的空間智能模型都必須將環境與機器人自身的感知、運動一體化建模。但開發這些機器人面臨的關鍵挑戰在於:缺乏多樣化形態的訓練資料。世界模型將在這一過程中發揮關鍵作用——為模擬資料、訓練環境與評測任務提供支援。更長遠的地平線:科學、醫療與教育除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。以下我將重點介紹三個具有深刻變革潛力的方向。當然,空間智能的應用遠不止於此,它的影響範圍幾乎遍及所有行業。在科學研究中,具備空間智能的系統可以模擬實驗、平行驗證假設,並探索人類無法親臨的環境——從深海到遙遠的行星。這項技術有望徹底變革氣候科學、材料研究等領域的計算建模方式。通過將多維度模擬與真實世界資料採集相結合,這些工具能顯著降低計算壁壘,拓展每一個實驗室可觀察與理解的邊界。在醫療領域,空間智能將重塑從實驗室到病床的全過程。在史丹佛,我與學生及合作者多年來一直與醫院、養老機構以及居家患者合作。這些經驗讓我深信空間智能在醫療領域的變革潛力。AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。在教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。跨越這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結語過去十年間,人工智慧已成為全球現象,在科技、經濟乃至地緣政治層面都帶來了轉折。然而,作為一名研究者、教育者和創業者,最令我振奮的仍是圖靈七十五年前那道問題背後的精神。我依然與他共享那份好奇與驚嘆——正是這份好奇,讓我每天都為探索空間智能的挑戰而充滿動力。人類歷史上第一次,我們正站在這樣一個時刻:有望建構出與物理世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。無論是加速疾病研究、革新故事敘述方式,還是在病痛、受傷或衰老的脆弱時刻給予支援,我們都正處於一場技術變革的門檻上,它將提升我們最珍視的生命價值。這是一個關於更深刻、更豐富、更有力量的生活的願景。距自然在原始動物中首次顯現空間智能的曙光已近五億年,而我們有幸成為這一代技術創造者——可能即將賦予機器同樣能力的人類,也有幸能將此能力用於全人類的福祉。若沒有空間智能,我們關於“真正智慧型手機器”的夢想將永遠不完整。這場探索,是我的“北極星”。邀請你一同追尋它。 (量子位)