前不久,一場彙集了黃仁勳、Hinton、LeCun 等人工智慧領域頂尖人物的圓桌討論,引發了不小的關注。當李飛飛與這些行業巨擘同台時,也確實在社區裡激起了一些討論——精準地說,是爭議。
各種社交媒體上,匯成了一個巨大的聲音:“她憑什麼?”
它不是一句簡單的冒犯,更像是一種確認。在今天這個由參數、算力、模型規模定義的 AI 世界裡,人們急於弄清楚,誰才是牌桌上真正的玩家。
而許多人眼裡,王牌掌握在兩種人手中:一種是造出了像 GPT 這樣的大模型的人,另一種是造出了能讓這些模型飛速運轉的 GPU 的人。
在這個劇本裡,李飛飛的角色就顯得有些模糊。
很多人對她的印象或許還停留在 ImageNet 時代。但 ImageNet 的意義,可能比我們想像的要深遠得多。它不僅僅是提供了一個龐大的資料集,更重要的是,它幾乎是以一己之力,為當時的電腦視覺領域建立了一套“標準賽道”,一種通過大規模基準測試來驅動整個領域向前滾動的方法論。可以說,今天大模型研究中“資料+算力+模型”並以 Benchmark 來衡量進展的範式,依然能看到當年 ImageNet 留下的深刻烙印。它不是某一個具體的演算法,而是改變了遊戲規則的基礎設施。
那麼,在那個里程碑式的工作之後,當下的 AI 世界,幾乎所有人都擠在語言模型的賽道里狂奔時,李飛飛卻把目光投向了一個更廣闊、也更根本的領域:空間智能。
她敏銳地指出了當前 AI 範式的一個核心侷限:語言終究是人類為了交流而創造出來的一種抽象訊號。自然界中本沒有文字,物理世界遵循的是它自身的規律。AI 如果想要真正地理解世界、與世界互動,就不能只停留在文字的符號遊戲裡,做一個“黑暗中的文字大師”。它需要學會看、學會聽、學會理解三維空間中的物體、距離、物理關係和動態互動。
這解釋了很多人心中的第一層疑問:ImageNet 之後,李飛飛究竟在做什麼?
她和她的團隊,以及新創辦的公司,正是試圖為 AI 補上“物理世界”這一課,讓智能走出螢幕,擁有對空間的感知、理解和互動能力。他們想做的,是建構所謂的“世界模型”,一個遠比語言模型宏大、複雜得多的目標。
這並非一個輕鬆的議題,甚至比單純擴大語言模型的規模要困難得多。它關乎人工智慧的下一站將去往何方,是從一個勝利走向另一個勝利,還是需要一次根本性的範式轉換。
近日,李飛飛親自撰寫了一篇長文,第一次如此系統、完整地闡述了她對“空間智能”的全部構想,描繪了她眼中人工智慧的新疆界。這篇文章,或許就是對外界所有好奇與疑問的最好回應,也終於解答了那個最大的問題:空間智能,到底是什麼?
以下,是這篇文章的全文。
跨越語言,構築世界:空間智能,人工智慧的新疆界
1950 年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍引人深思的問題:機器能思考嗎?
能洞見他所預見的一切,需要非凡的想像力:智能或許某天可以被創造,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧”(AI)的不懈科學探索。在我投身人工智慧領域的 25 年裡,圖靈的遠見卓識至今仍讓我備受鼓舞。但我們距離這個目標還有多遠?答案並非一言以蔽之。
如今,以大語言模型(LLMs)為代表的頂尖人工智慧技術,已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍像是黑暗中的文字大師:能言善辯卻缺乏經驗,知識淵博卻脫離現實。空間智能將改變我們創造真實世界和虛擬世界以及與之互動的方式——為敘事、創造、機器人技術、科學發現等領域帶來革命性變化。這,就是人工智慧的新疆界。
自進入這一領域以來,對視覺和空間智能的追求,一直是指引我的“北極星”。為此,我曾花費數年時間建構 ImageNet,它是首個大規模視覺學習和基準測試資料集;它與神經網路演算法以及圖形處理器(GPU)等現代計算技術一道,成為催生現代人工智慧的三大關鍵要素之一。
也正因如此,我在史丹佛的學術實驗室在過去十年間,一直致力於將電腦視覺與機器人學習相結合。同樣為此,我和我的聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創立了 World Labs:為了首次將這一可能性完全實現。
在本文中,我將解釋什麼是空間智能、它為何重要,以及我們正在如何建構能夠解鎖它的“世界模型”——其影響將重塑創造力、具身智能和人類的進步。
人工智慧的發展從未像今天這樣激動人心。以大語言模型為代表的生成式AI模型已經從實驗室走向日常生活,成為數十億人進行創造、提升生產力和溝通的工具。它們展現了曾被認為不可能實現的能力,能夠輕鬆生成連貫的文字、海量的程式碼、逼真的圖像,甚至是簡短的視訊片段。人工智慧是否會改變世界,這已不再是個問題。無論以何種標準衡量,它都已然做到了這一點。
然而,仍有許多目標遙不可及。自主機器人的願景雖然引人入勝,但仍停留在構想階段,遠未成為未來學家長期承諾的那樣,在日常生活中普及開來。在疾病治療、新材料發現和粒子物理學等領域極大加速研究的夢想,在很大程度上仍未實現。而讓人工智慧真正理解並賦能人類創造者的承諾——無論是幫助學生理解分子化學中複雜的概念,協助建築師構想空間,支援電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供服務——也依然未能兌現。
要理解為何這些能力依然遙不可及,我們需要探究空間智能是如何進化的,以及它如何塑造我們對世界的理解。
長期以來,視覺一直是人類智能的基石,但其力量源於一種更為根本的能力。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,感知這一簡單的行為,悄然開啟了通往智能的進化之旅。
這種看似孤立的、從外部世界獲取資訊(無論是一縷光線還是一絲觸感)的能力,在感知與生存之間架起了一座橋樑,並且隨著世代繁衍,這座橋樑變得愈發堅固和精巧。一層層的神經元在這座橋樑上生長,形成了能夠解釋世界、並協調生物體與其環境互動的神經系統。
因此,許多科學家推測,感知與行動構成了驅動智能進化的核心循環,也是大自然創造出我們這個集感知、學習、思考和行動於一體的終極物種的根基。
空間智能在定義我們如何與物理世界互動方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動作:通過想像保險槓與路邊之間的間隙逐漸縮小來停放汽車;接住別人從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而避免碰撞;或者睡眼惺忪地將咖啡倒入杯中,甚至無需直視。
在更極端的情況下,消防員在煙霧瀰漫、不斷坍塌的建築物中穿行,對結構的穩定性和生存機會做出瞬時判斷,並通過手勢、身體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在學會說話前的數月乃至數年裡,通過與環境充滿趣味的互動來學習這個世界。所有這一切都發生得如此直觀、自然——這是機器尚未達到的流暢程度。
空間智能也是我們想像力和創造力的基礎。講故事的人在腦海中創造出獨特而豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基於空間的想像力,構成了真實或虛擬世界中互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵的商業應用提供了動力。
歷史上,空間智能在許多定義文明處理程序的時刻都扮演了核心角色。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城(Syene)的同一時刻,他在亞歷山大港測得太陽光線有 7 度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織業:將多個紡錘並排佈置在同一個框架中,使得一個工人能同時紡多根紗線,生產效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發現了 DNA 的結構,他們不斷擺弄金屬板和金屬絲,直到最終找到了鹼基對的空間排列方式。
在每一個案例中,當科學家和發明家需要操控物體、構想結構和對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅靠文字來捕捉。
空間智能是我們建構認知所依賴的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是在最抽象的議題上。它對於我們互動的方式——無論是口頭還是身體上的,無論是與同伴還是與環境本身——都至關重要。雖然我們大多數人並非每天都在做出埃拉托斯特尼等級的發現,但我們每天也都在以同樣的方式思考——通過感官來感知複雜的世界,然後利用對世界如何在物理和空間層面運作的直觀理解來認識它。
遺憾的是,今天的人工智慧還無法像這樣思考。
過去幾年裡,人工智慧確實取得了巨大進步。多模態大語言模型(MLLMs)除了文字資料外,還利用海量的多媒體資料進行訓練,從而引入了一些基礎的空間感知能力,如今的人工智慧已經可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能夠在高度受限的環境中操控物體和工具。
然而,坦率地說,人工智慧的空間能力距離人類水平還相差甚遠。其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成圖像來“在腦中”旋轉物體時,當前最先進的多模態大語言模型的表現往往不比隨機猜測好多少。它們無法走出迷宮、識別捷徑或預測基本的物理現象。人工智慧生成的視訊——儘管尚處起步階段,並且確實非常酷——往往在幾秒鐘後就失去連貫性。
儘管當前最先進的人工智慧擅長閱讀、寫作、研究和資料中的模式識別,但這些模型在表現或與物理世界互動時,卻存在根本性的侷限。我們看待世界的方式是整體性的——不僅關乎我們正在看什麼,更關乎萬物在空間上如何關聯、其意義為何、其重要性何在。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,人工智慧就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,無法引導機器人在我們的家庭和醫院中服務,無法為學習和娛樂創造全新的沉浸式互動體驗,也無法加速材料科學和醫學領域的探索發現。
哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對人工智慧而言,世界遠不止於語言。空間智能代表了超越語言的新疆界——它連接想像、感知與行動,為機器真正改善人類生活開闢了可能,從醫療健康到創意表達,從科學發現到日常輔助。
那麼,我們該如何建構具備空間智能的人工智慧?要打造出能夠像埃拉托斯特尼那樣推理、像工業設計師那樣精密設計、像故事講述者那樣富有想像力地創造,並像急救人員那樣流暢地與環境互動的模型,其路徑何在?
建構具備空間智能的人工智慧,需要比大語言模型更為宏大的目標:世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠非當今的大語言模型所能及。該領域尚處萌芽階段,現有方法從抽象推理模型到視訊生成系統不一而足。World Labs 於 2024 年初正是基於這樣的信念而創立:基礎方法仍在建立之中,這使其成為未來十年最具決定性的挑戰。
在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:
生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界
能夠解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——無論是代表真實空間還是虛擬空間——同時保持幾何、物理和動態上的一致性。研究界正在積極探索,這些世界在內在的幾何結構上,究竟應該被隱式表達還是顯式表達。此外,我相信,除了強大的潛在表示之外,一個通用的世界模型還必須能為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當下的理解必須與它的過去——即導致當前狀態的先前世界狀態——連貫地聯絡在一起。
這一挑戰的範圍超過了人工智慧以往面臨的任何挑戰。
語言純粹是人類認知的一種生成現象,而世界則遵循著遠為複雜的規則。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律制約著每一次互動。即使是最奇幻、最具創意的世界,也是由遵守其自身物理定律和動態行為的空間物體和智能體構成的。
要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,將需要克服幾個巨大的技術障礙。在 World Labs,我們的研究團隊正致力於朝著這個目標取得根本性的進展。
以下是我們當前研究課題的一些例子:
顯然,在我們能通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰。這項研究不僅僅是一項理論探索,它是一個新型創意和生產力工具的核心引擎。而 World Labs 內部的進展令人鼓舞。我們最近向少數使用者展示了 Marble 的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致三維環境的世界模型,供使用者和故事講述者在他們的創意工作流中進行探索、互動和進一步建構。我們正在努力,希望很快能將其向公眾開放!
Marble 只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新層面上實現空間智能——這一成就將解鎖當今人工智慧系統中仍然普遍缺失的關鍵能力。
發展人工智慧的動機至關重要。作為幫助開啟現代人工智慧時代的科學家之一,我的動機一直很明確:人工智慧必須增強人類的能力,而非取而代之。
多年來,我一直致力於使人工智慧的開發、部署和治理與人類的需求保持一致。如今,關於技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:人工智慧由人開發,為人所用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更能互聯、更有效率、更有成就感。
空間智能代表了這一願景——人工智慧賦能人類的創造者、照護者、科學家和夢想家,去實現曾經的不可能。正是這一信念,驅動著我將空間智能作為人工智慧下一個偉大疆界的承諾。
空間智能的應用橫跨不同的時間線。創意工具正於此刻湧現——World Labs 的 Marble 已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。而最具變革性的科學應用將需要更長的時間,但它們有望對人類的繁榮產生深遠影響。
在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個 AI 生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得我們去追求。
以下是這個未來所包含的內容:
“創造力是智慧在玩耍。” 這是我的偶像阿爾伯特·愛因斯坦的名言之一,也是我最喜歡的一句話。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義的方式,最重要的是,是我們尋找生命意義和內心之愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計延伸到建築。
World Labs 的 Marble 平台將為電影製作人、遊戲設計師、建築師和各類故事講述者提供前所未有的空間能力和編輯可控性,讓他們能夠快速建立和迭代可完全探索的三維世界,而無需傳統三維設計軟體的繁重負擔。創造行為本身依然如故,充滿活力且富有人性;人工智慧工具只是放大並加速了創造者所能達成的成就。這包括:
從昆蟲到人類,動物都依賴空間智能來理解、導航並與它們的世界互動。機器人也不例外。自該領域誕生之初,擁有空間感知能力的機器就一直是人們的夢想,這也包括我和我的學生及合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性感到如此興奮。
除了創意和機器人應用,空間智能的深遠影響還將延伸到那些人工智慧可以增強人類能力、從而拯救生命和加速發現的領域。我將在下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都極為廣闊。
在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室能夠觀察和理解的範圍。
在醫療健康領域,空間智能將重塑從實驗室到病床邊的每一個環節。在史丹佛,我和我的學生及合作者多年來與醫院、養老機構以及居家患者共事。這段經歷讓我確信空間智能在此處的變革潛力。人工智慧可以通過多維度建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所必需的人文關懷的前提下,為患者和護理人員提供支援,更不用說機器人在各種不同場景下幫助我們的醫護人員和患者的潛力。
在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代式體驗。在人工智慧時代,更快、更有效的學習和技能重塑的需求,對於學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞的運作機制或漫步於歷史事件之中。教師可以獲得通過互動環境進行個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。
在所有這些領域,可能性是無限的,但目標始終如一:人工智慧應增強人類的專業知識、加速人類的發現、並放大人類的關懷——而不是取代作為人類核心的判斷力、創造力和同理心。
過去十年見證了人工智慧成為一種全球現象,以及技術、經濟乃至地緣政治的一個轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈 75 年前那個問題背後的精神。我依然懷有他那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。
歷史上第一次,我們有望製造出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對最大挑戰的真正夥伴。無論是在實驗室裡加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻給予支援,我們正處在一項能夠提升我們最珍視的生活方面的技術的前沿。這是一個關於更深刻、更豐富、更強大的人生的願景。
在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為這一代技術專家中的一員,或許很快就能賦予機器同樣的能力——並有幸利用這些能力為世界各地的人們謀福祉。我們對真正智慧型手機器的夢想,若沒有空間智能,將是不完整的。 (AI 科技大本營)