#空間智能
矽谷炸鍋了! AI教母李飛飛萬字長文撕開行業“遮羞布”。
近期,一篇出自 “AI 教母” 李飛飛教授的萬字長文,在矽谷 AI 圈掀起軒然大波。作為曾掌舵史丹佛 AI 實驗室、憑 ImageNet 項目改寫深度學習視覺領域格局的華人頂尖專家,她此次的發聲格外重磅:“當下的 AI,不過是困在暗室裡的文字高手,能說會道卻脫離現實,本質上就是‘睜眼瞎說’。”一、李飛飛撕開AI“遮羞布”這番話看似犀利,卻精準點破了 AI 光鮮外表下的 “致命缺陷”。如今的大語言模型有多 “能打”?寫律詩、寫論文、聊量子物理,分分鐘模仿李白、杜甫的文風,邏輯縝密到讓人難辨真假。可一旦跳出文字的舒適區,面對真實的物理世界,AI 就立刻 “露餡”:讓它估算桌子到門的距離,全靠蒙;讓它預測杯子轉 90 度後的模樣,純屬猜;就連那些刷屏的 AI 生成視訊,仔細看全是破綻 —— 人物突然多根手指、物體莫名穿牆而過,說到底,都是 AI 不懂物理規律的必然結果。二、AI未來:不在大模型,在嬰兒本能李飛飛教授毫不避諱地指出:AI 行業已經走偏了方向。真正的突破口,從不是參數越來越龐大的語言模型,而是連嬰兒都有的 “空間智能”—— 這才是通往通用人工智慧(AGI)的唯一正道。那 “空間智能” 到底是什麼?其實就是人類理解、互動物理世界的本能。嬰兒靠抓、扔、咬,摸清物體的軟硬、輕重;你半夜摸黑起床倒水,不用開燈也能精準拿到杯子;朋友扔來鑰匙,你不用算拋物線就能穩穩接住。這些看似簡單的動作,背後藏著對空間、距離、物理規律的深層認知。更關鍵的是,人類文明的諸多重大突破,都離不開 “空間智能”:埃拉托斯特尼觀察影子長短,算出了地球周長;沃森和克里克搭 3D 模型,破解了 DNA 雙螺旋結構;建築師設計摩天大樓、科學家推演星體運動,本質上都是在運用對空間和物理規律的理解。而這些,是只會 “玩文字” 的大語言模型永遠做不到的。三、AI要“懂”世界:先建世界模型既然空間智能這麼重要,怎麼讓 AI 擁有它?李飛飛給出了核心方案:讓 AI 從 “語言模型” 轉向 “世界模型”。一個合格的世界模型,必須具備三大核心能力:首先,能生成符合物理定律的虛擬世界,不是天馬行空的虛構,而是遵循重力、摩擦力等基礎規律;其次,能整合文字、圖像、動作等多種資訊,不僅聽得懂你說的,還能看懂你做的;最後,也是最關鍵的,能精準預測互動結果 —— 比如知道推杯子會倒、扔球會落地,這才是 AI “看懂” 世界的關鍵。要做到這些,比訓練大語言模型難得多。語言是一維的、線性的,可世界是四維的 —— 三維空間加時間,還受無數物理定律約束。但一旦突破這個難關,AI 的能力將實現質的飛躍。四、空間智能AI:能幫人類做什麼?李飛飛團隊早已用實踐證明了空間智能的潛力:他們研發的 “抹布模型”,能讓電影製作人、遊戲設計師僅憑文字描述,就生成可互動的 3D 世界。不用學複雜的建模軟體,普通人也能當 “造物主”,搭建屬於自己的虛擬場景。這還只是開始。當 AI 真正擁有空間智能,生活將迎來巨變:機器人不再是笨拙的機器臂,能在模擬環境中學會上萬種技能,走進家庭做飯、照顧老人,走進醫院精準手術;教育領域,學生能 “穿越” 到古羅馬街道學歷史,“鑽進” 細胞裡看生物結構;科學探索中,AI 能模擬深海、外太空,幫人類探索無法抵達的領域。正如李飛飛所說:“AI 的終極目標從不是取代人類,而是為人類賦能。現在的大語言模型只是起點,真正的智能,是讓機器理解物理世界。”(AI行銷峰雲)
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)
精讀筆記:李飛飛-從文字到世界:空間智能是AI的下一個前沿
李飛飛博士於 2025 年 11 月發表長文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這是其深耕 AI 領域 25 年的重要思考結晶。全文以圖靈 “機器能思考嗎” 這一經典問題開篇,指出當前以大語言模型為代表的 AI 雖在抽象知識處理上成績斐然,卻存在脫離現實物理世界的短板。文章系統闡釋了空間智能的定義與核心價值,將其定位為支撐人類認知、創造力與文明進步的核心能力,同時提出建構具備生成性、多模態性和互動性的 “世界模型” 是解鎖空間智能的關鍵,還勾勒出空間智能從賦能創意到革新機器人技術,再到推動科學醫療突破的應用演進路徑,為 AI 下一個十年的發展指明了方向。In 1950, when computing was little more than automated arithmetic and simple logic, Alan Turing asked a question that still reverberates today: can machines think? It took remarkable imagination to see what he saw: that intelligence might someday be built rather than born. That insight later launched a relentless scientific quest called Artificial Intelligence (AI). Twenty-five years into my own career in AI, I still find myself inspired by Turing’s vision. But how close are we? The answer isn’t simple.1950年,當電腦還僅僅停留在自動化運算和簡單邏輯運算的層面時,艾倫・圖靈提出了一個至今仍能引發廣泛共鳴的問題:機器能思考嗎?他能洞察到常人未及的可能性,這需要非凡的想像力 —— 智能或許有朝一日能夠被創造出來,而非天生就存在。這一深刻見解隨後開啟了一場名為人工智慧的不懈科學探索。在我投身人工智慧領域的第二十五個年頭,圖靈的這一願景依舊在不斷給予我啟發。但我們如今距離那個目標究竟還有多遠?答案並非簡單就能說清。以 AI 領域的源頭性問題切入,奠定了全文的思辨基調。李飛飛通過回溯圖靈的經典疑問,既致敬了人工智慧的啟蒙思想,又巧妙地引出了核心矛盾 —— 經過數十年發展,AI 仍未完全實現 “機器思考” 的終極目標。她強調智能 “可被建構” 的核心觀點,既是對後續探討空間智能 “可被研發” 的理論鋪墊,也暗示當前 AI 發展尚未觸及智能的核心本質,為後文批判大語言模型的侷限性埋下伏筆。Today, leading AI technology such as large language models (LLMs) have begun to transform how we access and work with abstract knowledge. Yet they remain wordsmiths in the dark; eloquent but inexperienced, knowledgeable but ungrounded. Spatial intelligence will transform how we create and interact with real and virtual worlds—revolutionizing storytelling, creativity, robotics, scientific discovery, and beyond. This is AI’s next frontier.如今,以大語言模型為代表的前沿人工智慧技術,已經開始改變我們獲取和運用抽象知識的方式。然而,這些模型就如同在黑暗中雕琢文字的匠人:能言善辯卻缺乏實踐經驗,學識淵博卻沒有堅實的現實根基。而空間智能將徹底改變我們創造以及與現實和虛擬世界互動的模式 —— 它會給敘事創作、創意設計、機器人技術、科學發現等諸多領域帶來革命性變革。這,正是人工智慧的下一個前沿陣地。這裡點出,當前 AI 的核心短板並拋出全文核心論點。作者用 “黑暗中的文字匠” 這一形象比喻,深刻揭露了大語言模型的致命缺陷:僅擅長文字層面的資訊處理,卻脫離對物理世界的真實感知與互動能力。同時,她明確將空間智能定義為 AI 的下一個前沿,打破了當下 AI 研發集中於文字多模態擴展的侷限,為行業指出了從 “語言理解” 向 “世界感知” 跨越的全新方向。The pursuit of visual and spatial intelligence has been the North Star guiding me since I entered the field. It’s why I spent years building ImageNet, the first large-scale visual learning and benchmarking dataset and one of three key elements enabling the birth of modern AI, along with neural network algorithms and modern compute like graphics processing units (GPUs). It’s why my academic lab at Stanford has spent the last decade combining computer vision with robotic learning.自進入人工智慧領域以來,對視覺與空間智能的探索一直是指引我前行的北極星。這也是我耗費數年時間建構 ImageNet 資料集的原因 ——該資料集是首個大規模視覺學習與基準測試資料集,與神經網路演算法以及圖形處理器這類現代計算裝置一起,共同構成了催生現代人工智慧誕生的三大核心要素。同樣出於這個初衷,我在史丹佛大學的學術實驗室,在過去十年間始終致力於將電腦視覺與機器人學習相結合的研究。該段落通過結合自身學術經歷,增強了論點的可信度與說服力。李飛飛將自己建立 ImageNet 的行為、實驗室的研究方向與空間智能探索強繫結,既體現了她對這一領域研究的連貫性與執著,也從側面印證了空間智能的重要性 —— 畢竟 ImageNet 作為現代 AI 的三大基石之一,其核心價值正是為機器提供視覺感知的基礎,而這正是空間智能的重要組成部分。這一段落也為後文介紹 World Labs 的研發目標做了背景鋪墊,展現出其研究理念的一脈相承。Generative AI models such as LLMs have moved from research labs to everyday life, becoming tools of creativity, productivity, and communication for billions of people. They have demonstrated capabilities once thought impossible, producing coherent text, mountains of code, photorealistic images, and even short video clips with ease. It’s no longer a question of whether AI will change the world. By any reasonable definition, it already has.以大語言模型為代表的生成式人工智慧模型,已經從科研實驗室走進了人們的日常生活,成為數十億人用於激發創意、提升效率與日常溝通的工具。這些模型展現出了曾經被認為難以企及的能力,能夠輕鬆生成邏輯連貫的文字、海量的程式碼、高度逼真的圖像,甚至是短影片片段。如今,問題已不再是人工智慧是否會改變世界。以任何合理的標準來衡量,它都已經做到了這一點。李飛飛在此處先客觀肯定了生成式 AI 的巨大成就,避免了因強調空間智能而全盤否定現有技術的片面性。她列舉文字、程式碼、圖像等生成能力,既符合大眾對當前 AI 的認知,也為後文轉折做了鋪墊。這種先揚後抑的表述方式,能讓讀者更易接受後續關於 AI 短板的論述 —— 承認現有技術的價值,才能更好地理解為何需要向空間智能方向突破,而非停留在現有成果上。Yet so much still lies beyond our reach. The vision of autonomous robots remains intriguing but speculative, far from the fixtures of daily life that futurists have long promised. The dream of massively accelerated research in fields like disease curation, new material discovery, and particle physics remains largely unfulfilled.然而,仍有諸多目標至今我們仍難以實現。自主機器人的願景雖然充滿吸引力,但依舊停留在推測階段,與未來學家們長期以來描繪的、成為日常生活中常見設施的場景相去甚遠。而在疾病治療、新材料研發、粒子物理等領域借助人工智慧大幅加速研究處理程序的夢想,在很大程度上也尚未實現。該段落通過列舉具體場景,具象化了當前 AI 的能力邊界。李飛飛選取自主機器人、疾病治療、新材料發現等具有高關注度的領域,這些領域的共同特點是都需要 AI 具備對物理世界的感知、推理與互動能力 —— 而這正是大語言模型所欠缺的。通過指出這些大眾與行業期待已久的目標尚未達成,有力地論證了單純依靠現有技術遠遠不夠,進一步凸顯了研發空間智能的必要性與緊迫性。Spatial intelligence is the scaffolding of human cognition. It operates when we passively observe or actively create. It drives our reasoning and planning, even on the most abstract topics. And it shapes how we interact—whether through language or action—with others and our environment.空間智能是人類認知體系的腳手架。無論我們是在被動觀察世界,還是主動創造事物,空間智能都在發揮作用。它推動著我們的推理與規劃能力,即便面對那些極為抽象的事物亦是如此。同時,它還影響著我們與他人、與周邊環境互動的方式 —— 無論這種互動是通過語言交流還是實際行動來實現。此處是對空間智能核心價值的高度凝練。李飛飛用 “認知的腳手架” 這一比喻,精準概括了空間智能的基礎性作用 —— 如同腳手架支撐建築一樣,空間智能是人類所有認知活動的底層支撐。她打破了人們對空間智能僅侷限於 “空間感知” 的淺層認知,指出其對抽象推理、人際互動等多方面的深層影響,這一界定極大地提升了空間智能的理論高度,也為後文闡述建構空間智能 AI 的多元價值提供了理論依據。Unfortunately, today’s AI does not yet think this way. Despite significant advances in recent years—multimodal LLMs trained on vast troves of multimedia data have introduced basic spatial awareness, and state-of-the-art robots can manipulate objects in highly constrained settings—AI’s spatial capabilities remain far from human levels.遺憾的是,如今的人工智慧尚未具備這樣的思考模式。儘管近年來人工智慧取得了諸多重大進展 —— 經過海量多媒體資料訓練的多模態大語言模型已經具備了基礎的空間感知能力,最先進的機器人也能夠在高度受限的環境中操控物體 —— 但人工智慧的空間智能水平與人類相比,仍存在巨大差距。作者直面當前 AI 在空間智能領域的現狀,既不否認技術進步,也不迴避核心差距。李飛飛認可多模態模型和先進機器人在空間能力上的微小突破,體現了論述的客觀性;同時明確指出這些能力與人類水平相去甚遠,形成強烈對比。這種表述既避免了對現有技術的全盤否定,又為後文提出建構 “世界模型” 來突破這一差距的解決方案做了完美鋪墊,讓後續的技術路徑建議更具針對性。Building world models that unlock spatial intelligence requires something far more ambitious than LLMs: a new kind of generative model whose ability to understand, reason about, generate, and interact with semantically, physically, geometrically, and dynamically complex worlds—virtual or real—far exceeds that of today’s LLMs.要建構能夠解鎖空間智能的世界模型,需要開展一項遠比研發大語言模型更具挑戰性的工作:我們需要打造一種全新的生成式模型。這種模型在理解、推理、生成以及與語義層面、物理層面、幾何層面和動態層面均極為複雜的世界(無論是虛擬還是現實世界)進行互動的能力,都要遠超如今的大語言模型。這裡明確給出了突破空間智能瓶頸的核心方案 —— 建構世界模型,並凸顯了該方案的挑戰性。李飛飛強調這種新模型需跨越語義、物理、幾何、動態等多個維度,這一定位精準抓住了空間智能的核心需求:機器要像人類一樣綜合多維度資訊理解世界。同時,將其與成熟的大語言模型對比,既讓讀者清晰感知到研發難度,也暗示這一突破將帶來 AI 領域的下一次質的飛躍,為全文的技術構想劃定了核心方向。 (晚筀筆記)思維導圖參考:
李飛飛終於把空間智能講明白了:AI 的極限不是語言,世界遠比文字更廣闊!
前不久,一場彙集了黃仁勳、Hinton、LeCun 等人工智慧領域頂尖人物的圓桌討論,引發了不小的關注。當李飛飛與這些行業巨擘同台時,也確實在社區裡激起了一些討論——精準地說,是爭議。各種社交媒體上,匯成了一個巨大的聲音:“她憑什麼?”它不是一句簡單的冒犯,更像是一種確認。在今天這個由參數、算力、模型規模定義的 AI 世界裡,人們急於弄清楚,誰才是牌桌上真正的玩家。而許多人眼裡,王牌掌握在兩種人手中:一種是造出了像 GPT 這樣的大模型的人,另一種是造出了能讓這些模型飛速運轉的 GPU 的人。在這個劇本裡,李飛飛的角色就顯得有些模糊。很多人對她的印象或許還停留在 ImageNet 時代。但 ImageNet 的意義,可能比我們想像的要深遠得多。它不僅僅是提供了一個龐大的資料集,更重要的是,它幾乎是以一己之力,為當時的電腦視覺領域建立了一套“標準賽道”,一種通過大規模基準測試來驅動整個領域向前滾動的方法論。可以說,今天大模型研究中“資料+算力+模型”並以 Benchmark 來衡量進展的範式,依然能看到當年 ImageNet 留下的深刻烙印。它不是某一個具體的演算法,而是改變了遊戲規則的基礎設施。那麼,在那個里程碑式的工作之後,當下的 AI 世界,幾乎所有人都擠在語言模型的賽道里狂奔時,李飛飛卻把目光投向了一個更廣闊、也更根本的領域:空間智能。她敏銳地指出了當前 AI 範式的一個核心侷限:語言終究是人類為了交流而創造出來的一種抽象訊號。自然界中本沒有文字,物理世界遵循的是它自身的規律。AI 如果想要真正地理解世界、與世界互動,就不能只停留在文字的符號遊戲裡,做一個“黑暗中的文字大師”。它需要學會看、學會聽、學會理解三維空間中的物體、距離、物理關係和動態互動。這解釋了很多人心中的第一層疑問:ImageNet 之後,李飛飛究竟在做什麼?她和她的團隊,以及新創辦的公司,正是試圖為 AI 補上“物理世界”這一課,讓智能走出螢幕,擁有對空間的感知、理解和互動能力。他們想做的,是建構所謂的“世界模型”,一個遠比語言模型宏大、複雜得多的目標。這並非一個輕鬆的議題,甚至比單純擴大語言模型的規模要困難得多。它關乎人工智慧的下一站將去往何方,是從一個勝利走向另一個勝利,還是需要一次根本性的範式轉換。近日,李飛飛親自撰寫了一篇長文,第一次如此系統、完整地闡述了她對“空間智能”的全部構想,描繪了她眼中人工智慧的新疆界。這篇文章,或許就是對外界所有好奇與疑問的最好回應,也終於解答了那個最大的問題:空間智能,到底是什麼?以下,是這篇文章的全文。跨越語言,構築世界:空間智能,人工智慧的新疆界1950 年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍引人深思的問題:機器能思考嗎?能洞見他所預見的一切,需要非凡的想像力:智能或許某天可以被創造,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧”(AI)的不懈科學探索。在我投身人工智慧領域的 25 年裡,圖靈的遠見卓識至今仍讓我備受鼓舞。但我們距離這個目標還有多遠?答案並非一言以蔽之。如今,以大語言模型(LLMs)為代表的頂尖人工智慧技術,已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍像是黑暗中的文字大師:能言善辯卻缺乏經驗,知識淵博卻脫離現實。空間智能將改變我們創造真實世界和虛擬世界以及與之互動的方式——為敘事、創造、機器人技術、科學發現等領域帶來革命性變化。這,就是人工智慧的新疆界。自進入這一領域以來,對視覺和空間智能的追求,一直是指引我的“北極星”。為此,我曾花費數年時間建構 ImageNet,它是首個大規模視覺學習和基準測試資料集;它與神經網路演算法以及圖形處理器(GPU)等現代計算技術一道,成為催生現代人工智慧的三大關鍵要素之一。也正因如此,我在史丹佛的學術實驗室在過去十年間,一直致力於將電腦視覺與機器人學習相結合。同樣為此,我和我的聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創立了 World Labs:為了首次將這一可能性完全實現。在本文中,我將解釋什麼是空間智能、它為何重要,以及我們正在如何建構能夠解鎖它的“世界模型”——其影響將重塑創造力、具身智能和人類的進步。空間智能:人類認知的腳手架人工智慧的發展從未像今天這樣激動人心。以大語言模型為代表的生成式AI模型已經從實驗室走向日常生活,成為數十億人進行創造、提升生產力和溝通的工具。它們展現了曾被認為不可能實現的能力,能夠輕鬆生成連貫的文字、海量的程式碼、逼真的圖像,甚至是簡短的視訊片段。人工智慧是否會改變世界,這已不再是個問題。無論以何種標準衡量,它都已然做到了這一點。然而,仍有許多目標遙不可及。自主機器人的願景雖然引人入勝,但仍停留在構想階段,遠未成為未來學家長期承諾的那樣,在日常生活中普及開來。在疾病治療、新材料發現和粒子物理學等領域極大加速研究的夢想,在很大程度上仍未實現。而讓人工智慧真正理解並賦能人類創造者的承諾——無論是幫助學生理解分子化學中複雜的概念,協助建築師構想空間,支援電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供服務——也依然未能兌現。要理解為何這些能力依然遙不可及,我們需要探究空間智能是如何進化的,以及它如何塑造我們對世界的理解。長期以來,視覺一直是人類智能的基石,但其力量源於一種更為根本的能力。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,感知這一簡單的行為,悄然開啟了通往智能的進化之旅。這種看似孤立的、從外部世界獲取資訊(無論是一縷光線還是一絲觸感)的能力,在感知與生存之間架起了一座橋樑,並且隨著世代繁衍,這座橋樑變得愈發堅固和精巧。一層層的神經元在這座橋樑上生長,形成了能夠解釋世界、並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知與行動構成了驅動智能進化的核心循環,也是大自然創造出我們這個集感知、學習、思考和行動於一體的終極物種的根基。空間智能在定義我們如何與物理世界互動方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動作:通過想像保險槓與路邊之間的間隙逐漸縮小來停放汽車;接住別人從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而避免碰撞;或者睡眼惺忪地將咖啡倒入杯中,甚至無需直視。在更極端的情況下,消防員在煙霧瀰漫、不斷坍塌的建築物中穿行,對結構的穩定性和生存機會做出瞬時判斷,並通過手勢、身體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在學會說話前的數月乃至數年裡,通過與環境充滿趣味的互動來學習這個世界。所有這一切都發生得如此直觀、自然——這是機器尚未達到的流暢程度。空間智能也是我們想像力和創造力的基礎。講故事的人在腦海中創造出獨特而豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基於空間的想像力,構成了真實或虛擬世界中互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵的商業應用提供了動力。歷史上,空間智能在許多定義文明處理程序的時刻都扮演了核心角色。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城(Syene)的同一時刻,他在亞歷山大港測得太陽光線有 7 度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織業:將多個紡錘並排佈置在同一個框架中,使得一個工人能同時紡多根紗線,生產效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發現了 DNA 的結構,他們不斷擺弄金屬板和金屬絲,直到最終找到了鹼基對的空間排列方式。在每一個案例中,當科學家和發明家需要操控物體、構想結構和對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅靠文字來捕捉。空間智能是我們建構認知所依賴的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是在最抽象的議題上。它對於我們互動的方式——無論是口頭還是身體上的,無論是與同伴還是與環境本身——都至關重要。雖然我們大多數人並非每天都在做出埃拉托斯特尼等級的發現,但我們每天也都在以同樣的方式思考——通過感官來感知複雜的世界,然後利用對世界如何在物理和空間層面運作的直觀理解來認識它。遺憾的是,今天的人工智慧還無法像這樣思考。過去幾年裡,人工智慧確實取得了巨大進步。多模態大語言模型(MLLMs)除了文字資料外,還利用海量的多媒體資料進行訓練,從而引入了一些基礎的空間感知能力,如今的人工智慧已經可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能夠在高度受限的環境中操控物體和工具。然而,坦率地說,人工智慧的空間能力距離人類水平還相差甚遠。其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成圖像來“在腦中”旋轉物體時,當前最先進的多模態大語言模型的表現往往不比隨機猜測好多少。它們無法走出迷宮、識別捷徑或預測基本的物理現象。人工智慧生成的視訊——儘管尚處起步階段,並且確實非常酷——往往在幾秒鐘後就失去連貫性。儘管當前最先進的人工智慧擅長閱讀、寫作、研究和資料中的模式識別,但這些模型在表現或與物理世界互動時,卻存在根本性的侷限。我們看待世界的方式是整體性的——不僅關乎我們正在看什麼,更關乎萬物在空間上如何關聯、其意義為何、其重要性何在。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,人工智慧就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,無法引導機器人在我們的家庭和醫院中服務,無法為學習和娛樂創造全新的沉浸式互動體驗,也無法加速材料科學和醫學領域的探索發現。哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對人工智慧而言,世界遠不止於語言。空間智能代表了超越語言的新疆界——它連接想像、感知與行動,為機器真正改善人類生活開闢了可能,從醫療健康到創意表達,從科學發現到日常輔助。人工智慧的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的人工智慧?要打造出能夠像埃拉托斯特尼那樣推理、像工業設計師那樣精密設計、像故事講述者那樣富有想像力地創造,並像急救人員那樣流暢地與環境互動的模型,其路徑何在?建構具備空間智能的人工智慧,需要比大語言模型更為宏大的目標:世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠非當今的大語言模型所能及。該領域尚處萌芽階段,現有方法從抽象推理模型到視訊生成系統不一而足。World Labs 於 2024 年初正是基於這樣的信念而創立:基礎方法仍在建立之中,這使其成為未來十年最具決定性的挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界能夠解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——無論是代表真實空間還是虛擬空間——同時保持幾何、物理和動態上的一致性。研究界正在積極探索,這些世界在內在的幾何結構上,究竟應該被隱式表達還是顯式表達。此外,我相信,除了強大的潛在表示之外,一個通用的世界模型還必須能為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當下的理解必須與它的過去——即導致當前狀態的先前世界狀態——連貫地聯絡在一起。多模態:世界模型在設計上就是多模態的正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式 AI 領域中稱為“提示詞”。在獲得部分資訊的情況下——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它既能以真實視覺的保真度處理視覺輸入,又能同樣自如地解釋語義指令。這使得智能體和人類都能夠通過多樣的輸入與模型就世界進行溝通,並反過來接收多樣的輸出。互動性:世界模型能夠根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是給到世界模型的提示詞的一部分,那麼它的輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個動作(無論有無目標狀態)作為輸入時,世界模型應該產生一個與世界先前狀態、預期的目標狀態(如果有的話),以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能夠預測世界的下一個狀態,還能基於新狀態預測下一步的動作。這一挑戰的範圍超過了人工智慧以往面臨的任何挑戰。語言純粹是人類認知的一種生成現象,而世界則遵循著遠為複雜的規則。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律制約著每一次互動。即使是最奇幻、最具創意的世界,也是由遵守其自身物理定律和動態行為的空間物體和智能體構成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,將需要克服幾個巨大的技術障礙。在 World Labs,我們的研究團隊正致力於朝著這個目標取得根本性的進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中的“下一詞元預測”那樣簡潔優雅的通用任務函數,一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數的建構本身就更具難度。但儘管仍有許多未知尚待探索,這個目標函數及相應的表示方法必須能反映幾何與物理定律,尊重世界模型作為想像與現實的具身化表示這一根本性質。大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集合代表了豐富且易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即 RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量和模型大小之間的“規模法則”的力量;解鎖世界模型的關鍵,在於建構能夠以同等規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中,對網際網路規模的資料起到了補充作用。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法,以及遠為強大的神經模擬方法。新的模型架構和表示學習:世界模型的研究將不可避免地推動模型架構和學習演算法的進步,特別是超越當前的多模態大語言模型和視訊擴散範式。這兩種範式通常將資料標記化為一維或二維序列,這使得一些簡單的空間任務變得異常困難——比如,在一段短影片中數出不重複的椅子數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於標記化、上下文和記憶的具備三維或四維感知能力的方法。例如,在 World Labs,我們最近在一款名為 RTFM(Real-Time Frame-based Model)的即時生成式幀基模型上的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持生成世界中的持久性。顯然,在我們能通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰。這項研究不僅僅是一項理論探索,它是一個新型創意和生產力工具的核心引擎。而 World Labs 內部的進展令人鼓舞。我們最近向少數使用者展示了 Marble 的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致三維環境的世界模型,供使用者和故事講述者在他們的創意工作流中進行探索、互動和進一步建構。我們正在努力,希望很快能將其向公眾開放!Marble 只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新層面上實現空間智能——這一成就將解鎖當今人工智慧系統中仍然普遍缺失的關鍵能力。用世界模型為人類建構一個更美好的世界發展人工智慧的動機至關重要。作為幫助開啟現代人工智慧時代的科學家之一,我的動機一直很明確:人工智慧必須增強人類的能力,而非取而代之。多年來,我一直致力於使人工智慧的開發、部署和治理與人類的需求保持一致。如今,關於技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:人工智慧由人開發,為人所用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更能互聯、更有效率、更有成就感。空間智能代表了這一願景——人工智慧賦能人類的創造者、照護者、科學家和夢想家,去實現曾經的不可能。正是這一信念,驅動著我將空間智能作為人工智慧下一個偉大疆界的承諾。空間智能的應用橫跨不同的時間線。創意工具正於此刻湧現——World Labs 的 Marble 已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。而最具變革性的科學應用將需要更長的時間,但它們有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個 AI 生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得我們去追求。以下是這個未來所包含的內容:創造力:為敘事和沉浸式體驗注入超能力“創造力是智慧在玩耍。” 這是我的偶像阿爾伯特·愛因斯坦的名言之一,也是我最喜歡的一句話。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義的方式,最重要的是,是我們尋找生命意義和內心之愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計延伸到建築。World Labs 的 Marble 平台將為電影製作人、遊戲設計師、建築師和各類故事講述者提供前所未有的空間能力和編輯可控性,讓他們能夠快速建立和迭代可完全探索的三維世界,而無需傳統三維設計軟體的繁重負擔。創造行為本身依然如故,充滿活力且富有人性;人工智慧工具只是放大並加速了創造者所能達成的成就。這包括:新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來構想完整的世界,而不受預算或地理位置的限制,探索在傳統製作流程中難以實現的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種融合了藝術、模擬和遊戲的全新互動體驗——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並棲居於自己的故事之中。隨著將概念和故事板提升為完整體驗的更新、更快捷的方式的出現,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上,建構擁有共同主線貫穿的世界。通過設計實現空間敘事:基本上,每一個製造出來的物體或建造出的空間,在其實體化之前都必須在虛擬三維環境中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以在投入數月進行設計之前快速構想結構,漫步於尚不存在的空間之中——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業設計師和時尚設計師可以瞬間將想像轉化為形態,探索物體如何與人體和空間互動。全新的沉浸式和互動體驗:體驗本身,是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同生活的這個物理世界。直到近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始瞥見共享我們自己創造的替代世界意味著什麼。現在,空間智能與VR和擴展現實(XR)頭顯、沉浸式顯示器等新形態裝置相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入一個完全實現的多維世界,將變得像打開一本書一樣自然。空間智能讓世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是面向個人創作者、教育者以及任何有願景希望分享的人。機器人技術:行動中的具身智能從昆蟲到人類,動物都依賴空間智能來理解、導航並與它們的世界互動。機器人也不例外。自該領域誕生之初,擁有空間感知能力的機器就一直是人們的夢想,這也包括我和我的學生及合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性感到如此興奮。通過世界模型規模化機器人學習: 機器人學習的進展取決於一個可行的、可規模化的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬以及對人類演示的真實世界捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今的機器人研究缺乏訓練資料。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數的狀態、互動和環境模擬中訓練機器人。夥伴與協作者:機器人作為人類的協作者,無論是在實驗室工作台旁協助科學家,還是幫助獨居老人,都可以補充那些急需更多勞動力和生產力的領域。但要做到這一點,需要機器人具備能夠感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧性或推理的任務;而一個家庭助理可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態甚至可能是與這種期望相符的動作,這樣真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身形態:人形機器人在我們為自己建構的世界中扮演著一定角色。但創新的全部益處將來自更多樣化的設計:遞送藥物的奈米機器人、穿越狹窄空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰是,缺乏適用於這些多種多樣的具身形態的訓練資料。世界模型將在為這些努力提供模擬資料、訓練環境和基準測試任務方面發揮關鍵作用。更長遠的未來:科學、醫療和教育除了創意和機器人應用,空間智能的深遠影響還將延伸到那些人工智慧可以增強人類能力、從而拯救生命和加速發現的領域。我將在下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都極為廣闊。在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室能夠觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床邊的每一個環節。在史丹佛,我和我的學生及合作者多年來與醫院、養老機構以及居家患者共事。這段經歷讓我確信空間智能在此處的變革潛力。人工智慧可以通過多維度建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所必需的人文關懷的前提下,為患者和護理人員提供支援,更不用說機器人在各種不同場景下幫助我們的醫護人員和患者的潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代式體驗。在人工智慧時代,更快、更有效的學習和技能重塑的需求,對於學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞的運作機制或漫步於歷史事件之中。教師可以獲得通過互動環境進行個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:人工智慧應增強人類的專業知識、加速人類的發現、並放大人類的關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結語過去十年見證了人工智慧成為一種全球現象,以及技術、經濟乃至地緣政治的一個轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈 75 年前那個問題背後的精神。我依然懷有他那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望製造出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對最大挑戰的真正夥伴。無論是在實驗室裡加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻給予支援,我們正處在一項能夠提升我們最珍視的生活方面的技術的前沿。這是一個關於更深刻、更豐富、更強大的人生的願景。在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為這一代技術專家中的一員,或許很快就能賦予機器同樣的能力——並有幸利用這些能力為世界各地的人們謀福祉。我們對真正智慧型手機器的夢想,若沒有空間智能,將是不完整的。 (AI 科技大本營)
李飛飛最新長文刷屏,AI 下一個十年最需要的不是大模型
當 ChatGPT 震驚世界時,我們以為 AI 已經足夠聰明。但它依然做不到一件事:精準判斷你伸手去夠桌邊咖啡杯時,手指距離杯沿還有多少釐米。今天,知名 AI 學者李飛飛用一篇部落格回答了這個問題:真正的智能不只是文字遊戲,而是藏在一個我們每天都在使用卻從未意識到的能力裡:空間智能。這是一種比語言更古老的智能,改變人類文明的時刻,從來依靠的都不是語言,而是對空間的感知、想像與推理。比如古希臘學者通過觀察影子計算出地球周長,科學家擺弄金屬絲拼出DNA的雙螺旋結構,消防員在煙霧中憑直覺判斷建築是否會坍塌。而現在,AI 即將獲得它一直缺失的這種能力。省流版如下:1. 當前 AI(特別是大型語言模型 LLM)雖然那改變了我們運用抽象知識的方式,語言能力很強,卻缺乏對物理世界的真實經驗和理解。它們在機器人、科學發現、沉浸式創造力等領域仍有根本侷限。空間智能是人類智能的基石,甚至先於語言存在。它不僅支撐著我們與物理世界的日常互動(如駕駛、接住鑰匙),也是人類想像力、創造力和科學發現(如古希臘測量地球周長、DNA 雙螺旋結構的發現)的核心。它是人類認知賴以建構的「腳手架」。2. 儘管多模態模型(MLLM)有所進步,但 AI 在空間能力上與人類相差甚遠。它們無法精準估計距離、方向,無法在腦中「旋轉」物體,也無法預測基本的物理規律。AI 缺乏這種能力,就無法真正與物理現實建立聯絡。要實現空間智能,我們需要超越 LLM,建構更具雄心的「世界模型」。這是一種全新的生成式模型,其能力遠遠超越當今的 LLM。李飛飛與 World Labs 正致力於此。3. 李飛飛定義了世界模型必須具備的三種能力:生成性 (Generative):能夠生成在感知、幾何和物理規律上保持一致性的世界。多模態性 (Multimodal):天生設計為多模態,能處理和輸出多種形式的資訊(如圖像、視訊、深度圖、文字、動作)。互動性 (Interactive):能夠根據輸入的「動作」,預測或輸出世界的「下一個狀態」,並最終可能預測「下一步應採取的行動」。4. 李飛飛認為,建構世界模型遠比建構語言模型困難,因為世界的維度遠超語言。這需要克服三大挑戰:新的訓練任務:需要找到類似 LLM 中「下一個詞預測」那樣優雅的通用任務函數,但難度更高。大規模資料:需要能從海量的網際網路圖像和視訊中提取深層空間資訊,並輔以合成資料和多模態資料。新的模型架構:需要超越當前 1D/2D 序列範式,發展出具備 3D 或 4D 感知能力的新架構(比如 World Labs 的 RTFM 模型)。5. AI 應當增強人類的能力,而非取而代之。AI 應始終尊重人的自主性與尊嚴。空間智能正是這一願景的體現,它旨在賦能人類的創造力、關懷能力和科學發現。6. 空間智能的應用將分階段展開:近期(創造力):賦能故事講述、電影、遊戲和建築設計。World Labs 已推出 Marble 平台,幫助創作者建構 3D 世界。中期(機器人學):實現「行動中的具身智能」。世界模型將通過模擬訓練,使機器人成為人類的協作助手。長期(科學、醫療與教育):在藥物研發、材料科學、輔助診斷、環境感知監護以及沉浸式教育等領域產生變革性影響。7. 探索空間智能是李飛飛科研生涯的「北極星」。沒有空間智能,「真正智慧型手機器」的夢想就無法實現。她呼籲整個 AI 生態系統共同努力,將這項技術用來造福全世界。從語言到世界:空間智能是人工智慧的下一個前沿1950 年,當電腦還只是自動化運算和簡單邏輯的工具時,Alan Turing 提出了一個至今仍迴蕩的問題:機器能思考嗎?他以非凡的想像力看到了一個大膽的可能——智能也許有一天不是天生的,而是被「創造」出來的。這個洞見後來開啟了一場被稱為「人工智慧(AI)」的不懈科學探索。在我從事人工智慧研究的二十五年裡,Turing 的遠見依然激勵著我。但我們離那個目標還有多遠?這個問題並不容易回答。如今,領先的人工智慧技術——例如大型語言模型(LLM)——已經開始改變我們獲取和運用抽象知識的方式。然而,它們依然像在黑暗中打磨文字的匠人:語言優美,卻缺乏經驗;知識豐富,卻未真正立足於現實。空間智能(Spatial Intelligence)將重新定義我們創造和體驗現實與虛擬世界的方式——它將徹底變革故事講述、創造力、機器人學、科學發現等多個領域。這正是人工智慧的下一個前沿。自我進入這一領域以來,對視覺與空間智能的追求一直是我的北極星。這也是我花費多年時間建立 ImageNet 的原因——這是第一個大規模視覺學習與評測資料集,與神經網路演算法以及現代計算(如 GPU 圖形處理單元)一起,成為現代人工智慧誕生的三大關鍵支柱之一。過去十年裡,我在史丹佛大學的實驗室致力於將電腦視覺與機器人學習相結合。而正因為這一信念,我與聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 於一年多前共同創立了 World Labs——希望第一次真正實現這一願景。在這篇文章中,我將解釋什麼是空間智能、它為何重要,以及我們如何建構能夠解鎖這種智能的「世界模型」——這種能力將重新塑造創造力、具身智能,以及人類的進步。空間智能:人類認知的支架人工智慧正處在前所未有的激動人心的時刻。生成式 AI 模型(如大型語言模型,LLM)已經從研究實驗室走進日常生活,成為數十億人用於創造、工作和交流的工具。它們展現出了曾被認為不可能的能力——能夠輕鬆生成連貫的文字、大量的程式碼、逼真的圖像,甚至短影片片段。如今,我們已無需再問「AI 是否會改變世界」,因為無論從那個角度來看,它已經在改變世界。然而,仍有許多目標尚未實現。自主機器人的願景依舊令人著迷,但仍停留在猜想階段,距離未來學家所描繪的日常生活場景還有很遠。AI 在疾病治癒、新材料發現、粒子物理等領域中實現研究飛速推進的夢想,也仍然大體未能實現。而能真正理解並賦能人類創造者的 AI——無論是學習分子化學複雜概念的學生、構思空間的建築師、建構世界的電影製作人,還是追求沉浸式虛擬體驗的任何人——仍未到來。要理解這些能力為何仍難以實現,我們需要回溯空間智能的演化歷程,並探究它如何塑造了我們對世界的理解。視覺長期以來一直是人類智能的基石,但它的力量源於更為根本的機制。在動物能夠築巢、養育後代、使用語言交流或建立文明之前,最初那種感知的能力——那怕只是捕捉到一束光、一種觸感——就悄然點燃了通往智能的進化之路。這種看似孤立的、從外部世界提取資訊的能力,在感知與生存之間搭起了一座橋樑,而這座橋樑隨著世代更迭不斷加固、擴展。層層疊疊的神經元在這座橋上生長,形成瞭解讀世界、協調有機體與環境互動的神經系統。因此,許多科學家推測:「感知—行動」這一循環正是智能進化的核心驅動力,也是自然界創造出我們——這種能感知、學習、思考平行動的物種——的根本基礎。空間智能在我們與物理世界的互動中起著至關重要的作用。每天,我們都在依賴它完成各種看似平凡的動作:停車時通過想像車頭與路沿間逐漸縮小的距離來判斷位置;接住從房間另一頭扔來的鑰匙;在人群密集的人行道上穿行而不相撞;或是半睡半醒時不用看就能把咖啡倒進杯子裡。在更極端的情境下,消防員在坍塌的建築物中穿行,在煙霧瀰漫的環境中憑直覺判斷結構是否穩定、如何生存,並通過手勢、身體語言以及一種難以言傳的職業本能進行交流。而孩子們則在學會說話之前的幾個月甚至幾年裡,通過與環境的遊戲式互動來認識世界。所有這一切都發生得自然而然、毫不費力——這正是一種機器尚未掌握的「本能流暢」。空間智能同樣是我們想像力與創造力的基礎。講故事的人在腦海中建構出豐富的世界,並借助各種視覺媒介將其傳達給他人——從遠古的洞穴壁畫,到現代電影,再到沉浸式電子遊戲。無論是孩子們在沙灘上堆砌城堡,還是在電腦上玩《我的世界》(Minecraft),以空間為基礎的想像力都是他們在現實或虛擬世界中進行互動體驗的核心。在眾多行業中,對物體、場景以及動態互動環境的模擬也成為關鍵支撐——從工業設計到數字孿生,從機器人訓練到各種業務應用,空間智能驅動著無數重要的實踐場景。縱觀歷史,空間智能在許多奠定文明走向的關鍵時刻都發揮了核心作用。在古希臘,Eratosthenes 通過觀察「影子」悟出了幾何原理——他在亞歷山大測量到陽光與地面形成的 7 度角,並在同一時間注意到賽恩城沒有影子,由此計算出了地球的周長。Hargreave 發明的「珍妮紡紗機」(Spinning Jenny)則通過一個空間佈局的巧思徹底革新了紡織業:他將多個紡錘並排安裝在同一架子上,讓一個工人能夠同時紡出多股紗線,從而將生產效率提高了八倍。Watson 和 Crick 則通過親手搭建三維分子模型,擺弄金屬板與金屬絲,最終拼出了 DNA 的空間結構,讓鹼基對的排列方式恰如其分地契合在一起。在這些案例中,空間智能都是推動人類文明前進的關鍵力量——科學家和發明家必須操控物體、想像結構,並在物理空間中進行推理,而這些過程是文字所無法完全表達的。空間智能,是人類認知賴以建構的「腳手架」。無論是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理與規劃,即便面對最抽象的問題也是如此。它同樣決定了我們與世界互動的方式——無論是語言交流還是身體行動,無論是與他人還是與環境本身的互動。雖然我們大多數人並不會每天都像 Eratosthenes 那樣揭示自然的奧秘,但我們依然以相同的方式思考——通過感官理解複雜的世界,並憑直覺掌握其中的物理與空間規律。遺憾的是,如今的人工智慧還無法像這樣思考。過去幾年中,人工智慧確實取得了巨大進步。多模態大型語言模型(Multimodal LLMs,簡稱 MLLM)在海量多媒體資料(除了文字外還包括圖像、音訊、視訊等)的訓練下,初步具備了某種「空間感知」能力。如今的 AI 已能分析圖片、回答與圖片相關的問題,並生成極其逼真的圖像與短影片。同時,得益於感測器與觸覺技術的突破,最先進的機器人也開始能夠在高度受限的環境中操控物體和工具。但坦率地說,AI 的空間能力仍遠未達到人類水平,這種差距一眼便能看出。當前最先進的 MLLM 模型在估計距離、方向、大小等方面的表現往往不比隨機猜測好多少——它們也無法像人類那樣在腦海中「旋轉」物體,從不同角度重新想像其形狀。它們不能穿越迷宮、識別捷徑,也無法預測最基本的物理規律。AI 生成的視訊雖然令人驚嘆,但往往在幾秒後就失去連貫性。目前的尖端 AI 雖然在閱讀、寫作、研究和資料模式識別等任務中表現出色,但在理解或與物理世界互動時,卻存在根本性的侷限。我們對世界的感知是整體性的——不僅看到「事物本身」,還理解它們在空間上的關係、意義以及重要性。而通過想像、推理、創造和互動來理解世界——而不僅僅是用語言去描述——這正是空間智能的力量所在。缺乏這種能力,AI 就無法真正與它想要理解的物理現實建立聯絡。它無法安全高效地駕駛汽車,無法在家庭或醫院中靈活地引導機器人,也難以為學習與娛樂提供全新的沉浸式互動體驗,更無法大幅加速材料科學或醫學領域的發現。哲學家維特根斯坦(Wittgenstein)曾寫道:「我的語言的界限意味著我的世界的界限。」我並非哲學家,但至少我知道——對於人工智慧而言,世界不止於「語言」。空間智能代表著超越語言的前沿——它是一種將想像、感知與行動連接起來的能力,使機器真正能夠拓展人類的生活潛能,從醫療到創造力,從科學發現到日常助理,都因此煥發新可能。人工智慧的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具有空間智能的 AI?怎樣才能讓模型既能像 Eratosthenes 那樣進行空間推理,又能像工業設計師那樣精確創造,像講故事的人那樣富有想像力,並像救援人員那樣在複雜環境中靈活行動?要實現這一點,我們需要的不只是大型語言模型(LLM),而是一種更具雄心的體系——世界模型(World Models)。這是一類全新的生成式模型,能夠在語義、物理、幾何與動態複雜的世界中——無論虛擬還是現實——進行理解、推理、生成與互動,其能力遠遠超越當今的 LLM。這一研究領域尚處於萌芽階段,目前的探索方法從抽象推理模型到視訊生成系統皆有涉獵。World Labs 正是在這種信念下於 2024 年初創立的:我們認為,基礎方法尚未確立,而這正是未來十年人工智慧發展的決定性挑戰。在這個新興領域中,最重要的是建立一套指導發展的核心原則。對於空間智能而言,我將「世界模型」定義為具備以下三種關鍵能力的系統:1. 生成性(Generative):世界模型能夠生成具備感知、幾何與物理一致性的世界要實現空間理解與推理,世界模型必須具備生成自身「模擬世界」的能力。它們應能根據語義或感知層面的指令,生成無窮多樣的虛擬世界——這些世界無論在幾何結構、物理規律還是動態變化上,都必須保持一致性,無論它們代表的是現實空間還是虛擬空間。研究界正在積極探索這些世界應當以內在幾何結構的隱式還是顯式形式來表示。此外,除了具備強大的潛在表示能力,我認為一個通用的世界模型還必須能夠輸出清晰可觀測的世界狀態,以適應多種應用場景。尤其重要的是,模型對「當下世界」的理解必須與「過去世界」的狀態相連貫——它要能理解世界從過去如何演變到現在。2. 多模態性(Multimodal):世界模型從設計上就是多模態的就像人類與動物一樣,世界模型也應能處理多種形式的輸入——在生成式 AI 領域,這些輸入被稱為「提示(prompt)」。面對不完整的資訊(如圖像、視訊、深度圖、文字指令、手勢或動作),世界模型應能預測或生成儘可能完整的世界狀態。這要求它在處理視覺輸入時具備接近真實視覺的精度,同時在理解語義指令時同樣靈活。這樣,智能體(agent)與人類都能通過多樣化的輸入與模型進行交流,並獲得同樣多樣化的輸出反饋。3. 互動性(Interactive):世界模型能夠根據輸入的動作輸出下一步的世界狀態最後,當「動作」或「目標」被作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一狀態,這種狀態可以是隱式的,也可以是顯式的。當模型接收到一個動作(無論是否包含目標狀態)作為輸入時,它應能輸出與世界先前狀態、目標狀態(若有)、語義含義、物理規律及動態行為一致的結果。隨著具備空間智能的世界模型在推理與生成能力上不斷增強,可以想像——未來面對某個給定目標時,世界模型不僅能夠預測世界的下一狀態,還能基於這一新狀態預測「下一步應採取的行動」。這一挑戰的規模,遠超人工智慧以往所面對的一切。語言,是人類認知中一種純粹的生成現象;而「世界」,卻遵循著複雜得多的規律。以地球為例,引力決定了運動規律,原子結構影響了光線的色彩與亮度,無數的物理定律限制著每一次互動。即便是最天馬行空的虛構世界,也依然由服從這些物理法則與動態行為的空間物體和智能體所構成。要讓語義、幾何、動態與物理這幾種層面在同一模型中保持一致,需要全新的方法與思路。世界的表示維度遠比語言這種「一維、序列訊號」複雜得多。要讓世界模型具備人類所擁有的那種通用能力,我們必須跨越多個艱巨的技術障礙。而在 World Labs,我們的研究團隊正致力於為實現這一目標奠定基礎性突破。以下是我們當前正在研究的一些課題示例:一種新的通用訓練任務函數為世界模型定義一個像大型語言模型(LLM)中「下一個詞預測」那樣簡單又優雅的通用任務函數,一直是該領域的核心目標。然而,由於世界模型的輸入與輸出空間更加複雜,這一函數的設計難度要高得多。儘管仍有許多未知需要探索,但這種目標函數及其對應的表示方式,必須能夠體現幾何與物理規律,忠實地反映世界模型作為「連接想像與現實的有根表示」的本質。大規模訓練資料訓練世界模型所需的資料複雜程度遠超文字資料。好消息是——龐大的資料來源已經存在。網際網路級的圖像與視訊資源,為訓練提供了豐富、可獲取的素材。真正的挑戰在於:如何開發演算法,從這些基於二維圖像或視訊幀(即 RGB 訊號)的資料中提取更深層次的空間資訊。過去十年的研究表明,語言模型的性能提升遵循「資料量與模型規模的擴展規律」;而對於世界模型來說,關鍵突破在於建構能夠在相似規模下充分利用視覺資料的模型架構。此外,我們也不應低估高品質合成資料以及深度圖、觸覺等額外模態的價值。它們在訓練過程的關鍵階段能對網際網路級資料起到補充作用。要讓這一過程更高效,還依賴於更先進的感測系統、更穩健的訊號提取演算法,以及更強大的神經模擬技術。新的模型架構與表徵學習世界模型的研究必然會推動模型架構與學習演算法的革新,特別是超越當前多模態語言模型(MLLM)和視訊擴散模型的範式。現有方法通常將資料「分詞化」為一維或二維序列,這讓一些簡單的空間任務變得異常困難——例如在短影片中數清不同的椅子,或回憶一小時前房間的佈局。新的架構可能帶來改進,比如在分詞、上下文與記憶機制中引入三維或四維感知能力。舉例來說,World Labs 最近開發的即時生成幀模型(RTFM)就是這種轉變的體現。該模型利用「以空間為基礎的幀」作為空間記憶單元,實現了高效的即時生成,同時在生成的世界中保持連續性與穩定性。顯然,我們距離通過「世界建模」徹底釋放空間智能的潛能,還有許多艱巨的挑戰要克服。這項研究不僅僅是理論探索——它是推動新一代創造性與生產力工具的核心引擎。而在 World Labs,我們已經取得了一些令人振奮的進展。最近,我們向少量使用者展示了 Marble ——首個能夠通過多模態輸入進行提示(prompt),並生成、維持一致性三維環境的世界模型。它讓使用者與創作者能夠在這些虛擬空間中探索、互動,並將其納入創作流程中繼續擴展。我們正在努力,讓 Marble 盡快向公眾開放。Marble 只是我們邁向真正具備空間智能的世界模型的第一步。隨著研究的加速推進,科研人員、工程師、使用者和商業領袖都開始認識到這項技術的非凡潛力。下一代世界模型將讓機器實現一個全新的空間智能層次——這將解鎖當今 AI 系統中仍大多缺失的關鍵能力。用「世界模型」建構更美好的人類世界推動 AI 發展的動機至關重要。作為一名參與開啟現代人工智慧時代的科學家,我的初衷始終明確:AI 應當增強人類的能力,而非取而代之。多年來,我一直致力於讓 AI 的發展、應用與治理更好地契合人類需求。如今,關於科技烏托邦與末日論的極端敘事層出不窮,但我始終保持務實的信念:AI 由人創造,為人服務,並由人類治理。它必須始終尊重人的自主性與尊嚴。AI 的真正魔力在於延展我們的能力——讓我們變得更有創造力、更具連接性、更高效,也更充實。空間智能正體現了這一願景:它是一種能賦能人類創作者、照護者、科學家與夢想家的人工智慧,幫助我們實現曾經無法實現的目標。正是這種信念,支撐著我將「空間智能」視為人工智慧下一個偉大前沿領域的決心。空間智能的應用將分階段展開。如今,創意類工具 已經開始出現——World Labs 的 Marble 已將這些能力交到創作者與故事講述者手中。機器人學是中期目標,我們正在不斷完善「感知—行動」循環,使機器能夠在物理世界中靈活操作。而最具變革性的科學應用可能需要更長時間,但它們的影響將深遠,足以促進人類福祉的全面提升。在這些不同的發展階段中,有若干關鍵領域尤為突出——它們蘊含著重新定義人類能力的巨大潛力。要實現這一目標,必然需要集體的努力——遠非一個團隊或一家公司所能獨立完成。這將需要整個 AI 生態系統的共同參與:研究者、創新者、企業家、公司乃至政策制定者,都應攜手朝著共同的願景前進。而這個願景,值得我們為之奮鬥。未來,將由此展開。創造力:為講故事與沉浸式體驗賦予超級能力「創造力就是智慧在玩耍。」這是我最喜歡的一句名言,出自我個人的英雄——愛因斯坦。在人類擁有文字之前,就已經在講故事了——在洞穴的牆壁上作畫、通過口口相傳流傳下來,並在共同的敘事中建立起整個文化。故事幫助我們理解世界,跨越時間與空間建立聯絡,探索「人類」意味著什麼。更重要的是,它幫助我們在生命與愛中找到意義。如今,空間智能有潛力徹底改變我們創作和體驗故事的方式,不僅保留其根本的重要性,還將其影響力延伸至娛樂、教育、設計、建築等多個領域。World Labs 的 Marble 平台為電影製作人、遊戲設計師、建築師以及各類講故事的人,提供了前所未有的空間能力和編輯控制權,讓他們能夠快速建立並反覆迭代可自由探索的 3D 世界,而無需傳統 3D 設計軟體所需的大量投入。創造本身依舊是充滿人性和活力的行為,AI 工具只是放大並加速了創作者的潛能。這包括:多維度敘事體驗:電影人和遊戲設計師正在利用 Marble 建構完整的虛擬世界,不再受限於預算或地理位置。他們能探索各種場景和視角,這在傳統的製作流程中幾乎是無法實現的。隨著不同媒介和娛樂形式的界限逐漸模糊,我們正邁向全新的互動式體驗形式,它融合了藝術、模擬和遊戲——一個個個性化世界,不再僅屬於大型工作室,而是任何人都可以創造和參與其中。隨著更快速的方法將創意和分鏡轉化為完整體驗,敘事將不再侷限於某一種媒介,創作者可以在各種平台和介面上建立擁有共同線索的故事世界。通過設計實現空間敘事:幾乎所有製造出來的物品或建造的空間,在實際成形之前都必須先進行虛擬 3D 設計。這個過程通常需要大量時間和金錢,且高度反覆。而借助具備空間智能的模型,建築師可以在投入數月設計前快速可視化結構,甚至可以「走進」還不存在的空間——講述我們未來如何生活、工作和聚會的故事。工業設計師和時尚設計師也可以立即將想像轉化為形體,探索物體如何與人體和空間互動。全新的沉浸式與互動體驗:體驗本身,是我們人類賦予事物意義的最深刻方式之一。在人類歷史的絕大多數時間裡,我們只擁有一個三維世界:我們共同生活的現實世界。直到近幾十年,通過電子遊戲和早期的虛擬現實(VR),我們才開始窺見由人類自己創造的另一個世界。而如今,空間智能結合虛擬現實(VR)、擴展現實(XR)頭顯以及沉浸式顯示裝置,使這些體驗達到了前所未有的高度。我們正走向一個未來——進入完整建構的多維世界將像翻開一本書一樣自然。空間智能讓世界建構能力不僅屬於擁有專業製作團隊的工作室,也屬於有故事、有想法的每一個人,包括獨立創作者、教育者以及任何想要表達願景的人。機器人技術:行動中的具身智能從昆蟲到人類,動物依靠空間智能來理解、導航並與周圍世界互動。機器人也不例外。具備空間感知能力的機器一直是機器人領域的夢想,我在史丹佛的研究實驗室與學生和合作者們的工作,也正是圍繞這一目標展開。這也是我對 World Labs 所建構的模型充滿期待的原因之一——它們有望讓這一夢想成真。通過世界模型擴展機器人學習能力:機器人學習的進步依賴於可擴展的高品質訓練資料。考慮到機器人必須學會理解、推理、規劃和互動的龐大狀態空間,許多研究者認為要真正實現通用型機器人,必須結合網際網路資料、合成模擬和現實世界中的人類示範資料。然而,與語言模型不同,機器人研究目前缺乏足夠的訓練資料。而世界模型將在其中發揮決定性作用。隨著其感知逼真度和計算效率的提升,世界模型的輸出可以迅速縮小模擬與現實之間的差距。這將有助於在無數種狀態、互動和環境的模擬中訓練機器人。成為夥伴與協作助手:機器人作為人類的協作夥伴,無論是在實驗室中輔助科學家,還是在家中幫助獨居老人,都能在勞動力緊缺和生產效率亟需提升的背景下,承擔重要角色。但要實現這一點,機器人必須具備空間智能:能夠感知、推理、規劃和行動,而且——這一點最關鍵——要能與人類的目標和行為保持情感上的一致性。例如,實驗室裡的機器人可以操作儀器,讓科學家專注於需要精細操作或邏輯推理的任務;而家用機器人可以協助老年人做飯,同時不剝奪他們的樂趣與自主性。真正具備空間智能的世界模型,能夠預測環境的下一步狀態,甚至預測符合人類預期的動作,對於實現這一目標至關重要。拓展具身形式的多樣性:類人機器人確實適用於我們為自己打造的世界,但技術創新的全部潛力,將體現在更豐富多樣的設計形式中:比如能夠輸送藥物的奈米機器人、可在狹小空間中活動的軟體機器人,以及為深海或外太空環境設計的專用機器。不論它們的外形如何,未來的空間智能模型都必須整合機器人所處的環境,以及其自身的感知與運動能力。但開發這些機器人面臨的核心挑戰之一,是缺乏適用於各種具身形式的訓練資料。世界模型將在模擬資料生成、訓練環境建構,以及任務基準測試等方面,發揮關鍵作用。更長遠的視野:科學、醫療與教育除了在創意和機器人領域的應用,空間智能還將在其他領域產生深遠影響,特別是在那些 AI 可以增強人類能力、挽救生命、加速發現的地方。我在下面重點介紹三個具有變革潛力的領域,當然,空間智能的應用遠不止於此,還將在更多行業中大展拳腳。在科學研究中,具備空間智能的系統可以模擬實驗、平行測試假設,並探索人類難以抵達的環境——從深海到遙遠的行星。這項技術將徹底改變氣候科學、材料研究等領域的計算建模方式。通過將多維模擬與真實世界的資料採集相結合,這些工具可以降低計算門檻,擴展每一個實驗室所能觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床的各個環節。在史丹佛,我的學生和合作夥伴們多年來一直與醫院、養老機構以及家庭中的病患合作。這些經驗讓我深信,空間智能在醫療中的變革潛力巨大。AI 可以通過建模分子之間的多維互動,加速藥物研發;通過輔助放射科醫生識別醫學影像中的模式,提升診斷精度;還可以實現環境感知型的監護系統,為病患和護理人員提供支援,同時不替代醫療過程中至關重要的人際聯絡。更不用說機器人在協助醫護人員和患者方面,在多種場景中也大有可為。在教育方面,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得具體可感,並創造出與人類大腦和身體學習方式高度契合的、可反覆練習的學習體驗。在 AI 時代,無論是對學齡兒童還是成年人成年人來說,更快、更有效的學習和技能再培訓都尤為關鍵。學生可以「進入」細胞機制,或親身「走過」歷史事件;教師可以借助互動式環境實現個性化教學;而從外科醫生到工程師等專業人士,也能在逼真的模擬中安全地練習複雜技能。雖然這些領域的應用前景幾乎沒有邊界,但我們的目標始終如一:用 AI 增強人類的專業能力、加速人類的發現、放大人類的關懷——而不是取代那些構成人類本質的判斷力、創造力與同理心。結語過去十年,人工智慧已成為全球現象,並在科技、經濟乃至地緣政治領域引發重大轉折。但作為一名研究者、教育者、如今也是一位創業者,最令我振奮的,仍然是圖靈在 75 年前提出的那個問題背後的精神。我依然懷有與他相同的那份好奇與敬畏之心。正是這種探索空間智能的挑戰,成為我每天的動力源泉。在人類歷史上,我們第一次有機會打造出與物理世界高度協調的機器,使它們成為我們應對重大挑戰時真正的合作夥伴。無論是在實驗室中加速對疾病的理解、徹底改變我們講述故事的方式,還是在我們因疾病、受傷或衰老而處於最脆弱狀態時給予支援,我們正站在這樣一項技術的門檻前,它將提升那些我們最在乎的生活體驗。這是一種更深刻、更豐富、更有力量的生活願景。在大約五億年前,大自然首次賦予遠古動物空間智能的萌芽。而今天,我們有幸成為這一代技術人中的一員,可能很快就能讓機器也擁有這種能力——並有機會將這項能力用來造福全世界人民。沒有空間智能,我們對「真正智慧型手機器」的夢想就無法真正實現。這個探索旅程,就是我心中的北極星。歡迎你與我一同追尋。 (APPSO)
巨大進步!李飛飛“空間智能”最新成果,單個圖像生成大規模3D世界,更持久、可導航、可控制
今天,“AI教母”、斯坦福大學教授李飛飛創辦的AI公司空間智能(World Labs)發佈了一項重磅新成果:Marble模型,可從單個圖像生成持久的3D世界,比以往更大更好。李飛飛表示:“這是3D世界生成領域取得的巨大進步,它讓我驚嘆不已!”空間智能團隊在介紹部落格中提到,這次提高了模型生成清晰、連貫的幾何圖形來代表完整的3D環境的能力,並以多種多樣的風格想像世界。使用者只需要給定一個圖像或文字提示,Marble模型就能生成一個3D世界,還可以讓你隨心所欲地探索——沒有時間限制、沒有變形、沒有不一致性。借助World Labs提供的開源渲染庫Spark,愛好者和建構者可以將生成的3D世界匯出為高斯分佈圖,並將其用於後續商業項目,例如建構基於Web的3D體驗,在桌上型電腦、筆記型電腦、移動裝置和VR頭顯上進行高效渲染。目前該公司在Marble.worldlabs.ai推出Marble模型的有限訪問Beta預覽版,使用者可以在此頁面查看和建立3D世界。技術層面的大升級據瞭解,Marble模型採用了更優的幾何結構,通過建立可導航的3D場景解決方案,讓使用者能像電影製作人一樣在連貫一致的3D場景中規劃鏡頭。對於視覺創作者而言,在連貫一致的3D世界中自由導航與互動是眾多工作流程和應用場景的核心。Marble生成的3D世界支援在使用者瀏覽器中免費進行自由視點導航,與深度圖或點雲提供的有限3D體驗不同,該模型生成的世界具有更豐富的幾何複雜性,能生成更完整的3D世界,讓使用者可以窺見輸入視角之外的景象。不過,官方表示,當前的模型只專注於建立3D環境,處理孤立或核心物體例如人物或動物還不支援。一起來看看部分使用者生成的效果:其次,Marble支援的生成風格更加多樣化,既能生成超寫實的環境,又能創造風格化的動漫世界,為遊戲或創意工作提供更多可能。生成式AI最令人興奮的特質之一是在創意過程中能自由迭代視覺效果。Marble模型可將多種不同風格的輸入內容轉化為3D形式——從扁平色彩卡通到寫實細膩的圖像,讓創作者能通過探索迭代找到最適合項目的虛擬世界。最後一個技術特徵是實現了大規模持久化的3D幾何重建,初步展示了使用者將生成空間組合成更宏大環境時的可能性——憑藉模型實現的風格一致性與幾何連貫性,Marble模型現已能流暢導航、瀏覽此類擴展世界,並為宏大場景構想多種應用方案。產品發佈上線後,有使用者問這與Google Genie項目相比如何?李飛飛回覆說,Marble生成的世界將永久存在,使用者可以隨心所欲地在世界中導航,無需支付任何費用。不斷進化的空間智能有早期使用者表示Gen-AI讓將創意轉化為人們可以分享的體驗變得異常簡單,以前需要數週時間或收集現有素材才能完成的事情,現在只需使用幾個小時就能搞定了。前Google創意技術專家、獨立開發者Cristian Peñas表示,Marble是目前使用高斯濺射生成3D世界的最佳工具。也有使用者試用後稱讚,使用介面簡單,生成質量相當不錯且驚豔,細節清晰,沒有明顯的抖動或變形,光照氛圍感也很好。在當下日新月異的AI市場中,World Labs團隊更新產品和模型的速度並不算快,上一次推出首個能夠從單張圖片生成3D世界的AI系統還是在2024年12月初,去年9月World Labs曾宣佈完成一輪2.3億美元融資,不過具體估值並未公開。好在,World Labs的Marble模型在技術上仍處於全球第一梯隊,特別是在“從單圖像生成具有高度一致性的可導航3D場景”這一細分任務上表現突出。空間智能旨在讓機器不僅能“看見”世界,更能深度理解物理世界的結構、規律並進行互動和創造,完整的空間智能需要有機整合三維感知、空間推理以及多模態生成。李飛飛曾在其個人社交平台上表示,空間智能是AI中難以解決的一個問題,但這項技術可以賦能和實現創造、設計、學習、AR/VR、機器人等領域的無數可能。她認為“空間智能”(Spatial Intelligence)是人工智慧(AI)邁向通用人工智慧(AGI)的關鍵與核心,若AI不能理解三維世界,就無法實現真正的AGI。四面而來的市場壓力World Labs所主攻的空間智能方向目前正成為熱門技術賽道,國內外廠商正在紛紛佈局,從各個維度展開競爭。例如GoogleDeepMind近期發佈的超真實世界模型Genie 3,是首個允許即時互動的世界模型,在生成內容的連貫性上堪稱質的飛躍,同時在通用性、物理規律、視覺記憶方面實現全新水平。輝達專門設有空間智能實驗室(NVIDIA Spatial Intelligence Lab),該公司打造的Omniverse平台,逐步升級為支援工業協作、元宇宙、人形機器人等場景的空間智能平台,實現跨裝置、跨軟體的即時協同與物理模擬。國內廠商如崑崙萬維在8月份發佈了首個前饋全景3D場景生成模型Matrix-3D,具備場景全域一致、生成場景範圍大、生成高度可控等特點,能根據文字和圖像輸入生成幾何結構精準、遮擋關係自然、紋理風格統一的3D場景,還支援自訂範圍與無限擴展。騰訊在9月開放原始碼的HunyuanWorld-Voyager,宣稱是業界首個支援原生3D重建的超長漫遊世界模型,一張圖就能生成3D場景和移動視角視訊,在李飛飛團隊發佈的世界模型基準測試WorldScore上綜合能力出色。作為“杭州六小龍之一”的群核科技,在今年的技術開放日上推出了空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,可根據文字描述、參考圖像和3D空間佈局,生成具有時空一致性的多視角圖像,並支援進一步生成3D高斯(3DGS)場景並渲染漫遊視訊。隨著競爭對手增多,World Labs想要獲得商業成功的挑戰正在加大。這不僅取決於能否持續保持原生空間智能技術的領先優勢,也在於相比競爭對手能否建構強大的開發者生態和產品整合,使其生成技術能輕鬆進入主流工具創作流程,並實現可規模化的商業落地模式。 (頭部科技)
“杭州六小龍”之一,更新招股書
8月22日,空間智能公司群核科技(Manycore Tech)更新赴港上市招股書,繼續衝刺“全球空間智能第一股”,摩根大通和建銀國際為聯席保薦人。今年2月14日,群核科技首次向港交所遞交招股書。群核科技在招股書中表示,由於持續投資於產品升級以支援更深層次的市場滲透,預計短期內將繼續產生大量成本及開支,2025年將錄得淨虧損。拓展新市場“杭州六小龍”之一的群核科技是雲原生空間設計軟體提供商,依託AI技術及專用圖形處理單元叢集,幫助設計師和企業完成設計創作。公司主要產品包括針對國內市場的原生空間設計軟體酷家樂,以及針對國際使用者的Coohom。據弗若斯特沙利文資料,按2024年收入計,群核科技為中國最大空間設計軟體提供商,佔23.2%市場份額。2024年中國該行業規模達33億元,預計2029年將增至66億元;全球市場2024年為192億元,2029年預計達317億元。目前,群核科技已拓展出覆蓋現實空間及具身智能訓練、電商展示等虛擬場景的多元解決方案,進軍更廣闊的通用設計及可視化軟體市場。招股書資料顯示,2024年中國空間設計軟體行業僅佔該市場的4.4%。此外,群核科技於近期升級“空間智能”飛輪戰略。據公司官網資訊,公司聚焦空間智能,明確“空間編輯工具-空間資料-空間大模型”三大核心佈局,建構正向循環的飛輪體系。群核科技相關負責人對記者表示,公司將在8月25日舉辦的群核科技TechDay上闡釋技術進展。公司經營情況改善近年來群核科技虧損情況逐步改善。2022年、2023年、2024年、2025年上半年,群核科技分別虧損7.037億元、6.461億元、5.135億元、2.261億元。2022年、2023年、2024年,公司經調整淨虧損分別為3.375億元、2.419億元、0.700億元,2025年上半年的淨利潤為0.178億元。群核科技主要採用訂閱模式營運,近年收入持續增長。2022年、2023年、2024年、2025年上半年,公司收入分別為6.006億元、6.635億元、7.548億元、3.991億元。2025年上半年收入同比增長9.4%。企業客戶貢獻了大部分的訂閱收入。2022年、2023年、2024年、2025年上半年,來自企業客戶的訂閱收入佔各期間總訂閱收入的90.1%、87.0%、85.3%及84.4%。個人客戶佔各期間公司總訂閱收入的9.9%、13.0%、14.7%及15.6%。截至2025年上半年,群核科技服務超過43.3萬名個人客戶,4.7萬名企業客戶,企業客戶、大客戶以及個人客戶的淨收入留存率分別達到101.6%、110.0%以及92.3%。毛利率方面,2022年、2023年、2024年、2025年上半年,公司毛利率分別為72.7%、76.8%、80.9%、82.1%。近三年,公司營業成本逐期下降,由2022年的1.64億元減少至2023年的1.54億元,進一步減少至2024年的1.44億元。2025年上半年,營業成本進一步降至7150萬元。支出方面,研發開支和行銷開支佔收入的比重較大。如2022年、2023年、2024年、2025年上半年,公司研發開支佔收入比重分別為72.9%、58.9%、44.7%、37.5%。AI技術也幫助公司減少了部分研發與行銷開支。公司引入AI技術提高了研發效率,如幫助簡化產品需求檔案、協助編碼工作等;通過AI技術提供線上支援,縮減行銷團隊規模。2025年上半年,公司研發開支較2024年同期減少16.8%,行銷開支較2024年同期減少20.7%。新興業務驅動值得注意的是,在電商方面,群核科技於2023年推出3D AI設計工具“酷家樂電商棚拍”,以虛擬攝影棚代替傳統實地棚拍,幫助跨境電商企業降本增效。上半年,電商AI解決方案營收同比增長188%。群核科技於今年3月推出“AI智能設計平台”,用AI賦能家居客戶建立設計方案。截至6月30日,據招股書披露資料推算,該平台3個月累計訂單金額已超1600萬元。今年上半年,群核科技軟體利用人工智慧功能生成了約11億張設計圖片,重點賦能空間設計、跨境電商行銷等行業,已初步實現了AI技術的商業化運轉。另外,物理正確的三維空間資料,對於AI走進物理世界,至關重要。群核科技頻頻發佈可服務於具身智能領域的相關產品,開拓新市場。2024年群核科技推出的群核空間智能平台(SpatialVerse),可用於虛擬環境中訓練AI生成內容(AIGC)模型,增強智慧型手機器人、AR/VR系統及具身人工智慧的認知能力。目前,在具身智能領域,SpatialVerse已與智元機器人、銀河通用、穹徹智能、智平方、松應科技等企業達成合作。今年3月,群核科技開源其空間語言模型SpatialLM。該模型通過一段視訊即可生成物理正確的3D場景佈局,突破了傳統大語言模型對物理世界幾何與空間關係的理解侷限。7月,群核科技開源3D高斯語義資料集InteriorGS,首次將3D高斯引入到AI空間訓練。截至目前,群核科技已獲得包括IDG資本、紀源資本、順為資本、雲啟資本、經緯創投、線性資本、Hearst、Pavillion、高瓴創投、Coatue等多家機構投資。 (中國證券報)
黃仁勳參投,“AI教母”李飛飛完成2.3億美元初創融資
日前,斯坦福大學教授、AI教母李飛飛的空間智能創企World Labs(空間智能)首次現身發聲:Hello,World!我們是World Labs,一家空間智能公司,致力於建構大世界模型(LWM)來感知、生成3D世界並與之互動。 李飛飛說,“電腦是通過相機和相機背後的電腦大腦看見物理世界的,把這一視覺能力轉化為推理、生成和理解物理結構的互動,就是所謂的空間智能。” World Labs官網顯示,公司已籌集了超過2.3億美元(約16億元人民幣)資金。投資者包括機構a16z、NEA恩頤投資、加拿大風險投資公司Radical Ventures,還有黃仁勳執掌的輝達。一些AI領域的知名人士,如GoogleDeepMind首席科學家Jeff Dean和被稱為“AI教父”之一的前GoogleAI研究員Geoffrey Hinton等也都是其投資人。 除了明星投資團隊,World Labs的創始團隊也都是AI領域的實力派。李飛飛在今早接受彭博科技的電視採訪時透露,團隊目前有20人,總部位於舊金山。其中,聯合創始人有4位,分別是李飛飛、Jastin Johnson、Christoph Lassner和Ben Mildenhal,他們在電腦視覺和圖形學領域有著深厚的背景和豐富的經驗。例如,Johnson博士是李飛飛的學生,曾在斯坦福大學和密歇根大學任教,而Mildenhall博士則是神經輻射場(NeRF)技術的發明者。這樣的團隊組合為公司提供了強大的技術基礎和創新能力。