#教母
矽谷炸鍋了! AI教母李飛飛萬字長文撕開行業“遮羞布”。
近期,一篇出自 “AI 教母” 李飛飛教授的萬字長文,在矽谷 AI 圈掀起軒然大波。作為曾掌舵史丹佛 AI 實驗室、憑 ImageNet 項目改寫深度學習視覺領域格局的華人頂尖專家,她此次的發聲格外重磅:“當下的 AI,不過是困在暗室裡的文字高手,能說會道卻脫離現實,本質上就是‘睜眼瞎說’。”一、李飛飛撕開AI“遮羞布”這番話看似犀利,卻精準點破了 AI 光鮮外表下的 “致命缺陷”。如今的大語言模型有多 “能打”?寫律詩、寫論文、聊量子物理,分分鐘模仿李白、杜甫的文風,邏輯縝密到讓人難辨真假。可一旦跳出文字的舒適區,面對真實的物理世界,AI 就立刻 “露餡”:讓它估算桌子到門的距離,全靠蒙;讓它預測杯子轉 90 度後的模樣,純屬猜;就連那些刷屏的 AI 生成視訊,仔細看全是破綻 —— 人物突然多根手指、物體莫名穿牆而過,說到底,都是 AI 不懂物理規律的必然結果。二、AI未來:不在大模型,在嬰兒本能李飛飛教授毫不避諱地指出:AI 行業已經走偏了方向。真正的突破口,從不是參數越來越龐大的語言模型,而是連嬰兒都有的 “空間智能”—— 這才是通往通用人工智慧(AGI)的唯一正道。那 “空間智能” 到底是什麼?其實就是人類理解、互動物理世界的本能。嬰兒靠抓、扔、咬,摸清物體的軟硬、輕重;你半夜摸黑起床倒水,不用開燈也能精準拿到杯子;朋友扔來鑰匙,你不用算拋物線就能穩穩接住。這些看似簡單的動作,背後藏著對空間、距離、物理規律的深層認知。更關鍵的是,人類文明的諸多重大突破,都離不開 “空間智能”:埃拉托斯特尼觀察影子長短,算出了地球周長;沃森和克里克搭 3D 模型,破解了 DNA 雙螺旋結構;建築師設計摩天大樓、科學家推演星體運動,本質上都是在運用對空間和物理規律的理解。而這些,是只會 “玩文字” 的大語言模型永遠做不到的。三、AI要“懂”世界:先建世界模型既然空間智能這麼重要,怎麼讓 AI 擁有它?李飛飛給出了核心方案:讓 AI 從 “語言模型” 轉向 “世界模型”。一個合格的世界模型,必須具備三大核心能力:首先,能生成符合物理定律的虛擬世界,不是天馬行空的虛構,而是遵循重力、摩擦力等基礎規律;其次,能整合文字、圖像、動作等多種資訊,不僅聽得懂你說的,還能看懂你做的;最後,也是最關鍵的,能精準預測互動結果 —— 比如知道推杯子會倒、扔球會落地,這才是 AI “看懂” 世界的關鍵。要做到這些,比訓練大語言模型難得多。語言是一維的、線性的,可世界是四維的 —— 三維空間加時間,還受無數物理定律約束。但一旦突破這個難關,AI 的能力將實現質的飛躍。四、空間智能AI:能幫人類做什麼?李飛飛團隊早已用實踐證明了空間智能的潛力:他們研發的 “抹布模型”,能讓電影製作人、遊戲設計師僅憑文字描述,就生成可互動的 3D 世界。不用學複雜的建模軟體,普通人也能當 “造物主”,搭建屬於自己的虛擬場景。這還只是開始。當 AI 真正擁有空間智能,生活將迎來巨變:機器人不再是笨拙的機器臂,能在模擬環境中學會上萬種技能,走進家庭做飯、照顧老人,走進醫院精準手術;教育領域,學生能 “穿越” 到古羅馬街道學歷史,“鑽進” 細胞裡看生物結構;科學探索中,AI 能模擬深海、外太空,幫人類探索無法抵達的領域。正如李飛飛所說:“AI 的終極目標從不是取代人類,而是為人類賦能。現在的大語言模型只是起點,真正的智能,是讓機器理解物理世界。”(AI行銷峰雲)
AI教母李飛飛最新對話:決定人類未來的不是AI,而是我們自己 | Notes
世界模型:下一場 AI 革命的起點。簡介李飛飛是全球頂尖人工智慧科學家,被譽為“現代AI之母”。她不僅是ImageNet資料集的牽頭建立者(該資料集直接推動 AI 走出 “寒冬”,催生深度學習革命),還曾擔任Google雲首席 AI 科學家、史丹佛人工智慧實驗室(SAIL)主任,更是史丹佛以人為本人工智慧研究所(HAI)的聯合創始人。在AI領域深耕 25 年,李飛飛見證並主導了從機器學習萌芽到大型語言模型爆發的關鍵歷程;如今,她創辦World Labs聚焦 “世界模型”研發,探索 AI 在空間智能與具身智能領域的新可能。本次Lenny播客對話中,李飛飛回溯了AI的進化史、拆解了ImageNet的核心價值,深入解讀“世界模型” 為何是AI的下一個前沿,還探討了機器人落地的難點、普通人參與AI的路徑,以及如何讓技術始終“以人為本”。她用親身經歷告訴我們:AI的未來不是“取代人類”,而是由人類共同塑造,每個人都能在這場變革中找到自己的角色。本期目錄人工智慧的未來,不取決於 AI,而取決於人走出 AI 寒冬:ImageNet 如何改變世界深度學習的“黃金三件套”AGI 並不近:AI 的短板遠超大眾認知世界模型:下一場 AI 革命的起點Marble:為所有人生成 3D 世界的模型機器人為什麼難?“苦澀的教訓”未必適用創始人李飛飛:競爭、人才與未知的未來以人為本的 AI:技術之外的責任致所有普通人:AI 時代,每個人都有自己的角色人工智慧的未來主持人Lenny:很多人稱你為“AI 樂觀主義者”。你真的認為 AI 不會取代人類嗎?它會如何影響未來?李飛飛:我不是烏托邦主義者,我當然知道 AI 會帶來風險、衝擊和改變。但我相信一件事:AI 是由人創造、受人啟發,並最終影響人類的技術。因此,它的走向取決於我們,而不是它自己。縱觀人類文明,每一次技術革新都是雙刃劍:寫作、蒸汽機、電力、網際網路……都帶來了風險,但也成就了現代世界。AI 也一樣——它可以造福世界,也可以被濫用,區別在於:我們是否以負責任的方式使用它。走出AI寒冬主持人Lenny:十年前,“AI公司”還是一個貶義詞。你的工作把這個領域從寒冬中帶了出來。能講講ImageNet的故事嗎?李飛飛:2000年我進入人工智慧領域,那時AI只是冷門中的冷門概念。但我一直相信,人類的絕大部分智能建立在視覺之上,因此視覺智能是AI 的核心。真正的問題是:機器缺少學習世界的“經驗”。孩子要看數百萬物體才能學會認知;機器也一樣。於是2006年,我和學生發起了ImageNet。我們的目標很簡單,也很瘋狂:給機器提供世界上最大、最乾淨的視覺學習資料。我們最終整理了:1500萬張圖像、2.2萬個概念分類、一個完整的層級體系。2012年,辛頓團隊用神經網路+ImageNet+兩塊民用GPU,在演算法上取得了歷史性突破。那一年,被視為現代深度學習的真正起點。(圖片來源:stanford)深度學習的“黃金三件套”主持人Lenny:你認為為什麼從2012年之後 AI 會突然爆發?李飛飛:因為我們終於同時擁有了三樣東西:第一,大規模乾淨的資料(Data);第二,神經網路模型(Neural Networks);第三,大規模可平行的 GPU 計算(Compute)這三者組合,形成了現代 AI 的“黃金配方”。即便今天的ChatGPT,本質仍是:海量資料、更複雜的神經網路、更多、更強的GPU。理念並沒有變,只是規模變得不可思議地大。AGI並不近:AI的短板遠超大眾認知主持人Lenny:讓我直接問一個所有人都關心的問題:我們是不是已經站在“通用人工智慧(AGI)”的懸崖邊上?這個詞幾乎被用濫了,大家都在宣稱AGI即將到來,並且它會接管一切。在你看來,我們距離AGI還有多遠?按照目前的方法能夠到達那裡嗎?還是說我們需要根本性的突破?李飛飛:這是個非常值得深入討論的詞。嚴格來說,我不知道是否存在一個被科學界普遍接受的AGI定義。它在不同人口中,涵義差距巨大:有的把AGI等同於機器的“超能力”;有的認為只要機器能在社會中作為一個經濟主體——例如靠自己的勞動謀生——那就是AGI。作為科學家,我非常謹慎。我之所以進入這個領域,是受到一個大膽問題的吸引:機器是否可以像人類一樣思考、學習和行動?對我來說,這一直是人工智慧的北極星。從這個意義上講,“AI”與“AGI”對於我沒有本質區別——只是我們是否達到了那個終極目標而已。我們在某些方面取得了巨大進展,比如對話式人工智慧。但這並不意味著我們已經跨越了所有智能的門檻。我常常想,如果艾倫·圖靈今天仍然在世,你問他AI和AGI的區別,他大概也會聳聳肩說:“我在1940年代問過同樣的問題。”所以,我並不願意掉入“AGI 定義之爭”的兔子洞。那更像是一個行銷術語,而不是科學概念。作為研究者,我們所追求的目標就是人工智慧本身,而不是一個模糊的標籤。從科學史來看,沒有任何一個學科會在某一刻宣佈“我們已經完成了,可以停止創新”。人工智慧作為人類文明中最年輕的科學技術之一,我們至今仍只觸及了表層。舉一個簡單例子:如果你給一個模型播放一段包含幾個辦公室房間的視訊,然後問它:“裡面有幾把椅子?”這是幼兒都能做到的任務,但今天的 AI 卻做不到。更不用說像牛頓那樣,從天體運動中推匯出描述萬物的方程。那種創造性、抽象性、推理能力,是目前的技術水平完全無法企及的。情感智能同樣如此。想像一個學生向老師表達困擾、討論動機、傾訴焦慮——在這些對話中所體現的情緒識別和人類理解,今天的 AI 根本無法提供。所以我認為:我們還有太多事情沒有做到,我們離終點仍相當遙遠,創新才剛剛開始。世界模型:下一場AI革命的起點主持人Lenny:你已經談論“世界模型”這個概念很多年了,甚至創辦了一家公司來建構它。世界模型與語言模型不同,是另一種方向。現在,不僅你在討論世界模型,馬斯克、黃仁勳、Google等公司也在談。你比他們更早開始這條路線,而且你最近剛發佈了重要成果。能不能先解釋一下:什麼是世界模型?為什麼它這麼關鍵?李飛飛:我很高興看到越來越多的人開始談論世界模型。但事實上,我已經思考這件事很久了,幾乎貫穿我整個職業生涯。過去幾年,大型語言模型的快速發展,無論來自學術界還是像OpenAI這樣的機構,即使對於我們這些研究者來說,也極具啟發性。我還記得GPT-2在2019年末問世的那段時間。當時我擔任史丹佛人類中心人工智慧研究所(HAI)的聯合主任。公眾對大型語言模型的理解還很有限,但我們已經看到了它的潛力,並意識到它會深刻影響未來。我和史丹佛做NLP的同事,如珀西·梁、Chris Manning等人,進行了無數次討論。我們都認定:這項技術將是革命性的。因此,HAI 成為了全球第一個成立“基礎模型研究中心”的機構,我們也發表了第一批關於基礎模型的重要論文。但我來自視覺智能領域,這意味著我一直在思考一個更長期的問題:真正的智能絕不止於語言。想像一個消防現場、車禍現場或自然災害現場。人類在這些極端環境中的行動,依賴的是:瞬間的空間意識、對物體與環境關係的理解、對場景的整體推斷、不斷變化的三維世界判斷。語言在這些任務中只佔很小的一部分,甚至在關鍵時刻根本派不上用場。與此同時,我做了大量機器人研究,而機器人進一步讓我意識到:語言之外,要讓 AI 具有行動能力、環境理解能力,核心是“空間智能”與“世界理解”。這就是世界模型的意義。它是連接視覺智能、具身智能、機器人智能的關鍵。我在2022年開始系統思考世界模型的框架,並在2024年做了一個TED演講,希望推動這個領域的公共討論。最終,我意識到:這是一件必須以“產業速度”加速的科技,需要最好的工程師、最強的科學團隊來推動。因此我創辦了World Labs。公司名字中的“World(世界)”,正是因為我們堅信——下一代 AI 的核心,不是語言,而是世界。李飛飛著書《我眼中的世界》,這是一部科學回憶錄,講述了她如何成為一名人工智慧科學家,以及現代人工智慧的誕生歷程。(圖片來源:X@Feifei Li)Marble:為所有人生成3D世界模型主持人Lenny:你創辦了World Labs,並推出了Marble。能介紹一下這是什麼嗎?李飛飛:Marble是全球第一個真正意義上的可生成完整 3D 世界的模型。只需一句話或一張圖,你就可以讓模型生成:“一個可以走進去、能探索、能修改、能推理的 3D 世界。”使用它的行業非常多:電影製作(虛擬場景生成,製作效率提升 40 倍)、遊戲開發、VR/AR 場景生成、機器人模擬訓練、心理學研究、建築與設計。這是第一次,世界建構不再只屬於專業團隊,而是屬於任何一個創作者。(圖片來源:World Labs)機器人為什麼難?主持人Lenny:為什麼“苦澀的教訓”可能並不適用於機器人?能否先解釋一下人工智慧歷史上的“苦澀的教訓”是什麼,然後談談為什麼它不能帶領機器人技術走向我們希望的方向?李飛飛:“苦澀的教訓”這個說法通常指的是圖靈獎獲得者Richard Sutton寫過的一篇文章。他總結人工智慧發展幾十年的經驗後認為:在長期競爭中,簡單模型加上海量資料往往會勝出,而複雜模型與有限資料反而不如前者有效。這篇文章是在ImageNet出現幾年後發表的某種意義上也呼應了我們為什麼需要建構大規模資料集。不過,對我來說,這不是“苦澀”的,而是“甜蜜”的教訓。我之所以建立ImageNet,就是因為我相信大規模資料在智能發展中的關鍵作用。但為什麼這條規律在機器人技術中不那麼容易奏效?原因有很多。首先,機器人資料的獲取難度遠高於語言資料。語言模型的訓練資料是文字,結構乾淨、標註明確,模型的輸入和輸出都保持一致。換句話說,語言模型擁有一個幾乎“完美對齊”的訓練體系。機器人則完全不同。機器人需要在三維物理世界中行動,而來自網際網路的大量視訊雖然提供資訊,卻無法直接告訴機器人如何完成動作。例如,一個機器人要抓起一支筆,它需要知道手臂如何移動、手指如何閉合、與物體如何接觸,這些都不是網路影片能直接提供的。因此,必須用其他方式補充資料,比如遠端操控資料、模擬環境生成的合成資料,以及未來可能由世界模型生成的資料。你剛才說得很對:機器人缺乏“在三維世界中行動”的訓練資料。這是根本難點所在。我們擁有的網路影片並不能完全滿足需求,於是需要把各種來源的資料“拼接”起來,讓機器人能夠在“巨量資料假設”下進行訓練。隨著世界模型的發展,我們未來可能會釋放更多可以用於機器人訓練的資訊,但目前仍然處在非常早期的階段,“苦澀的教訓”是否適用於機器人,還遠未到可以下結論的時候。其次,與語言模型甚至空間模型不同,機器人不僅需要“大腦”,還需要“身體”。機器人是真實的物理系統,這意味著它要面對的不僅是演算法,還有材料、機械結構、動力系統、安全性、穩定性、供應鏈、應用場景等一系列複雜問題。從這個角度看,機器人反而更接近自動駕駛汽車,而不是軟體模型。我們可以回顧自動駕駛的歷史。我的同事Sebastian Thrun在2005年左右帶領史丹佛團隊贏得了第一屆DARPA自動駕駛挑戰賽。那輛車當時能在內華達州沙漠中自動行駛130英里。從那時到現在的Waymo,無論是在技術成熟度還是在實際部署上,都經歷了將近20年,而且自動駕駛仍未完全解決所有問題。主持人Lenny:是的,即便Waymo已經能在舊金山的街道上autonomously行駛,我們仍然還有很多未攻克的難題。李飛飛:沒錯。更關鍵的是,自動駕駛其實是相對“簡單”的機器人系統。它們在二維平面上運行,主要目標是不碰到任何東西。而機器人呢?它在三維世界中運行,是一個三維物理實體,它的任務是接觸物體、抓取物體、移動物體,這比自動駕駛複雜得多。有人會說,早期的自動駕駛是在深度學習時代之前,而如今深度學習已經極大加速了機器人“腦力”的發展。這確實是事實,也是我對機器人和空間智能領域保持高度興奮的原因。但與此同時,汽車行業已經有成熟的供應鏈和硬體體系,而機器人行業在這些方面還遠未建立完善生態。機器人產品化的難度不僅在演算法,還在於硬體、製造、場景和經濟模型。這是一個非常有挑戰也非常令人興奮的時刻。但我們確實需要接受這樣一個現實:機器人領域可能仍然會經歷許多新的“痛苦教訓”。主持人Lenny:在做這些研究時,你是否會對人類大腦本身產生更多敬畏?畢竟我們能輕易做到許多機器人無法完成的事,僅僅是走路、躲避障礙、抓取物體這些動作背後都蘊含著極其複雜的機制。李飛飛:完全是這樣。我們的腦只消耗20瓦能量,比一盞普通燈泡還暗,卻能完成如此多複雜的任務。可以說,我越深入研究人工智慧,就越深刻地尊重人類智能本身的奇蹟。創始人李飛飛主持人Lenny:你作為創始人,最大的感受是什麼?李飛飛:AI創業的競爭比十年前激烈太多:頂尖人才稀缺、GPU資源昂貴、技術迭代速度驚人、型號、框架和生態極其複雜。但我一直相信兩件事:使命感,和能與我同心的團隊。無論在普林斯頓、史丹佛、Google還是現在的World Labs,我都是因為相信“某件必須被創造的事”,才做出選擇。未來仍充滿未知,但正因如此,才令人興奮。以人為本的AI:技術之外的責任主持人Lenny:你在史丹佛創辦HAI的初衷是什麼?李飛飛:因為我清楚AI的影響力已經超越技術本身。它正在改變:教育、醫療、法律、社會治理、全球政策……技術越強大,我們越需要從人文、社會科學、法律和倫理角度建立支撐體系。HAI的理念很簡單:AI必須以促進人類福祉、維護人的尊嚴為核心。沒有這一點,技術會反噬我們。史丹佛大學以人為本人工智慧研究所(HAI)的創始聯合主任、電腦科學先驅李飛飛。(圖片來源:Stanford HAI)AI 時代,每個人都有自己的角色主持人Lenny:很多人害怕被AI替代。普通人該如何面對未來?李飛飛:我想大聲告訴每一個人:AI 時代,每個人都有自己的角色。如果你是藝術家,AI是新的畫筆,而不是你的替代者。如果你是教師,AI可以提升課堂,而不是取代你。如果你是護士,AI可以減輕你的工作負擔。如果你是農民,你依然有權參與科技如何影響社區。如果你是學生,你是下一代技術的創造者。AI不應該剝奪人的尊嚴,而應成為我們的工具和助力。未來不是由AI決定,而是由我們共同決定。 (創新觀察局)
“AI教母”李飛飛發佈長文,引爆矽谷
昨日晚間,“AI教母”李飛飛發佈了一篇長文,引爆了矽谷的討論。這篇名為《從語言到世界:空間智能是AI的下一個前沿》的文章,解釋了空間智能和世界模型的關係,以及空間智能的應用範圍和所處階段。文章裡,李飛飛提出了“真正具有空間智能的世界模型”必須具備的三個核心能力:生成、多模態、互動。她還分享了World Labs在新一代任務函數、資料、模型架構與學習表示上面的進展,以及世界模型在創造力、機器人,甚至科學、醫療和教育等領域的潛力。她指出,除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。比如在醫療領域,李飛飛認為,空間智能將重塑從實驗室到病床的全過程。她表示,AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。再如教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。她指出,在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。以下為原文:從文字到世界:空間智能是AI的下一個前沿1950年,當電腦還只是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴蕩的問題:機器能思考嗎?他能看到別人尚未看到的未來,需要非凡的想像力——那就是:智能或許有一天可以被“建構”,而非“誕生”。這一洞見催生了一場持續至今的科學征程——人工智慧(AI)。在我投身AI研究的25年中,圖靈的願景依然不斷啟發著我。但我們距離那一願景有多近?答案並不簡單。今天,以大語言模型(LLM)為代表的前沿AI技術,已經開始改變人類獲取與處理抽象知識的方式。 然而,它們仍然是“黑暗中的文字匠”:能言善辯,卻無經驗;知識豐富,卻缺乏根基。空間智能(spatial intelligence)將改變我們創造和互動現實與虛擬世界的方式——徹底革新敘事、創造力、機器人學、科學發現,以及更多領域。這,正是AI的下一個前沿。自我進入這一領域以來,對視覺與空間智能的探索就一直是我的“”。這也是我為何花費多年時間建構了 ImageNet——首個大規模視覺學習與評測資料集。它與神經網路演算法、現代算力(如GPU)一道,成為孕育現代AI的三大關鍵要素。也是為何我的史丹佛實驗室在過去十年中,將電腦視覺與機器人學習相結合。同樣,這也是我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall一年前共同建立 World Labs的原因:為了第一次真正實現這一可能性。在這篇文章中,我將解釋什麼是空間智能、為什麼它重要、以及我們如何建構能夠解鎖它的“世界模型(world models)”——這種技術將深刻重塑創造力、具身智能與人類進步。空間智能:人類認知的腳手架AI從未像今天這樣令人振奮。以生成式AI為代表的模型,如LLM,已從研究室走向日常生活,成為數十億人創作、生產與交流的工具。它們展示了曾被認為不可能的能力:生成連貫的文字、成山的程式碼、逼真的圖像,甚至短影片。AI是否會改變世界?——從任何合理的定義來看,它已經做到了。然而,仍有大量潛能未被觸及。自動化機器人的願景依然誘人卻遙遠;在疾病治療、新材料發現、粒子物理等領域的研究加速夢仍未實現;真正能夠理解並賦能人類創作者的AI,無論是學習複雜分子化學概念的學生、構想空間的建築師、建構世界的電影人,還是任何希望沉浸於虛擬體驗中的人都仍未到來。要理解為何這些能力依舊難以實現,我們需要回溯:空間智能是如何演化的?它又如何塑造了我們理解世界的方式?視覺長期以來是人類智能的基石,但它的力量源自更為根本的東西。早在動物能築巢、撫育後代、用語言交流或建立文明之前,那看似簡單的“感知行為”:感受到一縷光、觸到一種質感就已經悄然點燃了通向智能的進化旅程。這種從外部世界汲取資訊的能力,在感知與生存之間搭建起一座橋樑,而這一橋樑在漫長的進化中變得愈發複雜。神經元層層疊加,形成能解釋世界、協調生物與環境互動的神經系統。因此,許多科學家認為,“感知—行動”循環成為了智能進化的核心機制,也是自然孕育出我們這個物種的根基——一個能感知、學習、思考與行動的終極存在。空間智能在我們與物理世界的互動中扮演著基礎性的角色。每天,我們都在依賴它完成最平常的動作。停車時想像車尾與路緣的距離;接住被拋來的鑰匙;在人群中穿行而不碰撞;半睡半醒間精準地將咖啡倒進杯中。在極端情況下,消防員穿行於坍塌建築與濃煙之中,瞬間判斷穩定性與生死抉擇,通過肢體語言和本能默契溝通——這些都無可言傳。而嬰兒則在學會語言前的漫長時光裡,通過玩耍與環境互動來認識世界。這一切都在直覺中、自然而然地發生——一種機器至今未能獲得的流暢能力。空間智能同樣是我們想像力與創造力的基石。講故事的人在腦中建構出豐富的世界,並用各種視覺媒介將之傳達給他人。從原始洞穴壁畫,到現代電影,再到沉浸式電子遊戲。無論是孩子在沙灘上築城堡,還是在電腦上玩《我的世界》,這種以空間為根基的想像構成了人與虛擬世界互動體驗的基礎。而在工業應用中,對物體、場景與動態互動環境的模擬則支撐著從工業設計、數字孿生到機器人訓練等無數關鍵場景。歷史上那些塑造文明的關鍵時刻中,空間智能往往扮演著核心角色。在古希臘,埃拉托色尼(Eratosthenes)通過對陰影的幾何化思考完成了驚人的壯舉——他在亞歷山大測得太陽影子形成的7度角,並與賽恩(Syene)“正午無影”的現象進行對比,從而計算出了地球的周長。哈格里夫斯(Hargreaves)發明的“珍妮紡紗機”同樣源於空間洞察:他意識到只需將多個紡錘並列安裝在一個機架上,一個工人就能同時紡出多股線,生產效率因此提高了八倍。沃森(Watson)與克里克(Crick)揭示DNA結構的突破,也依賴於他們親手搭建的三維分子模型——他們用金屬板與鐵絲不斷調整、拼接,直到鹼基對的空間排布完美契合。在這些案例中,空間智能都推動了文明的進步——當科學家與發明家需要操縱物體、想像結構、在物理空間中推理時,這些能力是純文字永遠無法承載的。空間智能(Spatial Intelligence)是支撐人類認知的腳手架。無論是被動觀察,還是主動創造,它都在默默發揮作用。它驅動我們的推理與規劃,即便是在最抽象的主題上。它同樣塑造了我們與世界互動的方式——無論是語言交流,還是身體行動,無論是與他人,還是與環境本身。雖然我們大多數人並不會每天像埃拉托色尼那樣發現新的真理,但我們幾乎時時刻刻都以同樣的方式在思考通過感官去理解這個複雜世界,並依託對物理與空間規律的直覺認知,使其變得可理解。遺憾的是,當今的AI還無法以這樣的方式思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLMs),在文字之外又引入了大量多媒體資料進行訓練,初步具備了空間感知能力:它們可以分析圖像、回答與之相關的問題,甚至生成超寫實的圖像與短影片。與此同時,借助感測器與觸覺技術的突破,最先進的機器人已經能在嚴格受限的環境中開始操控物體與工具。然而,坦率地說,AI的空間能力依然遠未接近人類水平。其侷限也顯而易見:最先進的MLLM在估計距離、方向、大小等任務上,表現往往不比隨機猜測好多少;它們無法“心智旋轉”物體——即從新角度再現同一對象的形狀;不會在迷宮中導航、識別捷徑,或預測基本的物理規律;生成的視訊雖然新奇炫目,卻常在幾秒鐘後失去連貫性。如今的頂級AI擅長閱讀、寫作、檢索與模式識別,但當涉及對物理世界的表徵或互動時,卻存在根本性侷限。我們人類理解世界的方式是整體性的:不僅僅看到“眼前的東西”,還理解它們在空間上的關係、在語義上的意義、以及在現實中的重要性。而這種通過想像、推理、創造與互動來理解世界的能力,正是空間智能的力量。缺乏它,AI就與它所試圖理解的物理現實脫節。它將無法真正安全地駕駛汽車、無法在家庭與醫院中引導機器人、無法創造全新的沉浸式學習與娛樂體驗、也無法加速材料科學與醫學的發現。哲學家維特根斯坦曾寫道:“語言的邊界就是我世界的邊界”。我不是哲學家,但我知道,對AI而言,世界不止於語言。空間智能代表著超越語言的前沿。它連接想像、感知與行動,為機器真正提升人類生活打開了新的可能:從醫療到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何打造擁有空間智能的AI?如何讓模型具備:像埃拉托色尼那樣的空間推理能力,像工業設計師那樣的工程精度,像講故事的人那樣的創造性想像力,以及像應急救援人員那樣與環境流暢互動的能力?要實現這樣的AI,我們需要比LLM更具雄心的體系:世界模型(World Models)。這是一種全新的生成式模型,其在理解、推理、生成與互動方面的能力,將超越當今LLM所能觸及的極限。它能夠在語義、物理、幾何與動態層面上,理解並生成複雜的虛擬或真實世界。這一領域尚處於萌芽階段,現有方法從抽象推理模型到視訊生成系統不等。World Labs成立於2024年初,正是基於這樣一種信念:基礎性方法仍在形成之中,而這將成為未來十年人工智慧的決定性挑戰。在這個新興領域中,最重要的是確立指導發展方向的核心原則。對於空間智能而言,我將“世界模型”定義為具備以下三項核心能力的系統:1、生成性(Generative):世界模型能夠生成具有感知、幾何與物理一致性的世界要實現空間理解與推理,世界模型必須能夠生成自身的模擬世界。它應能在語義或感知指令的引導下,生成無限多樣、變化豐富的虛擬世界,同時保持幾何、物理與動態上的一致性,無論這些世界是現實的還是虛擬的。研究界目前正在探索,這些世界應當以隱式(implicit)還是顯式(explicit)的幾何結構形式表示。除了強大的潛在表徵(latent representations)之外,我認為通用世界模型的輸出還應當允許生成顯式、可觀測的世界狀態,以便適應不同的應用場景。尤其重要的是,模型對當下世界的理解必須與其過去的狀態保持連貫一致——理解當前,就是理解它是如何演化而來的。2、多模態(Multimodal):世界模型在設計上就是多模態的正如人類與動物一樣,世界模型應能處理多種形式的輸入。在生成式AI領域中,這些輸入被稱為“提示詞(prompts)”。面對不完整的資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作,世界模型都應能預測或生成儘可能完整的世界狀態。這要求模型既要以真實視覺的精度處理圖像輸入,又能以同樣的靈活性理解語義性指令。如此一來,無論是智能體還是人類,都能通過多樣的輸入形式與模型就“世界”進行交流, 並以多樣的方式接收輸出。3、互動性(Interactive):世界模型能根據輸入動作輸出下一個狀態最後,當動作(actions)和/或目標(goals)作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一個狀態。這一狀態可以是隱式的,也可以是顯式的。當輸入僅包含一個動作(有無目標皆可)時,世界模型應能生成與世界先前狀態、預期目標狀態(如有)、以及其語義意義、物理規律、動態行為相一致的輸出。隨著空間智能世界模型在推理與生成能力上不斷增強,我們可以想像,未來模型不僅能預測世界的下一個狀態,還將能夠基於該狀態預測下一步行動。這一挑戰的規模,超越了AI以往所面臨的一切。語言是人類認知中純粹生成的現象,而“世界”遵循的規則則複雜得多。在地球上,例如:重力決定運動,原子結構決定光的顏色與亮度,無數物理定律約束著一切互動。即使是最奇幻、最具創造性的世界,也由遵守物理與動態規律的空間對象與智能體構成。要在模型中一致地協調這些——語義、幾何、動力學與物理層面——需要全新的方法論。因為“世界”的維度遠比語言這種一維的序列訊號複雜得多。要實現像人類一樣具備普適空間智能的世界模型,必須跨越若干巨大的技術壁壘。在World Labs,我們的研究團隊正致力於這一目標的基礎性突破。以下是我們當前研究的幾個方向示例:一種新的通用訓練任務函數:在世界模型研究中,一個長期目標是定義一種像LLM中“下一個token預測”一樣簡潔優雅的通用任務函數。然而,世界模型輸入與輸出空間的複雜性使這一函數的設計更加困難。儘管仍有大量探索空間,但這一目標函數及其對應表徵必須符合幾何與物理規律,忠實體現世界模型在想像與現實之間的“落地表徵”本質。大規模訓練資料:訓練世界模型所需的資料遠比文字複雜。好消息是我們已經擁有了龐大的資料資源。網際網路上規模宏大的圖像與視訊集合為訓練提供了豐富的素材。挑戰在於:如何讓演算法從二維圖像或視訊幀(RGB)中提取更深層次的空間資訊。過去十年的研究揭示了語言模型中資料量與模型規模的scaling law;對於世界模型,關鍵在於建構能夠在相似規模上有效利用視覺資料的架構。此外,高品質的合成資料以及額外模態(如深度、觸覺)的作用不可低估,它們在訓練過程的關鍵階段起到補充作用。未來的發展取決於更先進的感測系統、更穩健的訊號提取演算法、以及更強大的神經模擬方法。新的模型架構與表徵學習:世界模型研究將不可避免地推動模型架構與學習演算法的革新,特別是超越當下的多模態LLM與視訊擴散模型(video diffusion)。這些模型通常將資料編碼為一維或二維序列,使得簡單的空間任務,例如在短影片中數清不同的椅子,或記住一小時前房間的樣子變得異常困難。新的架構思路或許能改進這一點,例如具備3D或4D感知能力的token化、上下文與記憶機制。例如,在World Labs,我們最近開發了一種基於幀的即時生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空間為基礎的幀(spatially-grounded frames)作為空間記憶形式,實現了高效即時生成的同時,保持了生成世界的持續性與一致性。顯然,在完全釋放空間智能的潛力之前,我們仍面臨艱巨的挑戰。但這項研究不僅僅是理論工作,它正成為新一代創造性與生產力工具的核心引擎。在World Labs的進展令人鼓舞。我們最近向部分使用者展示了Marble的早期版本——全球首個可通過多模態輸入生成並保持一致性3D環境的世界模型,讓使用者與創作者能夠探索、互動並在其中繼續建構他們的創意世界。我們正全力以赴,努力盡快將其向公眾開放。Marble只是我們的第一步。隨著研究的加速,科研人員、工程師、使用者與商業領袖們都開始意識到這一方向的巨大潛能。下一代世界模型將使機器在空間智能上達到全新的層次,這將開啟AI迄今仍普遍缺乏的核心能力,並真正讓人工智慧進入理解與創造世界的時代。用世界模型為人類建構更美好的世界人工智慧的發展動機至關重要。作為推動現代AI時代到來的科學家之一,我的動機始終十分明確:AI應當增強人類的能力,而非取而代之。多年來,我一直致力於讓AI的開發、部署與治理與人類需求保持一致。當下關於“技術烏托邦”與“世界末日”的極端敘事比比皆是,但我依然持一種更務實的立場:AI是由人開發、被人使用、並由人治理的。它必須始終尊重人的自主性與尊嚴。它的“魔力”在於拓展我們的能力,讓我們變得更具創造力、更緊密相連、更高效並更有成就感。空間智能正體現了這一願景——一種能賦能人類創造者、照護者、科學家與夢想家的AI,使他們實現曾經不可能的目標。這一信念,正是我將空間智能視為AI下一個偉大前沿領域的根本原因。空間智能的應用橫跨不同的時間尺度。創作工具正在當下出現——World Labs的 Marble 已經讓創作者與講故事的人能夠親手掌握這種能力。機器人領域則代表著中期的雄心目標,我們正致力於完善感知與行動之間的閉環。而最具變革意義的科學應用可能需要更長時間,但它們將深刻地促進人類的福祉。在所有時間線中,有幾個領域的潛力尤其突出,足以重塑人類的能力。要實現這些潛力,需要集體努力遠超任何一個團隊或公司的能力範圍。它需要整個AI生態系統的參與:研究者、創新者、創業者、企業家,乃至政策制定者,共同朝著一個願景努力。而這個願景,值得我們追求。以下是未來的圖景:創造力:為敘事與沉浸體驗注入超能力“創意,是智慧的樂趣。”這是我最喜歡的愛因斯坦名言之一。在人類發明文字之前,我們就會講故事——把故事畫在洞穴壁上,代代相傳,並以共享的敘事建立文化。故事是人類理解世界、跨越時空連接彼此、探索“人之為人”的方式,也是我們在生活與愛中尋找意義的途徑。今天,空間智能有潛力徹底變革我們創作與體驗敘事的方式,從娛樂到教育,從設計到建造,賦予它們更深遠的影響力。World Labs的Marble平台 將前所未有的空間表達能力與編輯控制權交到電影人、遊戲設計師、建築師及各類講述者手中,讓他們無需傳統3D設計軟體的繁複流程,就能快速創造、迭代、探索完整的三維世界。創造的行為依然是人類的核心活動——AI只是放大並加速創意實現的過程。這包括:多維敘事體驗:電影人和遊戲設計師可以利用Marble 建構整個世界,不受預算或地理限制,探索傳統製作流程中無法實現的場景與視角。隨著媒介與娛樂的界限模糊化,我們正接近一種全新的互動體驗形態——融合藝術、模擬與遊戲的個性化世界,讓任何人(而不僅僅是大型工作室)都能創造並進入自己的故事。以設計講述空間故事:幾乎所有被製造的物品或建造的空間,都必須在物理實現之前經過虛擬3D設計——這一過程往往耗費大量時間與成本。借助空間智能模型,建築師可以在數分鐘內可視化並漫遊尚不存在的建築;工業或時裝設計師可以即時將想像轉化為形態,探索物體與人體及空間的互動。全新的沉浸與互動體驗:人類體驗的最深層方式之一,就是創造意義的體驗本身。在整個人類歷史上,我們只共享一個三維世界:物理世界。直到近幾十年,通過遊戲與早期虛擬現實(VR),我們才得以初步窺見“自造世界”的可能。如今,空間智能結合VR、XR(擴展現實)頭顯與沉浸式顯示裝置,將這種體驗提升到前所未有的高度。未來,人們“走進”多維世界將如同打開一本書般自然。空間智能讓造世界的權力從專業團隊擴展到每一位擁有願景的創作者、教育者與普通人。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航並與世界互動。機器人也不會例外。自該領域誕生以來,“具備空間感知的機器”就是人類的夢想,包括我在史丹佛研究實驗室與學生、合作者共同進行的研究。正因如此,我對用 World Labs 建構的模型實現這一願景感到異常興奮。更長遠的地平線:科學、醫療與教育除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。以下我將重點介紹三個具有深刻變革潛力的方向。當然,空間智能的應用遠不止於此,它的影響範圍幾乎遍及所有行業。在科學研究中,具備空間智能的系統可以模擬實驗、平行驗證假設,並探索人類無法親臨的環境——從深海到遙遠的行星。這項技術有望徹底變革氣候科學、材料研究等領域的計算建模方式。通過將多維度模擬與真實世界資料採集相結合,這些工具能顯著降低計算壁壘,拓展每一個實驗室可觀察與理解的邊界。在醫療領域,空間智能將重塑從實驗室到病床的全過程。在史丹佛,我與學生及合作者多年來一直與醫院、養老機構以及居家患者合作。這些經驗讓我深信空間智能在醫療領域的變革潛力。AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。在教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。跨越這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結 語過去十年間,人工智慧已成為全球現象,在科技、經濟乃至地緣政治層面都帶來了轉折。然而,作為一名研究者、教育者和創業者,最令我振奮的仍是圖靈七十五年前那道問題背後的精神。我依然與他共享那份好奇與驚嘆——正是這份好奇,讓我每天都為探索空間智能的挑戰而充滿動力。人類歷史上第一次,我們正站在這樣一個時刻:有望建構出與物理世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。無論是加速疾病研究、革新故事敘述方式,還是在病痛、受傷或衰老的脆弱時刻給予支援,我們都正處於一場技術變革的門檻上,它將提升我們最珍視的生命價值。這是一個關於更深刻、更豐富、更有力量的生活的願景。距自然在原始動物中首次顯現空間智能的曙光已近五億年,而我們有幸成為這一代技術創造者——可能即將賦予機器同樣能力的人類,也有幸能將此能力用於全人類的福祉。若沒有空間智能,我們關於“真正智慧型手機器”的夢想將永遠不完整。這場探索,是我的“北極星”。邀請你一同追尋它。 (路邊消息社)
李飛飛最新長文火爆矽谷
空間智能,是AI的下一個前沿。剛剛,AI教母李飛飛發表長文,首次系統性地解釋了什麼空間智能、為什麼重要以及如何建構能夠解鎖它的世界模型。文章裡,李飛飛不僅提出了“真正具有空間智能的世界模型”必須具備的三個核心能力:生成(Generative):能創造遵守物理定律、空間一致的世界;多模態(Multimodal):能處理從圖像、視訊到動作的多模態輸入;互動(Interactive):能預測世界隨時間演變或互動的狀態。而且,還分享了World Labs在新一代任務函數、資料、模型架構與學習表示上面的進展,以及世界模型在創造力、機器人,甚至科學、醫療和教育等領域的潛力。一經發出,點贊者眾,瘋傳者廣,都成熱文熱搜趨勢了——將空間智能融入世界模型(LWMs)有望推動大語言模型(LLMs)實現下一次質的飛躍。一旦因果推理能力和能效達到相應水平,我們就將站在通往通用人工智慧的拐點上。好了,不多說了。接下來,我們一起看看李飛飛這篇從文字到世界(from words to worlds)的宣言吧。以下是全文:從文字到世界:空間智能是AI的下一個前沿1950年,當電腦還只是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴蕩的問題:機器能思考嗎?他能看到別人尚未看到的未來,需要非凡的想像力——那就是:智能或許有一天可以被“建構”,而非“誕生”。這一洞見催生了一場持續至今的科學征程——人工智慧(AI)。在我投身AI研究的25年中,圖靈的願景依然不斷啟發著我。但我們距離那一願景有多近?答案並不簡單。今天,以大語言模型(LLM)為代表的前沿AI技術,已經開始改變人類獲取與處理抽象知識的方式。 然而,它們仍然是“黑暗中的文字匠”:能言善辯,卻無經驗;知識豐富,卻缺乏根基。空間智能(spatial intelligence)將改變我們創造和互動現實與虛擬世界的方式——徹底革新敘事、創造力、機器人學、科學發現,以及更多領域。這,正是AI的下一個前沿。自我進入這一領域以來,對視覺與空間智能的探索就一直是我的“北極星”。這也是我為何花費多年時間建構了 ImageNet——首個大規模視覺學習與評測資料集。它與神經網路演算法、現代算力(如GPU)一道,成為孕育現代AI的三大關鍵要素。也是為何我的史丹佛實驗室在過去十年中,將電腦視覺與機器人學習相結合。同樣,這也是我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall一年前共同建立 World Labs的原因:為了第一次真正實現這一可能性。在這篇文章中,我將解釋什麼是空間智能、為什麼它重要、以及我們如何建構能夠解鎖它的“世界模型(world models)”——這種技術將深刻重塑創造力、具身智能與人類進步。空間智能:人類認知的腳手架AI從未像今天這樣令人振奮。以生成式AI為代表的模型,如LLM,已從研究室走向日常生活,成為數十億人創作、生產與交流的工具。它們展示了曾被認為不可能的能力:生成連貫的文字、成山的程式碼、逼真的圖像,甚至短影片。 AI是否會改變世界?——從任何合理的定義來看,它已經做到了。然而,仍有大量潛能未被觸及。自動化機器人的願景依然誘人卻遙遠;在疾病治療、新材料發現、粒子物理等領域的研究加速夢仍未實現;真正能夠理解並賦能人類創作者的AI,無論是學習複雜分子化學概念的學生、構想空間的建築師、建構世界的電影人,還是任何希望沉浸於虛擬體驗中的人都仍未到來。要理解為何這些能力依舊難以實現,我們需要回溯:空間智能是如何演化的?它又如何塑造了我們理解世界的方式?視覺長期以來是人類智能的基石,但它的力量源自更為根本的東西。早在動物能築巢、撫育後代、用語言交流或建立文明之前,那看似簡單的“感知行為”:感受到一縷光、觸到一種質感就已經悄然點燃了通向智能的進化旅程。這種從外部世界汲取資訊的能力,在感知與生存之間搭建起一座橋樑,而這一橋樑在漫長的進化中變得愈發複雜。神經元層層疊加,形成能解釋世界、協調生物與環境互動的神經系統。因此,許多科學家認為,“感知—行動”循環成為了智能進化的核心機制,也是自然孕育出我們這個物種的根基——一個能感知、學習、思考與行動的終極存在。空間智能在我們與物理世界的互動中扮演著基礎性的角色。每天,我們都在依賴它完成最平常的動作。停車時想像車尾與路緣的距離;接住被拋來的鑰匙;在人群中穿行而不碰撞;半睡半醒間精準地將咖啡倒進杯中。在極端情況下,消防員穿行於坍塌建築與濃煙之中,瞬間判斷穩定性與生死抉擇,通過肢體語言和本能默契溝通——這些都無可言傳。而嬰兒則在學會語言前的漫長時光裡,通過玩耍與環境互動來認識世界。這一切都在直覺中、自然而然地發生——一種機器至今未能獲得的流暢能力。空間智能同樣是我們想像力與創造力的基石。講故事的人在腦中建構出豐富的世界,並用各種視覺媒介將之傳達給他人。從原始洞穴壁畫,到現代電影,再到沉浸式電子遊戲。無論是孩子在沙灘上築城堡,還是在電腦上玩《我的世界》,這種以空間為根基的想像構成了人與虛擬世界互動體驗的基礎。而在工業應用中,對物體、場景與動態互動環境的模擬則支撐著從工業設計、數字孿生到機器人訓練等無數關鍵場景。歷史上那些塑造文明的關鍵時刻中,空間智能往往扮演著核心角色。在古希臘,埃拉托色尼(Eratosthenes)通過對陰影的幾何化思考完成了驚人的壯舉——他在亞歷山大測得太陽影子形成的7度角,並與賽恩(Syene)“正午無影”的現象進行對比,從而計算出了地球的周長。哈格里夫斯(Hargreaves)發明的“珍妮紡紗機”同樣源於空間洞察:他意識到只需將多個紡錘並列安裝在一個機架上,一個工人就能同時紡出多股線,生產效率因此提高了八倍。沃森(Watson)與克里克(Crick)揭示DNA結構的突破,也依賴於他們親手搭建的三維分子模型——他們用金屬板與鐵絲不斷調整、拼接,直到鹼基對的空間排布完美契合。在這些案例中,空間智能都推動了文明的進步——當科學家與發明家需要操縱物體、想像結構、在物理空間中推理時,這些能力是純文字永遠無法承載的。空間智能(Spatial Intelligence)是支撐人類認知的腳手架。無論是被動觀察,還是主動創造,它都在默默發揮作用。它驅動我們的推理與規劃,即便是在最抽象的主題上。它同樣塑造了我們與世界互動的方式——無論是語言交流,還是身體行動,無論是與他人,還是與環境本身。雖然我們大多數人並不會每天像埃拉托色尼那樣發現新的真理,但我們幾乎時時刻刻都以同樣的方式在思考通過感官去理解這個複雜世界,並依託對物理與空間規律的直覺認知,使其變得可理解。遺憾的是,當今的AI還無法以這樣的方式思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLMs),在文字之外又引入了大量多媒體資料進行訓練,初步具備了空間感知能力:它們可以分析圖像、回答與之相關的問題,甚至生成超寫實的圖像與短影片。與此同時,借助感測器與觸覺技術的突破,最先進的機器人已經能在嚴格受限的環境中開始操控物體與工具。然而,坦率地說,AI的空間能力依然遠未接近人類水平。其侷限也顯而易見:最先進的MLLM在估計距離、方向、大小等任務上,表現往往不比隨機猜測好多少;它們無法“心智旋轉”物體——即從新角度再現同一對象的形狀;不會在迷宮中導航、識別捷徑,或預測基本的物理規律;生成的視訊雖然新奇炫目,卻常在幾秒鐘後失去連貫性。如今的頂級AI擅長閱讀、寫作、檢索與模式識別,但當涉及對物理世界的表徵或互動時,卻存在根本性侷限。我們人類理解世界的方式是整體性的:不僅僅看到“眼前的東西”,還理解它們在空間上的關係、在語義上的意義、以及在現實中的重要性。而這種通過想像、推理、創造與互動來理解世界的能力,正是空間智能的力量。缺乏它,AI就與它所試圖理解的物理現實脫節。它將無法真正安全地駕駛汽車、無法在家庭與醫院中引導機器人、無法創造全新的沉浸式學習與娛樂體驗、也無法加速材料科學與醫學的發現。哲學家維特根斯坦曾寫道:“語言的邊界就是我世界的邊界”。我不是哲學家,但我知道,對AI而言,世界不止於語言。空間智能代表著超越語言的前沿。它連接想像、感知與行動,為機器真正提升人類生活打開了新的可能:從醫療到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何打造擁有空間智能的AI?如何讓模型具備:像埃拉托色尼那樣的空間推理能力,像工業設計師那樣的工程精度,像講故事的人那樣的創造性想像力,以及像應急救援人員那樣與環境流暢互動的能力?要實現這樣的AI,我們需要比LLM更具雄心的體系:世界模型(World Models)。這是一種全新的生成式模型,其在理解、推理、生成與互動方面的能力,將超越當今LLM所能觸及的極限。它能夠在語義、物理、幾何與動態層面上,理解並生成複雜的虛擬或真實世界。這一領域尚處於萌芽階段,現有方法從抽象推理模型到視訊生成系統不等。World Labs成立於2024年初,正是基於這樣一種信念:基礎性方法仍在形成之中,而這將成為未來十年人工智慧的決定性挑戰。在這個新興領域中,最重要的是確立指導發展方向的核心原則。對於空間智能而言,我將“世界模型”定義為具備以下三項核心能力的系統:1、生成性(Generative):世界模型能夠生成具有感知、幾何與物理一致性的世界要實現空間理解與推理,世界模型必須能夠生成自身的模擬世界。它應能在語義或感知指令的引導下,生成無限多樣、變化豐富的虛擬世界,同時保持幾何、物理與動態上的一致性,無論這些世界是現實的還是虛擬的。研究界目前正在探索,這些世界應當以隱式(implicit)還是顯式(explicit)的幾何結構形式表示。除了強大的潛在表徵(latent representations)之外,我認為通用世界模型的輸出還應當允許生成顯式、可觀測的世界狀態,以便適應不同的應用場景。尤其重要的是,模型對當下世界的理解必須與其過去的狀態保持連貫一致——理解當前,就是理解它是如何演化而來的。2、多模態(Multimodal):世界模型在設計上就是多模態的正如人類與動物一樣,世界模型應能處理多種形式的輸入。在生成式AI領域中,這些輸入被稱為“提示詞(prompts)”。面對不完整的資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作,世界模型都應能預測或生成儘可能完整的世界狀態。這要求模型既要以真實視覺的精度處理圖像輸入,又能以同樣的靈活性理解語義性指令。如此一來,無論是智能體還是人類,都能通過多樣的輸入形式與模型就“世界”進行交流, 並以多樣的方式接收輸出。3、互動性(Interactive):世界模型能根據輸入動作輸出下一個狀態最後,當動作(actions)和/或目標(goals)作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一個狀態。這一狀態可以是隱式的,也可以是顯式的。當輸入僅包含一個動作(有無目標皆可)時,世界模型應能生成與世界先前狀態、預期目標狀態(如有)、以及其語義意義、物理規律、動態行為相一致的輸出。隨著空間智能世界模型在推理與生成能力上不斷增強,我們可以想像,未來模型不僅能預測世界的下一個狀態,還將能夠基於該狀態預測下一步行動。這一挑戰的規模,超越了AI以往所面臨的一切。語言是人類認知中純粹生成的現象,而“世界”遵循的規則則複雜得多。在地球上,例如:重力決定運動,原子結構決定光的顏色與亮度,無數物理定律約束著一切互動。即使是最奇幻、最具創造性的世界,也由遵守物理與動態規律的空間對象與智能體構成。要在模型中一致地協調這些——語義、幾何、動力學與物理層面——需要全新的方法論。因為“世界”的維度遠比語言這種一維的序列訊號複雜得多。要實現像人類一樣具備普適空間智能的世界模型,必須跨越若干巨大的技術壁壘。在World Labs,我們的研究團隊正致力於這一目標的基礎性突破。以下是我們當前研究的幾個方向示例:一種新的通用訓練任務函數:在世界模型研究中,一個長期目標是定義一種像LLM中“下一個token預測”一樣簡潔優雅的通用任務函數。然而,世界模型輸入與輸出空間的複雜性使這一函數的設計更加困難。儘管仍有大量探索空間,但這一目標函數及其對應表徵必須符合幾何與物理規律,忠實體現世界模型在想像與現實之間的“落地表徵”本質。大規模訓練資料:訓練世界模型所需的資料遠比文字複雜。好消息是我們已經擁有了龐大的資料資源。網際網路上規模宏大的圖像與視訊集合為訓練提供了豐富的素材。挑戰在於:如何讓演算法從二維圖像或視訊幀(RGB)中提取更深層次的空間資訊。過去十年的研究揭示了語言模型中資料量與模型規模的scaling law;對於世界模型,關鍵在於建構能夠在相似規模上有效利用視覺資料的架構。此外,高品質的合成資料以及額外模態(如深度、觸覺)的作用不可低估,它們在訓練過程的關鍵階段起到補充作用。未來的發展取決於更先進的感測系統、更穩健的訊號提取演算法、以及更強大的神經模擬方法。新的模型架構與表徵學習:世界模型研究將不可避免地推動模型架構與學習演算法的革新,特別是超越當下的多模態LLM與視訊擴散模型(video diffusion)。這些模型通常將資料編碼為一維或二維序列,使得簡單的空間任務,例如在短影片中數清不同的椅子,或記住一小時前房間的樣子變得異常困難。新的架構思路或許能改進這一點,例如具備3D或4D感知能力的token化、上下文與記憶機制。例如,在World Labs,我們最近開發了一種基於幀的即時生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空間為基礎的幀(spatially-grounded frames)作為空間記憶形式,實現了高效即時生成的同時,保持了生成世界的持續性與一致性。顯然,在完全釋放空間智能的潛力之前,我們仍面臨艱巨的挑戰。但這項研究不僅僅是理論工作,它正成為新一代創造性與生產力工具的核心引擎。在World Labs的進展令人鼓舞。我們最近向部分使用者展示了Marble的早期版本——全球首個可通過多模態輸入生成並保持一致性3D環境的世界模型,讓使用者與創作者能夠探索、互動並在其中繼續建構他們的創意世界。我們正全力以赴,努力盡快將其向公眾開放。Marble只是我們的第一步。隨著研究的加速,科研人員、工程師、使用者與商業領袖們都開始意識到這一方向的巨大潛能。下一代世界模型將使機器在空間智能上達到全新的層次,這將開啟AI迄今仍普遍缺乏的核心能力,並真正讓人工智慧進入理解與創造世界的時代。用世界模型為人類建構更美好的世界人工智慧的發展動機至關重要。作為推動現代AI時代到來的科學家之一,我的動機始終十分明確:AI應當增強人類的能力,而非取而代之。多年來,我一直致力於讓AI的開發、部署與治理與人類需求保持一致。當下關於“技術烏托邦”與“世界末日”的極端敘事比比皆是,但我依然持一種更務實的立場:AI是由人開發、被人使用、並由人治理的。它必須始終尊重人的自主性與尊嚴。它的“魔力”在於拓展我們的能力,讓我們變得更具創造力、更緊密相連、更高效並更有成就感。空間智能正體現了這一願景——一種能賦能人類創造者、照護者、科學家與夢想家的AI,使他們實現曾經不可能的目標。這一信念,正是我將空間智能視為AI下一個偉大前沿領域的根本原因。空間智能的應用橫跨不同的時間尺度。創作工具正在當下出現——World Labs的 Marble 已經讓創作者與講故事的人能夠親手掌握這種能力。機器人領域則代表著中期的雄心目標,我們正致力於完善感知與行動之間的閉環。而最具變革意義的科學應用可能需要更長時間,但它們將深刻地促進人類的福祉。在所有時間線中,有幾個領域的潛力尤其突出,足以重塑人類的能力。要實現這些潛力,需要集體努力遠超任何一個團隊或公司的能力範圍。它需要整個AI生態系統的參與:研究者、創新者、創業者、企業家,乃至政策制定者,共同朝著一個願景努力。而這個願景,值得我們追求。以下是未來的圖景:創造力:為敘事與沉浸體驗注入超能力“創意,是智慧的樂趣。”這是我最喜歡的愛因斯坦名言之一。在人類發明文字之前,我們就會講故事——把故事畫在洞穴壁上,代代相傳,並以共享的敘事建立文化。故事是人類理解世界、跨越時空連接彼此、探索“人之為人”的方式,也是我們在生活與愛中尋找意義的途徑。今天,空間智能有潛力徹底變革我們創作與體驗敘事的方式,從娛樂到教育,從設計到建造,賦予它們更深遠的影響力。World Labs的Marble平台 將前所未有的空間表達能力與編輯控制權交到電影人、遊戲設計師、建築師及各類講述者手中,讓他們無需傳統3D設計軟體的繁複流程,就能快速創造、迭代、探索完整的三維世界。創造的行為依然是人類的核心活動——AI只是放大並加速創意實現的過程。這包括:多維敘事體驗:電影人和遊戲設計師可以利用 Marble 建構整個世界,不受預算或地理限制,探索傳統製作流程中無法實現的場景與視角。隨著媒介與娛樂的界限模糊化,我們正接近一種全新的互動體驗形態——融合藝術、模擬與遊戲的個性化世界,讓任何人(而不僅僅是大型工作室)都能創造並進入自己的故事。以設計講述空間故事:幾乎所有被製造的物品或建造的空間,都必須在物理實現之前經過虛擬3D設計——這一過程往往耗費大量時間與成本。借助空間智能模型,建築師可以在數分鐘內可視化並漫遊尚不存在的建築;工業或時裝設計師可以即時將想像轉化為形態,探索物體與人體及空間的互動。全新的沉浸與互動體驗:人類體驗的最深層方式之一,就是創造意義的體驗本身。在整個人類歷史上,我們只共享一個三維世界:物理世界。直到近幾十年,通過遊戲與早期虛擬現實(VR),我們才得以初步窺見“自造世界”的可能。如今,空間智能結合VR、XR(擴展現實)頭顯與沉浸式顯示裝置,將這種體驗提升到前所未有的高度。未來,人們“走進”多維世界將如同打開一本書般自然。空間智能讓造世界的權力從專業團隊擴展到每一位擁有願景的創作者、教育者與普通人。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航並與世界互動。機器人也不會例外。自該領域誕生以來,“具備空間感知的機器”就是人類的夢想,包括我在史丹佛研究實驗室與學生、合作者共同進行的研究。正因如此,我對用 World Labs 建構的模型實現這一願景感到異常興奮。通過世界模型擴展機器人學習:機器人的學習進步取決於可擴展的訓練資料方案。要讓機器人具備理解、推理、規劃與互動的能力,它們需要覆蓋極為龐大的狀態空間。許多研究者認為,網際網路資料、合成模擬資料與人類演示的真實採集三者結合,是實現可泛化機器人的關鍵。然而,與語言模型不同,如今機器人的訓練資料極為稀缺。世界模型將在此發揮決定性作用。 隨著其感知精度與計算效率的提高,世界模型生成的輸出將迅速縮小模擬與現實之間的差距,從而讓機器人能在數不清的狀態、互動與環境中學習。人機協作夥伴:無論是實驗室中協助科學家的研究助理機器人,還是陪伴獨居老人的家用助理,機器人都可以擴展勞動力並提升社會生產力。但要做到這一點,機器人必須具備空間智能——能感知、推理、規劃、行動,並且最重要的是:保持對人類目標與行為的同理一致。例如,實驗室機器人可以替代科學家完成儀器操作,讓人專注於需要推理的部分;家庭助理機器人則可以幫助老人做飯,而不剝奪他們的樂趣與自主性。真正具備空間智能的世界模型能夠預測下一個狀態,甚至推斷與之匹配的下一步行動,是實現這一願景的關鍵。擴展的具身形態:人形機器人只是我們為自身世界打造的一個形式。真正的創新紅利將來自更加多樣的設計:輸送藥物的奈米機器人、穿行狹窄空間的軟體機器人、以及為深海或外太空而造的機器。無論形態如何,未來的空間智能模型都必須將環境與機器人自身的感知、運動一體化建模。但開發這些機器人面臨的關鍵挑戰在於:缺乏多樣化形態的訓練資料。世界模型將在這一過程中發揮關鍵作用——為模擬資料、訓練環境與評測任務提供支援。更長遠的地平線:科學、醫療與教育除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。以下我將重點介紹三個具有深刻變革潛力的方向。當然,空間智能的應用遠不止於此,它的影響範圍幾乎遍及所有行業。在科學研究中,具備空間智能的系統可以模擬實驗、平行驗證假設,並探索人類無法親臨的環境——從深海到遙遠的行星。這項技術有望徹底變革氣候科學、材料研究等領域的計算建模方式。通過將多維度模擬與真實世界資料採集相結合,這些工具能顯著降低計算壁壘,拓展每一個實驗室可觀察與理解的邊界。在醫療領域,空間智能將重塑從實驗室到病床的全過程。在史丹佛,我與學生及合作者多年來一直與醫院、養老機構以及居家患者合作。這些經驗讓我深信空間智能在醫療領域的變革潛力。AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。在教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。跨越這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結語過去十年間,人工智慧已成為全球現象,在科技、經濟乃至地緣政治層面都帶來了轉折。然而,作為一名研究者、教育者和創業者,最令我振奮的仍是圖靈七十五年前那道問題背後的精神。我依然與他共享那份好奇與驚嘆——正是這份好奇,讓我每天都為探索空間智能的挑戰而充滿動力。人類歷史上第一次,我們正站在這樣一個時刻:有望建構出與物理世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。無論是加速疾病研究、革新故事敘述方式,還是在病痛、受傷或衰老的脆弱時刻給予支援,我們都正處於一場技術變革的門檻上,它將提升我們最珍視的生命價值。這是一個關於更深刻、更豐富、更有力量的生活的願景。距自然在原始動物中首次顯現空間智能的曙光已近五億年,而我們有幸成為這一代技術創造者——可能即將賦予機器同樣能力的人類,也有幸能將此能力用於全人類的福祉。若沒有空間智能,我們關於“真正智慧型手機器”的夢想將永遠不完整。這場探索,是我的“北極星”。邀請你一同追尋它。 (量子位)
AI教母李飛飛引爆矽谷!LLM大語言模型路線錯了,空間智能才是走向AGI的唯一路徑 | 附原文
“它們如同身處暗室的文字巨匠——能言善辯卻缺乏經驗,知識淵博卻脫離現實。”當“AI教母”、頂尖科學家李飛飛用這句話來定義今天所有的大語言模型時,她一針見血地指出了一個殘酷的現實:儘管AI看似無所不能,但它們其實都“活在黑暗中”。它們會寫詩、會畫畫,甚至會製作以假亂真的視訊,但卻無法理解一個杯子旋轉90度後會是什麼樣子,也無法讓一個虛擬人真正地遵守物理定律。在李飛飛看來,這種窘境的根源在於,我們一直以來都走錯了方向。AI的下一步,不是更大的語言模型,而是要賦予它們一種連嬰兒都與生俱來的能力——空間智能 (Spatial Intelligence)。 這,才是通往真正通用人工智慧的唯一路徑。01. 靈魂拷問:為什麼AI還是“睜眼瞎”?原文很長,我們先來點直觀的。你讓AI寫首詩,它分分鐘變身李白杜甫;但你讓AI做幾個簡單的物理題,比如:· “我把這個杯子轉90度,它長什麼樣?”· “這個迷宮的出口在那裡?”· “估算一下桌子到門的距離?”AI的回答,基本靠“蒙”。只要留意,那些看起來很酷的AI視訊裡,都會有各種“穿幫”鏡頭:一個人的手突然多了一根手指,或者物體毫無徵兆地穿牆而過。李飛飛就此一針見血地指出:因為它們不懂物理世界。它們無法真正理解距離、大小、方向和物理規律。所以,儘管我們對AI的期待是科幻電影裡的全能管家,但現實卻是:· 我們依然沒有能在家幫我們做家務的機器人。· AI在藥物研發、新材料發現等需要理解3D結構的領域,進展緩慢。· AI無法真正理解建築師、遊戲設計師或電影導演腦中的“世界”。02. 藏寶圖中缺失的那塊拼圖:空間智能AI缺失的“空間智能”,到底是什麼?李飛飛說,它是我們人類認知的“腳手架”。早在我們學會說話、寫字之前,就已經掌握了這項能力:· 嬰兒會花一到兩年時間,通過抓、扔、咬、看,來理解這個世界。· 你側方停車時,你的大腦在飛速計算保險槓和馬路牙子的距離有多遠。· 朋友把鑰匙扔給你,你不用拿紙筆計算拋物線,憑下意識就能接住。· 你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。李飛飛還舉例說,甚至人類的偉大發現、文明進步都少不了這種能力:· 古希臘的埃拉托斯特尼是通過觀察兩地影子的角度不同,從而計算出的地球周長。· 哈格里夫斯發明出“珍妮紡紗機”,靠的也是對空間的觀察和理解。· 沃森和克里克是通過親手搭建3D分子模型,“拼”出的DNA雙螺旋結構。李飛飛認為,空間智能是人類想像力、創造力以及和世界互動的基礎。遺憾的是,當下的AI基本沒有這個能力。03. AI的下一步:從“語言模型”到“世界模型”那麼,怎麼讓AI“開眼”看世界呢?李飛飛給出了自己的答案:AI的未來,不在於更大的“語言模型”(LLM),而在於全新的“世界模型”(World Models)。她認為,一個真正的“世界模型”,必須是“三位一體”的:· 生成性(Generative):它必須能創造出符合物理、幾何規律的3D世界。比如,它“知道”重力,知道物體會下落,知道水會往低處流。· 多模態(Multimodal):它必須能處理一切輸入。比如不僅能聽懂你說的“話”,還要能看懂圖片、視訊、深度資訊、甚至你的一個“手勢”。· 互動性(Interactive):這是最關鍵的。當你告訴它一個“動作”,它必須能預測出“下一秒會發生什麼”。比如“推一下積木”,它就知道積木會倒。李飛飛坦言,這個挑戰比訓練語言模型要難得多。她解釋道,語言是一維的、序列化的訊號,而世界是四維的(三維空間+時間),受重力、物理定律等無數複雜規則的約束。李飛飛透露,她一年前和他人共同創立了World Labs,以及最近向少數使用者展示的第一個世界模型Marble,都是為了攻克這個難題。04. 這將如何改變我們的生活?一旦AI擁有了空間智能,那才是一場真正的革命。首先,是“超能力”般的創造力。李飛飛團隊World Labs正在研發的Marble模型,能讓電影製作人、遊戲設計師、建築師用“提示詞”快速建立和迭代3D世界。未來,這些人不再需要學習複雜的3D軟體,只需要用語言描述,就能生成一個可以走進、與之互動的3D世界。屆時,人人都能成為“造物主”。其次,是真正的“具身智能”。機器人將不再是“笨手笨腳”的機器臂。在“世界模型”的加持下,它們會在模擬環境中學會成千上萬種實用技能,然後走進我們的家庭、醫院,成為得力的助手和看護。此外,李飛飛特別提到,這樣的AI將成為未來科學與教育的“加速器”。· 醫療:AI可以在多維度上模擬分子間的相互作用,加速藥物的發現處理程序,也或幫助醫生分析影像,為患者和護理人員提供持續支援。· 教育:學生不再只是看書,而是可以“走進”古羅馬的街道,或者親身“探究”細胞內部。教師可以借助互動環境教學,專業人士則可以在高度逼真的模擬環境中練習並掌握複雜技能。· 科研:通過模擬深海、外太空等人類無法親自到達的環境,我們可以擴大科學探索的範圍;通過將多維度模擬與真實世界資料採集相結合,拓展實驗室觀察與理解的邊界。05. 結語:AI的終點,是“為人類賦能”作為幫助開啟了現代AI時代的科學家之一,李飛飛在文章的最後,回歸了她最核心的人文關懷。她強調,AI的終極目標,絕非取代人類,而是“為人類賦能”:“讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。”她認為,AI由人開發、由人使用、由人管理,必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更有效率。“空間智能”代表的正是這樣一個“更深刻、更豐富、更有力量的生活的願景”。它有望“建構出與真實世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。”也許,機器的真正智能,就將從這篇“啟示錄”開始。【以下是李飛飛長文全文】跨越語言,構築世界:空間智能——AI的下一個前沿(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)1950年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈 (Alan Turing) 提出了一個至今仍迴響不絕的問題:機器能思考嗎?能夠想像他所預見的一切,需要非凡的想像力:有朝一日,智能或許可以被建構,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧” (Artificial Intelligence, AI) 的不懈科學探索。在我自己投身AI領域的二十五年裡,圖靈的願景依舊激勵著我。但我們離它還有多近?答案並非一言兩語能說清。如今,以大語言模型 (Large Language Models, LLMs) 為代表的前沿AI技術已開始改變我們獲取和處理抽象知識的方式。它們都是“能言善辯的書呆子”,滿腹經綸,卻“不親民”。而空間智能 (Spatial Intelligence) 將改變我們創造以及與真實和虛擬世界互動的方式——它將徹底變革故事敘述、創造力、機器人技術、科學發現等諸多領域。這正是AI的下一個前沿。自踏入該領域以來,對視覺和空間智能的追求一直是指引我的“北極星”。正因如此,我花費數年時間建構了ImageNet——首個大規模視覺學習和基準測試資料集,它與神經網路演算法和現代計算裝置如圖形處理器 (Graphics Processing Units, GPUs)一道,成為催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛大學的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,一年多以前,我與聯合創始人賈斯汀·約翰遜 (Justin Johnson)、克里斯托夫·拉斯納 (Christoph Lassner)、本·米爾登霍爾 (Ben Mildenhall) 一道共同創立了World Labs:為了首次將這一可能性全面地變為現實。·在本文中,我將闡釋什麼是空間智能,它為何重要,以及我們正在如何建構將解鎖這一能力的世界模型 (World Models)——其影響將重塑創造力、具身智能 (Embodied Intelligence) 和人類的進步。空間智能:人類認知的腳手架AI從未像現在這樣激動人心。生成式AI模型,如大語言模型,已從研究實驗室走入日常生活,成為數十億人進行創造、提高生產力和溝通的工具。它們展現了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、照片般逼真的圖像,甚至短影片片段。AI是否會改變世界,這已不再是個問題。無論以何種合理的定義來看,它都已經做到了。然而,仍有太多事物遙不可及。自主機器人的願景依舊引人入勝,但仍停留在推測階段,遠未成為未來學家們長期承諾的日常生活的一部分。在治癒疾病、新材料發現和粒子物理學等領域實現研究大幅加速的夢想,在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學中複雜的概念,輔助建築師進行空間可視化,協助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也依然遙不可及。要瞭解為何這些能力仍然難以實現,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來都是人類智能的基石,但其力量源於更為根本的東西。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,“感知”這一簡單的行為就已悄然開啟了一段通往智能的進化之旅。這種看似孤立的、從外部世界收集資訊的能力——無論是感知一縷微光還是觸摸一種質地——在感知與生存之間建立了一座橋樑,而這座橋樑隨著世代更迭而愈發堅固和精巧。神經元在這座橋樑上層層生長,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知和行動成為了驅動智能進化的核心循環,也是大自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著至關重要的角色。每一天,我們都依賴它來完成最普通不過的行為:通過想像保險槓與路緣之間不斷縮小的間隙來停車;接住從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而不發生碰撞;你半夜起床倒水,不開燈也能摸到杯子並把水倒進去。。在更極端的情況下,消防員在倒塌的建築中穿越不斷變化的濃煙,對結構的穩定性和生存機會做出瞬間判斷,並通過手勢、肢體語言和一種共同的職業本能進行交流,這種本能是任何語言都無法替代的。而嬰幼兒在學會說話前的數月甚至數年裡,完全通過與環境進行充滿趣味的互動來學習這個世界。所有這一切都發生得直觀而自然——這是機器尚未能達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種形式的視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》(Minecraft),基於空間的想像力都構成了在真實或虛擬世界中進行互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生 (Digital Twins)再到機器人訓練等無數關鍵的商業用例提供了動力。歷史上充滿了由空間智能扮演核心角色的、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼 (Eratosthenes) 將影子轉化為幾何學——在太陽直射賽印 (Syene) 的那一刻,他在亞歷山大港測量出7度的夾角——從而計算出地球的周長。哈格里夫斯 (Hargreaves) 的“珍妮紡紗機” (Spinning Jenny) 通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排排列在一個框架中,讓一名工人可以同時紡多根紗線,生產效率提高了八倍。沃森 (Watson) 和克里克 (Crick) 通過親手搭建三維分子模型發現了DNA的結構,他們不斷擺弄金屬板和金屬絲,最終將鹼基對的空間排列“拼”了出來。在每一個案例中,當科學家和發明家需要操縱物體、將結構可視化並對物理空間進行推理時,空間智能都推動了文明的進步——而這些都無法僅用文字來捕捉。空間智能是我們認知賴以建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是針對最抽象的話題。它對於我們互動的方式至關重要——無論是口頭還是身體上的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都能像埃拉托斯特尼那樣揭示新的真理,但我們通常都以同樣的方式思考——通過感官感知來理解一個複雜的世界,然後利用一種直觀的理解,來掌握它在物理和空間層面是如何運作的。不幸的是,今天的AI還不會這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型 (Multimodal LLMs, MLLMs),除了文字資料外,還利用大量的多媒體資料進行訓練,從而引入了一些基本的空間意識,如今的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能在高度受限的環境中操縱物體和工具。然而,坦率的現實是,AI的空間能力仍遠未達到人類水平,其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成物體來進行“心理旋轉”等任務上,最先進的多模態大語言模型模型的表現很少能超過隨機猜測。它們無法走出迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然是新生事物,而且確實很酷——往往在幾秒鐘後就會失去連貫性。雖然目前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但同樣是這些模型,在表徵或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體性的——不僅僅是我們正在看什麼,還包括所有事物在空間上的相互關係、它們的意義以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,AI就與其試圖理解的物理現實脫節了。它無法有效地駕駛我們的汽車,無法在我們家中和醫院裡引導機器人,無法為學習和娛樂創造全新的沉浸式和互動式體驗,也無法加速材料科學和醫學領域的發現。哲學家維特根斯坦 (Wittgenstein) 曾寫道:“我語言的極限意味著我世界的極限。”我不是哲學家。但我知道,至少對於AI而言,世界遠不止於文字。空間智能代表了超越語言的前沿——這種能力將想像、感知和行動聯絡在一起,並為機器真正提升人類生活開啟了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的AI?如何才能打造出能夠像埃拉托斯特尼那樣用視覺進行推理,像工業設計師那樣進行精密工程設計,像故事講述者那樣富有想像力地創造,以及像急救人員那樣流暢地與環境互動的模型?建構具備空間智能的AI需要比大語言模型更宏大的目標:世界模型 (World Models),這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠超當今大語言模型的範疇。該領域尚處萌芽階段,目前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初正是基於這一信念而創立:基礎性方法仍在確立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:·生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界。要解鎖空間理解和推理,世界模型也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——同時保持幾何、物理和動態上的一致性——無論這些世界代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其固有的幾何結構。此外,我相信一個通用的世界模型除了需要強大的潛在表徵外,還必須能夠為其輸出生成一種顯式的、可觀察的世界狀態,以適應多種不同的用例。特別是,它對當下的理解必須與它的過去、與導致當前狀態之前的世界狀態,連貫一致。·多模態:世界模型在設計上就是多模態的。正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域中稱為“提示詞” (prompts)。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它能以真實視覺的保真度處理視覺輸入,同時以同等的流暢度解讀語義指令。這使得智能體和人類都能通過多種輸入與模型就世界進行交流,並反過來接收多種輸出。·互動性:世界模型能根據輸入的動作輸出下一個狀態。最後,如果動作和/或目標是給世界模型的提示詞的一部分,那麼其輸出必須包括世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個帶或不帶目標狀態的動作作為輸入時,世界模型應產生一個與世界先前狀態、任何預期的目標狀態,以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在其推理和生成能力上變得越來越強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這項挑戰的範圍超過了AI以往所面臨的任何挑戰。雖然語言純粹是人類認知的一種生成現象,但世界遵循的規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最具創意的世界,也是由遵循定義它們的物理定律和動態行為的空間物體和智能體組成的。要將所有這一切——語義、幾何、動態和物理——協調一致,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維順序訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個艱巨的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中“預測下一個Token” (nexttoken prediction) 那樣簡潔優雅的通用任務函數,長期以來一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數在形式化上天生就更加困難。儘管仍有許多尚待探索之處,但這個目標函數及相應的表徵必須反映幾何和物理定律,尊重世界模型作為想像與現實的“親民”表徵這一根本性質。大規模訓練資料: 訓練世界模型需要比文字處理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集代表了豐富、易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量與模型規模之間的縮放定律 (scaling laws) 的力量;世界模型的關鍵突破在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法以及遠為強大的神經模擬方法。新的模型架構和表徵學習: 世界模型的研究將不可避免地推動模型架構和學習演算法的進步,尤其是在當前的多模態大語言模型和視訊擴散範式之外。這兩種範式通常將資料“Token化”為一維或二維序列,這使得簡單的空間任務變得不必要地困難——比如計算一個短影片中不重複椅子的數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於“Token化”、上下文和記憶的三維或四維感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式、基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持所生成世界的一致性。顯然,在我們能通過世界建模完全解鎖空間智能之前,我們仍面臨著艱巨的挑戰。這項研究不僅僅是一次理論演練,它是催生一類新型創造力和生產力工具的核心引擎。而World Labs內部的進展一直令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致的三維環境的世界模型,供使用者和故事講述者在他們的創作工作流中進行探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展的加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的層面上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的關鍵能力。用世界模型為人們建構一個更美好的世界AI發展的動機至關重要。作為幫助開創現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取而代之。多年來,我一直致力於使AI的開發、部署和治理與人類的需求保持一致。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:AI由人開發,由人使用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;讓我們更具創造力、更緊密相連、更富生產力、更感充實。空間智能正代表了這一願景——AI賦能人類的創造者、照護者、科學家和夢想家,去實現曾經不可能的事情。正是這一信念,驅動著我致力於將空間智能作為AI下一個偉大的前沿。空間智能的應用橫跨不同的時間線。創造性工具正在湧現——World Labs的Marble已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長的時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得追求。以下便是那個未來所蘊含的可能:創造力:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在尋開心。”這是我個人英雄阿爾伯特·愛因斯坦 (Albert Einstein) 的一句名言,也是我最喜歡的一句。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義,以及最重要地,在我們內心找到生命意義和愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速創造和迭代完全可探索的三維世界,而無需傳統三維設計軟體的繁重開銷。創造性行為本身依然如故,充滿活力且富於人性;AI工具只是放大和加速了創造者所能達成的成就。這包括:·新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來創造出不受預算或地理限制的完整世界,探索在傳統製作流程中難以駕馭的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並沉浸在自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再受限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。·通過設計實現空間敘事: 基本上,每一個製造出來的物體或建造出來的空間,在其實體創造之前,都必須在虛擬三維空間中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以快速將結構可視化,而無需投入數月時間進行設計,他們可以在尚未存在的空間中漫步——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業和時尚設計師可以即時將想像轉化為形式,探索物體如何與人體和空間互動。·全新的沉浸式和互動式體驗: 體驗本身是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同分享的物理世界。僅僅在近幾十年來,通過遊戲和早期的虛擬現實 (virtual reality, VR),我們才開始瞥見分享我們自己創造的另類世界意味著什麼。現在,空間智能與新的產品形態,如VR和擴展現實 (Extended Reality, XR) 頭戴裝置以及沉浸式顯示器相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入完全實現的多維世界將變得像打開一本書一樣自然。空間智能使得世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是向個人創作者、教育工作者以及任何有願景分享的人開放。機器人技術:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之日起就是人們的夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性如此興奮。·通過世界模型擴展機器人學習: 機器人學習的進展取決於一個可擴展的、可行的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料十分稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。·伴侶與合作者: 機器人作為人類的合作者,無論是輔助實驗室裡的科學家,還是協助獨居老人,都可以在急需更多勞動力和生產力的領域擴展部分勞動力。但這需要具備感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助手可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態,甚至可能預測與此期望一致的行動的、真正具備空間智能的世界模型,對於實現這一目標至關重要。·擴展具身形式: 人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部益處將來自更多樣化的設計:輸送藥物的奈米機器人,穿梭於狹小空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所棲息的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰在於,缺乏這些多種多樣的具身形態的訓練資料。世界模型將在模擬資料、訓練環境和基準測試任務等方面為這些努力發揮關鍵作用。更長遠的視野:科學、醫療保健和教育除了創意和機器人應用,空間智能的深遠影響還將擴展到那些AI能以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都具有廣闊的前景。·在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。·在醫療保健領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、養老院和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維模擬分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代康復所需的人際聯絡的情況下支援患者和護理人員,更不用說機器人在許多不同場景下幫助我們的醫護人員和患者的潛力了。·在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和技能再培訓的需求,對學齡兒童和成年人而言都尤為重要。學生可以在多維空間中探索細胞機器或漫步於歷史事件。教師可以通過互動環境獲得個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的一個拐點。但作為一名研究者、教育者,以及現在的企業家,最能激勵我的,仍然是圖靈75年前那個問題背後的精神。我仍然分享著他的那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以在面對最嚴峻的挑戰時,將它們視為真正的夥伴。無論是加速我們在實驗室中理解疾病的方式,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們都正處在一項技術的前沿,它將提升我們最關心的生活方面。這是一個更深刻、更豐富、更有力量的生活願景。在大自然於遠古動物身上釋放出空間智能的第一縷微光近五億年後,我們有幸成為能夠很快賦予機器同樣能力的這一代技術人員——並有幸利用這些能力為世界各地的人們造福。我們對真正智慧型手機器的夢想,沒有空間智能是無法完整的。 (網易科技)
“AI教母”李飛飛的全新世界模型問世!一張輝達AI晶片就能生成無限3D世界
“AI教母”、美國華人科學家、史丹佛大學電腦科學教授、World Labs聯合創始人兼CEO李飛飛的全新“世界模型”問世。10月17日消息,李飛飛的World Labs於今晨發佈全新即時生成式世界模型——RTFM(Real-Time Frame Model,即時幀模型)。據悉,RTFM是一款基於大規模視訊資料進行端到端訓練、效率極高的自回歸擴散Transformer模型。其核心突破在於不依賴顯式3D表徵,僅通過輸入1張或多張 2D圖像,就能直接生成不同視點的全新2D圖像,被業內稱為“學會渲染的 AI”。通過訓練,該模型已能精準建模3D幾何、反射、陰影等複雜物理現象,還可利用稀疏照片重建真實地點。李飛飛表示,僅需一塊輝達H100 GPU晶片,RTFM模型就能即時渲染出持久且3D一致的場景,無論是真實空間還是虛擬想像場景,均可實現互動式體驗。“那些能隨算力增長優雅擴展的簡潔方法終將在AI領域佔據主導,因為它們能享受數十年來推動技術發展的算力成本指數級下降紅利。生成式世界模型正處在絕佳位置,必將從持續降低的算力成本中獲益。”李飛飛團隊在文章中表示。對此,前Google高級工程師Rui Diao發文評價稱,RTFM最新成果真正解決了,長期困擾世界模型可擴展性的問題。實際上,所謂空間智能,是指人們或機器在三維空間中的感知、理解和互動能力。這一概念最早由美國心理學家霍華德·加德納(Howard Gardner)在多元智能理論中提出,讓大腦中形成一個外部空間世界的模式,並能夠運用和操作。空間智能讓人有能力以三度空間的方式來思考,使人知覺到外在和內在的影像,也能重現、轉變或修飾影像,從而能夠在空間中從容地遊走,隨心所欲地操弄物件的位置,以產生或解讀圖形的訊息。從廣義上看,空間智能不僅包括對空間方位的感知能力,還包括視覺辨別能力和形象思維能力。而對於機器而言,空間智能則是指其在三維空間中的視覺資料處理能力,能夠精準作出預測,並基於這些預測採取行動。這種能力使得機器能夠像人類一樣在複雜的三維世界中導航、操作和決策,從而超越傳統二維視覺的侷限。李飛飛曾坦言,視覺能力引發了寒武紀大爆發,神經系統的進化帶來了智能。“我們想要的不僅僅是能看會說的 AI,我們想要的是能做的 AI。”而隨著新一輪生成式AI技術的到來,“空間智能+世界模型”成為AGI重要發展路徑之一。強大的世界模型能夠即時重建、生成並模擬具有持久性、可互動且物理精確的世界,這類模型技術將徹底改變軟體、機器人等很多領域和產業。在李飛飛看來,空間智能與世界模型是解決 AI 技術難題的關鍵法寶。相對於其他世界模型技術,李飛飛團隊認為,在世界模型的性能不變下,需要減少單卡算力資源投入,用性價比更高的方式解決世界模型和空間智能的即時互動問題。若直接套用現有視訊架構,生成60幀的4K互動視訊流每秒需產生超過10萬個token(約等於《弗蘭肯斯坦》或首部《哈利·波特》的篇幅),而要維持一小時以上的持續互動,需處理的上下文token更將突破1億大關,但基於當前計算基礎設施,這既不可行也不具備經濟性。因此,今年3月,李飛飛聯合Ben Mildenhall、Justin Johnson、Christoph Lassner三位學者創立World Labs,並研發出RTFM——具備高效性、可擴展性、持久性三大核心優勢。其中,高效性體現在單塊H100 GPU即可支撐互動式影格率推理;可擴展性方面,其通用端到端架構能隨資料與算力增長不斷最佳化;持久性則依靠“帶位姿幀空間記憶”與“上下文調度”技術,實現世界場景“永不消逝”,使用者長時間互動也能保持場景一致性。融資方面,今年9月,World Labs宣佈獲得2.3億美元(約合人民幣16億元)融資,由a16z、NEA恩頤投資和Radical Ventures領投,AMD、Adobe、Databricks的風投部門和Shinrai Investments LLC,更有黃仁勳執掌的輝達創投部門參與投資。公司團隊約24人,其中包括李飛飛在內共4位聯合創始人,而華人面孔約佔據了三分之一。公開報導顯示,World Labs成立3個月估值便達到10億美元(約合70億元)。對於World Labs未來規劃,投資人曾透露,李飛飛團隊第一階段將建構一個對三維、物理以及空間和時間概念有深入理解的空間智能大模型LWM;接下來大模型將支援AR;再之後,大模型將作用於機器人技術,改進自動駕駛汽車、自動化工廠、人形機器人等領域。李飛飛表示,團隊最早將在2025年推出產品,並表示現在只是剛起步,在盈利模式等問題上有很多邊界需要突破,相信團隊能夠解決。除了World Labs,李飛飛還在打造Behavior視覺挑戰比賽,希望能複製當年ImageNet的成功——ImageNet已成為深度學習革命的關鍵催化劑,並正式開啟以深度學習為核心的AI熱潮,因此李飛飛被視為“讓AI真正看懂世界”的推動者之一。李飛飛認為,建立Behavior的靈感來自我們在機器人學習中遇到的三個主要痛點:1、任務缺乏標準化,研究往往依賴隨機設定,導致不同論文之間難以比較;2、缺乏統一的任務體系,很多研究任務非常短、非常侷限;3、缺乏訓練資料。今年10月,李飛飛正式發佈了Behavior 1K,也就是Behavior 1000挑戰。這是一個面向具身智能與機器人研究的綜合模擬基準與訓練環境。它包含了1000個任務,主要聚焦在日常家庭環境中的“長時序任務”(long-horizon tasks),也就是需要多個動作步驟才能完成的真實任務。Behavior為全球研究者提供了一個開放原始碼的訓練與評測平台,讓不同機構可以在相同標準下訓練演算法、進行比較和評估。“更讓我興奮的是,我們正處在一個文明性的轉折時刻:語言、空間、視覺、具身智能等多種AI技術正在融合,並開始真正改變人類社會。只要我們始終把‘以人為本’放在心中,這些技術就能成為造福人類的力量。”李飛飛近期表示。李飛飛團隊表示,未來World Labs將進一步增強模型動態場景模擬與使用者互動功能,更大規模模型有望帶來更優性能。 (鈦媒體AGI)
台灣“金融教母”侯金英辭世,95歲仍準點上班,長壽靠一招秘笈
被譽為台灣“金融教母”的遠東商業銀行董事長侯金英,於10月3日凌晨辭世,享耆壽95歲。侯金英的父親,是“台南幫”祖師爺侯雨利,丈夫梁國樹是前“央行”副總裁。17年前,她放下教鞭,出任遠東商銀董事長,90多歲仍堅持準點上班;據說,她長壽靠一招秘笈,家裡不裝電梯,儘量多爬樓梯。台灣“金融教母”侯金英辭世,享耆壽 95歲遠東商銀董事長侯金英(左)與副董事長徐旭東(右)出席股東會10月3日凌晨,遠東商銀董事長侯金英女士辭世,享耆壽95歲。17年前,侯金英受遠東集團董事長徐旭東之邀,出任遠東商業銀行董事長時,已是七十多歲高齡了,今年5月她還主持股東常會,並希望三年內讓遠東商銀達到總資產1兆元新台幣的目標。就在今年8月,已是90多歲高齡的她才宣佈於9月啟動“金英講座”課程,沒想到10月就辭世。遠東商銀在發佈董事長侯金英辭世公告時,除了表達全體員工萬般不捨,還宣佈暫由徐旭東代理董事長,待臨時股東會推舉繼任者。侯金英掌舵遠東商銀之前,一直執掌教鞭,她曾是政治大學銀行系(注,現為金融系)主任,大半輩子在政大培育英才。1995年,丈夫梁國樹去世後,為了完成先夫遺願,妻承夫志接下台灣金融研訓院董事長,培養金融人才。侯金英(左)與參加5月股東會的徐旭東(右)、總經理周添財(中)侯金英雖未任一官半職,但“桃李滿天下”,她被譽為台灣“金融教母”,被稱為全台灣最重要金融領袖的推手,學生遍及整個金融行業。她的學生包括現任“央行”總裁楊金龍,行政部門前負責人林全、“金管會”前主委黃天牧、財政部門前負責人呂橘誠等,都是她的門生。曾擔任政治大學教授及銀行系主任,並創辦台灣金融研訓院的侯金英,以培育未來的金融人才為己任,她“春風化雨”,深諳學生個性“因材施教”,並經常以自身經驗教導學生:“一定要喜歡自己的工作,才能走得長遠。”據說,針對學生、曾擔任金融監管機構負責人黃天牧“身段柔軟”個性,侯金英贈送他一座琉璃雄獅,叮囑“要凶一點”;而她送給曾執掌財政部門的呂橘誠則是一雙小狗布偶,提醒他在壓力下也要懂得紓解。侯金英與徐旭東一起主持遠東商業銀行股東會2008年,侯金英受遠東二代掌門人徐旭東之邀,出任遠東商業銀行董事長,而徐旭東則屈尊為副董事長,在擔任遠東銀行董事長長達17年間,已是90多歲高齡的她,依然與所有職員一樣,準時上班。侯金英的座右銘是“敬業、盡責、凡事善解”,這短短8個字,是她一生奉行的教育與人生哲理,也顯示她對金融工作的熱愛和奉獻。值得一提的是,在今年5月22日召開的股東常會上,95歲的侯金英與徐旭東、以及總經理周添財一起主持股東會,當時提出遠東銀行在整合關係資源的同時,希望三年內總資產達到1兆元新台幣的目標。在侯金英主持下,遠東商銀2024年總資產增長8%,達到8535億元新台幣,且獲利續創新高。《一波說》注意到,此次股東會,除了提出AI數位進擊新邊界,更提出資產品質構造護城河之經營主軸。據說,侯金英之所以長壽,其有一招養生秘笈,就是儘量多爬樓梯,家裡也不安裝電梯。過去,她受訪時曾透露,想健康就要多運動,因此她每天至少爬三層樓梯,家裡也不裝電梯。平常,她不挑食,會與員工吃便當。出身“台南幫”顯赫世家,丈夫曾得到蔣經國賞識侯金英侯金英的丈夫梁國樹,也是台灣金融界知名人物。梁國樹,1930年12月出生於南投,從台灣大學經濟學畢業後,獲得美國范登堡大學研究院經濟學碩士、博士,並曾任該校客座教授。在學術上,他以財金和產經見長。梁國樹身棲學政兩界,年輕時被徵召轉入政界,曾任“中央銀行”副總裁等職,且獲得時任行政部門負責人蔣經國的賞識,出任多項要職。受傳統教育影響的侯金英,在丈夫梁國樹1995年離世之前,一直在政治大學執掌教鞭,在家扮演“賢內助”角色。丈夫離世後,侯金英接下台灣金融研訓院董事長,除了培訓金融人才,還推動台灣金融證照制度。也因此測試制度的推動,讓金融研訓院有了固定財源收入。“台南幫”創辦人侯雨利(中)侯金英,是“台南幫”創辦人、人稱“台南幫”祖師爺侯雨利的小女兒,現任台南紡織董事長侯博明就是她的娘家侄兒。在六七十年代的台灣,有“南侯北王”之說。其中,“南侯”就是“台南幫”創始人、也是靈魂人物的侯雨利;而“北王”則是台塑集團創辦人王永慶,當時,侯雨利與王永慶是台灣最有錢的人,也是台灣“錢淹腳目”年代之頂級富豪。除了侯雨利。“台南幫”另外幾個靈魂人物還包括吳三連、吳修齊、高畫質願等,由於侯雨利在早期創業時與他們有師承關係,故而侯雨利也被譽為“台南幫”祖師爺。侯雨利,出生於1900年,於1989年辭世,他是台南市北門區二重港人,他4歲喪父,自幼家境清寒,是母親李瓜將他拉扯大。14歲時,他與堂兄侯調、侯排一起在台南十叔侯基的“新復發”布行當學徒。27歲時,已出師的侯雨利與堂兄弟自立門戶,合辦“新復成”布行,後獨立經營,成了當地有名的布匹批發商。1955年,侯雨利與布行的徒弟吳修齊、吳尊賢四兄弟,共同創辦“台南紡織”,開啟了“台南幫”歷史。1967年,侯雨利創辦統一企業,最初由吳修齊為董事長,高畫質願為總經理,此後吳修齊讓賢高畫質願,現任統一企業董事長羅智先,是高畫質願的女婿。侯雨利侯雨利是“台南幫”領軍人物,他又與姻親吳修齊兄弟等,利用血緣、親緣、鄉緣等關係組成龐大且相互交織的商業網路——台南幫。在台灣商界,台南幫以團結著稱,是一股不容小覷的經濟力量。“台南幫”起步之初,主要是5個人,但經過數十年發展,其勢力已是N多個家族,他們對內結幫抱團,盤根錯節,對外則“一個鼻孔出氣”。目前,“台南幫”關係企業包括太子建設、統一企業、台南紡織、萬通銀行、環泥建設、坤慶紡織、統一超商與統一國際事業等眾多大企業集團,影響力不容小覷。他們內部子一輩、父一輩,彼此關係仍是綿密。客觀而言,遠東集團徐旭東聘請侯金英出任遠東商業銀行董事長,除了看重她的學識與人脈,也在於她是身後有“台南幫”之背景。順帶提及,比如被譽為“馬雲最重要的男人”——現任阿里巴巴集團董事長蔡崇信,其夫人吳明華就出身“台南幫”,她是“台南幫”大佬吳三連(1899-1988年)之孫女。侯雨利有三房妻子,有兩個兒子和十個女兒,侯金英是他最小的女兒。其中,其長子侯永都、次子侯永松均為原配妻子吳烏香所生,家業也大多由兩人繼承。 (一波說商業實驗室)
“AI教母”李飛飛:元宇宙是世界模型的絕佳用例
每個人都有個性化的體系和敘事,對於“整個職業生涯都在追逐極其困難、近乎瘋狂的問題”的“AI教母”李飛飛而言,尤其如此。在最新的訪談中,她談及AGI,談及元宇宙,談及具身智能,談及智能體,談及空間智能,談及她的幸運和自豪。這些元素存在怎樣的內在邏輯,又如何有機地出現在她的敘事體系中,且來看有關她的最新訪談。李飛飛在演講終身奮鬥的夢想 讓智能體能夠講述世界的故事她說,從進入人工智慧領域開始,她就確定了終身奮鬥的夢想:讓智能體能夠講述世界的故事。她認為,這是一個長達一百年的夢想,而空間智能是承載這一夢想的“AI領域中最困難的問題”。無論是虛擬世界的遊戲、元宇宙,還是現實世界大家正在談論的具身智能,“這一切都處於世界建模和空間智能的連續體上”。對於空間智能與AGI的關係,她認為,“沒有空間智能,通用人工智慧就不完整”。在她看來,解決空間智能的問題,就是解決“如何理解三維世界、生成三維世界、推理三維世界、在三維世界中做事”的問題,這是“人工智慧的基本問題”。而要解決這個問題,就“涉及到創造性的世界模型”。這一模型,超越了平面像素、超越了語言,是真正捕捉三維世界的結構和空間智能的世界模型。為什麼興奮於空間智能智能? 這是個瘋狂的問題她說,語言在本質上是一維的,語言純粹是生成性的。“自然界中不存在語言,你無法觸碰或者看見語言,語言源自每個人的大腦,而這是一種純粹的生成訊號”。從時間維度看,語言作為交流、推理、抽象的工具,人類語言的進化發展大約花了3億年到5億年,不到十億年,而5.4億年前,當首批三葉蟲在水下進化出了視覺感知能力,這引爆了生物界進化的軍備競賽。“動物智能開始相互競爭。”她說。語言的生成、建構和效用,已然非常具有創造性,但“現實世界遠比這複雜得多”。首先,現實世界是3D的。如果加上時間,那就是4D,這是一個組合難度更大的問題;其次,視覺對世界的感知和接收是一種投射,無論是你的眼睛、視網膜還是相機,它總是將3D轉換為2D,你得明白這有多難,從數學角度來說這是錯誤的,這就是為什麼人類和動物有很多個感測器。第三,我們要生成虛擬的3D世界,它仍然必須遵守物理規律等。第四,網際網路上充斥著大量的語言資料,而空間智能的資料都存在於人類大腦中,它不像語言那樣容易獲取。這也是空間智能研究如此困難的原因,但李飛飛對此非常興奮。“如果它很容易,那別人早就解決了。我的整個職業生涯都在追逐那些極其困難、近乎瘋狂的問題,我認為這就是那個瘋狂的問題。”她說。雖然從機械原理上,人類能用眼睛對物體進行三維測量,但“我們甚至都不能完全理解人類的所有感知,我們還沒有解決3D在人類視覺中如何運作這個問題……,數學模型又在那裡呢?”但當空間智能能夠“以一種非常流暢的方式在生成和重建之間切換”,這解決的是虛擬世界的問題。在李飛飛看來,空間智能模型就是世界模型。元宇宙是世界模型的絕佳用例 元宇宙障礙來自兩個方面應用場景,在李飛飛話語體系中,被稱為“用例”。談及此時,李飛飛表示,“空間智能模型或者說是世界模型的實用性非常大”。譬如,可以當設計師、建築師、工業設計師、藝術家,還有遊戲開發者,可以用於機器人學習等方面。她進一步說,“我對元宇宙非常感興趣,我知道很多人仍然覺得它不管用,雖然我也知道它仍然無法運作,但我認為硬體和軟體的融合即將到來,這也是未來的另一個絕佳用例。”而她認為,當前元宇宙障礙來自兩個方面:硬體是目前元宇宙障礙的一部分,在元宇宙中生成內容,需要世界模型。世界上最幸運的人 李飛飛的成功是什麼樣子的?李飛飛自認為是世界上最幸運的人,“因為我的整個職業生涯始於AI寒冬結束的初期,也就是AI開始騰飛的起點,而我自己的工作、我自己的職業生涯有很大一部分都參與了這一變革,或者為這一變革提供了助力。”作為電腦視覺科學家,她“見證了電腦視覺從圖像識別到圖像描述再到使用擴散技術進行圖像生成的驚人發展,這一切都在以一種非常令人興奮的方式發生。”2022年11月,ChatGPT打開了真正能夠通過圖靈測試的工作生成模型的大門,“這個進展非常鼓舞人心”。而她的“讓智能體能夠講述世界的故事”的夢想,會困擾她的一生。她說,“當我作為研究生畢業時,我告訴自己,如果我在臨終前能夠創造一個能夠講述場景故事的演算法,我就成功了。”李飛飛也非常享受作為創業者的一面,她創辦的World Labs正在招聘工程人才、產品人才、3D人才和生成模型人才。她認為,“無論你來自那裡,無論我們試圖解決什麼問題,都無關緊要。那種勇於接受困難之事、全力以赴並想盡辦法去解決問題的勇氣和無畏精神,是成功人士的核心特質。”目前,她正在為World Labs尋找具備這種特質的年輕人作為CEO。 (元界)