#李飛飛
兆豪賭:年底AI大戰背後的三個趨勢
今天我們要關注的重點是AI。不知道你發現一件事沒有,每到年底,各路AI大廠的動作都特別密集。11月12日,李飛飛發佈了新的世界模型Marble。11月13日,OpenAI宣佈推出GPT-5.1。11月18日,Google發佈了Gemini 3,號稱是目前為止測試評分最高的大模型之一。從10月初到11月中旬,中國多家AI企業也在密集發佈模型更新。螞蟻、阿里、科大訊飛、字節、百度,幾乎是排著隊發佈。在年底的這一輪“AI熱點大爆發”裡,有那些消息特別值得留意呢?接下來,咱們就展開說說。01 AI的技術在分化回顧去年這個時候,山姆·奧特曼宣佈,OpenAI要連續12天發佈新品。12月也成了OpenAI一年中火力最猛的時期。而且幾乎是同時,Google發佈Gemini2,號稱是“專為智能體而生”。還有,李飛飛的第一個AI系統,World Labs也是在這個時間發佈的。而今年呢,情況與去年驚人地押韻。只不過,整體提早了大概一個月。我們大致給這些AI界的消息分了分類,可以用三個關鍵詞概括。分別是,技術的分化、資源的分化,以及“賭注”的極端化。第一,AI的技術分化。今天的AI公司看起來很多,怎麼快速瞭解它們的技術走向呢?關於這個問題,喻穎正老師做過一個分類。世界上的AI流派,大概可以分成三種:湧現派、訓鳥派、飛機派。湧現派,代表人物是奧特曼。他們相信“規模化就是一切”。只要喂足夠多的資料,AI就會自發“湧現”出智能。就像天才兒童看了足夠多關於鳥和飛機的視訊,就能自己發明空氣動力學一樣。目前的多數AI公司,包括Google在內,也都屬於這一派。訓鳥派,代表人物就是李飛飛。她認為AI需要“身體”,需要在物理世界中學習。所有抽象概念都源於身體與物理世界的互動經驗,沒有身體,就沒有真正的理解。所以AI需要的不是被動的視訊資料,而是通過機器人主動互動收集到的“動作資料”。飛機派,代表人物是楊立昆。他認為大模型只是“鸚鵡學舌”,AI需要先天架構才能組織經驗。人類不是通過模仿鳥學會飛行的,而是通過理解空氣動力學原理造出了飛機。AI必須通過一個全新設計的、非生成式的“世界模型”來學習抽象規則和因果。我們今天看到的多數AI技術的進展,在底層模型這個層面,都可以歸類到前面三者中的某一個。比如,李飛飛發佈Marble,是“訓鳥派”的實踐。她在為AI建構一個可以“練習飛行”的高保真模擬器。而Google發佈了Gemini 3。這個模型在評測平台LMArena上以1501分的歷史最高分登頂,成為首個突破1500分的模型。這是“湧現派”的延續,繼續在規模化的道路上狂奔。前面三個流派,都只是在基礎模型這個維度上的分類。而在基礎模型之上,目前AI領域還有另一個關鍵維度,應用層。現在有大量的公司,都把精力聚焦在了應用層。比如,從10月初到11月中旬,中國多家AI企業陸續發佈了大模型更新。10月9日,螞蟻集團推出兆參數通用模型,主打金融場景。10月15日,阿里巴巴開源支援256K超長上下文的視覺語言模型,主打視覺理解。11月初,科大訊飛發佈星火大模型X1.5版本,強調醫療領域優勢。這些模型的差異化,不再是參數規模,而是垂直領域的能力。大家都在強調自己在特定場景的優勢,而不是單純地比拚模型大小。當然,不只是AI的技術在分化,它背後的資本也在分化。02 AI背後資本的分化第二個關鍵詞,資本的分化。一邊是持續押注,另一邊是看衰做空。最近,關於AI泡沫的討論一直很激烈。11月19日,在美國—沙烏地阿拉伯投資論壇上,主持人直接向黃仁勳和馬斯克提問:“我們正在面臨一場AI泡沫嗎?”這個問題不是空穴來風。看幾個數字你就明白了。輝達從1兆美元市值漲到5兆美元,用時不到兩年半,漲幅400%。《經濟學人》統計顯示,自2022年11月ChatGPT發佈以來,AI概念股累計貢獻了美股標普500指數3/4的漲幅。整個2024年,美國家庭新增財富接近一半由AI概念股創造。更驚人的資料是,2025年上半年,美國有92%的GDP增長是AI產業支出貢獻的。但問題在於,這些投入能換來多少回報?OpenAI單周活躍使用者超8億人,但付費使用者比例僅5%。2024年營收不到40億美元,虧損卻超50億美元,但未來五年投資承諾高達1.4兆美元。摩根大通研報估計:到2030年,美國AI企業承諾的軟硬體投資額度,可能逼近每年7兆美元,即使只要求10%的資本回報率,每年也得尋求至少6500億美元營收。但整個2024年,美國AI產業實際營收僅500億美元,只有目標的一個零頭。麥肯錫調研顯示,近80%部署AI的企業沒能實現淨利潤提升,95%的生成式AI試點項目沒有帶來直接財務回報。比爾·蓋茲、IMF總裁格奧爾基耶娃都警告,美國當前正處於類似上世紀90年代末“網際網路泡沫”的AI投資熱潮,許多當下投資最終可能成為壞帳。前段時間,著名的“大空頭”麥可·貝瑞,還把13.5%的投資組合用於做空輝達。但是,與此同時,也有大量資本對AI依然充滿熱情。比如,巴菲特在今年11月建倉Google,這算是個直接訊號。當然,巴菲特對Google的投資並不完全是出於AI的考量,我們在這裡就不細說了。再比如,還有個值得留意的消息,只不過這個消息有點迂迴,需要多解釋兩句。前段時間,亞馬遜宣佈裁員1.4萬人。裁員消息公佈當天,亞馬遜股價不跌反漲1%。財報發佈後,股價更是暴漲13%,市值單日增加3000億美元。你看,華爾街不但不擔心亞馬遜裁員,反而覺得這是好事。因為外界對這件事的普遍解讀是,亞馬遜在通過裁員留出更多的預算,並且把這些預算用來投資伺服器與資料中心。說白了,這更像是在為AI投資騰出預算。外界看好亞馬遜,本質是在某種程度上看好AI。有人在瘋狂押注AI,有人在質疑泡沫,有人在調整結構為AI騰空間。這就是我們所說的,資本的分化。03 賭注的極端化第三個關鍵詞,賭注的極端化。技術在分化,資本在分化,但有一件事情是一致的:這個行業裡的賭注,正在變得越來越極端。11月6日,特斯拉股東大會上,超過76%的股東批准了馬斯克的新薪酬方案。假如目標達成,馬斯克將獲得最高1兆美元市值的特斯拉股票。但注意,馬斯克要拿到這筆錢,需要完成幾個極具挑戰性的目標:特斯拉的市值從1.5兆增長到8.5兆美元,同時實現累計交付2000萬輛汽車、100萬台人形機器人商用、100萬輛自動駕駛計程車上路。這幾個目標與AI的關聯度很高。換句話說,這筆錢不是在獎勵馬斯克過去的貢獻,而是在為特斯拉的未來下注,而且是個極端的賭注。賭對了,馬斯克拿走1兆美元,股東的財富也會暴漲。賭錯了,這個薪酬方案就是一張廢紙。再看人才市場。11月12日,被稱為“AI天才少女”的羅福莉在朋友圈官宣加入小米。根據相關報導,羅福莉的年薪在千萬等級。字節跳動最近也啟動了針對AI核心人才的激勵實驗。據說他們還為旗下Seed部門發放了每月10萬元左右的津貼,面向大模型方向的技術員工。根據中國獵頭機構的資料,AI相關崗位的薪資今年明顯上漲。很多演算法工程師在跳槽的過程中,年薪漲了一倍不止。而像清華、北大、浙大、上交這些頂尖高校出來的AI博士,頂尖人才的年薪可以達到200萬到400萬元之間。根據中國國務院發展研究中心預測,中國具身智能產業的市場規模,2030年將達到4000億元,2035年預計突破兆元。從馬斯克的兆薪酬,到AI人才的千萬年薪,再到兆級的產業預測,這些數字背後也許是一個共同的邏輯:AI不再是一個可以慢慢試錯的領域,而是一場必須全力以赴的豪賭。前面這些新聞乍一看好像很分散,但是,假如放在一起看,我們或許會產生一個總體的感受。這就是,AI正在從一個技術話題,變成一個關於選擇和押注的話題。技術路線在分化,沒人知道湧現派、訓鳥派、飛機派誰會贏。資本在分化,有人瘋狂進場,有人質疑泡沫。賭注在極端化,從兆薪酬到千萬年薪,每個數字背後都是一個關於未來的押注。李飛飛在《世界模型宣言》中說過一句話,講的是關於AI未來的可能性,我們放在最後,作為今天的結尾吧。這句話是這麼說的,“我語言的極限,意味著我世界的極限。我不是哲學家,但我深知,至少對AI而言,世界遠不止於文字。” (羅輯思維)
矽谷炸鍋了! AI教母李飛飛萬字長文撕開行業“遮羞布”。
近期,一篇出自 “AI 教母” 李飛飛教授的萬字長文,在矽谷 AI 圈掀起軒然大波。作為曾掌舵史丹佛 AI 實驗室、憑 ImageNet 項目改寫深度學習視覺領域格局的華人頂尖專家,她此次的發聲格外重磅:“當下的 AI,不過是困在暗室裡的文字高手,能說會道卻脫離現實,本質上就是‘睜眼瞎說’。”一、李飛飛撕開AI“遮羞布”這番話看似犀利,卻精準點破了 AI 光鮮外表下的 “致命缺陷”。如今的大語言模型有多 “能打”?寫律詩、寫論文、聊量子物理,分分鐘模仿李白、杜甫的文風,邏輯縝密到讓人難辨真假。可一旦跳出文字的舒適區,面對真實的物理世界,AI 就立刻 “露餡”:讓它估算桌子到門的距離,全靠蒙;讓它預測杯子轉 90 度後的模樣,純屬猜;就連那些刷屏的 AI 生成視訊,仔細看全是破綻 —— 人物突然多根手指、物體莫名穿牆而過,說到底,都是 AI 不懂物理規律的必然結果。二、AI未來:不在大模型,在嬰兒本能李飛飛教授毫不避諱地指出:AI 行業已經走偏了方向。真正的突破口,從不是參數越來越龐大的語言模型,而是連嬰兒都有的 “空間智能”—— 這才是通往通用人工智慧(AGI)的唯一正道。那 “空間智能” 到底是什麼?其實就是人類理解、互動物理世界的本能。嬰兒靠抓、扔、咬,摸清物體的軟硬、輕重;你半夜摸黑起床倒水,不用開燈也能精準拿到杯子;朋友扔來鑰匙,你不用算拋物線就能穩穩接住。這些看似簡單的動作,背後藏著對空間、距離、物理規律的深層認知。更關鍵的是,人類文明的諸多重大突破,都離不開 “空間智能”:埃拉托斯特尼觀察影子長短,算出了地球周長;沃森和克里克搭 3D 模型,破解了 DNA 雙螺旋結構;建築師設計摩天大樓、科學家推演星體運動,本質上都是在運用對空間和物理規律的理解。而這些,是只會 “玩文字” 的大語言模型永遠做不到的。三、AI要“懂”世界:先建世界模型既然空間智能這麼重要,怎麼讓 AI 擁有它?李飛飛給出了核心方案:讓 AI 從 “語言模型” 轉向 “世界模型”。一個合格的世界模型,必須具備三大核心能力:首先,能生成符合物理定律的虛擬世界,不是天馬行空的虛構,而是遵循重力、摩擦力等基礎規律;其次,能整合文字、圖像、動作等多種資訊,不僅聽得懂你說的,還能看懂你做的;最後,也是最關鍵的,能精準預測互動結果 —— 比如知道推杯子會倒、扔球會落地,這才是 AI “看懂” 世界的關鍵。要做到這些,比訓練大語言模型難得多。語言是一維的、線性的,可世界是四維的 —— 三維空間加時間,還受無數物理定律約束。但一旦突破這個難關,AI 的能力將實現質的飛躍。四、空間智能AI:能幫人類做什麼?李飛飛團隊早已用實踐證明了空間智能的潛力:他們研發的 “抹布模型”,能讓電影製作人、遊戲設計師僅憑文字描述,就生成可互動的 3D 世界。不用學複雜的建模軟體,普通人也能當 “造物主”,搭建屬於自己的虛擬場景。這還只是開始。當 AI 真正擁有空間智能,生活將迎來巨變:機器人不再是笨拙的機器臂,能在模擬環境中學會上萬種技能,走進家庭做飯、照顧老人,走進醫院精準手術;教育領域,學生能 “穿越” 到古羅馬街道學歷史,“鑽進” 細胞裡看生物結構;科學探索中,AI 能模擬深海、外太空,幫人類探索無法抵達的領域。正如李飛飛所說:“AI 的終極目標從不是取代人類,而是為人類賦能。現在的大語言模型只是起點,真正的智能,是讓機器理解物理世界。”(AI行銷峰雲)
李飛飛最新萬字訪談:未來五年,Transformer 可能被淘汰
11月24日,史丹佛大學教授、World Labs創始人李飛飛參加播客訪談,詳細闡述了她對空間智能(Spatial Intelligence)的構想,並討論她與楊立昆在世界模型(World Models)上的不同觀點流派問題。在世界模型的建構上,李飛飛與前Meta首席科學家楊立昆(Yann LeCun)的理念常被外界視為兩種流派。楊立昆傾向於讓模型學習世界的抽象“隱式表徵”,而不必還原每一幀像素;而李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵,明確輸出可視化的3D世界。李飛飛並不認為兩者是對立關係,她表示如果最終要建構一個通用的世界模型,隱式表徵和顯式表徵最終都是必要的。World Labs採用的是“刻意為之”的顯式輸出,因為其商業目標服務於遊戲開發、視覺特效和建築設計等領域的人類創作者,他們的日常工作需要一個可視化的、可互動的3D輸出結果。但在模型內部,RTFM同樣包含隱式表徵。她認為,未來的架構將是兩者的混合體。作為World Labs的創始人,李飛飛在訪談中透露了公司的首個產品Marble,以及其背後的技術底座“即時幀模型”(RTFM)。與單純生成視訊的模型不同,Marble致力於生成具有一致性和持久性的3D空間,其模型不僅是多模態的,支援文字、圖像、視訊甚至粗略的3D佈局作為輸入,更重要的是它試圖在推理過程中保持物體一致性。她說,目前的LLM主要通過海量的文字資料學習,雖然語言模型令人驚嘆,但人類大量的知識是無法僅通過語言捕捉的。為了建構真正的通用人工智慧,AI必須走出文字的限制,通過視覺和行動去體驗物理世界。人類的學習過程本質上是具身(Embodied)的,我們在沒有語言的情況下與世界大量互動,感知光線、觸覺、重力和空間關係。當被問及目前的AI是否真正“理解”物理世界時,李飛飛認為,目前大多數生成式視訊中展現的水流或樹木擺動,並非基於牛頓力學計算,而是基於海量資料的統計學湧現。雖然AI可能通過資料擬合出運動定律,但要達到愛因斯坦提出相對論那種層面的抽象,目前的Transformer架構尚未展現出足夠的證據。對於技術的演進速度,李飛飛認為在五年內,我們有望看到AI在理解物理世界方面取得重大進展。她描繪了一個基於“多重宇宙”(Multiverse)的未來圖景:通過大幅降低3D內容生成的門檻,人類可以低成本地創造出無數個平行世界,這些數字平行世界將成為人類物理體驗的無限延伸,重塑娛樂、教育、遠端協作以及科學探索等多個領域場景。李飛飛訪談內容劃重點:1. 空間智能是核心僅靠語言不足以建構通用人工智慧(AGI)。人類大量智能(如空間推理、急救反應)是非語言的。AI必須獲得“空間智能”(Spatial Intelligence),要像生物一樣,擁有深度感知的空間能力,建立起看、做和想像之間的完整閉環。2.世界模型的新範式World Labs 的核心產品 Marble 與普通視訊生成模型的最大區別在於“物體恆常性”(Object Permanence)。在 Marble 生成的世界裡,當你轉身再轉回來,背後的物體依然存在且保持原狀,而不是像夢境一樣隨機變形。李飛飛團隊提出了“即時幀模型”(RTFM),其目標是在單張 H100 GPU 的算力約束下,實現高效的 3D 空間推理。這是為了建構一個在幾何上一致、在時間上持久的“數字容器”,為未來能夠理解物理法則的 AI 打下地基。3. 與楊立昆和而不同楊立昆主張世界模型要做抽象理解的“隱式表徵”,李飛飛的Marble則力求從抽象的內部表徵中產生顯式表徵。李飛飛認為隱式表徵和顯式表徵最終必須融合,但目前 World Labs 刻意選擇輸出顯式 3D 表徵,目的是賦能人類。未來的AI 不應只是一個黑盒,而應成為遊戲開發者、建築師和藝術家的“神經空間引擎”(Neural Spatial Engine)。它融合了傳統物理引擎(如Unreal)的確定性規則和生成式 AI 的統計創造力,讓普通人也能瞬間建構複雜的 3D 互動世界。4. 視覺領域的“Next Token”難題語言模型有完美的“預測下一個Token”作為目標函數。但在視覺領域,“預測下一幀”雖然強大但並不完美,因為它將三維世界壓縮為二維,丟失了結構資訊。尋找視覺領域的“通用任務函數”仍是未解之謎。5. AI目前還不懂物理AI生成的物理現象(如重力、碰撞)多源於統計規律的模仿,而非對物理定律的因果理解。現有的Transformer架構可能難以產生如“相對論”般的高級抽象,未來五年,行業需要尋找一種新的架構突破,讓 AI 從統計相關性跨越到真正的因果邏輯和物理推理。以下為李飛飛訪談實錄:主持人:歡迎收聽本期播客。在這一集中,我很榮幸再次與人工智慧先驅李飛飛博士對話。幾年前我曾在播客上邀請過飛飛,我也推薦大家去聽那一期節目。在今天的對話中,我們將探討她關於“世界模型”(World Models)的見解以及“空間智能”(Spatial Intelligence)的重要性——這些都是打造真正理解現實世界並能與之互動的 AI 的關鍵要素。雖然大型語言模型(LLMs)已經非常驚人,但大量(甚至大部分)人類知識並未被文字所捕捉。為了實現更廣義的人工智慧,模型需要親身體驗世界,或者至少通過視訊來學習。我們還討論了她的創業公司 World Labs 以及他們的第一個產品 Marble。Marble 可以從模型的內部表徵生成令人難以置信的複雜 3D 空間。1. 從電腦視覺到空間智能的演進主持人:我想先把話題從Marble 和你們那個能生成一致且持久的、供觀眾漫遊的 3D 世界的新模型上移開,多談談你為什麼把重點放在世界模型和空間智能上。為什麼這是超越單純語言學習的必要條件?另外,你的方法與楊立昆的方法有何不同?你現在的世界模型工作,究竟是你過去在環境智能(Ambient Intelligence)工作的延伸,還是平行的另一條路線?李飛飛:過去幾年我一直思考的空間智能工作,實際上是我整個電腦視覺職業生涯重點的延續。我之所以強調“空間智能”,是因為我們的技術已經發展到了這樣一個階段:其複雜程度和深層能力已經不再停留在僅僅“盯著”一張圖像的層面,甚至不僅僅是簡單的視訊理解。現在的核心是深度感知的空間,這與機器人學、具身智能(Embodied AI)以及環境智能都緊密相連。從這個角度看,這確實是我在電腦視覺與 AI 領域職業生涯的自然延伸。主持人:正如你和其他許多人所指出的,語言模型是從以文字編碼的人類知識中學習的,但那只是人類知識的一個非常有限的子集。人類的學習是通過在沒有語言的情況下與世界大量互動獲得的。因此,如果我們要超越當前這些雖然了不起但仍有侷限的大型語言模型,開發出能對世界有更直接體驗、能更直接從世界中學習的模型就顯得尤為重要。談到具體方法,以Marble 為例,你的做法是將模型學到的世界內部表徵提取出來,並建立一個與之對應的外在視覺現實。而楊立昆的方法主要是建立內部表徵,讓模型能夠學習運動物理定律之類的東西。這之間有平行關係嗎?這兩種方法是互補的,還是有重疊?李飛飛:首先,我不會把自己和楊立昆對立起來。我認為我們在智力上處於同一個連續體中,只是對空間智能和世界建模採取了不同的切入點。如果你讀過我最近發表的那篇關於“空間智能”的長文(我稱之為宣言),我在這一點上說得很清楚。我認為,如果最終要建構一個通用的、全能的世界模型,隱式表徵(Implicit Representation)和某種程度的顯式表徵(Explicit Representation)最終可能都是必要的,尤其是在輸出層。例如,World Labs 目前的世界模型 Marble 確實會顯式地輸出 3D 表徵,但在模型內部,它同時也包含隱式表徵。老實說,我認為這兩者最終都是不可或缺的。在輸入模態方面也是如此。是的,從視訊中學習非常重要,畢竟整個世界可以看作是大量連續幀的輸入。但真正的智能,無論是對於動物還是機器,不僅僅是被動觀看。它還涉及到動作、互動的具身體驗,以及觸覺、聲音、氣味、物理力(Physical Forces)、溫度等。因此,我認為這在本質上是深度多模態的(Deeply Multimodal)。Marble 作為一個模型只是第一步。在我們幾天前發佈的那篇技術報告中,我們要表達得相當明確:多模態既是一種學習範式,也是一種輸入範式。目前學術界對此有很多討論,這也展示了該領域正處於早期且令人興奮的階段。可以說,我們在確切的模型架構和表徵方式上的探索還遠未結束。2. 超越文字:多模態輸入與學習範式主持人:在你那個世界模型中,輸入主要是視訊嗎?李飛飛:如果你體驗過Marble,你會發現我們的世界模型輸入是相當多模態的。你可以只使用純文字,也可以使用一張或多張圖像,可以處理視訊,甚至可以輸入粗略的 3D 佈局(比如盒子或體素)。它是多模態的,而且我認為隨著我們的推進,這方面的能力會進一步加深。文字只是一種形式。是的,但這正是我們產生分歧的地方。大多數動物並不是通過複雜的語言來學習的,但人類是。不過,我們今天的AI 世界模型(World Models)將從大量的語言輸入以及其他模態中學習,它並非僅僅通過語言來進行資訊的壓縮和傳遞。主持人:這也是大型語言模型(LLMs)的一個限制,即模型在訓練後參數就固定了。所以它們不會持續學習,儘管在測試時的推理階段會有一定程度的學習。這是你在建構世界模型時試圖解決的問題嗎?因為我們可以推測,世界模型在遇到新環境時應當是不斷學習的。李飛飛:是的,持續學習(Continuous Learning)範式確實非常重要。對於生物來說就是如此,這也是我們人類學習的方式。即使在生物學習中,也存在線上學習與離線學習的區別。在我們目前的世界模型形式中,仍然更多地處於批次或離線學習模式。但我們絕對持開放態度,尤其是未來涉及到線上學習和多模態融合時。主持人:那會是怎樣的?會是一個完全不同的架構,還是僅僅是工程實現的問題?李飛飛:我會保持開放的心態。我認為會是兩者的混合。顯然這需要優秀的工程實現,比如微調(Fine-tuning)和線上學習,但也可能會出現新的架構。主持人:你能談談即時幀模型(Real-Time Frame Model)嗎?以及你們在世界模型方面的工作?李飛飛:你指的是我們幾周前發佈的一篇技術部落格,那是專門深入探討我們的即時幀模型的。World Labs 是一個以研究為主的組織,雖然我們也關心產品,但現階段大量工作是以模型為先的。我們正著重研究如何推進空間智能(Spatial Intelligence)。這項特定的工作實際上是專注於如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。在早期的基於幀的生成操作中,當你向前移動視角時,往往會失去那種物體持久性。在這個特定案例中,我們努力實現平衡,並在推理期間以計算高效的方式完成這一點,即在推理時僅使用單個H100 GPU。我們不太清楚其他基於幀的模型的情況,因為他們沒透露推理時使用了多少晶片,但我們假設那是相當大的算力消耗。3. 尋找空間智能的“通用任務函數”主持人:在你的那篇“宣言”裡,你談到了需要一個“通用任務函數”(General Task Function)。這類似於語言模型中的“下一個 Token 預測”(Next Token Prediction)。它是否帶有預測元素?李飛飛:生成式AI 最重大的突破之一,確實是發現了“下一個 Token 預測”這個目標函數。這是一個非常優美的表述,因為語言是以序列化方式存在的,你可以將語言 Token 化為這種序列表示。你用於下一個 Token 預測的學習函數,正是推理時所需要的。無論是人類還是電腦生成語言,實際上都是一個接一個地把標記向前推進。擁有一個與最終實際執行任務完全(100%)對齊的目標函數是極好的,因為它使最佳化可以完全針對目標進行。但在電腦視覺或世界建模中,情況沒那麼簡單。語言本質上是人類生成的,自然界中並不存在你盯著看的“語言”,那怕你最終學會了閱讀,那也是因為它已經被生成了。但我們與世界的關係要更加多模態:世界就在那裡等著你去觀察、解讀、推理並與之互動。人類還有一種“心眼(Mind's Eye)”,能夠建構不同版本的現實、想像並生成故事。這要複雜得多。主持人:那麼,定義這個通用任務的是什麼?或者說,我們可以使用的通用目標函數是什麼?有什麼能像“下一個 Token 預測”一樣強大嗎?是 3D 重建嗎?李飛飛:這是一個非常深刻的問題。有些人實際上會爭辯說,世界建模的通用任務可能就是對世界進行3D 重建。如果這是目標函數並且我們達成了它,很多事情就會水到渠成。但我並不這麼認為,因為大多數動物的大腦並不一定會進行精確的三維重建,然而老虎或人類在空間上卻是如此強大的視覺智能體。“下一幀預測”確實有一定力量。首先有大量用於訓練的資料;其次,為了預測下一幀,你必須學習世界的結構,因為世界不是白噪聲,幀與幀之間存在大量結構連接。但這也令人不滿意,因為你把世界當作二維的,這種壓縮方式非常糟糕。即使你做得完美,3D 結構也只是隱式的,這種基於幀的方式會丟失很多資訊。所以在這方面仍有很多探索空間。主持人:我得問你,你們把模型命名為RTFM(Real-Time Frame Model),這是個玩笑嗎?李飛飛:這確實是一次絕妙的“表演”。名字不是我起的,是我們的一位研究員,他在命名方面真的很有天賦。我們覺得用那個名字玩個梗很有趣。主持人:但是RTFM 是在預測下一幀,並且具有三維一致性,對吧?李飛飛:是的。主持人:這就是模型所學內部表示有趣的地方。比如我看著電腦螢幕,即使看不見背面,我也知道它長什麼樣,因為我腦海中有它的內部表徵。這就是為什麼你可以在螢幕這個二維平面上移動物體,卻能看到它的另一面。模型擁有三維物體的內部表徵,即使它當前的視角看不見物體的背面。當你說到空間智能時,這是否包括自然的物理法則?比如理解你不能穿過一個固體物體?或者如果站在懸崖邊,它知道那是邊緣,如果走過去會掉下去而不是浮在空中?李飛飛:你描述的既有物理層面也有語義層面。從懸崖掉下去很大程度上取決於重力定律,但穿牆而過則基於材質和語義(固體與非固體)。目前作為一個現有模型,RTFM 還沒有把重點放在顯式的物理學上。大部分的“物理”實際上是從統計中湧現的。許多生成式視訊模型展示的水流或樹木移動,並不是基於牛頓力學定律和質量計算出來的,而是基於對大量統計模式的遵循。World Labs 目前仍然專注於生成和探索靜態世界,但我們也將探索動態,其中很多將是統計學習。我不認為今天的AI 有能力在不同層次上進行抽象並推導物理規律。另一方面,我們有像 Unreal 這樣的空間物理引擎,其中有明確的物理定律在起作用。最終,這些遊戲引擎/物理引擎將與世界生成模型融合成我稱之為“神經空間引擎(Neural Spatial Engine)”的東西。我們正朝著那個方向前進,但現在還處於早期階段。4. 顯式表徵的價值:賦能創作者與產業主持人:我不是想讓你和楊立昆對立。但你似乎關注的是從抽象的內部表徵中產生顯式表徵,而楊立昆只是關注內部表徵。李飛飛:在我看來它們會完美結合。我們同時探索兩者。輸出顯式表徵其實是一種非常刻意的方法,因為我們希望這對人有用。我們希望這對那些在創作、模擬和設計的人有用。如果你看看當今的行業,無論你是在製作視覺特效(VFX)、開發遊戲、設計室內、還是為機器人或自動駕駛車輛進行模擬(數字孿生),這些行業的工作流程都非常依賴 3D。我們希望這些模型對個人和企業都絕對有用。主持人:這就回到了持續學習的話題。比如一個機器人上的模型,通過攝影機在世界中移動獲取資料,最終它不僅學習場景,還理解空間的物理性,然後與語言結合?這是否需要持續學習?李飛飛:絕對如此。尤其是當接近某個用例時,持續學習至關重要。這可以通過多種方式實現:在語言模型中,將上下文字身作為輸入就是一種持續學習(作為記憶);此外還有線上學習和微調。在空間智能領域,無論是個性化機器人還是具有特定風格的藝術家,最終都會推動這項技術在不同時間尺度上變得更具響應性,以滿足具體用例的需求。5. 未來展望:AI模型的技術跨越主持人:你現在的進展非常快,特別是想到你曾在紐澤西經營過乾洗店,雖然那是很短的一段時間,但這種跨越真是令人驚嘆。你對這項技術五年後的發展程度有什麼判斷嗎?比如模型內部是否會內建某種物理引擎,或者擁有更長時間尺度的學習能力,從而建立起更豐富的內部表徵?也就是說,模型是否會開始真正理解物理世界?李飛飛:實際上,作為一名科學家,很難給出一個精確的時間預測,因為有些技術的進展比我預期的快得多,而有些則慢得多。但我認為這是一個非常好的目標,而且五年確實是一個相當合理的估計。我不知道我們會不會更快實現,但在我看來,這比猜測五十年要靠譜得多,當然也比猜測五個月要靠譜。主持人:你能否稍微談談,為什麼你認為“空間智能”(Spatial Intelligence)是下一個前沿?正如我們所知,包含在文字中的人類知識只是全部人類知識的一個子集。雖然它非常豐富,但你不能指望一個 AI 模型僅通過文字就能理解世界。能具體談談為什麼這很重要嗎?以及 Marble 和 World Labs 是如何與這個更大的目標相關聯的?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能科學本身是我能想到的最迷人、最大膽、最有雄心的科學探索,這是屬於21世紀的探索課題。無論你是被科學的好奇心吸引,還是被用技術幫助人類的動機驅動,這都指向了一點:我們的大量智能,以及我們工作中的大量智能是超越語言的。我曾半開玩笑地說,你無法用語言去滅火。在我的宣言裡,我舉了幾個例子:無論是空間推理、DNA 雙螺旋結構的推導,還是一名急救人員在快速變化的情況中與團隊協作滅火,很多內容都超越了語言。所以,從應用角度來看這是顯而易見的;作為一項科學探索,我們應該盡最大努力去破解如何發展空間智能技術,帶我們進入下一個層次。從宏觀角度來看,這就是驅動我的雙重動機:科學發現以及為人類製造有用的工具。我們可以更深入地探討一下其實用性。無論是在談論創造力、模擬、設計、沉浸式體驗、教育還是醫療保健,甚至是製造業,利用空間智能可以做的事情實在太多了。實際上,我很興奮,因為許多關心教育、沉浸式學習和體驗的人告訴我,Marble(我們需要發佈的首個模型)激發了他們思考如何將其用於沉浸式體驗,使學習更具互動性和趣味性。這是如此自然,因為還不會說話的兒童完全就是通過沉浸式體驗來學習的。即便作為成年人,我們的生活也大多沉浸在這個世界中,雖然包括聽說讀寫,但也包括實踐、互動和享受。主持人:是的。Marble 讓所有人都印象深刻的一點是,它不僅僅是生成下一幀畫面,而是在一個空間中移動,而且它僅在一塊 H100 GPU 上運行。我在你其他的演講中聽到你提到過“體驗多重宇宙”(experiencing the multiverse)。大家一開始都很興奮,直到意識到這需要巨大的計算量和昂貴的成本。你真的認為這是朝著為教育建立虛擬世界邁出的一步嗎?因為看起來你們已經能夠減少計算負擔了。李飛飛:首先,我真的相信在推理方面我們會加速,我們將變得更高效、更優秀、規模更大、質量更高。這是技術的趨勢。我也相信多重宇宙的概念。就我們所知,整個人類歷史的經驗只存在於一個世界裡,確切地說是地球這個物理實體。雖然有極少數人登上過月球,但也就僅此而已。我們在3D 空間中建設文明、生活、做所有事情。但隨著數字革命和數字爆炸,我們正把生活的一部分轉移到數字世界中,這兩者有很多交叉。我並不想描繪一種我們放棄了物理世界的反烏托邦圖景,也不會描繪一種每個人都戴著頭盔、永遠無法欣賞真實世界的極端烏托邦式虛擬世界,那是生命最充實的部分,我會拒絕這兩種極端觀點。但從實用角度以及對未來的設想來看,數字世界是無邊無際的。它是無限的,它為我們提供了物理世界無法允許的更多維度和體驗。例如,我們討論過關於學習的問題。我真希望能以更互動、更沉浸的方式學習化學。我記得大學化學課有很多關於分子排列、理解對稱性和分子結構不對稱性的內容。我真希望能在沉浸式體驗中親自感受那些東西。我遇到的許多創作者,我意識到在他們的腦海中,每一瞬間都有無數的想法,但他們受制於工具的限制。例如使用Unreal Engine(虛幻引擎),要把腦中的一個世界表達出來需要花費數周甚至數小時的工作時間。無論你是製作一部奇幻音樂劇,還是為新生兒設計臥室,如果我們允許人們像在物理世界中一樣,充分利用數字宇宙去反覆嘗試、交流和創造,那將非常有趣。此外,數字時代也在幫助我們打破物理邊界和勞動的限制。比如遠端操控機器人。我完全可以想像創作者通過具身化的化身(Avatar)在全球協作,通過機械臂或任何形態以及數字空間,使他們既能在物理世界中工作,也能在數字世界中工作。電影行業也將被徹底改變,現在的電影是被動體驗,儘管很美好,但我們將改變獲得娛樂的方式。所以這一切都需要多重世界。主持人:還有關於瞬移或者遙操作機器人,比如有人在談論在小行星上開採稀土。如果你不需要親身到場,而是能遠端操作機器人,那就在那些空間裡實現了。你所談論的是建立人們可以體驗的3D 空間的顯式表徵。在你的模型中,這個模型自身在多大程度上“理解”它所處的空間?它是內化了這些資訊,還是僅僅是將其顯式地投射出來?這是一個朝著真正理解世界的人工智慧努力的過程。不僅僅是對三維空間有一個表示,而是真正理解物理定律,理解它所看到的東西,甚至包括這些東西的價值、有用性,以及如何操縱物理世界。你認為目前已經存在多少這樣的理解?要讓那些模型真正理解這個世界,還需要發生什麼?李飛飛:這是一個很棒的問題。“理解”是一個很深刻的詞。當AI “理解”某樣東西時,它本質上與人類的理解不同。部分原因是我們是非常不同的存在。人類是具身的(embodied),是在一個有形的身體裡存在的。例如,當我們真正理解“我的朋友很高興”時,這不僅僅是抽象的理解。你能感受到你體內發生的化學反應,釋放快樂激素,心跳加速,情緒改變。那種理解層次與抽象的AI Agent非常不同。AI Agent能夠正確地分配意義並建立聯絡。例如,在 Marble 我們的產品中,你可以進入世界生成的高級模式進行編輯。你可以預覽這個世界並說:“我不喜歡這張沙發是粉色的,把它換成藍色。”然後它就把它改成藍色。它是否理解“藍色沙發”和“更改”這個詞的含義?是的。因為沒有這種理解,它就無法執行任務。但它是否像你我一樣理解關於沙發的一切?包括沙發的用途、甚至無用的資訊?它有關於沙發的記憶嗎?它會把“沙發”這個概念推廣到許多其他事物上嗎?不,它沒有。作為一個模型,它的能力有限,只能根據要求建立一個包含藍色沙發的空間。所以我認為AI 確實能“理解”,但不要將這種理解誤解為擬人化的、人類層面的理解。這種理解更多是語義層面的,而不是那種光線打在視網膜上產生感知體驗的理解。主持人:我看過你和Peter Diamandis 以及埃裡克·施密特(Eric Schmidt)的討論。其中有一點讓我印象深刻,是關於 AI 可能具有創造力或用於輔助科學研究的討論。當時給出的類比是:如果在愛因斯坦發現相對論之前就有人工智慧,AI 能推理出那一發現嗎?對於 AI 來說,要具有這種科學推理層面的創造力,還缺少什麼?李飛飛:我認為我們更接近於讓AI 推匯出雙螺旋結構,而不是提出狹義相對論。部分原因是我們已經看到了很多出色的蛋白質摺疊相關工作。推斷雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的表述是在抽象層面上。我們在物理中看到的所有事物,從牛頓定律到量子力學,都是將作用抽象到因果層面。比如質量、力這些概念,是被抽象到不再僅僅是純粹統計模式生成的層次。語言可以是統計性的,3D 或 2D 世界的動力學可以是統計性的,但對力、質量、磁性以及因果關係的抽象,並非純粹的統計性,而是非常深刻的因果性和抽象性。我和Eric 在台上都在說,如果我們把所有關於天體觀測的資料、衛星資料都聚合起來交給當今的 AI,它也許能通過資料推導並擬合出牛頓運動定律。主持人:既然AI 如果給出資料就能推斷出運動定律,那你為什麼認為它無法推匯出相對論那些定律呢?李飛飛:當我們說那些定律被“推導”出來時,牛頓不得不推導、抽象出諸如“力”、“質量”、“加速度”以及那些基本常數的概念。那些概念處於一個我還沒有在目前的AI 中見過的抽象層面。如今的AI 可以利用大量資料,但在那個層面的抽象表示、變數或關係上,還沒有太多證據表明它能做到。我並不瞭解 AI 中發生的一切,如果我被證明是錯的,我很樂意接受。但我還沒聽說過有任何工作能在 Transformer 模型的架構中做到那種層次的抽象。我看不出那種抽象能從那裡來,這就是我對此表示懷疑的原因。這需要建構內部抽象的內部表徵,以及應用邏輯知識的規則。這可能需要我們在基礎架構和演算法上取得更多進展。主持人:這正是我想問的。你一直在和人們討論後Transformer(post-transformer)架構。你是否預期會出現一種新的架構能解鎖其中一些能力?李飛飛:我同意,我確實認為我們會有架構上的突破。我不認為Transformer 是 AI 的最後一項發明。在宏觀的時間尺度上,與宇宙歷史相比,人類存在的時間並不長,但在我們簡短的歷史中,我們從未停止創新。所以我不認為Transformer 是 AI 的最終演算法架構。主持人:你曾提到,你曾設想如果你能讓一個AI 系統為圖像打標籤或生成說明,那本該是你職業生涯的巔峰。當然你早就超越了這一點。那麼現在,你想像中未來職業生涯的巔峰成就從今天開始會是什麼?李飛飛:我確實認為開啟“空間智能”很重要。建立一個真正將感知與推理相連接的模型:從“看見”到“做”,包括規劃和想像,並將想像轉化為創造。那會非常了不起。一個能同時做到這三點的模型。 (劃重點KeyPoints)
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)
李飛飛最新長文:AI很火,但方向可能偏了
AI很會說話,但還不會理解世界。前幾天,Google的Gemini 3 Pro發佈,朋友圈瞬間刷屏。很多人都在感嘆:Google一出手,就知有沒有。下一代模型,是不是參數更多?能支援更長的上下文?照這麼發展下去,是不是真的要實現AGI(通用人工智慧)了?但是,著名電腦科學家、美國國家工程院院士、史丹佛大學教授李飛飛卻不這麼認為。11月10日,她就發佈了一則長文,系統闡述了她對目前AI大模型的看法。總結一下,大概是:目前AI卷參數,卷演算法的方向,可能跑偏了。模型不理解世界,就實現不了真正的智能。為什麼這麼說?什麼又叫“理解世界”?這和我又有什麼關係?系統整理了一下我的理解,和你分享。大語言模型,就像讀了很多書,但沒出過門的秀才你一定知道ChatGPT,或者Google的Gemini。你也一定用過DeepSeek、豆包。這些產品背後的核心技術,都是大語言模型(LLM)。大語言模型做的事情,簡單來說,是“預測下一個詞是什麼”。你問它,“床前明月光”,它就能預測,後邊幾個詞大機率是“疑是地上霜”。靠著這種看似簡單的“接茬”能力,在吃下了大量資料之後,大模型已經進化到了驚人的地步。它能通過律師資格考試,也能做複雜的奧數題。那,這樣子下去,是不是很快就有能自主學習、完成任務的通用人工智慧了?不一定。雖然語言大模型看上去很厲害,但如果問它一些特別簡單的問題,比如,這輛車離那棵樹有幾米?這個箱子能塞進後備箱嗎?它卻大機率會瞎蒙,還會出現“杯子鬆手後飛上天”的情況。它們雖然懂物理公式,卻不懂物理常識。對此,李飛飛打了個比方。大概意思是,大語言模型,就像黑暗中的秀才(wordsmiths in the dark)。想像一下。有一位秀才,在一間黑屋子裡,讀過一萬本關於蘋果的書。他知道,蘋果通常和“紅”、“甜”、“圓”出現在一起,他知道,蘋果的化學分子式,牛頓被蘋果砸中的故事。如果讓他寫一篇關於蘋果的論文,他寫得不比專家差。但是,如果你把一個真的蘋果遞到他手裡,他卻不知道這是什麼。今天,語言大模型的“智慧”,本質上靠的是語言的統計規律,而並非紮根現實。這也解釋了,為什麼你的AI助手,動不動就會“胡說八道”。因為,如果AI只遵照語法通順,它完全可以認為,太陽會從西邊升起。即便這在物理世界裡,不可能發生。它讀了萬卷書,卻從未行萬里路。語言可以瞎編,但物理世界不會撒謊那怎麼辦?李飛飛說,這就要讓AI,掌握“空間智能”了。舉個例子。喝咖啡。你的大腦在這一瞬間,會處理很多資訊。你的眼睛,要判斷杯子和嘴邊的距離;你的手部肌肉,要根據杯子的重量,精確調整抓握的力度;你的皮膚,要感知杯壁的溫度,防止燙傷;你的手腕,要配合身體的傾斜,保持杯口的水平,防止咖啡灑出來。在這個過程中,你用到語言了嗎?你有沒有在心裡默念,把肱二頭肌收縮30%,手腕向左旋轉5度?沒有。整個過程,靠的是感知、想像、行動。這種“不通過語言,理解物理世界,和物理世界互動的能力”,就是空間智能。而李飛飛也認為,有了空間智能加持的AI,才會通向真正的,智能。因為智能的本質,是能在不確定的世界中持續預測、行動、達成目標。這不能靠大腦憑空產生。舉個例子。嬰兒是怎麼知道因果關係的?他坐在地上,把積木推倒,積木嘩啦一下散落在了地上。他覺得好玩,又推了一次。又是嘩啦一聲。一次次的物理互動中,他逐漸建立了一條神經連接:把積木推倒,必然導致“嘩啦”一聲。邏輯的雛形,因此開始。再舉個例子。沃森和克里克,是怎麼發現DNA雙螺旋結構的?要知道,當時他們手裡,只有一張像是模糊的“X”的照片。靠這張照片,推導不出DNA結構。沒辦法,他們只好像搭積木的小孩一樣,用金屬棒和鐵絲,試圖復現DNA的空間結構。直到某個瞬間,他們把模型轉到雙螺旋的角度,咔嚓一聲,一切都對上了。那一刻,他們沒有說話,但他們看到了生命的真相。偉大的發現,往往先在空間中成型,才被翻譯成語言。所以,李飛飛才會說:“看”和“動”,不是低級的本能,而是高級智能的基石。大自然花了 5 億年進化“視覺”,只花了最後幾萬年進化“語言”。因為感知世界,遠比描述世界要難得多,也重要得多。語言可以瞎編,但物理世界不會撒謊。AI的未來,或許是從預測下一個詞,到預測下一幀世界什麼是,預測下一幀世界?舉個例子。你手裡拿著一個玻璃杯,然後鬆開了手。現在,你的腦子裡是不是立刻就預測到了:杯子掉下去,砸在地上,摔碎了?你不需要等它真的碎,你的腦子已經預測到了。這就是“預測下一幀世界”。擁有了這個能力,AI不需要讀萬卷書來記住“火是燙的”,模擬與世界的互動,就能推匯出“手伸進火裡->皮膚燒傷”的物理必然性。預測下一個詞,遵循的是“語法邏輯”;而預測下一幀世界,遵循的是“物理邏輯”。這就是李飛飛認為,掌握空間智能的AI該做的事情。她把它稱為,世界模型。之前,如果你讓AI畫一個“凌亂的房間”,它會生成一張像模像樣的圖片。但是,你沒辦法看看桌子底下有什麼,把地上的髒衣服撿起來。但在世界模型生成的房間,你可以蹲下來看床底、拉開抽屜。因為房間裡有重力、有光影,還有遮擋關係。這和目前的AI視訊,也有本質區別。因為AI視訊,只是“看上去理解了世界”,本質上還是在黑屋子裡,預測下一個像素。比如,吃漢堡。雖然AI視訊可以預測到,當人的嘴到了漢堡上,漢堡大機率會變形、會缺少一塊,但它並不理解,漢堡為什麼是軟的,以及,人咬下一口之後,那一塊漢堡其實是到了人的嘴裡。它也沒辦法換個位置,看看漢堡的面包底是不是焦了。預測下一幀世界。理解了。可是,這要怎麼做到?語言,說白了就是一個詞接著一個詞,是一維的序列訊號。但世界是三維的,甚至還要加時間維度。重力決定了蘋果怎麼掉,原子結構決定了光線怎麼反射。要預測下一幀世界,就得讓語義、幾何、物理規律保持一致,這比處理語言複雜太多了。李飛飛也很坦率,聊了幾個他們團隊還在死磕的方向。比如,找公式。大語言模型之所以成功,是因為找到了一個簡單的任務函數:預測下一個詞。世界模型,也能找到這樣一個簡單優雅的公式嗎?目前還需要努力。比如,找資料。要訓練具有空間智能的世界模型,就得找到海量空間資料。去那找?他們正在開發一種,從網際網路上的二維視訊裡,提取空間資訊的演算法。過去的AI,是在用機率“猜”下一個詞;未來的AI,或許能用物理“算”下一幀世界。精確地把“想像”變成“真實”,也許是下個時代最大的機會之一李飛飛的World Labs,已經做出了一款叫Marble的產品。具體網址:https://marble.worldlabs.ai/。只要你提供一句描述,一張照片,它就可以生成一個可以探索的空間。我試著上傳了一張我們新辦公室的照片,沒想到還真能行。(圖片來自:Marble)是不是還挺有意思的?幾秒鐘內,它不僅識別出了裡面的桌子、椅子,還腦補出了空間位置。雖然還很粗糙。可能是我只上傳了一張照片的原因。那麼,如果未來的AI真的如李飛飛所說的那樣,有了空間智能,又意味著什麼?首先,對於普通人來說,是AI進入現實社會,所帶來的極大便利。一旦空間智能成熟,離機器人走入家庭,就真的不遠了。它能理解“花瓶是易碎的,要繞著走”;能理解“地上有水,要先拖干”。讓機器人幫你疊衣服、整理雜亂的玩具房、甚至照顧老人起居,將變成現實。甚至再進一步,讓奈米機器人在血管裡送藥。而當AI基於空間智能,掌握了從現實中抽象出規律的能力,它們或許,就能像牛頓和愛因斯坦一樣,擁有“科學家的直覺”。從而,真正發現規律、進行創新。接著,對於創業者來說,加持空間智能的AI,可能意味著一些新的機會。比如,真正“可控”的視訊生成。現在的視訊AI(比如 Sora),雖然厲害,但還是有點“抽盲盒”。它可以生成一隻貓。但你很難控制貓的走位、光影的角度。這對商業廣告、電影製作來說,就有點難操作。甲方要求臉必須再轉15%,你不能說“AI 隨機生成的我改不了”。李飛飛在訪談裡就舉了一個例子。他們和索尼的一家虛擬製作公司合作,用了Marble搭建場景,可以自由地選擇拍攝角度,生產效率提升了40倍。比如,做一些“想像成真”的ToC產品。例如,裝修。拍一張毛坯房的照片,說改成北歐風,暖色調。幾秒鐘後,你就可以得到一個可以到處走,還能修改沙發位置的虛擬樣板間。例如,3D相簿,給一張老房子的照片,就能得到一個3D空間。你可以看看桌上的擺設,看看牆上的掛曆,再次回到小時候。李飛飛提到了一個讓我特別意外的場景:心理治療。有團隊找上門,表示想用這個技術,來治療“恐高症”。通過瞬間生成的虛擬懸崖,就能幫病人一步步克服恐懼。又比如,賣合成資料,給做機器人的公司。本質上,這就是給機器人,開了一間學校。你不需要造機器人,你只需要生產特定領域的“教材”。比如,專門生產“怎麼修汽車”的資料,賣給修車機器人公司;專門生產“怎麼做手術”的資料,賣給醫療機器人公司。精確地把“想像”變成看得見、摸得著的“真實”,也許是接下來最大的機會之一。好了。總結一下。為什麼AI現在這麼厲害,但還是會犯一些低級錯誤?可能因為,它沒有真正理解世界,而只是在統計規律中找答案。所以未來,AI的發展方向,可能要拐一下,從預測下一個詞,到預測下一幀世界。也就是真正掌握,空間智能。那,這個方向對不對?會不會通向真正的智能?我不知道。但至少,這是一個值得嘗試的方向。因為目前的大語言模型,確實遇到了瓶頸。參數越來越大,算力越來越強,但一致性,總也沒有特別好的解決方案。而且,如果這個方向真的走通了,確實會帶來一些變化。機器人可能真的能進入家庭。甚至,AI可能真的能像科學家一樣,從現實中發現規律,而不只是從資料中總結規律。當然,這一切都還很早。Marble,還很粗糙。世界模型的“公式”還沒找到,空間資料也還不夠。但至少,通往智能的那個未來,又多了幾分念想。畢竟,科技進步從來不是一條直線。繞點遠路,沒啥。 (創業邦)
彭博專訪李飛飛:「人工智慧教母」未曾預料到它會如此龐大
The Godmother of AI Didn't Expect It to Be This Massive史丹佛科學家李飛飛談如何讓機器像人類一樣“看見”,中美人工智慧軍備競賽,以及她對高度自動化未來的擔憂。作者:米沙爾·侯賽因(Mishal Husain)2025年11月21日美國東部時間凌晨1:00圖片:Uli Knörzer for Bloomberg; Photo Source: Chris J. Ratcliffe/Bloomberg如今,人工智慧已如此深入我們的生活,以至於我們幾乎不再追問它是如何走到今天這一步的——即便我們曾經真正理解過這段歷史。這是一個關於科學家們多年默默耕耘的故事:他們希望有一天能讓機器擁有智能,並為此不斷拆解人類智能的各個組成部分。史丹佛大學教授李飛飛正是這場探索的先鋒人物,也因此被譽為「人工智慧教母」。 2006年,她發布了一項學術成果——一個包含數百萬圖像的視覺數據庫,其核心理念是訓練計算機像人類一樣“看”,這一想法掀起了一波人工智慧發展的浪潮。這位突破性成果背後的女性有著非同尋常的成長背景,這也塑造了她看待世界的方式。 15歲時,李飛飛隨父母從中國移民到美國。初到異國,她幾乎不會說英語,必須在學業、社交和經濟上全面適應全新的環境。後來父母開了一家小型乾洗店維持生計,她在大學期間一直經營這家小店。當李飛飛在彭博倫敦總部接受採訪時,我們聊起了她的個人經歷與職業生涯。我感受到她身上一種深刻的同理心。她對自己參與創造的技術充滿期待,同時也格外強調人的能動性──文末你會看到她給所有父母的一條寄語。能否先談談您所處產業的這個非凡時期? ChatGPT向公眾發布至今已有三年,其間湧現出大量新應用、新平台,並吸引了巨額投資。此刻對您而言意味著什麼?AI對我來說並不新鮮。我在這個領域已經深耕25年,從職業生涯一開始便日復一日地沉浸其中。然而即便如此,當下這一刻仍讓我感到震撼,甚至有些不真實——因為它的影響實在太廣泛、太深遠了。這是一種文明等級的技術。作為推動這項技術實現的科學家群體之一,我從未預料到它會發展到如此龐大的規模。註1:李飛飛此次赴倫敦是為了領取2025年伊莉莎白女王工程獎,與輝達CEO黃仁勳及其他五位得獎者共同受獎。她先前曾多次撰文或演講,談到21世紀初AI領域的「寒冬」時期——當時從事該領域研究的人幾乎無人問津。轉捩點是什麼時候?是因為技術發展速度加快,還是因為全世界終於覺醒,將聚光燈打在你們這些研究者身上了?我認為這兩者密不可分。但對我而言,稱AI為“文明等級的技術”,並非因為它獲得了多少關注,甚至也不僅僅因為它有多強大,而是因為它將影響到多少人的生活。每個人的生活、工作、福祉甚至未來,都將以某種方式被AI觸及。這種影響既有正面的一面,也有負面的一面吧?沒錯,科技從來都是雙面刃。自從人類文明誕生以來,我們就不斷創造被稱為「科技」的工具,整體而言,這些工具本意是行善的。但在使用過程中,我們可能有意誤用,也可能帶來意想不到的後果。您剛才用了「強大」這個詞。而這種技術的力量目前掌握在極少數公司手中,其中大多數是美國企業。對此您作何感想?您說得對。大型科技公司透過其產品對社會產生了最直接的影響。我個人非常希望這項技術能更民主化。無論誰在開發或掌控這項具有深遠影響的技術,都應以負責任的方式行事。我也相信,每個人都應該感受到自己有能力影響這項技術的發展方向。您不僅是一位學者,也是一家科技公司的CEO。據報導,您創立不到一年半的新公司估值已達十億美元。是的! [笑]我是World Labs的共同創辦人兼CEO。我們正在建構AI的下一個前緣-空間智能(spatial intelligence)。目前人們談論最多的還是大語言模型,但在我看來,空間智能與語言智能同樣關鍵,且互為補充。註2:World Labs在2024年正式推出前已融資超2億美元。同年,李飛飛在一場TED演講中表示:“如果我們希望AI超越當前的能力,就不能只滿足於能'看見'和'說話'的AI,我們需要的是能'行動'的AI。”我知道您最初熱愛的學科是物理學。是的。那些您最敬佩的物理學家,他們的生活或工作中有那些特質讓您開始思考超越物理學本身的問題?我在中國不太知名的小城市長大,家庭也很普通,可以說我的生活格局一度很小。童年簡單而孤獨,我是獨生子女。註3:李飛飛成長於中國四川成都,母親是教師,父親在化工廠的電腦部門工作。在她的著作《我所看見的世界:AI黎明時的好奇、探索與發現》中,她將自己的科研道路與童年經歷聯繫起來:“做研究帶給我的感受,就像小時候和父親一起在成都周邊山裡探險時,突然發現一隻從未見過的蝴蝶,或偶然遇見一種新品種的竹節蟲。”而物理學則恰恰相反──它宏大、大膽,想像力無邊無際。仰望天空,你能思索宇宙的起源;觀察一片雪花,你能深入物質的分子結構;你還能思考時間、磁場、原子核…物理學帶我進入現實世界無法抵達的想像之境。直到今天,最令我著迷的仍是物理學敢於提出最大膽、最無畏的問題:關於我們所處的物理世界、宇宙,以及我們從何而來。但您自己提出的那個大膽問題,我想應該是:“什麼是智能?”沒錯。每一位我敬仰的物理學家,從牛頓、麥克斯韋、薛丁格到愛因斯坦——我最喜歡的物理學家——都在提出屬於他們時代的「無畏之問」。我也想找到屬於自己的問題。大約在大學期間,我的焦點從物理世界轉向了智慧本身:什麼是智慧?它是如何產生的?最令人著迷的是,我們如何建造智慧機器?這個問題從此成為我的畢生追求,我的北極星。這確實是「量子躍遷」——從只會計算的機器,到能夠持續學習的機器。我很喜歡你用這個物理學雙關語,「量子躍遷」。此刻我們周圍有多個物體,一眼就能認出它們。人類辨識物體的能力是認知的基礎。我的博士論文就是致力於建構能辨識盡可能多物體的機器演算法。我特別感興趣的是,您的學術背景非常廣博。而您最終的突破,正是源自於您開始關注心理學家和語言學家的觀點,並將其與自己的領域聯繫起來。這正是前沿科學的魅力所在——它是全新的,沒人知道該怎麼做。很自然地,我們會觀察人腦和人類心智,試圖理解甚至從中獲得啟發。在我早期嘗試破解視覺智慧難題時,一個關鍵靈感來自對人類視覺語意空間結構的思考:世界上有成千上萬、甚至數百萬種物體,它們是如何組織的?是按字母順序?大小?還是顏色?註4:在加州理工學院攻讀博士期間,李飛飛堅信更大規模的資料集對AI進步至關重要。後來,她受到神經科學家兼心理學家歐文·比德曼(Irving Biederman)一篇論文的影響。論文估計,一般人能辨識約3萬種不同類型的物體。您之所以思考這個問題,是因為要教導計算機,就必須先理解人類大腦如何組織資訊,對嗎?這是一種思路。我當時偶然接觸到一個名為WordNet的語言學計畫——它用特定的分類法組織語義概念(不是視覺,僅限詞語)。註5:繼比德曼的論文之後,這是第二項來自李飛飛本專業之外卻對她產生重大影響的工作。能舉個例子嗎?在字典裡,「apple」(蘋果)和「appliance」(電器)排得很近,但在現實中,「apple」和「pear」(梨)更接近,因為它們都是水果,而「appliance」屬於完全不同的物品類別。我由此聯想到:視覺概念或許也是這樣組織的──蘋果和梨的關聯遠大於蘋果和洗衣機。更重要的是規模問題。當你看到語言所能描述的物體數量之龐大,就會意識到這一點。這對我而言是一次頓悟:身為智慧生物,我們透過海量數據體驗世界——我們也必須賦予機器這種能力。值得一提的是,當時──我想是本世紀初──「大數據」這個概念還不存在。是的,這個詞甚至還沒出現。我們當時使用的科學研究資料集非常小。註6:「大數據」一詞雖在1990年代就已出現,但直到2010年代才普及。如今看來,大規模資料集對機器學習至關重要似乎是理所當然的,但過去並非如此。畢竟,兒童僅憑少量例子就能學會複雜規則。事實證明,現代AI的表現恰恰高度依賴可用資料量。有多小?在影像領域,我那個時代的研究生通常只用​​包含4類、6類,最多20類物件的資料集。而三年後,我們創建了ImageNet,包含2.2萬類物件和1500萬張帶有標註的圖像。註7:李飛飛團隊於2006年首次發布ImageNet資料庫,極大推動了電腦視覺的發展。更重要的是,她還發起了一場全球競賽,邀請各國團隊用演算法將資料子集分類。正是在這項比賽中,多倫多大學傑佛瑞·辛頓(Geoffrey Hinton)團隊展示了神經網路看似過時的技術的巨大潛力。ImageNet是一次巨大突破,也是您被稱為「AI教母」的原因。我很想知道,是什麼讓您能建立這些別人看不到的連結?您是在移居美國後才學習英語的,這種經驗是否與此有關?我不知道。人類的創造力至今仍是個謎。人們常說AI無所不能,我不同意。我們對人腦的理解還遠遠不夠。我只能推測,是我的興趣和經歷共同促成了這一切。我不害怕在科學中提出瘋狂的問題,也不害怕尋找「跳出框架」的解決方案。我對語言與視覺之間連結的敏感,或許正源自於我自己學習新語言的經驗。註8:雖然沒有科學證據,但我忍不住猜想:李飛飛的背景──尤其是她在進入大學前關鍵的三年裡習得一門全新語言──是否與她開創ImageNet的工作有關?她曾經如此努力地理解美國這個新世界,無論是文化或語言,並將所有所學整合起來。這或許解釋了她為何廣泛閱讀,並熱衷於尋找資訊組織方式以更好地學習。(配圖說明:英國國王查爾斯三世(上排左二)與2025年伊麗莎白女王工程獎得主合影,包括傑佛瑞·辛頓教授(上排右)、輝達CEO黃仁勳(下排左)和李飛飛(下排中)。攝影師:Yui Mok/Pool/Getty Images)十幾歲就來到美國,那是個特別難適應的年紀,更何況還要克服語言障礙。那段經歷是怎麼樣的?非常艱難。 [笑]我15歲來到美國新澤西州帕西帕尼(Parsippany)。我們全家幾乎都不會說英語。我年紀小,學得快些,但父母非常吃力。我們經濟狀況很差。父母做過收銀員,我在中餐館打工。後來我上大學時,母親健康惡化,全家決定開一家小乾洗店來維持生計。您親自參與經營?我開玩笑說自己是「CEO」。從18歲到研究所中期,我經營了七年乾洗店。即使離家讀書,您也在遠端管理父母的生意?是的。因為只有我會說英語,所以所有客戶電話、帳單、質檢等業務都由我處理。這段經歷教會了您什麼?韌性。做科學研究需要韌性,因為科學之路從來不是線性的。沒人一開始就有答案,你必須歷經挑戰才能找到解答。而身為移民,你更懂得什麼是堅韌。父母是否對您施加壓力?他們顯然希望您過得更好。這種動力有多少來自他們,又有多少源自於您對他們的責任感?說實話,他們並沒有給我太多壓力。用今天的話來說,他們不是「虎爸虎媽」。他們只是在努力生存。我母親骨子裡是個知識分子,熱愛閱讀。但移民生活的艱辛加上健康問題,讓她根本無暇督促我。身為青少年,我沒有退路——要嘛成功,要嘛失敗,風險很高。所以我完全是自我驅動的。我一直是個好奇的孩子,科學成了我好奇心的出口,這讓我內心穩定下來。我對夜店之類毫無興趣,而是深深熱愛科學。您還有一位非常重要的老師,請講講他。我數學成績優異,認識了數學老師鮑伯‧薩貝拉(Bob Sabella)先生。我們因共同熱愛科幻小說而成為朋友。起初我讀中文科幻,後來開始讀英文。他大概看出了我的求知慾,於是主動為我創造繼續深入學習數學的機會。我記得當時我已經學完了學校最高階的數學課程,再無課可上。他就用自己的午餐時間為我開設一對一輔導——現在我自己當了老師才知道,他這麼做完全沒有額外報酬。這純粹是一位教師的愛與責任感。他成了我生命中的重要人物。註9:這並非《周末訪談》首次提到一位改變人生的老師:劇作家詹姆斯·格雷厄姆(James Graham)曾告訴我,他的戲劇老師漢弗萊先生激發了他的職業志向,他甚至在劇中以老師的名字命名了一個角色。他還在世嗎?薩貝拉先生在我擔任史丹佛助理教授期間去世了。但他的家人——兩個兒子和妻子——成了我在新澤西的家人。您用了「愛」這個字。他和家人是否幫助您融入了美國社會,讓您瞭解校園以外的美國?絕對是的。他們讓我接觸了典型的美國郊區中產階級家庭生活。這為我打開了一扇窗:讓我理解這個社會,紮根來,擁有朋友,還有一位真心關心我的老師。註10:薩貝拉夫婦曾藉錢資助李飛飛上大學,並在她離家求學期間繼續幫助她父母經營乾洗店。 「在很多方面,他填補了我與父母關係中的某種缺失,」李飛飛在書中寫道,「母親一直激勵我,但她對數學和物理並無興趣……而父親的影響最貼近我的心——他是第一個鼓勵我對自然世界保持好奇的人,也是我接觸物理學的引路人——但我不得不承認,我早已超越了他的榜樣。」您覺得如果留在中國,是否也能擁有今天的事業?這個問題很難回答,因為人生充滿偶然。路徑會完全不同。但不變的是那份好奇心,以及追尋「北極星」的執著。我相信,無論如何我都會以某種方式投身AI。您是否仍與中國保持聯繫?那是我文化血脈的一部分。我很幸運能在美開啟職業生涯。如今我和家人生活在史丹佛、舊金山、矽谷這極具國際化的環境中。而我所從事的AI領域本身也是高度全球化的,它觸及世界各地的人。此刻的我,更像世界公民。儘管如此,中國在AI領域確實取得了令人矚目的進展:專利數量、論文發表量,還有今年稍早的DeepSeek事件。展望未來,您認為中國會在AI領域像在製造業那樣追上甚至超越美國嗎?註11:目前全球AI競賽基本上是中美兩國領跑,頂尖實驗室大多集中在這兩個國家。儘管全球目光聚焦於西方科技公司,但彭博上月報導指出,中國公司正透過開源AI模式積極接觸非洲的新創企業和創新中心,這項策略「與中國'一帶一路'基礎設施倡議有相似之處」。我認為中國確實是AI強國。目前大多數人公認,AI領域的兩個領先國家就是中國和美國。各地、各國都展現出強烈的意願、能量和雄心,希望在AI領域扮演角色、迎頭趕上甚至領先——這種願望是普遍存在的。談談您自己的下一個前沿:「空間智能」具體指什麼?您在做什麼?空間智能是指AI理解、感知、推理並與世界互動的能力,它是視覺智能的延續。我職業生涯的前半段——圍繞著ImageNet時期——致力於解決一個基礎問題:理解我們所看到的東西。但這是一種被動行為:接收訊息並理解——「這是一個杯子」「這是一位美麗的女士」「這是一個麥克風」。然而從演化角度來看,人類的智能——感知——與行動密不可分。我們之所以看,是因為我們要移動;我們移動,因此需要看得更清楚。要建立這種「感知-行動」連接,關鍵在於空間——你需要理解三維空間,理解物體如何運動,理解「當我觸碰這個杯子時,手指該如何在數學上協調,形成一個能抓住杯子的空間結構」。所有這些複雜性,都圍繞著「空間智能」這一核心能力。註12:這種「知覺圍繞行動組織」的觀點源自心理學家詹姆斯‧J‧吉布森(James J. Gibson)。他認為生物並非被動接收視覺訊息,而是主動探測行動的可能性。他曾說:「我們感知是為了移動,我們移動是為了感知。」史丹佛視覺與學習實驗室的3D模擬平台就命名為「The Gibson Environment」以致敬他的影響。我在您網站上看到一個預覽—一個虛擬世界。對您而言,這是訓練AI的工具嗎?需要明確一下定義:Marble是一個前沿模型。它的非凡之處在於,只需一個簡單提示,就能生成一個3D世界。例如提示可以是:“給我一個現代風格的廚房”,或者“這是一張現代廚房的照片,請把它變成3D世界”。創造3D世界的能力對人類至關重要,我希望有一天這對AI也同樣重要。如果你是設計師或建築師,可以用這個3D世界進行構思和設計;如果你是遊戲開發者,可以用它快速獲取3D場景來開發遊戲;如果你想做機器人模擬,這些世界將成為訓練或評估機器人的寶貴數據;如果你想在AR/VR中打造沉浸式教育體驗,這個模型也能助你一臂之力。註13:多家公司都在探索類似方向,包括GoogleDeepMind。李飛飛近期在一篇文章中詳細闡述了她對「空間智能」作為AI下一前沿的願景。(配圖說明:Marble AI模型根據文字或圖像提示產生的3D環境截圖。來源:Marble)很有意思。我能想像阿富汗的女孩們,在條件艱苦的地方透過虛擬教室上課。是的。或者,你怎麼向一個8歲孩子解釋「什麼是細胞」?未來我們可以創造一個細胞內部的世界,讓孩子走進去,直覺地理解細胞核、酵素、細胞膜。這種可能性無窮無盡。註14:聽到這裡,我想起自己學生時代生物考試時手繪並標註細胞結構的情景。一個可進入的細胞虛擬世界,無疑地為孩子留下深刻且難忘的心智影像。您的行業龐大而複雜,但也面臨一些緊迫問題。我想請您就幾個問題給予直覺反應。第一:AI會摧毀大量工作嗎?註15:AI對就業的影響複雜且不確定:一些公司(尤其是新創公司)已開始用AI自動化工作,但美國整體就業數據尚未明顯反映這一點。不過,AI可能已在侵蝕白領入門級職位,部分經濟學家擔心長期會對勞工不利。科技確實會改變勞動力格局。像AI這樣影響深遠的技術,必然對就業有重大衝擊。這種情況已經在發生。 Salesforce CEO馬克貝尼奧夫(Marc Benioff)就表示,公司50%的客服職位將由AI取代。毫無疑問,每次人類創造出更先進的技術——蒸汽機、電力、個人電腦、汽車——都會經歷陣痛,但也會重塑就業結構。只盯著就業人數的增減是片面的。我們需要更細緻地看待這個問題,並認真思考如何應對改變。這涉及個人責任(你必須學習、提陞技能)、企業責任和社會責任。這是一個大問題。第二個問題更大:您認識傑佛瑞·辛頓教授(諾貝爾獎得主,研究與您有交集),他認為AI導致人類滅絕的機率有10%到20%。註16:所謂「AI末日論者」擔心人類無法確保AI目標與人類目標一致。他們警告,隨著AI變得更聰明,它可能學會規避指令,追求自我保存——甚至不惜犧牲人類。首先,辛頓教授──我叫他Geoff,因為我們相識25年──是我非常敬佩的人,我們常常交流。但我對他關於「AI取代人類」的觀點持不同意見。我不是說這絕對不可能發生,而是認為:如果人類真正陷入危機,那根源在於人類自身的錯誤行為,而非機器作惡。但他提出了一個非常實際的問題:當超級智慧比我們更聰明時,我們該如何防止它失控?他說我們根本沒有應對模型。我認為這個問題本身隱含了一個假設:我們還沒有這樣的機器。距離那一天,我們還有很長的路要走。我的問題是:為什麼人類作為一個整體,會允許這種情況發生?我們的集體責任在那裡?我們的治理和監管又在那裡?註17:辛頓指出,企業和政府正做出錯誤假設:“他們的基本模型是:'我是CEO,這個超級智能AI是我極其聰明的執行助理。我是老闆,如果她不聽話,我可以解僱她。'但當AI比我們更聰明、更強大時,情況絕不會如此。”您認為有沒有辦法為超級智慧設定上限?我認為可以透過國際合作,確保技術的負責任開發與使用。是指政府間簽訂條約,還是企業自願遵守某些準則?這個領域尚處早期,我們還沒有國際條約,也未達成全球共識。但我們已有全球意識。我想強調的是,我們不應過度聚焦AI的負面後果。這項技術固然強大,可能帶來風險,但也蘊含無數造福人類的應用。我們需要全面看待。我知道您經常與政界人士交流,在美國、英國、法國等地都有。他們最常問您什麼問題,讓您感到困擾?與其說“困擾”,不如說“擔憂”。我認為大眾對AI的討論需要超越「當機器主宰降臨,我們該怎麼辦」這類問題。註18:李飛飛太客氣,沒說我問「人類滅絕」是否讓她煩,但我猜她可能有點無奈。我一向覺得這類說法危言聳聽,但聽到辛頓這樣的權威認真討論,讓我重新思考。她很可能經常被政府官員問到類似擔憂。她目前正為加州州長加文·紐森(Gavin Newsom)提供AI“可行護欄”建議(紐森剛否決了一項有爭議的AI安全法案),也與多國領導人有過交流。我還常被全球各地的家長問到:AI來了,我該怎麼引導孩子?他們的未來會是怎樣?該學計算機科學嗎?還能找到工作嗎?您怎麼回答?我會說,AI是一項強大的技術,而我自己也是一位母親。我們賦能孩子最重要的方式,是培養他們作為「人」的主體性、尊嚴,以及對學習的渴望和人類永恆的價值觀:誠實、勤奮、富有創造力、具備批判性思維。那您不擔心他們學什麼專業嗎?「擔心」不是正確的態度。應該充分瞭解:孩子們的未來將生活在一個AI無所不在的世界。根據他們的興趣、熱情、個性和處境,幫助他們做好準備。 「擔心」解決不了問題。還有一個產業問題:大量資金湧入像您這樣的公司,是否有泡沫?會不會重蹈網路泡沫覆轍,許多公司被高估?註19:對AI投資規模的擔憂日益增長,包括部分大額交易的循環性質,以及美國經濟對該行業的曝險。本月早些時候,《大空頭》原型邁克爾·伯裡(Michael Burry)披露了針對輝達(全球最大AI晶片供應商)的看跌押注,彼得·蒂爾(Peter Thiel)的避險基金上季度則清倉了全部輝達股票。首先,我的公司仍是新創公司。當我們談論巨額資金時,主要指的是大型科技公司。 AI仍是一項新興技術,還有很多待開發之處。科學突破非常困難,因此資源投入至關重要。另一方面是市場:我們能看到回報嗎?我堅信AI的應用場景極為廣闊——軟體工程、創意、醫療、教育、金融服務——市場將持續擴張。在福祉和生產力方面,人類有太多需求可透過AI作為助手或協作者來滿足。這部分市場,我堅信會不斷擴大。但代價是什麼?能源消耗和氣候影響如何?著名AI企業家傑瑞·卡普蘭(Jerry Kaplan)警告,由於資料中心耗能巨大,我們可能正走向一場新的生態災難。這是個有趣的問題。訓練大模型確實需要越來越多的電力,但沒人規定資料中心必須用化石燃料供電。能源側的創新將是解決方案的一部分。(配圖說明:亞馬遜雲端科技位於維吉尼亞州馬納薩斯的資料中心。根據美國能源部報告,受資料中心擴張推動,2026年美國商業用戶用電量預計激增5%,全國總用電量將成長2.15%。攝影師:Nathan Howard/彭博)但它們的能耗實在太大,僅靠再生能源似乎難以滿足。目前確實如此。需要建置大型資料中心的國家,也必須同步檢視能源政策和產業佈局。這正是我們投資和發展更多再生能源的機會。您描繪了一幅非常樂觀的圖景。作為先行者,您看到更多潛力,我可以理解。但您對這個行業最擔憂的是什麼?我不是科技烏托邦主義者,也不是反烏托邦主義者──我屬於「無聊的中間派」。這個中間派主張用更務實、更科學的眼光看待問題。當然,任何工具落入錯誤心態的人手中都會讓我擔心。自人類文明伊始,火的發明對我們至關重要,但用火傷害他人則是巨大的災難。因此,AI的任何誤用都令我憂慮。此外,與公眾溝通的方式也讓我擔憂,因為目前社會存在太多焦慮。註20:在史丹佛以人為本人工智慧研究院(HAI),李飛飛身邊聚集了許多志同道合者,他們都希望AI能服務公共利益。但我懷疑,她對未來的設想是否過於依賴「負責任的行為者」——這些人同時兼具商業利益、政策影響力和學術背景。我最擔心的是教師群。 我的親身經歷告訴我,他們是社會的脊樑,對培養下一代至關重要。我們是否與他們進行了有效溝通?是否帶他們一同前進?教師們是在用AI工具增強教學能力,還是在幫助孩子正確使用AI?所以我們既關注工作,也關心生活。您今天的生活與當年在父母乾洗店打工的日子天差地別。身為產業領袖,您是否意識到自己擁有的影響力?[李飛飛笑] 我在家還是常常洗衣服的。我深知自己的責任。我是將這項技術帶到全世界的人之一。我有幸在全球頂尖大學工作,培養未來領袖,並進行前沿研究。我也意識到,身為生成式AI領域最受矚目的新創公司之一的創辦人兼CEO,我的每個行動都有後果,這是我必須承擔的責任。我對此非常認真,因為我始終強調:在AI時代,能動性必須掌握在人類手中──它不屬於機器,而屬於我們自己。我的能動性,就是創造令人興奮的技術,並負責任地使用它。對於您生活中的親人,例如您的孩子,您禁止他們用AI、設備或網路做什麼?這是永恆的忠告:不要用工具做愚蠢的事。你要思考為何使用工具、如何使用。例如,不要因為有了AI就變得懶惰。如果你想學懂數學,大語言模型或許能給你答案,但這不是學習之道——你要學會提出正確的問題。另一方面,不要用它來做壞事。例如資訊誠信問題:偽造圖像、偽造聲音、偽造文字。這些既是AI帶來的挑戰,也是社群媒體時代社會溝通方式的問題。您在這樣一個日新月異、三年前難以想像的世界裡,呼籲的卻是傳統價值。你可以稱之為“傳統”,也可以稱之為“永恆”。身為教育者、母親,我相信有些人類價值是永恆的,我們必須認識到這一點。訪談者:米沙爾·侯賽因(Mishal Husain),彭博周末版主編 (邸報)
李飛飛世界模式爆火後,我們實測後發現離「真可用」還很遠
這周四,李飛飛 2024 年成立的創業公司 World Labs 發布了「世界模型」。 它可以根據單張圖片和提示詞來創建 3D 世界。有兩種用法:可以直接透過提示詞產生世界,但提示詞+一張圖片效果更好。也可以直接上傳圖片,不用提示詞,系統會根據圖片來產生提示詞和世界。網站上的使用者範例:我們也直接動手開始測評,基於Marble 搭了一段城市CBD 街景:初始視角下效果頗為亮眼,但一旦離開生成原點,畫質便迅速下降,場景出現明顯變形和未完全渲染的空白區域。比較其他使用者案例可以發現,這種「原點精細、周邊塌縮」的問題在目前版本中較為常見。但在地圖邊界較窄、偏小的世界裡,生成的世界畫面品質與精美程度還是不錯的:在初次體驗時,Marble 的生成效果令人震撼,然而隨著使用深入,我們觀察到其當前世界模型存在明顯的空間規模限制。當生成區域較小(例如只覆蓋使用者上傳的圖片附近)時,畫面品質很精細;但一旦嘗試產生更大範圍的場景,整體體驗出現明顯衰減。1. 空間範圍擴展後質量快速下降當生成的世界邊界擴大,模型無法保持一致的幾何和紋理質量,遠離起始區域後場景會出現模糊、扭曲、拉伸等失真現象。2. 現實輸入與生成空間之間存在明顯品質斷層使用者上傳的2D 影像區域通常作為「原點」呈現高品質渲染;但從影像提供的視角稍作移動,進入模型自主補全的3D 區域後,品質顯著降低,空間結構也容易崩塌。3. 世界越大,細節越稀疏,整體一致性越差受算力與生成方式限制,模型能在局部區域提供精準重建,但在大規模場景中難以維持足夠的密度和幾何連續性,因此大範圍探索時的可玩性與沉浸感不足。於是我們在想,既然單次生成的世界模型受制於算力與模型能力,那我們能不能多生成幾個世界,拼在一起?我們升級至 Pro 會員後,體驗了一下官網部落格重點介紹的「世界延展」功能,但延展後的區域仍然存在嚴重的幾何扭曲與紋理拉伸,並且整體畫面偏向高度抽象化,很難滿足可遊玩、可使用的世界構建需求。“延展”功能的世界體驗完世界延展功能後,我們又試用了同樣屬於Pro 會員核心能力之一的「多圖生成」。依產品設定,使用者可以上傳多張照片,模型會在同一個世界同時呈現這些畫面元素,進而建構出更完整、更豐富的場景。基於這個假設,我們選取了多張拉斯維加斯繁華街區的街景照片,希望在Marble 中復現一條包含多棟標誌性建築的Vegas 的Strip Road,即便建築的相對位置與真實街區不完全一致,只要能在同一世界中共存即可。實際體驗卻不理想:多圖生成任務運行了兩個多小時仍停留在初始 loading 狀態,沒有進入可見的階段。隨後我們在Reddit 和小紅書等平台調查了其他用戶的反饋,發現類似問題相當普遍:多圖合成功能經常長時間卡在生成中,幾乎被視為“形同擺設”,難以在當前版本承擔構建大型、複合場景的實際用途。拉斯維加斯的街景生成持續三小時Reddit上的用戶評論小紅書上的使用者評論使用過程中的Bug官方案例中展示了一款基於Marble 搭建的遊戲項目,我們尚未完整體驗該遊戲本身,但從現有的效果圖與演示視頻來看,其呈現效果與普通用戶在實際使用Marble 時能夠達到的體驗之間存在明顯落差。此外,遊戲開發本身並不依賴Marble 才能完成,市面上已有多種成熟的關卡編輯器與遊戲引擎可供選擇。換句話說,官網展示的這類用例更多體現了Marble 在專業開發者手中的潛力,而非普通To C 用戶可以輕易復現的日常使用場景。對於不具備專業背景、也不希望面對複雜功能配置的個人使用者而言,這些能力的可享程度有限。而從工具鏈的實用性與成熟度來看,Marble 在遊戲製作這一垂直方向上,相比既有的專業開發工具,還需要更多時間和來自開發者社群的系統性驗證。遊戲設計師用Marble做成的遊戲綜合以上體驗與觀察,我們傾向於將Marble 視為 「AI 生成遊戲與虛擬空間的一代早期雛形」:在技術概念和探索方向上十分前沿,但距離真正意義上可被主流開發團隊與普通用戶穩定採用,還有相當長的路要走。就目前階段而言,它更像是對世界模型+ 空間生成可能性的公開實驗,而非一款已經打磨成熟的生產工具。即便如此,我們仍然認為,李飛飛團隊圍繞著「太空智慧(Spatial Intelligence)」 所做的嘗試具有重要意義:它在技術路徑上為未來的虛擬世界建構、機器人模擬、數位孿生等應用開啟了新的想像空間。 Marble 或許還不夠好用,但作為一個標誌性起點,它讓我們得以提前看到下一代空間運算與內容生產工具的輪廓,也讓人有理由繼續關注這一方向在未來幾年中的演化與落地。(深恩SenseAI)
李飛飛發佈顛覆型AI產品,極有可能重塑教育和創作方式
剛剛,李飛飛萬字長文發佈了首款商用世界模型Mable,AI教母再次引領變革。Marble內建一個原生的AI世界編輯器Chisel,使用者只需一句提示,就能按自己的想法自由改造世界。李飛飛說:空間智能能有潛力徹底變革我們創作和體驗敘事的方式,將其影響力從娛樂延伸到教育。孩子的學習將可能像探險一樣,內在動機將會被充分激發,學生可以利用Mable建構自己心中的文學世界、歷史場景或物理模型,從知識的接受者轉變為主動的創造者和講述者。太酷了!不由得重讀了一遍趙燦翻譯的《李飛飛傳》,激動不已,如果每個父母和孩子都可以好好讀一次這本書,他們大機率可以找到在AI時代,讓自己穿越焦慮、穿越恐懼、成就孩子的中國式答案。至少,你可以看到,一個普通中產家庭,如何通過家庭教育和個人選擇,讓孩子充滿溫情,又能擁有非凡的人生、改變人類的未來。推薦《李飛飛傳》每個孩子和父母必讀李飛飛是AI領域的頂級科學家,神奇的是,她在寫自傳的時候,不是從理性開始,反而從童年的感受開始。“從記事起,感知事物(無論是什麼)的純粹體驗總能以難以言喻的方式讓我深深沉浸其中。目之所及,彷彿總會有新鮮事物在等待著喚起我的驚奇之情,或許是一株植物的靜謐,或許是一隻昆蟲小心翼翼的步伐,又或許是遙遠山峰的朦朧深邃。年幼的我對這個世界還不甚瞭解,但我能感覺到,它值得探索。”在李飛飛之前,“從感受開始”的天才,並不是例外,而幾乎是頂級創造者的共性。愛因斯坦說過:“我們所能體驗到的最美的東西是神秘,它是一切真正的藝術和科學的源泉。一個人如果不再對世界感到驚奇、不能呆立在敬畏之中,那他幾乎等同於死去——他的眼睛是閉著的。”物理學家費曼把整本書命名為《發現事物的樂趣》,他解釋科學動機時說:真正驅動他的是“好奇心”,是去追問“是什麼讓風吹起海浪、讓水像空氣、像沙子那樣運動”——發現這些現象背後有共同的模式,是“看見一切如何運轉”的快感。在商業世界,賈伯斯在史丹佛演講裡沒有講商業模型,而是講直覺、好奇和“保持飢餓,保持愚蠢”——一種對未知持續敞開的心態,他把這當成創新者唯一值得堅守的“宗教”。生態學家蕾切爾·卡森強調,事實只是知識與智慧的“種子”,而“情感和感官印象是種子生長的肥沃土壤”;對於孩子來說,“知道”遠不如“先去感受”重要。正如李飛飛所說:“喚起我的驚奇之情,或許是一株植物的靜謐,或許是一隻昆蟲小心翼翼的步伐,又或許是遙遠山峰的朦朧深邃。年幼的我對這個世界還不甚瞭解,但我能感覺到,它值得探索。”難能可貴的是,李飛飛把這份感受力和驚奇之心,一直保留到了現在。從她的文字,你可以感受到,她的感受力不輸理性,甚至超越理性。而驚奇,則是她整個科研的支撐。還有對於星空的渴望,幾乎貫穿著她的人生始終——老師指向天空的更高處,說:“啊,快看,這是我最喜歡的一個星座。這七顆星星組成了北斗七星。現在沿著這條線往上看,”他指向右邊說,“看到那顆明亮的星星了嗎?這可能是幾百年來天上最重要的恆星,叫作北極星。”從那時起,李飛飛的人生,是被宇宙和星空所定義的。這是為什麼,她無法接受學校老師短視的教育。她曾公開頂撞老師、飽受質疑,一度成績一落千丈……老師跟媽媽投訴她的時候,媽媽對她說:這裡不適合你。李飛飛不是唯一一個“因為人生版圖太大,而容不下在一張課桌裡”的人。愛因斯坦十五歲時離開慕尼黑的路易特波德中學,因為他極度厭惡那種命令式、軍營式的教學——在他看來,那種教育只要求服從,不允許真正的思考。之後他去了瑞士阿勞州立中學,在那裡第一次感受到“受歡迎、被理解”,也看到了更自由的人生可能,於是才有後來的愛因斯坦。諾貝爾文學獎得主泰戈爾一生中頻繁轉學,先後在東方學院、普通學校、孟加拉學院、聖澤維爾學校輾轉,最後乾脆拒絕再上學。他覺得殖民地式的西式學校“枯燥而低劣”,遠不如大家庭裡的詩歌、音樂和思想交往來得豐盈。後來,他在聖地尼克坦親手創辦實驗學校,就是為了給孩子一種不被應試教育綁架的“開闊人生教育”。他們離開的,不是“學校”本身,而是一個過於狹隘的人生說明書。在這個到處都在談論“AI”的時代,我們很少停下來問一句:設計未來技術的人,本人是怎樣長大的?李飛飛給出的答案是——不是從論文、獎項、頭銜開始,而是從一個小女孩仰望星空、被世界驚奇擊中的那一刻開始。她記得北斗七星、北極星,記得山巒的輪廓、昆蟲的步伐,也記得自己如何因為嚮往更遼闊的人生,而不斷“轉學”、不斷離開只講功利的課堂。 (Madam Wang涉川和她的朋友們)