#空間智能
空間智能第一股來了!年入8億,發力具身智能模擬訓練
最近,又有一家AI公司要上港股市場了。不久前,群核科技正式向港交所遞交招股書。說起群核科技,很多人並不陌生。群核科技與深度求索、宇樹科技、雲深處科技、強腦科技、遊戲科學等企業一起被稱為“杭州六小龍”。從空間設計起步的群核科技,依託多年來沉澱的底層空間能力以及物理三維資料,成為了全球空間智能領域的代表性公司。過去三年,公司的收入分別為6.64億元、7.55億元和8.20億元。2024年,公司推出了面向室內環境AI開發的下一代空間智能解決方案SpatialVerse,目的是把設計軟體沉澱的空間資料,轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年,該業務已獲得16名客戶,實現收入520萬元,並已經與智元機器人展開了合作。接下來,就跟著矽基君一起來看看吧。/ 01 /“大客戶”拉動收入增長拆解收入結構可以發現,訂閱收入是公司絕對的核心支柱,常年貢獻總營收的96%以上。其中,企業客戶佔了“大頭”。2025年,企業客戶所帶來的收入高達6.69億元,佔比超過80%。在企業客戶的增長裡,“大客戶”的拉動效應尤為顯著。2023年至2025年,群核科技的企業客戶數量從41070家穩步增長至47416家,增長15%;單個企業的訂閱收入從1.37萬增長到1.41萬,增長2%。其中,年收入貢獻超過20萬的頭部“大客戶”數量,從2023年的353家增長至424家,增長了20%。每名大客戶的平均訂閱收入(ARPU)從2023年的72.9萬元,一路上漲至2025年的85.6萬元,增長17%。也就是說,群核科技的“大客戶”數量和客單價增速都遠遠超過企業客戶。相比之下,C 端業務更像一個規模穩定的基礎盤。個人客戶數量長期維持在 41 萬以上,客單價從 216 元提升至 302 元,提升明顯,但由於使用者規模增長趨緩,整體體量仍然有限。從產品矩陣來看,群核的核心產品是“酷家樂”,這是一個提供快速拖放式3D設計、即時渲染及BIM能力的雲原生平台 。在國際市場上,群核推出了支援18種語言的本地化版本Coohom 。這套產品體系覆蓋設計、可視化、實施與價值鏈協作四個環節,目標並不是單點效率提升,而是貫穿創意生成到生產交付的完整鏈路。在設計方面,設計師只需上傳CAD 圖紙、廣告設計稿或平面檔案,系統便可自動解析其中的結構與佈局資訊,生成可編輯的沉浸式 3D 設計方案。其素材庫覆蓋數百萬級3D 模型,幾乎囊括空間設計所需的全部元素,包括家具、布線、管道、照明、牆面、天花以及各類裝飾元件。上傳圖紙生成3D 設計方案在可視化方面,群核科技依託自建的高性能GPU 叢集,以及擴散模型與光線追蹤等技術能力,系統可在數秒內完成全景圖生成,實現接近即時的沉浸式可視化效果。多張全景圖還可自動拼接為虛擬現實全屋漫遊,使設計從靜態展示升級為可互動的空間體驗。更關鍵的是,系統並未停留在展示層面。設計完成後,設計師可以直接將包含尺寸、材料與規格的完整3D 資料傳送給製造商。系統基於結構化資料自動生成生產圖紙,並嚴格對齊原始輸入參數,減少人工轉換與反覆校對的誤差。這套能力已經在大客戶中形成穩定滲透,成為推動客單價提升的重要推手。2025 年,約 49.1% 的大客戶訂閱了內建 CAM 功能的版本。/ 02 /毛利率很高,但真正的考題在增長作為一家SaaS公司,群核的盈利模型已經跑通了。2023—2025年,公司毛利率分別為76.8%、80.9%和82.2%。毛利改善,也直接反映在利潤表上。2023 年和2024年,公司經調整淨虧損分別為2.42億元和0.70億元;到了2025年,公司實現5712萬元經調整淨利潤,完成扭虧。盈利改善並非偶然。過去三年,公司行銷費用從3.56億元下降至2.74億元,研發支出從3.9億元降至2.91億元。費用率的收縮,疊加訂閱收入的規模化,構成了利潤釋放的主要來源。如果單看盈利能力,群核科技是一家已經完成“從燒錢到自我造血”轉型的公司。但真正的問題不在利潤,而在增長。2025 年,公司收入增速不足10%。對於一家以成長性為核心賣點的企業來說,這樣的節奏顯然偏慢。原因並不複雜——賽道本身不夠大。招股書顯示,2024 年國內空間設計軟體市場規模約為33億元;預計到2029年將擴大至66億元,對應復合年增長率 14.9%。即便按最高預期測算,這仍然是一個百億以內的市場。而群核已經是這個市場的絕對龍頭,市佔率達到23.2%,排名第一。在這樣的背景下,尋找業務增量成為群核科技最重要的工作。從招股書看,群核的破局路徑主要集中在三個方向。第一,提高客單價,用AI 做結構性升級。AI的加入,正在改變設計軟體的使用方式。2025年,公司通過AI功能生成約 25 億張圖片,包括平面圖可視化與渲染圖等。約30%的月活使用者在其訂閱版本中深度使用AI功能。這意味著,AI不再只是附加功能,而是在成為使用者工作流的一部分。2025年3月,公司推出AI智能設計平台,面向企業客戶提升方案生成效率。截至 2025 年底,該平台已獲得28名客戶訂閱,訂單總值3000萬元。在市場規模有限的情況下,通過新功能與效率提升,向現有客戶“要增長”,提高 ARPU,而不是單純追求新增使用者數量。第二,尋找新的業務邊界。2024年推出的SpatialVerse,是公司向“空間智能”延伸的重要嘗試。平台基於多年積累的3D 設計資料與渲染引擎能力,建構高逼真、物理正確的合成虛擬資料集,用於室內場景AI訓練。簡單理解,它把設計軟體沉澱的空間資料,轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年,該業務已獲得16名客戶,實現收入520萬元。其中,智元機器人已與公司在 SpatialVerse 方案上建立合作。第三條路徑,是全球化擴張。2023—2025 年,公司海外收入從 3710 萬元增長至6840萬元,雖然規模有限,保持著不錯的增長。對群核而言,海外不僅意味著更大的市場空間,也意味著在成熟競爭環境中驗證產品競爭力。毫無疑問,群核已經證明,它可以做成一門賺錢的生意。但資本市場最真正關心的,永遠是成長性。對於群核科技來說,接下來最重要的是,這些新的故事能否在收入層面跑出足夠陡峭的斜率。 (矽基觀察Pro)
Gemini 3僅得33.6分!清華發佈首個「約束流形」空間智能基準
【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準,強調真實結構與約束條件,通過排序任務考察模型是否能精準理解三維結構的幾何與拓撲關係,揭示當前大模型在空間智能上嚴重依賴2D資訊,實際表現遠低於人類。研究指出,模型需提升三維構型識別和約束推理能力,才能真正理解空間問題。如果你把一個在空間理解榜單上刷分很高的多模態大模型,直接丟進真實世界,它很可能會在看起來很簡單的問題上翻車。不是因為它不會「看」,而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、資料集套路,走捷徑拿分。而現實世界裡,很多空間問題的本質恰恰相反:能怎麼擺、怎麼連、怎麼受力,不是隨意的;可行解往往只存在於一個被幾何、拓撲、物理強約束「壓扁」的空間裡。為此,清華大學的研究團隊推出SSI-Bench,從AI與結構工程的交叉視角出發,為空間智能評估提供了一種新的場景化思路——將評測置於複雜三維結構的約束流形中,系統檢驗多模態大模型的空間智能表現。項目首頁:https://ssi-bench.github.io/Arxiv論文:https://arxiv.org/abs/2602.07864Hugging Face資料集:https://huggingface.co/datasets/cyang203912/SSI-BenchGithub程式碼庫:https://github.com/ccyydd/SSI-Bench論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):在此類任務中,潛在三維狀態並非可被任意「臆測」,而是受到顯式約束的限定,僅能落在一個可行解集合內——既需要滿足等式約束(如幾何一致性、連接關係等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。更重要的是,強約束會顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關係在不同合理解釋下更具穩定性,從而使評測結果具備更好的可量化性與可比性。SSI-Bench正是在這一背景下提出:它不再將模型置於約束較弱、可自由組合的日常場景中,而是面向複雜真實工程結構建構評測環境,要求模型形成約束一致的三維結構假設,並在此基礎上完成空間推理。聚焦複雜三維結構純人工硬核打造任務形式:用排序題「逼出」真3DSSI-Bench不再讓模型做選擇題,而是統一成排序任務:每題給出3或4個候選「構件/構件組」,要求在指定幾何/拓撲準則下輸出正確的全排列順序。覆蓋能力:幾何+拓撲+多視角一致性全基準共1,000道排序題,任務分兩大類:幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;拓撲類(Topological):Hop Distance / Cycle Length等圖結構關係;並額外引入多視角題目:以兩張圖配合,一張提供參考構件,一張給出待比較目標,重點考察跨視角構件對應與整體結構一致性。建構過程:十位研究者耗費400+小時純人工打磨為了保證資料集的質量與多樣性,同時也由於缺乏真實結構構件的標註資料,SSI-Bench的建構流程非常「硬核」——10位研究者投入超過400小時,從大量真實結構圖片中進行人工篩選與題目設計:資料收集:研究中共計審閱約20,000張結構相關圖片,結構形式包括空間網架、鐵塔、斜拉橋、木竹結構、鋼筋籠、管道等,最終保留2,000+候選;主要來自免版稅來源(Unsplash / Pexels / Pixabay),多視角部分還補充了自採圖像。任務設計:結合空間智能需求與結構工程專業知識,共精心設計2大類、10小類任務。中繼資料標註:判斷每張圖片適用的任務類型,使用Label Studio提供構件定位標註;問題生成:依據圖片色彩自動選取標註顏色,並按構件位置自動佈局標註文字;問題生成後,由人工覆核清晰度與遮擋情況。質量檢驗:每題均由獨立檢查者覆核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。模型仍在起跑線人類領先近六成SSI-Bench系統評測了31個主流VLM,結論非常直接:人類幾乎「碾壓式領先」。人類平均91.6%,最強閉源33.6%(Gemini-3-Flash),最強開源22.2%(GLM-4.6V),隨機猜測基線12.85%也就是說,那怕拿到當下最強大模型,人類仍然領先58個百分點(91.6 − 33.6)。更為關鍵的是,即使鼓勵模型生成更長的推理過程,整體提升也多停留在邊際層面,難以觸及問題的核心瓶頸。並且在部分高度依賴全域三維一致性的任務(如Multi-View、Volume)中,過度推理反而可能在錯誤的結構假設上持續累積偏差,使結果進一步偏離正確答案。從結果到機制關鍵瓶頸在那裡?論文對代表模型做了人工復盤,歸納出四類高頻錯誤:構件範圍誤判:僅觀察到局部便誤認為整體,或對端點位置產生錯誤「補全」;遮擋越多,問題越突出。構件/節點識別錯誤:混淆不同部件,方向判斷失準(例如將傾斜構件誤判為水平或垂直)。計算與比較邏輯錯誤:在Area/Volume等任務中計算方式錯誤(例如以2D投影替代3D體積),或採用不成立的簡化假設。3D空間邏輯錯誤:深度關係混亂、跨視角對應失敗、關係組合不穩定,進而導致整體結構假設不一致。這也解釋了SSI-Bench的「硬核」並不在於題目刻意刁鑽,而在於它迫使模型直面並補齊兩項關鍵短板:三維結構構型識別與約束一致的空間推理。結語SSI-Bench的價值,並不是再造一個「更難的VQA」,而是把空間智能評估拉回一個更接近現實的坐標系:當場景是複雜真實結構、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩定地建構約束一致的3D結構假設並完成推理?從目前結果看,答案仍然很殘酷:模型還在起跑線,人類已在終點線附近。但也正因如此,SSI-Bench給出了一個非常明確的研究方向:讓空間智能體從「會看圖說話」,走向「會在結構裡思考」。 (新智元)
李飛飛最新訪談:這,才是下一個10年
筆記君說:在AI浪潮席捲各行各業的今天,每一位企業家和創業者都面臨同一個問題:未來的機會究竟在那裡?被譽為“AI教母”的李飛飛,在前兩天的一次深度對話中,給出了她的答案。以下是李飛飛這次訪談中的自述部分,希望她的這些話,對你有所啟發。一、“空間智能”是AGI的一把關鍵鑰匙1.世界遠不止語言那麼簡單我先說一下我的信念:在技術上,確實有一些相通的概念,所以我也能理解有些人說“語言即世界”。宏觀地來說,我堅信這個世界遠不止語言那麼簡單。如果我們說的語言概念,指的是那種離散的、本質上更偏向“一維”的資訊——即便它能表達多維的內容,語言本身的呈現形式還是比較一維的。但這個世界其實要豐滿得多。我一直強調,空間智能包含諸多特性,比如物理屬性這些,都是超越語言範疇的。而且不管是人類的行為,還是大自然的運轉,很多東西既沒法用語言完全表述清楚,也不可能單靠語言就實現所有想做的事。我們每天睜開眼,從生存、工作、創造,到感受、感知,再到人與人之間豐滿的情感,這些日常裡的種種,從來都不是只靠語言就能完成的。當然“語言即世界”這樣的話確實挺好聽,聽起來也沒錯,因為它是非常籠統的一句話。當你一句話很籠統的時候,它可能錯不了。但從技術層面看,現在數位化是必然趨勢:視覺模型、空間智能、機器人模型,本質上都會走向數位化。可要是把數字和語言完全畫等號、當成一回事,那這個概念就變味了。如果連數字都能被叫做“語言”,那相當於啥都能往“語言”裡套,這就沒什麼好爭論的了。在我看來,資訊遠不止語言這一種,還有空間資訊,它和語言一樣美妙、一樣重要。2.“空間智能”到了爆發前夜現在AI大環境裡,大家對AI的期待確實有點太激進了。但我可以告訴你,我選擇創業的核心原因,就是覺得時間點到了。畢竟創業和搞科研不一樣,創業得緊密結合市場、尊重市場規律。但就像很多比我優秀的企業家說的,創業最關鍵的是踩準時間點——不能太早,市場和技術都沒成熟;也不能太晚,否則就沒了機會。空間智能技術在World Labs(中文名:空間智能)剛成立時,確實還早了點,但也沒早到需要等五六年、十年的程度。我判斷未來一兩年,它會迎來爆發式增長。你看現在視訊生成技術的飛速發展,再到我們做的World Models,我堅信這類技術在一兩年內還會有質的飛躍,市場應用的可能性也越來越清晰。我沒法簡單定義現在發展的速度是快還是慢,但能肯定的是,現在正是做空間智能的好時機。我們現在做的“世界生成”(world generation)模型,真的特別令人激動。它的應用場景太廣泛了——從數字創意、遊戲開發、影視製作、設計領域、建築行業,到VR、XR、AR技術,再到機器人模擬,每一個大領域裡又能細分出無數小場景。而這些場景,其實都藏著對三維空間的強烈訴求。生成式AI有個很特別的價值:它能降低原本高難度事情的門檻,進而打開很多你意想不到的新市場。生成三維空間就是件超難的事——這個世界上沒多少人能做到,而且用到的Blender、Unity這類工具,操作起來特別繁瑣。我自己試過,頭都大了。其實很多創作者腦子裡裝滿了好想法,只是被工具卡住了,而非缺乏創意。而AI既能給現有創作者賦能,還能讓很多原本覺得“這事跟自己沒關係”的人,發現新可能。就像我,以前根本不會碰Blender、Unity這類軟體,覺得又麻煩又費時間,但現在AI能賦予我這種能力,我肯定願意用——它能帶來太多新靈感、新機會了。所以我覺得三維世界模型特別讓人興奮:它原本是件對普通人來說難度極高的事,而AI能降低這項能力的使用門檻,這本身就是打開市場的絕佳機會。在我看來,沒有空間智能,沒有三維世界的生成式模型,就談不上AGI(通用人工智慧)。AGI就像一扇門,上面掛著好多把鎖,需要不同的鑰匙去開啟。我始終認為空間智能是其中一把關鍵鑰匙——不過這扇門並非非開即關,而是被一點點推開的。其實我一直不太糾結AI和AGI的區別。因為兩者的夢想是相近的,都是源於一種“科學”的好奇心:機器能不能思考?能不能自主完成事情?這是AI最初的夢想,AGI的目標似乎也沒偏離太多。不管叫什麼,這個夢想都得一步步實現,我們每往前走一步,就離它更近一點。而空間智能,必然是通往這個夢想的重要一環。不管是賦能人類的創造力(從遊戲、設計到工業應用),還是給機器人賦能,亦或是元宇宙、AR/VR的內容生成與落地,都離不開空間智能。3.演算法與資料,都是AI的核心工程、數學的發展路徑和進化的路徑是不一樣的,這就像蘋果和橘子的比較,它們的進化都是很慢的。進化的迭代速度遠慢於演算法迭代,而且碳基與矽基的運算邏輯也大不相同,所以從時間維度來看,兩者沒法放在一起比。但即便如此,進化依然給了我們很多啟發和靈感。這就說到資料的重要性了。當初我們實驗室提出“資料”相關概念,其實也借鑑了不少進化的思路:漫長的進化歲月,本質上就是一段巨量資料訓練的過程;但到了數字時代,我們不用再等幾十億年去收集資料,而是可以大規模、快速地積累資料。和大自然通過進化完成的“資料積累”比起來,我們現在一次能處理、看到的資料,可能相當於進化幾千萬年才沉澱下來的量。相信自己深思熟慮後的假設,也不是什麼怪事吧?走在科學路上,對於那些經過深度思考的假設,你總得有所堅信。但作為科研人,也得清楚有些假設註定是錯的——我當然也有過很多失敗的假設。而我現在堅信的這個假設,是琢磨了很久才得出的:它在數學上是歸納推理的邏輯。我整個博士階段都在做模型、搞演算法,積累了不少領悟,才慢慢意識到這一點。說白了,AI到今天在數學層面的核心,就是“泛化”(generalization)——本質上就這一件事。而泛化怎麼實現?核心就兩點:演算法和資料,而且兩者息息相關。演算法太複雜但資料不足,會過擬合(模型在訓練資料上表現優異,但在面對新資料時性能顯著下降,無法有效泛化的情況);資料太多但演算法不夠好,同樣會過擬合——這裡面藏著明確的數學邏輯。我算是電腦視覺領域早期做機器學習的那批博士生,很幸運的是,我的博士研究剛好趕上電腦視覺的轉折點——我們大量運用機器學習的理念,這讓我對“泛化”的理解更深刻(當然,不一定只有我理解得深)。但我那時候就明確看到了資料的重要性,所以一直堅持了下來。這又回到了好奇心的話題——那個求證假設的過程其實挺有意思的,全程充滿激情,就像一路打怪升級。只要沒被“妖怪”打敗,就接著往下打唄。模型和資料的關係,本質是螺旋式上升的。當年,ImageNet搭建起電腦視覺領域最大的資料庫,直接推動了電腦視覺的蓬勃發展;後來網際網路催生了海量自然語言資料,大語言模型也跟著迎來爆發;再看現在的視訊模型發展得這麼快,核心也是有足量視訊資料支撐;自動駕駛能飛速進步,也離不開頭部公司積累的海量路況、行駛資料。現在看似“又回到了資料和演算法”,其實根本算不上“回歸”——它們從來就沒離開過AI的核心。我有時候覺得挺有意思:就算AI發展到今天,大家還是更看重演算法。但真正做AI的人,不管是創業者還是大公司從業者,心裡都清楚:資料不是說比演算法更重要,至少是同等重要。演算法聽著更“酷炫”,資料的價值反而容易被忽視。但實際上,資料本身就是一門科學。4.空間智能,賦能於“機器人”的發展① 自動駕駛,是簡化版的世界模型自動駕駛汽車其實就是機器人——它是人類最早量產的機器人,但其實挺侷限的。你想啊,它就是個方盒子,基本只在二維路面上活動,只要別碰到別的東西,不管是車、行人還是路邊設施。但我們未來要做的三維機器人不一樣:它得在三維世界裡主動“碰”各種東西,幫我們洗碗、做飯、疊衣服。這麼一對比,就知道自動駕駛汽車其實還是挺簡單的機器人。所以對應的,它的世界模型也更簡單——畢竟要做的事兒就那麼點。當然我不是說自動駕駛不厲害,特斯拉、Waymo(全球自動駕駛標竿,前身為 2009 年Google自動駕駛項目)這些公司都很了不起。但從科學和宏觀的角度看世界模型與機器人技術,這頂多隻是個開始,接下來要做的事情複雜多了。我無法斷言特斯拉有沒有(世界模型)相關佈局。但至少不會是一個強生成性的模型,畢竟業務場景本身不需要這件事。但機器人不一樣,機器人訓練離不開生成式模型——你不可能收集到足夠多的真實場景資料。而且我們做的事情都和創意、設計相關,這些本身就需要生成能力,“生成”本身就是核心應用場景之一。② 機器人的三維能力,還在早期階段現在矽谷的機器人領域大火,我也特別喜歡這個領域,也一直很看好機器人的前景。但同時,我也覺得要保持冷靜:機器人研究其實還處在早期階段。首先,最核心的問題是缺資料。汽車行業發展了幾十年,還有無數人在開車過程中持續蒐集資料;可機器人目前基本沒有商業化應用場景,尤其是日常消費級場景,資料自然難收集。而生成式AI的出現,給機器人領域帶來了一條有意思又有前景的出路。像視訊生成這類技術,不僅提供了豐富的訓練想像空間,還能用於擬態——比如我們正在做的機器人模擬,就特別有前景;甚至在推理階段,還能用視訊模型輔助線上做規劃。可以說,正是機器人周邊領域(比如生成式AI)的快速發展,在反過來帶動機器人技術進步,這一點確實讓人激動。但機器人要真正實現商業化,還有一段路要走,尤其是日常消費級機器人。不過工業機器人早就落地了,畢竟它的應用場景相對單一,容易約束環境,而且也積累了不少資料。自動化駕駛和機器人兩者之間,既有可比性,也有不可比之處。自動駕駛從概唸到商業化,走了近20年:Google2006年就成立了小型自動駕駛研發團隊,直到2024年Waymo才正式上路。汽車行業的供應鏈、OEM體系、客戶場景都非常成熟,這一點讓自動駕駛的商業化比機器人快得多;但當年AI技術不成熟,自動駕駛在AI這條路上走了很久,而現在AI的發展速度肯定會更快。可除了工業機器人(或者說場景單一、易約束的工業機器人),目前並沒有像汽車那樣成熟的機器人應用場景。所以機器人商業化之路會比20年快,還是更慢,真的很難說。但我相信,AI層面的進展會比當年自動駕駛時期快一些;可反過來,機器人面臨的問題也更複雜——它要應對的是完整的三維世界。AI已經能做到非常出色,可要說今天的空間智能,能達到人類睜開眼就有的那種對三維世界的深層理解,還差得遠。比如物體間的物理關係、材料屬性、物理特性,這些我們人類能直觀感知的豐富資訊,AI還沒法完全掌握;更別說對社交資訊、人與人之間情感的理解,這些都屬於視覺理解的範疇,而我還沒提語言層面的複雜認知。人類本身就是極其複雜的存在。所以從進化和能力來看,AI在某些方面已經追上甚至超越人類,但在很多核心維度上,還遠遠不及。而且我作為深耕AI和科技領域多年的人,對空間智能的信仰,絕不是盲目崇拜。它源於對技術的深刻理解,源於這麼多年在這個領域的深耕,也源於我和同事們看到的技術機會與發展方向。創業確實需要情懷,但對科技趨勢的判斷,更需要紮實的邏輯和科學的判斷。二、AI的未來:人類有責任讓其“向善”1.機會,並非贏家通吃綜合來看,資料、算力、人才的整合能力很關鍵——現在能做好這些資源整合的公司,存活機率和勝率會更高。但我覺得,不能只盯著這些顯性因素。畢竟顯性因素一眼就能看到,也容易被大家熱議追捧,但光靠這些遠遠不夠。舉個簡單的例子,在AI coding領域,微軟應該是第一個下場的,推出了Copilot(微軟推出的跨平台生成式 AI 助手)。它可謂佔盡了天時地利人和:手握所有資源、坐擁現成場景,連GitHub(微軟旗下的開發者平台)都是自己的。可微軟最終沒能成為行業標竿,反倒是矽谷現在火起來的Cursor、Claude Code這些小公司,在巨頭圍剿下實現了突圍。這就說明,光有顯性因素根本不夠。如果大家都只盯著這些表面資源下判斷,很容易出現偏差。人類歷史上,從來沒有那個時代是大公司獨霸天下的——即便每個時代的大公司都手握超強的資源整合能力。所以這裡邊還藏著更關鍵的東西:創造力、機遇、執行力,還有對時間點的把握,這些都是決定成敗的核心變數。再加上,AI本身就是一門橫向技術,能催生出無數應用級機會,大公司根本做不完。這些機會,恰恰給了小公司足夠的空間:把某個應用做到極致,慢慢撕開市場缺口,完全有可能實現彎道超車。2.AI只是工具“AI是工具”,這其實是常識。工具本就是雙刃劍:人類史上所有工具,小到最初的火、石斧,大到核彈、生物技術,再到如今的AI,無一例外。我當然也認為,工具的使用必須向善,但同時也要防範它被誤用,不管是有意還是無意。所以我覺得,兩種極端都不理性:只追求發展而無視安全與向善,必然是災難;但天天空談倫理向善而停滯發展,也會錯失技術帶來的諸多福祉。就像做父母,你會教孩子用火做飯吧?既要告訴他們火能做飯的好處,也得讓他們知道用火的危險,這是再簡單不過的道理。AI既是權力的工具,也是向善的工具,但它永遠只是工具。在我看來,這工具會越來越強大,但在它真正不可控之前,它始終屬於人類——人類有責任讓它保持可控。但就像所有工具一樣,我們從來不會指望工具自己明白該做什麼:向善與否,本質是人類的責任。所以對AI的控制與引導,是法律、制度、教育和整個社會的共同責任。不同社會、不同個體或許有差異,但這份責任終究在人類身上。3.教育體系,到了徹底變革的時刻AI時代迫切需要我們更新教育理念和方式——既要讓孩子們學會用這個工具,借助它賦能創造力、助力學習;也要讓他們清楚工具可能存在的問題與風險。而且這絕不僅僅是教育孩子的事。我們總覺得該教育孩子,殊不知最需要被教育的其實是成年人自己。所以,自我教育、面向公眾的科普、給政策與法律制定者提供充足資訊和學習機會,這些都至關重要。說到底,對AI的發展與治理,本質上就是我們人類自身的學習、發展與治理——核心還是人的問題。在這個AI成為具備智力能力的工具的時代,它帶給我們的最大啟發,或許是讓我們更好地瞭解自己、治理自己——這裡的“自己”,既包括每個個體,也包括人類群體。現在關於AI的討論沸沸揚揚,大家都熱衷於談論這項技術。但說到底,不管是個體人性還是群體人性,欠缺的或許還是那份自省吧。對個體來說,時代正在劇變,再做“鴕鳥”逃避現實絕非明智之舉。這種變化必然帶來工作形態的重塑。任何重大科技革命都會引發職業變遷,有時是短暫陣痛、軟著陸,有時可能伴隨社會動盪。作為個體,還是要保持好奇心——對生命、對世界的好奇。那怕這份好奇心,在成年人的世界裡源於對未知的恐慌也沒關係,至少它能成為驅動你主動學習的動力。這一點,值得每個個體自省。而從群體層面來看,AI時代最急需革新的,是我們的教育體系。不管是國內的K-12教育,還是美國這邊雖不唯應試但仍包含應試、仍側重“知識填充”的教學模式,都亟待更新。AI正在不斷證明,很多事情機器能做得更好。如果還讓人類花十幾年、幾十年時間,去重複大半機器可替代的工作,無疑是對人類潛能的浪費。所以我特別想呼籲:所有關注教育、能影響教育政策以及踐行教育的人,都要牢牢抓住這個時代機遇。我們的教育方法論,已經100多年沒有本質變化了。我最大的期待是,100年後歷史學家回望21世紀上半葉時,會看到人類完成了一次真正的教育革命。借助AI賦能教育者與學生,把節約下來的大量時間和精力,讓學生們在老師的引導以及自我探索中,去積累那些AI永遠做不到的認知與核心能力。人類的潛力其實無比巨大,每個個體都是如此。我們的大腦遠未被充分開發,不管是作為個體還是群體,都還沒發揮出全部潛能。你只要看看人與人之間的能力差異,就能感受到這份潛力有多驚人:有些人展現出的能力,簡直像“超人”一樣。這說明,這種極致的潛能本就藏在人性之中,只是大多數人都沒能把它激發出來。而AI這個工具的出現,甚至它對人類工作帶來的衝擊,恰恰給了我們一個契機——重新審視並重構整個教育體系。我覺得真正的教育變革,應該打破工科與文科的固有界限:畢竟AI能讓所有人都學會程式設計,那這些人還能簡單歸為工科生嗎?AI也能幫更多人更好地感知美、讀書、作詩,文科的邊界也被打破了。所以,以前的分科邏輯完全可以改變——AI給了我們打破這種侷限的機會。但說到底,關鍵還是人怎麼使用這個工具。我最擔心的,是人類會放棄自我:覺得“AI這麼聰明,有沒有我都一樣”,這種想法太可怕了。“躺平”這個詞很形象,但背後的心態真的危險。人類有太多未被發掘的潛力,有太多創造世界的可能,有太多讓這個世界變得更美好的機會。而AI,終究只是一個工具而已。如果我們放棄了自身的能動性(agency),就等於放棄了改變自己、改變世界的好奇心與動力。說實話,我真的不懂什麼叫“AI就是世界”。就像有人說“一花一世界”,我能理解那份意境,但“AI就是世界”的說法,我實在摸不透它的核心含義。其實“AI只是工具”這句話的背後,本質是我們如何看待AI與人的關係——把AI當工具,意味著人類始終把自身放在更重要的位置,意味著我們更該關注自我的成長與價值。說到底,“AI是工具”這句話裡,藏著我對人的信仰——我信仰人性的潛力,信仰人類社會的韌性,我信仰的是人,而不是AI。尾聲李飛飛,是對技術趨勢的清醒判斷者。AI,是我們這一代人此生最大的機會。她說,AI時代,人類迎來一次教育的革命,從知識性教育到技能型教育,到認知結構,到人本身的教育,都可以改變。正是在這個時代背景下,筆記俠推出了中國首個面向企業家的AI時代PPE(政治、經濟、哲學)底層認知課程。以AI時代為背景,通過人工智慧科學、AI文明、經濟學、政治學、哲學、智能商業等視角,從底層把握AI時代,激發創業者們在AI時代的潛力,培養能駕馭AI範式轉移的決策者。如何擁抱AI時代,需要理解那些?要理解技術。人工智慧必然重構人類社會的底層邏輯。成為新人類,是決策者的宿命。要理解商業。當AI成為核心生產要素,企業的價值創作邏輯和增長範式會發生根本性變化。要理解世界。在波譎雲詭的世界中生存發展,決策者需要深刻理解AI時代下國際政治經濟體系運行的規律和趨勢。要理解中國。中國走向現代化的道路,必然建築在中國的文化基因上,理解中國才能穿越宏觀周期,活在中國,贏在中國。要理解自己。活出內心的自由和篤定,不被AI時代外界的震盪所撼動,決策者才有心力成為企業的定海神針。這,就需要回到決策的源頭:AI技術與文明、哲學、政治、經濟,重構我們的底層認知邏輯。我們一起做AI時代保持清醒和篤定的決策者。 (筆記俠)
突發!新物種!AI盡頭是空間智能深度洞察研究報告!2025
前言:AI的“空間轉向”與新物種誕生的必然性1.1 前言2025年,人工智慧產業迎來歷史性轉折點——以大型語言模型(LLM)為代表的通用AI技術在文字互動、圖像生成等領域的突破已觸及天花板,而“空間智能”作為連接虛擬算力與物理世界的核心載體,正成為AI技術演進的終極方向。史丹佛大學教授李飛飛在《從語言到世界:空間智能是AI的下一個前沿》中明確指出,當前AI系統困於“語言的世界”,缺乏對現實空間、物理規律與因果關係的真正理解,而空間智能將實現AI從“理解語言”到“理解世界”的跨越,成為AI攀登的下一座高峰。這一轉向不僅催生了“AI+空間”融合的產業新物種,更重塑了全球算力產業鏈的競爭格局與需求結構。本報告聚焦2025年AI與空間智能融合發展的核心議題,核心研究內容包括:空間智能的技術架構與“新物種”產業形態界定;全球及中國算力產業鏈的全景對比(上游晶片、中游算力服務、下游應用);空間智能驅動下的算力需求分層分析(行業、場景、算力形態);技術瓶頸與風險挑戰;未來發展趨勢與產業機遇。報告依託2025年最新行業資料、政策檔案及企業實踐案例,兼具技術深度與產業指導價值,旨在為產業鏈參與者、投資者及政策制定者提供全景式洞察。1.2 核心結論預覽1. 技術演進:空間智能是AI的“終極形態”,其核心是建構融合幾何、物理與動態規則的“世界模型”,實現從被動分析到主動規劃的跨越,當前已進入技術突破與規模化應用的臨界點。2. 產業新物種:催生三大類新物種形態——技術層的“空間大模型”、產品層的“具身智慧型手機器人”、服務層的“空間即服務(SPaaS)”,2025年全球相關市場規模已突破1.2兆元。3. 算力格局:全球智能算力規模2025年達1980 EFLOPS,中國佔比37.8%(748 EFLOPS),算力結構從訓練主導向推理驅動切換,邊緣算力增速(CAGR 50%-60%)遠超雲端。4. 產業鏈競爭:國外形成輝達、AMD雙寡頭格局,國內“一超多強”態勢顯現,國產晶片替代率2025年達41%,沐曦、壁仞等企業加速資本化處理程序。5. 需求驅動:智慧城市、工業智能空間、自動駕駛是核心需求領域,生物醫藥、AR/VR等細分場景算力需求增速超200%,端側AI裝置出貨量2025年破5億台。6. 挑戰與機遇:技術瓶頸集中於晶片製程、叢集互聯效率,地緣政治與能源約束加劇供需失衡;未來機遇在於異構算力協同、綠電算力基建及跨行業場景滲透。第一章 概念界定:AI與空間智能的融合演進1.1 空間智能的核心定義與技術內涵空間智能(Spatial Intelligence)是指機器對物理空間進行感知、建模、推理、規劃並實現互動的綜合能力,其核心是將多模態感知資料轉化為對空間關係、物理規律與因果邏輯的理解,實現虛擬算力與物理世界的精準對應。與傳統AI技術相比,空間智能具有三大核心特徵:一是多模態融合感知,整合LiDAR、攝影機、UWB、地理資訊等多源資料,實現釐米級定位與毫米級建模精度;二是動態世界建模,建構兼具語義與幾何屬性的3D動態場景,支援物理規則模擬與未來狀態預測;三是具身互動能力,依託“感知-決策-行動”閉環,實現與物理空間的自主協同互動。從技術架構來看,空間智能的實現需建構“五層技術堆疊”:第一層底層為算力支撐層(雲端+邊緣+終端異構算力);第二層為感知硬體層(LiDAR、毫米波雷達、高畫質攝影機等);第三層為資料處理層(空間資料清洗、融合與標註);第四層為核心演算法層(3D生成模型、物理引擎、具身智能演算法);頂層為應用場景層(智慧城市、工業、自動駕駛等)。其中,核心演算法層的“世界模型”是空間智能的技術核心,需突破現有LLM的範式侷限,實現語義關係與物理規律的統一理解。1.2 AI向空間智能演進的邏輯必然性AI技術的演進遵循“能力升級-場景拓展-需求倒逼”的邏輯,向空間智能轉向是技術發展與產業需求共同作用的必然結果。從技術層面看,當前以LLM為代表的通用AI存在三大核心侷限:一是缺乏空間認知能力,即使是最新的多模態大模型,在估算距離、方向、大小等基礎空間屬性時表現不及隨機水平;二是物理規律認知缺失,無法穩定預測物體運動軌跡、碰撞關係等基本物理規則;三是動態連貫性不足,生成的視訊內容往往在幾秒內失去空間邏輯連貫性。這些侷限使得AI難以真正賦能需要與物理世界互動的場景,成為技術演進的“天花板”。從產業需求來看,數字經濟與實體經濟的深度融合對AI提出了“落地物理世界”的迫切需求。智慧城市需要全域空間感知與智能調度,工業製造需要數字孿生與即時最佳化,自動駕駛需要高精度空間定位與動態決策,這些場景均要求AI具備空間認知與互動能力。據測算,2025年全球需要空間智能支撐的產業規模已達5兆美元,佔數字經濟總量的28%,需求倒逼成為AI向空間智能轉向的核心驅動力。從認知本質來看,空間智能是人類認知建構的“腳手架”,驅動著想像、創造與推理能力的形成。李飛飛團隊的研究表明,空間智能是連接感知與行動的核心能力,人類通過空間認知實現停車測距、人群穿行等日常動作,其本質是“想像-感知-行動”的一體化過程。AI作為模擬人類智能的技術體系,向空間智能演進是其逼近甚至超越人類認知能力的必然路徑,也是實現從“弱人工智慧”向“強人工智慧”跨越的關鍵環節。1.3 空間智能的“新物種”形態界定AI與空間智能的融合催生了三類具有顛覆性的產業新物種,這些新物種打破了傳統產業邊界,重構了價值創造模式:1. 技術層新物種:空間大模型。區別於傳統LLM,空間大模型以“空間資料”為核心訓練素材,融合地理資訊、3D點雲、物理規則等資料,具備空間建模、動態預測與場景生成能力。例如,史丹佛大學World Labs研發的世界模型可在語義與幾何層面理解複雜3D場景,推理物理屬性與互動關係,並生成連貫可探索的虛擬空間。2025年,國內外已有12款空間大模型實現商用,其中GPT-5空間版、百度文心空間大模型等在建築設計、城市規劃領域的應用精準率達93.6%。2. 產品層新物種:具身智慧型手機器人。依託空間感知與互動能力,具身智慧型手機器人實現了從“固定場景作業”到“全域自適應作業”的跨越,可在動態空間中自主規劃路徑、規避障礙並完成任務。典型案例包括亞馬遜倉庫智能分揀機器人(空間定位精度±2cm)、特斯拉Optimus人形機器人(具備家庭空間互動能力)、醫療微創手術機器人(空間操作精度±0.1mm)。2025年全球具身智慧型手機器人出貨量達120萬台,同比增長210%。3. 服務層新物種:空間即服務(SPaaS)。將空間智能能力封裝為標準化服務,通過API介面向千行百業輸出,實現“空間能力的按需呼叫”。例如,華為盤古空間服務平台可提供城市全域空間建模、動態交通預測等服務,已接入200余個智慧城市項目;GoogleEarth Engine空間服務平台為農業、環保領域提供土地利用監測、災害預警等服務,全球使用者超500萬。2025年全球SPaaS市場規模達2000億元,預計2030年突破1.2兆元。1.4 空間智能的發展階段與2025年關鍵節點空間智能的發展可劃分為四個階段:技術探索期(2015-2020年)、技術突破期(2021-2025年)、規模化應用期(2026-2030年)、成熟普及期(2030年後)。2025年正處於“技術突破期”向“規模化應用期”過渡的關鍵節點,呈現三大標誌性特徵:1. 技術突破節點:3D生成模型、物理引擎與具身智能演算法實現融合,空間大模型的場景理解精準率突破90%,邊緣算力支援毫秒級空間響應(延遲≤10ms)。例如,UWB+LiDAR復合定位技術市場滲透率達35%,實現釐米級定位精度;液冷技術普及使智算中心PUE降至1.1以下,支撐單機櫃算力密度達5P Flops。2. 產業落地節點:核心應用場景實現規模化落地,智慧城市試點項目覆蓋全國89%地級市,北京、上海、深圳等超大城市完成全域智能空間基礎設施建設;工業數字孿生工廠覆蓋率突破60%,生產線綜合效率(OEE)平均提升18個百分點;全屋智能滲透率達12.3%,華為鴻蒙生態與小米AIoT平台連接裝置突破8億台。3. 政策與資本節點:全球主要經濟體出台空間智能專項政策,中國《智能空間產業發展行動計畫(2025-2030)》明確培育30家以上獨角獸企業,組建國家級智能空間創新中心;美國《晶片與科學法案》投500億美元用於算力基建,重點支援空間智能相關晶片研發;歐盟“數字羅盤計畫”建100個百億億次超算節點,支撐空間智能場景落地。資本市場熱度攀升,2025年國內算力晶片企業迎來上市潮,摩爾線程、沐曦股份等相繼登陸科創板,融資規模超40億元。第二章 技術架構:空間智能的核心技術體系與算力支撐2.1 核心技術堆疊:從感知到互動的全鏈路拆解2.1.1 感知層技術:多模態融合與高精度定位感知層是空間智能的“眼睛”,核心目標是獲取物理空間的多維度資料,實現高精度、高可靠的空間感知。當前主流技術方向為多模態感測器融合,整合LiDAR、毫米波雷達、高畫質攝影機、UWB、IMU(慣性測量單元)及地理資訊系統(GIS)資料,彌補單一感測器的侷限性。例如,LiDAR具備高精度3D測距能力,但受天氣影響較大;攝影機可獲取豐富語義資訊,但測距精度不足;UWB適合室內短距離定位,室外表現較差。通過多模態融合演算法,可實現“全天候、全場景、高精度”的空間感知。關鍵技術突破包括:一是LiDAR技術的成本下降與性能提升,2025年車規級LiDAR單價降至500美元以下,探測距離突破300米,點雲密度達300萬點/秒;二是UWB+LiDAR復合定位技術,結合兩者優勢,實現室內外無縫切換定位,精度達±2cm,2028年市場滲透率預計達68%;三是多模態資料融合演算法,基於Transformer架構的融合模型可有效處理異構資料,提升感知精準率,在複雜交通場景中目標識別精準率達99.2%。2.1.2 建模層技術:3D動態場景與數字孿生建模層是空間智能的“大腦中樞”,核心是將感知資料轉化為結構化的空間模型,實現對物理世界的精準對應。技術方向分為靜態建模與動態建模兩類:靜態建模聚焦空間幾何結構的重建,如建築、道路、地形等;動態建模聚焦空間中物體的運動狀態與互動關係,如車輛、行人、裝置等。數字孿生是建模層的典型應用,通過“物理實體-虛擬模型-資料鏈路-服務應用”的閉環,實現物理空間與虛擬空間的即時同步。關鍵技術突破包括:一是3D生成模型,基於擴散模型與Transformer的融合架構,可快速生成高保真3D場景,例如史丹佛大學Marble平台允許創作者無需傳統3D建模工具,快速建立和編輯完整的虛擬世界;二是動態場景預測演算法,結合物理引擎與深度學習,可預測空間中物體的運動軌跡,預測準確率達95%以上,為自動駕駛、機器人導航提供支撐;三是輕量化建模技術,針對邊緣端裝置算力有限的問題,提出輕量化3D模型架構,模型體積壓縮70%以上,可在手機、邊緣閘道器等裝置上即時運行。2.1.3 決策層技術:空間推理與具身智能演算法決策層是空間智能的“決策核心”,核心是基於空間模型進行推理、規劃與決策,實現從“理解空間”到“利用空間”的跨越。核心技術包括空間推理演算法、路徑規劃演算法與具身智能決策演算法。空間推理演算法聚焦空間關係的邏輯判斷,如“物體A在物體B的左側”“路徑C比路徑D短20米”等;路徑規劃演算法聚焦動態環境下的最優路徑選擇,如自動駕駛中的避障路徑規劃、機器人的倉儲分揀路徑規劃;具身智能決策演算法聚焦“感知-行動”閉環,使智能體能夠根據空間環境變化調整行動策略。關鍵技術突破包括:一是空間大模型的推理能力提升,GPT-5空間版、文心空間大模型等可基於3D場景進行複雜推理,如建築結構安全性評估、城市交通流量最佳化;二是強化學習在路徑規劃中的應用,通過模擬海量空間場景訓練模型,使智能體在動態環境中(如擁堵路段、突發障礙)快速找到最優路徑,規劃效率提升40%以上;三是人機協同決策技術,結合人類經驗與AI推理能力,在醫療手術、工業操作等高精度場景中實現“人機互補”,降低操作風險。2.1.4 互動層技術:無感化與人機協同互動層是空間智能的“輸出介面”,核心是實現智能體與物理空間、人類的高效互動。技術方向分為兩類:一是智能體與物理空間的互動,如機器人的機械臂操作、自動駕駛汽車的轉向與制動;二是智能體與人類的互動,如語音互動、手勢互動、腦機介面等。當前發展趨勢是“無感化互動”,即智能體通過感知人類行為、情緒等訊號,主動提供服務,無需人類主動觸發。關鍵技術突破包括:一是手勢與姿態識別技術,基於電腦視覺的即時姿態捕捉精度達98%,可實現對機器人的手勢控制、智能座艙的姿態互動;二是語音互動的空間化,結合空間聲學技術,實現多區域語音識別,區分不同位置的說話人,在智慧辦公場景中支援多人同時語音指令;三是腦機介面技術,在高端辦公、醫療場景中實現腦電波控制,2029年商用化率預計突破15%。2.2 算力支撐體系:雲端-邊緣-終端的異構協同空間智能的全鏈路技術落地離不開算力支撐,其算力需求具有“高並行、低延遲、異構化”的特徵:高並行源於多模態感測器的海量資料(如LiDAR每秒產生數十GB資料);低延遲源於即時互動需求(如自動駕駛需≤10ms的決策延遲);異構化源於不同任務對算力的差異化需求(如建模需GPU的平行計算能力,推理需ASIC的高能效比)。為此,空間智能建構了“雲端-邊緣-終端”三級異構算力協同體系,各層級功能與算力形態如下:2.2.1 雲端算力:大規模訓練與全域調度雲端算力是空間智能的“核心算力底座”,主要承擔空間大模型訓練、全域空間資料處理、跨區域調度等重算力任務。2025年全球雲端智能算力佔比70%-75%,單叢集算力達50 EFLOPS,可支撐萬卡級GPU叢集進行空間大模型預訓練。例如,GPT-5空間版的訓練需萬卡級GPU叢集,單次訓練成本超千萬美元,訓練過程消耗算力達100 EFLOPS·天。雲端算力的核心技術方向是異構計算與叢集互聯最佳化。異構計算整合GPU、CPU、NPU、TPU等多種晶片,發揮不同晶片的優勢;叢集互聯技術通過高速互聯匯流排(如輝達NVLink、國產昇騰高速互聯匯流排)提升叢集通訊效率,當前萬卡級叢集互聯效率達60%-70%,仍是算力擴展的主要瓶頸。為支撐雲端算力需求,全球智算中心建設加速,中國“東數西算”工程建成8大算力樞紐,2025年新增算力60%以上集聚國家樞紐節點,新建大型資料中心綠電佔比超80%。2.2.2 邊緣算力:即時推理與本地決策邊緣算力是空間智能的“即時響應核心”,部署於靠近物理空間的邊緣節點(如基站、智能路側裝置、工業閘道器),主要承擔即時推理、本地資料處理、低延遲決策等任務。邊緣算力的核心優勢是低延遲,可將資料傳輸與處理延遲控制在毫秒級,滿足自動駕駛、工業即時控制等場景需求。2025年邊緣算力佔比約15%-20%,2030年將升至30%-35%,2025-2030年CAGR達50%-60%,邊緣AI晶片市場規模達150億美元。邊緣算力的核心技術方向是高能效比晶片與輕量化演算法。邊緣裝置通常受限於功耗與體積,需要高能效比的專用晶片(如ASIC、NPU);同時,通過模型輕量化(剪枝、量化、蒸餾)降低推理算力需求。例如,華為昇騰310B邊緣晶片能效比達200 TOPS/W,可支撐智能路側裝置的即時目標識別;特斯拉D1晶片專為自動駕駛邊緣計算設計,單晶片算力達362 TOPS,滿足車載即時決策需求。2.2.3 終端算力:本地感知與輕量化互動終端算力是空間智能的“末端感知核心”,部署於終端裝置(如智慧型手機、智能手錶、小型機器人),主要承擔本地感知資料預處理、輕量化互動等任務。終端算力的核心需求是低功耗與小型化,滿足移動裝置的續航與體積要求。2025年終端算力佔比約5%-10%,智慧型手機AI算力達10 TOPS以上,車載計算平台增速超40%。終端算力的核心技術方向是整合化晶片與低功耗演算法。整合化晶片將CPU、GPU、NPU等功能整合於單一晶片(如手機SoC),提升整合度與能效比;低功耗演算法通過最佳化計算流程,降低資料處理的功耗。例如,蘋果A18 Pro晶片整合神經網路引擎,算力達35 TOPS,可支撐手機端3D場景掃描與AR互動;小米澎湃C2晶片專為智能穿戴裝置設計,能效比達150 TOPS/W,滿足長期續航需求。2.2.4 異構協同技術:算力資源的高效調度雲端-邊緣-終端的算力協同是空間智能高效運行的關鍵,核心技術是統一調度平台與高速通訊網路。統一調度平台通過算力感知、任務拆分與資源分配,實現“任務在最合適的算力節點運行”:重算力任務(如模型訓練)分配至雲端,即時任務(如自動駕駛推理)分配至邊緣,輕量化任務(如本地感知)分配至終端。高速通訊網路是協同的基礎,5G-A網路支撐的毫秒級空間感知系統實現釐米級定位精度,光互聯技術升級推動CPO市場2025-2027年CAGR達78%,OCS CAGR達120%。當前異構協同的關鍵突破是“算力網路”技術,通過軟體定義網路(SDN)、網路功能虛擬化(NFV)等技術,將分散的算力資源整合為“算力池”,實現跨區域、跨層級的算力調度。例如,中國電信“天翼算力網路”已接入20個省級算力樞紐,實現算力資源的按需調度;中國移動“算力網路”支撐智慧城市場景下的邊緣-雲端算力協同,降低資料傳輸成本30%以上。2.3 2025年技術突破與瓶頸:從可用到好用的差距2.3.1 關鍵技術突破清單1. 感測器技術:車規級LiDAR單價降至500美元以下,探測距離突破300米;UWB+LiDAR復合定位精度達±2cm;高畫質攝影機影格率突破240fps,低光照環境識別精準率達98%。2. 建模技術:3D生成模型生成效率提升10倍,高保真3D場景生成時間從小時級降至分鐘級;動態場景預測準確率達95%以上,預測時長從1秒擴展至5秒。3. 演算法技術:空間大模型參數規模突破兆級,場景理解精準率達93.6%;輕量化模型體積壓縮70%以上,邊緣端推理延遲≤10ms。4. 算力技術:晶片製程推進至3nm/2nm,輝達B200性能較H100翻倍;國產晶片(昇騰910B、寒武紀590)替代率達41%;液冷技術普及使PUE降至1.1以下,能耗降40%。5. 通訊技術:5G-A網路實現10Gbps下行速率,毫秒級傳輸延遲;CPO技術實現光電器件與晶片的整合,通訊頻寬提升5倍。2.3.2 核心技術瓶頸1. 晶片技術瓶頸:晶片製程逼近物理極限,2nm以下製程成本指數級上升,性能提升放緩;高端晶片受地緣政治影響供給受限,全球GPU供需缺口15%-20%。2. 叢集互聯瓶頸:萬卡級叢集互聯效率僅60%-70%,成為算力擴展的主要障礙;儲存頻寬與算力增長不匹配,CXL協議普及尚需時間,資料傳輸延遲影響大規模訓練效率。3. 演算法泛化瓶頸:空間大模型的場景泛化能力不足,在陌生環境中的精準率下降20%-30%;動態場景中突發情況(如交通事故、極端天氣)的預測能力薄弱。4. 資料質量瓶頸:空間資料標註成本高,3D資料標註單價是2D資料的5倍以上;多源資料格式不統一,資料融合難度大;隱私保護要求提升,空間資料採集與使用受限。5. 能源約束瓶頸:智算中心能耗激增,2026年資料中心IT電力需求達96GW,配套電力設施建設壓力大;邊緣與終端裝置功耗控制仍需突破,影響續航能力。第三章 全球算力產業鏈全景分析:競爭格局與技術路線3.1 算力產業鏈結構:從上游核心硬體到下游應用算力產業鏈圍繞“算力生產-算力服務-算力應用”形成完整生態,分為上游核心硬體、中游算力服務、下游應用三大環節,各環節相互支撐、協同發展。上游核心硬體是算力生產的基礎,中游算力服務是算力流通的載體,下游應用是算力需求的來源,三者共同構成“硬體支撐-服務賦能-應用驅動”的產業閉環。2025年全球算力產業鏈規模達6.5兆美元,其中上游硬體佔比45%,中游服務佔比35%,下游應用佔比20%。3.1.1 上游核心硬體:算力的“物理基礎”上游核心硬體包括晶片、伺服器、感測器、光模組、儲存裝置等,其中晶片是核心中的核心,佔上游硬體成本的50%以上。晶片環節分為通用晶片(CPU、GPU)、專用晶片(ASIC、NPU、TPU)、可程式設計晶片(FPGA)三類,分別適用於不同算力場景:GPU主導訓練場景,2027年市場規模達5000-6000億美元;ASIC在推理場景優勢擴大,2027年市場規模280億美元,佔AI晶片市場35%;NPU/TPU等專用晶片快速滲透,2025年市場規模850億美元。伺服器環節聚焦智算伺服器,搭載多顆AI晶片,支援大規模平行計算,2025年全球智算伺服器市場規模達1200億美元,同比增長45%。感測器環節是空間智能的專屬硬體,LiDAR、毫米波雷達等空間感知感測器市場規模達300億美元,同比增長60%。光模組環節支撐高速通訊,2025年CPO市場規模達50億美元,OCS市場規模達20億美元。儲存裝置環節聚焦高速儲存(如HBM、SSD),HBM3E記憶體頻寬達19.6TB/s,2025年市場規模達150億美元。3.1.2 中游算力服務:算力的“流通載體”中游算力服務包括算力基礎設施(智算中心、邊緣節點)、算力營運服務(雲算力、邊緣算力租賃)、算力賦能服務(模型訓練、資料處理)等。智算中心是中游核心基礎設施,2025年全球智算中心數量達1200個,中國佔比40%,“東數西算”工程8大算力樞紐集聚60%以上新增算力。算力租賃服務是當前最熱門的細分領域,受益於大模型訓練與推理需求爆發,2025年全球算力租賃市場規模達800億美元,同比增長80%。算力賦能服務聚焦專業化算力解決方案,為下遊客戶提供定製化的模型訓練、資料處理服務,頭部企業包括亞馬遜AWS、微軟Azure、阿里雲、騰訊雲等。此外,算力網路服務快速發展,通過整合分散算力資源,實現算力的跨區域調度,2025年全球算力網路服務市場規模達300億美元。3.1.3 下游應用:算力的“需求來源”下游應用分為空間智能專屬應用與通用AI應用兩類,其中空間智能專屬應用是核心增長引擎,包括智慧城市、工業智能空間、自動駕駛、AR/VR、智能醫療等。2025年空間智能相關應用佔算力需求的35%,其中智慧城市佔比最高(12%),工業智能空間次之(8%),自動駕駛(7%)、AR/VR(4%)、智能醫療(4%)緊隨其後。通用AI應用包括網際網路內容生成、金融風控、生物醫藥研發等,佔算力需求的65%,其中網際網路行業佔算力採購的60%,阿里、騰訊等頭部企業未來三年AI投資超5000億。3.2 國外算力產業鏈:雙寡頭主導與技術引領3.2.1 美國:全產業鏈主導,技術壁壘高築美國是全球算力產業鏈的領導者,在晶片、伺服器、算力服務等核心環節佔據主導地位,形成“晶片-軟體-服務-應用”的全產業鏈優勢。晶片環節,輝達、AMD形成雙寡頭格局,佔據全球AI晶片市場的70%以上份額。輝達2025年推出Blackwell B200晶片,採用“單封裝雙芯粒”路線,算力密度和記憶體頻寬達行業極致,性能較H100翻倍,並拋出2026–2027路線圖,Vera Rubin與Rubin Ultra即將推出,Rubin推理峰值50 PFLOPS、HBM4記憶體288GB,FP4稀疏算力是B200的2.5倍。AMD採用Chiplet思路,MI350系列採用CDNA4架構、台積電第二代3nm工藝,配備288GB HBM3E記憶體,峰值2.3 PFLOPS,與B200直接競爭,2026年的MI400將邁入2nm,配備432GB HBM4記憶體,目標直指Rubin。算力服務環節,亞馬遜AWS、微軟Azure、GoogleCloud佔據全球雲算力市場的65%份額,其中AWS的Trainium晶片專為模型訓練設計,Inferentia晶片專為推理設計,形成“自研晶片+雲服務”的閉環;微軟Azure與輝達深度合作,推出Azure ND H100 v5虛擬機器,支援萬卡級叢集訓練;GoogleCloud推出TPU v5e晶片,能效比提升2倍,支撐空間大模型訓練。應用環節,美國在自動駕駛、AR/VR、生物醫藥等空間智能相關領域領先,特斯拉Autopilot採用自研D1晶片與多模態感知技術,自動駕駛Level 4等級的測試里程突破10億英里;Meta的Quest 3 VR裝置搭載空間感知晶片,實現高精度空間定位與虛擬場景融合;OpenAI與生物醫藥企業合作,利用空間大模型加速藥物研發,分子結建構模效率提升10倍。政策與資本支援方面,美國《晶片與科學法案》投500億美元用於算力基建,重點支援AI晶片研發與智算中心建設;國防部、能源部等部門持續投入資金支援空間智能相關技術研發;資本市場對算力企業的估值溢價顯著,輝達市值突破3兆美元,成為全球市值最高的企業之一。3.2.2 歐盟:政策驅動,聚焦協同與綠色歐盟算力產業鏈以政策驅動為核心,聚焦算力協同與綠色低碳,試圖通過“聯合創新”突破美國技術壟斷。晶片環節,歐盟缺乏具有全球競爭力的晶片企業,主要依賴輝達、AMD等美國企業,同時通過“歐洲晶片計畫”投入430億歐元支援本土晶片研發,目標2030年本土晶片產能佔全球20%。重點發展方向為專用晶片,如用於工業智能空間的ASIC晶片、用於自動駕駛的邊緣晶片。算力基礎設施環節,歐盟“數字羅盤計畫”提出建設100個百億億次超算節點,支撐空間智能、氣候變化、生物醫藥等領域的科研與應用;推動“歐洲算力聯盟”(EUC)建設,整合成員國算力資源,實現跨區域算力協同。2025年歐盟已建成20個超算節點,其中芬蘭LUMI超算、德國JUWELS超算躋身全球前十,支援工業數字孿生、城市空間規劃等場景。應用環節,歐盟聚焦智慧城市與工業4.0,推出“智慧城市和社區創新夥伴關係”計畫,支援200個智慧城市試點項目;德國“工業4.0”戰略推動工業智能空間落地,西門子數字孿生工廠覆蓋率達70%,生產線效率提升20%以上;法國在智能交通領域領先,巴黎建成全域智能交通管理系統,交通擁堵率下降30%。綠色算力是歐盟的核心特色,提出2030年資料中心全生命周期碳排放量較2020年下降50%,新建智算中心綠電佔比超90%;推廣液冷、風能、太陽能等綠色技術,芬蘭LUMI超算採用水力發電,PUE降至1.05以下,為全球最低之一。3.2.3 其他國家:差異化佈局,依附核心市場日本聚焦機器人與智能感測領域,索尼、松下等企業在LiDAR、毫米波雷達等感測器技術上具有優勢,索尼Vision-S電動概念車搭載28個感測器,實現高精度空間感知;軟銀集團投資大量具身智慧型手機器人企業,推動空間智能在服務機器人領域的應用。政策方面,日本《數字社會推進基本法》投入200億美元支援算力基建,目標2025年智能算力規模達100 EFLOPS。韓國聚焦晶片與終端裝置,三星電子在晶片製造領域具有優勢,2025年實現3nm製程量產,為輝達、AMD提供代工服務;SK海力士在HBM記憶體領域佔據全球40%份額,支撐高端AI晶片的記憶體需求;三星Galaxy S25手機搭載自研NPU晶片,算力達40 TOPS,支援AR空間互動。其他開發中國家主要依附歐美核心市場,通過承接算力服務外包、引進技術等方式發展,如印度、東南亞國家聚焦算力服務外包,為歐美企業提供資料標註、模型訓練輔助服務;巴西、南非等國家推動智慧城市試點,引進歐美成熟技術與裝置。3.3 中國算力產業鏈:自主可控加速,“一超多強”格局顯現3.3.1 上游核心硬體:國產替代加速,突破關鍵瓶頸晶片環節,中國形成“一超多強”的格局,昇騰系列晶片扮演“頭雁”角色,搭建“晶片-框架-叢集-應用”的四級閉環,已支援建造多個萬卡級叢集,2025年推出384卡超節點新形態,最大算力可達300 PFLOPS,配備創新的高速互聯匯流排,大幅提升大模型訓推效率。寒武紀聚焦AI專用晶片,2024年四季度首次實現單季度盈利,2025年前三季度營收46.07億元,同比增長2386.38%,歸母淨利潤16.05億元,核心產品寒武紀590替代率達15%。國產GPU“四小龍”(摩爾線程、沐曦股份、壁仞科技、燧原科技)加速崛起,2025年迎來上市潮:摩爾線程12月5日登陸科創板,上市首日股價躋身A股Top 3,市值3595億元,業務覆蓋AI智算、圖形渲染和智能座艙SoC晶片等領域;沐曦股份12月17日登陸科創板,總募資規模約41.97億元,核心產品曦雲C600性能介於A100和H100之間,實現全流程國產供應鏈閉環,2026年上半年正式量產;壁仞科技港股IPO獲備案,聚焦高性能通用GPU,公開融資總額超50億元;燧原科技啟動上市輔導,擬在科創板上市。其他硬體環節,中國在伺服器、光模組、感測器等領域具有全球競爭力:伺服器領域,浪潮資訊、華為佔據全球智算伺服器市場的25%份額,浪潮AI伺服器出貨量全球第一;光模組領域,中際旭創、天孚通信在CPO、OCS等技術上領先,2025年全球市場份額達30%;感測器領域,華為、大疆創新在LiDAR領域突破,車規級LiDAR單價降至800元以下,國內市場份額達20%。3.3.2 中游算力服務:基建領先,服務生態完善算力基礎設施方面,中國“東數西算”工程成效顯著,建成8大算力樞紐、10個國家資料中心叢集,2025年新增算力60%以上集聚國家樞紐節點,新建大型資料中心綠電佔比超80%。截至2025年3月底,中國智能算力規模達748 EFLOPS,預計2026年達1460.3 EFLOPS,2028年達2781.9 EFLOPS。頭部智算中心包括華為昇騰AI計算中心、阿里達摩院智算中心、騰訊智算中心等,其中華為昇騰AI計算中心已在全國建成20個節點,總算力達500 EFLOPS。算力服務方面,阿里雲、騰訊雲、百度智能雲、華為雲佔據國內雲算力市場的80%份額:阿里雲推出“飛天智算平台”,支援萬卡級大模型訓練,服務超10萬家企業;騰訊雲推出“混元智算平台”,整合自研晶片與輝達晶片,提供彈性算力租賃服務;百度智能雲“千帆大模型平台”聚焦空間大模型服務,已接入百度文心空間大模型等20餘款行業大模型;華為雲“盤古算力平台”依託昇騰晶片,提供全端國產化算力服務。算力網路方面,中國營運商牽頭推動算力網路建設,中國電信“天翼算力網路”、中國移動“算力網路”、中國聯通“智慧算力網路”已實現全國主要城市覆蓋,支援算力的按需調度與跨省互聯。2025年國內營運商算力投資增20%以上,算力核心產業規模2026年達2.6兆元,帶動相關產業超12兆元。3.3.3 下游應用:場景豐富,規模化落地加速中國空間智能應用場景豐富,智慧城市、工業智能空間、智能家居、自動駕駛等領域均實現規模化落地:智慧城市領域,試點項目覆蓋全國89%地級市,北京、上海、深圳等超大城市完成全域智能空間基礎設施建設,城市治理響應速度提升70%,能耗管理效率提高45%;工業智能空間領域,數字孿生工廠覆蓋率突破60%,基於邊緣計算的即時最佳化系統使生產線OEE平均提升18個百分點;智能家居領域,全屋智能滲透率達12.3%,華為鴻蒙生態與小米AIoT平台連接裝置突破8億台;自動駕駛領域,百度Apollo、小鵬汽車、理想汽車等企業的Level 3等級自動駕駛車型實現量產,Level 4等級在特定區域試點營運。政策支援方面,中國出台多項專項政策推動算力與空間智能產業發展:《智能空間產業發展行動計畫(2025-2030)》明確培育30家以上獨角獸企業,組建國家級智能空間創新中心,完成73項行業標準制定;《“十四五”數字經濟發展規劃》要求2025年智能家居市場滲透率達到40%;《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上,存量建築改造率不低於60%。3.4 國內外產業鏈對比:差距與優勢並存3.4.1 核心差距:高端晶片與生態建構1. 高端晶片技術差距:國外晶片製程已推進至2nm,輝達B200、AMD MI350等產品性能領先,國內最先進製程為3nm,昇騰910B、沐曦C600等產品性能介於A100和H100之間,與最新產品存在一代差距;晶片架構設計能力不足,國外企業擁有成熟的GPU架構(如輝達CUDA架構),國內架構生態尚在建構。2. 軟體生態差距:國外形成“晶片-框架-應用”的完整生態,輝達CUDA生態擁有數百萬開發者,支援各類AI框架與應用;國內生態較為分散,昇騰MindSpore、百度飛槳等框架的開發者數量與應用覆蓋度不足,跨框架相容性差。3. 高端感測器差距:LiDAR、毫米波雷達等高端感測器的核心元器件(如雷射發射器、探測器)依賴進口,國內企業在精度、可靠性等方面存在差距,車規級LiDAR的國外品牌市場份額達80%。3.4.2 中國優勢:市場規模與政策支援1. 龐大的市場需求:中國是全球最大的算力與空間智能應用市場,2025年智能算力規模佔全球37.8%,智慧城市、工業製造等場景的需求規模全球領先,為本土企業提供了廣闊的試錯與迭代空間。2. 強有力的政策支援:國家層面出台多項專項政策,從算力基建、技術研發、標準制定到應用推廣全方位支援,“東數西算”工程、新基建戰略等為產業發展提供了充足的資金與資源保障。3. 完善的製造業基礎:中國擁有全球最完整的電子資訊製造業產業鏈,在伺服器、光模組、終端裝置等硬體製造領域具有全球競爭力,可支撐算力產業鏈的本地化生產與成本控制。4. 快速的迭代速度:本土企業在應用場景落地方面迭代速度快,能夠快速響應客戶需求,在智慧城市、工業智能空間等細分場景形成差異化優勢。3.4.3 未來競爭焦點:異構算力與生態協同未來全球算力產業鏈的競爭焦點將集中在異構算力協同與生態建構:一是異構算力晶片的研發,整合GPU、CPU、NPU等多種晶片優勢,提升算力能效比;二是統一調度平台的建設,實現雲端-邊緣-終端的算力協同;三是開放生態的建構,通過開源框架、開發者社區等吸引全球開發者,擴大應用覆蓋度;四是綠色算力的突破,通過液冷、綠電等技術降低能耗,提升產業可持續性。第四章 算力需求分析:空間智能驅動的分層需求與增長邏輯4.1 算力需求總體特徵:規模爆發與結構分化2025年全球算力需求呈現“規模爆發式增長”與“結構差異化分化”的雙重特徵。從規模來看,全球智能算力規模達1980 EFLOPS,較2023年增長5倍,其中空間智能相關算力需求達693 EFLOPS,佔比35%,成為核心增長引擎。IDC測算2025年全球AI模型訓練與推理算力需求650 EFLOPS,多模態模型貢獻60%算力增量,而空間智能是多模態模型的核心應用場景。從結構來看,算力需求呈現三大分化趨勢:一是訓練與推理分化,訓練算力2025-2027年CAGR 25%-30%,主要用於GPT-5等兆級空間大模型預訓練;推理算力同期CAGR 90%-100%,為訓練的近4倍,2028年規模超訓練,成為算力增長主力,主要源於空間智能應用的規模化落地(如自動駕駛推理、智能路側感知)。二是算力形態分化,雲端算力佔比70%-75%,但邊緣算力增速(CAGR 50%-60%)遠超雲端,終端算力穩步增長,形成“雲端重訓練、邊緣重推理、終端重感知”的格局。三是行業需求分化,網際網路行業仍佔主導(60%),但金融、醫療、自動駕駛、工業模擬等場景增速超行業平均,生物醫藥AI模型訓練需求同比增210%。算力需求的增長邏輯可總結為“技術驅動-場景牽引-政策護航”三大核心要素:技術驅動方面,空間大模型參數規模從千億級邁向兆級,GPT-5級空間模型訓練需萬卡級GPU叢集,單次訓練成本超千萬美元,倒逼算力規模提升;場景牽引方面,智慧城市、自動駕駛等場景的規模化落地,帶來海量即時推理需求,Token消耗激增,中信證券預計2030年全球Token消耗為2025年的100-340倍,推理算力規模為2025年的65-220倍;政策護航方面,全球主要經濟體出台算力基建支援政策,中國“東數西算”、美國《晶片與科學法案》、歐盟“數字羅盤計畫”等為算力需求增長提供保障。4.2 分行業算力需求:核心場景與量化分析4.2.1 智慧城市:全域感知與智能調度的算力盛宴智慧城市是空間智能的核心應用場景,算力需求源於全域空間感知、數字孿生建模、智能調度決策三大環節,2025年算力需求達180 EFLOPS,佔空間智能總算力的25.9%。具體場景包括智能交通、智能安防、智能市政、智慧能源等:1. 智能交通:核心需求是即時交通感知與動態調度,單條智能路側裝置(含LiDAR、攝影機、雷達)每秒產生10GB資料,需邊緣算力進行即時處理(目標識別、軌跡預測),單路裝置推理算力需求達10 TOPS;城市級智能交通調度平台需雲端算力進行全域最佳化,一線城市(如北京、上海)調度平台的雲端算力需求達5 EFLOPS。2025年智能交通領域算力需求達80 EFLOPS,同比增長70%。2. 智能安防:核心需求是全域視訊監控與異常行為識別,超大城市的視訊監控點位超10萬個,單個點位需0.5 TOPS推理算力,邊緣端總算力需求達5 EFLOPS;雲端需進行視訊資料回溯分析與模型訓練,算力需求達2 EFLOPS。2025年智能安防領域算力需求達15 EFLOPS,同比增長50%。3. 數字孿生城市:核心需求是全域3D建模與動態模擬,超大城市全域數字孿生建模需處理PB級空間資料,訓練算力需求達10 EFLOPS;動態模擬需即時更新城市狀態,推理算力需求達5 EFLOPS。2025年數字孿生城市領域算力需求達30 EFLOPS,同比增長100%。4. 智慧能源:核心需求是電網、管網的空間監測與最佳化調度,城市級電網數字孿生需處理海量感測器資料,推理算力需求達3 EFLOPS;能源調度最佳化模型訓練需1 EFLOPS算力。2025年智慧能源領域算力需求達8 EFLOPS,同比增長60%。政策驅動是智慧城市算力需求增長的核心動力,中國《智能空間產業發展行動計畫(2025-2030)》要求2025年前完成200個智慧城市試點建設,配套財政補貼規模超800億元;住建部《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上。 (AI雲原生智能算力架構)
矽谷炸鍋了! AI教母李飛飛萬字長文撕開行業“遮羞布”。
近期,一篇出自 “AI 教母” 李飛飛教授的萬字長文,在矽谷 AI 圈掀起軒然大波。作為曾掌舵史丹佛 AI 實驗室、憑 ImageNet 項目改寫深度學習視覺領域格局的華人頂尖專家,她此次的發聲格外重磅:“當下的 AI,不過是困在暗室裡的文字高手,能說會道卻脫離現實,本質上就是‘睜眼瞎說’。”一、李飛飛撕開AI“遮羞布”這番話看似犀利,卻精準點破了 AI 光鮮外表下的 “致命缺陷”。如今的大語言模型有多 “能打”?寫律詩、寫論文、聊量子物理,分分鐘模仿李白、杜甫的文風,邏輯縝密到讓人難辨真假。可一旦跳出文字的舒適區,面對真實的物理世界,AI 就立刻 “露餡”:讓它估算桌子到門的距離,全靠蒙;讓它預測杯子轉 90 度後的模樣,純屬猜;就連那些刷屏的 AI 生成視訊,仔細看全是破綻 —— 人物突然多根手指、物體莫名穿牆而過,說到底,都是 AI 不懂物理規律的必然結果。二、AI未來:不在大模型,在嬰兒本能李飛飛教授毫不避諱地指出:AI 行業已經走偏了方向。真正的突破口,從不是參數越來越龐大的語言模型,而是連嬰兒都有的 “空間智能”—— 這才是通往通用人工智慧(AGI)的唯一正道。那 “空間智能” 到底是什麼?其實就是人類理解、互動物理世界的本能。嬰兒靠抓、扔、咬,摸清物體的軟硬、輕重;你半夜摸黑起床倒水,不用開燈也能精準拿到杯子;朋友扔來鑰匙,你不用算拋物線就能穩穩接住。這些看似簡單的動作,背後藏著對空間、距離、物理規律的深層認知。更關鍵的是,人類文明的諸多重大突破,都離不開 “空間智能”:埃拉托斯特尼觀察影子長短,算出了地球周長;沃森和克里克搭 3D 模型,破解了 DNA 雙螺旋結構;建築師設計摩天大樓、科學家推演星體運動,本質上都是在運用對空間和物理規律的理解。而這些,是只會 “玩文字” 的大語言模型永遠做不到的。三、AI要“懂”世界:先建世界模型既然空間智能這麼重要,怎麼讓 AI 擁有它?李飛飛給出了核心方案:讓 AI 從 “語言模型” 轉向 “世界模型”。一個合格的世界模型,必須具備三大核心能力:首先,能生成符合物理定律的虛擬世界,不是天馬行空的虛構,而是遵循重力、摩擦力等基礎規律;其次,能整合文字、圖像、動作等多種資訊,不僅聽得懂你說的,還能看懂你做的;最後,也是最關鍵的,能精準預測互動結果 —— 比如知道推杯子會倒、扔球會落地,這才是 AI “看懂” 世界的關鍵。要做到這些,比訓練大語言模型難得多。語言是一維的、線性的,可世界是四維的 —— 三維空間加時間,還受無數物理定律約束。但一旦突破這個難關,AI 的能力將實現質的飛躍。四、空間智能AI:能幫人類做什麼?李飛飛團隊早已用實踐證明了空間智能的潛力:他們研發的 “抹布模型”,能讓電影製作人、遊戲設計師僅憑文字描述,就生成可互動的 3D 世界。不用學複雜的建模軟體,普通人也能當 “造物主”,搭建屬於自己的虛擬場景。這還只是開始。當 AI 真正擁有空間智能,生活將迎來巨變:機器人不再是笨拙的機器臂,能在模擬環境中學會上萬種技能,走進家庭做飯、照顧老人,走進醫院精準手術;教育領域,學生能 “穿越” 到古羅馬街道學歷史,“鑽進” 細胞裡看生物結構;科學探索中,AI 能模擬深海、外太空,幫人類探索無法抵達的領域。正如李飛飛所說:“AI 的終極目標從不是取代人類,而是為人類賦能。現在的大語言模型只是起點,真正的智能,是讓機器理解物理世界。”(AI行銷峰雲)
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)
精讀筆記:李飛飛-從文字到世界:空間智能是AI的下一個前沿
李飛飛博士於 2025 年 11 月發表長文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這是其深耕 AI 領域 25 年的重要思考結晶。全文以圖靈 “機器能思考嗎” 這一經典問題開篇,指出當前以大語言模型為代表的 AI 雖在抽象知識處理上成績斐然,卻存在脫離現實物理世界的短板。文章系統闡釋了空間智能的定義與核心價值,將其定位為支撐人類認知、創造力與文明進步的核心能力,同時提出建構具備生成性、多模態性和互動性的 “世界模型” 是解鎖空間智能的關鍵,還勾勒出空間智能從賦能創意到革新機器人技術,再到推動科學醫療突破的應用演進路徑,為 AI 下一個十年的發展指明了方向。In 1950, when computing was little more than automated arithmetic and simple logic, Alan Turing asked a question that still reverberates today: can machines think? It took remarkable imagination to see what he saw: that intelligence might someday be built rather than born. That insight later launched a relentless scientific quest called Artificial Intelligence (AI). Twenty-five years into my own career in AI, I still find myself inspired by Turing’s vision. But how close are we? The answer isn’t simple.1950年,當電腦還僅僅停留在自動化運算和簡單邏輯運算的層面時,艾倫・圖靈提出了一個至今仍能引發廣泛共鳴的問題:機器能思考嗎?他能洞察到常人未及的可能性,這需要非凡的想像力 —— 智能或許有朝一日能夠被創造出來,而非天生就存在。這一深刻見解隨後開啟了一場名為人工智慧的不懈科學探索。在我投身人工智慧領域的第二十五個年頭,圖靈的這一願景依舊在不斷給予我啟發。但我們如今距離那個目標究竟還有多遠?答案並非簡單就能說清。以 AI 領域的源頭性問題切入,奠定了全文的思辨基調。李飛飛通過回溯圖靈的經典疑問,既致敬了人工智慧的啟蒙思想,又巧妙地引出了核心矛盾 —— 經過數十年發展,AI 仍未完全實現 “機器思考” 的終極目標。她強調智能 “可被建構” 的核心觀點,既是對後續探討空間智能 “可被研發” 的理論鋪墊,也暗示當前 AI 發展尚未觸及智能的核心本質,為後文批判大語言模型的侷限性埋下伏筆。Today, leading AI technology such as large language models (LLMs) have begun to transform how we access and work with abstract knowledge. Yet they remain wordsmiths in the dark; eloquent but inexperienced, knowledgeable but ungrounded. Spatial intelligence will transform how we create and interact with real and virtual worlds—revolutionizing storytelling, creativity, robotics, scientific discovery, and beyond. This is AI’s next frontier.如今,以大語言模型為代表的前沿人工智慧技術,已經開始改變我們獲取和運用抽象知識的方式。然而,這些模型就如同在黑暗中雕琢文字的匠人:能言善辯卻缺乏實踐經驗,學識淵博卻沒有堅實的現實根基。而空間智能將徹底改變我們創造以及與現實和虛擬世界互動的模式 —— 它會給敘事創作、創意設計、機器人技術、科學發現等諸多領域帶來革命性變革。這,正是人工智慧的下一個前沿陣地。這裡點出,當前 AI 的核心短板並拋出全文核心論點。作者用 “黑暗中的文字匠” 這一形象比喻,深刻揭露了大語言模型的致命缺陷:僅擅長文字層面的資訊處理,卻脫離對物理世界的真實感知與互動能力。同時,她明確將空間智能定義為 AI 的下一個前沿,打破了當下 AI 研發集中於文字多模態擴展的侷限,為行業指出了從 “語言理解” 向 “世界感知” 跨越的全新方向。The pursuit of visual and spatial intelligence has been the North Star guiding me since I entered the field. It’s why I spent years building ImageNet, the first large-scale visual learning and benchmarking dataset and one of three key elements enabling the birth of modern AI, along with neural network algorithms and modern compute like graphics processing units (GPUs). It’s why my academic lab at Stanford has spent the last decade combining computer vision with robotic learning.自進入人工智慧領域以來,對視覺與空間智能的探索一直是指引我前行的北極星。這也是我耗費數年時間建構 ImageNet 資料集的原因 ——該資料集是首個大規模視覺學習與基準測試資料集,與神經網路演算法以及圖形處理器這類現代計算裝置一起,共同構成了催生現代人工智慧誕生的三大核心要素。同樣出於這個初衷,我在史丹佛大學的學術實驗室,在過去十年間始終致力於將電腦視覺與機器人學習相結合的研究。該段落通過結合自身學術經歷,增強了論點的可信度與說服力。李飛飛將自己建立 ImageNet 的行為、實驗室的研究方向與空間智能探索強繫結,既體現了她對這一領域研究的連貫性與執著,也從側面印證了空間智能的重要性 —— 畢竟 ImageNet 作為現代 AI 的三大基石之一,其核心價值正是為機器提供視覺感知的基礎,而這正是空間智能的重要組成部分。這一段落也為後文介紹 World Labs 的研發目標做了背景鋪墊,展現出其研究理念的一脈相承。Generative AI models such as LLMs have moved from research labs to everyday life, becoming tools of creativity, productivity, and communication for billions of people. They have demonstrated capabilities once thought impossible, producing coherent text, mountains of code, photorealistic images, and even short video clips with ease. It’s no longer a question of whether AI will change the world. By any reasonable definition, it already has.以大語言模型為代表的生成式人工智慧模型,已經從科研實驗室走進了人們的日常生活,成為數十億人用於激發創意、提升效率與日常溝通的工具。這些模型展現出了曾經被認為難以企及的能力,能夠輕鬆生成邏輯連貫的文字、海量的程式碼、高度逼真的圖像,甚至是短影片片段。如今,問題已不再是人工智慧是否會改變世界。以任何合理的標準來衡量,它都已經做到了這一點。李飛飛在此處先客觀肯定了生成式 AI 的巨大成就,避免了因強調空間智能而全盤否定現有技術的片面性。她列舉文字、程式碼、圖像等生成能力,既符合大眾對當前 AI 的認知,也為後文轉折做了鋪墊。這種先揚後抑的表述方式,能讓讀者更易接受後續關於 AI 短板的論述 —— 承認現有技術的價值,才能更好地理解為何需要向空間智能方向突破,而非停留在現有成果上。Yet so much still lies beyond our reach. The vision of autonomous robots remains intriguing but speculative, far from the fixtures of daily life that futurists have long promised. The dream of massively accelerated research in fields like disease curation, new material discovery, and particle physics remains largely unfulfilled.然而,仍有諸多目標至今我們仍難以實現。自主機器人的願景雖然充滿吸引力,但依舊停留在推測階段,與未來學家們長期以來描繪的、成為日常生活中常見設施的場景相去甚遠。而在疾病治療、新材料研發、粒子物理等領域借助人工智慧大幅加速研究處理程序的夢想,在很大程度上也尚未實現。該段落通過列舉具體場景,具象化了當前 AI 的能力邊界。李飛飛選取自主機器人、疾病治療、新材料發現等具有高關注度的領域,這些領域的共同特點是都需要 AI 具備對物理世界的感知、推理與互動能力 —— 而這正是大語言模型所欠缺的。通過指出這些大眾與行業期待已久的目標尚未達成,有力地論證了單純依靠現有技術遠遠不夠,進一步凸顯了研發空間智能的必要性與緊迫性。Spatial intelligence is the scaffolding of human cognition. It operates when we passively observe or actively create. It drives our reasoning and planning, even on the most abstract topics. And it shapes how we interact—whether through language or action—with others and our environment.空間智能是人類認知體系的腳手架。無論我們是在被動觀察世界,還是主動創造事物,空間智能都在發揮作用。它推動著我們的推理與規劃能力,即便面對那些極為抽象的事物亦是如此。同時,它還影響著我們與他人、與周邊環境互動的方式 —— 無論這種互動是通過語言交流還是實際行動來實現。此處是對空間智能核心價值的高度凝練。李飛飛用 “認知的腳手架” 這一比喻,精準概括了空間智能的基礎性作用 —— 如同腳手架支撐建築一樣,空間智能是人類所有認知活動的底層支撐。她打破了人們對空間智能僅侷限於 “空間感知” 的淺層認知,指出其對抽象推理、人際互動等多方面的深層影響,這一界定極大地提升了空間智能的理論高度,也為後文闡述建構空間智能 AI 的多元價值提供了理論依據。Unfortunately, today’s AI does not yet think this way. Despite significant advances in recent years—multimodal LLMs trained on vast troves of multimedia data have introduced basic spatial awareness, and state-of-the-art robots can manipulate objects in highly constrained settings—AI’s spatial capabilities remain far from human levels.遺憾的是,如今的人工智慧尚未具備這樣的思考模式。儘管近年來人工智慧取得了諸多重大進展 —— 經過海量多媒體資料訓練的多模態大語言模型已經具備了基礎的空間感知能力,最先進的機器人也能夠在高度受限的環境中操控物體 —— 但人工智慧的空間智能水平與人類相比,仍存在巨大差距。作者直面當前 AI 在空間智能領域的現狀,既不否認技術進步,也不迴避核心差距。李飛飛認可多模態模型和先進機器人在空間能力上的微小突破,體現了論述的客觀性;同時明確指出這些能力與人類水平相去甚遠,形成強烈對比。這種表述既避免了對現有技術的全盤否定,又為後文提出建構 “世界模型” 來突破這一差距的解決方案做了完美鋪墊,讓後續的技術路徑建議更具針對性。Building world models that unlock spatial intelligence requires something far more ambitious than LLMs: a new kind of generative model whose ability to understand, reason about, generate, and interact with semantically, physically, geometrically, and dynamically complex worlds—virtual or real—far exceeds that of today’s LLMs.要建構能夠解鎖空間智能的世界模型,需要開展一項遠比研發大語言模型更具挑戰性的工作:我們需要打造一種全新的生成式模型。這種模型在理解、推理、生成以及與語義層面、物理層面、幾何層面和動態層面均極為複雜的世界(無論是虛擬還是現實世界)進行互動的能力,都要遠超如今的大語言模型。這裡明確給出了突破空間智能瓶頸的核心方案 —— 建構世界模型,並凸顯了該方案的挑戰性。李飛飛強調這種新模型需跨越語義、物理、幾何、動態等多個維度,這一定位精準抓住了空間智能的核心需求:機器要像人類一樣綜合多維度資訊理解世界。同時,將其與成熟的大語言模型對比,既讓讀者清晰感知到研發難度,也暗示這一突破將帶來 AI 領域的下一次質的飛躍,為全文的技術構想劃定了核心方向。 (晚筀筆記)思維導圖參考:
李飛飛終於把空間智能講明白了:AI 的極限不是語言,世界遠比文字更廣闊!
前不久,一場彙集了黃仁勳、Hinton、LeCun 等人工智慧領域頂尖人物的圓桌討論,引發了不小的關注。當李飛飛與這些行業巨擘同台時,也確實在社區裡激起了一些討論——精準地說,是爭議。各種社交媒體上,匯成了一個巨大的聲音:“她憑什麼?”它不是一句簡單的冒犯,更像是一種確認。在今天這個由參數、算力、模型規模定義的 AI 世界裡,人們急於弄清楚,誰才是牌桌上真正的玩家。而許多人眼裡,王牌掌握在兩種人手中:一種是造出了像 GPT 這樣的大模型的人,另一種是造出了能讓這些模型飛速運轉的 GPU 的人。在這個劇本裡,李飛飛的角色就顯得有些模糊。很多人對她的印象或許還停留在 ImageNet 時代。但 ImageNet 的意義,可能比我們想像的要深遠得多。它不僅僅是提供了一個龐大的資料集,更重要的是,它幾乎是以一己之力,為當時的電腦視覺領域建立了一套“標準賽道”,一種通過大規模基準測試來驅動整個領域向前滾動的方法論。可以說,今天大模型研究中“資料+算力+模型”並以 Benchmark 來衡量進展的範式,依然能看到當年 ImageNet 留下的深刻烙印。它不是某一個具體的演算法,而是改變了遊戲規則的基礎設施。那麼,在那個里程碑式的工作之後,當下的 AI 世界,幾乎所有人都擠在語言模型的賽道里狂奔時,李飛飛卻把目光投向了一個更廣闊、也更根本的領域:空間智能。她敏銳地指出了當前 AI 範式的一個核心侷限:語言終究是人類為了交流而創造出來的一種抽象訊號。自然界中本沒有文字,物理世界遵循的是它自身的規律。AI 如果想要真正地理解世界、與世界互動,就不能只停留在文字的符號遊戲裡,做一個“黑暗中的文字大師”。它需要學會看、學會聽、學會理解三維空間中的物體、距離、物理關係和動態互動。這解釋了很多人心中的第一層疑問:ImageNet 之後,李飛飛究竟在做什麼?她和她的團隊,以及新創辦的公司,正是試圖為 AI 補上“物理世界”這一課,讓智能走出螢幕,擁有對空間的感知、理解和互動能力。他們想做的,是建構所謂的“世界模型”,一個遠比語言模型宏大、複雜得多的目標。這並非一個輕鬆的議題,甚至比單純擴大語言模型的規模要困難得多。它關乎人工智慧的下一站將去往何方,是從一個勝利走向另一個勝利,還是需要一次根本性的範式轉換。近日,李飛飛親自撰寫了一篇長文,第一次如此系統、完整地闡述了她對“空間智能”的全部構想,描繪了她眼中人工智慧的新疆界。這篇文章,或許就是對外界所有好奇與疑問的最好回應,也終於解答了那個最大的問題:空間智能,到底是什麼?以下,是這篇文章的全文。跨越語言,構築世界:空間智能,人工智慧的新疆界1950 年,當計算還不過是自動化算術和簡單邏輯的代名詞時,艾倫·圖靈提出了一個至今仍引人深思的問題:機器能思考嗎?能洞見他所預見的一切,需要非凡的想像力:智能或許某天可以被創造,而非與生俱來。這一洞見後來開啟了一場名為“人工智慧”(AI)的不懈科學探索。在我投身人工智慧領域的 25 年裡,圖靈的遠見卓識至今仍讓我備受鼓舞。但我們距離這個目標還有多遠?答案並非一言以蔽之。如今,以大語言模型(LLMs)為代表的頂尖人工智慧技術,已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍像是黑暗中的文字大師:能言善辯卻缺乏經驗,知識淵博卻脫離現實。空間智能將改變我們創造真實世界和虛擬世界以及與之互動的方式——為敘事、創造、機器人技術、科學發現等領域帶來革命性變化。這,就是人工智慧的新疆界。自進入這一領域以來,對視覺和空間智能的追求,一直是指引我的“北極星”。為此,我曾花費數年時間建構 ImageNet,它是首個大規模視覺學習和基準測試資料集;它與神經網路演算法以及圖形處理器(GPU)等現代計算技術一道,成為催生現代人工智慧的三大關鍵要素之一。也正因如此,我在史丹佛的學術實驗室在過去十年間,一直致力於將電腦視覺與機器人學習相結合。同樣為此,我和我的聯合創始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前創立了 World Labs:為了首次將這一可能性完全實現。在本文中,我將解釋什麼是空間智能、它為何重要,以及我們正在如何建構能夠解鎖它的“世界模型”——其影響將重塑創造力、具身智能和人類的進步。空間智能:人類認知的腳手架人工智慧的發展從未像今天這樣激動人心。以大語言模型為代表的生成式AI模型已經從實驗室走向日常生活,成為數十億人進行創造、提升生產力和溝通的工具。它們展現了曾被認為不可能實現的能力,能夠輕鬆生成連貫的文字、海量的程式碼、逼真的圖像,甚至是簡短的視訊片段。人工智慧是否會改變世界,這已不再是個問題。無論以何種標準衡量,它都已然做到了這一點。然而,仍有許多目標遙不可及。自主機器人的願景雖然引人入勝,但仍停留在構想階段,遠未成為未來學家長期承諾的那樣,在日常生活中普及開來。在疾病治療、新材料發現和粒子物理學等領域極大加速研究的夢想,在很大程度上仍未實現。而讓人工智慧真正理解並賦能人類創造者的承諾——無論是幫助學生理解分子化學中複雜的概念,協助建築師構想空間,支援電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供服務——也依然未能兌現。要理解為何這些能力依然遙不可及,我們需要探究空間智能是如何進化的,以及它如何塑造我們對世界的理解。長期以來,視覺一直是人類智能的基石,但其力量源於一種更為根本的能力。遠在動物學會築巢、照顧幼崽、用語言交流或建立文明之前,感知這一簡單的行為,悄然開啟了通往智能的進化之旅。這種看似孤立的、從外部世界獲取資訊(無論是一縷光線還是一絲觸感)的能力,在感知與生存之間架起了一座橋樑,並且隨著世代繁衍,這座橋樑變得愈發堅固和精巧。一層層的神經元在這座橋樑上生長,形成了能夠解釋世界、並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知與行動構成了驅動智能進化的核心循環,也是大自然創造出我們這個集感知、學習、思考和行動於一體的終極物種的根基。空間智能在定義我們如何與物理世界互動方面扮演著根本性的角色。我們每天都依賴它完成最普通不過的動作:通過想像保險槓與路邊之間的間隙逐漸縮小來停放汽車;接住別人從房間另一頭扔過來的鑰匙;在擁擠的人行道上穿行而避免碰撞;或者睡眼惺忪地將咖啡倒入杯中,甚至無需直視。在更極端的情況下,消防員在煙霧瀰漫、不斷坍塌的建築物中穿行,對結構的穩定性和生存機會做出瞬時判斷,並通過手勢、身體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在學會說話前的數月乃至數年裡,通過與環境充滿趣味的互動來學習這個世界。所有這一切都發生得如此直觀、自然——這是機器尚未達到的流暢程度。空間智能也是我們想像力和創造力的基礎。講故事的人在腦海中創造出獨特而豐富的世界,並利用從古代洞穴壁畫到現代電影再到沉浸式視訊遊戲等多種視覺媒介,將這些世界呈現給他人。無論是孩子們在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,這種基於空間的想像力,構成了真實或虛擬世界中互動體驗的基礎。在許多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵的商業應用提供了動力。歷史上,空間智能在許多定義文明處理程序的時刻都扮演了核心角色。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城(Syene)的同一時刻,他在亞歷山大港測得太陽光線有 7 度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織業:將多個紡錘並排佈置在同一個框架中,使得一個工人能同時紡多根紗線,生產效率提高了八倍。沃森和克里克通過親手搭建三維分子模型發現了 DNA 的結構,他們不斷擺弄金屬板和金屬絲,直到最終找到了鹼基對的空間排列方式。在每一個案例中,當科學家和發明家需要操控物體、構想結構和對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅靠文字來捕捉。空間智能是我們建構認知所依賴的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即便是在最抽象的議題上。它對於我們互動的方式——無論是口頭還是身體上的,無論是與同伴還是與環境本身——都至關重要。雖然我們大多數人並非每天都在做出埃拉托斯特尼等級的發現,但我們每天也都在以同樣的方式思考——通過感官來感知複雜的世界,然後利用對世界如何在物理和空間層面運作的直觀理解來認識它。遺憾的是,今天的人工智慧還無法像這樣思考。過去幾年裡,人工智慧確實取得了巨大進步。多模態大語言模型(MLLMs)除了文字資料外,還利用海量的多媒體資料進行訓練,從而引入了一些基礎的空間感知能力,如今的人工智慧已經可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人也開始能夠在高度受限的環境中操控物體和工具。然而,坦率地說,人工智慧的空間能力距離人類水平還相差甚遠。其侷限性很快就會暴露出來。在估算距離、方向和尺寸,或通過從新角度重新生成圖像來“在腦中”旋轉物體時,當前最先進的多模態大語言模型的表現往往不比隨機猜測好多少。它們無法走出迷宮、識別捷徑或預測基本的物理現象。人工智慧生成的視訊——儘管尚處起步階段,並且確實非常酷——往往在幾秒鐘後就失去連貫性。儘管當前最先進的人工智慧擅長閱讀、寫作、研究和資料中的模式識別,但這些模型在表現或與物理世界互動時,卻存在根本性的侷限。我們看待世界的方式是整體性的——不僅關乎我們正在看什麼,更關乎萬物在空間上如何關聯、其意義為何、其重要性何在。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量所在。沒有它,人工智慧就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,無法引導機器人在我們的家庭和醫院中服務,無法為學習和娛樂創造全新的沉浸式互動體驗,也無法加速材料科學和醫學領域的探索發現。哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對人工智慧而言,世界遠不止於語言。空間智能代表了超越語言的新疆界——它連接想像、感知與行動,為機器真正改善人類生活開闢了可能,從醫療健康到創意表達,從科學發現到日常輔助。人工智慧的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的人工智慧?要打造出能夠像埃拉托斯特尼那樣推理、像工業設計師那樣精密設計、像故事講述者那樣富有想像力地創造,並像急救人員那樣流暢地與環境互動的模型,其路徑何在?建構具備空間智能的人工智慧,需要比大語言模型更為宏大的目標:世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠非當今的大語言模型所能及。該領域尚處萌芽階段,現有方法從抽象推理模型到視訊生成系統不一而足。World Labs 於 2024 年初正是基於這樣的信念而創立:基礎方法仍在建立之中,這使其成為未來十年最具決定性的挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個基本能力來定義世界模型:生成性:世界模型能夠生成具有感知、幾何和物理一致性的世界能夠解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠根據語義或感知指令,生成無窮無盡、多種多樣的模擬世界——無論是代表真實空間還是虛擬空間——同時保持幾何、物理和動態上的一致性。研究界正在積極探索,這些世界在內在的幾何結構上,究竟應該被隱式表達還是顯式表達。此外,我相信,除了強大的潛在表示之外,一個通用的世界模型還必須能為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當下的理解必須與它的過去——即導致當前狀態的先前世界狀態——連貫地聯絡在一起。多模態:世界模型在設計上就是多模態的正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式 AI 領域中稱為“提示詞”。在獲得部分資訊的情況下——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應能預測或生成儘可能完整的世界狀態。這要求它既能以真實視覺的保真度處理視覺輸入,又能同樣自如地解釋語義指令。這使得智能體和人類都能夠通過多樣的輸入與模型就世界進行溝通,並反過來接收多樣的輸出。互動性:世界模型能夠根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是給到世界模型的提示詞的一部分,那麼它的輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當僅給定一個動作(無論有無目標狀態)作為輸入時,世界模型應該產生一個與世界先前狀態、預期的目標狀態(如果有的話),以及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健,可以想見,在給定一個目標的情況下,世界模型本身將不僅能夠預測世界的下一個狀態,還能基於新狀態預測下一步的動作。這一挑戰的範圍超過了人工智慧以往面臨的任何挑戰。語言純粹是人類認知的一種生成現象,而世界則遵循著遠為複雜的規則。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律制約著每一次互動。即使是最奇幻、最具創意的世界,也是由遵守其自身物理定律和動態行為的空間物體和智能體構成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,將需要克服幾個巨大的技術障礙。在 World Labs,我們的研究團隊正致力於朝著這個目標取得根本性的進展。以下是我們當前研究課題的一些例子:一種新的、通用的訓練任務函數: 定義一個像大語言模型中的“下一詞元預測”那樣簡潔優雅的通用任務函數,一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性,使得這樣一個函數的建構本身就更具難度。但儘管仍有許多未知尚待探索,這個目標函數及相應的表示方法必須能反映幾何與物理定律,尊重世界模型作為想像與現實的具身化表示這一根本性質。大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集合代表了豐富且易於獲取的訓練材料——挑戰在於開發能夠從這些二維的、基於圖像或視訊幀的訊號(即 RGB)中提取更深層空間資訊的演算法。過去十年的研究已經顯示了在語言模型中,資料量和模型大小之間的“規模法則”的力量;解鎖世界模型的關鍵,在於建構能夠以同等規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中,對網際網路規模的資料起到了補充作用。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法,以及遠為強大的神經模擬方法。新的模型架構和表示學習:世界模型的研究將不可避免地推動模型架構和學習演算法的進步,特別是超越當前的多模態大語言模型和視訊擴散範式。這兩種範式通常將資料標記化為一維或二維序列,這使得一些簡單的空間任務變得異常困難——比如,在一段短影片中數出不重複的椅子數量,或者記住一個小時前房間的樣子。替代性架構可能會有所幫助,例如用於標記化、上下文和記憶的具備三維或四維感知能力的方法。例如,在 World Labs,我們最近在一款名為 RTFM(Real-Time Frame-based Model)的即時生成式幀基模型上的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持生成世界中的持久性。顯然,在我們能通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰。這項研究不僅僅是一項理論探索,它是一個新型創意和生產力工具的核心引擎。而 World Labs 內部的進展令人鼓舞。我們最近向少數使用者展示了 Marble 的一瞥,這是有史以來第一個可以通過多模態輸入提示,來生成並維持一致三維環境的世界模型,供使用者和故事講述者在他們的創意工作流中進行探索、互動和進一步建構。我們正在努力,希望很快能將其向公眾開放!Marble 只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖們都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新層面上實現空間智能——這一成就將解鎖當今人工智慧系統中仍然普遍缺失的關鍵能力。用世界模型為人類建構一個更美好的世界發展人工智慧的動機至關重要。作為幫助開啟現代人工智慧時代的科學家之一,我的動機一直很明確:人工智慧必須增強人類的能力,而非取而代之。多年來,我一直致力於使人工智慧的開發、部署和治理與人類的需求保持一致。如今,關於技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更為務實的觀點:人工智慧由人開發,為人所用,並由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、更能互聯、更有效率、更有成就感。空間智能代表了這一願景——人工智慧賦能人類的創造者、照護者、科學家和夢想家,去實現曾經的不可能。正是這一信念,驅動著我將空間智能作為人工智慧下一個偉大疆界的承諾。空間智能的應用橫跨不同的時間線。創意工具正於此刻湧現——World Labs 的 Marble 已經將這些能力交到了創造者和故事講述者的手中。隨著我們不斷完善感知與行動之間的循環,機器人技術代表了一個雄心勃勃的中期目標。而最具變革性的科學應用將需要更長的時間,但它們有望對人類的繁榮產生深遠影響。在所有這些時間線中,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個 AI 生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同為一個共同的願景而努力。但這個願景值得我們去追求。以下是這個未來所包含的內容:創造力:為敘事和沉浸式體驗注入超能力“創造力是智慧在玩耍。” 這是我的偶像阿爾伯特·愛因斯坦的名言之一,也是我最喜歡的一句話。遠在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義的方式,最重要的是,是我們尋找生命意義和內心之愛的方式。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計延伸到建築。World Labs 的 Marble 平台將為電影製作人、遊戲設計師、建築師和各類故事講述者提供前所未有的空間能力和編輯可控性,讓他們能夠快速建立和迭代可完全探索的三維世界,而無需傳統三維設計軟體的繁重負擔。創造行為本身依然如故,充滿活力且富有人性;人工智慧工具只是放大並加速了創造者所能達成的成就。這包括:新維度的敘事體驗: 電影製作人和遊戲設計師正在使用Marble來構想完整的世界,而不受預算或地理位置的限制,探索在傳統製作流程中難以實現的各種場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種融合了藝術、模擬和遊戲的全新互動體驗——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並棲居於自己的故事之中。隨著將概念和故事板提升為完整體驗的更新、更快捷的方式的出現,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上,建構擁有共同主線貫穿的世界。通過設計實現空間敘事:基本上,每一個製造出來的物體或建造出的空間,在其實體化之前都必須在虛擬三維環境中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以在投入數月進行設計之前快速構想結構,漫步於尚不存在的空間之中——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業設計師和時尚設計師可以瞬間將想像轉化為形態,探索物體如何與人體和空間互動。全新的沉浸式和互動體驗:體驗本身,是我們這個物種創造意義最深刻的方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同生活的這個物理世界。直到近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始瞥見共享我們自己創造的替代世界意味著什麼。現在,空間智能與VR和擴展現實(XR)頭顯、沉浸式顯示器等新形態裝置相結合,以前所未有的方式提升了這些體驗。我們正邁向一個未來,在那裡,步入一個完全實現的多維世界,將變得像打開一本書一樣自然。空間智能讓世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是面向個人創作者、教育者以及任何有願景希望分享的人。機器人技術:行動中的具身智能從昆蟲到人類,動物都依賴空間智能來理解、導航並與它們的世界互動。機器人也不例外。自該領域誕生之初,擁有空間感知能力的機器就一直是人們的夢想,這也包括我和我的學生及合作者在史丹佛研究實驗室的工作。這也是為什麼我對利用World Labs正在建構的這類模型來實現這一可能性感到如此興奮。通過世界模型規模化機器人學習: 機器人學習的進展取決於一個可行的、可規模化的訓練資料解決方案。考慮到機器人需要學習理解、推理、規劃和互動的可能性狀態空間極其巨大,許多人推測,需要結合網際網路資料、合成模擬以及對人類演示的真實世界捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今的機器人研究缺乏訓練資料。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速彌合模擬與現實之間的差距。這反過來將有助於在無數的狀態、互動和環境模擬中訓練機器人。夥伴與協作者:機器人作為人類的協作者,無論是在實驗室工作台旁協助科學家,還是幫助獨居老人,都可以補充那些急需更多勞動力和生產力的領域。但要做到這一點,需要機器人具備能夠感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情的一致。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧性或推理的任務;而一個家庭助理可以幫助老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態甚至可能是與這種期望相符的動作,這樣真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身形態:人形機器人在我們為自己建構的世界中扮演著一定角色。但創新的全部益處將來自更多樣化的設計:遞送藥物的奈米機器人、穿越狹窄空間的軟體機器人,以及為深海或外太空建造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰是,缺乏適用於這些多種多樣的具身形態的訓練資料。世界模型將在為這些努力提供模擬資料、訓練環境和基準測試任務方面發揮關鍵作用。更長遠的未來:科學、醫療和教育除了創意和機器人應用,空間智能的深遠影響還將延伸到那些人工智慧可以增強人類能力、從而拯救生命和加速發現的領域。我將在下面重點介紹三個具有深度變革潛力的應用領域,但毋庸置疑,空間智能的用例在更多行業中都極為廣闊。在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假設,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室能夠觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床邊的每一個環節。在史丹佛,我和我的學生及合作者多年來與醫院、養老機構以及居家患者共事。這段經歷讓我確信空間智能在此處的變革潛力。人工智慧可以通過多維度建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所必需的人文關懷的前提下,為患者和護理人員提供支援,更不用說機器人在各種不同場景下幫助我們的醫護人員和患者的潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造出對我們大腦和身體學習方式至關重要的迭代式體驗。在人工智慧時代,更快、更有效的學習和技能重塑的需求,對於學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞的運作機制或漫步於歷史事件之中。教師可以獲得通過互動環境進行個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:人工智慧應增強人類的專業知識、加速人類的發現、並放大人類的關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結語過去十年見證了人工智慧成為一種全球現象,以及技術、經濟乃至地緣政治的一個轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈 75 年前那個問題背後的精神。我依然懷有他那份好奇心。正是這份好奇心,讓我每天都為空間智能這一挑戰而充滿活力。歷史上第一次,我們有望製造出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對最大挑戰的真正夥伴。無論是在實驗室裡加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻給予支援,我們正處在一項能夠提升我們最珍視的生活方面的技術的前沿。這是一個關於更深刻、更豐富、更強大的人生的願景。在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為這一代技術專家中的一員,或許很快就能賦予機器同樣的能力——並有幸利用這些能力為世界各地的人們謀福祉。我們對真正智慧型手機器的夢想,若沒有空間智能,將是不完整的。 (AI 科技大本營)