#空間智能
重磅開源!240億參數力壓Nano Banana 2
當多數圖像AI還停留在「會生成、不會懂空間」的階段,京東開源JoyAI-Image-Edit,把圖像編輯從平面修圖推向空間智能,也讓外界第一次看清:京東的AI佈局,從來不是追風口,而是死磕自己最有勝算的真實場景。這一刻,圖像AI升維了!過去兩年,我們見過太多「神級」圖像模型——畫貓比真貓還毛茸茸,畫賽博朋克街道比電影還炫,畫一隻手有六根手指也能讓你覺得是藝術。Grok生成的AI圖像所有人都以為,圖像AI已經快到頭了。直到你真的上手用它幹點正經事——想換個角度看看自家客廳?透視關係瞬間崩塌,沙發像在漂浮,落地燈穿牆而過。想把前景的蘋果和後面的書調一下前後順序?遮擋關係直接錯亂,比例全面失衡,畫面宛如一場災難現場。你氣不氣?你崩不崩潰?它們會畫畫,卻不懂空間。它們能生成驚豔的像素,卻看不懂像素背後那個立體的、有前後、有深度、有光影邏輯的真實世界。它們是熟練的「平面裱糊匠」,卻不是懂事的「空間觀察者」。這道檻兒,橫在圖像AI面前。誰來邁?JoyAI-Image-Edit把「空間智能」刻進骨子裡的開源模型4月初,京東探索研究院正式對外開源自研的JoyAI-Image-Edit圖像模型。程式碼已經放在GitHub上,以Apache 2.0協議釋出,推理程式碼全部開放,開發者可以直接拿去做應用。目前,系統已完成對ComfyUI的支援,並全面相容Diffusers格式的模型權重與推理流程,方便開發者進行靈活部署與二次開發。連結:https://github.com/jd-opensource/JoyAI-Image體驗地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space開源權重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit這是一件大事。因為它不是又一個「更好用的AI修圖工具」,而是業內首個把「空間智能」寫進模型架構底層的開源一體化圖像模型,讓模型真正「理解空間,編輯空間」。野心就寫在標題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》,直譯過來就是「在統一的多模態理解與生成中,喚醒空間智能」。技術上,JoyAI-Image把一個80億參數的多模態語言模型(MLLM)和一個160億參數的多模態擴散Transformer(MMDiT)耦合在一起,形成一個共享介面,讓空間意圖從指令解析一路貫穿到圖像生成。更關鍵的是它背後的資料和訓練哲學:一條可擴展的資料流水線,包含空間理解資料(OpenSpatial)、長文字渲染資料、編輯資料(SpatialEdit),再加上多階段的最佳化策略。這套架構的精髓在那?在於「理解」和「生成」第一次形成了真正的閉環。過去的圖像模型,理解歸理解、生成歸生成,兩邊各玩各的。而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環協作:更強的空間理解讓生成和編輯更可控,而視角變換這類生成操作又反過來為空間推理提供新的證據。JoyAI-Image在圖像理解、合成與編輯方面均展現了全面領先的能力說人話就是:模型一邊「看」一邊「畫」,一邊「畫」又幫它看得更清楚。這才是真正意義上的空間智能覺醒。落到具體能力上,JoyAI-Image支援三種空間編輯提示範式:物體移動(Object Move)、物體旋轉(Object Rotation)和相機控制(Camera Control)。第一,相機控制。你可以用一句大白話告訴它——「把相機往右偏30度,往下俯15度,再拉近一點」——模型會在保持場景幾何一致性的前提下,給你生成一張全新視角的圖像,透視關係、遮擋關係、光影關係全都對得上。編輯指令:Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.編輯指令:Move the camera.Camera rotation: Yaw -45.0°, Pitch 22.5°.Camera zoom: unchanged.Keep the 3D scene static; only change the viewpoint.第二,物體旋轉與空間漫遊。支援連續的視角移動,能生成一整串邏輯連貫的多視角圖像序列。什麼意思?就好像你戴著一台虛擬相機,真的在這個三維場景裡「走動」,每一幀都立得住。編輯指令:Rotate the sneaker to show the front view.編輯指令:rotate the girl to show the rear left side view.編輯指令:rotate the elephant to show the front view.第三,物體空間關係操控。挪動、旋轉、縮放畫面中的任何一個物體,場景整體結構保持穩定,遮擋自然合理,光影過渡順滑,不會再出現變形、錯位、比例失衡那些老毛病。編輯指令:Move the coffee into the red box編輯指令:move the red car into the red box, remove the red box, remove the red car這種空間編輯能力帶來很多有趣的新玩法──給定第一幀(上圖)後,你利用空間編輯能力生成視訊的最後一幀(下圖)。然後,由視訊生成模型在兩者之間建立平滑的旋轉過渡,還能保持背景的一致性。更硬核的是橫評。和Qwen-Image-Edit、Nano Banana Pro相比,JoyAI-Image-Edit能夠忠實執行相機運動,合成最具診斷性的新視角,這些高保真的新視角有效地消除了複雜空間關係的歧義。同樣讓模型「換個角度看世界」,別人換出來的畫面或許能看,但JoyAI-Image-Edit換出來的畫面,是真的對,這對於把模型投入真實生產和應用環境來說至關重要。與此同時,它還全面相容15類通用編輯能力——替換、刪除、加入、風格遷移、細節精修、長文字渲染,樣樣拿得出手;尤其在空間推理、長文字渲染以及空間可控操作上表現尤為出色。比如,輸入一行指令就給小貓戴上皇冠。或者將行人從圖片中移走。長文字渲染更是拿手。頂尖的空間編輯×全面的通用編輯,這是真正的「文武雙全」。為什麼是電商和具身?一個模型的價值,不在跑分,而在用在那。JoyAI-Image-Edit最能發揮威力的兩個戰場,一個是電商,一個是具身智能——恰好都是京東的主場。做電商的品牌客戶,是對空間編輯最飢渴的使用者。一件商品拍進來,要換背景、換角度、換搭配、換場景、換光線。過去這些活兒要麼靠攝影師重拍,要麼靠設計師通宵P圖,要麼靠AI生成一堆「塑料感」假圖。有了JoyAI-Image-Edit,一張主圖可以自動衍生出幾十種視角和場景,商品還是那個商品,形象保持一致,細節不穿幫,成本直接砍到腳踝。對於服務著數百萬商家的京東來說,這不是錦上添花,這是水和電。具身智能的場景,則是空間理解最硬的剛需。機器人要在真實世界裡幹活,第一件事就是「看懂」空間——那是桌子、那是椅子、杯子離我多遠、我伸手能不能夠到。空間理解能力,就是機器人「理解世界」的核心底座。而機器人行業的卡脖子問題是「資料」,如何能生產海量供機器人訓練的資料,光靠本體採集、遙操是不夠的,這時候JoyAI-Image-Edit能派上很大用場。在具身智能的實測演示中,使用者只需輸入一句自然語言提示詞(比如「機器人左手舉起來」),並用畫框框選目標區域,就能對指定物體的動作、姿態和旋轉角度進行精細化操控.在機器人做家務的實拍場景裡,模型完整保留了背景環境、物體空間關係與物理合理性,生成了機器人抬手的全新姿態。這已經不是「修圖」,這是給機器人預演動作,也給機器人走進生活提供了大量優質的資料養料。現在,京東正在將AI能力融入其「超級供應鏈」。把空間智能的鑰匙交給所有人這一次,京東選擇了Apache2.0協議開源,任何開發者、任何企業都可以自由地使用、修改、商用這個模型。這件事的份量比想像中要重。因為空間智能是通往AGI的「最後一公里」——一個AI如果連物體在空間中的位置關係都搞不清楚,談何理解世界?而把這樣一個在空間一致性上達到世界一流水準的模型徹底開源,等於把一把關鍵鑰匙交到了整個社區手裡。對電商從業者,它是成本殺手;對設計師,它是隨身的三維助手;對機器人團隊,它是視覺感知的現成底座;對學術研究者,它是可以站在上面繼續往前走的巨人肩膀。更重要的是,它讓空間智能這件事,不再是少數幾家閉源巨頭的專利。不追風口,只押自己最懂的場景這兩年大廠卷AI捲得飛起,參數比大小、榜單比名次、發佈會比排場,每個人都想成為下一個OpenAI。但京東的節奏一直挺「穩」——不湊熱鬧,不跟風,它的AI佈局始終死死咬住一條主線:聚焦自己最懂、最具稟賦的實體場景,把AI扎到產業最深處。過去一段時間,京東在AI上的動作密集得驚人:開源基礎大模型JoyAI-LLM Flash,用基於「纖維叢」理論的FiberPO強化學習方法,在19個權威基準上躋身一梯隊;京東雲「龍蝦」系列產品上線後,一周token呼叫量環比暴漲455%;數字人JoyStreamer性能超越國際SOTA,覆蓋電商直播、文旅講解、新聞主播20多個場景;JoyInside附身智能已經深度接入近百個家電家居品牌、40多個機器人與AI玩具品牌,接入後帶動硬體對話輪次平均提升120%;更猛的是,京東宣佈要建全球規模最大、場景最全的具身智能資料採集中心,兩年內攢下超過1000萬小時真實場景資料,動員數十萬人搞「人類史上最大的資料採集行動」。看懂這份清單,你就看懂了京東的AI邏輯:零售、物流、工業、健康、具身——每一步都踩在自己的供應鏈和場景資源上。別人在雲端打參數戰,京東在地上打場景戰。別人在比誰的模型更聰明,京東在比誰的AI更能幹活、更能賺錢、更能落地。而這一次開放原始碼的JoyAI-Image-Edit,正是這套打法的最新一塊拼圖。京東的打法也給整個行業提了個醒:AI的競爭,終究不是參數的競爭,而是場景的競爭、落地的競爭、價值的競爭。誰最懂自己的主場,誰就能把AI真正用起來。零售、物流、工業、具身——京東把AI扎進了自己最肥沃的那幾畝地,然後讓種子在產業的土壤裡發芽。屬於空間智能的時代,才剛剛開始。 (新智元)
又一中國模型黑馬出世,追平Gemini 2.5 Pro,空間編輯反超視訊模型?
京東發力“空間智能”圖像模型,一手開源、一手卷落地。大廠AI戰局升溫,轉型幾乎成為共識。模型在進化,Agent在落地,但成本高、落地難、資料不夠,行業還在補課。而京東在AI上的佈局已然聚焦清晰:圍繞供應鏈優勢,推進具身智能,讓AI真正進入物理世界。此次推出的一體化圖像模型——JoyAI-Image-Edit,高度適用於生成電商、具身智能訓練圖片。近日,京東開源圖像模型JoyAI-Image-Edit,將空間智能納入圖像理解與編輯,讓AI開始處理真實世界中的空間關係,讓模型真正“理解空間,編輯空間”。簡單解釋,這是一個以空間智能為核心的圖像生成與編輯模型,讓 AI 真正“看懂”三維空間,從而讓生成更合理、編輯更精準。從公開評測來看,JoyAI-Image-Edit各項指標顯著領先,邁進了國際第一梯隊:空間理解刷新同量級開源模型SOTA,達到世界一流水平,大部分指標媲美或超越閉源模型 Gemini 2.5 Pro。長文字生成中英文雙語領先,圖像編輯能力全面覆蓋,空間編輯精度甚至超過部分視訊世界模型。智東西也實測了一番,在物體位置調整這類場景中,模型能夠穩定保持結構一致性。值得注意的是,此番調整的物體在畫幅中僅佔據很小比例,且原物體並非形狀規則,為毛絨材質,並帶有手部細節。即便如此,模型在移動或旋轉時仍能有效減少透視錯亂與遮擋問題,畫面整體保持自然。▲輸入圖與指令(左)、輸出圖(右)進一步看,這類能力的主要落點,在電商內容生產與具身智能訓練這兩類場景尤為適配,進而也能延展到建築設計、遊戲開發和影視製作等場景。電商和具身,恰好與京東現有的AI佈局形成了直接呼應。01. 把“空間智能”寫進模型:從“會改圖”到“會動空間”圖像編輯能力開始分層傳統圖像編輯模型的短板集中在空間層。語義能跟上,但空間關係容易崩,例如替換物體、修改姿態時,常出現比例失真、遮擋錯誤、光影不一致等問題,本質是缺乏幾何層面的理解能力。JoyAI-Image-Edit則把“空間編輯”單獨拉出來做能力核心。模型在支援15類通用編輯任務之外,進一步支援物體移動、旋轉、視角變換等空間級操作,並可理解“移動0.3米”“旋轉45度”等具備明確幾何參數的指令,讓編輯過程具備“可控性”。在能力結構上,模型還採用MLLM+VAE+擴散模型(MMDiT)的統一架構。具體來說,MLLM負責空間理解與語義建模,擴散模型執行生成與編輯,空間資訊直接參與生成過程,形成“理解—生成—再理解”的循環。空間能力是怎麼提升起來的?答案在於資料體系的重構——包括300萬規模的OpenSpatial-3M資料集、多視角生成資料,以及可記錄精確位姿參數的空間編輯資料。這些資料引導模型在訓練階段學習真實幾何關係。得益於這種設計,在2D語義感知、3D空間理解、4D時空推理三個層級共13項Benchmark上,JoyAI-Image-Edit在9項空間理解Benchmark上均取得顯著提升,平均分達到64.4,追平閉源的Gemini 2.5 Pro。在SpatialEdit-Bench上,JoyAI-Image-Edit的空間編輯能力表現尤為突出:Object Overall Score為0.649、Camera Overall Score為0.571,大幅領先所有圖像編輯模型,空間編輯精度超越Veo3.1、ViduQ2-Turbo和Kling等視訊世界模型。與此同時,在業界權威的榜單GEdit(偏向中文指令評測和真實使用者需求)和ImgEdit(偏向全面覆蓋的能力評測,強調推理和精細化編輯能力)上,JoyAI-Image-Edit得分分別為8.27和4.57,刷新開源圖像編輯模型SOTA。▲在249道評測集黑盒人工評測成績:JoyAI-Image-Edit表現優於Qwen-Image-Edit-2511以及Flux2.Dev由此可見,將空間理解、生成和編輯整合在同一體系,可以使模型不僅知道“畫什麼”,還知道“物體在什麼位置、如何變化、是否合理”。當圖像可以被真正“操作”,而不只是簡單修改時,圖像模型的能力邊界也隨之被重新定義。02. 電商+具身場景高可用,空間能力開始直接“變現”空間能力成立以後,最先吃到紅利的,就是最依賴“真實世界”的場景。在電商領域,商品多視角生成、虛擬試衣、商品擺位調整等任務對空間一致性要求極高。JoyAI-Image-Edit的空間編輯能力——可以移動物體、旋轉角度、調整視角,並理解具體幾何參數——在電商場景下帶來了非常直觀的應用價值。比如服飾和鞋類商品,經常需要展示不同角度、姿態或搭配組合。使用該模型,可以在原始圖片基礎上一鍵調整衣服折疊角度、鞋子擺放方向或包包手持位置,生成多角度素材,同時保持整體比例、光影和背景一致。▲輸入圖(左)、輸出圖(右)、指令:Rotate the sneaker to show the front view類似地,對於家電、家具或小型電子產品,空間編輯可讓商品在不同場景下“自動換位”或旋轉展示,如沙發在不同房間角度、咖啡機在不同檯面佈局,無需重拍,就能生成多角度素材。結合模型的通用編輯能力,還可以同時進行文字標註、色彩微調和背景修飾等“一鍵精修”式功能,實現一次操作完成多種需求。這樣,電商團隊能夠快速產出多角度、精修、高可用的商品圖,大幅降低拍攝成本,同時保證展示效果的統一。在具身智能訓練中,這些能力同樣適用。機器人依賴大量真實世界資料,但採集成本高、周期長。該模型可以生成具備空間一致性的高品質圖像資料,用於補充訓練資料,與真實採集資料形成互補,從而提高訓練效率和模型效果,輔助解決具身行業的資料難題。此外,通過生成新視角輔助空間推理(Thinking with Novel Views),模型不僅用於內容生產,也能反向提升空間理解能力,為機器人“看懂世界”提供支援。由此可見,無論是電商還是具身智能,本質都依賴空間理解能力,而JoyAI-Image-Edit正是最直接落地的工具。03. 開源模型亮相,AI全景佈局浮現端倪這次開源JoyAI-Image-Edit顯然是京東聚焦於走向實體世界這一宏大AI佈局的一部分,但通過觀察可以發現,開源並不是它唯一的動作。除了這一模型,京東不久前還開源了JoyAI-LLM Flash模型,能力上在同等參數規模下顯著提升了性能與效率,降低開發者使用門檻,避免單純的參數規模競爭。與此同時,京東在供應鏈和線下場景中的動作也在悄然推進:一方面,建設全球最大的具身智能資料採集中心,結合模型生成能力進行訓練,為資料難題提供了新的解法;另一方面,通過JoyInside將AI能力嵌入家電、機器人、AI玩具終端,讓模型直接落地真實環境,和使用者產生大量深度互動。從開源模型的應用和這些場景動作結合來看,可以明顯感受到京東在模型、資料和終端之間嘗試形成閉環。開源或許只是早期的一步,而京東在產業場景中不斷深挖AI實踐與價值,則讓我們得以觀察到其AI能力的潛在落地路徑。04. 結語:京東一手開源,一手落地從JoyAI-Image-Edit這次開源動作可以看到,京東在AI上的選擇很明確:一手開源,一手落地。在模型側,持續開放能力,把門檻降下來,讓更多開發者可以直接用起來;在場景側,把AI嵌入供應鏈、物理世界、真實產業場景,從資料、模型到終端形成閉環,讓能力在真實環境中跑通。可見,京東的AI戰略更為務實。供應鏈是京東最硬的一張牌。在AI時代,這張牌的價值進一步放大——模型可以嵌入商品、物流與裝置,資料可以持續回流,能力可以不斷迭代。在今天,AI有望成為京東的另一張“增長引擎牌”。 (智東西)
空間智能第一股來了!年入8億,發力具身智能模擬訓練
最近,又有一家AI公司要上港股市場了。不久前,群核科技正式向港交所遞交招股書。說起群核科技,很多人並不陌生。群核科技與深度求索、宇樹科技、雲深處科技、強腦科技、遊戲科學等企業一起被稱為“杭州六小龍”。從空間設計起步的群核科技,依託多年來沉澱的底層空間能力以及物理三維資料,成為了全球空間智能領域的代表性公司。過去三年,公司的收入分別為6.64億元、7.55億元和8.20億元。2024年,公司推出了面向室內環境AI開發的下一代空間智能解決方案SpatialVerse,目的是把設計軟體沉澱的空間資料,轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年,該業務已獲得16名客戶,實現收入520萬元,並已經與智元機器人展開了合作。接下來,就跟著矽基君一起來看看吧。/ 01 /“大客戶”拉動收入增長拆解收入結構可以發現,訂閱收入是公司絕對的核心支柱,常年貢獻總營收的96%以上。其中,企業客戶佔了“大頭”。2025年,企業客戶所帶來的收入高達6.69億元,佔比超過80%。在企業客戶的增長裡,“大客戶”的拉動效應尤為顯著。2023年至2025年,群核科技的企業客戶數量從41070家穩步增長至47416家,增長15%;單個企業的訂閱收入從1.37萬增長到1.41萬,增長2%。其中,年收入貢獻超過20萬的頭部“大客戶”數量,從2023年的353家增長至424家,增長了20%。每名大客戶的平均訂閱收入(ARPU)從2023年的72.9萬元,一路上漲至2025年的85.6萬元,增長17%。也就是說,群核科技的“大客戶”數量和客單價增速都遠遠超過企業客戶。相比之下,C 端業務更像一個規模穩定的基礎盤。個人客戶數量長期維持在 41 萬以上,客單價從 216 元提升至 302 元,提升明顯,但由於使用者規模增長趨緩,整體體量仍然有限。從產品矩陣來看,群核的核心產品是“酷家樂”,這是一個提供快速拖放式3D設計、即時渲染及BIM能力的雲原生平台 。在國際市場上,群核推出了支援18種語言的本地化版本Coohom 。這套產品體系覆蓋設計、可視化、實施與價值鏈協作四個環節,目標並不是單點效率提升,而是貫穿創意生成到生產交付的完整鏈路。在設計方面,設計師只需上傳CAD 圖紙、廣告設計稿或平面檔案,系統便可自動解析其中的結構與佈局資訊,生成可編輯的沉浸式 3D 設計方案。其素材庫覆蓋數百萬級3D 模型,幾乎囊括空間設計所需的全部元素,包括家具、布線、管道、照明、牆面、天花以及各類裝飾元件。上傳圖紙生成3D 設計方案在可視化方面,群核科技依託自建的高性能GPU 叢集,以及擴散模型與光線追蹤等技術能力,系統可在數秒內完成全景圖生成,實現接近即時的沉浸式可視化效果。多張全景圖還可自動拼接為虛擬現實全屋漫遊,使設計從靜態展示升級為可互動的空間體驗。更關鍵的是,系統並未停留在展示層面。設計完成後,設計師可以直接將包含尺寸、材料與規格的完整3D 資料傳送給製造商。系統基於結構化資料自動生成生產圖紙,並嚴格對齊原始輸入參數,減少人工轉換與反覆校對的誤差。這套能力已經在大客戶中形成穩定滲透,成為推動客單價提升的重要推手。2025 年,約 49.1% 的大客戶訂閱了內建 CAM 功能的版本。/ 02 /毛利率很高,但真正的考題在增長作為一家SaaS公司,群核的盈利模型已經跑通了。2023—2025年,公司毛利率分別為76.8%、80.9%和82.2%。毛利改善,也直接反映在利潤表上。2023 年和2024年,公司經調整淨虧損分別為2.42億元和0.70億元;到了2025年,公司實現5712萬元經調整淨利潤,完成扭虧。盈利改善並非偶然。過去三年,公司行銷費用從3.56億元下降至2.74億元,研發支出從3.9億元降至2.91億元。費用率的收縮,疊加訂閱收入的規模化,構成了利潤釋放的主要來源。如果單看盈利能力,群核科技是一家已經完成“從燒錢到自我造血”轉型的公司。但真正的問題不在利潤,而在增長。2025 年,公司收入增速不足10%。對於一家以成長性為核心賣點的企業來說,這樣的節奏顯然偏慢。原因並不複雜——賽道本身不夠大。招股書顯示,2024 年國內空間設計軟體市場規模約為33億元;預計到2029年將擴大至66億元,對應復合年增長率 14.9%。即便按最高預期測算,這仍然是一個百億以內的市場。而群核已經是這個市場的絕對龍頭,市佔率達到23.2%,排名第一。在這樣的背景下,尋找業務增量成為群核科技最重要的工作。從招股書看,群核的破局路徑主要集中在三個方向。第一,提高客單價,用AI 做結構性升級。AI的加入,正在改變設計軟體的使用方式。2025年,公司通過AI功能生成約 25 億張圖片,包括平面圖可視化與渲染圖等。約30%的月活使用者在其訂閱版本中深度使用AI功能。這意味著,AI不再只是附加功能,而是在成為使用者工作流的一部分。2025年3月,公司推出AI智能設計平台,面向企業客戶提升方案生成效率。截至 2025 年底,該平台已獲得28名客戶訂閱,訂單總值3000萬元。在市場規模有限的情況下,通過新功能與效率提升,向現有客戶“要增長”,提高 ARPU,而不是單純追求新增使用者數量。第二,尋找新的業務邊界。2024年推出的SpatialVerse,是公司向“空間智能”延伸的重要嘗試。平台基於多年積累的3D 設計資料與渲染引擎能力,建構高逼真、物理正確的合成虛擬資料集,用於室內場景AI訓練。簡單理解,它把設計軟體沉澱的空間資料,轉化為可供機器人、AR/VR 與具身智能系統訓練的模擬環境。截至2025 年,該業務已獲得16名客戶,實現收入520萬元。其中,智元機器人已與公司在 SpatialVerse 方案上建立合作。第三條路徑,是全球化擴張。2023—2025 年,公司海外收入從 3710 萬元增長至6840萬元,雖然規模有限,保持著不錯的增長。對群核而言,海外不僅意味著更大的市場空間,也意味著在成熟競爭環境中驗證產品競爭力。毫無疑問,群核已經證明,它可以做成一門賺錢的生意。但資本市場最真正關心的,永遠是成長性。對於群核科技來說,接下來最重要的是,這些新的故事能否在收入層面跑出足夠陡峭的斜率。 (矽基觀察Pro)
Gemini 3僅得33.6分!清華發佈首個「約束流形」空間智能基準
【新智元導讀】SSI-Bench是首個在約束流形中評估模型空間推理能力的基準,強調真實結構與約束條件,通過排序任務考察模型是否能精準理解三維結構的幾何與拓撲關係,揭示當前大模型在空間智能上嚴重依賴2D資訊,實際表現遠低於人類。研究指出,模型需提升三維構型識別和約束推理能力,才能真正理解空間問題。如果你把一個在空間理解榜單上刷分很高的多模態大模型,直接丟進真實世界,它很可能會在看起來很簡單的問題上翻車。不是因為它不會「看」,而是因為它從來沒有被迫真正尊重三維結構的可行性——它可以靠2D相關性、外觀先驗、資料集套路,走捷徑拿分。而現實世界裡,很多空間問題的本質恰恰相反:能怎麼擺、怎麼連、怎麼受力,不是隨意的;可行解往往只存在於一個被幾何、拓撲、物理強約束「壓扁」的空間裡。為此,清華大學的研究團隊推出SSI-Bench,從AI與結構工程的交叉視角出發,為空間智能評估提供了一種新的場景化思路——將評測置於複雜三維結構的約束流形中,系統檢驗多模態大模型的空間智能表現。項目首頁:https://ssi-bench.github.io/Arxiv論文:https://arxiv.org/abs/2602.07864Hugging Face資料集:https://huggingface.co/datasets/cyang203912/SSI-BenchGithub程式碼庫:https://github.com/ccyydd/SSI-Bench論文將這種能力明確界定為Constrained-Manifold Spatial Reasoning(CMSR,約束流形空間推理):在此類任務中,潛在三維狀態並非可被任意「臆測」,而是受到顯式約束的限定,僅能落在一個可行解集合內——既需要滿足等式約束(如幾何一致性、連接關係等),也需要滿足不等式約束(如非相交條件、支撐條件與物理可行性等)。更重要的是,強約束會顯著收縮可行三維配置空間,使「高度、距離、最短路徑」等空間關係在不同合理解釋下更具穩定性,從而使評測結果具備更好的可量化性與可比性。SSI-Bench正是在這一背景下提出:它不再將模型置於約束較弱、可自由組合的日常場景中,而是面向複雜真實工程結構建構評測環境,要求模型形成約束一致的三維結構假設,並在此基礎上完成空間推理。聚焦複雜三維結構純人工硬核打造任務形式:用排序題「逼出」真3DSSI-Bench不再讓模型做選擇題,而是統一成排序任務:每題給出3或4個候選「構件/構件組」,要求在指定幾何/拓撲準則下輸出正確的全排列順序。覆蓋能力:幾何+拓撲+多視角一致性全基準共1,000道排序題,任務分兩大類:幾何類(Geometric):Ground Height / Ground Angle / Dimension / Relative Distance / Area / Volume;拓撲類(Topological):Hop Distance / Cycle Length等圖結構關係;並額外引入多視角題目:以兩張圖配合,一張提供參考構件,一張給出待比較目標,重點考察跨視角構件對應與整體結構一致性。建構過程:十位研究者耗費400+小時純人工打磨為了保證資料集的質量與多樣性,同時也由於缺乏真實結構構件的標註資料,SSI-Bench的建構流程非常「硬核」——10位研究者投入超過400小時,從大量真實結構圖片中進行人工篩選與題目設計:資料收集:研究中共計審閱約20,000張結構相關圖片,結構形式包括空間網架、鐵塔、斜拉橋、木竹結構、鋼筋籠、管道等,最終保留2,000+候選;主要來自免版稅來源(Unsplash / Pexels / Pixabay),多視角部分還補充了自採圖像。任務設計:結合空間智能需求與結構工程專業知識,共精心設計2大類、10小類任務。中繼資料標註:判斷每張圖片適用的任務類型,使用Label Studio提供構件定位標註;問題生成:依據圖片色彩自動選取標註顏色,並按構件位置自動佈局標註文字;問題生成後,由人工覆核清晰度與遮擋情況。質量檢驗:每題均由獨立檢查者覆核,若存在分歧則交由第三人裁決。最終共獲得1,000道有效題目。模型仍在起跑線人類領先近六成SSI-Bench系統評測了31個主流VLM,結論非常直接:人類幾乎「碾壓式領先」。人類平均91.6%,最強閉源33.6%(Gemini-3-Flash),最強開源22.2%(GLM-4.6V),隨機猜測基線12.85%也就是說,那怕拿到當下最強大模型,人類仍然領先58個百分點(91.6 − 33.6)。更為關鍵的是,即使鼓勵模型生成更長的推理過程,整體提升也多停留在邊際層面,難以觸及問題的核心瓶頸。並且在部分高度依賴全域三維一致性的任務(如Multi-View、Volume)中,過度推理反而可能在錯誤的結構假設上持續累積偏差,使結果進一步偏離正確答案。從結果到機制關鍵瓶頸在那裡?論文對代表模型做了人工復盤,歸納出四類高頻錯誤:構件範圍誤判:僅觀察到局部便誤認為整體,或對端點位置產生錯誤「補全」;遮擋越多,問題越突出。構件/節點識別錯誤:混淆不同部件,方向判斷失準(例如將傾斜構件誤判為水平或垂直)。計算與比較邏輯錯誤:在Area/Volume等任務中計算方式錯誤(例如以2D投影替代3D體積),或採用不成立的簡化假設。3D空間邏輯錯誤:深度關係混亂、跨視角對應失敗、關係組合不穩定,進而導致整體結構假設不一致。這也解釋了SSI-Bench的「硬核」並不在於題目刻意刁鑽,而在於它迫使模型直面並補齊兩項關鍵短板:三維結構構型識別與約束一致的空間推理。結語SSI-Bench的價值,並不是再造一個「更難的VQA」,而是把空間智能評估拉回一個更接近現實的坐標系:當場景是複雜真實結構、當可行解被強約束收縮、當2D捷徑不再可靠——模型是否還能穩定地建構約束一致的3D結構假設並完成推理?從目前結果看,答案仍然很殘酷:模型還在起跑線,人類已在終點線附近。但也正因如此,SSI-Bench給出了一個非常明確的研究方向:讓空間智能體從「會看圖說話」,走向「會在結構裡思考」。 (新智元)
李飛飛最新訪談:這,才是下一個10年
筆記君說:在AI浪潮席捲各行各業的今天,每一位企業家和創業者都面臨同一個問題:未來的機會究竟在那裡?被譽為“AI教母”的李飛飛,在前兩天的一次深度對話中,給出了她的答案。以下是李飛飛這次訪談中的自述部分,希望她的這些話,對你有所啟發。一、“空間智能”是AGI的一把關鍵鑰匙1.世界遠不止語言那麼簡單我先說一下我的信念:在技術上,確實有一些相通的概念,所以我也能理解有些人說“語言即世界”。宏觀地來說,我堅信這個世界遠不止語言那麼簡單。如果我們說的語言概念,指的是那種離散的、本質上更偏向“一維”的資訊——即便它能表達多維的內容,語言本身的呈現形式還是比較一維的。但這個世界其實要豐滿得多。我一直強調,空間智能包含諸多特性,比如物理屬性這些,都是超越語言範疇的。而且不管是人類的行為,還是大自然的運轉,很多東西既沒法用語言完全表述清楚,也不可能單靠語言就實現所有想做的事。我們每天睜開眼,從生存、工作、創造,到感受、感知,再到人與人之間豐滿的情感,這些日常裡的種種,從來都不是只靠語言就能完成的。當然“語言即世界”這樣的話確實挺好聽,聽起來也沒錯,因為它是非常籠統的一句話。當你一句話很籠統的時候,它可能錯不了。但從技術層面看,現在數位化是必然趨勢:視覺模型、空間智能、機器人模型,本質上都會走向數位化。可要是把數字和語言完全畫等號、當成一回事,那這個概念就變味了。如果連數字都能被叫做“語言”,那相當於啥都能往“語言”裡套,這就沒什麼好爭論的了。在我看來,資訊遠不止語言這一種,還有空間資訊,它和語言一樣美妙、一樣重要。2.“空間智能”到了爆發前夜現在AI大環境裡,大家對AI的期待確實有點太激進了。但我可以告訴你,我選擇創業的核心原因,就是覺得時間點到了。畢竟創業和搞科研不一樣,創業得緊密結合市場、尊重市場規律。但就像很多比我優秀的企業家說的,創業最關鍵的是踩準時間點——不能太早,市場和技術都沒成熟;也不能太晚,否則就沒了機會。空間智能技術在World Labs(中文名:空間智能)剛成立時,確實還早了點,但也沒早到需要等五六年、十年的程度。我判斷未來一兩年,它會迎來爆發式增長。你看現在視訊生成技術的飛速發展,再到我們做的World Models,我堅信這類技術在一兩年內還會有質的飛躍,市場應用的可能性也越來越清晰。我沒法簡單定義現在發展的速度是快還是慢,但能肯定的是,現在正是做空間智能的好時機。我們現在做的“世界生成”(world generation)模型,真的特別令人激動。它的應用場景太廣泛了——從數字創意、遊戲開發、影視製作、設計領域、建築行業,到VR、XR、AR技術,再到機器人模擬,每一個大領域裡又能細分出無數小場景。而這些場景,其實都藏著對三維空間的強烈訴求。生成式AI有個很特別的價值:它能降低原本高難度事情的門檻,進而打開很多你意想不到的新市場。生成三維空間就是件超難的事——這個世界上沒多少人能做到,而且用到的Blender、Unity這類工具,操作起來特別繁瑣。我自己試過,頭都大了。其實很多創作者腦子裡裝滿了好想法,只是被工具卡住了,而非缺乏創意。而AI既能給現有創作者賦能,還能讓很多原本覺得“這事跟自己沒關係”的人,發現新可能。就像我,以前根本不會碰Blender、Unity這類軟體,覺得又麻煩又費時間,但現在AI能賦予我這種能力,我肯定願意用——它能帶來太多新靈感、新機會了。所以我覺得三維世界模型特別讓人興奮:它原本是件對普通人來說難度極高的事,而AI能降低這項能力的使用門檻,這本身就是打開市場的絕佳機會。在我看來,沒有空間智能,沒有三維世界的生成式模型,就談不上AGI(通用人工智慧)。AGI就像一扇門,上面掛著好多把鎖,需要不同的鑰匙去開啟。我始終認為空間智能是其中一把關鍵鑰匙——不過這扇門並非非開即關,而是被一點點推開的。其實我一直不太糾結AI和AGI的區別。因為兩者的夢想是相近的,都是源於一種“科學”的好奇心:機器能不能思考?能不能自主完成事情?這是AI最初的夢想,AGI的目標似乎也沒偏離太多。不管叫什麼,這個夢想都得一步步實現,我們每往前走一步,就離它更近一點。而空間智能,必然是通往這個夢想的重要一環。不管是賦能人類的創造力(從遊戲、設計到工業應用),還是給機器人賦能,亦或是元宇宙、AR/VR的內容生成與落地,都離不開空間智能。3.演算法與資料,都是AI的核心工程、數學的發展路徑和進化的路徑是不一樣的,這就像蘋果和橘子的比較,它們的進化都是很慢的。進化的迭代速度遠慢於演算法迭代,而且碳基與矽基的運算邏輯也大不相同,所以從時間維度來看,兩者沒法放在一起比。但即便如此,進化依然給了我們很多啟發和靈感。這就說到資料的重要性了。當初我們實驗室提出“資料”相關概念,其實也借鑑了不少進化的思路:漫長的進化歲月,本質上就是一段巨量資料訓練的過程;但到了數字時代,我們不用再等幾十億年去收集資料,而是可以大規模、快速地積累資料。和大自然通過進化完成的“資料積累”比起來,我們現在一次能處理、看到的資料,可能相當於進化幾千萬年才沉澱下來的量。相信自己深思熟慮後的假設,也不是什麼怪事吧?走在科學路上,對於那些經過深度思考的假設,你總得有所堅信。但作為科研人,也得清楚有些假設註定是錯的——我當然也有過很多失敗的假設。而我現在堅信的這個假設,是琢磨了很久才得出的:它在數學上是歸納推理的邏輯。我整個博士階段都在做模型、搞演算法,積累了不少領悟,才慢慢意識到這一點。說白了,AI到今天在數學層面的核心,就是“泛化”(generalization)——本質上就這一件事。而泛化怎麼實現?核心就兩點:演算法和資料,而且兩者息息相關。演算法太複雜但資料不足,會過擬合(模型在訓練資料上表現優異,但在面對新資料時性能顯著下降,無法有效泛化的情況);資料太多但演算法不夠好,同樣會過擬合——這裡面藏著明確的數學邏輯。我算是電腦視覺領域早期做機器學習的那批博士生,很幸運的是,我的博士研究剛好趕上電腦視覺的轉折點——我們大量運用機器學習的理念,這讓我對“泛化”的理解更深刻(當然,不一定只有我理解得深)。但我那時候就明確看到了資料的重要性,所以一直堅持了下來。這又回到了好奇心的話題——那個求證假設的過程其實挺有意思的,全程充滿激情,就像一路打怪升級。只要沒被“妖怪”打敗,就接著往下打唄。模型和資料的關係,本質是螺旋式上升的。當年,ImageNet搭建起電腦視覺領域最大的資料庫,直接推動了電腦視覺的蓬勃發展;後來網際網路催生了海量自然語言資料,大語言模型也跟著迎來爆發;再看現在的視訊模型發展得這麼快,核心也是有足量視訊資料支撐;自動駕駛能飛速進步,也離不開頭部公司積累的海量路況、行駛資料。現在看似“又回到了資料和演算法”,其實根本算不上“回歸”——它們從來就沒離開過AI的核心。我有時候覺得挺有意思:就算AI發展到今天,大家還是更看重演算法。但真正做AI的人,不管是創業者還是大公司從業者,心裡都清楚:資料不是說比演算法更重要,至少是同等重要。演算法聽著更“酷炫”,資料的價值反而容易被忽視。但實際上,資料本身就是一門科學。4.空間智能,賦能於“機器人”的發展① 自動駕駛,是簡化版的世界模型自動駕駛汽車其實就是機器人——它是人類最早量產的機器人,但其實挺侷限的。你想啊,它就是個方盒子,基本只在二維路面上活動,只要別碰到別的東西,不管是車、行人還是路邊設施。但我們未來要做的三維機器人不一樣:它得在三維世界裡主動“碰”各種東西,幫我們洗碗、做飯、疊衣服。這麼一對比,就知道自動駕駛汽車其實還是挺簡單的機器人。所以對應的,它的世界模型也更簡單——畢竟要做的事兒就那麼點。當然我不是說自動駕駛不厲害,特斯拉、Waymo(全球自動駕駛標竿,前身為 2009 年Google自動駕駛項目)這些公司都很了不起。但從科學和宏觀的角度看世界模型與機器人技術,這頂多隻是個開始,接下來要做的事情複雜多了。我無法斷言特斯拉有沒有(世界模型)相關佈局。但至少不會是一個強生成性的模型,畢竟業務場景本身不需要這件事。但機器人不一樣,機器人訓練離不開生成式模型——你不可能收集到足夠多的真實場景資料。而且我們做的事情都和創意、設計相關,這些本身就需要生成能力,“生成”本身就是核心應用場景之一。② 機器人的三維能力,還在早期階段現在矽谷的機器人領域大火,我也特別喜歡這個領域,也一直很看好機器人的前景。但同時,我也覺得要保持冷靜:機器人研究其實還處在早期階段。首先,最核心的問題是缺資料。汽車行業發展了幾十年,還有無數人在開車過程中持續蒐集資料;可機器人目前基本沒有商業化應用場景,尤其是日常消費級場景,資料自然難收集。而生成式AI的出現,給機器人領域帶來了一條有意思又有前景的出路。像視訊生成這類技術,不僅提供了豐富的訓練想像空間,還能用於擬態——比如我們正在做的機器人模擬,就特別有前景;甚至在推理階段,還能用視訊模型輔助線上做規劃。可以說,正是機器人周邊領域(比如生成式AI)的快速發展,在反過來帶動機器人技術進步,這一點確實讓人激動。但機器人要真正實現商業化,還有一段路要走,尤其是日常消費級機器人。不過工業機器人早就落地了,畢竟它的應用場景相對單一,容易約束環境,而且也積累了不少資料。自動化駕駛和機器人兩者之間,既有可比性,也有不可比之處。自動駕駛從概唸到商業化,走了近20年:Google2006年就成立了小型自動駕駛研發團隊,直到2024年Waymo才正式上路。汽車行業的供應鏈、OEM體系、客戶場景都非常成熟,這一點讓自動駕駛的商業化比機器人快得多;但當年AI技術不成熟,自動駕駛在AI這條路上走了很久,而現在AI的發展速度肯定會更快。可除了工業機器人(或者說場景單一、易約束的工業機器人),目前並沒有像汽車那樣成熟的機器人應用場景。所以機器人商業化之路會比20年快,還是更慢,真的很難說。但我相信,AI層面的進展會比當年自動駕駛時期快一些;可反過來,機器人面臨的問題也更複雜——它要應對的是完整的三維世界。AI已經能做到非常出色,可要說今天的空間智能,能達到人類睜開眼就有的那種對三維世界的深層理解,還差得遠。比如物體間的物理關係、材料屬性、物理特性,這些我們人類能直觀感知的豐富資訊,AI還沒法完全掌握;更別說對社交資訊、人與人之間情感的理解,這些都屬於視覺理解的範疇,而我還沒提語言層面的複雜認知。人類本身就是極其複雜的存在。所以從進化和能力來看,AI在某些方面已經追上甚至超越人類,但在很多核心維度上,還遠遠不及。而且我作為深耕AI和科技領域多年的人,對空間智能的信仰,絕不是盲目崇拜。它源於對技術的深刻理解,源於這麼多年在這個領域的深耕,也源於我和同事們看到的技術機會與發展方向。創業確實需要情懷,但對科技趨勢的判斷,更需要紮實的邏輯和科學的判斷。二、AI的未來:人類有責任讓其“向善”1.機會,並非贏家通吃綜合來看,資料、算力、人才的整合能力很關鍵——現在能做好這些資源整合的公司,存活機率和勝率會更高。但我覺得,不能只盯著這些顯性因素。畢竟顯性因素一眼就能看到,也容易被大家熱議追捧,但光靠這些遠遠不夠。舉個簡單的例子,在AI coding領域,微軟應該是第一個下場的,推出了Copilot(微軟推出的跨平台生成式 AI 助手)。它可謂佔盡了天時地利人和:手握所有資源、坐擁現成場景,連GitHub(微軟旗下的開發者平台)都是自己的。可微軟最終沒能成為行業標竿,反倒是矽谷現在火起來的Cursor、Claude Code這些小公司,在巨頭圍剿下實現了突圍。這就說明,光有顯性因素根本不夠。如果大家都只盯著這些表面資源下判斷,很容易出現偏差。人類歷史上,從來沒有那個時代是大公司獨霸天下的——即便每個時代的大公司都手握超強的資源整合能力。所以這裡邊還藏著更關鍵的東西:創造力、機遇、執行力,還有對時間點的把握,這些都是決定成敗的核心變數。再加上,AI本身就是一門橫向技術,能催生出無數應用級機會,大公司根本做不完。這些機會,恰恰給了小公司足夠的空間:把某個應用做到極致,慢慢撕開市場缺口,完全有可能實現彎道超車。2.AI只是工具“AI是工具”,這其實是常識。工具本就是雙刃劍:人類史上所有工具,小到最初的火、石斧,大到核彈、生物技術,再到如今的AI,無一例外。我當然也認為,工具的使用必須向善,但同時也要防範它被誤用,不管是有意還是無意。所以我覺得,兩種極端都不理性:只追求發展而無視安全與向善,必然是災難;但天天空談倫理向善而停滯發展,也會錯失技術帶來的諸多福祉。就像做父母,你會教孩子用火做飯吧?既要告訴他們火能做飯的好處,也得讓他們知道用火的危險,這是再簡單不過的道理。AI既是權力的工具,也是向善的工具,但它永遠只是工具。在我看來,這工具會越來越強大,但在它真正不可控之前,它始終屬於人類——人類有責任讓它保持可控。但就像所有工具一樣,我們從來不會指望工具自己明白該做什麼:向善與否,本質是人類的責任。所以對AI的控制與引導,是法律、制度、教育和整個社會的共同責任。不同社會、不同個體或許有差異,但這份責任終究在人類身上。3.教育體系,到了徹底變革的時刻AI時代迫切需要我們更新教育理念和方式——既要讓孩子們學會用這個工具,借助它賦能創造力、助力學習;也要讓他們清楚工具可能存在的問題與風險。而且這絕不僅僅是教育孩子的事。我們總覺得該教育孩子,殊不知最需要被教育的其實是成年人自己。所以,自我教育、面向公眾的科普、給政策與法律制定者提供充足資訊和學習機會,這些都至關重要。說到底,對AI的發展與治理,本質上就是我們人類自身的學習、發展與治理——核心還是人的問題。在這個AI成為具備智力能力的工具的時代,它帶給我們的最大啟發,或許是讓我們更好地瞭解自己、治理自己——這裡的“自己”,既包括每個個體,也包括人類群體。現在關於AI的討論沸沸揚揚,大家都熱衷於談論這項技術。但說到底,不管是個體人性還是群體人性,欠缺的或許還是那份自省吧。對個體來說,時代正在劇變,再做“鴕鳥”逃避現實絕非明智之舉。這種變化必然帶來工作形態的重塑。任何重大科技革命都會引發職業變遷,有時是短暫陣痛、軟著陸,有時可能伴隨社會動盪。作為個體,還是要保持好奇心——對生命、對世界的好奇。那怕這份好奇心,在成年人的世界裡源於對未知的恐慌也沒關係,至少它能成為驅動你主動學習的動力。這一點,值得每個個體自省。而從群體層面來看,AI時代最急需革新的,是我們的教育體系。不管是國內的K-12教育,還是美國這邊雖不唯應試但仍包含應試、仍側重“知識填充”的教學模式,都亟待更新。AI正在不斷證明,很多事情機器能做得更好。如果還讓人類花十幾年、幾十年時間,去重複大半機器可替代的工作,無疑是對人類潛能的浪費。所以我特別想呼籲:所有關注教育、能影響教育政策以及踐行教育的人,都要牢牢抓住這個時代機遇。我們的教育方法論,已經100多年沒有本質變化了。我最大的期待是,100年後歷史學家回望21世紀上半葉時,會看到人類完成了一次真正的教育革命。借助AI賦能教育者與學生,把節約下來的大量時間和精力,讓學生們在老師的引導以及自我探索中,去積累那些AI永遠做不到的認知與核心能力。人類的潛力其實無比巨大,每個個體都是如此。我們的大腦遠未被充分開發,不管是作為個體還是群體,都還沒發揮出全部潛能。你只要看看人與人之間的能力差異,就能感受到這份潛力有多驚人:有些人展現出的能力,簡直像“超人”一樣。這說明,這種極致的潛能本就藏在人性之中,只是大多數人都沒能把它激發出來。而AI這個工具的出現,甚至它對人類工作帶來的衝擊,恰恰給了我們一個契機——重新審視並重構整個教育體系。我覺得真正的教育變革,應該打破工科與文科的固有界限:畢竟AI能讓所有人都學會程式設計,那這些人還能簡單歸為工科生嗎?AI也能幫更多人更好地感知美、讀書、作詩,文科的邊界也被打破了。所以,以前的分科邏輯完全可以改變——AI給了我們打破這種侷限的機會。但說到底,關鍵還是人怎麼使用這個工具。我最擔心的,是人類會放棄自我:覺得“AI這麼聰明,有沒有我都一樣”,這種想法太可怕了。“躺平”這個詞很形象,但背後的心態真的危險。人類有太多未被發掘的潛力,有太多創造世界的可能,有太多讓這個世界變得更美好的機會。而AI,終究只是一個工具而已。如果我們放棄了自身的能動性(agency),就等於放棄了改變自己、改變世界的好奇心與動力。說實話,我真的不懂什麼叫“AI就是世界”。就像有人說“一花一世界”,我能理解那份意境,但“AI就是世界”的說法,我實在摸不透它的核心含義。其實“AI只是工具”這句話的背後,本質是我們如何看待AI與人的關係——把AI當工具,意味著人類始終把自身放在更重要的位置,意味著我們更該關注自我的成長與價值。說到底,“AI是工具”這句話裡,藏著我對人的信仰——我信仰人性的潛力,信仰人類社會的韌性,我信仰的是人,而不是AI。尾聲李飛飛,是對技術趨勢的清醒判斷者。AI,是我們這一代人此生最大的機會。她說,AI時代,人類迎來一次教育的革命,從知識性教育到技能型教育,到認知結構,到人本身的教育,都可以改變。正是在這個時代背景下,筆記俠推出了中國首個面向企業家的AI時代PPE(政治、經濟、哲學)底層認知課程。以AI時代為背景,通過人工智慧科學、AI文明、經濟學、政治學、哲學、智能商業等視角,從底層把握AI時代,激發創業者們在AI時代的潛力,培養能駕馭AI範式轉移的決策者。如何擁抱AI時代,需要理解那些?要理解技術。人工智慧必然重構人類社會的底層邏輯。成為新人類,是決策者的宿命。要理解商業。當AI成為核心生產要素,企業的價值創作邏輯和增長範式會發生根本性變化。要理解世界。在波譎雲詭的世界中生存發展,決策者需要深刻理解AI時代下國際政治經濟體系運行的規律和趨勢。要理解中國。中國走向現代化的道路,必然建築在中國的文化基因上,理解中國才能穿越宏觀周期,活在中國,贏在中國。要理解自己。活出內心的自由和篤定,不被AI時代外界的震盪所撼動,決策者才有心力成為企業的定海神針。這,就需要回到決策的源頭:AI技術與文明、哲學、政治、經濟,重構我們的底層認知邏輯。我們一起做AI時代保持清醒和篤定的決策者。 (筆記俠)
突發!新物種!AI盡頭是空間智能深度洞察研究報告!2025
前言:AI的“空間轉向”與新物種誕生的必然性1.1 前言2025年,人工智慧產業迎來歷史性轉折點——以大型語言模型(LLM)為代表的通用AI技術在文字互動、圖像生成等領域的突破已觸及天花板,而“空間智能”作為連接虛擬算力與物理世界的核心載體,正成為AI技術演進的終極方向。史丹佛大學教授李飛飛在《從語言到世界:空間智能是AI的下一個前沿》中明確指出,當前AI系統困於“語言的世界”,缺乏對現實空間、物理規律與因果關係的真正理解,而空間智能將實現AI從“理解語言”到“理解世界”的跨越,成為AI攀登的下一座高峰。這一轉向不僅催生了“AI+空間”融合的產業新物種,更重塑了全球算力產業鏈的競爭格局與需求結構。本報告聚焦2025年AI與空間智能融合發展的核心議題,核心研究內容包括:空間智能的技術架構與“新物種”產業形態界定;全球及中國算力產業鏈的全景對比(上游晶片、中游算力服務、下游應用);空間智能驅動下的算力需求分層分析(行業、場景、算力形態);技術瓶頸與風險挑戰;未來發展趨勢與產業機遇。報告依託2025年最新行業資料、政策檔案及企業實踐案例,兼具技術深度與產業指導價值,旨在為產業鏈參與者、投資者及政策制定者提供全景式洞察。1.2 核心結論預覽1. 技術演進:空間智能是AI的“終極形態”,其核心是建構融合幾何、物理與動態規則的“世界模型”,實現從被動分析到主動規劃的跨越,當前已進入技術突破與規模化應用的臨界點。2. 產業新物種:催生三大類新物種形態——技術層的“空間大模型”、產品層的“具身智慧型手機器人”、服務層的“空間即服務(SPaaS)”,2025年全球相關市場規模已突破1.2兆元。3. 算力格局:全球智能算力規模2025年達1980 EFLOPS,中國佔比37.8%(748 EFLOPS),算力結構從訓練主導向推理驅動切換,邊緣算力增速(CAGR 50%-60%)遠超雲端。4. 產業鏈競爭:國外形成輝達、AMD雙寡頭格局,國內“一超多強”態勢顯現,國產晶片替代率2025年達41%,沐曦、壁仞等企業加速資本化處理程序。5. 需求驅動:智慧城市、工業智能空間、自動駕駛是核心需求領域,生物醫藥、AR/VR等細分場景算力需求增速超200%,端側AI裝置出貨量2025年破5億台。6. 挑戰與機遇:技術瓶頸集中於晶片製程、叢集互聯效率,地緣政治與能源約束加劇供需失衡;未來機遇在於異構算力協同、綠電算力基建及跨行業場景滲透。第一章 概念界定:AI與空間智能的融合演進1.1 空間智能的核心定義與技術內涵空間智能(Spatial Intelligence)是指機器對物理空間進行感知、建模、推理、規劃並實現互動的綜合能力,其核心是將多模態感知資料轉化為對空間關係、物理規律與因果邏輯的理解,實現虛擬算力與物理世界的精準對應。與傳統AI技術相比,空間智能具有三大核心特徵:一是多模態融合感知,整合LiDAR、攝影機、UWB、地理資訊等多源資料,實現釐米級定位與毫米級建模精度;二是動態世界建模,建構兼具語義與幾何屬性的3D動態場景,支援物理規則模擬與未來狀態預測;三是具身互動能力,依託“感知-決策-行動”閉環,實現與物理空間的自主協同互動。從技術架構來看,空間智能的實現需建構“五層技術堆疊”:第一層底層為算力支撐層(雲端+邊緣+終端異構算力);第二層為感知硬體層(LiDAR、毫米波雷達、高畫質攝影機等);第三層為資料處理層(空間資料清洗、融合與標註);第四層為核心演算法層(3D生成模型、物理引擎、具身智能演算法);頂層為應用場景層(智慧城市、工業、自動駕駛等)。其中,核心演算法層的“世界模型”是空間智能的技術核心,需突破現有LLM的範式侷限,實現語義關係與物理規律的統一理解。1.2 AI向空間智能演進的邏輯必然性AI技術的演進遵循“能力升級-場景拓展-需求倒逼”的邏輯,向空間智能轉向是技術發展與產業需求共同作用的必然結果。從技術層面看,當前以LLM為代表的通用AI存在三大核心侷限:一是缺乏空間認知能力,即使是最新的多模態大模型,在估算距離、方向、大小等基礎空間屬性時表現不及隨機水平;二是物理規律認知缺失,無法穩定預測物體運動軌跡、碰撞關係等基本物理規則;三是動態連貫性不足,生成的視訊內容往往在幾秒內失去空間邏輯連貫性。這些侷限使得AI難以真正賦能需要與物理世界互動的場景,成為技術演進的“天花板”。從產業需求來看,數字經濟與實體經濟的深度融合對AI提出了“落地物理世界”的迫切需求。智慧城市需要全域空間感知與智能調度,工業製造需要數字孿生與即時最佳化,自動駕駛需要高精度空間定位與動態決策,這些場景均要求AI具備空間認知與互動能力。據測算,2025年全球需要空間智能支撐的產業規模已達5兆美元,佔數字經濟總量的28%,需求倒逼成為AI向空間智能轉向的核心驅動力。從認知本質來看,空間智能是人類認知建構的“腳手架”,驅動著想像、創造與推理能力的形成。李飛飛團隊的研究表明,空間智能是連接感知與行動的核心能力,人類通過空間認知實現停車測距、人群穿行等日常動作,其本質是“想像-感知-行動”的一體化過程。AI作為模擬人類智能的技術體系,向空間智能演進是其逼近甚至超越人類認知能力的必然路徑,也是實現從“弱人工智慧”向“強人工智慧”跨越的關鍵環節。1.3 空間智能的“新物種”形態界定AI與空間智能的融合催生了三類具有顛覆性的產業新物種,這些新物種打破了傳統產業邊界,重構了價值創造模式:1. 技術層新物種:空間大模型。區別於傳統LLM,空間大模型以“空間資料”為核心訓練素材,融合地理資訊、3D點雲、物理規則等資料,具備空間建模、動態預測與場景生成能力。例如,史丹佛大學World Labs研發的世界模型可在語義與幾何層面理解複雜3D場景,推理物理屬性與互動關係,並生成連貫可探索的虛擬空間。2025年,國內外已有12款空間大模型實現商用,其中GPT-5空間版、百度文心空間大模型等在建築設計、城市規劃領域的應用精準率達93.6%。2. 產品層新物種:具身智慧型手機器人。依託空間感知與互動能力,具身智慧型手機器人實現了從“固定場景作業”到“全域自適應作業”的跨越,可在動態空間中自主規劃路徑、規避障礙並完成任務。典型案例包括亞馬遜倉庫智能分揀機器人(空間定位精度±2cm)、特斯拉Optimus人形機器人(具備家庭空間互動能力)、醫療微創手術機器人(空間操作精度±0.1mm)。2025年全球具身智慧型手機器人出貨量達120萬台,同比增長210%。3. 服務層新物種:空間即服務(SPaaS)。將空間智能能力封裝為標準化服務,通過API介面向千行百業輸出,實現“空間能力的按需呼叫”。例如,華為盤古空間服務平台可提供城市全域空間建模、動態交通預測等服務,已接入200余個智慧城市項目;GoogleEarth Engine空間服務平台為農業、環保領域提供土地利用監測、災害預警等服務,全球使用者超500萬。2025年全球SPaaS市場規模達2000億元,預計2030年突破1.2兆元。1.4 空間智能的發展階段與2025年關鍵節點空間智能的發展可劃分為四個階段:技術探索期(2015-2020年)、技術突破期(2021-2025年)、規模化應用期(2026-2030年)、成熟普及期(2030年後)。2025年正處於“技術突破期”向“規模化應用期”過渡的關鍵節點,呈現三大標誌性特徵:1. 技術突破節點:3D生成模型、物理引擎與具身智能演算法實現融合,空間大模型的場景理解精準率突破90%,邊緣算力支援毫秒級空間響應(延遲≤10ms)。例如,UWB+LiDAR復合定位技術市場滲透率達35%,實現釐米級定位精度;液冷技術普及使智算中心PUE降至1.1以下,支撐單機櫃算力密度達5P Flops。2. 產業落地節點:核心應用場景實現規模化落地,智慧城市試點項目覆蓋全國89%地級市,北京、上海、深圳等超大城市完成全域智能空間基礎設施建設;工業數字孿生工廠覆蓋率突破60%,生產線綜合效率(OEE)平均提升18個百分點;全屋智能滲透率達12.3%,華為鴻蒙生態與小米AIoT平台連接裝置突破8億台。3. 政策與資本節點:全球主要經濟體出台空間智能專項政策,中國《智能空間產業發展行動計畫(2025-2030)》明確培育30家以上獨角獸企業,組建國家級智能空間創新中心;美國《晶片與科學法案》投500億美元用於算力基建,重點支援空間智能相關晶片研發;歐盟“數字羅盤計畫”建100個百億億次超算節點,支撐空間智能場景落地。資本市場熱度攀升,2025年國內算力晶片企業迎來上市潮,摩爾線程、沐曦股份等相繼登陸科創板,融資規模超40億元。第二章 技術架構:空間智能的核心技術體系與算力支撐2.1 核心技術堆疊:從感知到互動的全鏈路拆解2.1.1 感知層技術:多模態融合與高精度定位感知層是空間智能的“眼睛”,核心目標是獲取物理空間的多維度資料,實現高精度、高可靠的空間感知。當前主流技術方向為多模態感測器融合,整合LiDAR、毫米波雷達、高畫質攝影機、UWB、IMU(慣性測量單元)及地理資訊系統(GIS)資料,彌補單一感測器的侷限性。例如,LiDAR具備高精度3D測距能力,但受天氣影響較大;攝影機可獲取豐富語義資訊,但測距精度不足;UWB適合室內短距離定位,室外表現較差。通過多模態融合演算法,可實現“全天候、全場景、高精度”的空間感知。關鍵技術突破包括:一是LiDAR技術的成本下降與性能提升,2025年車規級LiDAR單價降至500美元以下,探測距離突破300米,點雲密度達300萬點/秒;二是UWB+LiDAR復合定位技術,結合兩者優勢,實現室內外無縫切換定位,精度達±2cm,2028年市場滲透率預計達68%;三是多模態資料融合演算法,基於Transformer架構的融合模型可有效處理異構資料,提升感知精準率,在複雜交通場景中目標識別精準率達99.2%。2.1.2 建模層技術:3D動態場景與數字孿生建模層是空間智能的“大腦中樞”,核心是將感知資料轉化為結構化的空間模型,實現對物理世界的精準對應。技術方向分為靜態建模與動態建模兩類:靜態建模聚焦空間幾何結構的重建,如建築、道路、地形等;動態建模聚焦空間中物體的運動狀態與互動關係,如車輛、行人、裝置等。數字孿生是建模層的典型應用,通過“物理實體-虛擬模型-資料鏈路-服務應用”的閉環,實現物理空間與虛擬空間的即時同步。關鍵技術突破包括:一是3D生成模型,基於擴散模型與Transformer的融合架構,可快速生成高保真3D場景,例如史丹佛大學Marble平台允許創作者無需傳統3D建模工具,快速建立和編輯完整的虛擬世界;二是動態場景預測演算法,結合物理引擎與深度學習,可預測空間中物體的運動軌跡,預測準確率達95%以上,為自動駕駛、機器人導航提供支撐;三是輕量化建模技術,針對邊緣端裝置算力有限的問題,提出輕量化3D模型架構,模型體積壓縮70%以上,可在手機、邊緣閘道器等裝置上即時運行。2.1.3 決策層技術:空間推理與具身智能演算法決策層是空間智能的“決策核心”,核心是基於空間模型進行推理、規劃與決策,實現從“理解空間”到“利用空間”的跨越。核心技術包括空間推理演算法、路徑規劃演算法與具身智能決策演算法。空間推理演算法聚焦空間關係的邏輯判斷,如“物體A在物體B的左側”“路徑C比路徑D短20米”等;路徑規劃演算法聚焦動態環境下的最優路徑選擇,如自動駕駛中的避障路徑規劃、機器人的倉儲分揀路徑規劃;具身智能決策演算法聚焦“感知-行動”閉環,使智能體能夠根據空間環境變化調整行動策略。關鍵技術突破包括:一是空間大模型的推理能力提升,GPT-5空間版、文心空間大模型等可基於3D場景進行複雜推理,如建築結構安全性評估、城市交通流量最佳化;二是強化學習在路徑規劃中的應用,通過模擬海量空間場景訓練模型,使智能體在動態環境中(如擁堵路段、突發障礙)快速找到最優路徑,規劃效率提升40%以上;三是人機協同決策技術,結合人類經驗與AI推理能力,在醫療手術、工業操作等高精度場景中實現“人機互補”,降低操作風險。2.1.4 互動層技術:無感化與人機協同互動層是空間智能的“輸出介面”,核心是實現智能體與物理空間、人類的高效互動。技術方向分為兩類:一是智能體與物理空間的互動,如機器人的機械臂操作、自動駕駛汽車的轉向與制動;二是智能體與人類的互動,如語音互動、手勢互動、腦機介面等。當前發展趨勢是“無感化互動”,即智能體通過感知人類行為、情緒等訊號,主動提供服務,無需人類主動觸發。關鍵技術突破包括:一是手勢與姿態識別技術,基於電腦視覺的即時姿態捕捉精度達98%,可實現對機器人的手勢控制、智能座艙的姿態互動;二是語音互動的空間化,結合空間聲學技術,實現多區域語音識別,區分不同位置的說話人,在智慧辦公場景中支援多人同時語音指令;三是腦機介面技術,在高端辦公、醫療場景中實現腦電波控制,2029年商用化率預計突破15%。2.2 算力支撐體系:雲端-邊緣-終端的異構協同空間智能的全鏈路技術落地離不開算力支撐,其算力需求具有“高並行、低延遲、異構化”的特徵:高並行源於多模態感測器的海量資料(如LiDAR每秒產生數十GB資料);低延遲源於即時互動需求(如自動駕駛需≤10ms的決策延遲);異構化源於不同任務對算力的差異化需求(如建模需GPU的平行計算能力,推理需ASIC的高能效比)。為此,空間智能建構了“雲端-邊緣-終端”三級異構算力協同體系,各層級功能與算力形態如下:2.2.1 雲端算力:大規模訓練與全域調度雲端算力是空間智能的“核心算力底座”,主要承擔空間大模型訓練、全域空間資料處理、跨區域調度等重算力任務。2025年全球雲端智能算力佔比70%-75%,單叢集算力達50 EFLOPS,可支撐萬卡級GPU叢集進行空間大模型預訓練。例如,GPT-5空間版的訓練需萬卡級GPU叢集,單次訓練成本超千萬美元,訓練過程消耗算力達100 EFLOPS·天。雲端算力的核心技術方向是異構計算與叢集互聯最佳化。異構計算整合GPU、CPU、NPU、TPU等多種晶片,發揮不同晶片的優勢;叢集互聯技術通過高速互聯匯流排(如輝達NVLink、國產昇騰高速互聯匯流排)提升叢集通訊效率,當前萬卡級叢集互聯效率達60%-70%,仍是算力擴展的主要瓶頸。為支撐雲端算力需求,全球智算中心建設加速,中國“東數西算”工程建成8大算力樞紐,2025年新增算力60%以上集聚國家樞紐節點,新建大型資料中心綠電佔比超80%。2.2.2 邊緣算力:即時推理與本地決策邊緣算力是空間智能的“即時響應核心”,部署於靠近物理空間的邊緣節點(如基站、智能路側裝置、工業閘道器),主要承擔即時推理、本地資料處理、低延遲決策等任務。邊緣算力的核心優勢是低延遲,可將資料傳輸與處理延遲控制在毫秒級,滿足自動駕駛、工業即時控制等場景需求。2025年邊緣算力佔比約15%-20%,2030年將升至30%-35%,2025-2030年CAGR達50%-60%,邊緣AI晶片市場規模達150億美元。邊緣算力的核心技術方向是高能效比晶片與輕量化演算法。邊緣裝置通常受限於功耗與體積,需要高能效比的專用晶片(如ASIC、NPU);同時,通過模型輕量化(剪枝、量化、蒸餾)降低推理算力需求。例如,華為昇騰310B邊緣晶片能效比達200 TOPS/W,可支撐智能路側裝置的即時目標識別;特斯拉D1晶片專為自動駕駛邊緣計算設計,單晶片算力達362 TOPS,滿足車載即時決策需求。2.2.3 終端算力:本地感知與輕量化互動終端算力是空間智能的“末端感知核心”,部署於終端裝置(如智慧型手機、智能手錶、小型機器人),主要承擔本地感知資料預處理、輕量化互動等任務。終端算力的核心需求是低功耗與小型化,滿足移動裝置的續航與體積要求。2025年終端算力佔比約5%-10%,智慧型手機AI算力達10 TOPS以上,車載計算平台增速超40%。終端算力的核心技術方向是整合化晶片與低功耗演算法。整合化晶片將CPU、GPU、NPU等功能整合於單一晶片(如手機SoC),提升整合度與能效比;低功耗演算法通過最佳化計算流程,降低資料處理的功耗。例如,蘋果A18 Pro晶片整合神經網路引擎,算力達35 TOPS,可支撐手機端3D場景掃描與AR互動;小米澎湃C2晶片專為智能穿戴裝置設計,能效比達150 TOPS/W,滿足長期續航需求。2.2.4 異構協同技術:算力資源的高效調度雲端-邊緣-終端的算力協同是空間智能高效運行的關鍵,核心技術是統一調度平台與高速通訊網路。統一調度平台通過算力感知、任務拆分與資源分配,實現“任務在最合適的算力節點運行”:重算力任務(如模型訓練)分配至雲端,即時任務(如自動駕駛推理)分配至邊緣,輕量化任務(如本地感知)分配至終端。高速通訊網路是協同的基礎,5G-A網路支撐的毫秒級空間感知系統實現釐米級定位精度,光互聯技術升級推動CPO市場2025-2027年CAGR達78%,OCS CAGR達120%。當前異構協同的關鍵突破是“算力網路”技術,通過軟體定義網路(SDN)、網路功能虛擬化(NFV)等技術,將分散的算力資源整合為“算力池”,實現跨區域、跨層級的算力調度。例如,中國電信“天翼算力網路”已接入20個省級算力樞紐,實現算力資源的按需調度;中國移動“算力網路”支撐智慧城市場景下的邊緣-雲端算力協同,降低資料傳輸成本30%以上。2.3 2025年技術突破與瓶頸:從可用到好用的差距2.3.1 關鍵技術突破清單1. 感測器技術:車規級LiDAR單價降至500美元以下,探測距離突破300米;UWB+LiDAR復合定位精度達±2cm;高畫質攝影機影格率突破240fps,低光照環境識別精準率達98%。2. 建模技術:3D生成模型生成效率提升10倍,高保真3D場景生成時間從小時級降至分鐘級;動態場景預測準確率達95%以上,預測時長從1秒擴展至5秒。3. 演算法技術:空間大模型參數規模突破兆級,場景理解精準率達93.6%;輕量化模型體積壓縮70%以上,邊緣端推理延遲≤10ms。4. 算力技術:晶片製程推進至3nm/2nm,輝達B200性能較H100翻倍;國產晶片(昇騰910B、寒武紀590)替代率達41%;液冷技術普及使PUE降至1.1以下,能耗降40%。5. 通訊技術:5G-A網路實現10Gbps下行速率,毫秒級傳輸延遲;CPO技術實現光電器件與晶片的整合,通訊頻寬提升5倍。2.3.2 核心技術瓶頸1. 晶片技術瓶頸:晶片製程逼近物理極限,2nm以下製程成本指數級上升,性能提升放緩;高端晶片受地緣政治影響供給受限,全球GPU供需缺口15%-20%。2. 叢集互聯瓶頸:萬卡級叢集互聯效率僅60%-70%,成為算力擴展的主要障礙;儲存頻寬與算力增長不匹配,CXL協議普及尚需時間,資料傳輸延遲影響大規模訓練效率。3. 演算法泛化瓶頸:空間大模型的場景泛化能力不足,在陌生環境中的精準率下降20%-30%;動態場景中突發情況(如交通事故、極端天氣)的預測能力薄弱。4. 資料質量瓶頸:空間資料標註成本高,3D資料標註單價是2D資料的5倍以上;多源資料格式不統一,資料融合難度大;隱私保護要求提升,空間資料採集與使用受限。5. 能源約束瓶頸:智算中心能耗激增,2026年資料中心IT電力需求達96GW,配套電力設施建設壓力大;邊緣與終端裝置功耗控制仍需突破,影響續航能力。第三章 全球算力產業鏈全景分析:競爭格局與技術路線3.1 算力產業鏈結構:從上游核心硬體到下游應用算力產業鏈圍繞“算力生產-算力服務-算力應用”形成完整生態,分為上游核心硬體、中游算力服務、下游應用三大環節,各環節相互支撐、協同發展。上游核心硬體是算力生產的基礎,中游算力服務是算力流通的載體,下游應用是算力需求的來源,三者共同構成“硬體支撐-服務賦能-應用驅動”的產業閉環。2025年全球算力產業鏈規模達6.5兆美元,其中上游硬體佔比45%,中游服務佔比35%,下游應用佔比20%。3.1.1 上游核心硬體:算力的“物理基礎”上游核心硬體包括晶片、伺服器、感測器、光模組、儲存裝置等,其中晶片是核心中的核心,佔上游硬體成本的50%以上。晶片環節分為通用晶片(CPU、GPU)、專用晶片(ASIC、NPU、TPU)、可程式設計晶片(FPGA)三類,分別適用於不同算力場景:GPU主導訓練場景,2027年市場規模達5000-6000億美元;ASIC在推理場景優勢擴大,2027年市場規模280億美元,佔AI晶片市場35%;NPU/TPU等專用晶片快速滲透,2025年市場規模850億美元。伺服器環節聚焦智算伺服器,搭載多顆AI晶片,支援大規模平行計算,2025年全球智算伺服器市場規模達1200億美元,同比增長45%。感測器環節是空間智能的專屬硬體,LiDAR、毫米波雷達等空間感知感測器市場規模達300億美元,同比增長60%。光模組環節支撐高速通訊,2025年CPO市場規模達50億美元,OCS市場規模達20億美元。儲存裝置環節聚焦高速儲存(如HBM、SSD),HBM3E記憶體頻寬達19.6TB/s,2025年市場規模達150億美元。3.1.2 中游算力服務:算力的“流通載體”中游算力服務包括算力基礎設施(智算中心、邊緣節點)、算力營運服務(雲算力、邊緣算力租賃)、算力賦能服務(模型訓練、資料處理)等。智算中心是中游核心基礎設施,2025年全球智算中心數量達1200個,中國佔比40%,“東數西算”工程8大算力樞紐集聚60%以上新增算力。算力租賃服務是當前最熱門的細分領域,受益於大模型訓練與推理需求爆發,2025年全球算力租賃市場規模達800億美元,同比增長80%。算力賦能服務聚焦專業化算力解決方案,為下遊客戶提供定製化的模型訓練、資料處理服務,頭部企業包括亞馬遜AWS、微軟Azure、阿里雲、騰訊雲等。此外,算力網路服務快速發展,通過整合分散算力資源,實現算力的跨區域調度,2025年全球算力網路服務市場規模達300億美元。3.1.3 下游應用:算力的“需求來源”下游應用分為空間智能專屬應用與通用AI應用兩類,其中空間智能專屬應用是核心增長引擎,包括智慧城市、工業智能空間、自動駕駛、AR/VR、智能醫療等。2025年空間智能相關應用佔算力需求的35%,其中智慧城市佔比最高(12%),工業智能空間次之(8%),自動駕駛(7%)、AR/VR(4%)、智能醫療(4%)緊隨其後。通用AI應用包括網際網路內容生成、金融風控、生物醫藥研發等,佔算力需求的65%,其中網際網路行業佔算力採購的60%,阿里、騰訊等頭部企業未來三年AI投資超5000億。3.2 國外算力產業鏈:雙寡頭主導與技術引領3.2.1 美國:全產業鏈主導,技術壁壘高築美國是全球算力產業鏈的領導者,在晶片、伺服器、算力服務等核心環節佔據主導地位,形成“晶片-軟體-服務-應用”的全產業鏈優勢。晶片環節,輝達、AMD形成雙寡頭格局,佔據全球AI晶片市場的70%以上份額。輝達2025年推出Blackwell B200晶片,採用“單封裝雙芯粒”路線,算力密度和記憶體頻寬達行業極致,性能較H100翻倍,並拋出2026–2027路線圖,Vera Rubin與Rubin Ultra即將推出,Rubin推理峰值50 PFLOPS、HBM4記憶體288GB,FP4稀疏算力是B200的2.5倍。AMD採用Chiplet思路,MI350系列採用CDNA4架構、台積電第二代3nm工藝,配備288GB HBM3E記憶體,峰值2.3 PFLOPS,與B200直接競爭,2026年的MI400將邁入2nm,配備432GB HBM4記憶體,目標直指Rubin。算力服務環節,亞馬遜AWS、微軟Azure、GoogleCloud佔據全球雲算力市場的65%份額,其中AWS的Trainium晶片專為模型訓練設計,Inferentia晶片專為推理設計,形成“自研晶片+雲服務”的閉環;微軟Azure與輝達深度合作,推出Azure ND H100 v5虛擬機器,支援萬卡級叢集訓練;GoogleCloud推出TPU v5e晶片,能效比提升2倍,支撐空間大模型訓練。應用環節,美國在自動駕駛、AR/VR、生物醫藥等空間智能相關領域領先,特斯拉Autopilot採用自研D1晶片與多模態感知技術,自動駕駛Level 4等級的測試里程突破10億英里;Meta的Quest 3 VR裝置搭載空間感知晶片,實現高精度空間定位與虛擬場景融合;OpenAI與生物醫藥企業合作,利用空間大模型加速藥物研發,分子結建構模效率提升10倍。政策與資本支援方面,美國《晶片與科學法案》投500億美元用於算力基建,重點支援AI晶片研發與智算中心建設;國防部、能源部等部門持續投入資金支援空間智能相關技術研發;資本市場對算力企業的估值溢價顯著,輝達市值突破3兆美元,成為全球市值最高的企業之一。3.2.2 歐盟:政策驅動,聚焦協同與綠色歐盟算力產業鏈以政策驅動為核心,聚焦算力協同與綠色低碳,試圖通過“聯合創新”突破美國技術壟斷。晶片環節,歐盟缺乏具有全球競爭力的晶片企業,主要依賴輝達、AMD等美國企業,同時通過“歐洲晶片計畫”投入430億歐元支援本土晶片研發,目標2030年本土晶片產能佔全球20%。重點發展方向為專用晶片,如用於工業智能空間的ASIC晶片、用於自動駕駛的邊緣晶片。算力基礎設施環節,歐盟“數字羅盤計畫”提出建設100個百億億次超算節點,支撐空間智能、氣候變化、生物醫藥等領域的科研與應用;推動“歐洲算力聯盟”(EUC)建設,整合成員國算力資源,實現跨區域算力協同。2025年歐盟已建成20個超算節點,其中芬蘭LUMI超算、德國JUWELS超算躋身全球前十,支援工業數字孿生、城市空間規劃等場景。應用環節,歐盟聚焦智慧城市與工業4.0,推出“智慧城市和社區創新夥伴關係”計畫,支援200個智慧城市試點項目;德國“工業4.0”戰略推動工業智能空間落地,西門子數字孿生工廠覆蓋率達70%,生產線效率提升20%以上;法國在智能交通領域領先,巴黎建成全域智能交通管理系統,交通擁堵率下降30%。綠色算力是歐盟的核心特色,提出2030年資料中心全生命周期碳排放量較2020年下降50%,新建智算中心綠電佔比超90%;推廣液冷、風能、太陽能等綠色技術,芬蘭LUMI超算採用水力發電,PUE降至1.05以下,為全球最低之一。3.2.3 其他國家:差異化佈局,依附核心市場日本聚焦機器人與智能感測領域,索尼、松下等企業在LiDAR、毫米波雷達等感測器技術上具有優勢,索尼Vision-S電動概念車搭載28個感測器,實現高精度空間感知;軟銀集團投資大量具身智慧型手機器人企業,推動空間智能在服務機器人領域的應用。政策方面,日本《數字社會推進基本法》投入200億美元支援算力基建,目標2025年智能算力規模達100 EFLOPS。韓國聚焦晶片與終端裝置,三星電子在晶片製造領域具有優勢,2025年實現3nm製程量產,為輝達、AMD提供代工服務;SK海力士在HBM記憶體領域佔據全球40%份額,支撐高端AI晶片的記憶體需求;三星Galaxy S25手機搭載自研NPU晶片,算力達40 TOPS,支援AR空間互動。其他開發中國家主要依附歐美核心市場,通過承接算力服務外包、引進技術等方式發展,如印度、東南亞國家聚焦算力服務外包,為歐美企業提供資料標註、模型訓練輔助服務;巴西、南非等國家推動智慧城市試點,引進歐美成熟技術與裝置。3.3 中國算力產業鏈:自主可控加速,“一超多強”格局顯現3.3.1 上游核心硬體:國產替代加速,突破關鍵瓶頸晶片環節,中國形成“一超多強”的格局,昇騰系列晶片扮演“頭雁”角色,搭建“晶片-框架-叢集-應用”的四級閉環,已支援建造多個萬卡級叢集,2025年推出384卡超節點新形態,最大算力可達300 PFLOPS,配備創新的高速互聯匯流排,大幅提升大模型訓推效率。寒武紀聚焦AI專用晶片,2024年四季度首次實現單季度盈利,2025年前三季度營收46.07億元,同比增長2386.38%,歸母淨利潤16.05億元,核心產品寒武紀590替代率達15%。國產GPU“四小龍”(摩爾線程、沐曦股份、壁仞科技、燧原科技)加速崛起,2025年迎來上市潮:摩爾線程12月5日登陸科創板,上市首日股價躋身A股Top 3,市值3595億元,業務覆蓋AI智算、圖形渲染和智能座艙SoC晶片等領域;沐曦股份12月17日登陸科創板,總募資規模約41.97億元,核心產品曦雲C600性能介於A100和H100之間,實現全流程國產供應鏈閉環,2026年上半年正式量產;壁仞科技港股IPO獲備案,聚焦高性能通用GPU,公開融資總額超50億元;燧原科技啟動上市輔導,擬在科創板上市。其他硬體環節,中國在伺服器、光模組、感測器等領域具有全球競爭力:伺服器領域,浪潮資訊、華為佔據全球智算伺服器市場的25%份額,浪潮AI伺服器出貨量全球第一;光模組領域,中際旭創、天孚通信在CPO、OCS等技術上領先,2025年全球市場份額達30%;感測器領域,華為、大疆創新在LiDAR領域突破,車規級LiDAR單價降至800元以下,國內市場份額達20%。3.3.2 中游算力服務:基建領先,服務生態完善算力基礎設施方面,中國“東數西算”工程成效顯著,建成8大算力樞紐、10個國家資料中心叢集,2025年新增算力60%以上集聚國家樞紐節點,新建大型資料中心綠電佔比超80%。截至2025年3月底,中國智能算力規模達748 EFLOPS,預計2026年達1460.3 EFLOPS,2028年達2781.9 EFLOPS。頭部智算中心包括華為昇騰AI計算中心、阿里達摩院智算中心、騰訊智算中心等,其中華為昇騰AI計算中心已在全國建成20個節點,總算力達500 EFLOPS。算力服務方面,阿里雲、騰訊雲、百度智能雲、華為雲佔據國內雲算力市場的80%份額:阿里雲推出“飛天智算平台”,支援萬卡級大模型訓練,服務超10萬家企業;騰訊雲推出“混元智算平台”,整合自研晶片與輝達晶片,提供彈性算力租賃服務;百度智能雲“千帆大模型平台”聚焦空間大模型服務,已接入百度文心空間大模型等20餘款行業大模型;華為雲“盤古算力平台”依託昇騰晶片,提供全端國產化算力服務。算力網路方面,中國營運商牽頭推動算力網路建設,中國電信“天翼算力網路”、中國移動“算力網路”、中國聯通“智慧算力網路”已實現全國主要城市覆蓋,支援算力的按需調度與跨省互聯。2025年國內營運商算力投資增20%以上,算力核心產業規模2026年達2.6兆元,帶動相關產業超12兆元。3.3.3 下游應用:場景豐富,規模化落地加速中國空間智能應用場景豐富,智慧城市、工業智能空間、智能家居、自動駕駛等領域均實現規模化落地:智慧城市領域,試點項目覆蓋全國89%地級市,北京、上海、深圳等超大城市完成全域智能空間基礎設施建設,城市治理響應速度提升70%,能耗管理效率提高45%;工業智能空間領域,數字孿生工廠覆蓋率突破60%,基於邊緣計算的即時最佳化系統使生產線OEE平均提升18個百分點;智能家居領域,全屋智能滲透率達12.3%,華為鴻蒙生態與小米AIoT平台連接裝置突破8億台;自動駕駛領域,百度Apollo、小鵬汽車、理想汽車等企業的Level 3等級自動駕駛車型實現量產,Level 4等級在特定區域試點營運。政策支援方面,中國出台多項專項政策推動算力與空間智能產業發展:《智能空間產業發展行動計畫(2025-2030)》明確培育30家以上獨角獸企業,組建國家級智能空間創新中心,完成73項行業標準制定;《“十四五”數字經濟發展規劃》要求2025年智能家居市場滲透率達到40%;《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上,存量建築改造率不低於60%。3.4 國內外產業鏈對比:差距與優勢並存3.4.1 核心差距:高端晶片與生態建構1. 高端晶片技術差距:國外晶片製程已推進至2nm,輝達B200、AMD MI350等產品性能領先,國內最先進製程為3nm,昇騰910B、沐曦C600等產品性能介於A100和H100之間,與最新產品存在一代差距;晶片架構設計能力不足,國外企業擁有成熟的GPU架構(如輝達CUDA架構),國內架構生態尚在建構。2. 軟體生態差距:國外形成“晶片-框架-應用”的完整生態,輝達CUDA生態擁有數百萬開發者,支援各類AI框架與應用;國內生態較為分散,昇騰MindSpore、百度飛槳等框架的開發者數量與應用覆蓋度不足,跨框架相容性差。3. 高端感測器差距:LiDAR、毫米波雷達等高端感測器的核心元器件(如雷射發射器、探測器)依賴進口,國內企業在精度、可靠性等方面存在差距,車規級LiDAR的國外品牌市場份額達80%。3.4.2 中國優勢:市場規模與政策支援1. 龐大的市場需求:中國是全球最大的算力與空間智能應用市場,2025年智能算力規模佔全球37.8%,智慧城市、工業製造等場景的需求規模全球領先,為本土企業提供了廣闊的試錯與迭代空間。2. 強有力的政策支援:國家層面出台多項專項政策,從算力基建、技術研發、標準制定到應用推廣全方位支援,“東數西算”工程、新基建戰略等為產業發展提供了充足的資金與資源保障。3. 完善的製造業基礎:中國擁有全球最完整的電子資訊製造業產業鏈,在伺服器、光模組、終端裝置等硬體製造領域具有全球競爭力,可支撐算力產業鏈的本地化生產與成本控制。4. 快速的迭代速度:本土企業在應用場景落地方面迭代速度快,能夠快速響應客戶需求,在智慧城市、工業智能空間等細分場景形成差異化優勢。3.4.3 未來競爭焦點:異構算力與生態協同未來全球算力產業鏈的競爭焦點將集中在異構算力協同與生態建構:一是異構算力晶片的研發,整合GPU、CPU、NPU等多種晶片優勢,提升算力能效比;二是統一調度平台的建設,實現雲端-邊緣-終端的算力協同;三是開放生態的建構,通過開源框架、開發者社區等吸引全球開發者,擴大應用覆蓋度;四是綠色算力的突破,通過液冷、綠電等技術降低能耗,提升產業可持續性。第四章 算力需求分析:空間智能驅動的分層需求與增長邏輯4.1 算力需求總體特徵:規模爆發與結構分化2025年全球算力需求呈現“規模爆發式增長”與“結構差異化分化”的雙重特徵。從規模來看,全球智能算力規模達1980 EFLOPS,較2023年增長5倍,其中空間智能相關算力需求達693 EFLOPS,佔比35%,成為核心增長引擎。IDC測算2025年全球AI模型訓練與推理算力需求650 EFLOPS,多模態模型貢獻60%算力增量,而空間智能是多模態模型的核心應用場景。從結構來看,算力需求呈現三大分化趨勢:一是訓練與推理分化,訓練算力2025-2027年CAGR 25%-30%,主要用於GPT-5等兆級空間大模型預訓練;推理算力同期CAGR 90%-100%,為訓練的近4倍,2028年規模超訓練,成為算力增長主力,主要源於空間智能應用的規模化落地(如自動駕駛推理、智能路側感知)。二是算力形態分化,雲端算力佔比70%-75%,但邊緣算力增速(CAGR 50%-60%)遠超雲端,終端算力穩步增長,形成“雲端重訓練、邊緣重推理、終端重感知”的格局。三是行業需求分化,網際網路行業仍佔主導(60%),但金融、醫療、自動駕駛、工業模擬等場景增速超行業平均,生物醫藥AI模型訓練需求同比增210%。算力需求的增長邏輯可總結為“技術驅動-場景牽引-政策護航”三大核心要素:技術驅動方面,空間大模型參數規模從千億級邁向兆級,GPT-5級空間模型訓練需萬卡級GPU叢集,單次訓練成本超千萬美元,倒逼算力規模提升;場景牽引方面,智慧城市、自動駕駛等場景的規模化落地,帶來海量即時推理需求,Token消耗激增,中信證券預計2030年全球Token消耗為2025年的100-340倍,推理算力規模為2025年的65-220倍;政策護航方面,全球主要經濟體出台算力基建支援政策,中國“東數西算”、美國《晶片與科學法案》、歐盟“數字羅盤計畫”等為算力需求增長提供保障。4.2 分行業算力需求:核心場景與量化分析4.2.1 智慧城市:全域感知與智能調度的算力盛宴智慧城市是空間智能的核心應用場景,算力需求源於全域空間感知、數字孿生建模、智能調度決策三大環節,2025年算力需求達180 EFLOPS,佔空間智能總算力的25.9%。具體場景包括智能交通、智能安防、智能市政、智慧能源等:1. 智能交通:核心需求是即時交通感知與動態調度,單條智能路側裝置(含LiDAR、攝影機、雷達)每秒產生10GB資料,需邊緣算力進行即時處理(目標識別、軌跡預測),單路裝置推理算力需求達10 TOPS;城市級智能交通調度平台需雲端算力進行全域最佳化,一線城市(如北京、上海)調度平台的雲端算力需求達5 EFLOPS。2025年智能交通領域算力需求達80 EFLOPS,同比增長70%。2. 智能安防:核心需求是全域視訊監控與異常行為識別,超大城市的視訊監控點位超10萬個,單個點位需0.5 TOPS推理算力,邊緣端總算力需求達5 EFLOPS;雲端需進行視訊資料回溯分析與模型訓練,算力需求達2 EFLOPS。2025年智能安防領域算力需求達15 EFLOPS,同比增長50%。3. 數字孿生城市:核心需求是全域3D建模與動態模擬,超大城市全域數字孿生建模需處理PB級空間資料,訓練算力需求達10 EFLOPS;動態模擬需即時更新城市狀態,推理算力需求達5 EFLOPS。2025年數字孿生城市領域算力需求達30 EFLOPS,同比增長100%。4. 智慧能源:核心需求是電網、管網的空間監測與最佳化調度,城市級電網數字孿生需處理海量感測器資料,推理算力需求達3 EFLOPS;能源調度最佳化模型訓練需1 EFLOPS算力。2025年智慧能源領域算力需求達8 EFLOPS,同比增長60%。政策驅動是智慧城市算力需求增長的核心動力,中國《智能空間產業發展行動計畫(2025-2030)》要求2025年前完成200個智慧城市試點建設,配套財政補貼規模超800億元;住建部《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上。 (AI雲原生智能算力架構)
矽谷炸鍋了! AI教母李飛飛萬字長文撕開行業“遮羞布”。
近期,一篇出自 “AI 教母” 李飛飛教授的萬字長文,在矽谷 AI 圈掀起軒然大波。作為曾掌舵史丹佛 AI 實驗室、憑 ImageNet 項目改寫深度學習視覺領域格局的華人頂尖專家,她此次的發聲格外重磅:“當下的 AI,不過是困在暗室裡的文字高手,能說會道卻脫離現實,本質上就是‘睜眼瞎說’。”一、李飛飛撕開AI“遮羞布”這番話看似犀利,卻精準點破了 AI 光鮮外表下的 “致命缺陷”。如今的大語言模型有多 “能打”?寫律詩、寫論文、聊量子物理,分分鐘模仿李白、杜甫的文風,邏輯縝密到讓人難辨真假。可一旦跳出文字的舒適區,面對真實的物理世界,AI 就立刻 “露餡”:讓它估算桌子到門的距離,全靠蒙;讓它預測杯子轉 90 度後的模樣,純屬猜;就連那些刷屏的 AI 生成視訊,仔細看全是破綻 —— 人物突然多根手指、物體莫名穿牆而過,說到底,都是 AI 不懂物理規律的必然結果。二、AI未來:不在大模型,在嬰兒本能李飛飛教授毫不避諱地指出:AI 行業已經走偏了方向。真正的突破口,從不是參數越來越龐大的語言模型,而是連嬰兒都有的 “空間智能”—— 這才是通往通用人工智慧(AGI)的唯一正道。那 “空間智能” 到底是什麼?其實就是人類理解、互動物理世界的本能。嬰兒靠抓、扔、咬,摸清物體的軟硬、輕重;你半夜摸黑起床倒水,不用開燈也能精準拿到杯子;朋友扔來鑰匙,你不用算拋物線就能穩穩接住。這些看似簡單的動作,背後藏著對空間、距離、物理規律的深層認知。更關鍵的是,人類文明的諸多重大突破,都離不開 “空間智能”:埃拉托斯特尼觀察影子長短,算出了地球周長;沃森和克里克搭 3D 模型,破解了 DNA 雙螺旋結構;建築師設計摩天大樓、科學家推演星體運動,本質上都是在運用對空間和物理規律的理解。而這些,是只會 “玩文字” 的大語言模型永遠做不到的。三、AI要“懂”世界:先建世界模型既然空間智能這麼重要,怎麼讓 AI 擁有它?李飛飛給出了核心方案:讓 AI 從 “語言模型” 轉向 “世界模型”。一個合格的世界模型,必須具備三大核心能力:首先,能生成符合物理定律的虛擬世界,不是天馬行空的虛構,而是遵循重力、摩擦力等基礎規律;其次,能整合文字、圖像、動作等多種資訊,不僅聽得懂你說的,還能看懂你做的;最後,也是最關鍵的,能精準預測互動結果 —— 比如知道推杯子會倒、扔球會落地,這才是 AI “看懂” 世界的關鍵。要做到這些,比訓練大語言模型難得多。語言是一維的、線性的,可世界是四維的 —— 三維空間加時間,還受無數物理定律約束。但一旦突破這個難關,AI 的能力將實現質的飛躍。四、空間智能AI:能幫人類做什麼?李飛飛團隊早已用實踐證明了空間智能的潛力:他們研發的 “抹布模型”,能讓電影製作人、遊戲設計師僅憑文字描述,就生成可互動的 3D 世界。不用學複雜的建模軟體,普通人也能當 “造物主”,搭建屬於自己的虛擬場景。這還只是開始。當 AI 真正擁有空間智能,生活將迎來巨變:機器人不再是笨拙的機器臂,能在模擬環境中學會上萬種技能,走進家庭做飯、照顧老人,走進醫院精準手術;教育領域,學生能 “穿越” 到古羅馬街道學歷史,“鑽進” 細胞裡看生物結構;科學探索中,AI 能模擬深海、外太空,幫人類探索無法抵達的領域。正如李飛飛所說:“AI 的終極目標從不是取代人類,而是為人類賦能。現在的大語言模型只是起點,真正的智能,是讓機器理解物理世界。”(AI行銷峰雲)
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)