#李飛飛
史丹佛HAI大重組!李飛飛昇任校長顧問
史丹佛把HAI與Data Science合併,李飛飛昇任校長顧問。這是頂級大學在AI新階段押注「組織力」的全面換擋。剛剛,史丹佛進行了一項重磅重組。5月4日,史丹佛大學宣佈:將旗下兩大AI與資料科學組織——Stanford HAI(以人為本人工智慧研究院)和Stanford Data Science(史丹佛資料科學)合併為一個統一機構,名稱保留Stanford HAI,由電腦科學家James Landay全面掌舵。而那位讓全世界記住ImageNet的女人——李飛飛,則升任校長Jonathan Levin的AI特別顧問,同時與史丹佛前校長、圖靈獎得主John Hennessy共同出任HAI顧問委員會聯席主席。HAI,2019年由李飛飛、前教務長John Etchemendy、NLP大牛Chris Manning和Landay聯合創立。7年間,它集結了超過400位跨學科學者,累計發放6000萬美元研究資助,覆蓋史丹佛全部七個學院。它做出了每年一度的AI Index報告,搞了面向國會議員的「AI訓練營」,還在基礎模型、數字經濟、環境智能等領域建立了多個研究中心。Stanford Data Science,由數學與統計學家Emmanuel Candès領銜建立,專注大規模資料處理,建造了高性能計算叢集Marlowe,並在天體物理、因果推斷、可持續發展、神經科學等領域建立了交叉研究中心。過去,兩個組織各有側重:HAI偏「人文視角+政策影響」,Data Science偏「算力基建+資料方法」。但AI發展到2026年這個節點,問題變了——無論你做天文發現、腦科學建模還是歷史文字挖掘,你都需要同時具備大規模資料能力、高性能算力和AI方法論。把兩套成員拆著跑,效率越來越低。用史丹佛校長Levin的話說,合併後的HAI將是「史丹佛AI的統一入口」。也就是說,以後史丹佛搞AI,不管那個學院、那個方向,都從這一扇門進。李飛飛角色升維作為HAI創始院長和ImageNet的締造者,李飛飛在學術界和產業界的號召力毋庸置疑。但HAI發展到今天,需要的不只是學術聲望,更需要一個能「搞工程、搞協同、搞基建」的操盤手。李飛飛昇任校長AI特別顧問,管的是全校七個學院的AI戰略,格局更大了。她自己說得很明白:AI正在改變的不只是技術,還有我們追求科學發現、學習和教育、服務社會的方式。而接棒的Landay,可能在國內知名度不如李飛飛,但在人機互動(HCI)領域,這是一位教科書級的人物。他在1990年代開發的設計工具SILK,比Figma和Canva早了二十多年;他在2000年代初做的UbiFit項目,比Fitbit和Apple Watch早了近十年。2024年,他拿到了ACM SIGCHI終身研究獎——這是人機互動領域的最高榮譽之一。更關鍵的是,Landay的核心理念和這次合併高度契合。他反覆強調的是「團隊科學(Team Science at Scale)」——不是傳統的五人小實驗室,而是20-30人的跨學科大團隊,包含教授、博士後、研究工程師、資料科學家、項目經理和設計師。這恰恰是AI研究從「個人英雄主義」走向「工業化協同」所需要的組織形態。John Hennessy——這位史丹佛前校長、圖靈獎得主、RISC架構之父、Alphabet董事長——也加入了顧問委員會。他的評價最為直接:這是史丹佛最重要的舉措。新HAI到底要幹什麼?合併後的HAI明確了三大支柱:第一,重新定義大學裡的科學發現方式。史丹佛的天文學家用機器學習搜尋系外行星,神經科學家用模型預測腦活動,歷史學家用NLP挖掘檔案——這些不再是「AI+X」的點綴,而是新的研究範式。HAI要提供算力、研究工程師和資料科學家,讓「團隊科學」真正跑起來。第二,推動教育變革。 從K-12到終身學習,AI正在改變人類學習和被評估的方式。HAI要和史丹佛學習加速器等機構合作,探索適應性輔導系統和新型教育模式。第三,研究和塑造AI的社會影響。 就業怎麼變?組織流程怎麼變?設計方法怎麼從「以使用者為中心」升級到「以社區和社會為中心」?這些問題不能只靠工程師回答。而貫穿這一切的關鍵詞是:開放。開放原始碼、開放資料、開放模型、開放課程。學術界在AI時代的價值史丹佛這次重組,釋放出一個非常清晰的訊號:大學AI競爭的下半場,拼的不再是一篇論文、一個明星教授,而是一整套系統能力——算力、資料、人才、組織力和開放研究生態。過去幾年,前沿AI研究的話語權加速向產業界集中。OpenAI、Google DeepMind、Anthropic手握最強算力和資料,學術界的聲量不斷被壓縮。史丹佛這次的動作,本質上是在回答一個存亡級問題:學術界在AI時代還有沒有不可替代的價值?答案是有的——但前提是你能提供產業界給不了的東西:透明性、可復現性、公共利益導向的長期研究,以及真正跨學科的融合視角。而這些東西,不是靠一兩個超級教授就能實現的,需要從組織架構層面去支撐。李飛飛沒有離開,她只是換了一個更高的位置去看全域。Landay沒有橫空出世,他只是終於站到了與自己三十年積累相匹配的舞台上。Hennessy沒有退休,他只是用另一種方式繼續押注史丹佛最重要的賭注。當產業界拚命卷模型、卷算力、卷融資的時候,史丹佛選擇卷「組織力」——用開放、跨學科、以人為本的方式,重新定義學術界在AI時代的角色。 (新智元)
李飛飛世界模型“殺手鐧”開源!網頁3D大場景秒開,手機暢跑1億點雲
3DGS迎來史詩級升級。智東西4月15日報導,今天,“AI教母”李飛飛的世界模型團隊World Labs開源了動態3D高斯潑濺(3DGS)渲染器Spark 2.0。▲Spark 2.0官宣開源(來源:X)李飛飛本人在該成果發佈的第一時間評論稱:“Spark 2.0現在可以在任意裝置上流式傳輸超過1億個高斯潑濺!能夠為基於網頁的3DGS渲染開源生態做出貢獻,我們感到無比自豪!”▲李飛飛評論(來源:X)Spark系列模型於去年首次發佈,是一個專為網頁建構的動態3D高斯潑濺(3DGS)渲染器。它與網頁端最流行的3D框架THREE.js整合,並利用WebGL2在任意帶有網頁瀏覽器的裝置上運行,包括桌面端、iOS、Android以及VR裝置。與上一版本相比,Spark 2.0新增了一套細節層級(LoD)系統,能夠在任意裝置上流式傳輸並渲染超大規模的3DGS世界。▲在兒童房間裡自由探索,物品細節清晰(來源:World Labs部落格)此外,新版還使用了.RAD的3DGS檔案格式,支援漸進式細化的流式傳輸,而虛擬潑濺分頁系統則通過固定的GPU記憶體分配,實現了對無限潑濺世界的訪問,通俗來講就是可以渲染無限大的3D場景。▲草原中的洞穴小屋,場景轉換無畸變(來源:World Labs部落格)如此流暢連貫的效果是怎麼實現的?針對大規模場景的擴展難題,Spark 2.0運用了3項圖形學與系統底層方案:細節層次最佳化、漸進式流式載入以及虛擬視訊記憶體管理。李飛飛團隊在部落格中,對Spark 2.0背後的三項技術進行了十分詳細的展開,具體如下:01. 採取連續式細節層級穩定渲染百萬級潑濺在電腦圖形學中,處理大型3D場景時常常採用細節層級系統,該系統會根據物體與觀察者之間的距離自動調整渲染的細節程度,不同的細節層級方法介於離散式與連續式之間,形成一個技術譜系。採用離散式細節層級(LoD,Level-of-Detail)時,系統需要為潑濺效果製作多個版本,從精簡到精細依次遞增,再根據各版本的近似邊界與相機的距離,在不同版本間進行切換。Spark的早期系統設計支援離散模式,但其存在明顯缺陷:當使用者在場景中移動、不同版本突然切換時,畫面會出現明顯的跳變;此外,將潑濺效果按區塊分組後,使用者還能看到清晰的邊界痕跡。Spark 2.0的LoD設計採用了一種連續式LoD方法,所有潑濺都存在於一個層級結構中,即LoD潑濺樹。Spark 2.0會沿著樹的一個邊界切割面單獨選取潑濺,從而在視口內最佳化潑濺的細節。▲LoD潑濺樹(來源:World Labs部落格)樹中的每個內部節點都是其子節點的一個低解析度版本,通過將子節點的多個潑濺合併成一個新的潑濺來近似表示子節點潑濺的形狀和顏色。這個過程一直持續到樹的根節點——一個單一的、大的潑濺,它聚合了該物體中所有潑濺的整體形狀和顏色。利用這棵LoD潑濺樹,Spark 2.0會計算出穿過該樹的一個“切片”,從而為當前視口選取最佳的N個潑濺進行渲染。通過設定一個最大潑濺預算N(根據裝置類型不同,通常在50萬到250萬個潑濺之間),系統確保每幀只需渲染恆定數量的潑濺,從而獲得穩定、高影格率的渲染性能。通過上下調整N值,即可在影格率和潑濺細節之間進行權衡。▲公園中的自行車,細節真實,前後一致性強(來源:World Labs部落格)Spark 2.0通過同時遍歷多個LoD潑濺樹實例,對該演算法進行了進一步擴展。與僅從單一根節點開始遍歷不同,針對每個3DGS物體,拓展後的演算法會將其螢幕尺寸及潑濺節點 (dm0,Sm0) 一同加入初始優先佇列,後續流程與原有邏輯保持一致,可在場景中所有3DGS物體上同步篩選需細化的細節層級。這一設計讓大規模組合世界的建立變得簡單高效:只需在空間任意位置加入3DGS LoD物體,Spark 2.0便能自動計算出每幀需渲染的所有LoD潑濺的最優全域子集。02. 設計新型檔案格式大場景3D世界在網頁上秒開Spark2.0定義了一種新的檔案格式.RAD(代表RADiance場),該格式能夠壓縮3DGS資料,並支援隨機訪問流式傳輸,從而在資料通過網路傳輸時實現漸進式細化。目前最常見的兩種3DGS資料檔案格式是.PLY和.SPZ,它們代表了兩種不同的資料編碼方式:行式儲存和列式儲存。.PLY檔案是按行順序儲存的,在接收到資料後立即顯示潑濺,從而實現漸進式載入。但它未經過壓縮,且編碼精度存在浪費。.SPZ檔案將相似類型的資料按列順序儲存在一起,從而獲得了更好的壓縮率。但遺憾的是,它無法實現漸進式載入,因為在任何潑濺獲得其所有屬性之前,必須接收完整的檔案。為實現3DGS資料的高效壓縮與流式傳輸,李飛飛團隊設計了全新的.RAD檔案格式。該格式編解碼簡潔、擴展性強、編碼精度可調節,同時支援隨機訪問。▲.RAD檔案格式(來源:World Labs部落格)檔案結構十分清晰:以RAD0檔案頭開頭,隨後依次為頭部中繼資料長度、中繼資料JSON,以及一個或多個各含6.4萬個潑濺的資料區塊。頭部中繼資料記錄了所有資料區塊的偏移地址與字節大小,支援任意順序讀取資料區塊內容。單個資料區塊也採用相似結構:以RADC塊頭起始,接著是塊中繼資料長度、中繼資料JSON,最後為該6.4萬個潑濺的壓縮資料。潑濺各項屬性按列儲存,可分別選用自訂編碼方式。同類資料集中存放,再通過Gzip壓縮,能獲得出色的壓縮率。頭部採用JSON編碼,可通過版本欄位與新增可選欄位保障後續擴展。資料類型編碼與壓縮演算法均以字串名稱在中繼資料中指定,方便後續擴展新類型。03. 採用虛擬記憶體開闢1600萬潑濺固定視訊記憶體池虛擬記憶體是一項記憶體管理技術,它以固定大小的實體記憶體為基礎,向程序提供大容量的虛擬地址空間,並通過頁表以固定尺寸的頁為單位,完成虛擬地址與實體位址的對應。Spark 2.0將這一思路應用到3DGS渲染中。具體來講,李飛飛團隊在GPU上開闢了一塊可容納1600萬個潑濺的固定視訊記憶體池,自動管理GPU中每6.4萬個潑濺為一頁的“視訊記憶體頁”,與.RAD檔案中對應大小的虛擬資料區塊之間的對應。▲虛擬記憶體(來源:World Labs部落格)資料區塊會按照LoD遍歷順序載入到空閒頁面中;當頁表佔滿,且新資料區塊優先順序更高時,系統會按最近最少使用(LRU)策略淘汰舊資料。Spark 2.0支援同時載入多個.RAD檔案並共用同一張頁表。對每個檔案,系統會記錄資料區塊到頁表的對應,以及頁表到對應檔案與資料的反向對應。在遍歷多棵LoD潑濺樹時,引擎會記錄資料區塊與檔案的訪問順序,形成全域統一的優先順序排序,進而對場景中所有3DGS物體的潑濺載入與儲存進行統一最佳化。04. 結語:Spark 2.0降低空間智能的創作門檻爭奪基礎設施定義權從2025年的首次亮相到今日的2.0版本迭代,Spark的進化軌跡某種程度上也對應著3DGS這一技術的成熟曲線。三維內容的交付長期以來被兩座大山壓著:一是資產太重,動輒GB級的檔案讓網頁端望而卻步;二是渲染太貴,高端GPU才能流暢運行的場景,手機瀏覽器只能圍觀。Spark 2.0通過連續LoD、.RAD格式和虛擬視訊記憶體“三板斧”,讓高品質三維內容像普通圖片和視訊一樣,在網際網路上自由流動、即點即看。李飛飛團隊選擇將該技術開源,降低了空間智能的創作門檻,同樣也是在爭奪下一代空間內容基礎設施的定義權。 (智東西)
李飛飛團隊新作:簡單調整生成順序,大幅提升像素級圖像生成質量
長期以來,AI生圖被一個經典矛盾困擾。潛空間模型效率高,但細節有損耗;像素空間模型保真度高,卻容易結構混亂、速度慢。要麼快要沒準,大家幾乎默認這是架構帶來的取捨問題,沒法徹底解決。但擴散模型生圖,順序真的對嗎?李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識,他們發現生成的質量瓶頸不在架構,而在順序。簡單說就像畫畫必須先打草稿再填色,AI也需要一個「先定結構、後填細節」的強制邏輯。Latent Forcing僅通過重排生成軌跡,像素擴散模型不僅找回了效率,更在多項指標上刷新SOTA。傳統方法瓶頸在深入瞭解Latent Forcing之前,咱先來說說當前兩大方法的瓶頸。傳統像素級擴散模型之所以畫圖會畫歪,是因為它在降噪過程中,高頻的紋理細節往往會干擾低頻的語義結構。模型常常在還沒搞清楚物體的整體輪廓時,就被迫去預測局部的像素顏色,其實這在本質上就違背了視覺生成的自然邏輯。為瞭解決這個問題,行業此前大多轉向潛空間。它通過預訓練的tokenizer把圖像壓到低維空間,生成速度飛起。但潛空間模型必須依賴一個預訓練的解碼器,但這不僅會引入重建誤差,也讓模型失去了端到端建模原始資料的能力。於是李飛飛團隊思考——能不能既保留像素級的無損精度,又獲得潛空間的結構引導?先打個草稿Latent Forcing的答案是——對擴散軌跡重新排序。怎麼做的呢?在不改變基礎Transformer架構的前提下,引入了雙時間變數機制。在訓練和生成過程中,模型會同時處理像素和潛變數。不同的是,團隊為兩者定製了獨立的降噪節奏:潛變數先行:在生成初期,潛變數會率先完成降噪,在大尺度上確立圖像的語義骨架;像素填色:在結構確定後,像素部分再跟進進行精細化降噪。這麼一看,潛變數就像是一個臨時的草稿本。生成結束時,這個草稿本直接丟棄,最終輸出仍是100%無損的原始像素圖像,沒有任何decoder。整個過程端到端、可擴展,幾乎不增加計算量(token數量不變,速度接近原生DiT)。這種先latent後pixel的細微調整,在ImageNet榜單上展現了出色的表現。在相同計算規模,訓練80個epochs的條件下,Latent Forcing在ImageNet-256任務中,條件生成的FID分數較此前最強的像素級模型JiT+REPA,從18.60降到9.76,接近腰斬。在200個epoch的最終模型(ViT‑L 規模)下,Latent Forcing實現了條件生成FID 2.48(guided)、無條件生成FID 7.2(unguided)的分數。創下像素空間擴散Transformer新的SOTA。過去學術界普遍認為,必須通過更高倍率的失真壓縮才能換取好的FID表現。Latent Forcing則用資料反駁了這一觀點——在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。Latent Forcing項目由李飛飛領銜。第一作者Alan Baade是李飛飛的學生,史丹佛電腦系博士生,在擴散模型和生成建模方向有深入研究。其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。此外,密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)
速看!李飛飛最新訪談實錄:AI的終點不是寫程式碼,而是人類的尊嚴
在生命進化的漫長長河裡,“看見”世界比“談論”世界早了整整5億年。如今,AI正在補上這一課。這句充滿進化論智慧的判斷,正是李飛飛對當下AI浪潮的最新註解。在充斥著浮躁與噪音的矽谷,她的聲音始終代表著一種冷靜的遠見。台北時間2月4日凌晨,這位公認的“AI教母”帶著初創公司World Labs現身思科年度AI峰會(Cisco AI Summit)。作為曾經引爆電腦視覺革命的科學家,她沒有隨波逐流於大模型的語言遊戲,而是將目光投向了AI進化的下一塊拼圖:空間智能(Spatial Intelligence)。她認為,AI的下一個巔峰,不只是會寫程式碼和聊天,而是像生物一樣,真實理解並互動我們所處的這個三維空間。而超越技術維度之外,她更為AI的未來立下了一把人文標尺:“AI的成功,應當體現為文明的進步,讓每個個體都能由此追求幸福、繁榮和尊嚴。”以下是本次精彩訪談的解析,為你拆解“空間智能”將如何重塑我們的未來。01 進化論的啟示:感知先於語言很多人認為AI的終極形式是語言模型,但李飛飛提出了一個有趣的視角:從進化論來看,語言其實是“後來者”。她舉例說,在5億多年前的寒武紀,生命體最先發育出的並不是語言,而是感知系統。動物通過觸覺和視覺觀察環境,才開啟了那場讓生命變得更聰明的“進化軍備競賽”。李飛飛認為,“理解、推理並與3D物理世界互動的能力,與語言智能一樣,都是最基礎的底層能力。它是AI的下一個前沿。”這也是World Labs的核心邏輯:如果AI不能像人一樣理解空間,它就永遠無法真正進入現實物理世界。02 什麼是Marble? 它不只是視訊,而是一個“世界”訪談中,李飛飛詳細介紹了World Labs的第一代模型:Marble。很多人將其與Sora等視訊生成模型混淆,但李飛飛指出,二者有著本質區別。Marble是一種真正意義上的“世界模型”:·全場景互動:它能根據文字或圖片提示,生成一個完整的、可導航的、可互動的3D世界。·物理一致性:它具有幾何結構,不是一段“看起來像”的視訊,而是一個在物理邏輯上始終保持一致的空間。這意味著,它不僅能用來做遊戲,更能直接成為機器人訓練的“虛擬實驗室”。03 意想不到的用例:從機器人到心理治療空間智能的應用邊界在那裡?李飛飛給出的答案超出了很多人的想像:·遊戲與影視:開發者可以用它快速建構可穿行的虛擬世界,特效團隊能進行虛擬製片。·機器人訓練:與輝達等夥伴合作,為機器人提供高精度的模擬環境。·建築設計:設計師能瞬間將平面圖轉化為可步入的3D樣板間。最令人稱奇的是醫療科研。心理學家正利用Marble為強迫症(OCD)患者定製個性化的沉浸式環境,通過模擬特定觸發場景來進行科學干預。04 資料與算力:我們離通用機器人還有多遠?當被問及Marble是否像GPT-5那樣燒錢時,李飛飛顯得很坦誠。目前,Marble的訓練規模比頂級大語言模型要小幾個數量級。這一方面是因為這個領域尚處於“規模定律(Scaling Law)”的早期,另一方面也面臨著資料獲取的挑戰。李飛飛坦言,不同於網際網路上隨處可見的文字,高品質的3D物理資料非常稀缺。她透露,World Labs當下採用一種混合資料策略,綜合利用網際網路級的圖文視訊、模擬資料以及類似自動駕駛公司的“實景捕獲”資料。關於通用機器人,李飛飛也潑了一盆冷水:“汽車只是在二維平面上移動、儘量不去碰東西的‘方盒子’。但通用機器人要在三維空間裡完成靈活、精準的抓取和互動。這是一個極高維度的難題,我們不能亂開空頭支票。”05 拒絕“技術末日論”:AI的成功應關乎尊嚴作為AI領域的領軍人物,李飛飛對當下的兩極分化言論感到擔憂。“技術烏托邦”和“末日生存危機”在她看來都不夠負責任。她強調,技術是雙刃劍,人類必鬚髮揮主觀能動性去引導它。那麼,AI最終的成功標誌是什麼?李飛飛借用了“電力”的類比:電力的成功不在於電線本身,而在於它點亮了學校、溫暖了家庭、延長了人類壽命。“AI的成功,也應當體現在文明的進步,讓每個人都能追求幸福、繁榮和尊嚴。”06 結語從理解像素到建構世界,李飛飛正帶領團隊在空間智能的無人區探索。這不僅是技術的跨越,更是人類試圖賦予數字生命“感知力”的又一次嘗試。空間智能,或許就是我們通往AGI的那把“物理鑰匙”。(以下為發言實錄)主持人:好的。接下來,我們要聊聊3D模型,而不僅僅是語言模型。今天,我們有幸請到了被譽為“AI教母”的李飛飛博士。很榮幸,我們也是飛飛博士公司的投資者。讓我們用掌聲歡迎李飛飛博士上台。我今天該穿上World Labs的周邊T恤的,你之前送過我,真的很有心。李飛飛:是啊,我可還等著思科的周邊呢。主持人:沒問題,我們馬上安排。感謝你來到這裡。看到World Labs在過去一年取得的進展,真的令人欣喜。飛飛,先跟我們聊聊你們目前在做什麼,以及為什麼這件事如此重要?李飛飛:好。現在我每天醒來,腦子裡其實只在想一件事:空間智能(Spatial Intelligence)。這就是我大約兩年前和一群年輕的技術專家共同創辦的公司:World Labs的核心。如果從進化論的角度來看,在5億多年前,最先開啟神經系統發育的並不是語言,而是感知。早在語言出現之前,動物就開始通過觸覺和視覺感知光線、接觸環境。主持人:那你認為“本能”也屬於感知的範疇嗎?李飛飛:對我來說,“本能”是一個比較虛泛的詞。但從物理進化上講,正是視覺開啟了進化史上的“軍備競賽”,讓動物變得更加活躍和聰明。理解、推理、互動並在真實的3D/4D物理世界中穿行的能力,與語言智能一樣,都是最基礎的底層能力。而其中的關鍵技術就是“空間智能”,這是AI的下一個前沿陣地。主持人:聊聊Marble吧。前陣子剛發佈的Marble到底是什麼?李飛飛:Marble是我們的第一代空間智能模型。我們私下管它叫“世界模型”。它能接收多模態輸入:無論是文字、圖片、視訊,還是簡單的3D輸入,然後根據這些提示詞,生成一個可以完全穿行、即時互動、且具有永久一致性的3D世界。這與目前的視訊模型截然不同,它擁有完整的幾何結構,可以支撐機器人模擬訓練或遊戲程式設計。主持人:有一種觀點認為,如果不增強AI的物理特性,我們就無法實現通用人工智慧(AGI)。隨著時間的推移,這裡面最大的“突破口”會是什麼?除了機器人領域,五年後我們還能用它做什麼?李飛飛:其實都不用等五年。現在就已經有使用者在用Marble開發遊戲了,影視特效(VFX)客戶也用它進行虛擬製片。我們正與輝達以及一些初創公司合作,將Marble作為機器人的訓練環境。建築師和設計師用它做室內設計。還有一個令我意外的用例是臨床研究:心理健康研究人員利用它為強迫症(OCD)患者建立沉浸式的個性化環境,來模擬特定的觸發場景。主持人:你把整個人生都奉獻給了AI。在創辦這家公司、研究空間智能的過程中,最讓你感到驚訝的是什麼?李飛飛:過去幾年的發展速度簡直令人窒息。每個人都會感到焦慮,覺得“要讀的東西太多,發佈的模型太快”。這讓我時刻保持謙遜,意識到自己所知甚少。另一件讓我擔憂的事是那些極度兩極分化的言論:要麼是技術烏托邦主義,要麼是“生存危機”之類的末日論。這兩種觀點其實都不太負責任。技術是一把雙刃劍,我們必鬚髮揮主觀能動性,引導它走向善意化和精細化的應用。主持人:在你看來,未來幾年AI的成功標準是什麼?李飛飛:回看電力技術,它的成功在於點亮了學校、溫暖了家庭、推動了工業化,並延長了人類的壽命。AI的成功標誌應該是:文明因它而進步,每個個體都能由此追求幸福、繁榮和尊嚴。主持人:大型世界模型的計算量和語言模型一樣大嗎?李飛飛:目前,我們的模型規模還沒有最大的大語言模型(LLM)那麼大。GPT-5的訓練算力可能在10^26 FLOPS左右,而Marble要小幾個數量級。部分原因是這個領域還很新:Transformer論文發佈於2017年,而世界模型才剛剛開始進入Scaling Law的上升曲線。主持人:語言模型是用網際網路上的免費資料訓練的。但物理資料很難獲取,所以合成資料變得至關重要。資料的匱乏會減慢世界模型的發展嗎?另外,未來我們會擁有通用機器人,還是專用機器人?李飛飛:我們採取的是混合資料策略。語言資料相對幹淨且易於觀察,但像素和體素(Voxel)構成的物理世界則複雜得多。我們利用網際網路規模的文字、圖像和視訊,但也需要模擬資料和“現實世界捕獲”資料,這與特斯拉或Waymo等自動駕駛公司的做法類似。關於機器人:作為科學家,我不喜歡亂開空頭支票。汽車可以看作是一個在二維平面上移動的“方盒子機器人”,它的主要目標是避開障礙物。而通用機器人是一個三維實體,它必須觸碰並與物體互動,且不能損壞它們。這是一個維度高得多的問題,涉及極高的靈活性和空間精準度。主持人:在最後的一分鐘裡,企業端應該如何看待世界模型?李飛飛:空間智能是一項橫向通用技術。除了機器人和遊戲,它還可以應用於醫療、教育、外勤服務、金融服務、農業、製造業和城市規劃。它是下一個前沿領域,我邀請大家共同來探索這個課題。主持人:非常感謝。李飛飛:謝謝。 (網易科技)
世界模型教父教母創業,公司估值加起來近百億美元
AI 時代,獨角獸已經不稀奇了,但世界模型這塊還是有所空缺的。從估值的變化上來看,李飛飛的World Labs,最有可能成為全球首個世界模型獨角獸公司。根據報導,World Labs的估值已經突破了50億美元,並且擬融資5億美元。而2024年9月的時候,這家公司才以10億美元估值完成2.3億美元融資,正式在公眾面前亮相。從結果上來看,從登場到50億美元估值,李飛飛僅用了16個月的時間。這個速度有多快?OpenAI從2015年成立,到 2019年微軟首次投資,此時他們的估值也只有10億美元。最接近World Labs速度的可能是Anthropic,但也花了25個月。如果說李飛飛是世界模型教母,那麼楊立昆可以說是世界模型教父。2025年12月,楊立昆在LinkedIn上確認離開Meta,結束了他在這家公司長達12年的職業生涯。楊立昆創立的新公司名為Advanced Machine Intelligence Labs,總部設在巴黎。AMI Labs正在尋求以30至35億歐元估值融資5億歐元。不過,這兩家企業高估值背後,並非對世界模型這一技術的吹捧,而是實打實的技術落地和商業化。何為World Labs?World Labs的投資方陣容包括Andreessen Horowitz、NEA、Radical Ventures(李飛飛本人是Radical Ventures的科學合夥人)、輝達風投部門、沙烏地阿拉伯Sanabil Investments和新加坡淡馬錫。天使投資人包括GoogleDeepMind首席科學家傑夫·迪恩(Jeff Dean),以及圖靈獎得主傑佛瑞·辛頓(Geoffrey Hinton)。World Labs的核心技術理念叫做空間智能,這是一種“升維”的概念。目前的頂尖AI雖然看起來很聰明,但它們本質上是“二維”的。它們只是處理文字序列或者像素排列,它們並不理解體積、有重量、受重力影響的實體。World Labs的空間智能技術,就是要賦予AI“對三維世界的認知能力”。以生成視訊為例,空間智能是直接生成一個具有三維結構、且符合物理規律的虛擬環境,然後再在這個環境裡去模擬要生成的實體。實體不僅有長寬高,還有材質和物理反饋。在傳統的AI訓練中,模型學習的是像素之間的機率關聯,比如藍天下面通常是綠地,綠地旁邊通常是小溪。但World Labs的世界模型則是基於三維幾何與物理模擬的原理進行訓練的。它在學習資料的過程中,得到的不僅僅是圖像的紋理,還有圖像背後的空間幾何資訊(比如深度、遮擋關係、透視角度)以及物理動力學規則(比如剛體如何碰撞、流體如何流動、光線如何反射)。2025年11月,World Labs推出首款商業產品Marble,這是一個能夠從文字、圖像、視訊或粗略3D佈局生成持久化3D世界的模型。Marble的技術底層採用神經輻射場(NeRF)和高斯點雲(3D Gaussian Splatting)技術,而非傳統的多邊形網格。神經輻射場是一種利用神經網路表示三維場景的技術,它將場景表示為連續的體積函數,輸入三維空間坐標和觀察方向,輸出該點的顏色和體積密度。這種方法通過多層感知機學習場景的幾何和光照資訊,然後通過體積渲染生成逼真的新視角圖像。相當於在相同場景內,從每一個角度對實體進行拍攝,這樣生成實體以後,使用者從那個角度看都符合物理規律。高斯點雲則是另一種三維表示方法,它用數百萬個帶有位置、大小、形狀、顏色和透明度屬性的高斯橢球體來表示場景,渲染速度比神經輻射場快得多,同時保持了高品質的視覺效果。類似於樂高,通過小積木塊最終搭建成完整的實體。這使其能夠生成連續的輻射場,包含空間理解、光照和深度資訊的完整環境,而不是簡單地組裝多邊形。在2026年CES大會上,李飛飛在AMD CEO蘇姿丰的主題演講中展示了Marble的能力。李飛飛說:“將少數圖片變成連貫、即時的世界,不再是對遙遠未來的一瞥,而是下一章的開始。AI 正在給人們的生活帶來一些改變,將少數圖片或照片轉化為一個即時可探索的世界。空間智能需要極致算力支援,才能實現可互動級影格率和無限持久的世界互動。”World Labs採用免費增值模式,免費版提供4次生成,20 美元每月可獲得更多生成次數,最高95美元每月提供75次生成和商業使用權。目標客戶包括遊戲開發者、影視特效製作、虛擬現實應用。而且Marble還支援蘋果Vision Pro和Quest 3 VR頭顯,每個生成的世界都可以在VR中查看。更重要的是,Marble可以匯出與Unreal Engine和Unity相容的格式,這意味著它可以無縫整合到現有的遊戲開發流程中。李飛飛曾在訪談中表示,這項技術可能顛覆Unity和Epic Games的Unreal Engine等傳統遊戲引擎。除了AIGC產業,World Labs還瞄準機器人訓練市場,通過模擬環境訓練機器人的自主導航軟體。世界模型可以為機器人提供一個安全的虛擬訓練場,讓它們在數字空間中學習物理互動、因果關係和長期規劃,然後再應用到真實世界。AMI Labs的技術優勢是什麼?但AMI Labs不像李飛飛的World Labs那樣擁有實際的產品,目前還只停留在技術概念階段。潛在投資方包括Cathay Innovation、Greycroft、Hiro Capital(楊立昆是Hiro Capital的顧問)、20VC、法國公共投資銀行Bpifrance、Daphni和HV Capital。要注意,楊立昆在AMI Labs裡擔任的是執行主席而非CEO。該公司CEO職位由亞歷克斯·勒布朗(Alex LeBrun)擔任,他是醫療AI初創公司Nabla的聯合創始人兼前CEO。LeBrun的前一家公司Wit.ai被Meta收購後,他曾在FAIR直接向楊立昆匯報。團隊還包括Meta歐洲副總裁勞倫特·索利(Laurent Solly),他於2025年12月離職加入AMI。不僅如此,AMI Labs有法國總統親自背書。法國總統馬克宏對楊立昆選擇巴黎表示自豪,承諾將盡一切努力確保他從法國取得成功。AMI Labs的核心技術是楊立昆多年倡導的聯合嵌入預測架構(JEPA,Joint Embedding Predictive Architecture)。以往的AI,都是逐token生成輸出的,然而聯合嵌入預測架構能一口氣直接以抽象表示的形式來建立世界,能夠更好地預測未來狀態。聯合嵌入預測架構的工作原理是,它不預測原始像素或token,而是預測高層次的嵌入表示。系統有兩個編碼器,一個處理上下文資訊,另一個處理目標資訊,還有一個預測器在嵌入空間中進行預測。這種方法避免了生成模型的一個關鍵問題,生成模型必須預測每一個像素或token,包括那些不可預測的隨機細節,而聯合嵌入預測架構只關注可預測的高層次特徵,忽略無關緊要的細節。楊立昆在哈佛演講中解釋,這類系統通過在嵌入空間中進行最佳化來實現規劃和推理。AMI Labs公司將推進AI研究並開發可靠性、可控性和安全性真正重要的應用,特別是工業過程控制、自動化、可穿戴裝置、機器人、醫療保健等領域。AMI Labs的第一個應用將是醫療保健。具體來講,AMI Labs通過與Nabla合作,開發臨床護理AI助手。截止發稿,這個AI助手已獲得了1.2億美元融資,預計兩年內達到1億美元年度訂閱收入。作為交易的一部分,Nabla獲得AMI世界模型的特權訪問權,而亞歷克斯從CEO轉為首席AI科學家兼董事長。亞歷克斯表示,他加入AMI的一個重要原因是將世界模型應用於醫療保健的前景,因為醫療保健的複雜性和高風險性使其成為測試世界模型的理想場景。FDA認證要求確定性、可解釋的推理,這正是LLM無法提供而世界模型承諾實現的。大語言模型存在幻覺問題,在醫療場景中可能導致嚴重後果,而世界模型通過建立對患者生理狀態的內部模擬,可以預測疾病進展,提供更可靠的決策支援。2026年1月,楊立昆還加入了另一家初創公司Logical Intelligence,擔任技術研究委員會創始主席。這家公司推出了名為Kona 1.0的能量基礎推理模型,通過對約束條件評分來驗證和最佳化解決方案,尋找最低能量也就是最一致的結果。這種非自回歸模型也和AMI Labs的聯合嵌入預測架構相似,能夠一口氣生成完整的推理軌跡。能量基礎模型是一類通過能量函數來定義機率分佈的模型。在這個框架中,每個可能的輸出都被賦予一個能量值,能量越低表示該輸出越符合約束條件。模型通過最佳化過程尋找能量最小的解決方案。這種方法的優勢在於可以同時考慮多個約束條件,並且可以進行全域最佳化,而不是像自回歸模型那樣只能做局部決策。楊立昆表示,AGI的最終狀態不會來自單一模型類別,而需要能量基礎模型、LLM、世界模型等組成的相互依存的生態系統。都是世界模型,兩家又有什麼不同?雖然李飛飛和楊立昆都在建構世界模型,但技術路線存在根本差異。由於技術還處於早期,World Labs的Marble本質上還是傳統的生成式AI方法。它確實能生成3D世界,但這些世界本身還不具備物理知識。World Labs聯合創始人在採訪中表示,Marble生成的羅馬拱門並不知道如果移除一塊磚,其他磚可能會掉落。它只是學會了羅馬拱門在視覺上應該是什麼樣子,而不是理解支撐它的物理原理。這種方法在創意內容生成方面表現出色,可以快速產出視覺上令人信服的場景,但缺乏對因果關係的深層理解。相比之下,因為楊立昆的聯合嵌入預測架構能夠直接生成完整的結果,它就能夠表示出來這裡面的因果關係。但是在市場方面,World Labs已經獲得了早期客戶。World Labs透露已有多家組織採用了Marble API。這種先發優勢使其在融資談判中佔據有利位置。World Labs明確瞄準創意產業,這些市場已經存在,客戶有明確的痛點,3D 內容製作成本高、周期長,Marble提供了立竿見影的價值。遊戲開發者可以用Marble快速生成背景環境,然後在Unity或Unreal Engine中加入互動邏輯。影視製作團隊可以用它進行虛擬場景預覽,大幅縮短前期製作時間。從商業角度看,World Labs的策略更加務實。它選擇了一個已經存在的市場,提供了一個可以立即使用的產品,並且建立了清晰的商業模式。AMI Labs有點超前,它押注於一個尚未成熟的市場,追求技術突破,給這片全新的市場帶來需求。這種方法風險更高,但如果成功,回報也會更大。李飛飛的World Labs紮根矽谷,投資方以美國VC為主,雖然也包括沙烏地阿拉伯和新加坡主權基金。這使其能夠充分利用矽谷的人才、資本和客戶網路。反觀楊立昆,他選擇巴黎作為總部,這不僅是個人偏好,更是戰略選擇。歐盟正在建立AI主權,減少對美國科技巨頭的依賴。AMI Labs獲得法國政府的高調支援,可能在歐洲監管環境中獲得優勢,特別是在醫療保健等高度監管的領域。兩家公司的人才策略也有所不同。World Labs主要招募的是大量電腦視覺和圖形學背景的研究者,這些人擅長處理視覺資料和渲染問題。AMI Labs方面則更傾向於招募有機器學習理論和物理建模背景的研究者,這些人更關注模型的數學基礎和泛化能力。李飛飛相信通過大規模資料和計算,可以讓模型學會對空間的隱式理解,即使它不明確建模物理規律。這種方法在電腦視覺領域已經被證明有效,ImageNet項目就是最好的例證。楊立昆則堅持認為,真正的智能需要顯式的世界模型,需要理解因果關係而不僅僅是相關性。他多年來一直批評純粹的生成式方法,認為它們無法達到人類水平的推理能力。所以看下來,雖然兩個人的技術完全不同,然而實際上,這兩條路之間好像也沒有那麼水火不相容。事實上,它們可能最終會融合。World Labs的生成能力可以為楊立昆的因果模型提供豐富的訓練資料,而聯合嵌入預測架構的推理能力可以增強Marble的物理一致性。AI的未來可能不是選擇其中一條路,而是找到兩者的最佳結合點。無論那條路徑最終勝出,世界模型都代表了AI從理解語言到理解物理世界的重要轉變。它意味著我們不再滿足於讓AI模仿人類的語言能力,而是要讓它理解什麼才叫客觀規律。 (新浪科技)
“AI教母”李飛飛,尋求新一輪融資
據知情人士透露,“AI教母”李飛飛目前正與投資者展開新一輪洽談,計畫為其人工智慧初創公司World Labs籌集數億美元資金。據知情人士透露,“AI教母”李飛飛目前正與投資者展開新一輪洽談,計畫為其人工智慧初創公司World Labs籌集數億美元資金。據悉,該公司最新估值有望達到約50億美元。這一新估值對World Labs來說將是一個巨大的飛躍——該公司於2024年首度亮相時曾獲得了2.3億美元融資,當時估值僅為10億美元。其現有投資者包括了風投公司Andreessen Horowitz、NEA和Radical Ventures(李飛飛在該公司擔任科學合夥人),輝達的風險投資部門也對該公司進行了投資。業內人士透露,本輪融資預計將為World Labs帶來約5億美元資金注入。但他們同時指出,交易尚未最終敲定,細節仍可能調整。目前,World Labs正致力於開發能夠在三維世界中導航並作出決策的AI工具,建構其所謂的“大世界模型”。去年11月,World Labs推出了其首款世界模型產品Marble,並將其描述為一款可以根據圖像或文字提示建立3D世界的模型。在商業模式上,該產品採用免費增值與付費訂閱結合的模式,旨在快速推向市場並建立使用者基礎。許多正在尋找下一個重大技術突破的AI投資者,當前也正積極探索能夠超越驅動ChatGPT等文字聊天機器人的大語言模型(LLM)的技術,這導致了投資人對世界模型等尚不成熟領域的興趣激增。本周早些時候的消息顯示,“AI教父”楊立昆的世界模型初創公司AMI Labs在一輪融資中也吸引了包括Cathay Innovation在內的潛在支持者,該輪融資可能使這位前Meta首席人工智慧科學家的公司估值達到35億美元。被譽為“AI教母”的李飛飛,因其在2006年領導具有歷史意義的ImageNet項目而聞名。這個包含超過1500萬張圖像的可視化資料庫,能幫助電腦像人類一樣“觀察”世界,並為一波AI發展浪潮打開了大門。除創業工作外,李飛飛目前還是史丹佛大學教授,也是史丹佛“以人為本”人工智慧研究院的創始聯席院長。World Labs的其他機構投資者目前還包括沙烏地阿拉伯投資公司Sanabil和新加坡國有投資機構淡馬錫控股。World Labs在2024年融資輪的個人投資者,則涵蓋了GoogleDeepMind首席科學家Jeff Dean、演員兼投資人Ashton Kutcher,以及因推進機器學習領域工作而聞名的前GoogleAI研究員Geoffrey Hinton。李飛飛去年12月曾表示,她在為自己的科技初創公司招聘軟體工程師時,更看重候選人的AI技能,而非大學學位。她不會錄用那些不願擁抱AI工具的軟體工程師。 (科創板日報)
和馬斯克、黃仁勳一起入選2025年度人物,李飛飛憑什麼?
“如果有一天我去領取諾貝爾獎,我一定要以中國人的身份”你敢相信嗎,說出這句話的這個女人,16歲才開始系統學英語,17歲還在美國中餐館後廚刷盤子。卻在不久前,登上《時代》雜誌2025年度人物封面,和馬斯克、黃仁勳、奧特曼等科技大佬一起被評為“人工智慧的締造者”。她叫李飛飛,一位華裔女性科學家。在人人都不看好人工智慧的年代,她僅靠兩人團隊,不到三年就搞定了業內公認“20年不吃不喝才能完成”的壯舉:建立ImageNet,一個包含1500萬張標註圖像、覆蓋2.2萬個類別的視覺資料庫,沒有它,就沒有今天的AI浪潮。黃仁勳解決了算力,辛頓解決了演算法,而李飛飛提供了資料集,給了AI一雙“看見世界的眼睛”。李飛飛的故事,是一場硬生生砸開AI世界大門的突圍。她闖入的,不僅是一個由男性主導的科技領域,更是一個長期被西方話語壟斷的學術世界。2006年,她拒絕了麥肯錫開出的天價offer,一頭紮進當時“冷門中的冷門”領域:電腦視覺。那時沒人相信,機器人能“看懂”世界。光是識別一條狗,全球就有1400多種,體型、毛色、姿態千差萬別,真要較真起來,簡直是“子子孫孫無窮無盡”。同行勸她換賽道,這樣拉不到經費,更評不上教授。她在自傳中寫道:“我聽到的勸阻之聲,已經夠用一輩子了,可能下輩子也夠了。”但她有一種前所未有的自信——她們正在做一件歷史性的大事。沒人投資?她自掏腰包。沒人看好?她拉來一位學生助理,組成兩人小團隊。然而現實遠比理想殘酷。研究停滯不前,連她導師的導師吉滕德拉也勸她:別太超前。身為亞裔女性,在白人男性主導的學術圈裡,她承受著雙重偏見。那是她的至暗時刻:財務岌岌可危,團隊隨時散夥。但她沒有退縮。為了建構高品質資料集,她從網上下載近10億張圖片,通過亞馬遜眾包平台,動員近5萬名志願者,篩選、整理、打標籤……短短三年,ImageNet誕生了!機器能像人一樣“看世界”的科幻,第一次變成現實。靠著ImageNet,默默無名的辛頓驗證了神經網路演算法的有效性,一躍成為“AI教父”,徹底引爆AI浪潮。黃仁勳解決算力,辛頓突破演算法,李飛飛提供資料——三要素齊備,人工智慧時代起飛!那個曾受盡白眼的女人,也成了今天的“AI教母”。33歲,她成為史丹佛最年輕的終身教授;2021年,45歲的她當選美國“三院院士”,成為極少數獲此殊榮的華裔女性;2025年11月,她與黃仁勳、辛頓共獲“工程界諾貝爾獎”——伊麗莎白女王工程獎,她是唯一女性。而今年《時代》封面的設計耐人尋味:李飛飛只露出半個身子,祖克柏身旁卻空出半席。是邊緣化?被忽視?都不是。這是一種無聲的宣告——在AI的下半場,她的探索,或許正定義著未來的方向。當全世界都在狂捲大語言模型時,她反問:AI真的理解世界嗎?一個只會處理文字的AI,那怕能寫詩、程式設計、辯論,也只是“黑暗中的文豪”——它看不見杯子為何會摔碎,不懂人如何行走、抓取、互動。這樣的AI,無法真正落地。於是2024年,她創立新公司World Labs(估值已破10億美元),全力投入“空間智能”研究。目標是建構“世界模型”——讓機器人從執行者變成思考者,在行動前就能推演:“如果我往前跑,這個花瓶會碎嗎?我要繞行。”“地上有水,我會滑倒嗎?我要擦乾。”一旦成功,機器人走進家庭,就不再是幻想。這比堆參數難得多,卻是通向通用人工智慧的關鍵一步。有人翻遍她的履歷,找不出一絲瑕疵,便拿國籍說事。但很多人不知道——早在2001年,李飛飛就堅定地說:“如果有一天我去領取諾貝爾獎,我一定要以中國人的身份。”在普林斯頓,她牽頭舉辦“南京大屠殺”國際會議,邀請全球300多名學者參與,耗時數年將資料編纂成書。她只有一個信念:“我不能讓世界忘記這段歷史。”在Google擔任副總裁時,她力排眾議,推動GoogleAI中國中心在北京成立——這是Google在亞洲設立的第一個AI研究中心。從刷盤子的少女,到AI時代的奠基人,李飛飛的故事,不是天賦異稟的神話,而是一個普通人,用不信命的倔強,在偏見、質疑、孤獨中,一步步鑿穿天花板的史詩。她證明了:女性可以站在科技之巔,華人可以定義未來方向。 (星海情報局)
【CES 2026】黃仁勳與李飛飛,讓AI不止於“動嘴”
在最新的CES 2026上,輝達(NVIDIA)首席執行長黃仁勳發表了主題演講。這次發佈會被業界視為從“生成式AI”轉向“物理AI”與“推理型AI”的歷史性節點。在本地發佈會上,黃仁勳宣佈Vera Rubin平台全面量產:作為Blackwell 的繼任者,Rubin架構正式亮相併宣佈已進入全面投產階段,預計2026年下半年交付。其推理性能是前一代Blackwell的5倍,訓練性能是Blackwell的3.5倍,生成AI Token的成本直接降低至原來的1/10。最關鍵的是,黃仁勳在演講中強調,AI的下個階段是物理AI,不僅要懂語言,也要懂物理世界,並行布了三款平台或應用模型:1. Cosmos物理AI平台:輝達發佈了Cosmos系列基礎模型(包括 Reason2、Predict2.5等)。它能通過視訊和遙測資料學習物理規律,在虛擬的 Omniverse 空間中生成大規模合成資料。這意味著 AI 不再只是“猜下一個詞”,而是能理解重力、碰撞和物體的物理屬性。2. Alpamayo推理型智駕模型:這是首個具備“思考”能力的自動駕駛模型。它不再僅僅依賴預設規則,而是能像人類一樣對複雜長尾場景進行邏輯推理。黃仁勳宣佈,首款搭載該全端系統的梅賽德斯-奔馳CLA將於 2026 年第一季度在美上路。3. Project GR00T 進階:黃仁勳現場展示了十余台人形機器人。輝達的目標是成為通用機器人的“Android”,通過提供 Isaac 平台和開源模型,降低機器人研發門檻。這些都意味著,物理AI迎來了“ChatGPT”時刻,當AI能夠理解物理世界並具備推理能力時,具身智能(Embodied AI)將迎來爆發,機器人可能將像智慧型手機一樣普及。而Alpamayo則意味著智駕有了一條新路。過去自動駕駛依賴於海量資料“喂養”,而現在通過推理模型,車輛可以處理從未見過的極端情況。這標誌著全自動駕駛真正具備了商用落地的可能性。此外,黃仁勳在會上多次點名表揚了包括中國DeepSeek R1在內的開源模型。他認為開源模型與閉源模型的差距正在縮短,輝達通過開源 Alpamayo和Cosmos平台,試圖建構一個由其晶片驅動的全球開放生態。2026年的輝達已經不再只是一家晶片公司,它正試圖通過整合Rubin硬體、Cosmos物理大腦和Alpamayo推理系統,定義未來十年“物理智能”的底座。輝達的物理AI,和李飛飛的“世界模型”有什麼聯絡?一些朋友可能會問,輝達的物理AI和李飛飛提出的世界模型有什麼關係?是一樣的原理嗎?是否是競爭對手?我個人認為,他們在底層邏輯上是同源的,但在實現路徑和商業生態位上有不同。他們都認為,AI必須從“文字的符號世界”進化到“三維的物理世界”。李飛飛的World Lab目的應該是建立一套理解現實世界的模型架構,兼具學術與實用目的,而輝達的目的是實現物理AI世界的作業系統。World Lab應該更聚焦在演算法突破,而輝達則聚焦在建立開源標準和打造工具鏈。它們會競爭“物理AI”的定義權,但在硬體上也有合作與互補的一面,畢竟輝達有晶片和開源系統。相比李飛飛更偏學術和通用性的“世界模型”,輝達在2026CES發佈的Cosmos和Alpamayo更偏工程落地。總之,一個偏抽象化,讓AI看懂世界,另外一個偏具象化,教AI開始玩轉世界。但他們的目標,都想要AI落地現實世界,而不僅是動嘴,只是從產學研不同角度切入。比起競爭,更重要的是,物理AI正在把世界模型從“AI的一種研究方向”,升級為“下一代AI的核心基礎設施”。未來人類除了靠自己,還會有更厲害的幫手,而決定一切的方向,也是在人類手中。 (首席商業評論)