世界模型:下一場 AI 革命的起點。簡介李飛飛是全球頂尖人工智慧科學家,被譽為“現代AI之母”。她不僅是ImageNet資料集的牽頭建立者(該資料集直接推動 AI 走出 “寒冬”,催生深度學習革命),還曾擔任Google雲首席 AI 科學家、史丹佛人工智慧實驗室(SAIL)主任,更是史丹佛以人為本人工智慧研究所(HAI)的聯合創始人。在AI領域深耕 25 年,李飛飛見證並主導了從機器學習萌芽到大型語言模型爆發的關鍵歷程;如今,她創辦World Labs聚焦 “世界模型”研發,探索 AI 在空間智能與具身智能領域的新可能。本次Lenny播客對話中,李飛飛回溯了AI的進化史、拆解了ImageNet的核心價值,深入解讀“世界模型” 為何是AI的下一個前沿,還探討了機器人落地的難點、普通人參與AI的路徑,以及如何讓技術始終“以人為本”。她用親身經歷告訴我們:AI的未來不是“取代人類”,而是由人類共同塑造,每個人都能在這場變革中找到自己的角色。本期目錄人工智慧的未來,不取決於 AI,而取決於人走出 AI 寒冬:ImageNet 如何改變世界深度學習的“黃金三件套”AGI 並不近:AI 的短板遠超大眾認知世界模型:下一場 AI 革命的起點Marble:為所有人生成 3D 世界的模型機器人為什麼難?“苦澀的教訓”未必適用創始人李飛飛:競爭、人才與未知的未來以人為本的 AI:技術之外的責任致所有普通人:AI 時代,每個人都有自己的角色人工智慧的未來主持人Lenny:很多人稱你為“AI 樂觀主義者”。你真的認為 AI 不會取代人類嗎?它會如何影響未來?李飛飛:我不是烏托邦主義者,我當然知道 AI 會帶來風險、衝擊和改變。但我相信一件事:AI 是由人創造、受人啟發,並最終影響人類的技術。因此,它的走向取決於我們,而不是它自己。縱觀人類文明,每一次技術革新都是雙刃劍:寫作、蒸汽機、電力、網際網路……都帶來了風險,但也成就了現代世界。AI 也一樣——它可以造福世界,也可以被濫用,區別在於:我們是否以負責任的方式使用它。走出AI寒冬主持人Lenny:十年前,“AI公司”還是一個貶義詞。你的工作把這個領域從寒冬中帶了出來。能講講ImageNet的故事嗎?李飛飛:2000年我進入人工智慧領域,那時AI只是冷門中的冷門概念。但我一直相信,人類的絕大部分智能建立在視覺之上,因此視覺智能是AI 的核心。真正的問題是:機器缺少學習世界的“經驗”。孩子要看數百萬物體才能學會認知;機器也一樣。於是2006年,我和學生發起了ImageNet。我們的目標很簡單,也很瘋狂:給機器提供世界上最大、最乾淨的視覺學習資料。我們最終整理了:1500萬張圖像、2.2萬個概念分類、一個完整的層級體系。2012年,辛頓團隊用神經網路+ImageNet+兩塊民用GPU,在演算法上取得了歷史性突破。那一年,被視為現代深度學習的真正起點。(圖片來源:stanford)深度學習的“黃金三件套”主持人Lenny:你認為為什麼從2012年之後 AI 會突然爆發?李飛飛:因為我們終於同時擁有了三樣東西:第一,大規模乾淨的資料(Data);第二,神經網路模型(Neural Networks);第三,大規模可平行的 GPU 計算(Compute)這三者組合,形成了現代 AI 的“黃金配方”。即便今天的ChatGPT,本質仍是:海量資料、更複雜的神經網路、更多、更強的GPU。理念並沒有變,只是規模變得不可思議地大。AGI並不近:AI的短板遠超大眾認知主持人Lenny:讓我直接問一個所有人都關心的問題:我們是不是已經站在“通用人工智慧(AGI)”的懸崖邊上?這個詞幾乎被用濫了,大家都在宣稱AGI即將到來,並且它會接管一切。在你看來,我們距離AGI還有多遠?按照目前的方法能夠到達那裡嗎?還是說我們需要根本性的突破?李飛飛:這是個非常值得深入討論的詞。嚴格來說,我不知道是否存在一個被科學界普遍接受的AGI定義。它在不同人口中,涵義差距巨大:有的把AGI等同於機器的“超能力”;有的認為只要機器能在社會中作為一個經濟主體——例如靠自己的勞動謀生——那就是AGI。作為科學家,我非常謹慎。我之所以進入這個領域,是受到一個大膽問題的吸引:機器是否可以像人類一樣思考、學習和行動?對我來說,這一直是人工智慧的北極星。從這個意義上講,“AI”與“AGI”對於我沒有本質區別——只是我們是否達到了那個終極目標而已。我們在某些方面取得了巨大進展,比如對話式人工智慧。但這並不意味著我們已經跨越了所有智能的門檻。我常常想,如果艾倫·圖靈今天仍然在世,你問他AI和AGI的區別,他大概也會聳聳肩說:“我在1940年代問過同樣的問題。”所以,我並不願意掉入“AGI 定義之爭”的兔子洞。那更像是一個行銷術語,而不是科學概念。作為研究者,我們所追求的目標就是人工智慧本身,而不是一個模糊的標籤。從科學史來看,沒有任何一個學科會在某一刻宣佈“我們已經完成了,可以停止創新”。人工智慧作為人類文明中最年輕的科學技術之一,我們至今仍只觸及了表層。舉一個簡單例子:如果你給一個模型播放一段包含幾個辦公室房間的視訊,然後問它:“裡面有幾把椅子?”這是幼兒都能做到的任務,但今天的 AI 卻做不到。更不用說像牛頓那樣,從天體運動中推匯出描述萬物的方程。那種創造性、抽象性、推理能力,是目前的技術水平完全無法企及的。情感智能同樣如此。想像一個學生向老師表達困擾、討論動機、傾訴焦慮——在這些對話中所體現的情緒識別和人類理解,今天的 AI 根本無法提供。所以我認為:我們還有太多事情沒有做到,我們離終點仍相當遙遠,創新才剛剛開始。世界模型:下一場AI革命的起點主持人Lenny:你已經談論“世界模型”這個概念很多年了,甚至創辦了一家公司來建構它。世界模型與語言模型不同,是另一種方向。現在,不僅你在討論世界模型,馬斯克、黃仁勳、Google等公司也在談。你比他們更早開始這條路線,而且你最近剛發佈了重要成果。能不能先解釋一下:什麼是世界模型?為什麼它這麼關鍵?李飛飛:我很高興看到越來越多的人開始談論世界模型。但事實上,我已經思考這件事很久了,幾乎貫穿我整個職業生涯。過去幾年,大型語言模型的快速發展,無論來自學術界還是像OpenAI這樣的機構,即使對於我們這些研究者來說,也極具啟發性。我還記得GPT-2在2019年末問世的那段時間。當時我擔任史丹佛人類中心人工智慧研究所(HAI)的聯合主任。公眾對大型語言模型的理解還很有限,但我們已經看到了它的潛力,並意識到它會深刻影響未來。我和史丹佛做NLP的同事,如珀西·梁、Chris Manning等人,進行了無數次討論。我們都認定:這項技術將是革命性的。因此,HAI 成為了全球第一個成立“基礎模型研究中心”的機構,我們也發表了第一批關於基礎模型的重要論文。但我來自視覺智能領域,這意味著我一直在思考一個更長期的問題:真正的智能絕不止於語言。想像一個消防現場、車禍現場或自然災害現場。人類在這些極端環境中的行動,依賴的是:瞬間的空間意識、對物體與環境關係的理解、對場景的整體推斷、不斷變化的三維世界判斷。語言在這些任務中只佔很小的一部分,甚至在關鍵時刻根本派不上用場。與此同時,我做了大量機器人研究,而機器人進一步讓我意識到:語言之外,要讓 AI 具有行動能力、環境理解能力,核心是“空間智能”與“世界理解”。這就是世界模型的意義。它是連接視覺智能、具身智能、機器人智能的關鍵。我在2022年開始系統思考世界模型的框架,並在2024年做了一個TED演講,希望推動這個領域的公共討論。最終,我意識到:這是一件必須以“產業速度”加速的科技,需要最好的工程師、最強的科學團隊來推動。因此我創辦了World Labs。公司名字中的“World(世界)”,正是因為我們堅信——下一代 AI 的核心,不是語言,而是世界。李飛飛著書《我眼中的世界》,這是一部科學回憶錄,講述了她如何成為一名人工智慧科學家,以及現代人工智慧的誕生歷程。(圖片來源:X@Feifei Li)Marble:為所有人生成3D世界模型主持人Lenny:你創辦了World Labs,並推出了Marble。能介紹一下這是什麼嗎?李飛飛:Marble是全球第一個真正意義上的可生成完整 3D 世界的模型。只需一句話或一張圖,你就可以讓模型生成:“一個可以走進去、能探索、能修改、能推理的 3D 世界。”使用它的行業非常多:電影製作(虛擬場景生成,製作效率提升 40 倍)、遊戲開發、VR/AR 場景生成、機器人模擬訓練、心理學研究、建築與設計。這是第一次,世界建構不再只屬於專業團隊,而是屬於任何一個創作者。(圖片來源:World Labs)機器人為什麼難?主持人Lenny:為什麼“苦澀的教訓”可能並不適用於機器人?能否先解釋一下人工智慧歷史上的“苦澀的教訓”是什麼,然後談談為什麼它不能帶領機器人技術走向我們希望的方向?李飛飛:“苦澀的教訓”這個說法通常指的是圖靈獎獲得者Richard Sutton寫過的一篇文章。他總結人工智慧發展幾十年的經驗後認為:在長期競爭中,簡單模型加上海量資料往往會勝出,而複雜模型與有限資料反而不如前者有效。這篇文章是在ImageNet出現幾年後發表的某種意義上也呼應了我們為什麼需要建構大規模資料集。不過,對我來說,這不是“苦澀”的,而是“甜蜜”的教訓。我之所以建立ImageNet,就是因為我相信大規模資料在智能發展中的關鍵作用。但為什麼這條規律在機器人技術中不那麼容易奏效?原因有很多。首先,機器人資料的獲取難度遠高於語言資料。語言模型的訓練資料是文字,結構乾淨、標註明確,模型的輸入和輸出都保持一致。換句話說,語言模型擁有一個幾乎“完美對齊”的訓練體系。機器人則完全不同。機器人需要在三維物理世界中行動,而來自網際網路的大量視訊雖然提供資訊,卻無法直接告訴機器人如何完成動作。例如,一個機器人要抓起一支筆,它需要知道手臂如何移動、手指如何閉合、與物體如何接觸,這些都不是網路影片能直接提供的。因此,必須用其他方式補充資料,比如遠端操控資料、模擬環境生成的合成資料,以及未來可能由世界模型生成的資料。你剛才說得很對:機器人缺乏“在三維世界中行動”的訓練資料。這是根本難點所在。我們擁有的網路影片並不能完全滿足需求,於是需要把各種來源的資料“拼接”起來,讓機器人能夠在“巨量資料假設”下進行訓練。隨著世界模型的發展,我們未來可能會釋放更多可以用於機器人訓練的資訊,但目前仍然處在非常早期的階段,“苦澀的教訓”是否適用於機器人,還遠未到可以下結論的時候。其次,與語言模型甚至空間模型不同,機器人不僅需要“大腦”,還需要“身體”。機器人是真實的物理系統,這意味著它要面對的不僅是演算法,還有材料、機械結構、動力系統、安全性、穩定性、供應鏈、應用場景等一系列複雜問題。從這個角度看,機器人反而更接近自動駕駛汽車,而不是軟體模型。我們可以回顧自動駕駛的歷史。我的同事Sebastian Thrun在2005年左右帶領史丹佛團隊贏得了第一屆DARPA自動駕駛挑戰賽。那輛車當時能在內華達州沙漠中自動行駛130英里。從那時到現在的Waymo,無論是在技術成熟度還是在實際部署上,都經歷了將近20年,而且自動駕駛仍未完全解決所有問題。主持人Lenny:是的,即便Waymo已經能在舊金山的街道上autonomously行駛,我們仍然還有很多未攻克的難題。李飛飛:沒錯。更關鍵的是,自動駕駛其實是相對“簡單”的機器人系統。它們在二維平面上運行,主要目標是不碰到任何東西。而機器人呢?它在三維世界中運行,是一個三維物理實體,它的任務是接觸物體、抓取物體、移動物體,這比自動駕駛複雜得多。有人會說,早期的自動駕駛是在深度學習時代之前,而如今深度學習已經極大加速了機器人“腦力”的發展。這確實是事實,也是我對機器人和空間智能領域保持高度興奮的原因。但與此同時,汽車行業已經有成熟的供應鏈和硬體體系,而機器人行業在這些方面還遠未建立完善生態。機器人產品化的難度不僅在演算法,還在於硬體、製造、場景和經濟模型。這是一個非常有挑戰也非常令人興奮的時刻。但我們確實需要接受這樣一個現實:機器人領域可能仍然會經歷許多新的“痛苦教訓”。主持人Lenny:在做這些研究時,你是否會對人類大腦本身產生更多敬畏?畢竟我們能輕易做到許多機器人無法完成的事,僅僅是走路、躲避障礙、抓取物體這些動作背後都蘊含著極其複雜的機制。李飛飛:完全是這樣。我們的腦只消耗20瓦能量,比一盞普通燈泡還暗,卻能完成如此多複雜的任務。可以說,我越深入研究人工智慧,就越深刻地尊重人類智能本身的奇蹟。創始人李飛飛主持人Lenny:你作為創始人,最大的感受是什麼?李飛飛:AI創業的競爭比十年前激烈太多:頂尖人才稀缺、GPU資源昂貴、技術迭代速度驚人、型號、框架和生態極其複雜。但我一直相信兩件事:使命感,和能與我同心的團隊。無論在普林斯頓、史丹佛、Google還是現在的World Labs,我都是因為相信“某件必須被創造的事”,才做出選擇。未來仍充滿未知,但正因如此,才令人興奮。以人為本的AI:技術之外的責任主持人Lenny:你在史丹佛創辦HAI的初衷是什麼?李飛飛:因為我清楚AI的影響力已經超越技術本身。它正在改變:教育、醫療、法律、社會治理、全球政策……技術越強大,我們越需要從人文、社會科學、法律和倫理角度建立支撐體系。HAI的理念很簡單:AI必須以促進人類福祉、維護人的尊嚴為核心。沒有這一點,技術會反噬我們。史丹佛大學以人為本人工智慧研究所(HAI)的創始聯合主任、電腦科學先驅李飛飛。(圖片來源:Stanford HAI)AI 時代,每個人都有自己的角色主持人Lenny:很多人害怕被AI替代。普通人該如何面對未來?李飛飛:我想大聲告訴每一個人:AI 時代,每個人都有自己的角色。如果你是藝術家,AI是新的畫筆,而不是你的替代者。如果你是教師,AI可以提升課堂,而不是取代你。如果你是護士,AI可以減輕你的工作負擔。如果你是農民,你依然有權參與科技如何影響社區。如果你是學生,你是下一代技術的創造者。AI不應該剝奪人的尊嚴,而應成為我們的工具和助力。未來不是由AI決定,而是由我們共同決定。 (創新觀察局)