#創造力
李飛飛最新長文火爆矽谷
空間智能,是AI的下一個前沿。剛剛,AI教母李飛飛發表長文,首次系統性地解釋了什麼空間智能、為什麼重要以及如何建構能夠解鎖它的世界模型。文章裡,李飛飛不僅提出了“真正具有空間智能的世界模型”必須具備的三個核心能力:生成(Generative):能創造遵守物理定律、空間一致的世界;多模態(Multimodal):能處理從圖像、視訊到動作的多模態輸入;互動(Interactive):能預測世界隨時間演變或互動的狀態。而且,還分享了World Labs在新一代任務函數、資料、模型架構與學習表示上面的進展,以及世界模型在創造力、機器人,甚至科學、醫療和教育等領域的潛力。一經發出,點贊者眾,瘋傳者廣,都成熱文熱搜趨勢了——將空間智能融入世界模型(LWMs)有望推動大語言模型(LLMs)實現下一次質的飛躍。一旦因果推理能力和能效達到相應水平,我們就將站在通往通用人工智慧的拐點上。好了,不多說了。接下來,我們一起看看李飛飛這篇從文字到世界(from words to worlds)的宣言吧。以下是全文:從文字到世界:空間智能是AI的下一個前沿1950年,當電腦還只是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴蕩的問題:機器能思考嗎?他能看到別人尚未看到的未來,需要非凡的想像力——那就是:智能或許有一天可以被“建構”,而非“誕生”。這一洞見催生了一場持續至今的科學征程——人工智慧(AI)。在我投身AI研究的25年中,圖靈的願景依然不斷啟發著我。但我們距離那一願景有多近?答案並不簡單。今天,以大語言模型(LLM)為代表的前沿AI技術,已經開始改變人類獲取與處理抽象知識的方式。 然而,它們仍然是“黑暗中的文字匠”:能言善辯,卻無經驗;知識豐富,卻缺乏根基。空間智能(spatial intelligence)將改變我們創造和互動現實與虛擬世界的方式——徹底革新敘事、創造力、機器人學、科學發現,以及更多領域。這,正是AI的下一個前沿。自我進入這一領域以來,對視覺與空間智能的探索就一直是我的“北極星”。這也是我為何花費多年時間建構了 ImageNet——首個大規模視覺學習與評測資料集。它與神經網路演算法、現代算力(如GPU)一道,成為孕育現代AI的三大關鍵要素。也是為何我的史丹佛實驗室在過去十年中,將電腦視覺與機器人學習相結合。同樣,這也是我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall一年前共同建立 World Labs的原因:為了第一次真正實現這一可能性。在這篇文章中,我將解釋什麼是空間智能、為什麼它重要、以及我們如何建構能夠解鎖它的“世界模型(world models)”——這種技術將深刻重塑創造力、具身智能與人類進步。空間智能:人類認知的腳手架AI從未像今天這樣令人振奮。以生成式AI為代表的模型,如LLM,已從研究室走向日常生活,成為數十億人創作、生產與交流的工具。它們展示了曾被認為不可能的能力:生成連貫的文字、成山的程式碼、逼真的圖像,甚至短影片。 AI是否會改變世界?——從任何合理的定義來看,它已經做到了。然而,仍有大量潛能未被觸及。自動化機器人的願景依然誘人卻遙遠;在疾病治療、新材料發現、粒子物理等領域的研究加速夢仍未實現;真正能夠理解並賦能人類創作者的AI,無論是學習複雜分子化學概念的學生、構想空間的建築師、建構世界的電影人,還是任何希望沉浸於虛擬體驗中的人都仍未到來。要理解為何這些能力依舊難以實現,我們需要回溯:空間智能是如何演化的?它又如何塑造了我們理解世界的方式?視覺長期以來是人類智能的基石,但它的力量源自更為根本的東西。早在動物能築巢、撫育後代、用語言交流或建立文明之前,那看似簡單的“感知行為”:感受到一縷光、觸到一種質感就已經悄然點燃了通向智能的進化旅程。這種從外部世界汲取資訊的能力,在感知與生存之間搭建起一座橋樑,而這一橋樑在漫長的進化中變得愈發複雜。神經元層層疊加,形成能解釋世界、協調生物與環境互動的神經系統。因此,許多科學家認為,“感知—行動”循環成為了智能進化的核心機制,也是自然孕育出我們這個物種的根基——一個能感知、學習、思考與行動的終極存在。空間智能在我們與物理世界的互動中扮演著基礎性的角色。每天,我們都在依賴它完成最平常的動作。停車時想像車尾與路緣的距離;接住被拋來的鑰匙;在人群中穿行而不碰撞;半睡半醒間精準地將咖啡倒進杯中。在極端情況下,消防員穿行於坍塌建築與濃煙之中,瞬間判斷穩定性與生死抉擇,通過肢體語言和本能默契溝通——這些都無可言傳。而嬰兒則在學會語言前的漫長時光裡,通過玩耍與環境互動來認識世界。這一切都在直覺中、自然而然地發生——一種機器至今未能獲得的流暢能力。空間智能同樣是我們想像力與創造力的基石。講故事的人在腦中建構出豐富的世界,並用各種視覺媒介將之傳達給他人。從原始洞穴壁畫,到現代電影,再到沉浸式電子遊戲。無論是孩子在沙灘上築城堡,還是在電腦上玩《我的世界》,這種以空間為根基的想像構成了人與虛擬世界互動體驗的基礎。而在工業應用中,對物體、場景與動態互動環境的模擬則支撐著從工業設計、數字孿生到機器人訓練等無數關鍵場景。歷史上那些塑造文明的關鍵時刻中,空間智能往往扮演著核心角色。在古希臘,埃拉托色尼(Eratosthenes)通過對陰影的幾何化思考完成了驚人的壯舉——他在亞歷山大測得太陽影子形成的7度角,並與賽恩(Syene)“正午無影”的現象進行對比,從而計算出了地球的周長。哈格里夫斯(Hargreaves)發明的“珍妮紡紗機”同樣源於空間洞察:他意識到只需將多個紡錘並列安裝在一個機架上,一個工人就能同時紡出多股線,生產效率因此提高了八倍。沃森(Watson)與克里克(Crick)揭示DNA結構的突破,也依賴於他們親手搭建的三維分子模型——他們用金屬板與鐵絲不斷調整、拼接,直到鹼基對的空間排布完美契合。在這些案例中,空間智能都推動了文明的進步——當科學家與發明家需要操縱物體、想像結構、在物理空間中推理時,這些能力是純文字永遠無法承載的。空間智能(Spatial Intelligence)是支撐人類認知的腳手架。無論是被動觀察,還是主動創造,它都在默默發揮作用。它驅動我們的推理與規劃,即便是在最抽象的主題上。它同樣塑造了我們與世界互動的方式——無論是語言交流,還是身體行動,無論是與他人,還是與環境本身。雖然我們大多數人並不會每天像埃拉托色尼那樣發現新的真理,但我們幾乎時時刻刻都以同樣的方式在思考通過感官去理解這個複雜世界,並依託對物理與空間規律的直覺認知,使其變得可理解。遺憾的是,當今的AI還無法以這樣的方式思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLMs),在文字之外又引入了大量多媒體資料進行訓練,初步具備了空間感知能力:它們可以分析圖像、回答與之相關的問題,甚至生成超寫實的圖像與短影片。與此同時,借助感測器與觸覺技術的突破,最先進的機器人已經能在嚴格受限的環境中開始操控物體與工具。然而,坦率地說,AI的空間能力依然遠未接近人類水平。其侷限也顯而易見:最先進的MLLM在估計距離、方向、大小等任務上,表現往往不比隨機猜測好多少;它們無法“心智旋轉”物體——即從新角度再現同一對象的形狀;不會在迷宮中導航、識別捷徑,或預測基本的物理規律;生成的視訊雖然新奇炫目,卻常在幾秒鐘後失去連貫性。如今的頂級AI擅長閱讀、寫作、檢索與模式識別,但當涉及對物理世界的表徵或互動時,卻存在根本性侷限。我們人類理解世界的方式是整體性的:不僅僅看到“眼前的東西”,還理解它們在空間上的關係、在語義上的意義、以及在現實中的重要性。而這種通過想像、推理、創造與互動來理解世界的能力,正是空間智能的力量。缺乏它,AI就與它所試圖理解的物理現實脫節。它將無法真正安全地駕駛汽車、無法在家庭與醫院中引導機器人、無法創造全新的沉浸式學習與娛樂體驗、也無法加速材料科學與醫學的發現。哲學家維特根斯坦曾寫道:“語言的邊界就是我世界的邊界”。我不是哲學家,但我知道,對AI而言,世界不止於語言。空間智能代表著超越語言的前沿。它連接想像、感知與行動,為機器真正提升人類生活打開了新的可能:從醫療到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何打造擁有空間智能的AI?如何讓模型具備:像埃拉托色尼那樣的空間推理能力,像工業設計師那樣的工程精度,像講故事的人那樣的創造性想像力,以及像應急救援人員那樣與環境流暢互動的能力?要實現這樣的AI,我們需要比LLM更具雄心的體系:世界模型(World Models)。這是一種全新的生成式模型,其在理解、推理、生成與互動方面的能力,將超越當今LLM所能觸及的極限。它能夠在語義、物理、幾何與動態層面上,理解並生成複雜的虛擬或真實世界。這一領域尚處於萌芽階段,現有方法從抽象推理模型到視訊生成系統不等。World Labs成立於2024年初,正是基於這樣一種信念:基礎性方法仍在形成之中,而這將成為未來十年人工智慧的決定性挑戰。在這個新興領域中,最重要的是確立指導發展方向的核心原則。對於空間智能而言,我將“世界模型”定義為具備以下三項核心能力的系統:1、生成性(Generative):世界模型能夠生成具有感知、幾何與物理一致性的世界要實現空間理解與推理,世界模型必須能夠生成自身的模擬世界。它應能在語義或感知指令的引導下,生成無限多樣、變化豐富的虛擬世界,同時保持幾何、物理與動態上的一致性,無論這些世界是現實的還是虛擬的。研究界目前正在探索,這些世界應當以隱式(implicit)還是顯式(explicit)的幾何結構形式表示。除了強大的潛在表徵(latent representations)之外,我認為通用世界模型的輸出還應當允許生成顯式、可觀測的世界狀態,以便適應不同的應用場景。尤其重要的是,模型對當下世界的理解必須與其過去的狀態保持連貫一致——理解當前,就是理解它是如何演化而來的。2、多模態(Multimodal):世界模型在設計上就是多模態的正如人類與動物一樣,世界模型應能處理多種形式的輸入。在生成式AI領域中,這些輸入被稱為“提示詞(prompts)”。面對不完整的資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作,世界模型都應能預測或生成儘可能完整的世界狀態。這要求模型既要以真實視覺的精度處理圖像輸入,又能以同樣的靈活性理解語義性指令。如此一來,無論是智能體還是人類,都能通過多樣的輸入形式與模型就“世界”進行交流, 並以多樣的方式接收輸出。3、互動性(Interactive):世界模型能根據輸入動作輸出下一個狀態最後,當動作(actions)和/或目標(goals)作為輸入提示的一部分時,世界模型的輸出必須包含世界的下一個狀態。這一狀態可以是隱式的,也可以是顯式的。當輸入僅包含一個動作(有無目標皆可)時,世界模型應能生成與世界先前狀態、預期目標狀態(如有)、以及其語義意義、物理規律、動態行為相一致的輸出。隨著空間智能世界模型在推理與生成能力上不斷增強,我們可以想像,未來模型不僅能預測世界的下一個狀態,還將能夠基於該狀態預測下一步行動。這一挑戰的規模,超越了AI以往所面臨的一切。語言是人類認知中純粹生成的現象,而“世界”遵循的規則則複雜得多。在地球上,例如:重力決定運動,原子結構決定光的顏色與亮度,無數物理定律約束著一切互動。即使是最奇幻、最具創造性的世界,也由遵守物理與動態規律的空間對象與智能體構成。要在模型中一致地協調這些——語義、幾何、動力學與物理層面——需要全新的方法論。因為“世界”的維度遠比語言這種一維的序列訊號複雜得多。要實現像人類一樣具備普適空間智能的世界模型,必須跨越若干巨大的技術壁壘。在World Labs,我們的研究團隊正致力於這一目標的基礎性突破。以下是我們當前研究的幾個方向示例:一種新的通用訓練任務函數:在世界模型研究中,一個長期目標是定義一種像LLM中“下一個token預測”一樣簡潔優雅的通用任務函數。然而,世界模型輸入與輸出空間的複雜性使這一函數的設計更加困難。儘管仍有大量探索空間,但這一目標函數及其對應表徵必須符合幾何與物理規律,忠實體現世界模型在想像與現實之間的“落地表徵”本質。大規模訓練資料:訓練世界模型所需的資料遠比文字複雜。好消息是我們已經擁有了龐大的資料資源。網際網路上規模宏大的圖像與視訊集合為訓練提供了豐富的素材。挑戰在於:如何讓演算法從二維圖像或視訊幀(RGB)中提取更深層次的空間資訊。過去十年的研究揭示了語言模型中資料量與模型規模的scaling law;對於世界模型,關鍵在於建構能夠在相似規模上有效利用視覺資料的架構。此外,高品質的合成資料以及額外模態(如深度、觸覺)的作用不可低估,它們在訓練過程的關鍵階段起到補充作用。未來的發展取決於更先進的感測系統、更穩健的訊號提取演算法、以及更強大的神經模擬方法。新的模型架構與表徵學習:世界模型研究將不可避免地推動模型架構與學習演算法的革新,特別是超越當下的多模態LLM與視訊擴散模型(video diffusion)。這些模型通常將資料編碼為一維或二維序列,使得簡單的空間任務,例如在短影片中數清不同的椅子,或記住一小時前房間的樣子變得異常困難。新的架構思路或許能改進這一點,例如具備3D或4D感知能力的token化、上下文與記憶機制。例如,在World Labs,我們最近開發了一種基於幀的即時生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空間為基礎的幀(spatially-grounded frames)作為空間記憶形式,實現了高效即時生成的同時,保持了生成世界的持續性與一致性。顯然,在完全釋放空間智能的潛力之前,我們仍面臨艱巨的挑戰。但這項研究不僅僅是理論工作,它正成為新一代創造性與生產力工具的核心引擎。在World Labs的進展令人鼓舞。我們最近向部分使用者展示了Marble的早期版本——全球首個可通過多模態輸入生成並保持一致性3D環境的世界模型,讓使用者與創作者能夠探索、互動並在其中繼續建構他們的創意世界。我們正全力以赴,努力盡快將其向公眾開放。Marble只是我們的第一步。隨著研究的加速,科研人員、工程師、使用者與商業領袖們都開始意識到這一方向的巨大潛能。下一代世界模型將使機器在空間智能上達到全新的層次,這將開啟AI迄今仍普遍缺乏的核心能力,並真正讓人工智慧進入理解與創造世界的時代。用世界模型為人類建構更美好的世界人工智慧的發展動機至關重要。作為推動現代AI時代到來的科學家之一,我的動機始終十分明確:AI應當增強人類的能力,而非取而代之。多年來,我一直致力於讓AI的開發、部署與治理與人類需求保持一致。當下關於“技術烏托邦”與“世界末日”的極端敘事比比皆是,但我依然持一種更務實的立場:AI是由人開發、被人使用、並由人治理的。它必須始終尊重人的自主性與尊嚴。它的“魔力”在於拓展我們的能力,讓我們變得更具創造力、更緊密相連、更高效並更有成就感。空間智能正體現了這一願景——一種能賦能人類創造者、照護者、科學家與夢想家的AI,使他們實現曾經不可能的目標。這一信念,正是我將空間智能視為AI下一個偉大前沿領域的根本原因。空間智能的應用橫跨不同的時間尺度。創作工具正在當下出現——World Labs的 Marble 已經讓創作者與講故事的人能夠親手掌握這種能力。機器人領域則代表著中期的雄心目標,我們正致力於完善感知與行動之間的閉環。而最具變革意義的科學應用可能需要更長時間,但它們將深刻地促進人類的福祉。在所有時間線中,有幾個領域的潛力尤其突出,足以重塑人類的能力。要實現這些潛力,需要集體努力遠超任何一個團隊或公司的能力範圍。它需要整個AI生態系統的參與:研究者、創新者、創業者、企業家,乃至政策制定者,共同朝著一個願景努力。而這個願景,值得我們追求。以下是未來的圖景:創造力:為敘事與沉浸體驗注入超能力“創意,是智慧的樂趣。”這是我最喜歡的愛因斯坦名言之一。在人類發明文字之前,我們就會講故事——把故事畫在洞穴壁上,代代相傳,並以共享的敘事建立文化。故事是人類理解世界、跨越時空連接彼此、探索“人之為人”的方式,也是我們在生活與愛中尋找意義的途徑。今天,空間智能有潛力徹底變革我們創作與體驗敘事的方式,從娛樂到教育,從設計到建造,賦予它們更深遠的影響力。World Labs的Marble平台 將前所未有的空間表達能力與編輯控制權交到電影人、遊戲設計師、建築師及各類講述者手中,讓他們無需傳統3D設計軟體的繁複流程,就能快速創造、迭代、探索完整的三維世界。創造的行為依然是人類的核心活動——AI只是放大並加速創意實現的過程。這包括:多維敘事體驗:電影人和遊戲設計師可以利用 Marble 建構整個世界,不受預算或地理限制,探索傳統製作流程中無法實現的場景與視角。隨著媒介與娛樂的界限模糊化,我們正接近一種全新的互動體驗形態——融合藝術、模擬與遊戲的個性化世界,讓任何人(而不僅僅是大型工作室)都能創造並進入自己的故事。以設計講述空間故事:幾乎所有被製造的物品或建造的空間,都必須在物理實現之前經過虛擬3D設計——這一過程往往耗費大量時間與成本。借助空間智能模型,建築師可以在數分鐘內可視化並漫遊尚不存在的建築;工業或時裝設計師可以即時將想像轉化為形態,探索物體與人體及空間的互動。全新的沉浸與互動體驗:人類體驗的最深層方式之一,就是創造意義的體驗本身。在整個人類歷史上,我們只共享一個三維世界:物理世界。直到近幾十年,通過遊戲與早期虛擬現實(VR),我們才得以初步窺見“自造世界”的可能。如今,空間智能結合VR、XR(擴展現實)頭顯與沉浸式顯示裝置,將這種體驗提升到前所未有的高度。未來,人們“走進”多維世界將如同打開一本書般自然。空間智能讓造世界的權力從專業團隊擴展到每一位擁有願景的創作者、教育者與普通人。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航並與世界互動。機器人也不會例外。自該領域誕生以來,“具備空間感知的機器”就是人類的夢想,包括我在史丹佛研究實驗室與學生、合作者共同進行的研究。正因如此,我對用 World Labs 建構的模型實現這一願景感到異常興奮。通過世界模型擴展機器人學習:機器人的學習進步取決於可擴展的訓練資料方案。要讓機器人具備理解、推理、規劃與互動的能力,它們需要覆蓋極為龐大的狀態空間。許多研究者認為,網際網路資料、合成模擬資料與人類演示的真實採集三者結合,是實現可泛化機器人的關鍵。然而,與語言模型不同,如今機器人的訓練資料極為稀缺。世界模型將在此發揮決定性作用。 隨著其感知精度與計算效率的提高,世界模型生成的輸出將迅速縮小模擬與現實之間的差距,從而讓機器人能在數不清的狀態、互動與環境中學習。人機協作夥伴:無論是實驗室中協助科學家的研究助理機器人,還是陪伴獨居老人的家用助理,機器人都可以擴展勞動力並提升社會生產力。但要做到這一點,機器人必須具備空間智能——能感知、推理、規劃、行動,並且最重要的是:保持對人類目標與行為的同理一致。例如,實驗室機器人可以替代科學家完成儀器操作,讓人專注於需要推理的部分;家庭助理機器人則可以幫助老人做飯,而不剝奪他們的樂趣與自主性。真正具備空間智能的世界模型能夠預測下一個狀態,甚至推斷與之匹配的下一步行動,是實現這一願景的關鍵。擴展的具身形態:人形機器人只是我們為自身世界打造的一個形式。真正的創新紅利將來自更加多樣的設計:輸送藥物的奈米機器人、穿行狹窄空間的軟體機器人、以及為深海或外太空而造的機器。無論形態如何,未來的空間智能模型都必須將環境與機器人自身的感知、運動一體化建模。但開發這些機器人面臨的關鍵挑戰在於:缺乏多樣化形態的訓練資料。世界模型將在這一過程中發揮關鍵作用——為模擬資料、訓練環境與評測任務提供支援。更長遠的地平線:科學、醫療與教育除了創造性與機器人應用外,“空間智能”的深遠影響還將延伸至更多能夠增強人類能力、拯救生命、加速發現的領域。以下我將重點介紹三個具有深刻變革潛力的方向。當然,空間智能的應用遠不止於此,它的影響範圍幾乎遍及所有行業。在科學研究中,具備空間智能的系統可以模擬實驗、平行驗證假設,並探索人類無法親臨的環境——從深海到遙遠的行星。這項技術有望徹底變革氣候科學、材料研究等領域的計算建模方式。通過將多維度模擬與真實世界資料採集相結合,這些工具能顯著降低計算壁壘,拓展每一個實驗室可觀察與理解的邊界。在醫療領域,空間智能將重塑從實驗室到病床的全過程。在史丹佛,我與學生及合作者多年來一直與醫院、養老機構以及居家患者合作。這些經驗讓我深信空間智能在醫療領域的變革潛力。AI可以通過多維建模加速藥物研發,通過輔助放射科醫生識別影像中的模式來提升診斷質量;它還可支援環境感知式監護系統,在不取代人類關懷的前提下,為患者與護理人員提供持續支援。更不用說機器人在不同場景中幫助醫護人員和患者的巨大潛力。在教育領域,空間智能能夠實現沉浸式學習,讓抽象或複雜的概念變得可感知,並創造出符合人類大腦與身體學習方式的迭代體驗。在AI時代,更快速、更高效的學習與技能重塑對於兒童與成人都至關重要。學生可以以多維方式探索細胞機器或“親歷”歷史事件;教師可借助互動環境進行個性化教學;而外科醫生、工程師等專業人士則能在高度逼真的模擬環境中安全地練習複雜技能。跨越這些領域,可能性是無限的,但目標始終如一:讓AI成為增強人類專長、加速人類發現、放大人類關懷的力量——而不是取代那份屬於人的判斷力、創造力與共情力。結語過去十年間,人工智慧已成為全球現象,在科技、經濟乃至地緣政治層面都帶來了轉折。然而,作為一名研究者、教育者和創業者,最令我振奮的仍是圖靈七十五年前那道問題背後的精神。我依然與他共享那份好奇與驚嘆——正是這份好奇,讓我每天都為探索空間智能的挑戰而充滿動力。人類歷史上第一次,我們正站在這樣一個時刻:有望建構出與物理世界高度契合的機器,讓它們成為我們應對重大挑戰的真正夥伴。無論是加速疾病研究、革新故事敘述方式,還是在病痛、受傷或衰老的脆弱時刻給予支援,我們都正處於一場技術變革的門檻上,它將提升我們最珍視的生命價值。這是一個關於更深刻、更豐富、更有力量的生活的願景。距自然在原始動物中首次顯現空間智能的曙光已近五億年,而我們有幸成為這一代技術創造者——可能即將賦予機器同樣能力的人類,也有幸能將此能力用於全人類的福祉。若沒有空間智能,我們關於“真正智慧型手機器”的夢想將永遠不完整。這場探索,是我的“北極星”。邀請你一同追尋它。 (量子位)
a16z閉門峰會創始人對談,重點提到了具身和中國
最知名的投資機構之一 a16z 又來分享了。在 a16z 昨天舉辦的 Runtime 閉門峰會閉幕對談上,兩位創始合夥人 Marc Andreessen 和 Ben Horowitz 聊了聊當前 AI 領域的熱門話題。對談中,他們重點分享了大模型的能力邊界、AI 的創造力與智能的關係、AI 領域泡沫、具身智能等話題,也重點提到了中國在 AI 領域的飛速進展。我們整理了其中的一些核心觀點:創造力的本質: 對“AI 無法真正創新”的批評是不對的,因為絕大多數人類也無法做到這些要求。無論是科學突破還是藝術創作,本質都是對前人工作的“改造”和“組合”。真正的“概念性突破”在人類中也極其罕見。智力不是一切: 認為“更智能的 AI 終將統治人類”的假設是錯誤的。現實世界並非總是由“最聰明”的人來負責決策。領導力和成功還需要心智、勇氣、感知力等非智力因素。AI 沒有成為泡沫: 目前的 AI 領域並不算泡沫,因為“當所有人都在問這是不是泡沫時,它就不是泡沫”。真正的泡沫發生在所有人都已“投降”、堅信其只漲不跌時。而 AI 的基本面依然成立,只要技術有效,使用者就會願意付費。AI 還處在早期階段: 我們今天所見的聊天機器人和搜尋引擎遠非 AI 的終極形態。我們正處於 AI 的“文字提示詞”時代,就像1992年之前的個人電腦。AI 的“圖形介面(GUI)”或“瀏覽器”時刻尚未到來,產品形態仍有巨大的創新空間。行業變化非常快:AI 領域將會持續以非常快的速度發生變化,創業者們需要提高警惕。不管是產品形態,技術瓶頸,還是供需關係,都可能發生快節奏的遷移。尤其是供需關係,在一個供需市場裡,造成“過剩”的永遠都是“短缺”。競賽的“第二階段”: 美國與中國的 AI 競賽仍將繼續,真正的決勝點將會出現在“第二階段”,那就是機器人。由於西方在過去幾十年中選擇了“去工業化”,中國在硬體、供應鏈和製造生態上擁有巨大優勢。即使美國在軟體上保持領先,也可能在硬體上被中國趕超。AI到底有沒有創造力?Erik Torenberg(本次對談的主持人,a16z 合夥人):Marc,最近有很多關於大模型侷限性的討論,說它們無法實現真正的新科學發明,無法展現真正的創造性,因為它們所做的只是“組合”或“包裝”。你對此有什麼看法?Marc Andreessen:我經常會遇到兩類問題:第一,語言模型是否智能,即它們能否像人類一樣處理資訊並實現“概念性突破”?第二,語言模型或視訊模型是否具有“創造力”,能否創造新藝術並實現真正的“創意突破”?我會對這兩個問題反問:人類能做到這些事嗎?這裡有兩個問題。首先,即便有些人是所謂“智能的”,能產生原創的、概念性的突破,那有多少比例的人能真正做到這一點?我只見過少數幾個,他們中的一些就在這個會場裡,但數量並不多,大多數人永遠也做不到。然後是創造力。到底有多少人是真正具有創造力的?你可能會指著貝多芬或者梵高說:“看,這就是創造力。”是的,這確實是創造力。但歷史上又有多少貝多芬和梵高呢?顯然,數量非常非常少。所以,第一點是,如果這些 AI 能超越 99.99% 的人類,那它本身就已經非常智能了。我們再深入挖掘科技史,就會發現幾乎所有的重大突破,通常都至少需要 40 年前期工作的積累。事實上,語言模型本身是過去八十年工作的結晶。藝術領域情況也完全一樣。小說、音樂和其他藝術領域,顯然存在創造性的飛躍,但同樣也受到前輩們的巨大影響。所以,如果一個 AI 達到世界的前 0.001%,可能就已經完全達到目標了。當我在使用 AI 時,我的感覺是:“哇,它們似乎聰明得可怕,也具有驚人的創造力。”大多數人都不智能,所以也不必苛求AIErik Torenberg:當人們談論大模型的侷限性時,似乎提到一個共同主題。它們能做遷移學習 (Transfer Learning) 嗎?*遷移學習:跨學科將知識融會貫通的能力。Marc Andreessen:人類能做到嗎?這就像橫向思維,或者說,是在“分佈內”(inside distribution)推理還是在“分佈外”推理?*分佈內推理:模型已擁有的知識。情況是這樣的:我認識很多人,他們非常擅長在“分佈內”推理。但我到底認識多少擅長在“分佈外”推理並進行遷移學習的人呢?屈指可數。我認識幾個人,無論你什麼時候問他們一個問題,你都會得到一個極具原創性的答案,但通常這個答案會涉及多個領域。比如,你問某人一個關於金融的問題,他會給你一個融合心理學並且更恰當的答案。或者你問一個心理學問題,他會給你一個結合生物學的答案。在我認識的一萬個人中,大概只有三個人能做到這一點。這個比例並不高。這非常鼓舞人心。因為看看我們人類,儘管有各種侷限性,卻依然能做到今天的這一切。看看我們展現的所有創造力,所有那些了不起的藝術、電影、小說,以及了不起的技術發明和科學突破。所以,我們訓練 AI 是否需要讓它達到 100% “創新思考”的程度?我認為不需要。更聰明的AI不會“統治”世界Erik Torenberg:有很多人會認為,“更智能的東西會統治那些不那麼智能的東西”。Marc Andreessen:任何養貓的人都不會這麼說。你看看今天的世界,你認為我們總是被全世界最聰明的人們領導著嗎?我認為有兩件事是真的。第一,我們可能低估了智力的重要性。過去一百年裡,“智力”因種種原因成了一個極具煽動性的話題。即使是“有些人確實比其他人更聰明”這個觀念本身,都會讓人抓狂。但情況確實是,智力幾乎與每一種人生結果相關。在社會科學中,他們會告訴你,所謂的“流體智力”(fluid intelligence)或者 G factor(G因子),它與幾乎所有事情(教育成果、職業成果、收入,甚至生活滿意度)都有 0.4 的相關性。另一方面,那些身處涉及智力領域的人可能又都高估了智力。集體層面一個著名的觀察結果是:你把一群聰明人放進“烏合之眾”裡,他們絕對會變得更蠢。因此,某些 AI 圈子裡的那種,“聰明的東西將統治愚蠢的東西”的假設,非常容易,也非常明顯地被證偽了。Erik Torenberg:這就引出了一個後續問題,有那些技能是在智力之外的?更具體地說,為什麼 AI 系統不能學會它們?Marc Andreessen:你認為除了智力之外,還有什麼因素決定了領導力、創業精神或組織方面的成功?Ben Horowitz:很多事情。很大程度上,成功的人要能以正確的方式進行對抗。這其中有一定智力成分,但更多的是真正理解你在和誰說話,能夠解讀對方的想法。對創始人,要通過公司員工的眼睛,而不是你自己的眼睛來決策。這是一種需要不斷與人交談、理解對方在說什麼來培養的技能。這當然不是一個智商問題。Marc Andreessen:這是一些勇氣、激勵以及情感理解和心智的結合。“全身體驗”的必要性,機器人的必要性Marc Andreessen:有越來越多的科學證據表明,人類的認知不是純粹的大腦活動。著名的“心身二元論”(mind-body dualism)是不正確的。人類的體驗,並不僅通過大腦的理性思考,還因為全身體驗。我們的神經系統,我們的腸道菌群到荷爾蒙等各種生物化學方面,它們一起構成了生命。人類的認知是一種全身的體驗,遠超想像。這也是目前 AI 領域的重大基礎挑戰之一。機器人革命肯定會到來。當我們把 AI 放入在世界中移動的物理物體中時,就成了“具身智能”。這時的 AI 將更接近整合了智力、物理的體驗。但這些都非常早期,還有很多工作要做。我們正處於AI泡沫中嗎?Erik Torenberg:我們來談談“泡沫”。黃仁勳、Amin Vahdat(Google工程院 Fellow 兼副總裁)、Jeetu Patel(思科總裁兼首席產品官)、和 Matt Bornstein(a16z 合夥人)都談到了正在建設的、物理基礎設施的巨大規模。AI 的資本性支出 (Capex) 佔到了 GDP 的 1%。我們應該如何思考這個“泡沫”?Ben Horowitz:我認為“它是一個問題”這件事,就意味著我們沒有處於泡沫之中。泡沫在很大程度上是一種心理現象。如果真的達到泡沫的程度,那每個人都必須相信它不是泡沫。就像在網際網路泡沫時代,價格飛漲,巴菲特開始投資科技股。他曾發誓永遠不會投資科技,因為他不懂。如果連他都“投降”了,那確實是泡沫了。現在如果你回過頭看看,網際網路顯然不是泡沫,它是真實的東西。雖然在短期內,確實發生了價格錯位,因為當時網路上根本沒有足夠的人來讓那些產品運轉起來。在 AI 領域很難看到這一點,因為短期的需求如此之大,我們現在沒有需求問題。而且,“我們五年後會遇到需求問題”的想法,在我看來非常荒謬。會不會出現像“我們沒有足夠的冷卻能力”這樣的奇怪瓶頸?也許會。但就現在而言,如果看需求和供應,以及市盈率,這根本不像是一個泡沫。Marc Andreessen:順便說一句,很多 VC 也不知道是不是泡沫,他們只會感到沮喪。當創業者們拿到更高的估值時,VC 們會感到情緒上非常沮喪,這讓他們很生氣。這導致有很多人在情緒上“希望”它是一個泡沫,沒有什麼比錯過一個交易,然後看著這家公司取得巨大成功更糟糕的了。“那個估值太離譜了!” 在我們的行業裡,你可以為此憤怒 30 年。所以我總是說,把對話帶回到“基本面”。兩個最大的基本面是:第一,技術是否真的有效? 它能兌現它的承諾嗎?第二,客戶是否在為它付費?如果這兩件事都是真的,那麼只要這兩件事保持穩固,通常事情都會步入正軌。AI巨頭與新貴誰能贏Erik Torenberg: 有人曾說 ChatGPT 對 Google 來說是一個“珍珠港時刻”。當我們回顧關鍵的時代轉折點時,是什麼決定了是“在位者”獲勝,還是“新進入者”獲勝?Ben Horowitz: 對變化做出反應是很重要的。我認為 Google 確實把頭抬起來了,所以它不會被徹底碾壓,但我也不認為 OpenAI 會消失。部分原因是速度,這是在一個很長時期內的執行力。這些非常大的公司中,有一些在不同程度上已經失去了執行能力。微軟在 Google 搜尋上栽了跟頭。微軟仍然非常強大,但它錯過了整個搜尋機會,也錯過了移動網際網路。但它仍然憑藉 Windows 壟斷地位如此龐大,以至於他們可以在其他領域發展。所以新公司贏得了新市場,但這並不意味著上一代的巨頭會消失。Marc Andreessen:我也認為我們還不知道最終產品的形態和形式。現在常見產品形態,要麼是聊天機器人,要麼是搜尋引擎。Google 面臨的問題是“創新者的窘境”。你是否要顛覆“10個搜尋結果連結”的模式,換上 AI 答案?畢竟這會顛覆廣告模式。而 OpenAI 的問題是,他們有完整的聊天產品,但他們還沒有廣告或 Google 規模的分發管道。所以,你可能會說:“好吧,這是一個非常清晰的、一對一的場景。”但是,這種思維方式可能犯的錯誤是,它假設了5年、10年、20年後,人們將要使用的主要產品形態,將是搜尋引擎或聊天機器人。一個明顯的歷史類比就是,個人電腦從1975年發明到1992年,它一直是一個“文字提示詞”(text prompt)系統。在當時,一個“互動式文字提示符”相比於打孔卡系統,已經是一個巨大的進步了。到了1992年,17年後,整個行業突然轉向了 GUI(圖形使用者介面),並且再也沒有回頭。又過了5年,行業又轉向了“網路瀏覽器”,再也沒有回頭。所以,使用者體驗的形態和本質仍未定型。我敢肯定20年後還會有聊天機器人,但我同樣非常確信,無論是現有的聊天機器人公司,還是許多新公司,都將找出許多種類的、我們甚至還不知道的、截然不同的使用者體驗。“短缺”終將成為“過剩”Erik Torenberg:當你指導企業家時,這個時代還有什麼讓你感覺不同的?你還想給他們留下那些這個時代的獨特建議?Ben Horowitz:我認為你說了正確的事情,那就是:這是一個獨特的時代。所以,試圖學習過去的組織設計經驗,或者試圖從上一代人那裡學到太多東西,可能是具有欺騙性的,因為事情真的不一樣了。人們建立公司的方式,在很多方面都非常不同。大家對 AI 博士研究員的觀察,就和一個傳統的全端工程師非常不同。所以我認為必須從第一性原理去思考很多事情,因為它就是不同的。Marc Andreessen:我只想提供一點:我認為事情會發生變化。我認為產品的形態和形式將會改變,仍然有很大的創造空間。我還認為,在一個供需的世界裡,造成“過剩”的一直是“短缺”。當某個東西變得過於稀缺時,就會產生巨大的經濟激勵,讓很多人去搞清楚如何釋放新的供應。當前這一代的 AI 公司正在與 AI 研究人員和工程師的短缺作鬥爭。然後他們受到了基礎設施容量、晶片、資料中心和電力的短缺的挑戰。我不想預測轉變的時間點,但總會有一天,這兩樣東西都會變成“過剩”。先來說研究人員/工程師。中國正湧現出卓越的模型,它們來自多家公司,特別是 Deepseek、Qwen 和 Kimi。值得關注的是,創造這些模型的團隊,很大程度上並不是那些名字出現在所有論文上的“大牌人物”。中國正在成功地把年輕人帶入這個領域並把他們培養好。Ben Horowitz: 嗯,xAI 很大程度上也是如此。Marc Andreessen: 是的。所以我覺得資訊正在被傳遞到環境中,人們正在學習如何做這件事,未來會有更多的人知道如何建構這些東西。當然,也還有 AI 正在建構新的 AI,工具本身將會變得更擅長為此做出貢獻。我認為這是好事,因為目前工程師的短缺程度太束手束腳了。在晶片方面,我不是一個晶片專家,但晶片行業的每一次短缺最終都導致了過剩。因為短缺帶來的利潤池太大了,利潤率變得太高了,激勵著其他人進入並找出如何將該功能商品化的方法也太多了。所以,輝達或許擁有晶片領域有史以來最好的地位。但儘管如此,我很難相信,5年後基礎設施還會面臨這種程度的壓力。Ben Horowitz:是的。假如未來某一天基礎設施內部的瓶頸轉移了,比如它變成了電力或冷卻,那麼肯定會遇到晶片過剩。Marc Andreessen:我們大家在五年後所面臨的挑戰,將會是不同的挑戰。AI競賽的“第二階段”,要看中國Erik Torenberg: Marc,你提到了中國。我們應該如何理解美國與中國之間的 AI 競賽?Marc Andreessen:如果只觀察目前的情況,特別是像 Deepseek,Qwen 以及那些來自中國的模型,我想說,美國和西方在“概念創新”(conceptual innovations)方面,一直領先。但中國極其擅長獲取創意,並將其執行、規模化和商品化。他們在整個製造業世界都是這樣做的,而且他們現在在 AI 領域也做得非常成功。所以我想說,中國在“追趕遊戲”中跑得非常好。當然,他們渴望的不止於此,中國有很多非常聰明和有創造力的人。所以,現在看看概念上的突破在多大程度上會開始來自那裡,以及他們是否會超越,這將是很有趣的。但是,這是一場全面的競賽,是一場賽跑,而且賽況非常激烈,分毫必爭。我們不會有5年的領先優勢,我們可能最多隻有 6 個月的領先優勢。軟體的競賽感覺還算不錯,我認為我們真的非常擅長軟體。但是當這件事進入以機器人形式出現的“具身智能”時,我認為事情會變得可怕得多。這就是我現在花時間在華盛頓特區,試圖真正教育人們的事情。美國和西方在過去40年裡,選擇了在一定程度上“去工業化”(de-industrialize)。中國現在擁有一個龐大的工業生態系統,用於製造各種機械、電氣、半導體和現在的軟體,同時也包括各種裝置,比如手機、無人機、汽車和機器人。AI 競賽將有第二階段,那就是機器人技術。它很快就會到,當它到達時,即使美國在軟體上保持領先,機器人也得被立刻製造出來。這不是一件容易的事,不是單一公司能做到的,它必須是一個完整的生態系統。就像汽車工業當年一樣,整個行業不是只有三家公司,而是有成千上萬的零部件供應商。機器人技術也將如此,而且,這一切正在中國發生。所以,即使中國在軟體上永遠趕不上我們,他們也非常有可能在硬體上直接“套圈”我們,然後比賽就結束了。但美國正在意識到這件事。我持謹慎樂觀地認為,美國將在這方面取得一些進展,但確實還有很多工作要做。 (四木相對論)