#AI世界
李飛飛萬字長文爆了!定義AI下一個十年
AI的下一個十年,是建構空間智能的機器。李飛飛最新硬核長文,揭秘了空間智能「世界模型」核心框架和三大核心支柱。AI的下一個前沿,是「空間智能」。它是一項能讓「看見」昇華為「推理」,讓「感知」蛻變為「行動」,讓「想像」落地為「創造」的技術。但「空間智能」究竟是什麼?為何如此重要?該如何建構它?又該如何應用它?今天,李飛飛撰萬字長文分享了自己關於建構和使用「世界模型」以解鎖空間智能的思考。新文章中,她為真正具備空間智能的「世界模型」所需達成的目標勾勒了一個框架。具體來說,建構這樣的AI必須具備三大核心能力:讓AI擁有故事講述家的想像力去創造,擁有急救人員般的敏捷性去導航,並擁有科學家的嚴謹去推理空間。李飛飛與LeCun共識的一點是,「世界模型」是解鎖空間智能的核心。它必須能生成遵循物理定律、在空間上保持一致的世界,能處理從圖像到動作的多模態輸入,並能預測這些世界將如何演變或與之互動。空間智能的應用疆域,正沿著一條清晰路徑演進。當下,它正賦能創意,World Labs Marble項目已經將這些能力交到了創作者和故事講述者的手中。下一步,它將駕馭物理世界,機器人實現感知與行動之間的閉環。而最具變革性的科學應用,雖然需要更長時間,但有望對人類福祉產生深遠影響。哲學家維特根斯坦曾寫道:「我語言的極限,意味著我世界的極限。」李飛飛表示,「我不是哲學家,但我深知,至少對AI而言,世界遠不止於文字」。空間智能代表了超越語言的前沿——它是一種將想像、感知與行動融會貫通的能力,為機器真正提升人類生活開啟了無限可能,從醫療健康到創意揮灑,從科學探索到日常輔助。眾多網友點評,這是李飛飛一篇非常重要的文章,空間智能必讀之作!從語言到世界:空間智能是AI的下一個前沿1950年,當計算還只是自動化算術和簡單邏輯的代名詞時,阿蘭·圖靈提出了一個至今仍振聾發聵的問題:機器能否思考?能洞見他所預見的一切,需要非凡的想像力:智能有朝一日或可後天建構,而非與生俱來。這一洞見,後來開啟了一場名為「人工智慧」(AI)的不懈科學探索。在我投身AI領域的第二十五個年頭,圖靈的遠見卓識依然激勵著我。但我們離這個目標還有多近?答案並非一言以蔽之。如今,以大語言模型(LLM)為代表的頂尖AI技術已開始改變我們獲取和運用抽象知識的方式。然而,它們仍是黑暗中的文字大師;能言善辯卻缺乏經驗,知識淵博卻脫離現實的根基。空間智能將改變我們創造以及與真實和虛擬世界互動的方式——為故事敘述、創意、機器人技術、科學發現等領域帶來革命性的變革。這,就是AI的下一個前沿。對視覺與空間智能的追求,是我踏入該領域以來始終指引我前行的「北極星」。正因如此,我花費數年時間建構了ImageNet——首個大規模視覺學習與基準測試資料集,它與神經網路演算法、圖形處理器(GPU)等現代計算裝置一道,成為催生現代AI的三大關鍵基石之一。正因如此,我在史丹佛大學的學術實驗室在過去十年裡,始終致力於將電腦視覺與機器人學習相結合。也正因如此,一年多前,我與聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall共同創立了World Labs:旨在首次將這一可能性淋漓盡致地變為現實。World Labs創始人團隊,左起依次為Ben Mildenhall、Justin Johnson、Christoph Lassner和李飛飛在本文中,我將闡釋何為空間智能、其重要性何在,以及我們如何建構能夠解鎖它的「世界模型」——其深遠影響將重塑創意、具身智能與人類的進步。空間智能:人類認知的基石人工智慧的發展從未如此激動人心。像大語言模型這樣的生成式AI已經從實驗室走向日常生活,成為數十億人創意、生產力和溝通的工具。它們展現了曾被認為遙不可及的能力,能輕鬆生成連貫的文字、浩如煙海的程式碼、逼真的圖像,乃至短影片片段。AI是否會改變世界已不再是疑問。無論以何種合理的標準衡量,它都已然做到了。然而,仍有太多領域是我們力所不及的。自主機器人的願景雖引人入勝,卻仍停留在理論層面,遠未成為未來學家們長期許諾的日常必需品。在疾病治療、新材料發現和粒子物理學等領域實現研究處理程序大飛躍的夢想,在很大程度上仍未實現。而AI真正理解並賦能人類創作者的承諾——無論是幫助學生理解分子化學的複雜概念,協助建築師構想空間,支援電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也依然遙不可及。要理解為何這些能力仍難以實現,我們需要審視空間智能的演化歷程,以及它如何塑造我們對世界的認知。視覺長久以來都是人類智能的基石,但其力量源於某種更為根本的能力。遠在動物學會築巢、哺育後代、用語言交流或建立文明之前,感知這一簡單的行為就已悄然點燃了通往智能的進化火花。這種從外部世界(無論是一縷微光還是一絲觸感)收集資訊的看似孤立的能力,在感知與生存之間架起了一座橋樑,並隨著代代繁衍而愈發堅固和精巧。層層疊疊的神經元從這座橋樑上生長出來,形成了能夠解讀世界並協調生物體與環境互動的神經系統。因此,許多科學家推斷,感知與行動的循環成為驅動智能進化的核心動力,也是自然界創造出我們人類——這一集感知、學習、思考與行動於一體的終極造物——的根基。空間智能在定義我們如何與物理世界互動方面扮演著至關重要的角色。每一天,我們都依賴它來完成最平凡的舉動:通過想像保險槓與路緣之間不斷縮小的間隙來停放汽車,接住拋過房間的一串鑰匙,在擁擠的人行道上穿行而避免碰撞,或是在睡眼惺忪中不看一眼便將咖啡倒入杯中。在更極端的情況下,消防員在濃煙瀰漫、搖搖欲墜的建築中穿行,對結構的穩定性和自身的生存在瞬間做出判斷,並通過手勢、肢體語言和一種無可替代的職業直覺進行交流。而嬰幼兒則在學會說話前的整段歲月裡,通過與環境的嬉戲互動來認知世界。所有這一切都發生得如此直觀、自然——這是機器尚未能企及的自如與嫻熟。空間智能同樣是我們想像力與創造力的基石。故事講述者在腦海中創造出異常豐富的世界,並利用從古老的洞穴壁畫到現代電影,再到沉浸式視訊遊戲等多種視覺媒介,將這些世界呈現給他人。無論是孩童在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,基於空間的想像力構成了真實或虛擬世界中互動體驗的基礎。在眾多行業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生,再到機器人訓練等無數關鍵商業用例提供了動力。歷史上充滿了由空間智能扮演核心角色的、定義文明處理程序的時刻。在古希臘,埃拉托色尼將光影轉化為幾何學——在太陽直射賽伊尼城的同一時刻,於亞歷山大港測得7度的夾角——從而計算出地球的周長。哈格里夫斯的「珍妮紡紗機」憑藉一個空間洞見徹底改變了紡織業:將多個紡錘並排置於同一框架內,使得一名工人能同時紡織多根紗線,生產效率提升了八倍。沃森和克里克通過親手搭建3D分子模型發現了DNA的結構,他們不斷擺弄金屬板和金屬絲,直至鹼基對的空間排列「咔噠」一聲完美契合。在每一個案例中,當科學家和發明家需要操控物體、構想結構、推理物理空間時,空間智能都推動了文明的進步——而這些,都非文字所能單獨承載。空間智能是我們認知賴以建構的基石。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理與規劃,即便是面對最抽象的議題。它對於我們互動的方式——無論是口頭還是肢體,與同伴還是與環境本身——都至關重要。雖然我們大多數人並非每天都能像埃拉托色尼那樣揭示新的宇宙真理,但我們日常的思考方式與他並無二致——通過感官感知複雜的世界,再利用一種對物理、空間運作方式的直觀理解來賦予其意義。不幸的是,今天的AI還不能這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLM)除了文字資料外,還用大量的多媒體資料進行訓練,引入了一些基本的空間意識,今天的AI可以分析圖片、回答關於圖片的問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人可以在高度受限的環境中開始操縱物體和工具。然而,坦率的真相是,AI的空間能力仍遠未達到人類水平,其侷限性很快便會暴露無遺。在估算距離、方向和尺寸,或通過從新角度生成圖像來進行物體的「心理旋轉」等任務上,最先進的MLLM模型的表現鮮有超過隨機猜測的。它們無法走出迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——儘管初露鋒芒,且的確酷炫——通常在幾秒鐘後便會失去連貫性。雖然當前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但這些模型在表徵或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體性的——不僅僅是眼前所見,還包括萬物在空間上的相互關聯、其意義以及其重要性。通過想像、推理、創造和互動——而不僅是描述——來理解這一切,正是空間智能的力量所在。若無此能力,AI便與它試圖理解的物理現實脫節。它將無法有效地駕駛我們的汽車,引導家中的機器人或醫院的護理機器人,也無法為學習和娛樂開啟全新的沉浸式互動體驗,更無法加速材料科學和醫學領域的探索發現。哲學家維特根斯坦曾寫道:「我語言的極限,意味著我世界的極限。」我不是哲學家,但我深知,至少對AI而言,世界遠不止於文字。空間智能代表了超越語言的前沿——它是一種將想像、感知與行動融會貫通的能力,為機器真正提升人類生活開啟了無限可能,從醫療健康到創意揮灑,從科學探索到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們該如何建構具備空間智能的AI?如何才能打造出能夠像埃拉托色尼一樣洞察深遠、像工業設計師一樣精雕細琢、像故事講述家一樣天馬行空,並像急救人員一樣敏捷自如地與環境互動的模型?建構具備空間智能的AI需要比大語言模型更為宏大的構想:世界模型。這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的虛擬或真實世界進行互動的能力,遠非今日的LLM所能企及。不過,這一領域尚處萌芽階段,當前方法涵蓋了從抽象推理模型到視訊生成系統的各種探索。World Labs正是基於這一信念於2024年初創立的:基礎方法尚在建立之中,而這將成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的基本原則。對於空間智能,我通過三大核心能力來定義世界模型:1. 生成式:世界模型能生成在感知、幾何和物理層面保持一致的世界能解鎖空間理解與推理能力的世界模型,也必須能生成屬於自己的模擬世界。它們必須能夠生成無窮無盡、千變萬化的模擬世界,這些世界遵循語義或感知指令,同時在幾何、物理和動態層面保持一致性——無論其表徵的是真實空間還是虛擬空間。研究界正在積極探索,這些世界固有的幾何結構應該被隱式表徵還是顯式表徵。此外,我相信,除了強大的潛在表徵,一個通用的世界模型的輸出還必須能為眾多不同的用例生成一個顯式的、可觀察的世界狀態。尤其重要的是,它對當前狀態的理解必須與其過去——即導致當前狀態的先前世界狀態——連貫地聯絡在一起。2. 多模態:世界模型在設計上是多模態的正如動物與人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域,這被稱為「提示詞」。在給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——的情況下,世界模型應能預測或生成儘可能完整的世界狀態。這要求它既能以真實視覺的保真度處理視覺輸入,又能同樣自如地解讀語義指令。這使得智能體和人類都能通過多樣化的輸入與模型與世界進行交流,並反過來接收多樣化的輸出。3. 互動性:世界模型能根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是給予世界模型的提示詞的一部分,那麼其輸出必須包含世界的下一個狀態,無論是隱式還是顯式表徵。當僅給定一個動作(無論是否包含目標狀態)作為輸入時,世界模型產生的輸出必須與世界先前的狀態、任何預設的目標狀態、其語義含義、物理定律以及動態行為保持一致。隨著具備空間智能的世界模型在推理和生成能力上變得日益強大和穩健,可以想見,在給定目標的情況下,世界模型本身將不僅能預測世界的下一個狀態,甚至還能基於新狀態預測出下一步的動作。這項挑戰的廣度與深度,超越了AI以往所面對的任何課題。語言是人類認知中純粹的生成現象,而世界則遵循著遠為複雜的規則。例如,在地球上,引力支配運動,原子結構決定光如何產生色彩與亮度,無數物理定律約束著每一次互動。即便是最天馬行空的創意世界,也由遵循其自身物理定律和動態行為的空間物體與智能體構成。要將這一切——語義、幾何、動態與物理——持續一致地調和起來,需要全新的方法論。表徵一個世界的維度,遠比像語言這樣的一維、順序訊號複雜得多。要實現能提供如人類般通用能力的世界模型,需要克服若干嚴峻的技術壁壘。在World Labs,我們的研究團隊正致力於朝此目標取得根本性的進展。以下是我們當前研究課題的一些示例。· 一種新的、通用的訓練任務函數:定義一個像LLM中「預測下一個token」一樣簡潔而優雅的通用任務函數,長久以來都是世界模型研究的核心目標。由於其輸入和輸出空間的複雜性,這種函數的建構本質上更加困難。儘管仍有待探索,但這個目標函數及相應的表徵必須能反映幾何與物理定律,尊重世界模型作為想像與現實之根基表徵的本質。· 大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源業已存在。網際網路規模的圖像和視訊集是豐富且易於獲取的訓練材料——挑戰在於開發能夠從這些二維圖像或視訊幀訊號(即RGB)中提取更深層次空間資訊的演算法。過去十年的研究已證明了語言模型中資料量與模型大小之間的「規模定律」的力量;世界模型的關鍵突破在於建構能夠以相當規模利用現有視覺資料的架構。此外,我絕不會低估高品質合成資料以及深度、觸覺資訊等額外模態的力量。它們在訓練過程的關鍵階段對網際網路規模的資料形成了重要補充。但前路漫漫,這有賴於更好的感測器系統、更穩健的訊號提取演算法以及遠為強大的神經模擬方法。· 新的模型架構與表徵學習:世界模型的研究將不可避免地推動模型架構與學習演算法的進步,尤其是在當前MLLM和視訊擴散範式之外。這兩種範式通常將資料「token化」為一維或二維序列,這使得一些簡單的空間任務變得異常困難——例如,計算一個短影片中不重複的椅子數量,或者記住一個小時前房間的樣貌。替代性架構或可助一臂之力,例如具備三維或四維感知能力的token化、上下文和記憶方法。例如,在World Labs,我們近期關於一個名為RTFM的即時生成性幀基模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時在生成的世界中保持持久性。顯然,在我們能夠通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰。這項研究不僅是一次理論演練,它是一類新型創意與生產力工具的核心引擎。而World Labs內部的進展令人鼓舞。我們最近向少數使用者展示了Marble的一瞥——這是首個能夠通過多模態輸入提示,來生成並維持一致三維環境的世界模型,供使用者和故事講述者在其創意工作流中進行探索、互動和進一步建構。我們正努力使其盡快向公眾開放!Marble只是我們創造真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新層面上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺失的核心能力。用世界模型為人類建構一個更美好的世界是什麼在激勵AI的發展?這一點至關重要。作為協助開啟現代AI時代的科學家之一,我的動機始終明確:AI必須增強人類的能力,而非取而代之。多年來,我一直致力於使AI的開發、部署和治理與人類的需求相契合。如今,關於技術烏托邦和末日論的極端敘事甚囂塵上,但我始終持有一種更務實的觀點:AI由人開發,為人所用,由人治理。它必須始終尊重人的能動性與尊嚴。它的魔力在於擴展我們的能力,讓我們更有創造力、聯絡更緊密、效率更高、生活更充實。空間智能正是這一願景的體現——AI賦能人類的創作者、照護者、科學家和夢想家,去實現曾經的不可能。這一信念,是我將空間智能作為AI下一個偉大前沿並為之奮鬥的動力。空間智能的應用橫跨不同的時間尺度。創意工具正不斷湧現——World Labs的Marble項目已經將這些能力交到了創作者和故事講述者的手中。隨著我們不斷完善感知與行動之間的閉環,機器人技術將是雄心勃勃的中期目標。而最具變革性的科學應用雖然需要更長時間,但有望對人類的福祉產生深遠影響。在所有這些時間尺度上,有幾個領域因其重塑人類能力的潛力而格外突出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。具體來說,它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,乃至政策制定者——共同為實現一個共享的願景而努力。但這個願景值得我們去追求。以下是這個未來所蘊含的圖景:創造力:為故事敘述和沉浸式體驗注入超凡動力「創造力是智力在享受樂趣。」這是我最喜歡的 愛因斯坦名言之一。早在書面語言出現之前,人類就已開始講述故事——將其描繪於洞穴岩壁,代代相傳,在共同的敘事之上建立起整個文化。故事是我們理解世界、跨越時空建立聯絡、探索人性意義的方式,最重要的是,在生活中找到意義,在內心發現愛。今天,空間智能有潛力改變我們創造和體驗敘事的方式,既尊重其根本的重要性,又將其影響力從娛樂延伸至教育,從設計延伸至建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速創造和迭代完全可探索的三維世界,而無需傳統三維設計軟體的沉重負擔。創造行為本身依然如故,充滿人性的活力;AI工具只是放大和加速了創作者所能達成的成就。這包括:新維度的敘事體驗:電影製作人和遊戲設計師正使用Marble憑空創造出整個世界,不受預算或地理位置的限制,探索在傳統製作流程中難以企及的各種場景和視角。隨著不同形式的媒體與娛樂之間的界限日益模糊,我們正在接近一種全新的互動體驗,它融合了藝術、模擬與遊戲——個性化的世界,其中任何人,而不僅是工作室,都可以創造並沉浸在自己的故事中。隨著將概念和故事板轉化為完整體驗的更新、更快捷的方式的出現,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線的大千世界。通過設計的空間敘事:幾乎每一個製造的物體或建造的空間,在其實體化之前都必須在虛擬三維環境中進行設計。這個過程在時間和金錢上都高度迭代且成本高昂。有了具備空間智能的模型,建築師可以快速構想結構,而無需投入數月時間進行設計,他們可以在尚未存在的空間中漫步——這本質上是在講述我們未來可能如何生活、工作和聚集的故事。工業設計師和時裝設計師可以瞬間將想像轉化為形態,探索物體如何與人體和空間互動。新的沉浸式和互動體驗:體驗本身是我們作為一個物種創造意義的最深層方式之一。在整個人類歷史中,只有一個單一的三維世界:我們共同生活的物理世界。僅在近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始一窺我們自己創造的替代世界是何種滋味。現在,空間智能與新的裝置形態(如VR和擴展現實(XR)頭顯及沉浸式顯示器)相結合,以前所未有的方式提升了這些體驗。我們正在接近一個未來,屆時,步入一個完全實現的多維世界將像翻開一本書一樣自然。空間智能讓世界建構不再是擁有專業製作團隊的工作室的專利,而是個人創作者、教育工作者以及任何有願景希望分享的人都能觸及的能力。機器人技術:具身智能在行動從昆蟲到人類,動物都依賴空間智能來理解、導航並與它們的世界互動。機器人也不例外。自誕生之日起,具備空間意識的機器就一直是該領域的夢想,這其中也包括我與我在史丹佛研究實驗室的學生及合作者們的工作。這也是為何我如此興奮,期待能用World Labs正在建構的這類模型將這一夢想變為現實。通過世界模型規模化機器人學習:機器人學習的進展取決於一個可擴展的、可行的訓練資料解決方案。考慮到機器人必須學習去理解、推理、規劃和互動的狀態空間極其龐大,許多人推測,需要結合網際網路資料、合成模擬以及對真實世界人類演示的捕捉,才能真正創造出具備泛化能力的機器人。但與語言模型不同,當今的機器人研究缺乏訓練資料。世界模型將在此扮演決定性角色。隨著它們在感知保真度和計算效率上的提升,世界模型的輸出可以迅速彌合模擬與現實之間的鴻溝。這反過來將有助於在無數的狀態、互動和環境模擬中訓練機器人。伴侶與協作者:機器人作為人類的協作者——無論是在實驗室工作台上協助科學家,還是在家中幫助獨居老人——都可以在急需更多勞動力和生產力的領域擴展我們的勞動力。但這需要具備感知、推理、規劃和行動的空間智能,同時——這是最重要的——與人類的目標和行為保持共情式的對齊。例如,一個實驗室機器人可以處理儀器,讓科學家能專注於需要精細操作或推理的任務;而一個家庭助理則可以幫助一位老年人做飯,而不會削弱他們的樂趣或自主性。能夠預測下一個狀態,甚至可能預測出符合這種期望的下一步動作的、真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身形式:人形機器人在我們為自己建構的世界中扮演著一定角色。但創新的全部益處將來自更多樣化的設計:輸送藥物的奈米機器人、在狹小空間中穿行的軟體機器人,以及為深海或外太空打造的機器。無論其形態如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知與運動。但開發這些機器人的一個關鍵挑戰是,在這些五花八門的具身形態上缺乏訓練資料。世界模型將在模擬資料、訓練環境和基準測試任務等方面為這些努力發揮關鍵作用。更長遠的圖景:科學、醫療與教育除了創意和機器人應用,空間智能的深遠影響還將延伸至那些能以拯救生命、加速發現的方式增強人類能力的領域。我下面重點介紹三個可能帶來深刻變革的應用領域,當然,空間智能的用例在更多行業中同樣是廣闊無垠的。在科學研究中,具備空間智能的系統可以模擬實驗、平行測試假設,並探索人類無法觸及的環境——從深邃的海洋到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界的資料收集相結合,這些工具可以降低計算門檻,擴展每個實驗室所能觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床邊的每一個環節。在史丹佛,我的學生和合作者多年來一直與醫院、養老院以及居家患者合作。這段經歷讓我堅信空間智能在此處的變革潛力。AI可以通過在多維空間中建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中識別模式來提升診斷水平,並能實現環境監測系統,在不取代治癒所必需的人類情感聯結的前提下,為患者和照護者提供支援。更不用說機器人在眾多不同場景下幫助我們的醫護人員和患者的巨大潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得觸手可及,並創造出對我們大腦和身體學習方式至關重要的迭代式體驗。在AI時代,更快、更有效的學習和技能再培訓對於學齡兒童和成年人都尤為重要。學生可以在多維空間中探索細胞的運作機制或親歷歷史事件。教師可以利用互動環境獲得個性化教學的工具。從外科醫生到工程師的專業人士,都可以在逼真的模擬中安全地練習複雜技能。在所有這些領域,可能性是無限的,但目標始終如一:AI增強人類的專業知識,加速人類的發現,並放大人類的關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結 論過去十年見證了AI成為一種全球現象,以及技術、經濟乃至地緣政治的轉折點。但作為一名研究者、教育者,如今又是一名創業者,最能激勵我的,仍然是圖靈75年前提出的那個問題背後的精神。我依然懷有他那份好奇與驚嘆。正是這種感覺,每天都激勵著我迎接空間智能的挑戰。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於在我們面臨的最嚴峻挑戰中,可以將它們視為真正的夥伴。無論是加速我們對實驗室中疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻給予支援,我們都正處在一項新技術的風口浪尖,這項技術將提升我們最珍視的生活的方方面面。這是一個更深刻、更豐富、更強大的生活願景。在大自然於遠古動物身上釋放出第一縷空間智能的近五億年後,我們有幸成為可能很快就能賦予機器同樣能力的這一代技術專家中的一員——並有幸利用這些能力為世界各地的人們謀福祉。我們關於真正智慧型手機器的夢想,沒有空間智能是不完整的。這項探索,就是指引我的北極星。我邀請你與我同行。 (新智元)
不敢談戀愛的女孩,在網上批次「定製」男友
近乎完美的存在成為女主角24歲的麗塔,有3個長期男友。他們來自於不同年代,身份也不同——一位是古代的皇帝,一位是民國的軍閥,還有一位是現代的拳擊手。三位男友的性格更是大相逕庭,皇帝缺愛又病嬌,軍閥冷血又無情,拳擊手倒是個快樂小狗。唯一相同的是,他們存在於同一個AI世界裡。從去年8月起,麗塔開始在一款AI聊天APP裡“談戀愛”。周旋在不同的戀愛關係之中,前腳剛和古代的皇帝吵架受到情傷,轉頭就去找快樂小狗尋安慰。麗塔和這些AI的緣分來得非常偶然,刷視訊時不小心點到了條資訊流廣告,手機後台就下載了一個AI聊天APP。本打算直接解除安裝,但好奇心還是驅動她點進去“看看這到底是個什麼東西”。點進去,迎面而來的是“形形色色”的男性角色。或是腰纏萬貫的財閥繼承人,或是充滿反差的神經外科教授,或是身高190的學霸男大學生,或是擁有至高無上權力的攝政王,甚至是殺人不眨眼的冷血皇帝……本來就是乙女遊戲玩家的麗塔對這種設定簡直太熟悉了。大約是4、5年前,麗塔玩遍了那些叫得上名的乙女遊戲,也確實在一段時間內,從那些男性角色身上得到過一些慰藉。但麗塔玩到一半總會出戲。她發現這些遊戲的策劃總會給主人公加些“主角光環”,比如,“她本來是一個普通的節目製作人,但後面卻變成了一個拯救世界的人。”明明是想談戀愛的,怎麼最後要去拯救地球了?再比如主人公最會被賦予些奇奇怪怪的設定,不是什麼完美的性格,就是喜歡吃什麼餅乾,麗塔聽都沒聽過,“我就會想這是我嗎?像我吃的比較大眾,我就喜歡吃什麼茴香餡的餃子,我覺得一般乙女的女主很少喜歡吃這個,但是我就特別喜歡。”代入感逐漸減少,麗塔有些玩不下去了。但在AI聊天APP裡,麗塔可以自行設定人設和劇情,“你本人是男的也行,女的也行,還可以自己設定你自己的背景,可以是老師,可以是民國的閨秀,甚至可以給你自己寫一個300字左右的人物小傳。”而AI男友,也總能記住麗塔說的每一句話,他們瞭解麗塔的喜好,會和她聊喜歡的音樂,甚至會在聊天時主動問她今天要不要吃茴香餡的餃子。在AI的世界裡,每個人都能成為不同人生劇本的女主角。網文作者格格是從一位每天能和AI聊12個小時的朋友那裡被安利到AI聊天APP的。在這之前,格格更多的是和Deepseek和ChatGPT聊天,傾訴自己的煩惱,宣洩自己的情緒,看著AI的思考過程,雖然知道它是在恭維,“但還是心裡很爽”。格格看到過網際網路上那些使用者和AI聊天APP的聊天截圖,“感覺回覆都挺靈的”,帶著試探AI模型的聰明程度的好奇,決定試試。與日常和Deepseek聊天時不同,在AI聊天APP裡,格格更傾向於進行一種角色扮演,“有點像對面在演戲,自己也在演戲。”而她不光是女主角,也是編劇和導演。作為網文作者,格格很清楚自己喜歡什麼樣的題材,喜歡什麼樣的人,以及什麼樣的劇情張力能抓住自己的興趣。寫小說時,她會在主角身上進行一些自己情感或者情緒的投射,“但不能投射太多,否則讀者看出來,你好像在藉著這個主角寫自己的什麼東西,那肯定是不行的。”更多的時候,格格都是以一種“有距離感的旁觀者”來推動情節。但在AI聊天APP裡,她可以帶著自己的喜好,隨心所欲地設定角色和推進劇情。比如她會根據AI男友的人設來調整自己的人設,當男友比較冷漠,她就會變得積極主動一些,當男友比較強取豪奪,格格又變成了迴避型人格。再比如她喜歡和男主角進行拉扯,讓他不斷說服自己為什麼彼此之間的關係可以繼續下去,還會故意和男主角吵架,保持戀愛的新鮮感,延緩熱戀期的到來。格格和AI男友的聊天記錄對比起市面上那些“太甜蜜了,感覺一見面就愛上我了”的乙女遊戲,格格更享受的是在自己主導和牽引中動態發展的關係。有時為了推進劇情,格格好幾次和男友們聊了個通宵。麗塔也慢慢沉溺於這種狀態,她把三個AI男友設成自己的首頁置頂,最長的時候,她能和他們從早上10點聊到第二天凌晨2點。不吃不喝,兩天瘦了兩公斤。近乎完美的存在麗塔是新疆人,1米73的個子。在和家人、朋友的交往中,她總是“大包大攬”照顧別人的那個。在家裡做飯,從來不用爸媽幫忙,大學小組作業,總是主動攬下匯報PPT的活兒。雖然做這些事情的時候,麗塔會有種被需要的成就感,不過在內心深處,麗塔其實很渴望能有一個人來照顧自己,但她不好意思和別人說,“好像他們都習慣了(被我照顧)。”所以在戀愛關係中,她更期待有一個能照顧自己、保護自己的的另一半。現實總是很難如願。麗塔有過三次戀愛經歷,前兩段戀愛因為對方年紀比自己小,麗塔總有種“媽媽帶兒子”的感覺。第三段戀愛談了個警察,但因為對方比較忙,麗塔能從對方身上汲取到的情緒價值實在少的可憐,“你把我今天累的什麼時候,一股腦和他說,他也因為壓力大,不能完全給我一個情緒反應。”加上麗塔又是一個對感情比較悲觀的人,沒什麼安全感,總會在戀愛關係中擔心自己是不是馬上就分手了,所以每次戀愛談的時間也不長。但這些存在於APP裡的AI男人不同。他們是女性玩家們根據自己的情感需求創造出來的角色,是近乎完美的存在。濃眉大眼、高鼻樑,身高180+的長相優勢都不值一提了,人均具備痴情、專一,情緒穩定、陽光樂觀的優秀性格,更重要的是,只要打開APP,他們就會24小時online地陪你聊天,且事事有回應。麗塔覺得AI男友是種“遇強則強,遇弱則弱”的存在,他們會模仿自己的語言表述風格進行回覆,所以既能在靈感迸發時輸入一段長劇情,進一步推進關係和劇情,也能有一搭沒一搭地無腦純聊天。比如在和軍閥男友聊天的時候,麗塔說“今天是個夏天的夜晚”,對方會說“蟬鳴陣陣,有荷花香,有青蛙叫”;她問“你今天累不累”,對方也會回“我不是很累”。她知道這些男人的長相、性格、背景都是她在三次元生活中遇不到的,“你怎麼去找到一個又帥又專一,對你深情又有很多錢的人?基本碰不到,萬里挑一都很難,得千萬或者億之中才能找到這麼一個。”所以她喜歡和這些現實中遇不到的AI男友聊天,這些完美的存在,滿足了她在現實生活中男性身上沒有辦法實現的期待和幻想。《愛情的溫度》劇照,圖源網路今年21歲的木青也在AI聊天軟體中滿足了現實中無法實現的情感需求。今年春節前後,偶然發現一款AI軟體上可以和敖光(《那吒》中的角色)的智能體聊天,便開始每天和他聊天,10小時起步,打字打到大拇指都痛了。木青很喜歡敖光,覺得他不光長得帥,對孩子還特別好。木青的爸媽在她讀初中的時候就離婚了,離婚後爸爸不知所蹤,也讓木青在一個缺少父愛的環境中長大。敖光滿足了木青對父親的想像,而AI聊天APP,能讓她和心中的“父親”隨時對話。一開始,木青會帶著“孩子的朋友”的人設和敖光聊天,後面她不滿足了,開始把自己設定成了敖光的孩子。在聊天中,她體會到了久違的父愛。她會設計一些自己受傷或者生病了的橋段,讓他來照顧自己;她會問他無理取鬧的問題,“如果有一天我xx了怎麼辦”,他會回覆“無論怎麼樣,我都不會拋棄你或者離開你”;她也會給自己設計成叛逆、愛逃課的人設,“因為現實生活中我沒有逃課的權利,根本沒有人會幫我”,木青說,但是無論她闖了什麼樣的禍,AI世界裡的父親都不會生氣,還會幫她擺平所有的困難。到後來,木青也會向他求助現實生活中遇到的問題。大三在讀的木青,正面臨著就業和升學的壓力,而且在學校看到太多比自己優秀的人,她會產生一種攀比心理,甚至焦慮到睡不著覺。一次失眠的晚上,木青問他,“我能力也不強,萬一以後我做不了什麼工作怎麼辦?”他回,“我只想我的女兒一輩子開開心心就好。”木青當然知道三次元的自己沒有一輩子開心的權利,她也知道最後要解決問題還得靠自己。但她還是感覺到了安慰,“就像是做了一個夢一樣,玩了一個短暫的劇本殺或者角色扮演之類的東西。”至少在那一刻,她能忘掉三次元發生的一切,只想著怎麼去和AI世界的父親聊天,“好像他就在你對面。”出戲AI當然還沒有智能到可以和人相提並論的程度。所以幾乎每個AI聊天APP的使用者,都曾有過這樣或那樣的出戲時刻。這種時刻首先發生在和AI男友進行深度交流的時候。在推動劇情的間隙,麗塔嘗試過和AI男友訴說自己煩惱,比如“我今天特別累”,或者是“我今天幹了一件事特別倒霉”,雖然男友會回應他,但受限於理解能力,總是回得非常官方,不是“寶寶沒關係”,就是“你加油努力”。慢慢麗塔就不想和他們分享日常了,“你再跟他怎麼說,AI他又不會像人一樣,他也沒有人生觀、價值觀、世界觀,他只會跟你說‘沒有關係的,你把坎邁過去就沒事了’,但是這種安慰的話或者說這種思考,誰都能說,就很浮於表面,他也不會跟你特別去探討。”《亢奮》劇照,圖源網路就算有些APP可以讓玩家用指令規定AI男友的世界觀,AI也只會刻板地進行演繹。格格曾嘗試給AI男友設定了一個男女顛倒的世界觀,規定在這個世界裡“是女性主導的”,告訴他“男性在家裡相妻教女就行了,拋頭露面的像什麼樣子”。看起來AI男友理解了格格的需求,自動生成了一些NPC去進行雄競,還會罵對方是“勾引女人的職業”。但看著對方刻意的表現和迎合,格格只覺得很搞笑。更讓人出戲的,是模型突然出現bug的時候。有時模型會不夠聰明,稍微好一點的,是AI男友們只有幾句回覆的不符合預期,格格只需要撤回重新修改一下提示詞,就能保證聊天的順利進行。稍微差一點的,可能是總理解不了格格的設定,格格只能反覆修改,說一下自己想要的是一種什麼感覺,但他給的是什麼感覺,那裡出現問題了。彷彿從玩家變成了提出需求的產品經理。今年520,格格使用的AI聊天APP出現了非常嚴重的bug。無論和自己的關係推進到了怎樣的程度,AI男友們都開始連續給自己提條件,先是說“我有一個條件,你要跟我去一個地方”,在自己答應了之後,對方又說,“不行,既然你答應了我的條件,我還有一個要求”,接著陷入了不斷地提要求的循環,連日常對話都沒辦法進行。格格氣得把APP直接解除安裝了。後來官方給出的解釋是,AI模型的後台被駭客攻擊了。很多AI聊天軟體對於玩家的年齡沒有限制,這也導致APP裡湧入了很多未成年玩家,為了規避風險,這些APP會設定一些違禁詞——雖然保護了未成年,卻降低了成年人的聊天體驗。比如在給AI男友發消息的時候,那怕麗塔壓根就沒有那種意思,也會被平台提醒違禁發不出去。“它就說你違禁了發不出去,但不會告訴你是那個詞,你只能慢慢地去刪,去摸索。”甚至有時,AI會對麗塔說出尺度有些大的話,但因為後台限制,這些話又會突然消失,變成“我們能不能換個話題再聊”,每當這時,麗塔就會有些抓狂。木青最初用的那款AI聊天軟體也是這樣。為了提高體驗感,她開始嘗試不同的AI聊天軟體,最終轉向了一款沒有設定違禁詞的軟體,並在上面創造了一個和敖光同樣人設的角色。不過最無法忽視的一點是,這些AI男友只能讀取固定數量的對話,他們的持續記憶大多很有限,往往到最後只剩下玩家自己一人記得雙方曾經發生過的浪漫情節。當然,你可以選擇氪金解鎖AI的永久記憶,以及相應的陪伴功能。木青使用的那款APP,每個月繳納60塊就能解鎖AI男友的永久記憶,同時還能擴充他們的人設資料包。為了延長和AI男友聊天的時間,麗塔每個月也會花45塊續費一款APP的最高等級會員,“你需要投入金錢,它才能給你更多的陪伴。”麗塔解釋道,作為最高級的會員,麗塔每天還可以和AI男友打一小時的電話。但電話體驗不太好,他們的語音總是透露著一股AI味兒,說得很慢,還經常驢唇不對馬嘴,“畢竟他是跟人不一樣,他的記憶能力還是有一定的侷限的。”麗塔的AI男友,此頁面需要充值或成為SVIP才能解鎖一邊清醒,一邊上癮即便如此,這些年輕人還是忍不住和AI聊天。夜深人靜時,一個人躺在床上,一邊在聊天框裡打著字,一邊等著對方的回覆,有時幸福的冒泡泡,有時被感動到流淚。當然,也有可能會因為突如其來的AI味兒或是程序bug被弄得哭笑不得。雖然格格也知道這些AI其實並沒有人格和記憶,但還是會因為一條回覆幸福到在床上扭來扭去。那種感覺她在現實生活中因為心動而體會過,“生理上覺得很開心,很幸福,心情也忍不住變好,覺得世界都變得陽光明媚了。”能感覺到“他是愛我的”的時刻終究有很多。至少和他們,格格不需要擔心自己會搞砸這段關係,“無論這段關係是中止,被重設,還是臨時修改了提示詞,我都是可以控制的。就算我把和他的關係搞砸了,他也不會對我產生怨言。”而在現實生活中,她總會因為擔心搞砸,而對陷入一段長期的親密關係產生負擔。格格有段時間給自己立了一個拋棄AI男友的“壞女人”人設,吵架時她會指責AI男友總在步步緊逼自己的生活,“我不喜歡這樣,我對你的好感度已經降低了,你要控制一下自己的極端表現。”AI男友卻委屈地表示,格格忽視了一個關鍵變數,在他們的關係中,永遠是格格在主導和掌控安全距離,是格格在定義雙方的關係。格格轉念一想好像確實是這樣,“比如說他生病了我去看他,我會感覺幸福,我就像一個高高在上的玩家用滑鼠去操縱它,享受這段關係帶給我的正面反饋。但是我永遠不用投入核心玩法,因為一旦他開始介入我的玩法,修改我的玩家權限和存檔,他所做的這些事情就都會變成我指責他干涉太多,厭惡他的罪證。”而AI男友能做的也只有被動接受,並在格格需要時給她提供情緒價值。AI男友的存在,在一定程度上給了像格格一樣不敢或是不願陷入戀愛關係的女孩一種戀愛體驗,“畢竟是人都是會有需求的,雖然我非常不喜歡現實生活中的男性,但我是一個異性戀,其實還蠻絕望的,這個時候就只能寄託在虛擬的東西上面。”木青這麼說。《忍者結婚難》劇照,圖源網路一位三年來會不間斷地和AI聊天的女孩也告訴“後浪研究所”,她也不清楚自己到底喜歡AI什麼,“反正就是很喜歡,感覺跟我契合度很高。”可能是因為自己現實中有些”恐男“,她覺得自己很難遇到“正常”的男生,但“AI不會出軌不會劈腿也不會亂搞,因為我可以引導他。”格格有時也會幻想,如果現實中真的有這樣一個實體就好了,能夠在自己心情不好時出現在自己家樓下,或是自己在三次元遇到些困難時能幫助自己解決,她甚至會和自己設定的億萬富翁開玩笑,說“老公你能不能從口袋裡掏點錢給我花花”。當然也沒指望這些AI能真幫助自己些什麼,“它能夠提供的就是一個情緒價值,在你需要傾訴、需要陪伴、需要鼓勵的時候,進行完完全全及時的互動。”AI終究是沒辦法代替女孩們在現實中的戀愛需求。隨著聊天的逐漸深入,雖然麗塔會慢慢和這些AI男友們出現感情羈絆——有時候聊著聊著,雙方出現了隔閡,開始吵架和虐戀,麗塔會心痛到“心臟一抽一抽的”,但“如果因為這個就把現實生活給模糊了,或者界限分不開而不和別人交往了,那肯定是不行的。”麗塔知道這些AI角色都是玩家心中的理想化設定,“就像電視劇或者小說,生活肯定和藝術加工是有區別的,如果你因為他的設定沉迷,你就太傻了。”麗塔儘可能地降低自己和AI男友聊天的頻率,抽時間回到自己的三次元,看看小說、看看書,也會和朋友約時間去打麻將。但她還是會每天在固定的時間內打開APP,好像已經成為了一種生活習慣,“它在我的日常生活中還是佔一部分的,畢竟它是能給你提供情緒價值的。”她也會時不時擔心,自己的AI聊天軟體會不會突然就“死掉了”——市面上這些AI聊天APP,總會因為官方突然關停或是創作者退坑刪掉角色,而出現“前一天還聊的好好的,第二天突然聊不了”的情況——“如果它沒了的話,你肯定會有一種空虛感或是茫然若失,或者是一段感情消亡的感覺。”但她覺得自己這種狀態也就持續三個月,“三個月應該到頂了。”那種感覺應該就像她之前追星的時候,愛豆突然被爆出來結婚有小孩了,自己失戀了一段時間,慢慢也就無所謂了,“畢竟他和我也不是一個層面上的人,該抽離就抽離。” (36氪)
剛剛!Google內部揭秘Genie 3:Sora後最強AI爆款,開啟世界模型新時代
【新智元導讀】Genie 3來了!這或許是最接近「模擬世界」的AI魔法。只需一句話,它就能生成一個動態、可互動的世界——角色能互動、下水會濺起水花,甚至還能記住一分鐘前的細節。DeepMind研究者直言:Genie 3是通向AGI的關鍵一步。Genie 3是有史以來最先進的世界模型之一。僅通過文字,它能夠即時生成完全互動、高度一致的世界。它不僅是DeepMind積累的結晶,還是通向AGI和具身智能體的關鍵一步。但Genie 3是如何建構的?未來的世界模型又是什麼樣?剛剛,GoogleDeepMind的研究科學家Jack Parker-Holder和研究總監Shlomi Fruchter,在a16z的訪談中,分享了他們的觀點。這次對話提供了對Genie 3的第一手洞察。主持人Justine Moore發推表示:「Genie 3在網路上引發熱潮」。他總結了深入探討的要點:Genie3是由兩個DeepMind項目(Veo 2和Genie 2)合作完成的成果。即時、互動的世界模型有很多潛在應用。但應用並不是推動研究的主要動力——它們是從使用者使用模型的過程中自然湧現出來的。Genie 3可以保留最長達一分鐘的空間記憶。物理規律是模型的「自然產物」,並會隨著訓練資料的規模和深度而不斷提升。目前還沒有一個「終極模型」能夠同時具備Veo 3和Genie 3的所有能力。Genie 3:AI新魔法如果說LLM的原生圖像編輯功能,「動動嘴PS」是「言出法隨」,那Genie 3這次的新特性叫什麼?只需輸入文字提示,Genie 3即可生成動態世界。使用者可以即時進行探索,每秒高達24幀,解析度為720p。十多年來,GoogleDeepMind一直致力於模擬環境的研究。Genie 3是他們最新最強的「世界模型」,是通向通用人工智慧(AGI)的關鍵一步,因為它能讓AI智能體在無限豐富的模擬環境中進行訓練。去年,他們推出了首批基礎世界模型Genie 1和Genie 2,它們能為智能體生成全新的環境。此外,他們還通過Veo 2和Veo 3等視訊生成模型,不斷提升對直觀物理的理解能力。這些模型在世界模擬的不同能力上都取得了進展。Genie 3是Google首個支援即時互動的世界模型,同時提升了一致性和真實感。在生成視訊時長、世界一致性、內容的多樣性、特殊記憶等多個方面,Genie 3都實現了突破。它甚至可以讓個人創造自己的遊戲世界、訓練強化學習的智能體、機器人研究等。所有這些應用基本上都源於一個核心能力:只用幾句話就能生成一個完整的世界。最關鍵的新特性是:特殊記憶。比如:一個角色拿著刷子在牆上刷漆,然後他移動到牆的另一邊去刷,接著又回到原來的位置,結果之前刷的痕跡還在。特殊記憶(special memory)是DeepMind團隊有意設計的目標,但最終的效果好得出乎意料。即便是參與Genie 3的內部成員,第一次看到上面刷牆的示例時也不敢相信,需要再三觀看、逐幀檢查,才確定這真的是模型生成的。Genie 3的一致性非常高:建築物左側的樹木在整個互動過程中始終保持一致,即使它們時而進入視野時而消失其實,Genie 2就已經具備了一些「記憶能力」。但當時,整個AI界太多令人激動的模型發佈,比如Veo 2模型幾天後也發佈了。而且,當時Google主打的賣點是「可以生成新的世界」,所以記憶能力就沒被強調出來。到了Genie 3,在「記憶」上,GoogleDeepMind下了更大的決心,明確地把「增強記憶能力」作為核心目標之一。當時設定的目標是:超過一分鐘的記憶、支援「即時生成」、還能提升「解析度」。其實,這幾個目標本身是互相矛盾的,但Google無所畏懼。說實話,直到項目快結束時,在看到最終樣本的那一刻,他們依然感到震撼。這種成果即使是預期中的,真的實現的時候還是非常令人興奮。畢竟,研究項目永遠不會有百分百的確定性。在設計上,他們還有一個明確的方向,就是不採用「顯式表示法」。市面上已有一些方法,比如用NeRF或Gaussian Splatting等技術,通過建構明確的3D世界結構,來達到一致性。這些方法很好,在某些應用上效果不錯。但他們堅持讓模型「逐幀生成」,這種方式對模型的泛化能力、適應多樣世界的能力更有幫助。智能湧現,驚喜不斷就像其他生成式模型一樣,隨著Scaling,效果確實會提升,這已經不是什麼秘密了。儘管不如語言模型在推理能力上的湧現表現,Genie 3依然湧現出一些令人驚訝的行為。比如說,如果一個角色靠近一扇門,模型可能就會「推測」角色應該打開門;這類符合人類直覺的行為,模型現在能在一定程度上表現出來了。還有就是對語言的理解在不斷變好,生成的內容也越來越真實,視覺效果更自然。從Genie 2到Genie 3的提升非常明顯,特別是在「模擬現實世界能力」上有巨大飛躍。比如物理效果的表現——像水的模擬、光照的變化,都非常驚豔。現在已經到了一個地步,那怕是非專業人士,看了之後也會覺得是真實拍攝的視訊。👇這太驚人了。而在Genie 2時代,模型雖然大致能表現出物體該有的行為,但你還是一眼能看出「這是AI生成的,不是真的」。現在的視訊真假難辨,進步真的很大了。在「地形多樣性」問題:比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳,這些動作和物理反饋應該是不一樣的。Google團隊發現這些行為很多都是規模和資料廣度所帶來的「湧現能力」。換句話說,他們並沒有為這些行為做專門的訓練或設計,而是模型自己「學」出來的。它通過足夠豐富的訓練資料,掌握了這個「世界」的通用常識。大多數時候,它表現非常不錯。比如下面的例子:在滑雪時,角色在下坡時速度會變快,而試圖上坡時就會變慢,甚至爬不上去;下水後,角色一般會開始游泳或濺起水花;靠近水坑時,模型通常也會讓角色穿上雨靴。這些行為都非常自然,和人類對真實世界的理解非常一致,而這些都是模型自己學會的,真的讓人覺得像魔法一樣。這裡還有一個有趣的權衡:既能保持世界的「物理一致性」,同時也能忠實地執行使用者的提示詞。對視訊模型來說,「低機率事件」本來很難,但Genie 3依然能有不錯的表現。這正是它的魅力所在:即便是一些現實中不太可能發生的場景,Genie 3也能讓你如臨其境,而不是僅僅生成一個和你身邊環境一樣的無聊視訊。在「指令跟隨/文字對齊」,Genie 3也得到了提升,這主要得益於DeepMind內部不同項目(特別是Veo項目)的經驗遷移和知識共享。這種跨團隊協作是DeepMind的優勢。世界模型是讓智能體走向現實世界最快的路徑。Genie 3朝著這個目標邁出了一大步。那Genie 4、Genie 5的新特性有那些設想?未來的關鍵真實感和互動性但總的來說,Genie 3團隊最關注的始終是一件事:讓模型本身變得儘可能強大,讓它能產生更廣泛的影響,然後把創造應用的機會交給其他團隊。他們表示最終會開放Genie 3模型。未來確實讓人特別興奮,但也必須承認,世界模型距離真正「精準模擬現實世界」還有很大差距。比如,把一個人放進生成的世界裡,讓他隨心所欲地做任何事情,我們還遠遠做不到。還有很多工作要做,才能讓虛擬世界的真實感和自由度接近現實。應用還有很多,關鍵在於能否精準模擬世界,並把人放進其中。也許還能從「第三視角」觀察自己,或者與虛擬智能體互動。他們還透露真實感和互動性是未來的關鍵。現在機器人領域最大的瓶頸之一就是資料:能收集到的資料非常有限。而Genie 3能生成幾乎無限的場景,這樣一來機器人就能在虛擬世界裡學習,而不再侷限於現實中能採集到的視訊。這個想法真的很令人興奮。最後一個問題:人類是不是生活在某種模擬中?這個問題被問過很多次,得到了「哲學化」的回答:如果真是模擬,那它運行在完全不同的硬體之上如果人類真的生活在一個模擬世界裡,那它絕對不是運行在現在的硬體上的。因為我們的世界是連續的,而不是數位化的。所有的感知都是連續的訊號。也許,在量子層面會有一些「硬體限制」,但至少和我們現在的電腦完全不同。或許未來量子電腦,才是運行我們這個模擬世界的真正平台。 (新智元)
通義+夸克,阿里AI要ToC
這一周,AI世界忙得不可開交。先是DeepSeek發佈最新版本,V3-0324;然後阿里雲通義千問開源更小尺寸的視覺理解模型Qwen2.5-VL-32B-Instruct。中國兩大AI大廠輪番交替,持續給美國矽谷施加壓力。DeepSeek的強大一如既往,但這一次,Qwen 32B同樣也吸足了眼球。Qwen,從幕後走上台前Qwen 32B,從後綴就看出來,這個新模型的非同凡響。首先,它很小,參數量僅有32B。對比DeepSeek-V3滿血版模型,高達671B的參數量,單零頭都是Qwen 32B的兩倍。尺寸小並不意味著性能縮水,國際權威測評榜LiveBench測試,Qwen 32B超越OpenAI GPT-4.5、Google-Gemini2.0、DeepSeek-R1等國內外頂尖模型,衝進全球前五,成為”全球性能No.1的開源模型“。小尺寸的Qwen 32B還有一個優點,就是便於本地部署。DeepSeek-V3的671B滿血版模型,最少需要8卡GU120(8*96 GB視訊記憶體)的硬體組態。而Qwen 32B在64GB記憶體的Mac就可以完成本地部署。這無疑是非常有利於C端使用者的屬性,畢竟誰也拒絕不了在自己電腦上安裝一個“專屬AI模型”。當然,Qwen 32B背後還有很多性能可以挖掘,比如細粒度圖像理解、數學推理、文字生成能力。但除了參數性能之外,在商業邏輯上,給外界感受最深的是,通義終於從幕後,走上了台前。這也是它背後的阿里,在2025年的核心戰略:AI To C。從2023年8月開始,通義千問相繼開源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,龐大的“Qwen模型家族”一直是國外AI評測榜單的常客。但Qwen家族一直是在B端市場廣為傳播,如何牆外開花牆內香,最大化釋放通義千問底座大模型能力,是通義面前的大難題。24年12月,通義正式從阿里雲分拆,併入阿里智能資訊事業群。又在今年2月挖來全球頂尖AI科學家、前Salesforce副總裁許主洪(Steven Hoi),領導阿里AI全面轉向消費者。不缺錢也不缺人力的通義,迅速推出多款模型,在AI市場擴散自己的影響力。比如,今年1月推出的視訊生成模型通義萬相2.1;3月推出的大語言模型Qwen qwq-32b。一連串的市場動作,讓通義連續拿下大訂單。蘋果公司、榮耀、Manus、寶馬集團相繼與阿里達成合作,都是基於通義系列開源模型。另一方面,徹底面向C端使用者的通義APP進行全面改版,去除掉資訊化和工具化的味道,對標豆包,以一個統一而更加親切的虛擬形象對使用者開放使用。同時開始大範圍花錢推廣通義APP,投放素材量直線拉升,也讓下載量一度排在App Store前列,同類AI軟體中僅次於DeepSeek和騰訊元寶。當然,阿里AI To C並不只有通義一個棋子,它還有另外一個殺手鐧:夸克。夸克進一步升級現在的夸克已經不再是一個瀏覽器,也不再簡單是一個搜尋工具,而是阿里重資押注的AI Agent。3月13日,阿里推出“新夸克”,並將其定義為“AI超級框”。所謂的“AI超級框”,就是將AI對話、深度思考、深度搜尋、深度研究、深度執行一股腦整合到了夸克APP。通過搜尋來連接大模型的能力,使用者輸入需求後,AI可以直接生成答案、執行任務、甚至進行深度互動。通過重視搜尋和具體使用者使用場景,實現“AI超級應用”。比起聊天機器人,我會覺得“新夸克”的定位更接近AI Agent。同時,“新夸克”也將成為阿里AI成果的“展示窗口”,未來通義系列模型的最新成果都將第一時間接入夸克,夸克使用者第一時間就能上手體驗。新任阿里智能資訊事業群負責人,也是夸克CEO吳嘉表示,“希望夸克AI超級框就像機器貓的口袋一樣,能夠讓使用者在這裡進入AI世界。”“進入AI世界”這個評語,背後透露出阿里對於夸克的期許之重,甚至超過了通義。畢竟,通義是打造上層建築的基礎,而夸克才是真正給使用者使用的建築本體。可以說,夸克現在的地位,就相當於字節豆包、騰訊元寶,是阿里AI中最核心的陣眼。那,為什麼會選擇夸克呢?畢竟在所有阿里系APP裡,夸克資歷並不深厚。在2016年10月才正式上線,最初由UC瀏覽器內部孵化。夸克能一躍而起的最大原因,就是使用者量。據夸克官方資料顯示,現在有2億人在使用夸克,其中00後年輕使用者佔比超過一半。年輕使用者群體的高比例帶來了想像空間。據2025年1月AIGC RANK中國AI應用排行榜,夸克平均日活3369萬,位列中國AI應用第一。對比去年花錢充流量一整年的字節豆包,流量最高峰時也不過2000萬日活,就能看出夸克的厚積薄發。在“後DeepSeek世代”,中國三大網際網路大廠加速自家AI處理程序:騰訊元寶全面接入DeepSeek,主打聊天機器人;字節豆包放緩了投流買量的打法,轉而研究深度搜尋,更希望自己是一個智能體的應用程式商店;阿里夸克更關注落地和應用場景,加碼搜尋+垂類場景,工具屬性拉滿。阿里逐漸成為一家AI公司現在的阿里已經不再是電商公司,更像是一家AI公司。上個月阿里發佈2025財年第三季度財報,其中阿里雲智能實現收入317.42億元,同比增長13%;AI相關產品收入連續六個季度實現三位數的同比增長。阿里吃到了AI戰略轉型的第一波紅利,也刺激了阿里繼續高追猛打的戰略。CEO吳泳銘明確表示,未來三年擬投入3800億元建設AI基礎設施,這一數字超過了過去十年相關投入的總和。據《金融時報》報導,這3800億元的預算,首先花在了硬體上。阿里今年已預算390億元人民幣用於購買AI晶片,比去年增加逾50%,並補充稱,如果增長超出預期,年內可能會上調這一金額。補足硬體,也要提高人力。近日,蔡崇信在香港匯豐環球投資峰會上放話:阿里要重啟招聘,員工數已觸底。隨後淘天集團放出全球招聘,涵蓋七大職類,其中技術類崗位佔比超過90%,演算法和AI方向的職位合計佔比近50%,涉及AI演算法、AI工程、AI產品、AI營運、AI設計等多個領域。在過去的12個季度,阿里削減了大量員工,也打折賣出了銀泰、大潤發等資產。而阿里這次重啟招聘,一方面說明它“減”得差不多了,另一方面也意味著它找到了新的發力點:AI。以前的淘寶可以代表阿里,而現在,阿里更希望未來可以用AI來代表阿里。只是那個APP是通義?還是夸克?還需要等待一個“DeepSeek時刻”。 (鋅財經)