#視覺模型 | 熱門關鍵字 | 鉅亨號

AI競賽的下一個戰場已然清晰：從文字世界走向物理世界。在這場名為“世界模型”的競賽中，馬斯克旗下xAI已攜輝達專家悄然入局，與Google、Meta等巨頭同台競技。xAI計畫率先將該技術應用於AI遊戲生成，並探索其在機器人系統的應用。Google推斷，未來的視訊模型將變得和語言模型一樣智能。人工智慧領域的戰火正在從大語言模型蔓延至一個更前沿的領域——能夠理解並模擬真實物理世界的“世界模型”（World Models）。而xAI已悄然加入這場競賽，與Google和Meta等科技巨頭同台競技。據英國《金融時報》10月12日報導，馬斯克的初創公司xAI在今年夏天從晶片巨頭輝達聘請了人工智慧專家，專門從事世界模型的研發。與依賴文字的大語言模型不同，世界模型通過對海量的視訊和機器人資料進行訓練，旨在掌握真實世界的物理規律。“未來的視訊模型將變得和語言模型一樣智能”，Google研究人員在論文中說道。輝達上月也曾表示，世界模型的潛在市場規模可能接近當前全球經濟的總量。01 兵馬先行：xAI的遊戲“奇襲”與機器人野望為了在這場競賽中佔據一席之地，xAI正在積極招兵買馬。公司已聘請了來自輝達的兩位AI研究員Zeeshan Patel和Ethan He，他們在世界模型領域擁有豐富經驗。輝達憑藉其用於建立和運行模擬的Omniverse平台，一直是該技術的領導者。知情人士透露，xAI為世界模型規劃的第一個商業化落點是遊戲領域，用於生成可互動的3D環境。這一動態迅速引發市場關注，因為它不僅是xAI商業化路徑的明確訊號，也凸顯了世界模型作為下一代AI技術的巨大潛力。馬斯克本人也在社交平台X上確認，xAI將在“明年年底前發佈一款出色的AI生成遊戲”。長遠來看，這些技術最終可能應用於機器人的人工智慧系統。xAI的招聘資訊也印證了其發展方向。公司正在為其“omni團隊”招聘圖像和視訊生成領域的技術人員，薪資範圍高達18萬至44萬美元，該團隊致力於“創造超越文字的神奇AI體驗”。此外，公司還在以時薪45至100美元招聘“視訊遊戲導師”，以訓練其AI模型Grok製作視訊遊戲。02 範式轉移：視覺模型的“GPT”時刻xAI的高調入局，恰逢一個關鍵的行業預判浮出水面：未來的視訊模型將變得和語言模型一樣智能。Google最近的一篇論文指出，其視訊模型Veo 3正展現出與大語言模型（LLM）相似的“湧現能力”。正如LLM通過“下一詞元預測”的簡單任務，最終學會了數學和創意寫作等額外技能，視訊模型通過“下一幀預測”，也開始零樣本（zero-shot）地解鎖一系列令人驚訝的能力，例如物體分割、邊緣檢測和模擬工具使用等，而這些都未經專門訓練。Google的研究人員Jack Clark在論文中寫道：“我們認為，正如自然語言處理（NLP）從特定任務模型轉向通用模型一樣，機器視覺領域也可能通過視訊模型發生同樣的轉變——一個‘視覺領域的GPT-3時刻’。”他們將視訊逐幀生成的過程類比為語言模型中的“思維鏈”（chain-of-thought），並稱之為“幀鏈”（chain-of-frames），認為這使得視訊模型能夠跨越時空進行推理。這一發現意義深遠，它暗示著通過發展更智能的視訊模型，人們或許能夠獲得能力極強的機器人“代理”（agent）。03 前景與現實：高昂的成本與“願景”的缺失儘管前景誘人，但通往世界模型的道路並非坦途。目前，該技術仍面臨巨大的技術挑戰，其中最主要的是為模擬真實世界尋找和處理足夠訓練資料的成本極其高昂。與此同時，業界也存在對AI作用的冷靜審視。熱門遊戲《博德之門3》的開發商Larian Studios的發行主管Michael Douse本周在X上表示，AI無法解決遊戲行業的“大問題”，即“領導力和願景”。他補充說，行業需要的不是“更多由數學方式生產、經過心理學訓練的遊戲循環”，而是對世界更多樣化的表達。這代表了一種普遍的觀點：純粹的技術突破本身，並不能保證創造出能夠真正打動人心的商業產品。儘管挑戰重重，但xAI的入局無疑為世界模型的競賽再添一把火。AI的焦點正不可逆轉地從純粹的數字資訊處理，轉向對複雜物理現實的模擬與互動。視覺模型是否能復刻大語言模型的輝煌，迎來屬於自己的“GPT時刻”，不僅將決定下一代AI霸主的歸屬，更可能重塑我們與數字及物理世界的根本關係。 (硬AI)