Yann LeCun放出憋了20年的大招:Meta開源V-JEPA 2世界模型

Yann LeCun的世界模型終於打臉質疑者!

Meta剛剛發佈的V-JEPA 2不僅有高達10億參數的版本,在某些基準測試上的推理速度還比輝達Cosmos快了整整30倍,讓質疑者們集體閉嘴。

這個基於Vision Transformer架構的世界模型,正是被稱為「AI教父」的Yann LeCun倡導多年的JEPA(聯合嵌入預測架構)路線的最新成果。只需要62小時的機器人資料訓練,就能在完全陌生的環境中執行各種任務。

「反叛」終於有了答案

作為Meta首席AI科學家和圖靈獎得主,Yann LeCun一直是AI界最「叛逆」的聲音。當所有人都在追捧大語言模型時,他卻公開唱反調。

在今年的輝達GTC大會上,LeCun直接把LLM稱為「token生成器」,並預言五年內沒人會再用它們

他在Newsweek的採訪中更是語出驚人:

「如果我們能在三到五年內讓這個工作起來,我們將擁有一個更好的範式,用於能夠推理和規劃的系統。」

他甚至建議年輕開發者:「別做LLM了。這些模型都在大公司手裡,你沒什麼可貢獻的。你應該研究下一代AI系統,克服LLM的侷限性。」

網友們可沒少嘲笑他。

在Hacker News上,有人毫不客氣地指出:

「在這一點上,不管你對LLM有什麼看法:總的來說,相信LeCun的話不是個好主意。再加上LeCun領導的AI實驗室有以下巨大問題:1. 在擁有相似資源的大實驗室中LLM最弱(而且比資源更少的實驗室還弱:比如DeepSeek)」

但V-JEPA 2的發佈,讓這些質疑聲音瞬間消失了。

20年磨一劍的世界模型

V-JEPA 2(Video Joint Embedding Predictive Architecture 2)是LeCun倡導的JEPA架構在視訊領域的最新實現。

這不是心血來潮。

LeCun在Meta的部落格中透露:「通過訓練系統預測視訊中將要發生的事情來理解世界如何運作的想法是非常古老的。我至少以某種形式研究了20年。」

o-mega.ai(@o_mega___)詳細解釋了V-JEPA 2的技術突破:

V-JEPA 2通過獨特地結合超過一百萬小時的線上視訊和目標真實世界資料,實現了零樣本機器人規劃,讓機器人能夠在陌生情況下預測和行動,無需事先重新訓練。它的聯合嵌入預測架構現在可以在視訊序列上訓練,並在某些基準測試上產生比Nvidia Cosmos快30倍的推理速度——需要注意的是基準測試是任務相關的。

最少隻需要幾個小時的機器人互動資料就足以泛化技能,比如工具使用,這反映了其他模型很少見的「常識」適應能力,將機器人技術推向了新的效率前沿。

Vision Transformer的極致演繹

V-JEPA 2基於Vision Transformer架構,提供了多個模型規模:

  • ViT-L/16:3億參數,256解析度
  • ViT-H/16:6億參數,256解析度
  • ViT-g/16:10億參數,256解析度
  • ViT-g/16(384版):10億參數,384解析度

這種架構選擇絕非偶然。與生成式方法不同,V-JEPA 2不在像素等級進行預測,而是在抽象表示空間中進行。

LeCun解釋道:「與其預測視訊中發生的所有事情,我們基本上是訓練系統學習視訊的表示,並在該表示空間中進行預測。這種表示消除了視訊中許多不可預測或無法弄清楚的細節。」

碾壓競爭對手的性能

V-JEPA 2在多個基準測試上都創造了新紀錄:

視覺理解任務:

  • EK100(動作預測):39.7%,之前最佳僅為27.6%(PlausiVL)
  • SSv2(視訊理解):77.3%,超越了InternVideo2-1B的69.7%
  • Diving48(動作識別):90.2%,超過InternVideo2-1B的86.4%
  • MVP(視訊問答):44.5%,超越InternVL-2.5的39.9%
  • TempCompass(視訊問答):76.9%,超過Tarsier 2的75.3%

機器人控制任務:

  • 到達目標位置:100%成功率(Cosmos只有80%)
  • 抓取杯子:60%成功率(Octo 10%,Cosmos 0%)
  • 拾取並放置杯子:80%成功率(Octo 10%,Cosmos 0%)
  • 拾取並放置盒子:50%成功率(Octo 10%,Cosmos 0%)

兩階段訓練的巧妙設計

V-JEPA 2採用了巧妙的兩階段訓練方法:

第一階段:自監督預訓練

編碼器和預測器通過自監督學習從海量視訊資料中進行預訓練。Meta使

用了掩碼潛在特徵預測目標,利用豐富的自然視訊來引導物理世界的理解和預測。



第二階段:機器人資料微調

在少量機器人資料上進行微調,實現高效規劃。這種方法的妙處在於,不需要收集大規模的專家機器人演示資料。

開發者可以通過多種方式使用V-JEPA 2:

import torch

# 前置處理器
processor = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_preprocessor')
# 模型
vjepa2_vit_large = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_vit_large')
vjepa2_vit_huge = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_vit_huge')
vjepa2_vit_giant = torch.hub.load('facebookresearch/vjepa2', 'vjepa2_vit_giant')

社區熱議

TuringPost(@TheTuringPost)激動地評論:

JEPA模型沉寂了很長時間,現在突然爆發!這是今天最好的消息👏

idk(@DataDon89382)感嘆:

太棒了,我都不知道還有JEPA 1,但架構越多越好

但也有人提出了深刻的問題。Orbital Nymph(@GoddessAria94)詢問:

進展令人印象深刻,但V-JEPA 2在陌生環境中規劃時如何處理對齊和價值規範?這對安全部署似乎至關重要。

Anthony Harley(@anthony_harley1)則提出了一個有趣的挑戰:

解決魔方應該成為這些世界/機器人模型的圖靈測試。通用智能模型做到這個了嗎?

Cloud Seeder(@cloudseedingtec)雖然對Meta有些成見,但也承認:

不錯哈哈,我差點要問你們是否需要幫助,因為我對OpenAI太失望了,我需要美國有更多競爭對手,但我很抱歉我還是有點偏見……被Facebook搞得太慘了,所以我提供幫助是不負責任的,我會作弊的<3

打臉時刻

回想起之前對Yann LeCun的種種質疑,現在看來,或許都成了打臉時刻。

那些說他「不切實際」的人,那些嘲笑JEPA是「空中樓閣」的人,那些認為Meta在AI競賽中落後的人,現在都沉默了。

V-JEPA 2的成功證明了LeCun的遠見:真正的智能不是生成看起來合理的文字,而是理解和預測物理世界。

如LeCun所說:「每次試圖通過訓練系統在像素等級預測視訊來理解世界或建立世界心智模型的嘗試都失敗了。」

但V-JEPA 2成功了,因為它選擇了正確的道路——在抽象表示空間中進行預測。

AIMEME(@AI69ME)用詩意的方式總結:

V-JEPA 2:為機器人新世界重新定義視覺理解和預測。立即下載並革新你的研究。

Ghandeepan M(@ghandeepan_3789)簡潔地說:

新的世界模型!!!!

GEMerald BTC(@GemeraldBTC)的評價雖然簡短但中肯:

這相當不錯

Yann LeCun用20年的堅持,證明了什麼叫「時間會給出答案」。

[1]V-JEPA 2 官方頁面: https://ai.meta.com/vjepa/

[2]V-JEPA 2 研究論文: https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

[3]V-JEPA 2 GitHub 程式碼倉庫: https://github.com/facebookresearch/vjepa2

[4]V-JEPA 2 HuggingFace 模型集合: https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

[5]ViT-L/16 模型 (300M參數): https://dl.fbaipublicfiles.com/vjepa2/vitl.pt

[6]ViT-H/16 模型 (600M參數): https://dl.fbaipublicfiles.com/vjepa2/vith.pt

[7]ViT-g/16 模型 (1B參數): https://dl.fbaipublicfiles.com/vjepa2/vitg.pt

[8]ViT-g/16 384解析度版本 (1B參數): https://dl.fbaipublicfiles.com/vjepa2/vitg-384.pt

[9]V-JEPA 2-AC 動作條件模型: https://dl.fbaipublicfiles.com/vjepa2/vjepa2-ac-vitg.pt

[10]SSv2 ViT-L/16 評估模型: https://dl.fbaipublicfiles.com/vjepa2/evals/ssv2-vitl-16x2x3.pt

[11]Diving48 ViT-L/16 評估模型: https://dl.fbaipublicfiles.com/vjepa2/evals/diving48-vitl-256.pt

[12]EK100 ViT-L/16 評估模型: https://dl.fbaipublicfiles.com/vjepa2/evals/ek100-vitl-256.pt

[13]Meta AI 部落格:V-JEPA 2 世界模型和基準測試: https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks

[14]Yann LeCun 的 LinkedIn 帖子: https://www.linkedin.com/posts/yann-lecun_introducing-v-jepa-a-method-for-teaching-activity-7163961516650647552-w3yA

[15]V-JEPA 1 介紹: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/ (AGI Hunt)