46.5萬次盲測封王！Grok視訊模型屠榜Arena，Google最強對手來了

2026/02/25

•

【新智元導讀】馬斯克親自站台，grok-image-video-720p在46萬次盲測投票中加冕第一，這款xAI「壓箱底」的視訊模型，不僅在基準測試上超過了GoogleVeo 3.1 Fast，使用成本也更低。

剛剛，AI視訊領域又迎來洗牌！

xAI的Grok圖像轉視訊模型（grok-image-video-720p）登頂「Image-to-Video Arena」排行榜，以1404分的超高ELO評分力壓群雄，位居第一。

馬斯克親自發帖為自家Grok Image模型站台，稱它每周都在迭代最佳化。

這次，xAI真是拿出了「壓箱底」的東西，他們將Grok Imagine稱作為自己目前最強悍的「視訊+音訊」生成模型。

無論是想讓一張靜態梗圖「活」過來，還是憑空用一句話變出大片，甚至是對複雜的電影級鏡頭進行精細打磨，它都能輕鬆搞定。

X平台上，網友用Grok製作的視訊已經迅速刷屏，涵蓋電影特效、動畫製作、日常生活等種種場景。

從一些基準測試上來看，Grok-imagine-video-720p不僅擊敗了Google強大的Veo模型，而且生成成本也更低。

有網友驚呼，這不僅是AI視訊工具的一次進化，更可能直接推動該領域重新「排座次」。

還有網友猜想，Grok的強勢出擊，或將掀起新一輪生成式視訊技術的軍備競賽。

揭秘Grok Imagine

能幹活、成本低的多模態六邊形戰士

Grok Imagine是xAI傾力打造的視訊-音訊生成模型，該模型的最新版本Grok Imagine 1.0於2026年2月初發佈。

支援生成10秒長的720p高畫質視訊，並在運動平滑度、原生音訊質量（如情感表達的聲音）以及提示詞遵循能力上均實現了跨越式升級。

相比較2025年10月發佈的Imagine v0.9版本，它將核心聚焦於視覺質量、多模態能力，成本和延遲的平衡，真正做到了支援端到端的創意工作流。

使用者可以通過文字描述或上傳圖像來動畫化內容，還支援後續指令微調場景。

具體而言，Grok Imagine展現了三大核心「殺手鐧」：

視訊生成與指令遵循能力

Grok Imagine的視訊生成能力，主要用來從零開始建立短影片（通常10-15秒長，支援480p或720p解析度）。

它能處理多種輸入方式，比如直接用文字描述場景、動作、燈光和心情來生成視訊，或者上傳一張靜態圖片，讓AI給它「加戲」變成動態視訊。

在視訊生成方面，Grok Imagine擁有業界領先的指令遵循能力。你給出的指令再複雜，它也能精準理解並執行。

零門檻的視訊編輯能力

視訊編輯功能更像是給現有視訊「動手術」，Grok Imagine可以讓你能輕鬆修改內容，而不用專業軟體。

它支援重新設計場景（比如換背景或風格）、加入或刪除物體（例如加個道具或去掉多餘元素）、控制動作（調整運動軌跡、速度或相機角度）。

操作起來簡單：上傳視訊檔案或URL，然後描述你想改啥，比如「把這個視訊裡的車換成飛船，加點爆炸效果」。

AI就會根據你的指令生成編輯後的版本，還保持原視訊的核心元素。

視訊編輯適合電影剪輯、廣告調整或內容最佳化，編輯後視訊還能帶原生音訊。

更快速度與更低成本的平衡

在性能表現方面，不僅要變強，還要變快。

因為如果生成速度太慢、價格太貴，大家根本不敢放開手腳去嘗試。

因此xAI團隊專門針對延遲、並行量和成本進行了極限最佳化。

這讓Grok Imagine不僅跑得快，而且用起來更省錢。

它強調高品質、成本和延遲的平衡，支援端到端的創意工作流，包括視訊生成、編輯和音訊同步。

評測霸榜，力壓Google

在基準測試中，Grok Imagine在圖像轉視訊領域表現出色，尤其在使用者偏好投票和性價比上。

在Image-to-Video Arena（arena.ai）排行榜上，Grok-image-video-720p以1404分位居第一（基於46.5萬投票，34個模型），領先Google Veo-3.1-audio-1080p（1402分）。

https://arena.ai/zh/leaderboard/image-to-video

這是一個基於使用者盲測投票的平台，使用Elo評分系統。評測強調真實世界視訊質量和保真度，而非自動化指標。

在另一個獨立排行榜Artificial Analysis Image to Video Leaderboard上，Grok以1337 ELO分領先，評估標準包括質量、生成速度和價格。

Grok-image-video在風格、主題和格式一致性上得分高，它的API定價約$4.20/分鐘，低於GoogleVeo 3.1 Fast等競品。

https://artificialanalysis.ai/video/leaderboard/image-to-video

在一些第三方的專業評測中，Getimg.ai認為Grok Imagine最突出的特點是以視訊形式精準遵循指令，當提示詞描述動作、節奏或轉場時，該模型通常能做出看似經過深思熟慮而非偶然的回應。

比如，Grok-image-video在原生音訊（唇同步、自然對話）和電影指令遵循（如平移、變焦）上出色。

Grok-image-video的另一個特色，是它很好地解決了低延時這一使用者使用痛點。

AI視訊模型在使用場景中，僅靠原始質量已不再足夠，往往需要多輪互動，等待結果的時間過長會抑制使用者嘗試的意願，尤其是當每次生成都代價高昂時。

基準測試顯示，Grok Imagine在綜合考量質量、延遲和成本時表現出色。

這意味著你可以自由地生成、調整和重新生成視訊，而不會覺得每次輸入提示都是一種負擔。

Lovera Digital將Grok與Google Veo 3比較，發現Grok易用性高，適合短影片社交內容，但視訊質量有時抖動。

它的最佳用例是快速原型，評分表顯示其在創意短片上競爭力強。

Grok Imagine在第三方評測中被視為高效、音訊強的選手，尤其適合創意和快速生成，但需注意一致性和安全問題。

如果你想親自體驗一下Grok Imagine，目前可以通過官網（grok.com/imagine）和APP免費試用，或通過API整合（Grok Imagine API）。 (新智元)