【新智元導讀】馬斯克親自站台,grok-image-video-720p在46萬次盲測投票中加冕第一,這款xAI「壓箱底」的視訊模型,不僅在基準測試上超過了GoogleVeo 3.1 Fast,使用成本也更低。
剛剛,AI視訊領域又迎來洗牌!
xAI的Grok圖像轉視訊模型(grok-image-video-720p)登頂「Image-to-Video Arena」排行榜,以1404分的超高ELO評分力壓群雄,位居第一。
馬斯克親自發帖為自家Grok Image模型站台,稱它每周都在迭代最佳化。
這次,xAI真是拿出了「壓箱底」的東西,他們將Grok Imagine稱作為自己目前最強悍的「視訊+音訊」生成模型。
無論是想讓一張靜態梗圖「活」過來,還是憑空用一句話變出大片,甚至是對複雜的電影級鏡頭進行精細打磨,它都能輕鬆搞定。
X平台上,網友用Grok製作的視訊已經迅速刷屏,涵蓋電影特效、動畫製作、日常生活等種種場景。
從一些基準測試上來看,Grok-imagine-video-720p不僅擊敗了Google強大的Veo模型,而且生成成本也更低。
有網友驚呼,這不僅是AI視訊工具的一次進化,更可能直接推動該領域重新「排座次」。
還有網友猜想,Grok的強勢出擊,或將掀起新一輪生成式視訊技術的軍備競賽。
Grok Imagine是xAI傾力打造的視訊-音訊生成模型,該模型的最新版本Grok Imagine 1.0於2026年2月初發佈。
支援生成10秒長的720p高畫質視訊,並在運動平滑度、原生音訊質量(如情感表達的聲音)以及提示詞遵循能力上均實現了跨越式升級。
相比較2025年10月發佈的Imagine v0.9版本,它將核心聚焦於視覺質量、多模態能力,成本和延遲的平衡,真正做到了支援端到端的創意工作流。
使用者可以通過文字描述或上傳圖像來動畫化內容,還支援後續指令微調場景。
具體而言,Grok Imagine展現了三大核心「殺手鐧」:
Grok Imagine的視訊生成能力,主要用來從零開始建立短影片(通常10-15秒長,支援480p或720p解析度)。
它能處理多種輸入方式,比如直接用文字描述場景、動作、燈光和心情來生成視訊,或者上傳一張靜態圖片,讓AI給它「加戲」變成動態視訊。
在視訊生成方面,Grok Imagine擁有業界領先的指令遵循能力。你給出的指令再複雜,它也能精準理解並執行。
視訊編輯功能更像是給現有視訊「動手術」,Grok Imagine可以讓你能輕鬆修改內容,而不用專業軟體。
它支援重新設計場景(比如換背景或風格)、加入或刪除物體(例如加個道具或去掉多餘元素)、控制動作(調整運動軌跡、速度或相機角度)。
操作起來簡單:上傳視訊檔案或URL,然後描述你想改啥,比如「把這個視訊裡的車換成飛船,加點爆炸效果」。
AI就會根據你的指令生成編輯後的版本,還保持原視訊的核心元素。
視訊編輯適合電影剪輯、廣告調整或內容最佳化,編輯後視訊還能帶原生音訊。
在性能表現方面,不僅要變強,還要變快。
因為如果生成速度太慢、價格太貴,大家根本不敢放開手腳去嘗試。
因此xAI團隊專門針對延遲、並行量和成本進行了極限最佳化。
這讓Grok Imagine不僅跑得快,而且用起來更省錢。
它強調高品質、成本和延遲的平衡,支援端到端的創意工作流,包括視訊生成、編輯和音訊同步。
在基準測試中,Grok Imagine在圖像轉視訊領域表現出色,尤其在使用者偏好投票和性價比上。
在Image-to-Video Arena(arena.ai)排行榜上,Grok-image-video-720p以1404分位居第一(基於46.5萬投票,34個模型),領先Google Veo-3.1-audio-1080p(1402分)。
這是一個基於使用者盲測投票的平台,使用Elo評分系統。評測強調真實世界視訊質量和保真度,而非自動化指標。
在另一個獨立排行榜Artificial Analysis Image to Video Leaderboard上,Grok以1337 ELO分領先,評估標準包括質量、生成速度和價格。
Grok-image-video在風格、主題和格式一致性上得分高,它的API定價約$4.20/分鐘,低於GoogleVeo 3.1 Fast等競品。
在一些第三方的專業評測中,Getimg.ai認為Grok Imagine最突出的特點是以視訊形式精準遵循指令,當提示詞描述動作、節奏或轉場時,該模型通常能做出看似經過深思熟慮而非偶然的回應。
比如,Grok-image-video在原生音訊(唇同步、自然對話)和電影指令遵循(如平移、變焦)上出色。
Grok-image-video的另一個特色,是它很好地解決了低延時這一使用者使用痛點。
AI視訊模型在使用場景中,僅靠原始質量已不再足夠,往往需要多輪互動,等待結果的時間過長會抑制使用者嘗試的意願,尤其是當每次生成都代價高昂時。
基準測試顯示,Grok Imagine在綜合考量質量、延遲和成本時表現出色。
這意味著你可以自由地生成、調整和重新生成視訊,而不會覺得每次輸入提示都是一種負擔。
Lovera Digital將Grok與Google Veo 3比較,發現Grok易用性高,適合短影片社交內容,但視訊質量有時抖動。
它的最佳用例是快速原型,評分表顯示其在創意短片上競爭力強。
Grok Imagine在第三方評測中被視為高效、音訊強的選手,尤其適合創意和快速生成,但需注意一致性和安全問題。
如果你想親自體驗一下Grok Imagine,目前可以通過官網(grok.com/imagine)和APP免費試用,或通過API整合(Grok Imagine API)。 (新智元)