大模型的另一條主脈絡又開始發力了。AI 視訊模型,現在已經進化到不僅可以看“OCR”畫面,甚至都開始“會剪片、懂劇情、還能當導演了”!昨天晚上,一個叫 Vidi2 的視訊大模型,把“AI 剪輯”的上限,直接抬到了一個很多內容創作者都還沒意識到的新高度。做短影片、影視剪輯、劇情二創、內容工業化的朋友,必須看過來。比如,你打開一段視訊,只需要輸入一句話:“XX 角色從跪姿站起來。”下一秒,AI 就可以在一段光線昏暗、人物複雜的畫面中:精準定位動作發生的時間段在關鍵幀上,用邊界框精準圈出目標人物清楚地區分“誰在動、誰只是背景”這就是今天小編注意到的一款視訊模型:字節跳動最新發佈的——視訊理解大模型 Vidi2 的真實能力。可以看出,視訊AI圈已經開啟了2.0角逐的賽點:以前卷“會生成”,現在開始卷視訊的“理解”能力了。字節背書,來看看Vidi2有何不同?Vidi2 是字節跳動推出的第二代多模態視訊理解與生成大模型。(言外之意,主打視訊理解和創作。)它不是“只會生成畫面”的視訊模型,而是一個能同時理解:畫面、聲音、語言、時間結構、人物關係、動作因果的統一視訊理解系統。再來從技術規格看,它的參數規模只有 12B,其中主幹網路採用 Gemma-3,輸入模態支援:文字 + 視訊 + 音訊。而專註解決的核心任務都是面向真實場景的複雜問題:長視訊理解 + 細粒度時空定位 + 時間檢索 + 視訊問答。之前大家的槽點更多的還是:“這個畫面像不像”,而Vidu2試圖去回答一個更本質、更高級的問題:視訊裡,什麼時候發生了什麼事,是誰幹的,前因後果是什麼?它究竟能做到那些事?話不多說,我們直接從應用層來來看,用這個新模型,我們具備了那些新能力。(1)自動剪“高光片段”,還知道怎麼起標題。你丟給它一個 1 小時的視訊,它可以:自動找出最有資訊密度、最有情緒張力的片段直接生成對應的短影片同時給你配好標題不得不說,這項能力已經越過“輔助剪輯”那條線,而是已經可以接管平時我們大量的基礎剪輯工作。(2)而且,它還可以“看得懂人物和劇情因果”。比如,它能理解這種複雜關係:A 想打 B,結果打偏了,誤傷了 C。人類聽起來這像小兒科的問題,但這件事對 AI 來說極難。這意味著它已經同時具備:人物識別、動作理解、空間位置判斷、事件因果推理。這也是它能做劇情剪輯、人物線索剪輯、衝突線剪輯的前提。(3)它能“一邊看視訊,一邊精準框選目標”。給它一句話:“那個穿紅衣服、在爭吵中突然站起來的人”它可以同時輸出:這一幕發生在 第幾分第幾秒那個人在畫面中的 精準框選位置這意味著什麼?意味著它可以做:自動多機位切換智能構圖裁剪人物跟隨取景直播切畫面的自動導播剪輯、導演、攝像,這幾條線,第一次開始被同一個 AI 能力同時覆蓋。基準測試性能超過GPT-5、Gemini 3 Pro為衡量模型在真實複雜場景中的進展,Vidi2 專門建構了兩個面向實際應用中““長視訊 + 時空理解””的核心基準:VUE-STG(用於長時間跨度下的精細時空定位)與 VUE-TR-V2(用於開放式時間檢索)。團隊直接將 Vidi2 與行業頂流過招,包括:Gemini 3 Pro、GPT-5。結果是:Vidi2 在核心視訊理解與時空定位任務上,性能是“斷崖領先”的。在 STG 任務上,Vidi2 取得了當前最優表現,vIoU 達到 32.57,tIoU 達到 53.19。而 Gemini 3 Pro在前者只得到了 5.5 分,而 GPT.5 的視訊理解能力在 tIoU 的跑分只有 Vidi2 的一半 27.5。這是少有的,在視訊理解這個高難度賽道上,正面贏過通用大模型的案例。其次,在檢索任務方面,其整體 IoU 達到 48.75,即便在 超長視訊(>1 小時) 場景下,依然 領先主流商業模型 17.5 個百分點。此外,在視訊問答任務上,儘管 Vidi2 的主要最佳化方向集中於定位與檢索能力,但其綜合理解能力依然保持強勢:在 VideoMME 基準上取得 63.5 分,在 Long VideoBench 上取得 54.7 分,展現出紮實的多模態推理能力。模型已整合到字節產品基於 Vidi2 的核心能力,字節跳動已經建構出一套可規模化落地的實用工具體系。統一的“定位 + 檢索”技術管道,已經能夠穩定支援多項自動化視訊編輯能力,包括:高光片段提取具備故事理解的智能剪輯內容感知的智能構圖重裁自動多視角切換更重要的是,這一整套能力,已經可以在消費級硬體上穩定運行。目前,相關技術已經被直接應用到實際產品中:TikTok 的 Smart Split 功能,已經能夠實現 自動剪輯、智能構圖重裁、自動加入字幕,並將長視訊一鍵轉化為適合 TikTok 傳播的短影片片段。另一款工具 AI Outline,則面向內容創作者,支援將簡單提示詞或熱門話題,自動轉化為結構化的標題、開頭與內容大綱,選題 → 起稿 → 結構化,開始變成一條自動化流水線,顯著降低創作門檻。一位老外看到後,非常興奮:正“這看起來太厲害了,我真心希望有一天我們可以通過提示詞就實現帶自訂格式的自動視訊剪輯,那將徹底改變一切。”寫在最後最後有兩點覺得我們需要注意的。首先,視訊創作的工作流已經發生了全鏈路的變化。如果我們對比過去,視訊創作是:人找素材 → 人看完 → 人選片 → 人剪 → 人調構圖 → 人加字幕可隨著AI視訊工具的能力愈發完善,現在正在變成:AI 看 → AI 選 → AI 剪 → AI 構圖 → 人做判斷和風格這意味著業界原來的許多層面的門檻已經抹平了。越接近執行的剪輯、素材製作已經不再是高門檻,而判斷、敘事、風格、審美,開始變成唯一不可替代的東西。其次,視訊 AI 的競爭,已經悄悄“換賽道”了。從Google的 Veo,到生數科技的 Vidu,再到字節的 Vidi2,整個行業的重心正在發生轉移,正如開頭所提到的。很明顯,上半場,AI圈拼的是,誰能生成更逼真的畫面;而下半場,大家已經在推向新的敘事:誰能更精準地理解故事、控制結構、定位細節。而字節 Vidi2 的發佈,再一次將“理解與控制”拉到視訊 AI 的又一個高度。Github地址:https://github.com/bytedance/vidihttps://bytedance.github.io/vidi-website/ (51CTO技術堆疊)