百度居然悄悄拿了個榜單第一，關鍵是……他們自己好像還不知道？

2025/05/19

•

拼圖逐漸清晰，生態才是真正殺招？

周末，躺在公園百無聊賴刷手機的我，差點被一條消息驚掉下巴：

全球AI圈公認的權威視訊生成評測榜單VBench剛剛更新了最新一期圖生視訊（I2V）排名，排在第一，不是大名鼎鼎的OpenAI Sora，也不是風頭正勁的GoogleImagen Video，而是百度的視訊生成模型Steamer-I2V，總分更是飆到了89.38%！

講真，我第一眼看到的時候也是滿臉問號：百度？圖生視訊？榜單第一？？？這是啥情況？

再去刷了一圈AI圈子，結果發現好多KOL也都一臉蒙圈：

“什麼情況？VBench榜單第一怎麼突然被百度承包了？"

"百度PR部門是不是放假去了？這麼猛的成績連個新聞稿都不發一下？"

01 大廠開始發力圖生視訊

悄咪咪地拿下VBench圖生視訊榜單第一的百度，也引發了我的好奇——現在文生視訊那麼熱鬧，一堆廠商恨不得讓你輸入幾句話就秒出一個大片，為什麼會有大廠突然在圖生視訊賽道上發力？

和圈內朋友打了一通電話後，我發現，這是一個基於市場實際需求的明智選擇。

首先，大家卷T2V（文生視訊）熱鬧歸熱鬧，但是真正用下來就發現問題不少：比如生成結果不可控，經常會“驚喜”變“驚嚇”，商業化難度很大。

相較於文生視訊常見的不確定性和難以控制的結果，I2V（圖生視訊）的模式更像是給AI一個“明確的起點”，提供了更高的可控性和穩定性。

只要上傳一張圖片，再輸入一些簡單的描述，就能自動生成一條專業級視訊，成本甚至不到傳統製作的1/20——自然，也就更容易被品牌和企業使用者接受。

想像一下，如果你是一個品牌行銷人員，需要為產品製作宣傳視訊，你更願意選擇那種方式？是從零開始描述，然後祈禱AI能理解你的意圖？還是直接上傳產品圖片，讓AI基於真實素材生成視訊？答案其實是顯而易見的。

而在影視創作領域，隨著GPT-4o等一系列大模型P圖能力的升級（參見我們之前介紹的文章），在AI圖片領域越來越容易實現角色一致性的今天，越來越多的從業者正習慣於使用AI圖片工具製作保持角色一致性的分鏡圖，再進入AI視訊軟體生成視訊——瞧，這也是圖生視訊需求。

02 我們再深扒一下，這個模型究竟厲害在那？

Steamer-I2V為什麼能一舉拿下VBench榜單圖生視訊的第一名？

我們再深扒一下，發現它的背後，有三大非常領先的技術優勢：

（1）像素級畫面精準控制，大師級運鏡

傳統AI視訊生成的最大毛病，就是控制不了細節。Steamer-I2V則以拍攝視角為基礎，對視訊生成的prompt做到了精細化設計，精準控制畫面細節、運動軌跡、風格屬性和鏡頭語言，直接避免了"差不多得了"的那種馬虎事兒。

另外，它還支援多模態條件輸入，包括中文文字提示、參考圖像和引導訊號，確保與特定的創意意圖保持高度一致。

（2）高畫質畫質，電影級動態美學

基於前沿的Transformer擴散架構，模型可生成解析度高達1080P的高畫質視訊，呈現流暢的過渡效果與逼真的物理運動規律。

更重要的是，通過多階段SFT訓練、人工反饋的偏好學習、時間步採樣最佳化等策略，Steamer-I2V對時間一致性、電影鏡頭構圖和運動規律性進行了針對性最佳化。

而這，會讓整個視訊序列展現出優秀的邏輯連貫性和視覺連續性，讓生成的視訊幾乎看不到AI生成內容常見的抖動、閃爍或不自然的運動。

（3）中文語義精準理解

這可能是百度最獨特的競爭優勢。Steamer-I2V建構了億級規模的中文多模態訓練資料庫，通過"篩選-淨化-配比"三級資料最佳化體系，確保文字指令與視覺元素的語義對齊精度。

這種精心設計的資料清洗機制使模型具備專業級中文概念解析能力，可精準捕捉文化特定元素與複雜語義關聯，顯著提升中文創意指令的視覺轉化精準率。

對於中國創作者來說，這意味著他們可以用最自然的方式表達創意意圖，而不必被迫使用英文或擔心翻譯不精準導致的效果偏差。

03 百度的多模態野心：拼圖逐漸清晰，生態才是真正殺招？

深入思考後，我意識到，Steamer-I2V的大放異彩可能並非偶然事件，而是百度整體AI戰略的重要一環。

1.年初百度推出"百看"搜尋，這是一種全新的智能搜尋體驗，變革了傳統搜尋的結果組織方式。"百看"支援多模態輸入，讓使用者能通過語音、圖像等多種方式表達需求，並獲得結構化、豐富的答案。

2.生成式AI正在為企業構築更多行銷新場域，百度宣佈商業系統升級為“百度伴飛”，在智能問答、筆記、資訊聚合以及短劇、小說、遊戲等新場域，文心大模型在滿足使用者需求的基礎上，也幫助企業進一步收穫更多商業空間。生成式AI能為“用商”雙端同時帶來價值，未來2年將釋放10倍商業空間。

回顧百度今年一系列動作，百度正在建構一個全方位的AI內容生態系統，覆蓋從搜尋、文件到視訊創作的各個環節。

想像一下未來的場景：你在百度搜尋中輸入一個問題，得到的不僅是文字回答，還有AI即時生成的相關視訊內容；你可以在百度視訊資訊流、短劇頻道、搜尋專題、搜尋合集等豐富的場域享受到優質的短劇、筆記、小說、遊戲等內容。同時，你也可以以創作者身份用百度AI視訊生成能力創作優質的短劇、視訊內容，帶來更多的變現機會...

這種用商一體，無縫整合的體驗，正是百度所描繪的AI未來圖景。

04 結語：低調的百度，認真的野心

總而言之，這次百度的視訊生成模型登頂VBench榜單，真的是既出乎意料，又在情理之中。

有趣的是，儘管取得了如此重大的突破，百度卻保持著出人意料的低調。沒有盛大的發佈會，沒有鋪天蓋地的宣傳，甚至連一篇正式的新聞稿都沒有。

這種"低調做事"的風格，在當下AI公司動輒"放衛星"的環境中顯得格外特別。

也許，這正是百度的高明之處。在AI競爭白熱化的今天，與其喊口號，不如實實在在地做出成績——也正因如此，我才更期待接下來百度會怎麼用這個技術來玩轉自己的業務生態。

我相信，這次的百度，是真的認真起來了。 (硬AI)