拼圖逐漸清晰,生態才是真正殺招?
周末,躺在公園百無聊賴刷手機的我,差點被一條消息驚掉下巴:
全球AI圈公認的權威視訊生成評測榜單VBench剛剛更新了最新一期圖生視訊(I2V)排名,排在第一,不是大名鼎鼎的OpenAI Sora,也不是風頭正勁的GoogleImagen Video,而是百度的視訊生成模型Steamer-I2V,總分更是飆到了89.38%!
講真,我第一眼看到的時候也是滿臉問號:百度?圖生視訊?榜單第一???這是啥情況?
再去刷了一圈AI圈子,結果發現好多KOL也都一臉蒙圈:
“什麼情況?VBench榜單第一怎麼突然被百度承包了?"
"百度PR部門是不是放假去了?這麼猛的成績連個新聞稿都不發一下?"
悄咪咪地拿下VBench圖生視訊榜單第一的百度,也引發了我的好奇——現在文生視訊那麼熱鬧,一堆廠商恨不得讓你輸入幾句話就秒出一個大片,為什麼會有大廠突然在圖生視訊賽道上發力?
和圈內朋友打了一通電話後,我發現,這是一個基於市場實際需求的明智選擇。
首先,大家卷T2V(文生視訊)熱鬧歸熱鬧,但是真正用下來就發現問題不少:比如生成結果不可控,經常會“驚喜”變“驚嚇”,商業化難度很大。
相較於文生視訊常見的不確定性和難以控制的結果,I2V(圖生視訊)的模式更像是給AI一個“明確的起點”,提供了更高的可控性和穩定性。
只要上傳一張圖片,再輸入一些簡單的描述,就能自動生成一條專業級視訊,成本甚至不到傳統製作的1/20——自然,也就更容易被品牌和企業使用者接受。
想像一下,如果你是一個品牌行銷人員,需要為產品製作宣傳視訊,你更願意選擇那種方式?是從零開始描述,然後祈禱AI能理解你的意圖?還是直接上傳產品圖片,讓AI基於真實素材生成視訊?答案其實是顯而易見的。
而在影視創作領域,隨著GPT-4o等一系列大模型P圖能力的升級(參見我們之前介紹的文章),在AI圖片領域越來越容易實現角色一致性的今天,越來越多的從業者正習慣於使用AI圖片工具製作保持角色一致性的分鏡圖,再進入AI視訊軟體生成視訊——瞧,這也是圖生視訊需求。
Steamer-I2V為什麼能一舉拿下VBench榜單圖生視訊的第一名?
我們再深扒一下,發現它的背後,有三大非常領先的技術優勢:
(1)像素級畫面精準控制,大師級運鏡
傳統AI視訊生成的最大毛病,就是控制不了細節。Steamer-I2V則以拍攝視角為基礎,對視訊生成的prompt做到了精細化設計,精準控制畫面細節、運動軌跡、風格屬性和鏡頭語言,直接避免了"差不多得了"的那種馬虎事兒。
另外,它還支援多模態條件輸入,包括中文文字提示、參考圖像和引導訊號,確保與特定的創意意圖保持高度一致。
(2)高畫質畫質,電影級動態美學
基於前沿的Transformer擴散架構,模型可生成解析度高達1080P的高畫質視訊,呈現流暢的過渡效果與逼真的物理運動規律。
更重要的是,通過多階段SFT訓練、人工反饋的偏好學習、時間步採樣最佳化等策略,Steamer-I2V對時間一致性、電影鏡頭構圖和運動規律性進行了針對性最佳化。
而這,會讓整個視訊序列展現出優秀的邏輯連貫性和視覺連續性,讓生成的視訊幾乎看不到AI生成內容常見的抖動、閃爍或不自然的運動。
(3)中文語義精準理解
這可能是百度最獨特的競爭優勢。Steamer-I2V建構了億級規模的中文多模態訓練資料庫,通過"篩選-淨化-配比"三級資料最佳化體系,確保文字指令與視覺元素的語義對齊精度。
這種精心設計的資料清洗機制使模型具備專業級中文概念解析能力,可精準捕捉文化特定元素與複雜語義關聯,顯著提升中文創意指令的視覺轉化精準率。
對於中國創作者來說,這意味著他們可以用最自然的方式表達創意意圖,而不必被迫使用英文或擔心翻譯不精準導致的效果偏差。
深入思考後,我意識到,Steamer-I2V的大放異彩可能並非偶然事件,而是百度整體AI戰略的重要一環。
1.年初百度推出"百看"搜尋,這是一種全新的智能搜尋體驗,變革了傳統搜尋的結果組織方式。"百看"支援多模態輸入,讓使用者能通過語音、圖像等多種方式表達需求,並獲得結構化、豐富的答案。
2.生成式AI正在為企業構築更多行銷新場域,百度宣佈商業系統升級為“百度伴飛”,在智能問答、筆記、資訊聚合以及短劇、小說、遊戲等新場域,文心大模型在滿足使用者需求的基礎上,也幫助企業進一步收穫更多商業空間。生成式AI能為“用商”雙端同時帶來價值,未來2年將釋放10倍商業空間。
回顧百度今年一系列動作,百度正在建構一個全方位的AI內容生態系統,覆蓋從搜尋、文件到視訊創作的各個環節。
想像一下未來的場景:你在百度搜尋中輸入一個問題,得到的不僅是文字回答,還有AI即時生成的相關視訊內容;你可以在百度視訊資訊流、短劇頻道、搜尋專題、搜尋合集等豐富的場域享受到優質的短劇、筆記、小說、遊戲等內容。同時,你也可以以創作者身份用百度AI視訊生成能力創作優質的短劇、視訊內容,帶來更多的變現機會...
這種用商一體,無縫整合的體驗,正是百度所描繪的AI未來圖景。
總而言之,這次百度的視訊生成模型登頂VBench榜單,真的是既出乎意料,又在情理之中。
有趣的是,儘管取得了如此重大的突破,百度卻保持著出人意料的低調。沒有盛大的發佈會,沒有鋪天蓋地的宣傳,甚至連一篇正式的新聞稿都沒有。
這種"低調做事"的風格,在當下AI公司動輒"放衛星"的環境中顯得格外特別。
也許,這正是百度的高明之處。在AI競爭白熱化的今天,與其喊口號,不如實實在在地做出成績——也正因如此,我才更期待接下來百度會怎麼用這個技術來玩轉自己的業務生態。
我相信,這次的百度,是真的認真起來了。 (硬AI)