港大字節最新視訊生成模型刷屏！網友直接RIP市場行銷，Sora也不香了

2025/02/11

•

剛剛，港大字節聯手發佈最新視訊生成模型，讓歪果網友直呼瘋狂。

有人甚至直接RIP市場行銷、TikTok使用者和YouTube創作者。

你敢信，下面這一幕不是來自歐巴電視劇，而是AI生成的！

造出它的新模型名為Goku（悟空），是一系列基於rectified flow Transformer的模型，專為圖像和視訊聯合生成而設計，支援文生視訊、圖生視訊、文生圖。

另外還有Goku+，是視訊廣告基礎模型，官方更是直言“它能以比原來低100倍的成本建立廣告視訊”。

Goku生成商品廣告手拿把掐，無論是展示食物還是化妝品都很逼真自然，人物神情也很難看出破綻：

以下生成的吃播視訊更是讓人分不出真假：

再拿出一張白底的皮鞋照片，毫不費力就能將其搬到展台上展示：

甚至能僅憑一張商品圖+文字prompt，就生成帶人物的互動講解視訊。

prompt：

The woman stands behind a colorful Minnie Mouse product, her head gently swaying left and right as she speaks animatedly. Her hands rest on the table, framing the product, while her mouth opens and closes with noticeable emphasis, conveying her enthusiasm and detailed explanation. The camera remains steady, capturing her expressive gestures and the vibrant design of the product in front of her.（女士站在一個色彩繽紛的米妮老鼠產品後面，她的頭部輕輕地左右擺動，邊說邊展現生動的表情。她的手搭在桌子上，框住了產品，同時她的嘴巴張開合上，明顯強調著，傳達出她的熱情和詳盡的解釋。攝影機保持穩定，捕捉到她富有表現力的手勢和她面前產品的鮮豔設計。）

各種場面都能hold住，時裝秀也不在話下：

在定性和定量評估中，Goku文字到圖像生成GenEval得分0.76和DPG-Bench得分83.65；文字到視訊生成VBench得分84.85，一舉拿下新SOTA。

網友們這下都坐不住了，紛紛稱Goku和Goku+是顛覆性的。

將AI視訊推向下一個level！

手裡的Sora真真兒不香了。

基於流的視訊生成基礎模型

論文介紹，Goku是基於流的視訊生成基礎模型。

具體來說，Goku採用了校正流（Rectified Flow）Transformer實現圖像和視訊的聯合生成。

其核心元件包括，圖像-視訊聯合VAE、Transformer架構和校正流公式——

先用圖像-視訊聯合VAE將圖像和視訊壓縮到共享的潛在空間，再用全注意力Transformer對潛在表示進行建模，實現圖像和視訊的統一生成。

校正流公式基於RF（rectified flow）演算法，將其應用於圖像-視訊聯合生成，相比擴散模型展現出了更快的收斂速度和更強的理論性質。

訓練方面，Goku採用了多階段訓練策略。

首先進行圖文語義對齊預訓練，再進行圖像-視訊聯合訓練，最後針對不同模態進行微調，逐步提升模型生成能力。

值得關注的是，為了訓練Goku，研究人員還準備了大規模高品質資料集和高效的訓練基礎設施。

資料方面，研究人員建構了約3600萬視訊和1.6億圖像的大規模資料集，並採用多種資料過濾和增強技術來提高資料質量。

為此，他們提出了一個全面的資料處理流程，包括基於美學評分的視訊和圖像過濾、基於OCR的內容分析及主觀評價。

他們還採用多模態大語言模型來為視訊、圖像資料生成資訊密集且語境一致的標題，並用額外的大語言模型繼續細化，以提高其精準性、流暢性和描述豐富性。

基礎設施最佳化則包括平行策略、細粒度啟動檢查點技術、容錯機制以及豆包大模型團隊和港大之前聯合提出的ByteCheckpoint技術——

與基線方法相比，ByteCheckpoint在Checkpoint保存上性能提升高達529.22倍，在載入上，性能提升高達3.51倍。

為適應不同計算需求和性能要求，研究團隊提供了三種規模的模型：實驗用的Goku-1B、標準版Goku-2B、Goku-8B。

不過遺憾的是，官方目前只放出了技術報告，暫時還不能玩，網友已經迫不及待了～ (量子位)