谷歌VideoPoet負責人蔣路跳槽TikTok！對標Sora，AI視頻模型大戰在即

2024/02/29

•

【新智元導讀】 GoogleResearch Lead，負責VideoPoet計畫的蔣路，即將加入TikTok，負責影片產生AI的開發。

谷歌VideoPoet計畫Research Lead，CMU兼職教授蔣路的Google Scholar資料顯示已加入TikTok。

最近，有傳聞TikTok招募了某篇論文的作者作為北美技術部門負責人，研發能和Sora對抗的影片生成AI。

而蔣路3週前在Linkedin上發布了離職谷歌的消息，也向外界揭開了謎底。

他身為GoogleVideoPoet計畫的負責人，將離開Google Research，不過會留在灣區，繼續影片產生領域的工作。

「人才第一，數據第二，算力第三」，謝賽寧的AI突破「3要素」，已經為大廠在未來建構自己的AI護城河指明了方向。

而蔣路帶領Google團隊在去年年底推出了在技術路線上與Sora相似的視訊生成技術：VideoPoet，讓他成為了世界上為數不多的有能力構建最前沿AI視頻生成技術的科學家。

VideoPoet在Sora發布之前就已經將AI影片的前沿推進到了生成10秒長，一致性非常強，動作幅度大且連貫的影片。

而同時，他也是CMU的兼任教授，有非常豐富的科學研究經驗與成果。

蔣路這樣既有深厚的理論功底，又有最前沿大型專案的工程和管理經驗的複合型專家，自然成為了大廠必爭的AI基石型人才。

個人介紹

蔣路在Google擔任研究科學家和管理職位，同時也是卡內基美隆大學計算機科學學院語言技術研究所的兼任教授。

在CMU，他不僅指導研究生的研究項目，也親自講授課程。

他的研究成果在自然語言處理（ACL）和電腦視覺（CVPR）等領域的頂級會議上獲得佳績，也曾在ACM ICMR、IEEE SLT 和NIST TRECVID等重要會議上獲獎。

他的研究對多款Google產品的開發和改進起到了至關重要的作用：包括YouTube、Cloud、Cloud AutoML、Ads、Waymo和Translate 等。

這些產品每天服務全球數十億用戶。

除了上述這些內容以外，還有另一個側面能很好地說明蔣路學術水平的高度：他與眾多電腦視覺和自然語言處理領域的頂尖研究者都有過合作。

2017至2018年期間，他是Google Cloud AI首批研究團隊的創始成員，由李佳博士和李飛飛博士親自挑選。

隨後，他加入了Google Research，與Weilong Yang博士（2019-2020）、Ce Liu博士（2020-2021）、Madison Le（2021-2022）和Irfan Essa博士（2023）等人都有合作。

此外，在卡內基美隆大學讀博期間，他的論文由Tat-Seng Chua博士和Louis-Philippe Morency博士共同指導。2017他在Alexander Hauptmann博士和Teruko Mitamura博士的幫助下成功畢業。

在雅虎、谷歌和微軟研究院的實習時，得到了Liangliang Cao博士、Yannis Kalantidis博士、Sachin Farfade、Paul Natsev博士、Balakrishnan Varadarajan博士、Qiang Wang博士和Dongmei Zhang博士等人的指導。

從他在領英上的履歷可以看出，許多科技大廠都留有過他的足跡。

在CMU和NSF都有過實習經驗。

而在畢業前，他在雅虎，谷歌，微軟都實習過。

他本科畢業於西安交通大學，研究生畢業於布魯塞爾自由大學，博士畢業於CMU。

VideoPoet

他在Google帶領的團隊在去年底推出的VideoPoet，已經用Transformer取代了傳統的UNet，成為AI影片生成當時的SOTA.

這項成就，也成為了TikTok相中他最主要的原因。

相較於只能生成小幅動作的Gen-2，VideoPoet一次能夠生成10秒超長，且連貫大動作視頻，可以說是實現了完全碾壓！

另外，VideoPoet也並非基於擴散模型，而是多模態大模型，可擁有T2V、V2A等能力，或將成為未來視訊生成的主流。

相較於其他模型，Google的方法是將多種視訊生成功能無縫整合到單一的大語言模型中，而不依賴針對各個任務分別訓練的專用組件。

具體來說，VideoPoet主要包含以下幾個元件：

- 預先訓練的MAGVIT V2視訊tokenizer和SoundStream音訊tokenizer，能將不同長度的影像、視訊和音訊剪輯轉換成統一詞彙表中的離散程式碼序列。這些程式碼與文字型語言模型相容，便於與文字等其他模態結合。

- 自回歸語言模型可在視訊、圖像、音訊和文字之間進行跨模態學習，並以自回歸方式預測序列中下一個視訊或音訊token。

- 在大語言模型訓練框架中引入了多種多模態生成學習目標，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修復/擴展、視頻風格化和視頻到音頻等。此外，這些任務可以相互結合，實現額外的零樣本功能（例如，文字到音訊）。

VideoPoet能夠在各種以視訊為中心的輸入和輸出上進行多工處理。其中，LLM可選擇將文字作為輸入，來指導文字到影片、圖像到影片、影片到音訊、風格化和擴圖任務的生成

使用LLM進行訓練的一個關鍵優勢是，可以重複使用現有LLM訓練基礎設施中引入的許多可擴展的效率改進。

不過，LLM是在離散token上運行的，這可能會為視訊生成帶來挑戰。

幸運的是，視訊和音訊tokenizer，可以將視訊和音訊剪輯編碼為離散token序列（即整數索引），並可以將其轉換回原始表示。

VideoPoet訓練一個自回歸語言模型，透過使用多個tokenizer（用於視訊和圖像的MAGVIT V2，用於音訊的SoundStream）來跨視訊、圖像、音訊和文字模態進行學習。

一旦模型根據上下文產生了token，就可以使用tokenizer解碼器將這些token轉換回可查看的表示形式。

VideoPoet任務設計：不同模態透過tokenizer編碼器和解碼器與token相互轉換。每個模態周圍都有邊界token，任務token表示要執行的任務類型

相較於先前的影片生成模型，VideoPoet有這麼三個比較大的優勢。

一個是能產生更長的視頻，一個是用戶能對生成的視頻有更好的控制能力，最後一個則是VideoPoet還可以根據文本提示，生成不同的運鏡手法。

而在測試中，VideoPoet也是拔得頭籌，碾壓了不少其它視訊生成模型。

文字保真度：

文字保真度的使用者偏好評級，即在準確遵循提示方面首選影片的百分比

動作趣味性：

使用者對動作趣味性的偏好評級，即在產生有趣的動作方面，首選影片的百分比

綜上可見，平均有24-35%的人認為VideoPoet產生的範例比其他模型更遵循提示，而其他模型的比例僅為8-11%。

此外，41%-54%的評估者認為VideoPoet中的範例動作更有趣，而其他模型只有11%-21%。

而有關未來的研究方向，谷歌研究人員表示，VideoPoet框架將會實現“any-to-any”的生成，例如擴展文本到音頻、音頻到視頻，以及視頻字幕等等。（新智元）

參考資料：

http://www.lujiang.info/bio.html

https://scholar.google.com/citations?user=jIKjjSYAAAAJ&hl=en