剛剛，GoogleViT核心骨幹集體投奔OpenAI：他們為Sora打下基礎

2024/12/05

•

爆炸消息——

ViT三大核心作者集體離職GoogleDeepMind。下一站：OpenAI！

他們分別是翟曉華（Xiaohua Zhai）、盧卡斯·拜爾（Lucas Beyer）、亞歷山大·科列斯尼科夫（Alexander Kolesnikov）。

相關消息已被本人證實，三人均官宣了新動向。

2021年，他們三人作為共同一作的電腦視覺領域神作ViT發佈即刷新ImageNet最高分。

這項研究證實了CNN在CV領域不是必需的，Transformer從NLP跨界，一樣可以取得先進效果。開創了Transformer在CV領域應用的先河。

目前這篇論文被引用量已超過4.9萬。

此外，他們還共同提出了SigLIP、PaliGamma等SOTA級工作。

幾周後，他們將正式加入OpenAI蘇黎世實驗室。

值得一提的是，Wired方面消息稱，三人是被OpenAI挖走的。

網友評論：能撬動這一“鐵三角”黃金組合，OpenAI真的太幸運了。

ViT三大核心作者投奔OpenAI

Xiaohua Zhai（翟曉華）

此前他是Google DeepMind 的高級研究員，領導著蘇黎世一個多模態研究小組。重點研究多模態資料（WebLI）、開放權重模型 ( SigLIP、PaliGemma )以及文化包容性。

目前Google學術引用數超六萬多。

2014年他畢業於北京大學，獲得電腦系博士學位；本科畢業於南京大學。一畢業就前往Google蘇黎世工作。

Lucas Beyer

這位同樣也是GoogleDeepMind蘇黎世小組的一位成員，共同領導著DeepMind的多模態研究團隊和基礎設施。

目前已經撰寫超50篇論文，被CVPR、NeurIPS、ICCV 等這些頂級會議接收。

據他個人官網中介紹，他在比利時長大，曾夢想製作電子遊戲以及從事AI研究。自我認定為「自學成才的駭客和研究科學家，致力於創造飛凡實物」。

他在德國亞琛工業大學學習機械工程，並在那裡獲得了機器人感知和電腦視覺博士學位。2018年加入Google。

Alexander Kolesnikov

2018年以來，他就在Google大腦，現為DeepMind團隊工作。之前主要成就包括訓練SOTA視覺模型*（從2019年到2021年都實現了ImageNet SOTA）；開放權重模型（SigLIP和PaliGemma），以及神經架構方面的工作：BiT、ViT、MLP-Mixer和FlexiViT。

除此之外，編寫靈活、高性能的研究基礎設施，尤其是Jax。

此前，他在奧地利科學技術研究所（ISTA）攻讀博士學位，研究方向是弱監督學習和圖像生成模型。

曾是GoogleCV的“黃金鐵三角”

在Google任職期間，三人多次合作並帶來了影響領域發展的重要工作。

其中最重要的一篇莫過於ViT。

這篇研究驗證了Transformer架構在電腦視覺領域的通用性。在它的基礎上衍生出了Swin Transformer、DeiT（Data-efficient Image Transformers）等。

它創新性提出將圖像分割成固定大小的塊（patches），並將每個塊視為一個序列元素，與NLP中的單詞類似。然後，這些塊通過變換器進行處理。

在許多視覺任務中，ViT在性能上超過了傳統的CNN模型，尤其是在大規模資料集上進行訓練時表現尤為突出。例如，在ImageNet分類任務中，ViT取得了與最先進的CNN模型相當甚至更好的結果。

此外他們還合作推出了MLP-Mixer、BiT（CV界的BERT）等領域內知名工作。 (量子位)