剛剛,GoogleViT核心骨幹集體投奔OpenAI:他們為Sora打下基礎

爆炸消息——

ViT三大核心作者集體離職GoogleDeepMind。下一站:OpenAI

他們分別是翟曉華(Xiaohua Zhai)、盧卡斯·拜爾(Lucas Beyer)、亞歷山大·科列斯尼科夫(Alexander Kolesnikov)。

相關消息已被本人證實,三人均官宣了新動向。



2021年,他們三人作為共同一作的電腦視覺領域神作ViT發佈即刷新ImageNet最高分。

這項研究證實了CNN在CV領域不是必需的,Transformer從NLP跨界,一樣可以取得先進效果。開創了Transformer在CV領域應用的先河。

目前這篇論文被引用量已超過4.9萬



此外,他們還共同提出了SigLIP、PaliGamma等SOTA級工作。

幾周後,他們將正式加入OpenAI蘇黎世實驗室。

值得一提的是,Wired方面消息稱,三人是被OpenAI挖走的。

網友評論:能撬動這一“鐵三角”黃金組合,OpenAI真的太幸運了。


ViT三大核心作者投奔OpenAI

Xiaohua Zhai(翟曉華)

此前他是Google DeepMind 的高級研究員,領導著蘇黎世一個多模態研究小組。重點研究多模態資料(WebLI)、開放權重模型 ( SigLIP、PaliGemma )以及文化包容性。

目前Google學術引用數超六萬多。



2014年他畢業於北京大學,獲得電腦系博士學位;本科畢業於南京大學。一畢業就前往Google蘇黎世工作。



Lucas Beyer

這位同樣也是GoogleDeepMind蘇黎世小組的一位成員,共同領導著DeepMind的多模態研究團隊和基礎設施。

目前已經撰寫超50篇論文,被CVPR、NeurIPS、ICCV 等這些頂級會議接收。



據他個人官網中介紹,他在比利時長大,曾夢想製作電子遊戲以及從事AI研究。自我認定為「自學成才的駭客和研究科學家,致力於創造飛凡實物」。

他在德國亞琛工業大學學習機械工程,並在那裡獲得了機器人感知和電腦視覺博士學位。2018年加入Google。



Alexander Kolesnikov

2018年以來,他就在Google大腦,現為DeepMind團隊工作。之前主要成就包括訓練SOTA視覺模型*(從2019年到2021年都實現了ImageNet SOTA);開放權重模型(SigLIP和PaliGemma),以及神經架構方面的工作:BiT、ViT、MLP-Mixer和FlexiViT。

除此之外,編寫靈活、高性能的研究基礎設施,尤其是Jax

此前,他在奧地利科學技術研究所(ISTA)攻讀博士學位,研究方向是弱監督學習和圖像生成模型。


曾是GoogleCV的“黃金鐵三角”

在Google任職期間,三人多次合作並帶來了影響領域發展的重要工作。

其中最重要的一篇莫過於ViT。

這篇研究驗證了Transformer架構在電腦視覺領域的通用性。在它的基礎上衍生出了Swin Transformer、DeiT(Data-efficient Image Transformers)等。

它創新性提出將圖像分割成固定大小的塊(patches),並將每個塊視為一個序列元素,與NLP中的單詞類似。然後,這些塊通過變換器進行處理。



在許多視覺任務中,ViT在性能上超過了傳統的CNN模型,尤其是在大規模資料集上進行訓練時表現尤為突出。例如,在ImageNet分類任務中,ViT取得了與最先進的CNN模型相當甚至更好的結果。



此外他們還合作推出了MLP-Mixer、BiT(CV界的BERT)等領域內知名工作。 (量子位)