GPT-4o 17人Omni金牌團隊首揭秘！清北上交中科大6位華人領銜

2024/05/17

•

就在剛剛，奧特曼表揚了GPT-4o關鍵團隊的成員。 17位Omni團隊成員中，有6人是華人，本科分別來自清華、北大、上交、中科大、MIT等，甚至還有一位是美國IOI隊教練。奧特曼大讚：正是你們的努力，讓「Her」成為現實。

在幾天前的記者會上，OpenAI再次向全世界證明，它永遠走在AI領域的最前線。

眼看著《Her》中的Samantha在自己眼前成真，那一刻，全世界為之振奮。

就在剛剛，GPT-4o的關鍵團隊訊息，也被公佈了出來。

就是這個名為「omni」的團隊，發揮了不可思議的潛力，讓OpenAI的首個原生全多模態模型成為可能。

Sam Altman盛贊，如果沒有團隊負責人Prafulla Dhariwal長期以來的遠見、才智、信念和決心，就沒有GPT-4o。而整個團隊的努力，才使得他所期待的人機互動革命成為現實。

OpenAI聯創Greg Brockman，也表揚了這位肩負著整個團隊使命的負責人。

多虧了Prafulla Dhariwal「建立全能大模型」的信念，並且在過去的18個月中聯合了OpenAI的許多團隊，在多個團隊的通力合作下，GPT-4o才得以誕生。

GPT-4o可以辨識不同的聲音

根據負責人的說法，其實OpenAI早就有意打造這樣一個Omni大模型了。

然而一年多前，團隊曾經做過多次多模態的嘗試，卻沒有一次能讓最大的GPT成功完成多模態運作。

幸運的是，團隊成員齊心協力，以出色的能力攻克了種種能力，使GPT-4o成為可能。

網友銳評：「你們確實處於創新的前沿，執行水準達到了大型科技巨頭夢寐以求的水平。」

而如此驚豔的演示，竟然是一個不到20人的小團隊打造出來的。

Omni團隊揭秘

接下來，一起看看打造OpenAI首個原生多模態GPT-4o背後團隊成員，都有誰？

負責人Prafulla Dhariwal

領導GPT-4o開發的負責人Prafulla Dhariwal，是印度小哥。

他於2017年獲得了麻省理工學院的電腦科學學士學位。

畢業前夕，Dhariwal就加入了OpenAI（當時OpenAI僅成立一年），並在17年正式成為研究科學家。

至今，Dhariwal任職OpenAI 7年，可以說，他見證了這家新創公司的成長全過程。

在此期間，Dhariwal參與了許多磅數的研究。

根據LinkedIn個人主頁，他將發表論文的領域分類為生成式模型、無監督學習、Scaling Law、定理證明、強化學習、量子複雜性。

其中包括DALL·E 3、DALL·E 2，模型一致性等，也共同提出了著名的「Scaling Law」。

值得一提的是，Dhariwal曾在高中期間參加了幾次國際奧林匹克競賽。

他是2012年IMO競賽的金牌得主，也是IAO（國際天文學奧林匹克競賽）、IPhO（國際物理奧林匹克）的金牌得主。

有網友稱，Prafulla Dhariwal從高中開始就是我的靈感來源。他當年為印度贏得了IAO、IPhO和IMO的金牌，並在OpenAI大學畢業後從事非常酷的VAE、Gans、DDPM、一致性模型等項目。

6位華人

Li Jing

Li Jing在團隊中扮演的角色是，讓大家擁有令人驚嘆的影像/3D生成。

此前，他為Dall-E 3、Sora、GPT-4o都做出貢獻。

他曾在Meta做過2年的博後研究員，隨後進入OpenAI成為全職研究員。

雖然才入職OpenAI不到兩年，但他已經參與多個OpenAI的重磅研究了。

他在北京大學獲得物理學學士學位，並在MIT獲得物理學博士學位。

Casey Chu

Casey Chu是團隊的老員工了。

他從2020年4月就入職了OpenAI，如今已經是4年的「元老」了。

他本科在哈維穆德學院獲得數學學士學位，並在史丹佛大學獲得計算數學碩士學位。

Mark Chen

Mark Chen是OpenAI的前沿研究主管，並且也是美國IOI隊的教練。

在團隊漫長的研究中，Mark Chen是大家奮鬥的支柱。

他已是OpenAI五年多的老員工。先前曾在微軟、Trading實習，在哈佛擔任訪問學者，在量化研究工作過5年，並且成為合夥人。

他畢業於MIT數學-電腦專業。

Jiahui Yu

Jiahui Yu負責帶領OpenAI的感知團隊。

在此之前，他曾擔任Google Brain和Google DeepMind的高級研究科學家和經理。

他的研究領域包括序列建模（語言、語音、視訊、金融數據）、電腦視覺、生成模型和高效能運算。

在研究生期間，他在微軟亞研院、曠視科技、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和Google Brain都有實習經驗。

他本科畢業於中國科技大學少年班，並獲得電腦學士學位。博士畢業於伊利諾大學香檳分校。

Huiwen Chang

Huiwen Chang在OpenAI已經工作一年。

此前她曾在Google工作5年，在微軟亞研院、Adobe、Facebook有實習經驗。

她在清華大學電腦科學實驗班（姚班）取得學士學位，然後在普林斯頓大學取得博士學位。

Yu Zhang

他在OpenAI工作了8個月。他先前曾在GoogleDeepMind工作過6年，也曾在微軟亞研院、微軟實習。

他本科在上海交通大學取得電腦學士學位，並在MIT取得博士學位。

其他關鍵成員

James Betker

James Betker在這個團隊中負責得非常全面，應有盡有，包括影像、音訊、資料、整合、後訓練（post-training）。

這是從Google跳槽至OpenAI的大咖。

在加入OpenAI之前，Betker曾在Google擔任了3年的軟體工程師。

此外，他還在2011年加入了Garmin International，現任職資深軟體工程師。

他曾獲得了UCSB的電腦科學學士學位，同時，在2005-2009年期間，還是在學校擔任4年的軟體工程師。

Jamie Kiros

Jamie Kiros讓GPT-4獲得目前最佳的視覺感知能力，並做出了非凡的成就。

此前，他曾在Google工作3年。

他在多倫多大學取得電腦博士學位。

Rowan Zellers

Rowan Zellers在Omni團隊中的貢獻是，讓OpenAI可以像人一樣自然地看到影片。

畢業後，他加入了艾倫人工智慧研究所（AI2）成為研究實習生。

2022年6月，成為OpenAI的技術人員。

Zellers曾獲得了哈維·穆德學院（Harvey Mudd College）的數學和電腦科學的學士學位，以及華盛頓大學電腦科學博士學位。

Alexis Conneau

在加入OpenAI之前，Alexis Conneau就已經提出了「Her」（視覺模型）的理念，並且堅持不懈地執行並實現了它。

目前，Conneau是OpenAI的語音AGI負責人。

進入他的個人主頁，就知道Conneau對Her有多著迷了。

Conneau在加入OpenAI之前，曾在Meta、Google擔任研究科學家，有著9年的自然語言深度學習的經驗。

華盛頓郵報曾對Conneau進行了個人專題報導——

Alexis Conneau曾幫助Meta（Facebook）和Google打造了以驚人的精確性理解數十種語言的AI系統。

在Meta期間，Conneau團隊推進了機器學識演算法，將語言以數位抽象形式表現的能力，最終訓出能夠處理同步語言的AI。

例如XLM-R模型可以處理100+語言，其準確性幾乎與單一語言模型一致。

Conneau在Meta做的最後一項工作是Wave2vec-U。這是一種無人監督的語音辨識系統，可以從音訊中讀取單字。

此外，他還發明了一種演算法XLm-Roberta，能夠閱讀各種語言的大量資料。這項研究也成為他被引來最高的成果。

他曾獲得了Facebook AI Research的電腦科學博士學位，在巴黎-薩克雷高等師範學校獲得了機器學習碩士學位，以及巴黎綜合理工學院獲得了數學碩士學位。

Gabriel Goh

Gabriel Goh和接下來要介紹的Ishaan Gulrajani，在團隊中主要貢獻是，提出了一系列相關的「Scaling Law」的工作。

這樣當所有這些模態（視覺、語音等）匯集在一起時，模型便可以擅長處理一切事物!

Gabriel Goh也是OpenAI 5年多的老員工，之前曾在蘋果工作1年半。

他在英屬哥倫比亞大學取得碩士學位，並在加州大學戴維斯分校取得了數學專業博士學位。

CBC曾通報Gabriel Goh到OpenAI後，在2021年設計的CLIP系統。

他參與的研究，揭示了CLIP無法正確辨識影像，會把放著iPod字樣的蘋果辨識為iPod。

Ishaan Gulrajani

Ishaan Gulrajani目前是OpenAI的研究員。

根據OpenReview的介紹，他曾在Google和Meta工作過。並在MIT獲得學士學位，以及在史丹佛大學獲得博士學位。

Alex Nichol

Alex Nichol在團隊中主攻3D影像生成，也是DALL·E 2的共同發明者。

此前，他一直是一位自由工作者。

隨後，在2107年加入了OpenAI任技術研究員，中間還離職有近一年時間，並在2020年5月再次入職。

例如，在GPT-4o官方報部落格中的演示，它可以產生一致的試圖，重建複雜3D模型。

這些所展現的成果，離不開Nichol的貢獻。

Heewoo Jun

與Nichol一樣，Heewoo Jun在團隊中也在負責影像、3D生成。

根據OpenReview介紹，他曾在2015-2019年間在百度（美國研究院）擔任研究員，2019年從百度離職後加入OpenAI擔任研究員至今。

他曾獲得了史丹佛大學的碩士學位，以及多倫多大學的學士學位。

Christine McLeavey

這位Christine，是一位寶藏研究員。

她在OpenAI已經工作6年。

此前，她曾在Unity從事2D、3D、VR、AR遊戲的工作。

也曾做過4年的鋼琴演奏藝術家，創辦了交響樂、芭蕾舞、歌劇院管弦樂團的音樂家組織。

她在普林斯頓取得了藝術、物理、和鋼琴表演的學士學位。

畢業後，她在世界頂尖音樂學院——茱莉亞學院進修了兩年鋼琴。

三年後，她在史丹佛取得了神經科學的碩士學位。

al jabr

最後這位「al jabr」，並沒有公佈自己的真名，因此資料無從查找。

參與GPT-4o的所有成員

網友：下一個方向是什麼

在留言區，網友紛紛表示讚歎——

「團隊使這種令人難以置信的突破性體驗成真，o將徹底重構人機互動的方式。」

「GPT-4o是創新和協作的證明，你們的奉獻精神，構造了人工智慧進步的燈塔。」

所以，Omni團隊的下一步，又會為全世界帶來怎樣驚人的大作？(新智元)

參考資料：https://twitter.com/sama/status/1790816449180876804?t

從這裡可透過《Google 新聞》追蹤鉅亨號創作者