#陳博遠 | 熱門關鍵字 | 鉅亨號

世界模型是屬於00後們的虎嗅註：世界模型是屬於00後的任務。在具身智能、世界模型行業，我們已經看到了太多00後和“天才少年”。而今天我們聊的這個團隊，也幾乎全部由00後組成，他們也是當下估值最高的AI圈00後團隊之一。“AI原生100”是虎嗅科技組推出針對AI原生創新欄目，這是本系列的第「58」篇文章。 00後陳博遠今年剛從北大元培畢業，他另一個身份是逆矩陣創始人。 2026年初，尚未畢業的陳博遠創立了逆矩陣，首輪即獲得高瓴和北大系基金超千萬美元投資，到今天，這家公司即將完成新一輪過億美元融資，估值超50億元人民幣。

科技

2026/04/23

•

半壁華人！GPT Image 2團隊曝光：無錫才俊帶隊，13人4個月封神

GPT Image2全網刷屏，但效果究竟為什麼這麼好？研究負責人陳博遠揭秘：底層架構已徹底重構。但他又拒絕回答是否採用擴散模型或自回歸技術，只是神秘的將其描述為“通用模型”或“圖像領域的GPT”。陳博遠的一條推文還透露，從去年12月底的GPT Image 1.5算起，只用了四個月就有如此大的改進。這樣突破性的成果，核心團隊只有13人。整個團隊的負責人Gabriel Goh曬出了的團隊成員AI全家福。評論區有網友感嘆：怎麼全是亞洲人？陳博遠：從不懂Python到Research LeadGPT Image 2究竟是什麼架構？OpenAI恐怕很長一段時間都不會公佈了，但從核心團隊成員的學術經歷可以看出一些痕跡。陳博遠是團隊的Research Lead，他和另一位成員Kiwhan Song在MIT讀博時有同一位導師Vincent Sitzmann。他博士期間的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入選了NeurIPS 2024。這項研究提出Diffusion Forcing這一全新序列生成訓練範式，將逐token獨立噪聲級擴散與因果下一個token預測結合，融合自回歸模型的可變長度生成與全序列擴散模型的長程引導優勢。他在Google實習期間還以共同一作身份發表了SpatialVLM。通過過自動建構網際網路規模的3D空間推理 VQA 資料集（1000 萬圖像、20 億 QA 對），為視覺語言模型賦予定量 / 定性空間推理能力，可從單張 2D 圖像輸出米制距離、尺寸、方位等精確數值。這項研究把思維鏈空間推理應用到了具身智能領域。在Google實習期間，他開發的指令微調技術後續還被Gemini 2.0採用。他在高中參加科研夏令營時，還不懂Python的基本語法，那時結識的GoogleDeepMind資深研究員夏斐把他引入了AI世界。夏斐兩次邀請他到DeepMind完成高品質實習，這些經歷使陳博遠積累了大規模模型訓練的工程經驗，也為他理解多模態系統的資料需求提供了寶貴視角。博士畢業後，陳博遠於2025年6月加入OpenAI，迅速成為GPT圖片生成五人核心成員之一，負責GPT圖像生成模型的所有訓練，同時也是Sora視訊生成團隊的一員。在演示中，他給家鄉無錫做了一張海報。然後為來自首爾的隊友做韓文海報，為來自Bangladesh的隊友做孟加拉語海報。每一張中的文字渲染都精準無誤。中科大Jianfeng Wang：讓生圖AI理解世界知識中科大博士畢業的Jianfeng Wang，在GPT Image 2團隊負責的是另一個讓人驚嘆的能力：指令遵循和理解世界。舊模型畫的永遠時鐘永遠指向10:10，源於網路上的鐘錶廣告圖，幾乎清一色都是10:10。這是因為鐘錶廠商找心理學家做過實驗，認為這有助於刺激消費者買表的意願。他讓新模型畫2:25、3:30、9:10、7:45，全部精準。這只是開胃菜。更多複雜的空間佈局，蘋果在中心、杯子在右邊、書在上面、相機在左邊、籃球在下面。模型全部精準執行。在加入OpenAI 之前，他在微軟工作近9年。在微軟期間就與OpenAI團隊在DALLE-3上有合作。他在電腦視覺領域發表了多篇學術論文，研究內容可能涵蓋圖像分類、目標檢測、語義分割、以及視覺表徵學習等方向世界知識理解能力的大幅提升，對象的語義內容和功能結構有正確的理解JianFeng Wang在演示視訊結尾說到：GPT Image 2正在消除你的意圖和模型產出之間的差距。真正做到你想要什麼，模型就給你什麼。Yuguang Yang：生成高精度複雜資訊圖表Yuguang Yang在GPT Image 2的發佈活動中演示了生成資訊圖和PPT。整整75頁的GPT-3論文拖進ChatGPT，自動生成7張幻燈片。他的經歷可以說是團隊成員中最豐富的，每換一個工作都是跨界，但都聚焦機器學習。他本科在浙大竺可楨學院學的工程，博士在約翰斯霍普金斯大學期間學的是計算化學物理與機器學習。他第一份全職工作是量化分析師，在清華做訪問研究員期間亞牛的的是用於奈米機器人的強化學習和控制演算法。後來他在亞馬遜做過Alexa語音研究。又在微軟做過Bing搜尋的查詢理解和檢索、文件理解。2025年初加入OpenAI後，除了圖像生成還參與過ChatGPT智能體項目。他在個人帳號上介紹GPT Image 2的資訊圖生成能力，可以為科研人員節省大量時間。還反覆提醒大家，要做資訊圖不要忘記選擇思考模式。從DALL-E到GPT Image 2.0從團隊成員Kenji Hata的自我介紹中得知，GPT Image 1.0也就是GPT-4o的圖像生成部分。有一個人從DALL-E開始參與了OpenAI多模態系列研究的全程。他就是GPT Image 2.0團隊負責人Gabriel Goh。從2019年加入OpenAI，他的早期研究更篇理論，專注於可解釋性和凸最佳化等等。從DALL-E開始慢慢轉向了圖像生成。看到另一位團隊成員Weixin Liang的研究履歷，GPT Image 2的技術底色又揭開了一角。他在Meta實習期間的代表作Mixture-of-Transformers，引入模態解耦的MoE和解耦注意力，顯著降低多模態模型預訓練的計算成本。他博士畢業自史丹佛，本科也畢業自浙大竺可楨學院，不過比Yuguang Yang要晚好幾年。Weixin Liang與陳博遠一樣都是25年博士剛畢業就加入OpenAI，迅速成為團隊的核心成員。其他GPT Image 2.0團隊成員還包括：Ayaan Haque，之前在Luma AI 工作，參與過Luma的視訊生成基礎模型Dream Machine的訓練。Bing Liang，在Google幹了5年多，參與Imagen3、Veo、Gemini Multimodal，2025年跳到OpenAI做圖像生成研究。Mengchao Zhong，本科上海交通大學校友，碩士畢業於德克薩斯農工大學，在Pinterest和Airtable做過軟體工程師，在OpenAI負責多模態產品的工程。Dibya Bhattacharjee，耶魯大學，2015年IPhO銅牌，CIE A-Level數學和生物全球最高分。Kiwhan Song是25年10月最晚加入的，除了做研究之外，他還是團隊裡的提示詞大師，大家看到的官方演示圖很多都出自他手。……從最早的DALL-E到今天的GPT Image 2.0，這只團團隊先後解決了。畫得出來、畫得清楚、畫得好看、畫得準。儘管近年來OpenAI的人才流動很大，但OpenAI還是那個能不斷吸引各種有個性的人才，不限制專業、歡迎跨界，信奉自下而上湧現式研究的公司。從一個小團隊開始，有了突破後公司傾斜更多資源，直到改變世界。One More Thing曾經，GPT-4o圖像生成模仿吉卜力風格生成的頭像席捲了全世界。如今GPT Image 2.0的團隊成員，都把自己頭像換成了這種奇脖子畫風。那麼這種畫風的提示詞是什麼？團隊成員也公佈了出來Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.(量子位)

科技

2025/09/17

•

來自MIT最強AI實驗室：OpenAI天才華人研究員博士畢業了！

他曾在高中接觸深度學習，本科機器人創業、實習助力Gemini 2.0開發、橫跨AI與哲學雙領域……如今，不到4年讀完MIT博士，完成答辯。在OpenAI，他將繼續推進「世界模型」——這項可能重塑通用人工智慧路徑的前沿技術。不到4年完成頂級AI實驗室博士、順便輔修了哲學、GPT圖像生成核心5人研究團隊成員、OpenAI視訊生成模型Sora小組成員……剛剛，OpenAI華人研究科學家陳博遠，完成了MIT博士論文答辯！他激動地表示：我很興奮能夠在工業界繼續推進世界模型的發展——現在加入了GPT圖像生成和Sora視訊團隊。沒有什麼比看到自己的研究改變領域範式更令人興奮的事情了！在如此重要的時刻，他自然也感謝了導師和親友，得到了大家的祝賀。最後，他強調：視覺世界模型對於具身智能將至關重要。此外，他承諾，一如既往地與社區分享知識。華人天才，劍指世界模型陳博遠（Boyuan Chen），現任OpenAI研究科學家，負責訓練GPT圖像生成技術的五位研究人員之一，同時也是Sora視訊生成團隊的成員。他擁有麻省理工學院（MIT）電子工程與電腦科學（EECS）博士學位，並輔修哲學。他的研究重點是世界模型、具身人工智慧和強化學習。他認為，結合這些領域，AI能夠更好地理解並與物理世界互動。2023年5月-2023年8月，在GoogleDeepMind實習期間，他跟隨Fei Xia博士學習。在DeepMind，他主要參與了基於大規模合成資料的多模態大語言模型（MLLM）訓練項目；建構完整資料合成pipeline，其指令微調技術後續被Gemini 2.0採用。在博士答辯中，陳博遠特意感謝了DeepMind的導師Fei Xia。陳博遠還是個高中生時，參加了一個夏令營。這是兩人第一次見面，Fei Xia就向陳博遠介紹了深度學習——那時他甚至還不懂Python和NumPy。這正是他踏入AI領域的起點，Fei Xia就像他的「吳恩達」。Fei Xia兩次邀請他到GoogleDeepMind完成高含金量實習。讀博第一年，陳博遠因為沒有論文產出陷入低谷。這是他讀博最艱難階段，而Fei Xia協助他發表了首個爆款研究NLMap。項目地址：https://nlmap-saycan.github.io/此後，兩人還合作了SpatialVLM。論文連結：https://arxiv.org/abs/2401.12168他發表的多篇論文，在學術界和工業界均獲得認可，包括《Diffusion Forcing》、《SpatialVLM》和《History Guidance》等。矢志通用機器人在去年的部落格中，他對具身智能做出了樂觀的判斷：我可以負責任地告訴大家具身智能一定是下一個一百年最令人激動的技術，並且我們在有生之年很有希望見證通用機器人的誕生。同時，他也更願意看到社會細水長流地投入通用機器人的發展——看到科研工作者，如我導師Russ所說的那樣，「可以以結果為導向的科研，但不可以網紅視訊為導向」；看到政府和投資人在長線看好具身智能的同時，不因為硬體公司的融資需要而盲目相信機器人大模型；看到創業者勇往直前，用細分領域的成功為真正的通用機器人鋪路。在隨筆最後，他表示，「自己也願意用自己的一生給世界帶來真正的通用機器人」而OpenAI被曝出：在通往通用人工智慧（AGI）的競賽中，加大了機器人技術的工作力度，正在組建一個能夠開發控制機器人演算法的團隊，並且似乎正在聘請專門從事人形機器人研究的機器人專家。師出名門，文理雙修在2021-2025年期間，他在MIT電腦科學與人工智慧實驗室（MIT CSAIL）讀博士，師從Russ Tedrake教授和Vincent Sitzmann教授。2017-2021年，在加州大學伯克利分校本科階段，他師從機器人領域大牛Pieter Abbeel教授，獲電腦科學榮譽專業（EECS榮譽班）、應用數學雙學位。他本科畢業於加州大學伯克利分校，主修電腦科學和數學，並在伯克利學過一年哲學。在讀本科期間2017年11月-2020年3月，他還創辦了一家面向中小學的機器人教育公司，主導競賽用機器人套件的軟硬體開發，產品直接面向參賽學生群體。 (新智元)

科技