【新智元導讀】Google Gemini 資料聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。
矽谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。
曾在Google DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為 Elorian 的 AI 初創公司。
這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。
與 Andrew Dai 聯手的,是剛於去年 12 月離職的蘋果研究科學家 Yinfei Yang。
這兩位分別來自Google和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。
領投這輪融資的,極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。
如果交易達成,這將是矽谷近期最受矚目的早期融資之一,也再次印證了資本市場對於「Google畢業生」的瘋狂追捧。
在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。
不同於那些在 Transformer 浪潮爆發後才匆匆入局的創業者,Andrew Dai 在Google的工號可以追溯到 2012 年。
這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。
在他的 LinkedIn 履歷中,最引人注目的是他作為 Gemini 模型預訓練(Pre-training)資料工作的聯合負責人。
在當前的大模型戰爭中,資料質量和預訓練策略被認為是決定模型智商上限的關鍵因素。
能夠在這個核心環節擔任負責人,足以證明他在Google內部的權重。
Andrew Dai 的學術貢獻不僅限於此。
他曾與Google首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。
早在 2015 年,他發表的一篇關於半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對後來 OpenAI 的 GPT 系列模型產生了深遠的啟發。
https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf
一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注於預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的資料來源中提煉出高品質的“知識”。」
如果說 Andrew Dai 代表了Google在巨量資料處理上的暴力美學,那麼聯合創始人 Yinfei Yang 則帶來了蘋果係的精緻與多模態視角。
Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。
在加入蘋果之前,他也曾在 Google Research 工作過四年,專注於多模態表示學習。
他在圖像-文字共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。
Elorian 究竟想做什麼?
根據 Andrew Dai 的說法,Elorian 並不是要再造一個 ChatGPT,而是要建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。
目前的 AI 模型大多是基於文字訓練,再通過「補丁」的方式接入視覺能力。
而 Elorian 的願景是建構一個天生的「通感者」。
這種模型不再是將圖片轉化為文字標籤,而是像人類一樣,通過視覺直接感知物理世界的邏輯。
「視覺推理」被認為是通向 AGI 的必經之路。
Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的願景遠不止於此。
在矽谷的投資人眼中,這通常意味著 Elorian 瞄準的是 AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦螢幕、理解圖形使用者介面(GUI)、處理退貨流程、稽核法律檔案、操作其他軟體的超級助手。
它不需要你通過 API 喂給它資料,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策。
這就是 Elorian 試圖建構的未來。
5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。
正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。
其創始人 Max Gazor 曾是老牌風投 CRV 的合夥人,以眼光毒辣著稱。
他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立後的首批標誌性賭注之一。
對於 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「Google DeepMind + 蘋果」這種稀缺的基因組合。
Google提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。
Elorian 的出現,也折射出大模型戰場的轉移。
第一階段的戰爭是關於「文字生成」,OpenAI 憑藉 ChatGPT 拔得頭籌;
第二階段的戰爭則是關於「多模態理解」和「物理世界互動」。
在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。
Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如複雜的視覺 Agent)上做到極致。
在矽谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。
Andrew Dai 離開了效力 14 年的Google,Yinfei Yang 離開了發佈 Apple 智能的蘋果。
他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。
這讓人想起電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」
而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過資料的迷霧,看清未來方向的眼睛。 (新智元)