#視覺推理
Google Gemini和蘋果的頂級華人科學家離職創業,劍指AGI
【新智元導讀】Google Gemini 資料聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。矽谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。曾在Google DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為 Elorian 的 AI 初創公司。這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。與 Andrew Dai 聯手的,是剛於去年 12 月離職的蘋果研究科學家 Yinfei Yang。這兩位分別來自Google和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。領投這輪融資的,極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。如果交易達成,這將是矽谷近期最受矚目的早期融資之一,也再次印證了資本市場對於「Google畢業生」的瘋狂追捧。14 年,從 BERT 早期到 Gemini 幕後在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。不同於那些在 Transformer 浪潮爆發後才匆匆入局的創業者,Andrew Dai 在Google的工號可以追溯到 2012 年。這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。在他的 LinkedIn 履歷中,最引人注目的是他作為 Gemini 模型預訓練(Pre-training)資料工作的聯合負責人。在當前的大模型戰爭中,資料質量和預訓練策略被認為是決定模型智商上限的關鍵因素。能夠在這個核心環節擔任負責人,足以證明他在Google內部的權重。Andrew Dai 的學術貢獻不僅限於此。他曾與Google首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。早在 2015 年,他發表的一篇關於半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對後來 OpenAI 的 GPT 系列模型產生了深遠的啟發。https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注於預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的資料來源中提煉出高品質的“知識”。」如果說 Andrew Dai 代表了Google在巨量資料處理上的暴力美學,那麼聯合創始人 Yinfei Yang 則帶來了蘋果係的精緻與多模態視角。Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。在加入蘋果之前,他也曾在 Google Research 工作過四年,專注於多模態表示學習。他在圖像-文字共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。視覺推理不只是「看見」,更要「理解」Elorian 究竟想做什麼?根據 Andrew Dai 的說法,Elorian 並不是要再造一個 ChatGPT,而是要建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。目前的 AI 模型大多是基於文字訓練,再通過「補丁」的方式接入視覺能力。而 Elorian 的願景是建構一個天生的「通感者」。這種模型不再是將圖片轉化為文字標籤,而是像人類一樣,通過視覺直接感知物理世界的邏輯。「視覺推理」被認為是通向 AGI 的必經之路。Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的願景遠不止於此。在矽谷的投資人眼中,這通常意味著 Elorian 瞄準的是 AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦螢幕、理解圖形使用者介面(GUI)、處理退貨流程、稽核法律檔案、操作其他軟體的超級助手。它不需要你通過 API 喂給它資料,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策。這就是 Elorian 試圖建構的未來。資本的邏輯為「血統」買單5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。其創始人 Max Gazor 曾是老牌風投 CRV 的合夥人,以眼光毒辣著稱。他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立後的首批標誌性賭注之一。對於 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「Google DeepMind + 蘋果」這種稀缺的基因組合。Google提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。Elorian 的出現,也折射出大模型戰場的轉移。第一階段的戰爭是關於「文字生成」,OpenAI 憑藉 ChatGPT 拔得頭籌;第二階段的戰爭則是關於「多模態理解」和「物理世界互動」。在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如複雜的視覺 Agent)上做到極致。在矽谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。Andrew Dai 離開了效力 14 年的Google,Yinfei Yang 離開了發佈 Apple 智能的蘋果。他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。這讓人想起電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過資料的迷霧,看清未來方向的眼睛。 (新智元)
阿里QVQ-Max來了!超絕視覺推理模型,會看網課學程式設計,免費可用
智東西3月28日報導,阿里大模型表情包軍團再添猛將!今日凌晨,大模型“勞模”阿里雲通義團隊發佈其首款視覺推理模型QVQ-Max。在數學問題、生活常識、程式設計程式碼、藝術創作等場景,該模型可以看懂圖片和視訊裡的內容,還能結合這些資訊進行分析、推理,並給出解決方案。例如,QVQ-Max可以協助使用者在工作中完成資料分析、資訊整理、程式設計寫程式碼等任務,幫助學生解答配有圖表的數學、物理等科目的難題,並通過直觀的方式講解複雜概念,在生活中根據衣櫃照片推薦穿搭方案、基於食譜圖片指導使用者烹飪。使用者只需上傳任何圖像或視訊然後提出問題,點選 “思考 ”按鈕,即可查看它如何逐步處理視覺資訊。多模態數學問題的資料集MathVision可以用來評估模型解決複雜數學問題的能力,研究人員發現,模型思考的token數越長,其MathVision的精準度就會越高。部落格中提到,他們設計QVQ-Max的目標,就是讓它成為一個既“眼尖”又“腦快”的助手,幫助使用者解決各種實際問題。體驗地址:https://chat.qwen.ai/4月1-2日,智東西聯合主辦的2025中國生成式AI大會將舉行。50+位嘉賓將在開幕式、GenAI應用論壇、大模型峰會、DeepSeek R1與推理模型技術研討會、AI智能體技術研討會、具身智能大模型技術研討會帶來報告、演講、對話和討論。最終議程已公佈,掃碼申請主會場觀眾票或購票參會。01. 秀多圖識別、數學推理 看視訊學習程式設計技能阿里通義團隊在部落格中放出了幾個新鮮的QVQ-Max演示案例。首先是多圖識別,QVQ-Max可以描述圖片中的景色,並且通過分析圖片資訊找到這兩張圖片的相關之處。其次是數學推理,這道難題需要模型從圖片中找問題和答案,QVQ-Max通過分析其餘8個數字之間的關係,得出了最後一格的數字應該是10的正確答案。第三個是讓QVQ-Max看手相,感情線、生命線、事業線分析得頭頭是道。第四個考驗了模型的視訊理解能力,演示中模型對一個簡筆畫的蝸牛視訊進行了分析,然後為這條視訊建立了貼合的字幕。最後一個是讓QVQ-Max看視訊自學程式設計,在觀看了一個類似貪吃蛇的小遊戲視訊後,QVQ-Max很快就復刻了一個類似遊戲,給出了完整的程式碼。02. 觀察細緻入微、深入分析 還能靈活創作QVQ-Max的能力可以總結為三個方面:細緻觀察、深入推理和靈活應用。細緻觀察方面,QVQ-Max能快速識別出複雜圖表、日常隨手拍照片中的關鍵元素,例如它可以找到圖片中有那些物品、有什麼文字標識等。深入推理就是讓模型基於看到的內容進行分析,然後結合背景知識得出結論。例如,在一道幾何題中,它可以根據題目附帶的圖形推匯出答案;在一段視訊裡,它能根據畫面內容推測出接下來可能發生的情節。除了分析和推理,QVQ-Max還可以靈活應用這些能力進行創作,例如幫助使用者設計插畫、生成短影片指令碼、創作角色扮演的內容,或者化身評論家、占卜師。這使得其在使用者工作、學習、生活中的應用場景增多。一般而言,大模型在回答問題、寫文章、生成程式碼時主要依賴文字輸入。但現實生活中,很多資訊並不只是用文字表達,而是圖片、圖表、視訊、文字互動出現,並且圖片中包含的資訊會比文字更直觀、更複雜,如其中的顏色、形狀、位置關係等。例如使用者分析建築圖紙時,僅靠文字描述是無法判斷其合理性的,需要結合圖紙以及專業知識分析,這也是阿里通用團隊研究視覺推理模型的原因。03. 結語:視覺推理模型的演進方向 更準確觀察、視覺Agent、互動多元目前發佈的QVQ-Max是阿里通義視覺推理模型的第一版,未來,研究人員會重點關注以下幾個方向:通過視覺內容的校驗來檢查觀察內容的精準性提高識別能力;通過視覺Agent提升模型在處理多步和更複雜的任務,如手機電腦操控,玩遊戲;讓模型在思考和互動中不侷限於文字,還可以涵蓋更多的模態,比如工具校驗,視覺生成等。作為一款能看懂又能深度推理的視覺模型,QVQ-Max已經展現出了完成創造性任務的應用潛力。 (智東西)