#視覺
Google Gemini和蘋果的頂級華人科學家離職創業,劍指AGI
【新智元導讀】Google Gemini 資料聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。矽谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。曾在Google DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為 Elorian 的 AI 初創公司。這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。與 Andrew Dai 聯手的,是剛於去年 12 月離職的蘋果研究科學家 Yinfei Yang。這兩位分別來自Google和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。領投這輪融資的,極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。如果交易達成,這將是矽谷近期最受矚目的早期融資之一,也再次印證了資本市場對於「Google畢業生」的瘋狂追捧。14 年,從 BERT 早期到 Gemini 幕後在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。不同於那些在 Transformer 浪潮爆發後才匆匆入局的創業者,Andrew Dai 在Google的工號可以追溯到 2012 年。這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。在他的 LinkedIn 履歷中,最引人注目的是他作為 Gemini 模型預訓練(Pre-training)資料工作的聯合負責人。在當前的大模型戰爭中,資料質量和預訓練策略被認為是決定模型智商上限的關鍵因素。能夠在這個核心環節擔任負責人,足以證明他在Google內部的權重。Andrew Dai 的學術貢獻不僅限於此。他曾與Google首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。早在 2015 年,他發表的一篇關於半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對後來 OpenAI 的 GPT 系列模型產生了深遠的啟發。https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注於預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的資料來源中提煉出高品質的“知識”。」如果說 Andrew Dai 代表了Google在巨量資料處理上的暴力美學,那麼聯合創始人 Yinfei Yang 則帶來了蘋果係的精緻與多模態視角。Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。在加入蘋果之前,他也曾在 Google Research 工作過四年,專注於多模態表示學習。他在圖像-文字共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。視覺推理不只是「看見」,更要「理解」Elorian 究竟想做什麼?根據 Andrew Dai 的說法,Elorian 並不是要再造一個 ChatGPT,而是要建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。目前的 AI 模型大多是基於文字訓練,再通過「補丁」的方式接入視覺能力。而 Elorian 的願景是建構一個天生的「通感者」。這種模型不再是將圖片轉化為文字標籤,而是像人類一樣,通過視覺直接感知物理世界的邏輯。「視覺推理」被認為是通向 AGI 的必經之路。Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的願景遠不止於此。在矽谷的投資人眼中,這通常意味著 Elorian 瞄準的是 AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦螢幕、理解圖形使用者介面(GUI)、處理退貨流程、稽核法律檔案、操作其他軟體的超級助手。它不需要你通過 API 喂給它資料,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策。這就是 Elorian 試圖建構的未來。資本的邏輯為「血統」買單5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。其創始人 Max Gazor 曾是老牌風投 CRV 的合夥人,以眼光毒辣著稱。他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立後的首批標誌性賭注之一。對於 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「Google DeepMind + 蘋果」這種稀缺的基因組合。Google提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。Elorian 的出現,也折射出大模型戰場的轉移。第一階段的戰爭是關於「文字生成」,OpenAI 憑藉 ChatGPT 拔得頭籌;第二階段的戰爭則是關於「多模態理解」和「物理世界互動」。在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如複雜的視覺 Agent)上做到極致。在矽谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。Andrew Dai 離開了效力 14 年的Google,Yinfei Yang 離開了發佈 Apple 智能的蘋果。他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。這讓人想起電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過資料的迷霧,看清未來方向的眼睛。 (新智元)
《台亞攜手晉弘科技亮相CES 2026 秀HUSD-HS2模組供非侵入式血糖檢測新技術》一年一度的【全球消費性電子指標盛會 CES 2026】 在1月6日(美國時間)於拉斯維加斯盛大開展,台亞半導體(TW 2340)攜手晉弘科技(TW 6796)子公司晉昇智能,將業界唯一最新研發HUSD-HS2 (Hybrid Ultra Sensing Device - Healthcare Series 2)技術成果呈現於全球舞台,展現台灣科技跨足智慧醫療的創新能量。HUSD (Hybrid Ultra Sensing Device)技術,是在經濟部【A+企業創新研發淬鍊計畫】支持下,由台亞領軍旗下子公司-星亞視覺(TW 7753)、和亞智慧(TW 7825)、上亞科技(TW 6130)與晉弘科技(TW 6796)的子公司晉昇智能感測及臺北醫學大學,為非侵入式血糖監測所開發的光學感測技術,採用多顆先進的短波紅外(SWIR)高密度複合元件,並結合表面光學多層膜技術,打造的光學感測方案,相較於市面上不穩定的非侵入測量方式,此技術能大幅提升訊號穩定性與準確度。本次由台亞與晉昇共同發表的的HUSD-HS2(Healthcare Series 2)模組,已完成多項內部與臨床前驗證,在健康人群測試群組的單點單次的空腹血糖值平均 MARD值已可以達到約小於10%,目前將持續優化感測結構與AI演算法,更預計在未來推出HUSD-HS3朝醫療級所要求的MARD小於10%誤差率目標推進,並評估導入 AI 訊號分析技術,以滿足更高階的醫療應用需求。未來更規劃發展HUSD-MS(Medical Series)平台,搶攻醫療級血糖監測市場。台亞董事長李國光表示,HUSD技術使得非侵入式血糖檢測(NICGM)不再只是概念,此項的革新技術讓廣大的糖尿病患者與需要健康管理族群,可以不再透過傳統扎針方式,來進行控醣管理,只需透過配戴相關的感測裝置,即可獲得穩定、準確的健康數據,真正實現了一場無痛的健康管理革命。本次台亞與晉昇的「強強聯手」垂直整合模式,利用台亞的核心 SWIR 感測元件與光學模組平台,結合晉昇在醫療電子、穿戴式裝置設計與數據處理經驗,進行系統整合及演算法開發,展現非侵入式血糖檢測穿戴裝置的整合成果,縮短HUSD技術導入智慧醫療市場(Lab-to-Market)的開發週期。晉弘科技鄭竹明董事長表示,晉弘在整個計畫中扮演最終智慧醫療應用產品製造的重要角色,以通過醫療器材認證作為目標,致力打造出創新的醫療級非接觸式血糖感測裝置來造福更多血糖患者。台亞半導體副董事長暨日亞化學專務取締役戴圳家也表示,「HUSD 技術的最大價值,在於徹底解放使用者對『扎針』的恐懼與依賴,台亞獨家的短波紅外光技術讓血糖監測變得自然無痛。我們將持續挑戰訊號穩定度上的技術藩籬,目標從消費電子跨越到專業醫療級應用,實現半導體技術與醫療需求的完美結合,進而創造世界第一的商品。」
重磅進展!輝達推出sim2real前沿技術“DoorMan”,全模擬資料零樣本遷移,機器人快速掌握開門技巧
人形機器人攻克了武術動作與後空翻等技能,卻難以很好實現僅依賴RGB視覺的開門任務,日常移動操作仍是人形機器人自主化處理程序中最具挑戰的前沿方向之一。那些看似簡單的家居場景互動——如拉開抽屜、旋轉旋鈕或打開門鎖——均需機器人在不確定性環境下實現精準的感知-動作耦合、富含接觸的控制以及全身協調。近年來,基於GPU的照片級真實感模擬技術取得顯著進展,為機器人學習開闢了一條可擴展的資料生成路徑,那僅靠模擬模擬資料能不能教會機器人學本事呢?日前,NVIDIA GEAR團隊與加州大學伯克利分校、卡內基梅隆大學、香港中文大學合作發佈了一項新技術“DoorMan”,打開了人形機器人虛實遷移之門,這是一種經模擬訓練、僅依賴RGB圖像的人形機器人移動操作策略,基於100%模擬資料訓練,具備零樣本遷移性能,使得機器人能夠開啟多種真實場景下的門體。此外,在相同的全身控制棧下,開門任務完成時間較人類遙操作操作員提升高達31.7%。解決兩大核心問題對於機器人而言,開門任務的難度非常突出。機器人需通過移動的第一視角攝影機識別抓取位置、旋轉帶彈簧的門把手、追蹤門板的柔性圓周運動,並在門軸作用力下維持平衡,這些高度耦合的需求,使得開門任務成為檢驗各類通用移動作業系統性能的嚴苛測試基準。現有專門針對開門場景的系統通常難以實現這一更廣泛的目標:多數方案依賴深度感知、物體中心特徵或輪式平台上的硬編碼運動基元;而近年以遙操作為核心的框架仍存在魯棒性不足的問題。隨著模擬、硬體及強化學習(RL)領域的技術進展,已在機器人移動、動作模仿和靈巧操作等任務中實現了優異的虛實遷移效果,然而,將這些技術應用於移動操作任務(感知、平衡、接觸與導航需動態互動的場景)仍處於研究不足的狀態。NVIDIA GEAR團隊認為,機器人通用學習仍面臨的兩大核心挑戰:1、演算法本身需具備簡潔性、可擴展性及對部分可觀測性的魯棒性,能夠生成在多樣化任務中協調視覺與全身控制(WBC)的自主策略——這些要求在現有研究中尚未得到滿足;2、視覺虛實域差涵蓋了廣闊的外觀與物理特性變化空間,需依賴大規模異質資料,而非少量精心設計的場景。為應對上述挑戰,研究人員提出一種新型可擴展的師生自舉(teacher-student-bootstrap)學習框架;此外,在IsaacLab模擬平台中建構了大規模域隨機化框架,可同時實現物理與外觀維度的規模化變異。在真實場景評估中,DoorMan策略不僅能泛化至多種關節運動機制、外觀樣式及空間佈局,還在成功率與效率上超越了人類遙操作:策略成功率達到83%,而人類專家為80%、非專家為60%;在採用相同全身控製器的情況下,任務互動完成速度提升23.1%–31.7%,表明該框架能夠生成穩健、高效的自主移動操作行為。截至目前,這是首個僅基於純RGB感知,即可實現多樣化鉸接式移動操作的人形機器人虛實遷移策略。突破純行為克隆方法DoorMan採用三階段訓練流程,其核心建構於經典“師生蒸餾”技術之上。所有階段均在IsaacLab模擬平台中通過互動式方式完成。階段 1:利用特權觀測資訊訓練教師策略;階段2:採用DAgger演算法將教師策略蒸餾為基於RGB圖像的學生策略;階段3:基於二值化成功訊號,通過GRPO演算法對學生策略進行進一步訓練。其次,在IsaacLab模擬平台中建構的大規模合成資料生成框架可生成物理真實且視覺多樣化的門體環境,用於模型訓練與評估,並將開門任務作為移動操作的代表性基準任務。在物理模擬層面,該框架可對門體類型、尺寸、門軸阻尼、門鎖動力學特性、把手位置、把手樣式及阻力扭矩進行隨機化處理;視覺層面,隨機化材質、光照及相機內參/外參,這項研究並未復刻特定場景,而是刻意讓策略暴露於廣泛的變異空間中。這項研究的核心課題是:基於RGB視覺的虛實遷移強化學習,能否突破純行為克隆方法的侷限,解決人形機器人在真實複雜環境中的開門難題。研究人員推測,行為克隆的性能上限往往由人類遙運算元據質量決定,當前的全身遙操作技術由於操作邏輯不夠直觀,與人類直接操作相比,在效率和成功率上存在差距,而基於RGB視覺的虛實遷移強化學習有望實現更優性能。測試表明,訓練過程中啟用全部可用紋理與穹頂光照隨機化時,模型在未見過場景中的泛化性能最優,各子任務成功率可達到81%-86%,這凸顯了大規模合成資料與可擴展強化學習框架在通用人形機器人移動操作領域的應用潛力。不過也觀察到一些失效模式,常見的失效模式包括未觀測到的干擾、距離估計誤差以及未建模的環境狀態帶來的挑戰。幕後的華人研究員這項研究的主要作者和領導者均為華人研究員。一作薛浩儒目前是加州大學伯克利分校-伯克利人工智慧研究院(BAIR)的博士生,現在在NVIDIA GEAR實驗室實習,研究方向是是利用可擴展的先驗知識進行機器人學習:從視訊、演示、強化學習後訓練等中學習。項目領導者之一Jim Fan是輝達高級研究科學家,也是人工智慧代理計畫的負責人,使命是建構能夠在物理世界(機器人)和虛擬世界(遊戲、模擬)中通用的智能體。他曾在史丹佛大學視覺實驗室獲得博士學位,導師是“AI教母”李飛飛。另一位項目領導者Yuke Zhu是德克薩斯大學奧斯汀分校電腦科學系的副教授,也是機器人感知與學習(RPL)實驗室的主任,同時,還在輝達研究院擔任董事和傑出研究科學家,領導NVIDIA GEAR小組。研究人員表示,未來研究方向包括降低對任務專屬獎勵工程的依賴(例如利用大容量行為克隆教師模型),以及將該框架擴展至更廣泛的日常全身互動任務類別。隨著模擬技術的進步,或許有一天,機器人真的可以完全在虛擬世界裡學習掌握更多其他技能,而且能快速應用到現實中。 (頭部科技)
《承襲日亞化學精神 星亞視覺永續創新受台灣精品獎肯定》台亞集團旗下子公司星亞視覺(tw 7753)今日榮獲第34屆「台灣精品獎」,以「戶外窄視角顯示屏」奪得佳績,不僅彰顯公司卓越的研發實力,更展現軟硬整合的深厚能力,充分體現星亞視覺持續推動創新與永續的承諾。自今年掛牌上櫃以來,公司營運表現持續穩健成長,反映其長年專注於數位顯示及視覺燈光系統所累積的價值與實力。台灣精品獎素有「台灣產業界奧斯卡獎」之稱,本屆評選著重於「環境保護、創新設計、台灣製造」,星亞視覺此次獲獎的【戶外窄視角顯示屏】以自行研發的專利設計,透過獨家的精準光學角度控制,搭配特殊模塊遮陽罩,相較於市面上一般的產品為120度的發光角度,星亞將次世代產品設計至60度以下,不僅將光線集中度提升30%以上,有效減少60%以上的散射,有效降低傳統顯示屏常見的光害問題,減輕對環境與生態的衝擊。加上智慧節能設計使耗能降低40%,並採用高耐用度設計,產品使用年限較同業增加3到4倍,不僅延長產品壽命,更減少電子耗材浪費,守護環境保護,並以台灣團隊設計製造,產品色彩校正誤差在5%以內,呈現更佳的色彩均勻度,大幅減少誤差值,堅持品質展現在地研發實力。產品整合多面向節能設計,為客戶提供高效、穩定且耐候的解決方案,兼顧效益與環境友好,充分展現研發創新與高端品質,實現「高效廣告 × 生態共榮」的應用價值。星亞視覺秉持「Communicate Ideas, One Pixel at a Time」的品牌理念,長期專注於戶外顯示屏與燈光設備的創新與製造,以對像素的極致要求,打造能精準傳遞訊息、同時提升環境價值的顯示科技。星亞總經理李柏龍表示,星亞視覺身為台亞集團的一份子,一直以來遵循著日亞化學的核心經營方針「努力學習、勤於思考、用心工作,創造世界第一的商品」,公司目標是成為全球數位顯示與視覺燈光系統的領導者,憑藉高度客製化、耐用年限長、掌握軟硬體關鍵技術及獨家控制系統的優勢,與客戶建立緊密合作並彈性因應需求,持續研發符合應用場景的解決方案,提升客戶附加價值。台亞半導體副董事長暨日亞化學專務取締役戴圳家,得知星亞於台灣精品獎中奪得佳績後表示:「星亞視覺深耕台灣市場已逾40年,2022 年自台亞(tw 2340)分割獨立後,一直持續繳交出漂亮的成績單,在今年8月份上櫃掛牌後,表現更是亮眼,非常開心今日星亞獲得此項殊榮,彰顯出星亞所堅持的職人精神,在追求技術創新與產品卓越的同時,更致力於推動創新與永續的承諾,落實將永續、創新與責任融入企業文化,以永續精神邁向國際市場,點亮世界。」
智能製造的 “眼睛” 機器視覺爭分奪秒
總的觀點:大有可為01 基本情況機器視覺是指利用電腦視覺技術與圖像處理技術,通過光學成像系統(如工業相機、鏡頭、光源)及專用軟體演算法,目標物體進行自動化識別、定位、測量與檢測的整合化技術系統。機器視覺被譽為工業機器人的“眼睛”,是實現智能化製造的核心技術。其核心目標是為工業裝置賦予“視覺感知”能力,替代人眼完成高精度、高效率的視覺任務,成為智能製造的關鍵支撐技術。在工業領域,機器視覺按技術架構可分為嵌入式視覺、PC-Based系統(高性能處理)和3D視覺(三維重構);按應用場景則分為線上檢測(即時監控)和離線抽檢(高精度分析)等。而從在工業生產環節來看,則可分為識別、測量、定位和檢測。【3年前曾關注過,參考閱讀1文2視覺——電腦視覺、工業機器視覺】02 產業鏈機器視覺系統的“讀取資訊-傳輸資訊-處理資訊”的過程與人眼的運作機制對應,一個典型的機器視覺系統一般包括光源及光源控製器、鏡頭、相機、視覺控制系統(視覺處理分析軟體及視覺控製器硬體)等,其中光源及光源控製器、鏡頭、 相機等硬體負責成像,視覺控制系統負責對成像結果進行分析、輸出結果至其他執行部件。產業鏈的上游主要包括以光源、鏡頭、相機為首的核心零部件和底層的軟體演算法庫。通過恰當的照明方式可以把目標特徵突顯出來,同時將背景和干擾資訊最大限度地過濾或者淡化。中游則是視覺系統和智能視覺裝備。視覺系統是大腦,完成圖像採集功能及預處理。智能視覺裝備是四肢,通過自動控制部件,實現檢測/生產工藝的控制和執行。下游主要3C 電子、汽車製造、新能源等眾多細分行業。03 市場及主要企業製造業一直在追求降本增效,機器視覺最初在消費電子生產的檢測環節落地,隨後不斷擴展到其他生產環節以及其他行業領域。用於消費電子、半導體與新能源等類股的工業級機器視覺合計佔比近8成。據預測,2030 年中國機器視覺市場規模將突破千億。外資巨頭如康耐視、基恩士、巴斯勒憑藉技術壟斷與生態繫結佔據高端市場超50%份額,而國內的相關企業則在細分領域實現局部領先。西湖智能視覺,演算法與模型的深度融合的 AI 智能成像系統,在生物醫療與工業檢測領域嶄露頭角。圖漾科技的“硬體 + 軟體 + 全球化”戰略,緊貼市場對工業智能化核心環節的需求。深視智能聚焦 3D 工業感測器技術研發,服務消費電子與新能源領域。翌視科技在 3D 工業視覺檢測領域的技術與市場有著一定影響。易思維,專注於沖壓、焊裝、塗裝全工藝檢測,市佔率高達22.5%,是國內汽車製造領域的領頭羊。天准科技,提供晶圓切割、晶片缺陷高精度檢測,是半導體檢測領域的佼佼者。梅卡曼德,專注於機器人拆碼垛、物流分揀,是3D視覺引導領域的領先企業。奧普特,涉及機器視覺技術應用、行業機遇及產品解決方案‌。奧普特是機器視覺技術應用的一家重點公司,深耕工業自動化領域20年,建構了覆蓋“視覺+感測+運動+AI”與具身智能的全端產品矩陣。機器視覺光源市場佔有率國內第一,覆蓋30000+定製方案。視位元機器人、靈西機器人等集中於物流自動化分揀。極智嘉,提供AGV視覺導航、倉儲物流自動化解決方案。中科慧遠,專注於OLED/LCD螢幕缺陷檢測。凌雲光,在機器視覺與光通訊兩大核心業務類股深耕細作,在印刷包裝檢測,市佔率22%以上。奧比中光,基於自研晶片和全端式系統技術,為機器人、3D掃描、生物識別等行業客戶提供高性能的3D視覺感測器及機器人與AI視覺方案,是輝達全球產業數位化生態佈局的合作夥伴。04 幾個觀點1.工業領域的機器視覺一直追求更準確、更高效、更具有適應性,整體而言,準度是底線,速度才是生死線。2.傳統機器視覺的3大視覺方案在精準性、靈活性和成本控制上始終存在瓶頸。3.產業鏈的核心價值集中於上游,硬體工藝與軟體演算法決定產品技術天花板。硬體中相機價值佔比達一半以上。4.機器視覺行業下游應用“多點開花”的態勢明顯,細分領域養活幾家有特點的公司不成問題。 5.機器視覺的工業場景和消費場景如人形機器人,兩者之間的差異還是很大的。 (看懂企業)
精讀筆記:李飛飛-從文字到世界:空間智能是AI的下一個前沿
李飛飛博士於 2025 年 11 月發表長文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這是其深耕 AI 領域 25 年的重要思考結晶。全文以圖靈 “機器能思考嗎” 這一經典問題開篇,指出當前以大語言模型為代表的 AI 雖在抽象知識處理上成績斐然,卻存在脫離現實物理世界的短板。文章系統闡釋了空間智能的定義與核心價值,將其定位為支撐人類認知、創造力與文明進步的核心能力,同時提出建構具備生成性、多模態性和互動性的 “世界模型” 是解鎖空間智能的關鍵,還勾勒出空間智能從賦能創意到革新機器人技術,再到推動科學醫療突破的應用演進路徑,為 AI 下一個十年的發展指明了方向。In 1950, when computing was little more than automated arithmetic and simple logic, Alan Turing asked a question that still reverberates today: can machines think? It took remarkable imagination to see what he saw: that intelligence might someday be built rather than born. That insight later launched a relentless scientific quest called Artificial Intelligence (AI). Twenty-five years into my own career in AI, I still find myself inspired by Turing’s vision. But how close are we? The answer isn’t simple.1950年,當電腦還僅僅停留在自動化運算和簡單邏輯運算的層面時,艾倫・圖靈提出了一個至今仍能引發廣泛共鳴的問題:機器能思考嗎?他能洞察到常人未及的可能性,這需要非凡的想像力 —— 智能或許有朝一日能夠被創造出來,而非天生就存在。這一深刻見解隨後開啟了一場名為人工智慧的不懈科學探索。在我投身人工智慧領域的第二十五個年頭,圖靈的這一願景依舊在不斷給予我啟發。但我們如今距離那個目標究竟還有多遠?答案並非簡單就能說清。以 AI 領域的源頭性問題切入,奠定了全文的思辨基調。李飛飛通過回溯圖靈的經典疑問,既致敬了人工智慧的啟蒙思想,又巧妙地引出了核心矛盾 —— 經過數十年發展,AI 仍未完全實現 “機器思考” 的終極目標。她強調智能 “可被建構” 的核心觀點,既是對後續探討空間智能 “可被研發” 的理論鋪墊,也暗示當前 AI 發展尚未觸及智能的核心本質,為後文批判大語言模型的侷限性埋下伏筆。Today, leading AI technology such as large language models (LLMs) have begun to transform how we access and work with abstract knowledge. Yet they remain wordsmiths in the dark; eloquent but inexperienced, knowledgeable but ungrounded. Spatial intelligence will transform how we create and interact with real and virtual worlds—revolutionizing storytelling, creativity, robotics, scientific discovery, and beyond. This is AI’s next frontier.如今,以大語言模型為代表的前沿人工智慧技術,已經開始改變我們獲取和運用抽象知識的方式。然而,這些模型就如同在黑暗中雕琢文字的匠人:能言善辯卻缺乏實踐經驗,學識淵博卻沒有堅實的現實根基。而空間智能將徹底改變我們創造以及與現實和虛擬世界互動的模式 —— 它會給敘事創作、創意設計、機器人技術、科學發現等諸多領域帶來革命性變革。這,正是人工智慧的下一個前沿陣地。這裡點出,當前 AI 的核心短板並拋出全文核心論點。作者用 “黑暗中的文字匠” 這一形象比喻,深刻揭露了大語言模型的致命缺陷:僅擅長文字層面的資訊處理,卻脫離對物理世界的真實感知與互動能力。同時,她明確將空間智能定義為 AI 的下一個前沿,打破了當下 AI 研發集中於文字多模態擴展的侷限,為行業指出了從 “語言理解” 向 “世界感知” 跨越的全新方向。The pursuit of visual and spatial intelligence has been the North Star guiding me since I entered the field. It’s why I spent years building ImageNet, the first large-scale visual learning and benchmarking dataset and one of three key elements enabling the birth of modern AI, along with neural network algorithms and modern compute like graphics processing units (GPUs). It’s why my academic lab at Stanford has spent the last decade combining computer vision with robotic learning.自進入人工智慧領域以來,對視覺與空間智能的探索一直是指引我前行的北極星。這也是我耗費數年時間建構 ImageNet 資料集的原因 ——該資料集是首個大規模視覺學習與基準測試資料集,與神經網路演算法以及圖形處理器這類現代計算裝置一起,共同構成了催生現代人工智慧誕生的三大核心要素。同樣出於這個初衷,我在史丹佛大學的學術實驗室,在過去十年間始終致力於將電腦視覺與機器人學習相結合的研究。該段落通過結合自身學術經歷,增強了論點的可信度與說服力。李飛飛將自己建立 ImageNet 的行為、實驗室的研究方向與空間智能探索強繫結,既體現了她對這一領域研究的連貫性與執著,也從側面印證了空間智能的重要性 —— 畢竟 ImageNet 作為現代 AI 的三大基石之一,其核心價值正是為機器提供視覺感知的基礎,而這正是空間智能的重要組成部分。這一段落也為後文介紹 World Labs 的研發目標做了背景鋪墊,展現出其研究理念的一脈相承。Generative AI models such as LLMs have moved from research labs to everyday life, becoming tools of creativity, productivity, and communication for billions of people. They have demonstrated capabilities once thought impossible, producing coherent text, mountains of code, photorealistic images, and even short video clips with ease. It’s no longer a question of whether AI will change the world. By any reasonable definition, it already has.以大語言模型為代表的生成式人工智慧模型,已經從科研實驗室走進了人們的日常生活,成為數十億人用於激發創意、提升效率與日常溝通的工具。這些模型展現出了曾經被認為難以企及的能力,能夠輕鬆生成邏輯連貫的文字、海量的程式碼、高度逼真的圖像,甚至是短影片片段。如今,問題已不再是人工智慧是否會改變世界。以任何合理的標準來衡量,它都已經做到了這一點。李飛飛在此處先客觀肯定了生成式 AI 的巨大成就,避免了因強調空間智能而全盤否定現有技術的片面性。她列舉文字、程式碼、圖像等生成能力,既符合大眾對當前 AI 的認知,也為後文轉折做了鋪墊。這種先揚後抑的表述方式,能讓讀者更易接受後續關於 AI 短板的論述 —— 承認現有技術的價值,才能更好地理解為何需要向空間智能方向突破,而非停留在現有成果上。Yet so much still lies beyond our reach. The vision of autonomous robots remains intriguing but speculative, far from the fixtures of daily life that futurists have long promised. The dream of massively accelerated research in fields like disease curation, new material discovery, and particle physics remains largely unfulfilled.然而,仍有諸多目標至今我們仍難以實現。自主機器人的願景雖然充滿吸引力,但依舊停留在推測階段,與未來學家們長期以來描繪的、成為日常生活中常見設施的場景相去甚遠。而在疾病治療、新材料研發、粒子物理等領域借助人工智慧大幅加速研究處理程序的夢想,在很大程度上也尚未實現。該段落通過列舉具體場景,具象化了當前 AI 的能力邊界。李飛飛選取自主機器人、疾病治療、新材料發現等具有高關注度的領域,這些領域的共同特點是都需要 AI 具備對物理世界的感知、推理與互動能力 —— 而這正是大語言模型所欠缺的。通過指出這些大眾與行業期待已久的目標尚未達成,有力地論證了單純依靠現有技術遠遠不夠,進一步凸顯了研發空間智能的必要性與緊迫性。Spatial intelligence is the scaffolding of human cognition. It operates when we passively observe or actively create. It drives our reasoning and planning, even on the most abstract topics. And it shapes how we interact—whether through language or action—with others and our environment.空間智能是人類認知體系的腳手架。無論我們是在被動觀察世界,還是主動創造事物,空間智能都在發揮作用。它推動著我們的推理與規劃能力,即便面對那些極為抽象的事物亦是如此。同時,它還影響著我們與他人、與周邊環境互動的方式 —— 無論這種互動是通過語言交流還是實際行動來實現。此處是對空間智能核心價值的高度凝練。李飛飛用 “認知的腳手架” 這一比喻,精準概括了空間智能的基礎性作用 —— 如同腳手架支撐建築一樣,空間智能是人類所有認知活動的底層支撐。她打破了人們對空間智能僅侷限於 “空間感知” 的淺層認知,指出其對抽象推理、人際互動等多方面的深層影響,這一界定極大地提升了空間智能的理論高度,也為後文闡述建構空間智能 AI 的多元價值提供了理論依據。Unfortunately, today’s AI does not yet think this way. Despite significant advances in recent years—multimodal LLMs trained on vast troves of multimedia data have introduced basic spatial awareness, and state-of-the-art robots can manipulate objects in highly constrained settings—AI’s spatial capabilities remain far from human levels.遺憾的是,如今的人工智慧尚未具備這樣的思考模式。儘管近年來人工智慧取得了諸多重大進展 —— 經過海量多媒體資料訓練的多模態大語言模型已經具備了基礎的空間感知能力,最先進的機器人也能夠在高度受限的環境中操控物體 —— 但人工智慧的空間智能水平與人類相比,仍存在巨大差距。作者直面當前 AI 在空間智能領域的現狀,既不否認技術進步,也不迴避核心差距。李飛飛認可多模態模型和先進機器人在空間能力上的微小突破,體現了論述的客觀性;同時明確指出這些能力與人類水平相去甚遠,形成強烈對比。這種表述既避免了對現有技術的全盤否定,又為後文提出建構 “世界模型” 來突破這一差距的解決方案做了完美鋪墊,讓後續的技術路徑建議更具針對性。Building world models that unlock spatial intelligence requires something far more ambitious than LLMs: a new kind of generative model whose ability to understand, reason about, generate, and interact with semantically, physically, geometrically, and dynamically complex worlds—virtual or real—far exceeds that of today’s LLMs.要建構能夠解鎖空間智能的世界模型,需要開展一項遠比研發大語言模型更具挑戰性的工作:我們需要打造一種全新的生成式模型。這種模型在理解、推理、生成以及與語義層面、物理層面、幾何層面和動態層面均極為複雜的世界(無論是虛擬還是現實世界)進行互動的能力,都要遠超如今的大語言模型。這裡明確給出了突破空間智能瓶頸的核心方案 —— 建構世界模型,並凸顯了該方案的挑戰性。李飛飛強調這種新模型需跨越語義、物理、幾何、動態等多個維度,這一定位精準抓住了空間智能的核心需求:機器要像人類一樣綜合多維度資訊理解世界。同時,將其與成熟的大語言模型對比,既讓讀者清晰感知到研發難度,也暗示這一突破將帶來 AI 領域的下一次質的飛躍,為全文的技術構想劃定了核心方向。 (晚筀筆記)思維導圖參考:
《集保「基金資訊觀測站」新升級!基金比較、報告書視覺化 4大亮點易上手》集保「基金資訊觀測站」自建置以來,已成為國人查詢基金資訊的首選,但集保並沒有因此放慢優化腳步,今(21)日再度升級該官網功能,以「看得懂、查得到、用得上」為目標,新推出「基金比較」功能,能夠輕鬆瀏覽比較全市場基金,同時,全新推出「基金報告書」,視覺化呈現淨值、評級、風險等級與歷年報酬與費用資訊,提供投資人更直覺、便利的查詢體驗。集保結算所總經理陳德鄉表示,有鑒於資訊的公開透明與查詢便利性,對於投資人及整體基金市場具有關鍵性的影響。這次「基金資訊觀測站」再升級,特別聚焦在資訊整合、功能強化與介面優化等面向,並包括以下四大亮點:1.整合三大基金公告平台:資訊一站到位「基金資訊觀測站」整合原有三大平台─「境內基金資訊公告平台」、「境外基金資訊公告平台」及「期信基金資訊公告平台」,統一網站入口與資料架構,並簡化頁籤分類,讓資訊查詢更聚焦、清楚且有效率。2.跨平台基金比較:打造更聰明的選擇工具新推出「基金比較」功能,打破以往境內、境外、期信系列基金分開搜尋的限制,提供跨系列搜尋及基金比較功能,並以表格及圖像呈現多基金的淨值漲跌幅、配息頻率、風險等級及評等、費用結構等資料,輕鬆瀏覽全市場基金跨構面的比較資訊。(如下圖,翻攝集保「基金資訊觀測站」官網)3.全新推出「基金報告書」:資訊呈現一目了然基金資訊不再分散!全新推出之「基金報告書」彙整原先分散的多項基金資訊,以視覺化方式呈現淨值、評級、風險等級與歷年報酬與費用資訊,另採頁籤式設計提供銷售、配息與公告資訊、基金文件等內容,讓使用者在操作上更直覺,查詢上更完整。4.全站視覺與互動介面優化:操作體驗更順暢全面調整整體網站風格與資訊架構,包括提升基金搜尋功能、公告區查詢條件更彈性,同時導入按鈕式選單,協助投資人快速靈活組合查詢條件,提升使用效率與便利性,讓資訊查詢更輕鬆省時。集保結算所強調,將持續秉持「以投資人為核心」的理念,導入更多智慧化服務,讓基金查詢不再只是冷冰冰的數據資訊,而是透過設計思維,挖掘用戶背後的真實需求,帶來更好的使用者體驗。