#視覺
重磅進展!輝達推出sim2real前沿技術“DoorMan”,全模擬資料零樣本遷移,機器人快速掌握開門技巧
人形機器人攻克了武術動作與後空翻等技能,卻難以很好實現僅依賴RGB視覺的開門任務,日常移動操作仍是人形機器人自主化處理程序中最具挑戰的前沿方向之一。那些看似簡單的家居場景互動——如拉開抽屜、旋轉旋鈕或打開門鎖——均需機器人在不確定性環境下實現精準的感知-動作耦合、富含接觸的控制以及全身協調。近年來,基於GPU的照片級真實感模擬技術取得顯著進展,為機器人學習開闢了一條可擴展的資料生成路徑,那僅靠模擬模擬資料能不能教會機器人學本事呢?日前,NVIDIA GEAR團隊與加州大學伯克利分校、卡內基梅隆大學、香港中文大學合作發佈了一項新技術“DoorMan”,打開了人形機器人虛實遷移之門,這是一種經模擬訓練、僅依賴RGB圖像的人形機器人移動操作策略,基於100%模擬資料訓練,具備零樣本遷移性能,使得機器人能夠開啟多種真實場景下的門體。此外,在相同的全身控制棧下,開門任務完成時間較人類遙操作操作員提升高達31.7%。解決兩大核心問題對於機器人而言,開門任務的難度非常突出。機器人需通過移動的第一視角攝影機識別抓取位置、旋轉帶彈簧的門把手、追蹤門板的柔性圓周運動,並在門軸作用力下維持平衡,這些高度耦合的需求,使得開門任務成為檢驗各類通用移動作業系統性能的嚴苛測試基準。現有專門針對開門場景的系統通常難以實現這一更廣泛的目標:多數方案依賴深度感知、物體中心特徵或輪式平台上的硬編碼運動基元;而近年以遙操作為核心的框架仍存在魯棒性不足的問題。隨著模擬、硬體及強化學習(RL)領域的技術進展,已在機器人移動、動作模仿和靈巧操作等任務中實現了優異的虛實遷移效果,然而,將這些技術應用於移動操作任務(感知、平衡、接觸與導航需動態互動的場景)仍處於研究不足的狀態。NVIDIA GEAR團隊認為,機器人通用學習仍面臨的兩大核心挑戰:1、演算法本身需具備簡潔性、可擴展性及對部分可觀測性的魯棒性,能夠生成在多樣化任務中協調視覺與全身控制(WBC)的自主策略——這些要求在現有研究中尚未得到滿足;2、視覺虛實域差涵蓋了廣闊的外觀與物理特性變化空間,需依賴大規模異質資料,而非少量精心設計的場景。為應對上述挑戰,研究人員提出一種新型可擴展的師生自舉(teacher-student-bootstrap)學習框架;此外,在IsaacLab模擬平台中建構了大規模域隨機化框架,可同時實現物理與外觀維度的規模化變異。在真實場景評估中,DoorMan策略不僅能泛化至多種關節運動機制、外觀樣式及空間佈局,還在成功率與效率上超越了人類遙操作:策略成功率達到83%,而人類專家為80%、非專家為60%;在採用相同全身控製器的情況下,任務互動完成速度提升23.1%–31.7%,表明該框架能夠生成穩健、高效的自主移動操作行為。截至目前,這是首個僅基於純RGB感知,即可實現多樣化鉸接式移動操作的人形機器人虛實遷移策略。突破純行為克隆方法DoorMan採用三階段訓練流程,其核心建構於經典“師生蒸餾”技術之上。所有階段均在IsaacLab模擬平台中通過互動式方式完成。階段 1:利用特權觀測資訊訓練教師策略;階段2:採用DAgger演算法將教師策略蒸餾為基於RGB圖像的學生策略;階段3:基於二值化成功訊號,通過GRPO演算法對學生策略進行進一步訓練。其次,在IsaacLab模擬平台中建構的大規模合成資料生成框架可生成物理真實且視覺多樣化的門體環境,用於模型訓練與評估,並將開門任務作為移動操作的代表性基準任務。在物理模擬層面,該框架可對門體類型、尺寸、門軸阻尼、門鎖動力學特性、把手位置、把手樣式及阻力扭矩進行隨機化處理;視覺層面,隨機化材質、光照及相機內參/外參,這項研究並未復刻特定場景,而是刻意讓策略暴露於廣泛的變異空間中。這項研究的核心課題是:基於RGB視覺的虛實遷移強化學習,能否突破純行為克隆方法的侷限,解決人形機器人在真實複雜環境中的開門難題。研究人員推測,行為克隆的性能上限往往由人類遙運算元據質量決定,當前的全身遙操作技術由於操作邏輯不夠直觀,與人類直接操作相比,在效率和成功率上存在差距,而基於RGB視覺的虛實遷移強化學習有望實現更優性能。測試表明,訓練過程中啟用全部可用紋理與穹頂光照隨機化時,模型在未見過場景中的泛化性能最優,各子任務成功率可達到81%-86%,這凸顯了大規模合成資料與可擴展強化學習框架在通用人形機器人移動操作領域的應用潛力。不過也觀察到一些失效模式,常見的失效模式包括未觀測到的干擾、距離估計誤差以及未建模的環境狀態帶來的挑戰。幕後的華人研究員這項研究的主要作者和領導者均為華人研究員。一作薛浩儒目前是加州大學伯克利分校-伯克利人工智慧研究院(BAIR)的博士生,現在在NVIDIA GEAR實驗室實習,研究方向是是利用可擴展的先驗知識進行機器人學習:從視訊、演示、強化學習後訓練等中學習。項目領導者之一Jim Fan是輝達高級研究科學家,也是人工智慧代理計畫的負責人,使命是建構能夠在物理世界(機器人)和虛擬世界(遊戲、模擬)中通用的智能體。他曾在史丹佛大學視覺實驗室獲得博士學位,導師是“AI教母”李飛飛。另一位項目領導者Yuke Zhu是德克薩斯大學奧斯汀分校電腦科學系的副教授,也是機器人感知與學習(RPL)實驗室的主任,同時,還在輝達研究院擔任董事和傑出研究科學家,領導NVIDIA GEAR小組。研究人員表示,未來研究方向包括降低對任務專屬獎勵工程的依賴(例如利用大容量行為克隆教師模型),以及將該框架擴展至更廣泛的日常全身互動任務類別。隨著模擬技術的進步,或許有一天,機器人真的可以完全在虛擬世界裡學習掌握更多其他技能,而且能快速應用到現實中。 (頭部科技)
《承襲日亞化學精神 星亞視覺永續創新受台灣精品獎肯定》台亞集團旗下子公司星亞視覺(tw 7753)今日榮獲第34屆「台灣精品獎」,以「戶外窄視角顯示屏」奪得佳績,不僅彰顯公司卓越的研發實力,更展現軟硬整合的深厚能力,充分體現星亞視覺持續推動創新與永續的承諾。自今年掛牌上櫃以來,公司營運表現持續穩健成長,反映其長年專注於數位顯示及視覺燈光系統所累積的價值與實力。台灣精品獎素有「台灣產業界奧斯卡獎」之稱,本屆評選著重於「環境保護、創新設計、台灣製造」,星亞視覺此次獲獎的【戶外窄視角顯示屏】以自行研發的專利設計,透過獨家的精準光學角度控制,搭配特殊模塊遮陽罩,相較於市面上一般的產品為120度的發光角度,星亞將次世代產品設計至60度以下,不僅將光線集中度提升30%以上,有效減少60%以上的散射,有效降低傳統顯示屏常見的光害問題,減輕對環境與生態的衝擊。加上智慧節能設計使耗能降低40%,並採用高耐用度設計,產品使用年限較同業增加3到4倍,不僅延長產品壽命,更減少電子耗材浪費,守護環境保護,並以台灣團隊設計製造,產品色彩校正誤差在5%以內,呈現更佳的色彩均勻度,大幅減少誤差值,堅持品質展現在地研發實力。產品整合多面向節能設計,為客戶提供高效、穩定且耐候的解決方案,兼顧效益與環境友好,充分展現研發創新與高端品質,實現「高效廣告 × 生態共榮」的應用價值。星亞視覺秉持「Communicate Ideas, One Pixel at a Time」的品牌理念,長期專注於戶外顯示屏與燈光設備的創新與製造,以對像素的極致要求,打造能精準傳遞訊息、同時提升環境價值的顯示科技。星亞總經理李柏龍表示,星亞視覺身為台亞集團的一份子,一直以來遵循著日亞化學的核心經營方針「努力學習、勤於思考、用心工作,創造世界第一的商品」,公司目標是成為全球數位顯示與視覺燈光系統的領導者,憑藉高度客製化、耐用年限長、掌握軟硬體關鍵技術及獨家控制系統的優勢,與客戶建立緊密合作並彈性因應需求,持續研發符合應用場景的解決方案,提升客戶附加價值。台亞半導體副董事長暨日亞化學專務取締役戴圳家,得知星亞於台灣精品獎中奪得佳績後表示:「星亞視覺深耕台灣市場已逾40年,2022 年自台亞(tw 2340)分割獨立後,一直持續繳交出漂亮的成績單,在今年8月份上櫃掛牌後,表現更是亮眼,非常開心今日星亞獲得此項殊榮,彰顯出星亞所堅持的職人精神,在追求技術創新與產品卓越的同時,更致力於推動創新與永續的承諾,落實將永續、創新與責任融入企業文化,以永續精神邁向國際市場,點亮世界。」
智能製造的 “眼睛” 機器視覺爭分奪秒
總的觀點:大有可為01 基本情況機器視覺是指利用電腦視覺技術與圖像處理技術,通過光學成像系統(如工業相機、鏡頭、光源)及專用軟體演算法,目標物體進行自動化識別、定位、測量與檢測的整合化技術系統。機器視覺被譽為工業機器人的“眼睛”,是實現智能化製造的核心技術。其核心目標是為工業裝置賦予“視覺感知”能力,替代人眼完成高精度、高效率的視覺任務,成為智能製造的關鍵支撐技術。在工業領域,機器視覺按技術架構可分為嵌入式視覺、PC-Based系統(高性能處理)和3D視覺(三維重構);按應用場景則分為線上檢測(即時監控)和離線抽檢(高精度分析)等。而從在工業生產環節來看,則可分為識別、測量、定位和檢測。【3年前曾關注過,參考閱讀1文2視覺——電腦視覺、工業機器視覺】02 產業鏈機器視覺系統的“讀取資訊-傳輸資訊-處理資訊”的過程與人眼的運作機制對應,一個典型的機器視覺系統一般包括光源及光源控製器、鏡頭、相機、視覺控制系統(視覺處理分析軟體及視覺控製器硬體)等,其中光源及光源控製器、鏡頭、 相機等硬體負責成像,視覺控制系統負責對成像結果進行分析、輸出結果至其他執行部件。產業鏈的上游主要包括以光源、鏡頭、相機為首的核心零部件和底層的軟體演算法庫。通過恰當的照明方式可以把目標特徵突顯出來,同時將背景和干擾資訊最大限度地過濾或者淡化。中游則是視覺系統和智能視覺裝備。視覺系統是大腦,完成圖像採集功能及預處理。智能視覺裝備是四肢,通過自動控制部件,實現檢測/生產工藝的控制和執行。下游主要3C 電子、汽車製造、新能源等眾多細分行業。03 市場及主要企業製造業一直在追求降本增效,機器視覺最初在消費電子生產的檢測環節落地,隨後不斷擴展到其他生產環節以及其他行業領域。用於消費電子、半導體與新能源等類股的工業級機器視覺合計佔比近8成。據預測,2030 年中國機器視覺市場規模將突破千億。外資巨頭如康耐視、基恩士、巴斯勒憑藉技術壟斷與生態繫結佔據高端市場超50%份額,而國內的相關企業則在細分領域實現局部領先。西湖智能視覺,演算法與模型的深度融合的 AI 智能成像系統,在生物醫療與工業檢測領域嶄露頭角。圖漾科技的“硬體 + 軟體 + 全球化”戰略,緊貼市場對工業智能化核心環節的需求。深視智能聚焦 3D 工業感測器技術研發,服務消費電子與新能源領域。翌視科技在 3D 工業視覺檢測領域的技術與市場有著一定影響。易思維,專注於沖壓、焊裝、塗裝全工藝檢測,市佔率高達22.5%,是國內汽車製造領域的領頭羊。天准科技,提供晶圓切割、晶片缺陷高精度檢測,是半導體檢測領域的佼佼者。梅卡曼德,專注於機器人拆碼垛、物流分揀,是3D視覺引導領域的領先企業。奧普特,涉及機器視覺技術應用、行業機遇及產品解決方案‌。奧普特是機器視覺技術應用的一家重點公司,深耕工業自動化領域20年,建構了覆蓋“視覺+感測+運動+AI”與具身智能的全端產品矩陣。機器視覺光源市場佔有率國內第一,覆蓋30000+定製方案。視位元機器人、靈西機器人等集中於物流自動化分揀。極智嘉,提供AGV視覺導航、倉儲物流自動化解決方案。中科慧遠,專注於OLED/LCD螢幕缺陷檢測。凌雲光,在機器視覺與光通訊兩大核心業務類股深耕細作,在印刷包裝檢測,市佔率22%以上。奧比中光,基於自研晶片和全端式系統技術,為機器人、3D掃描、生物識別等行業客戶提供高性能的3D視覺感測器及機器人與AI視覺方案,是輝達全球產業數位化生態佈局的合作夥伴。04 幾個觀點1.工業領域的機器視覺一直追求更準確、更高效、更具有適應性,整體而言,準度是底線,速度才是生死線。2.傳統機器視覺的3大視覺方案在精準性、靈活性和成本控制上始終存在瓶頸。3.產業鏈的核心價值集中於上游,硬體工藝與軟體演算法決定產品技術天花板。硬體中相機價值佔比達一半以上。4.機器視覺行業下游應用“多點開花”的態勢明顯,細分領域養活幾家有特點的公司不成問題。 5.機器視覺的工業場景和消費場景如人形機器人,兩者之間的差異還是很大的。 (看懂企業)
精讀筆記:李飛飛-從文字到世界:空間智能是AI的下一個前沿
李飛飛博士於 2025 年 11 月發表長文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這是其深耕 AI 領域 25 年的重要思考結晶。全文以圖靈 “機器能思考嗎” 這一經典問題開篇,指出當前以大語言模型為代表的 AI 雖在抽象知識處理上成績斐然,卻存在脫離現實物理世界的短板。文章系統闡釋了空間智能的定義與核心價值,將其定位為支撐人類認知、創造力與文明進步的核心能力,同時提出建構具備生成性、多模態性和互動性的 “世界模型” 是解鎖空間智能的關鍵,還勾勒出空間智能從賦能創意到革新機器人技術,再到推動科學醫療突破的應用演進路徑,為 AI 下一個十年的發展指明了方向。In 1950, when computing was little more than automated arithmetic and simple logic, Alan Turing asked a question that still reverberates today: can machines think? It took remarkable imagination to see what he saw: that intelligence might someday be built rather than born. That insight later launched a relentless scientific quest called Artificial Intelligence (AI). Twenty-five years into my own career in AI, I still find myself inspired by Turing’s vision. But how close are we? The answer isn’t simple.1950年,當電腦還僅僅停留在自動化運算和簡單邏輯運算的層面時,艾倫・圖靈提出了一個至今仍能引發廣泛共鳴的問題:機器能思考嗎?他能洞察到常人未及的可能性,這需要非凡的想像力 —— 智能或許有朝一日能夠被創造出來,而非天生就存在。這一深刻見解隨後開啟了一場名為人工智慧的不懈科學探索。在我投身人工智慧領域的第二十五個年頭,圖靈的這一願景依舊在不斷給予我啟發。但我們如今距離那個目標究竟還有多遠?答案並非簡單就能說清。以 AI 領域的源頭性問題切入,奠定了全文的思辨基調。李飛飛通過回溯圖靈的經典疑問,既致敬了人工智慧的啟蒙思想,又巧妙地引出了核心矛盾 —— 經過數十年發展,AI 仍未完全實現 “機器思考” 的終極目標。她強調智能 “可被建構” 的核心觀點,既是對後續探討空間智能 “可被研發” 的理論鋪墊,也暗示當前 AI 發展尚未觸及智能的核心本質,為後文批判大語言模型的侷限性埋下伏筆。Today, leading AI technology such as large language models (LLMs) have begun to transform how we access and work with abstract knowledge. Yet they remain wordsmiths in the dark; eloquent but inexperienced, knowledgeable but ungrounded. Spatial intelligence will transform how we create and interact with real and virtual worlds—revolutionizing storytelling, creativity, robotics, scientific discovery, and beyond. This is AI’s next frontier.如今,以大語言模型為代表的前沿人工智慧技術,已經開始改變我們獲取和運用抽象知識的方式。然而,這些模型就如同在黑暗中雕琢文字的匠人:能言善辯卻缺乏實踐經驗,學識淵博卻沒有堅實的現實根基。而空間智能將徹底改變我們創造以及與現實和虛擬世界互動的模式 —— 它會給敘事創作、創意設計、機器人技術、科學發現等諸多領域帶來革命性變革。這,正是人工智慧的下一個前沿陣地。這裡點出,當前 AI 的核心短板並拋出全文核心論點。作者用 “黑暗中的文字匠” 這一形象比喻,深刻揭露了大語言模型的致命缺陷:僅擅長文字層面的資訊處理,卻脫離對物理世界的真實感知與互動能力。同時,她明確將空間智能定義為 AI 的下一個前沿,打破了當下 AI 研發集中於文字多模態擴展的侷限,為行業指出了從 “語言理解” 向 “世界感知” 跨越的全新方向。The pursuit of visual and spatial intelligence has been the North Star guiding me since I entered the field. It’s why I spent years building ImageNet, the first large-scale visual learning and benchmarking dataset and one of three key elements enabling the birth of modern AI, along with neural network algorithms and modern compute like graphics processing units (GPUs). It’s why my academic lab at Stanford has spent the last decade combining computer vision with robotic learning.自進入人工智慧領域以來,對視覺與空間智能的探索一直是指引我前行的北極星。這也是我耗費數年時間建構 ImageNet 資料集的原因 ——該資料集是首個大規模視覺學習與基準測試資料集,與神經網路演算法以及圖形處理器這類現代計算裝置一起,共同構成了催生現代人工智慧誕生的三大核心要素。同樣出於這個初衷,我在史丹佛大學的學術實驗室,在過去十年間始終致力於將電腦視覺與機器人學習相結合的研究。該段落通過結合自身學術經歷,增強了論點的可信度與說服力。李飛飛將自己建立 ImageNet 的行為、實驗室的研究方向與空間智能探索強繫結,既體現了她對這一領域研究的連貫性與執著,也從側面印證了空間智能的重要性 —— 畢竟 ImageNet 作為現代 AI 的三大基石之一,其核心價值正是為機器提供視覺感知的基礎,而這正是空間智能的重要組成部分。這一段落也為後文介紹 World Labs 的研發目標做了背景鋪墊,展現出其研究理念的一脈相承。Generative AI models such as LLMs have moved from research labs to everyday life, becoming tools of creativity, productivity, and communication for billions of people. They have demonstrated capabilities once thought impossible, producing coherent text, mountains of code, photorealistic images, and even short video clips with ease. It’s no longer a question of whether AI will change the world. By any reasonable definition, it already has.以大語言模型為代表的生成式人工智慧模型,已經從科研實驗室走進了人們的日常生活,成為數十億人用於激發創意、提升效率與日常溝通的工具。這些模型展現出了曾經被認為難以企及的能力,能夠輕鬆生成邏輯連貫的文字、海量的程式碼、高度逼真的圖像,甚至是短影片片段。如今,問題已不再是人工智慧是否會改變世界。以任何合理的標準來衡量,它都已經做到了這一點。李飛飛在此處先客觀肯定了生成式 AI 的巨大成就,避免了因強調空間智能而全盤否定現有技術的片面性。她列舉文字、程式碼、圖像等生成能力,既符合大眾對當前 AI 的認知,也為後文轉折做了鋪墊。這種先揚後抑的表述方式,能讓讀者更易接受後續關於 AI 短板的論述 —— 承認現有技術的價值,才能更好地理解為何需要向空間智能方向突破,而非停留在現有成果上。Yet so much still lies beyond our reach. The vision of autonomous robots remains intriguing but speculative, far from the fixtures of daily life that futurists have long promised. The dream of massively accelerated research in fields like disease curation, new material discovery, and particle physics remains largely unfulfilled.然而,仍有諸多目標至今我們仍難以實現。自主機器人的願景雖然充滿吸引力,但依舊停留在推測階段,與未來學家們長期以來描繪的、成為日常生活中常見設施的場景相去甚遠。而在疾病治療、新材料研發、粒子物理等領域借助人工智慧大幅加速研究處理程序的夢想,在很大程度上也尚未實現。該段落通過列舉具體場景,具象化了當前 AI 的能力邊界。李飛飛選取自主機器人、疾病治療、新材料發現等具有高關注度的領域,這些領域的共同特點是都需要 AI 具備對物理世界的感知、推理與互動能力 —— 而這正是大語言模型所欠缺的。通過指出這些大眾與行業期待已久的目標尚未達成,有力地論證了單純依靠現有技術遠遠不夠,進一步凸顯了研發空間智能的必要性與緊迫性。Spatial intelligence is the scaffolding of human cognition. It operates when we passively observe or actively create. It drives our reasoning and planning, even on the most abstract topics. And it shapes how we interact—whether through language or action—with others and our environment.空間智能是人類認知體系的腳手架。無論我們是在被動觀察世界,還是主動創造事物,空間智能都在發揮作用。它推動著我們的推理與規劃能力,即便面對那些極為抽象的事物亦是如此。同時,它還影響著我們與他人、與周邊環境互動的方式 —— 無論這種互動是通過語言交流還是實際行動來實現。此處是對空間智能核心價值的高度凝練。李飛飛用 “認知的腳手架” 這一比喻,精準概括了空間智能的基礎性作用 —— 如同腳手架支撐建築一樣,空間智能是人類所有認知活動的底層支撐。她打破了人們對空間智能僅侷限於 “空間感知” 的淺層認知,指出其對抽象推理、人際互動等多方面的深層影響,這一界定極大地提升了空間智能的理論高度,也為後文闡述建構空間智能 AI 的多元價值提供了理論依據。Unfortunately, today’s AI does not yet think this way. Despite significant advances in recent years—multimodal LLMs trained on vast troves of multimedia data have introduced basic spatial awareness, and state-of-the-art robots can manipulate objects in highly constrained settings—AI’s spatial capabilities remain far from human levels.遺憾的是,如今的人工智慧尚未具備這樣的思考模式。儘管近年來人工智慧取得了諸多重大進展 —— 經過海量多媒體資料訓練的多模態大語言模型已經具備了基礎的空間感知能力,最先進的機器人也能夠在高度受限的環境中操控物體 —— 但人工智慧的空間智能水平與人類相比,仍存在巨大差距。作者直面當前 AI 在空間智能領域的現狀,既不否認技術進步,也不迴避核心差距。李飛飛認可多模態模型和先進機器人在空間能力上的微小突破,體現了論述的客觀性;同時明確指出這些能力與人類水平相去甚遠,形成強烈對比。這種表述既避免了對現有技術的全盤否定,又為後文提出建構 “世界模型” 來突破這一差距的解決方案做了完美鋪墊,讓後續的技術路徑建議更具針對性。Building world models that unlock spatial intelligence requires something far more ambitious than LLMs: a new kind of generative model whose ability to understand, reason about, generate, and interact with semantically, physically, geometrically, and dynamically complex worlds—virtual or real—far exceeds that of today’s LLMs.要建構能夠解鎖空間智能的世界模型,需要開展一項遠比研發大語言模型更具挑戰性的工作:我們需要打造一種全新的生成式模型。這種模型在理解、推理、生成以及與語義層面、物理層面、幾何層面和動態層面均極為複雜的世界(無論是虛擬還是現實世界)進行互動的能力,都要遠超如今的大語言模型。這裡明確給出了突破空間智能瓶頸的核心方案 —— 建構世界模型,並凸顯了該方案的挑戰性。李飛飛強調這種新模型需跨越語義、物理、幾何、動態等多個維度,這一定位精準抓住了空間智能的核心需求:機器要像人類一樣綜合多維度資訊理解世界。同時,將其與成熟的大語言模型對比,既讓讀者清晰感知到研發難度,也暗示這一突破將帶來 AI 領域的下一次質的飛躍,為全文的技術構想劃定了核心方向。 (晚筀筆記)思維導圖參考:
《集保「基金資訊觀測站」新升級!基金比較、報告書視覺化 4大亮點易上手》集保「基金資訊觀測站」自建置以來,已成為國人查詢基金資訊的首選,但集保並沒有因此放慢優化腳步,今(21)日再度升級該官網功能,以「看得懂、查得到、用得上」為目標,新推出「基金比較」功能,能夠輕鬆瀏覽比較全市場基金,同時,全新推出「基金報告書」,視覺化呈現淨值、評級、風險等級與歷年報酬與費用資訊,提供投資人更直覺、便利的查詢體驗。集保結算所總經理陳德鄉表示,有鑒於資訊的公開透明與查詢便利性,對於投資人及整體基金市場具有關鍵性的影響。這次「基金資訊觀測站」再升級,特別聚焦在資訊整合、功能強化與介面優化等面向,並包括以下四大亮點:1.整合三大基金公告平台:資訊一站到位「基金資訊觀測站」整合原有三大平台─「境內基金資訊公告平台」、「境外基金資訊公告平台」及「期信基金資訊公告平台」,統一網站入口與資料架構,並簡化頁籤分類,讓資訊查詢更聚焦、清楚且有效率。2.跨平台基金比較:打造更聰明的選擇工具新推出「基金比較」功能,打破以往境內、境外、期信系列基金分開搜尋的限制,提供跨系列搜尋及基金比較功能,並以表格及圖像呈現多基金的淨值漲跌幅、配息頻率、風險等級及評等、費用結構等資料,輕鬆瀏覽全市場基金跨構面的比較資訊。(如下圖,翻攝集保「基金資訊觀測站」官網)3.全新推出「基金報告書」:資訊呈現一目了然基金資訊不再分散!全新推出之「基金報告書」彙整原先分散的多項基金資訊,以視覺化方式呈現淨值、評級、風險等級與歷年報酬與費用資訊,另採頁籤式設計提供銷售、配息與公告資訊、基金文件等內容,讓使用者在操作上更直覺,查詢上更完整。4.全站視覺與互動介面優化:操作體驗更順暢全面調整整體網站風格與資訊架構,包括提升基金搜尋功能、公告區查詢條件更彈性,同時導入按鈕式選單,協助投資人快速靈活組合查詢條件,提升使用效率與便利性,讓資訊查詢更輕鬆省時。集保結算所強調,將持續秉持「以投資人為核心」的理念,導入更多智慧化服務,讓基金查詢不再只是冷冰冰的數據資訊,而是透過設計思維,挖掘用戶背後的真實需求,帶來更好的使用者體驗。
馬斯克旗下xAI加入“世界模型”競賽,“視覺模型”會是下一個“大語言模型”嗎?
AI競賽的下一個戰場已然清晰:從文字世界走向物理世界。在這場名為“世界模型”的競賽中,馬斯克旗下xAI已攜輝達專家悄然入局,與Google、Meta等巨頭同台競技。xAI計畫率先將該技術應用於AI遊戲生成,並探索其在機器人系統的應用。Google推斷,未來的視訊模型將變得和語言模型一樣智能。人工智慧領域的戰火正在從大語言模型蔓延至一個更前沿的領域——能夠理解並模擬真實物理世界的“世界模型”(World Models)。而xAI已悄然加入這場競賽,與Google和Meta等科技巨頭同台競技。據英國《金融時報》10月12日報導,馬斯克的初創公司xAI在今年夏天從晶片巨頭輝達聘請了人工智慧專家,專門從事世界模型的研發。與依賴文字的大語言模型不同,世界模型通過對海量的視訊和機器人資料進行訓練,旨在掌握真實世界的物理規律。“未來的視訊模型將變得和語言模型一樣智能”,Google研究人員在論文中說道。輝達上月也曾表示,世界模型的潛在市場規模可能接近當前全球經濟的總量。01 兵馬先行:xAI的遊戲“奇襲”與機器人野望為了在這場競賽中佔據一席之地,xAI正在積極招兵買馬。公司已聘請了來自輝達的兩位AI研究員Zeeshan Patel和Ethan He,他們在世界模型領域擁有豐富經驗。輝達憑藉其用於建立和運行模擬的Omniverse平台,一直是該技術的領導者。知情人士透露,xAI為世界模型規劃的第一個商業化落點是遊戲領域,用於生成可互動的3D環境。這一動態迅速引發市場關注,因為它不僅是xAI商業化路徑的明確訊號,也凸顯了世界模型作為下一代AI技術的巨大潛力。馬斯克本人也在社交平台X上確認,xAI將在“明年年底前發佈一款出色的AI生成遊戲”。長遠來看,這些技術最終可能應用於機器人的人工智慧系統。xAI的招聘資訊也印證了其發展方向。公司正在為其“omni團隊”招聘圖像和視訊生成領域的技術人員,薪資範圍高達18萬至44萬美元,該團隊致力於“創造超越文字的神奇AI體驗”。此外,公司還在以時薪45至100美元招聘“視訊遊戲導師”,以訓練其AI模型Grok製作視訊遊戲。02 範式轉移:視覺模型的“GPT”時刻xAI的高調入局,恰逢一個關鍵的行業預判浮出水面:未來的視訊模型將變得和語言模型一樣智能。Google最近的一篇論文指出,其視訊模型Veo 3正展現出與大語言模型(LLM)相似的“湧現能力”。正如LLM通過“下一詞元預測”的簡單任務,最終學會了數學和創意寫作等額外技能,視訊模型通過“下一幀預測”,也開始零樣本(zero-shot)地解鎖一系列令人驚訝的能力,例如物體分割、邊緣檢測和模擬工具使用等,而這些都未經專門訓練。Google的研究人員Jack Clark在論文中寫道:“我們認為,正如自然語言處理(NLP)從特定任務模型轉向通用模型一樣,機器視覺領域也可能通過視訊模型發生同樣的轉變——一個‘視覺領域的GPT-3時刻’。”他們將視訊逐幀生成的過程類比為語言模型中的“思維鏈”(chain-of-thought),並稱之為“幀鏈”(chain-of-frames),認為這使得視訊模型能夠跨越時空進行推理。這一發現意義深遠,它暗示著通過發展更智能的視訊模型,人們或許能夠獲得能力極強的機器人“代理”(agent)。03 前景與現實:高昂的成本與“願景”的缺失儘管前景誘人,但通往世界模型的道路並非坦途。目前,該技術仍面臨巨大的技術挑戰,其中最主要的是為模擬真實世界尋找和處理足夠訓練資料的成本極其高昂。與此同時,業界也存在對AI作用的冷靜審視。熱門遊戲《博德之門3》的開發商Larian Studios的發行主管Michael Douse本周在X上表示,AI無法解決遊戲行業的“大問題”,即“領導力和願景”。他補充說,行業需要的不是“更多由數學方式生產、經過心理學訓練的遊戲循環”,而是對世界更多樣化的表達。這代表了一種普遍的觀點:純粹的技術突破本身,並不能保證創造出能夠真正打動人心的商業產品。儘管挑戰重重,但xAI的入局無疑為世界模型的競賽再添一把火。AI的焦點正不可逆轉地從純粹的數字資訊處理,轉向對複雜物理現實的模擬與互動。視覺模型是否能復刻大語言模型的輝煌,迎來屬於自己的“GPT時刻”,不僅將決定下一代AI霸主的歸屬,更可能重塑我們與數字及物理世界的根本關係。 (硬AI)
《紐約時報》觀點|川普式威權主義的視覺語言
我這周看到一張照片。畫面拍於幾天前的華盛頓特區。背景裡是美國勞工部大樓(Department of Labor)。大樓右側懸掛一面巨大的美國國旗,左側掛著一幅同樣巨大的總統唐納德·川普海報,上面寫著“American Workers FIRST”。那是總統的官方肖像,據稱靈感來自他的嫌犯照。肖像裡他怒目而視,與其說是服務公眾的公僕,不如說更像一位嚴厲且毫不寬恕的家長,他似乎只索取尊敬與服從,卻並不承諾任何回報。畫面前景是一些士兵,他們背對鏡頭,正朝勞工部大樓走去。由於取景方式很可能使用了長焦鏡頭,照片的主要元素被壓縮到一起:士兵與大樓之間至少隔著一整條街區的距離,卻彷彿緊挨著出現,而川普正俯視著下方的士兵們。這張照片顯然意在喚起我們與威權主義相關聯的意象,更準確地說,是展示本屆政府如何選擇把自身與這種視覺語言繫結。白宮希望你看到他們那些媚俗的“領袖”陳設與對首都的軍事化佈置後得出結論:遊戲已經結束,他們已經贏了。可那怕現實看上去如此,這並不屬實。總統及其盟友在邁向威權權力的某些領域確實有所推進,例如,憑藉對移民執法的廣泛行政自由裁量,把移民與海關執法局 ICE 用作他的私人打手;但在其他方面也遭遇了實實在在的挫敗。總統還不得不面對自己長期低迷的民意,以及這樣一種真實可能:無論白宮如何刻意製造混亂,都未必能阻止他明年在投票中遭遇慘敗。因此,華盛頓那些由政府包裝出來的圖景,某種意義上是一種投射,是總統所盼望的現實在視覺層面的呈像,借用了他心目中“威權主義的樣子”。橫幅與軍人,再加上那些近乎諂媚的內閣會議與記者會,像是對他國強人美學的二手複製。彷彿政府正在搭建一個威權的擬像,意在借此把真正的威權召喚成真。美國並不是一個由“君主川普”統治的極權國家,並不存在一個以世界最大核武庫為後盾、橫貫整個大陸的川普集團,但他所偏愛的意象確實折射出他渴望活在這種幻想之中的慾望。正如法國社會理論家蓋·德波(Guy Debord)在其1967年著作《景觀社會》(The Society of the Spectacle)中所言:“偽造現實的景觀歸根結底仍是由現實生產出的真實產物;與此同時,現實生活在對景觀的凝視之下,於物質層面遭到入侵,最終將其吸納並與之趨同。”在這個大眾政治既是物質利益再分配的爭奪,也是意義建構的角力的時代,這一判斷尤為切題。如果你在“真相社交”(Truth Social)上關注總統,或是在埃隆·馬斯克(Elon Musk)的X平台(X)上多逗留片刻,你就會看到層出不窮的極右翼AI劣質拼貼:從網際網路上幾近無窮的碎屑中拼湊出來的電腦生成產物,旨在為反動想像裡的心魔、執念、願望與欲求賦形。我認為,對華盛頓的這種“軍事佔領”,以及川普政府用於塑造自我形象的大量視覺素材,與這些AI拼貼在符號學意義上的功能相同。它們呈現的是川普想要的世界。你可以說那是一種現實,但它尚未成為我們的現實。我們仍有能力,更重要的是仍有時間,讓自己轉身遠離這幅關於“真實”的特定圖景。 (一半杯)