#視覺
《揭密日亞化學三十倍成長傳奇!《技術者天國》重磅上市》由大是文化出版的重量級商業著作《技術者天國》即將於 2月25日 正式發行。本書由深耕日本製造業報導長達 28 年的《日經製造》前副總編輯近岡裕撰寫,首度深度揭密日本德島縣一家無名鄉下企業,如何躍升為全球 LED 市占率第一大廠的「日亞化學」背後不為人知的開發與經營心法。作為日亞化學在台灣最重要的戰略合作夥伴,日本日亞化學工業株式會社專務取締役 戴圳家與台亞半導體董事長李國光,皆親自為本書撰寫推薦序。台亞半導體集團長年深受日亞化學企業文化薰陶,面對全球半導體與光電產業的劇烈變革,台亞正如同書中的日亞化學一般,選擇了一條不迎合短期數字、專注於長期技術深耕的「技術者天國」之路。《技術者天國》書中詳細記載,日亞化學之所以能領先全球,率先於 1993 年成功開發出高亮度藍光 LED 並實現商品化,關鍵在於其小川英治會長「不追求短期利益」的絕對信念。書中揭露了一段震撼業界的歷史:為了建構 LED 量產體系,日亞化學曾進行遠超當時營收規模的巨額融資,一九九八年時借款金額高達近四百億日圓,幾乎與營收持平。這項被外界視為「超越企業經營常識」的大膽投資,讓日亞化學經歷了「長達七年間,必須忍受連續虧損的艱難時期」。然而,正是這份不畏懼短期赤字、堅持將資源投入研發與自製設備的底氣,最終換來了日亞化學連續三十年、營收擴大三十倍的驚人成就。台亞半導體作為與日亞化學具備深厚歷史淵源的盟友,在企業經營上產生高度共鳴。台亞集團近年來積極布局化合物半導體,因處於轉型期的低谷,加上端看前三季度財報表現情形,可預期台亞半導體近期公布的最新財報,將反映出公司目前正處於大規模技術升級與產能重塑的轉型陣痛期。台亞半導體董事長李國光深刻認同日亞化學的理念:「我們就像籠子裡不停踩著滾輪的老鼠,一旦停止投資,公司就會走向終結」。李國光董事長表示,台亞近期的財報數字波動與短期虧損,正是公司為了迎戰下一個十年,積極投入次世代光電半導體技術與化合物功率半導體等新興應用之技術、擴充先進製程設備的「必要戰略投資」。台亞經營團隊強調,誠如日亞化學小川裕義社長所言:「業績數字只是結果。真正重要的是在技術上能否不斷展開新挑戰」。台亞半導體拒絕為了美化短期的財報數字而犧牲長遠的競爭力。目前的資金投入與研發支出,都是為了構築未來難以被競爭對手跨越的技術護城河。在這場轉型戰役中,集團旗下的星亞視覺與和亞智慧,也同樣落實了《技術者天國》的精髓。星亞視覺堅持採用日亞化學的高品質 LED,致力於提供客戶「品質零缺陷」的安心承諾;而和亞智慧則深受日亞化學「生產設備自製率超過 50%」的啟發,自主研發最精密的檢測設備,作為守護品質的最後一道防線。《技術者天國》不僅是一部科技產業的發展史,更是一本寫給所有企業領導者與投資人的啟示錄。它證明了「忍受短期虧損的勇氣」與「深耕技術的耐心」,才是企業基業長青的真正密碼。台亞半導體集團期盼透過本書的出版,與市場溝通「長期主義」的價值;未來,台亞將持續攜手日亞化學,以高遠的志向度過轉型期,共同開創光電半導體產業的下一個黃金世代。
為什麼:特斯拉All-In純視覺?
在角逐自動駕駛的高風險競賽中,多年來逐漸形成了一道深刻的理念與工程分歧。一方是幾乎整個汽車與科技產業,他們推崇名為** 感測器融合(sensor fusion)** 的方案—— 一種「雙保險」 式的思路,將攝影機、雷達與雷射雷達(LiDAR)結合,建構出冗餘、多層級的環境感知系統。另一方則只有特斯拉孤身一人,它大膽且極具爭議地押注在單一感知模式上——純視覺、基於攝影機的感知方案。特斯拉主動拆除並停用雷達等硬體的決定,曾遭到廣泛質疑,但這項舉措源自於其對人工智慧與自然智慧本質的、基於第一原理的堅定信念。想要理解特斯拉為何下此重註,首先必須先弄清楚:特斯拉究竟否定了什麼。1.什麼是感測器融合?感測器融合的概念其實非常簡單。它的目標是利用不同類型感測器各自的獨特優勢,為車輛周圍環境建立一個單一、統一且高度穩健(穩定可靠)的模型。每種感測器都有其優缺點,理論上,將它們融合在一起可以彌補各自單獨使用時的短板。攝影機能提供最豐富、解析度最高的數據,像人類一樣以色彩和紋理感知世界。它們可以辨識路牌文字、區分交通燈顏色,並理解複雜的視覺場景。其主要缺點是:在惡劣天氣和低光照條件下表現會下降,且難以精確測量相對速度。雷達非常擅長測量物體的距離和速度,即使在極端天氣下也能正常運作。它能輕鬆「看穿」 雨、霧、雪,但缺點在於解析度較低。無論如何計算,想要在單一方向上達到單一攝影機的分辨率,需要一個12 英尺× 12 英尺、成本高達數百萬美元的雷達陣列。它能告訴你「有東西」 以及「它移動得多快」(前提是物體在移動),但很難判斷物體是什麼,也難以辨識靜止物體。光達(LiDAR) 工作原理類似雷達,但使用激光,能產生環境的精確3D 點雲地圖。它在測距和形狀感知上精度極高,可以建構極其精細的三維環境模型。主要缺點是:成本相對較高,且在惡劣天氣(尤其是霧、雪、雨)中表現會下降。光達還有一個短板:採集的資料量極大,光是第一步資料處理就需要龐大的算力。這是業界成熟的技術方案,Waymo、Cruise 等公司都在採用:將三類感測器的數據融合,打造一套具備內建冗餘的感知系統。2、特斯拉的起點:多感測器方案對許多人來說,這已是一段被遺忘的歷史,但特斯拉並非從一開始就採取純視覺路線。從推出到2021 年,早期的Autopilot 系統同時配備了攝影機和前向雷達,雷達由博世等專業汽車感測器廠商提供。這是一套常規的感測器融合方案:雷達作為主要感測器,用於測量前車距離與速度,從而實現交通感知巡航控制以及早期版本的FSD Beta 功能。多年來,這種多感測器方案一直是業界標準。即便特斯拉自研了專屬FSD 晶片,外界仍普遍認為雷達會繼續作為核心零件,成為不斷發展的視覺系統的安全兜底。然而在2021 年,特斯拉做出了一次極為激進的轉向。3.轉折點:特斯拉為何放棄雷達方案這項轉變始於2021 年夏天,特斯拉宣布將在新款Model 3 和Model Y 上移除雷達,全面轉向名為** 特斯拉視覺(Tesla Vision)** 的純相機系統。此舉源自於伊隆・馬斯克基於第一原理的核心理由:感測器資料衝突會帶來安全風險—— 這一觀點他至今仍在堅持。光達和雷達會因感測器衝突而降低安全性。如果光達/ 雷達與攝影機的資料不一致,該信誰?這種感測器資訊模糊帶來的是風險上升,而非下降。這就是Waymo 無法在高速公路上行駛的原因。我們在特斯拉上關閉雷達,就是為了提升安全性。伊隆・馬斯克的觀點是,感測器融合會催生一個全新且更危險的問題:感測器衝突。當兩種不同的感測器系統給出相互矛盾的訊息時,車輛該相信那一個?那一種感測器才算「更精準」 或「更安全」?是由車輛在當下即時判斷,還是由工程師事先設定好優先順序?感測器資訊的模糊性本身就存在風險,因為決策模組可能會因此陷入癱瘓,尤其是在安全優先的場景下。這並非單純的理論思辨,特斯拉的完全自動駕駛(FSD)工程師也給了具體實例。在同一討論中,特斯拉人工智慧工程師蔡允達指出,雷達存在根本缺陷:它無法正確區分無法產生頻率偏移的靜止物體、橫斷面細小的物體,或是雷達反射率低的物體。這正是過去困擾特斯拉的** 無故急煞車(幽靈煞車)** 問題的根源—— 車輛可能會把路邊靜止的天橋或丟棄的鋁罐誤判為停下的車輛,從而觸發不必要的煞車。在特斯拉看來,實現通用化自動駕駛的路徑,是攻克視覺感知。人類依靠雙眼這兩台「生物攝影機」 和強大的神經網路就能駕駛。他們的核心判斷是:如果能讓電腦視覺做到完美,那麼其他任何感測器往好了說是多餘幹擾,往壞了說就是危險歧義的來源。4.當下方向:純視覺路線的願景如今,每一輛全新特斯拉都完全依賴特斯拉視覺系統(Tesla Vision),由8 顆攝影機提供支援。該系統透過複雜的神經網路建構出三維向量空間的環境模型,車輛據此進行分析與行駛決策。關於純視覺路線,還有一段耐人尋味的插曲。當特斯拉推出第四代硬體(現稱為AI4)時,新款Model S 和Model X 都搭載了全新的高清雷達。但為堅定實踐純視覺路線,特斯拉從未在完全自動駕駛(FSD)功能中啟用這些雷達。事實上,FSD 表現最成熟的反而是特斯拉銷售最高的車型Model Y,而非配備額外感測器的車型。儘管特斯拉可能會從這些雷達收集部分資料、驗證系統性能,但雷達並未真正納入FSD 的感知體系。5、👉 二選一的結局:非成即敗特斯拉放棄感測器融合方案,是其自動駕駛路線與業界其他廠商最核心的差異。這是一場孤注一擲、高風險高報酬的豪賭,而目前來看,特斯拉明顯佔上風。特斯拉、伊隆・馬斯克、阿肖克及特斯拉AI 團隊一致認為:想要打造一套具備類人智慧、可規模化、通用型的自動駕駛系統,唯一路徑就是徹底攻克視覺感知難題。如果這項判決正確,他們將打造出比競品那些造價高昂、堆滿感測器的車型成本更低、擴充性極強的系統。如果判斷失誤,他們最終可能遭遇效能瓶頸,只能回頭加裝感測器—— 但到目前為止,這類瓶頸尚未出現任何端倪。如今,特斯拉已全力押注純視覺系統,技術進展與能力毋庸置疑。 (芯榜)
DeepSeek-OCR-2 正式上線
DeepSeek-OCR-2 正式上線文件解析性能顯著提升昨天,深度求索(DeepSeek)正式推出新一代文件解析模型「DeepSeek-OCR 2」。該模型採用全新的視覺編碼器架構 DeepEncoder V2,在文件解析能力上實現重要突破。技術架構升級視覺因果流 是核心創新,引入類似大語言模型的因果推理機制,使圖像理解更貼近人類閱讀邏輯。視覺編碼器 DeepEncoder:約3.8億參數,用於圖像轉視覺標記序列解碼器:30億參數 MoE 模型,推理時表現為5.7億參數模型性能表現優異OmniDocBench v1.5 測試得分:91.09%,較上代提升3.73%閱讀順序精準率大幅提升純文字提取精度達97%-98%多模態能力突出不僅限於文字提取,還支援:圖表、公式、化學結構識別表格圖像轉 HTML 或 Markdown豐富結構化輸出,滿足多種場景需求開源策略促進發展MIT 許可證開源,可在 Hugging Face 和 GitHub 獲取支援動態解析度與多裁剪策略提供 Transformers 和 vLLM 推理示例部署靈活性優勢本地運行,保障資料隱私支援自訂輸出格式,提示詞靈活引導適用於敏感文件處理場景技術發展前景未來有望擴展至多模態統一編碼器共享因果推理框架,融合圖像、文字、語音等輸入社區驅動開發,加速模型迭代行業影響初顯推動多模態模型走向開源生態打破傳統OCR服務商壟斷格局降低使用門檻,增強市場活力應用場景廣泛涵蓋 OCR、版面解析、圖像描述等任務適合企業級文件處理與科研機構定製化開發本地部署保障資料安全技術路線清晰雙階段訓練策略:先獨立訓練視覺編碼器,再聯合訓練提高OCR魯棒性與佈局適應性市場定位明確精準性高、靈活性強、成本可控超越部分傳統OCR服務通過社區反饋持續最佳化產品體驗小結DeepSeek-OCR 2 的發佈是開源多模態AI的重要里程碑。它不僅提升了文件解析性能,也通過開源策略賦予使用者更高的自由度和掌控力。這一變革或將重塑OCR服務市場的競爭格局,值得長期關注。 (MaXTe)
Google Gemini和蘋果的頂級華人科學家離職創業,劍指AGI
【新智元導讀】Google Gemini 資料聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。矽谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。曾在Google DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為 Elorian 的 AI 初創公司。這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。與 Andrew Dai 聯手的,是剛於去年 12 月離職的蘋果研究科學家 Yinfei Yang。這兩位分別來自Google和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。領投這輪融資的,極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。如果交易達成,這將是矽谷近期最受矚目的早期融資之一,也再次印證了資本市場對於「Google畢業生」的瘋狂追捧。14 年,從 BERT 早期到 Gemini 幕後在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。不同於那些在 Transformer 浪潮爆發後才匆匆入局的創業者,Andrew Dai 在Google的工號可以追溯到 2012 年。這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。在他的 LinkedIn 履歷中,最引人注目的是他作為 Gemini 模型預訓練(Pre-training)資料工作的聯合負責人。在當前的大模型戰爭中,資料質量和預訓練策略被認為是決定模型智商上限的關鍵因素。能夠在這個核心環節擔任負責人,足以證明他在Google內部的權重。Andrew Dai 的學術貢獻不僅限於此。他曾與Google首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。早在 2015 年,他發表的一篇關於半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對後來 OpenAI 的 GPT 系列模型產生了深遠的啟發。https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注於預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的資料來源中提煉出高品質的“知識”。」如果說 Andrew Dai 代表了Google在巨量資料處理上的暴力美學,那麼聯合創始人 Yinfei Yang 則帶來了蘋果係的精緻與多模態視角。Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。在加入蘋果之前,他也曾在 Google Research 工作過四年,專注於多模態表示學習。他在圖像-文字共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。視覺推理不只是「看見」,更要「理解」Elorian 究竟想做什麼?根據 Andrew Dai 的說法,Elorian 並不是要再造一個 ChatGPT,而是要建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。目前的 AI 模型大多是基於文字訓練,再通過「補丁」的方式接入視覺能力。而 Elorian 的願景是建構一個天生的「通感者」。這種模型不再是將圖片轉化為文字標籤,而是像人類一樣,通過視覺直接感知物理世界的邏輯。「視覺推理」被認為是通向 AGI 的必經之路。Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的願景遠不止於此。在矽谷的投資人眼中,這通常意味著 Elorian 瞄準的是 AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦螢幕、理解圖形使用者介面(GUI)、處理退貨流程、稽核法律檔案、操作其他軟體的超級助手。它不需要你通過 API 喂給它資料,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策。這就是 Elorian 試圖建構的未來。資本的邏輯為「血統」買單5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。其創始人 Max Gazor 曾是老牌風投 CRV 的合夥人,以眼光毒辣著稱。他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立後的首批標誌性賭注之一。對於 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「Google DeepMind + 蘋果」這種稀缺的基因組合。Google提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。Elorian 的出現,也折射出大模型戰場的轉移。第一階段的戰爭是關於「文字生成」,OpenAI 憑藉 ChatGPT 拔得頭籌;第二階段的戰爭則是關於「多模態理解」和「物理世界互動」。在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如複雜的視覺 Agent)上做到極致。在矽谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。Andrew Dai 離開了效力 14 年的Google,Yinfei Yang 離開了發佈 Apple 智能的蘋果。他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。這讓人想起電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過資料的迷霧,看清未來方向的眼睛。 (新智元)
《台亞攜手晉弘科技亮相CES 2026 秀HUSD-HS2模組供非侵入式血糖檢測新技術》一年一度的【全球消費性電子指標盛會 CES 2026】 在1月6日(美國時間)於拉斯維加斯盛大開展,台亞半導體(TW 2340)攜手晉弘科技(TW 6796)子公司晉昇智能,將業界唯一最新研發HUSD-HS2 (Hybrid Ultra Sensing Device - Healthcare Series 2)技術成果呈現於全球舞台,展現台灣科技跨足智慧醫療的創新能量。HUSD (Hybrid Ultra Sensing Device)技術,是在經濟部【A+企業創新研發淬鍊計畫】支持下,由台亞領軍旗下子公司-星亞視覺(TW 7753)、和亞智慧(TW 7825)、上亞科技(TW 6130)與晉弘科技(TW 6796)的子公司晉昇智能感測及臺北醫學大學,為非侵入式血糖監測所開發的光學感測技術,採用多顆先進的短波紅外(SWIR)高密度複合元件,並結合表面光學多層膜技術,打造的光學感測方案,相較於市面上不穩定的非侵入測量方式,此技術能大幅提升訊號穩定性與準確度。本次由台亞與晉昇共同發表的的HUSD-HS2(Healthcare Series 2)模組,已完成多項內部與臨床前驗證,在健康人群測試群組的單點單次的空腹血糖值平均 MARD值已可以達到約小於10%,目前將持續優化感測結構與AI演算法,更預計在未來推出HUSD-HS3朝醫療級所要求的MARD小於10%誤差率目標推進,並評估導入 AI 訊號分析技術,以滿足更高階的醫療應用需求。未來更規劃發展HUSD-MS(Medical Series)平台,搶攻醫療級血糖監測市場。台亞董事長李國光表示,HUSD技術使得非侵入式血糖檢測(NICGM)不再只是概念,此項的革新技術讓廣大的糖尿病患者與需要健康管理族群,可以不再透過傳統扎針方式,來進行控醣管理,只需透過配戴相關的感測裝置,即可獲得穩定、準確的健康數據,真正實現了一場無痛的健康管理革命。本次台亞與晉昇的「強強聯手」垂直整合模式,利用台亞的核心 SWIR 感測元件與光學模組平台,結合晉昇在醫療電子、穿戴式裝置設計與數據處理經驗,進行系統整合及演算法開發,展現非侵入式血糖檢測穿戴裝置的整合成果,縮短HUSD技術導入智慧醫療市場(Lab-to-Market)的開發週期。晉弘科技鄭竹明董事長表示,晉弘在整個計畫中扮演最終智慧醫療應用產品製造的重要角色,以通過醫療器材認證作為目標,致力打造出創新的醫療級非接觸式血糖感測裝置來造福更多血糖患者。台亞半導體副董事長暨日亞化學專務取締役戴圳家也表示,「HUSD 技術的最大價值,在於徹底解放使用者對『扎針』的恐懼與依賴,台亞獨家的短波紅外光技術讓血糖監測變得自然無痛。我們將持續挑戰訊號穩定度上的技術藩籬,目標從消費電子跨越到專業醫療級應用,實現半導體技術與醫療需求的完美結合,進而創造世界第一的商品。」
重磅進展!輝達推出sim2real前沿技術“DoorMan”,全模擬資料零樣本遷移,機器人快速掌握開門技巧
人形機器人攻克了武術動作與後空翻等技能,卻難以很好實現僅依賴RGB視覺的開門任務,日常移動操作仍是人形機器人自主化處理程序中最具挑戰的前沿方向之一。那些看似簡單的家居場景互動——如拉開抽屜、旋轉旋鈕或打開門鎖——均需機器人在不確定性環境下實現精準的感知-動作耦合、富含接觸的控制以及全身協調。近年來,基於GPU的照片級真實感模擬技術取得顯著進展,為機器人學習開闢了一條可擴展的資料生成路徑,那僅靠模擬模擬資料能不能教會機器人學本事呢?日前,NVIDIA GEAR團隊與加州大學伯克利分校、卡內基梅隆大學、香港中文大學合作發佈了一項新技術“DoorMan”,打開了人形機器人虛實遷移之門,這是一種經模擬訓練、僅依賴RGB圖像的人形機器人移動操作策略,基於100%模擬資料訓練,具備零樣本遷移性能,使得機器人能夠開啟多種真實場景下的門體。此外,在相同的全身控制棧下,開門任務完成時間較人類遙操作操作員提升高達31.7%。解決兩大核心問題對於機器人而言,開門任務的難度非常突出。機器人需通過移動的第一視角攝影機識別抓取位置、旋轉帶彈簧的門把手、追蹤門板的柔性圓周運動,並在門軸作用力下維持平衡,這些高度耦合的需求,使得開門任務成為檢驗各類通用移動作業系統性能的嚴苛測試基準。現有專門針對開門場景的系統通常難以實現這一更廣泛的目標:多數方案依賴深度感知、物體中心特徵或輪式平台上的硬編碼運動基元;而近年以遙操作為核心的框架仍存在魯棒性不足的問題。隨著模擬、硬體及強化學習(RL)領域的技術進展,已在機器人移動、動作模仿和靈巧操作等任務中實現了優異的虛實遷移效果,然而,將這些技術應用於移動操作任務(感知、平衡、接觸與導航需動態互動的場景)仍處於研究不足的狀態。NVIDIA GEAR團隊認為,機器人通用學習仍面臨的兩大核心挑戰:1、演算法本身需具備簡潔性、可擴展性及對部分可觀測性的魯棒性,能夠生成在多樣化任務中協調視覺與全身控制(WBC)的自主策略——這些要求在現有研究中尚未得到滿足;2、視覺虛實域差涵蓋了廣闊的外觀與物理特性變化空間,需依賴大規模異質資料,而非少量精心設計的場景。為應對上述挑戰,研究人員提出一種新型可擴展的師生自舉(teacher-student-bootstrap)學習框架;此外,在IsaacLab模擬平台中建構了大規模域隨機化框架,可同時實現物理與外觀維度的規模化變異。在真實場景評估中,DoorMan策略不僅能泛化至多種關節運動機制、外觀樣式及空間佈局,還在成功率與效率上超越了人類遙操作:策略成功率達到83%,而人類專家為80%、非專家為60%;在採用相同全身控製器的情況下,任務互動完成速度提升23.1%–31.7%,表明該框架能夠生成穩健、高效的自主移動操作行為。截至目前,這是首個僅基於純RGB感知,即可實現多樣化鉸接式移動操作的人形機器人虛實遷移策略。突破純行為克隆方法DoorMan採用三階段訓練流程,其核心建構於經典“師生蒸餾”技術之上。所有階段均在IsaacLab模擬平台中通過互動式方式完成。階段 1:利用特權觀測資訊訓練教師策略;階段2:採用DAgger演算法將教師策略蒸餾為基於RGB圖像的學生策略;階段3:基於二值化成功訊號,通過GRPO演算法對學生策略進行進一步訓練。其次,在IsaacLab模擬平台中建構的大規模合成資料生成框架可生成物理真實且視覺多樣化的門體環境,用於模型訓練與評估,並將開門任務作為移動操作的代表性基準任務。在物理模擬層面,該框架可對門體類型、尺寸、門軸阻尼、門鎖動力學特性、把手位置、把手樣式及阻力扭矩進行隨機化處理;視覺層面,隨機化材質、光照及相機內參/外參,這項研究並未復刻特定場景,而是刻意讓策略暴露於廣泛的變異空間中。這項研究的核心課題是:基於RGB視覺的虛實遷移強化學習,能否突破純行為克隆方法的侷限,解決人形機器人在真實複雜環境中的開門難題。研究人員推測,行為克隆的性能上限往往由人類遙運算元據質量決定,當前的全身遙操作技術由於操作邏輯不夠直觀,與人類直接操作相比,在效率和成功率上存在差距,而基於RGB視覺的虛實遷移強化學習有望實現更優性能。測試表明,訓練過程中啟用全部可用紋理與穹頂光照隨機化時,模型在未見過場景中的泛化性能最優,各子任務成功率可達到81%-86%,這凸顯了大規模合成資料與可擴展強化學習框架在通用人形機器人移動操作領域的應用潛力。不過也觀察到一些失效模式,常見的失效模式包括未觀測到的干擾、距離估計誤差以及未建模的環境狀態帶來的挑戰。幕後的華人研究員這項研究的主要作者和領導者均為華人研究員。一作薛浩儒目前是加州大學伯克利分校-伯克利人工智慧研究院(BAIR)的博士生,現在在NVIDIA GEAR實驗室實習,研究方向是是利用可擴展的先驗知識進行機器人學習:從視訊、演示、強化學習後訓練等中學習。項目領導者之一Jim Fan是輝達高級研究科學家,也是人工智慧代理計畫的負責人,使命是建構能夠在物理世界(機器人)和虛擬世界(遊戲、模擬)中通用的智能體。他曾在史丹佛大學視覺實驗室獲得博士學位,導師是“AI教母”李飛飛。另一位項目領導者Yuke Zhu是德克薩斯大學奧斯汀分校電腦科學系的副教授,也是機器人感知與學習(RPL)實驗室的主任,同時,還在輝達研究院擔任董事和傑出研究科學家,領導NVIDIA GEAR小組。研究人員表示,未來研究方向包括降低對任務專屬獎勵工程的依賴(例如利用大容量行為克隆教師模型),以及將該框架擴展至更廣泛的日常全身互動任務類別。隨著模擬技術的進步,或許有一天,機器人真的可以完全在虛擬世界裡學習掌握更多其他技能,而且能快速應用到現實中。 (頭部科技)
《承襲日亞化學精神 星亞視覺永續創新受台灣精品獎肯定》台亞集團旗下子公司星亞視覺(tw 7753)今日榮獲第34屆「台灣精品獎」,以「戶外窄視角顯示屏」奪得佳績,不僅彰顯公司卓越的研發實力,更展現軟硬整合的深厚能力,充分體現星亞視覺持續推動創新與永續的承諾。自今年掛牌上櫃以來,公司營運表現持續穩健成長,反映其長年專注於數位顯示及視覺燈光系統所累積的價值與實力。台灣精品獎素有「台灣產業界奧斯卡獎」之稱,本屆評選著重於「環境保護、創新設計、台灣製造」,星亞視覺此次獲獎的【戶外窄視角顯示屏】以自行研發的專利設計,透過獨家的精準光學角度控制,搭配特殊模塊遮陽罩,相較於市面上一般的產品為120度的發光角度,星亞將次世代產品設計至60度以下,不僅將光線集中度提升30%以上,有效減少60%以上的散射,有效降低傳統顯示屏常見的光害問題,減輕對環境與生態的衝擊。加上智慧節能設計使耗能降低40%,並採用高耐用度設計,產品使用年限較同業增加3到4倍,不僅延長產品壽命,更減少電子耗材浪費,守護環境保護,並以台灣團隊設計製造,產品色彩校正誤差在5%以內,呈現更佳的色彩均勻度,大幅減少誤差值,堅持品質展現在地研發實力。產品整合多面向節能設計,為客戶提供高效、穩定且耐候的解決方案,兼顧效益與環境友好,充分展現研發創新與高端品質,實現「高效廣告 × 生態共榮」的應用價值。星亞視覺秉持「Communicate Ideas, One Pixel at a Time」的品牌理念,長期專注於戶外顯示屏與燈光設備的創新與製造,以對像素的極致要求,打造能精準傳遞訊息、同時提升環境價值的顯示科技。星亞總經理李柏龍表示,星亞視覺身為台亞集團的一份子,一直以來遵循著日亞化學的核心經營方針「努力學習、勤於思考、用心工作,創造世界第一的商品」,公司目標是成為全球數位顯示與視覺燈光系統的領導者,憑藉高度客製化、耐用年限長、掌握軟硬體關鍵技術及獨家控制系統的優勢,與客戶建立緊密合作並彈性因應需求,持續研發符合應用場景的解決方案,提升客戶附加價值。台亞半導體副董事長暨日亞化學專務取締役戴圳家,得知星亞於台灣精品獎中奪得佳績後表示:「星亞視覺深耕台灣市場已逾40年,2022 年自台亞(tw 2340)分割獨立後,一直持續繳交出漂亮的成績單,在今年8月份上櫃掛牌後,表現更是亮眼,非常開心今日星亞獲得此項殊榮,彰顯出星亞所堅持的職人精神,在追求技術創新與產品卓越的同時,更致力於推動創新與永續的承諾,落實將永續、創新與責任融入企業文化,以永續精神邁向國際市場,點亮世界。」