2025年各種元年(AI代理、空間智能、AI眼鏡......)大背景下,AI與XR技術的結合大勢所趨。隨著VR、AR頭戴裝置和智能眼鏡的不斷進步,AI不再僅僅是通過文字和語音與我們互動,它將開始通過視覺、手勢甚至是腦波與我們深度融合。這一變革性處理程序不僅改變了我們與技術的互動方式,還提出了一系列新的問題和挑戰。
CNET著名XR記者Scott Stein發佈了AI+XR的年終盤點:探討AI與XR融合的未來,揭示這一結合如何重新定義我們對智能裝置的認知與應用。從Google、Meta等巨頭的最新動態到腦機介面的潛在影響,人工智慧與混合現實技術的交匯點正在逐步成為下一個科技突破的前沿。隨著這一變革的到來,我們既要面對潛在的技術挑戰,也要期待它帶來的無限可能。
以下內容來自CNET:
https://www.cnet.com/tech/computing/the-future-of-ai-is-coming-for-our-eyes-vr-and-ars-killer-app-with-killer-unknowns/
AI的未來瞄準我們的雙眼:VR和AR的殺手級應用及其未知風險
混合現實已經來臨,下一代頭顯和智能眼鏡將迎來與我們共同體驗的AI浪潮 - 這也帶來了一系列新的問題和擔憂。
我沉浸在一個虛擬世界中:我家和從未去過的地方的3D地圖、環繞在我頭部的視訊,以及漂浮在周圍的瀏覽器頁面。我並不孤單。一個友好的聲音在那裡,傾聽我的問題並理解我所看到的一切。這位夥伴似乎能看到我看到的、聽到我聽到的。Google的Gemini AI是在我身後、環繞著我,還是在我體內?我的感知在那裡結束,AI的感知又從那裡開始?
2024年底,我在體驗一款搭載GoogleGemini AI 2.0的三星未來混合現實頭顯。這款頭顯要到2025年晚些時候才會發佈,但它很好地預示同時也警示了個人科技領域即將到來的變革。多年來,AI一直在傾聽和回應我們。它通過我們的筆記型電腦、手機和雲端聽取我們的語音提示、閱讀我們的文字提示並掃描我們的照片。接下來,AI將把目光投向我們的眼睛。
這些想法並不新穎,但我們即將看到各公司開始實施,讓頭顯和眼鏡產生令人驚訝的效果。有些產品已經上市,其他的仍在開發中。Google的Android XR戰略佈局只是第一步。預計Meta、蘋果、微軟等公司都會緊隨其後。有些公司已經開始行動。從我已經看到的情況來看,這將使我們對AI的現有認知顯得只是開場戲而已。
GoogleAndroid生態系統總裁Sameer Samat認為AI和XR的結合是自然而然的。"它實際上可以幫助你控制使用者介面。它可以與你協作解決問題,在虛擬空間中與你一起採取行動,"Samat對我說。我在Android XR上的演示讓我一瞥這種可能,展示了一種前所未有的AI伴侶體驗。感覺更加私人化,就好像AI幾乎生活在我的頭腦中,看到我所看到的一切。
這個未來已經到來。Meta更新的Ray-Ban智能眼鏡現在包含即時AI輔助和翻譯功能,售價300美元,現在就可以購買。
在過去幾年,AI已經成為科技領域最受炒作的部分,主要是由OpenAI等公司在生成式AI方面取得的成功推動。AI有時令人驚嘆,有時令人失望,有時充滿希望,有時則是垃圾。與許多被過度炒作的技術一樣,承諾和現實往往交織在一起,在真正影響被理解之前導致混亂和顛覆。
即使從事科技新聞工作多年,我仍覺得整個AI領域令人困惑。我不知道自己是覺得它有用還是可怕。有時兩者兼而有之,但我經常思考其複雜性和加速度。當新技術獲得牽引力並走向主流時,結果可能出人意料:就像手機一樣。目前大多數人還不戴VR和AR頭顯和眼鏡,即使戴也不經常。這種情況可能會改變,隨著AI能夠通過我們臉上越來越多的感測器收集資料,如果事態確實發展到大規模應用,其可能性難以理解。
我已經看到了一些潛力。在三星和Google的演示中,我看到如何讓眼鏡或頭顯成為我的記憶並回憶我看過的東西。我可以詢問任何正在做的事情的資訊和解釋,就像在身邊有一個活生生的搜尋引擎。一年多來,我一直戴著Meta的Ray-Ban眼鏡,現在它們可以通過語音命令和快門立即識別物體或翻譯語言。我漫步在街區,用眼鏡詢問我看到的東西。有時它們很有幫助;有時則不然。
我花在頭顯和眼鏡上的時間越來越多。是的,這是因為我的工作是早期科技探索者。VR過去是用來嘗試新穎體驗和遊戲的,但現在它已經成為我日常生活的一部分。我使用Quest頭顯每周與虛擬教練一起鍛鍊,同時追蹤我的心率。我戴上Vision Pro工作,將弧形螢幕環繞在我周圍,沉浸在音樂中,坐在月球上,休息時觀看浮動的電影。我戴著能播放冥想和音樂的眼鏡散步,它們可以幫我打電話,捕捉我生活中的小記憶。技術越來越多地成為我日常生活的一部分,就在我眼前,現在AI正準備加入我的這段旅程。接下來會發生什麼?
一些公司,如Meta,正在開始探索神經輸入裝置,正如我在其原型Orion眼鏡中體驗到的那樣。小型腕帶可以使用肌電圖(EMG)檢測電訊號,將這些訊號轉化為預測性手勢。AI已經在VR和AR頭顯上廣泛應用,用於預測頭部運動、追蹤眼球運動、將手勢轉化為動作,並同步體驗以使其感覺真實而不會引起眩暈。更先進的生成式AI助手也可能開始讓頭顯感覺像是我們最接近腦機介面的東西,僅次於植入物。
我訪問過的一些公司,如OpenBCI,已經在探索EEG感測器與VR/AR的組合。AI配合視覺和音訊提示,再加上手部運動和手勢,也可能做到足以讓人感覺像是讀心。眼動追蹤已經是一個充滿可能性和風險的領域,因為眼神注視可能表明我們的想法和認知狀態。
要應對複雜性很困難,但我一直在想Ray Kurzweil的觀點。這位著名(有時也具有爭議性)的AI先驅,現為Google工程總監,幾十年來一直在撰寫關於AI崛起的文章。他2004年的著作《奇點臨近》探討了一個由加速發展的AI塑造的奇特未來,並附有大量圖表。2024年,Kurzweil發佈了《奇點更近》,這是20年後對他早期論點的更簡明的重訪。讓我注意到的是,意識到自他上一本書以來,Kurzweil關於AI的許多想法已經實現。他對未來的預測從離奇到難以置信,包括可以讓我們恢復活力的納米機器人、能源危機的解決方案,以及經濟差距的消除。Kurzweil設想在他預測的奇點與我們當前時刻之間有一座橋樑 - 他相信這座橋樑就在AR和VR中。
去年在與Kurzweil的對話中,他告訴我:"是的,這比僅僅試圖控制手機要好得多。在AR環境中,事物可以呈現給你,你可以更快地吸收它們。而且這比直接進入你的大腦更好。它更容易,我認為這將是下一步。我確實認為,最終我們會想要將我們的大腦擴展到雲端。但AR,我認為這是我們從現在到最終目標之間的一個步驟。"
混合現實頭顯和智能眼鏡還遠不能直接與我們的大腦對接,但與越來越多啟動的攝影機和麥克風相連的生成式AI開始感覺像是朝著那個願景邁出的一步。今年,我們可能會看到許多推動這種方法邊界的新實驗。
Google是最新一個致力於將AI融入XR的公司,但Meta已經在探索這個領域。Meta的首席技術官Andrew Bosworth一年多前就告訴我,AI將逐漸更多地融入Meta的眼鏡和Quest VR頭顯中。Meta Reality Labs的首席科學家Michael Abrash長期以來一直將AR眼鏡設想為輔助記憶系統和基於代理的AI介面。Meta的Orion原型眼鏡在去年秋天我體驗時展示了部分這些功能,最新的Ray-Ban正在通過始終啟動的記錄攝影機引入提醒和持續協助功能。
與此同時,VR中的生成式AI目前主要關注創意工具。"我們正在Horizon[Quest頭顯]中從生成式AI開始,用於世界建構、你自己的身份和定製,以及頭像、服裝和配件,還有為這些角色製作動畫,"Meta的Horizon平台負責人Mark Rabkin在去年9月的公司Connect開發者大會上告訴我。但Rabkin認為,VR和AR內部具有視覺感知AI層,就像Android XR的Gemini一樣,是下一個關鍵步驟。"你用Ray-Ban做的幾乎所有事情,最終都可以在元宇宙中做。但要讓它工作,Meta AI需要告訴你關於元宇宙的資訊。"
在2024年底與我最近的一次對話中,Bosworth提到,AI對虛擬事物的識別訓練資料仍然不太好。它更擅長根據照片和視訊的訓練來識別真實世界,這是基於攝影機的眼鏡可以做得更好的事情。隨著Meta的眼鏡從基於語音的裝置發展到帶有螢幕的裝置,它們也可能包含手部追蹤和腕帶式配件。
蘋果現在有了自己的前沿混合現實頭顯,但這款配備多個攝影機的Vision Pro還沒有深度感知的生成式AI層...至少目前還沒有。蘋果正通過去年6月發佈的Apple Intelligence將生成式AI的零碎功能層層融入其手機、iPad和Mac中。作為一款早期採用者的頭顯,Apple Vision Pro尚未獲得Apple Intelligence,但它很可能是下一個。
已經有跡象表明蘋果的混合現實AI可能如何工作。視覺智能剛剛在iPhone上首次亮相,通過按側邊按鈕可以掃描和識別世界上的物體,很像Google的Lens功能。預計蘋果將在今年推出更實惠的Vision Pro版本,可能首次與iPhone連接。如果蘋果已經準備好了,那麼開始加入更多基於攝影機的AI輔助功能是很有意義的。
該領域還有很多其他參與者。Snap在去年秋季推出了面向開發者的獨立Spectacles AR眼鏡,我有機會試用過。它們已經具備一些整合ChatGPT的生成式AI功能。Xreal的最新眼鏡專門為這類未來AI功能配備了可選攝影機。
幾乎所有AR和VR頭顯現在都配備了大量高品質攝影機,這些攝影機已經被用來混合真實世界的視訊流和虛擬覆蓋層以建立混合現實。加入更深層的AI,這些感測器可能成為建立隨時可用的持續代理感知的方式。這些AI層也可能改變應用和遊戲的製作方式。未來的頭顯可能不會長時間停留在一個體驗中,而是更可能同時混合多個體驗,同時由AI幫助管理這一切。
手機也將開始與這些新的頭顯和眼鏡更直接地連接。就像Android XR已經暗示的那樣,預計我們在頭顯上管理這些額外服務的方式將是我們已經使用的手機的延伸。
AI已經在掃描我們的文字、聲音和照片。整合到頭顯和眼鏡中的AI讓我們瞥見了一個世界,在這個世界裡,它們的攝影機將掃描我們的整個生活,或者至少是我們看到的一切。這是一個令人不安的想法。為了讓這一切工作,攝影機需要能夠訪問AI,而公司需要制定權限和隱私功能,使其不會感覺侵入性或侵犯性。
在我的Android XR演示中,感覺Gemini可以看到我在頭顯中做的一切,但也感覺它可以看到我房間裡的一切。微軟Windows PC上的Recall功能因其始終監控你的電腦活動可能會看到私人資料,並暴露人們不想被AI服務分享或瞭解的時刻而面臨反對和擔憂。這種對隱私的擔憂阻止了Meta和蘋果等公司為其混合現實頭顯中的開發者開放攝影機存取權。這些障礙正在消失。Meta正在開放攝影機存取權,蘋果也在這樣做 - 至少首先是針對企業。
Meta的Ray-Ban可以識別很多東西,但有限制。我經常不被允許識別汽車或特定位置或地址 - Meta AI說這違反了隱私條款。有時,用正確的提示,我可以。我不能詢問產品的健康或營養資訊。在我最近使用Gemini的Android XR演示中,我無法嘗試識別同事的臉。
這些AI記憶在那些方面會感覺像是我們自己記憶的延伸,又在那些方面會設定護欄 - 無論是為了我們的隱私還是為了製造AI的公司的法律保護?
我們已經有了可以用各種方式將攝影機與AI連接的手機。一個應用程式或作業系統似乎施加的限制有時可以通過另一個來繞過。
然而,為了讓未來的頭顯和眼鏡真正感覺像是輔助性的並真正瞭解這個世界,它們需要更深入地將AI與攝影機和其他感測器連接起來。2025年我們看到的可能只是冰山一角,但其潛力 - 無論是好的、壞的還是完全怪異和混亂的 - 正在到來。很難想像真正的影響是什麼。
"無論是通過你的眼鏡、手機、帳戶和服務流式傳輸的資料是什麼,你都非常關心。你希望確保擁有這些資料的人是可信的,理想情況下他們擁有的資料儘可能少,儘可能本地化,在伺服器上儘可能限制。另一方面,你真的希望有一個專門瞭解你的AI,"Meta的首席技術官Andrew Bosworth在2024年底通過Zoom告訴我。"我認為我們將從個性化AI中受益良多。我們的個性化AI沒有理由以犧牲隱私為代價。"
但Bosworth認為,在眼鏡、頭顯和任何地方,AI持續訪問你的生活是即將到來的事情的一部分。"我認為作為一個社會,我們會對此感到相當舒服。我很確定消費者需求會非常高。"
與此同時,有很多人在發出警告。Better Offline播客主持人、長期AI炒作周期批評者Ed Zitron說:"當生成式AI面向使用者時,隱私問題要小得多,但當它可以看到其他世界時,問題就來了。那些看到和處理真實世界的應用程式必須被快速監管,否則我們將看到歷史上一些最嚴重的隱私侵犯,以社交網路的規模擴散最糟糕的監視資本主義。"
當我在紐約測試Meta最新的眼鏡即時AI更新時,它可以在我漫步時持續錄製視訊並觀察真實世界,事情正在快速變化這一點從未如此清晰。現在,我和其他人一樣對這一切既驚嘆又困惑又擔憂。 (三次方AIRX)