#智能
蘋果首款智能眼鏡曝光
科技記者馬克•古爾曼在其最新《Power On》簡報中透露,蘋果首款智能眼鏡已進入密集測試階段,該裝置內部代號為N50,至少四種鏡框款式同步推進研發,主打高端設計與奢華材質。關於上市時間,古爾曼表示,該款智能眼鏡預計在2027年上市,有望在今年晚些時候或2027年初發佈,並於2027年春季或夏季正式上市。目前,蘋果設計團隊已完成四種核心鏡框的定型測試,正在最佳化產品細節,力求實現輕量化佩戴體驗與功能實用性的平衡,其樣機重量已控制在50克以內,接近普通光學眼鏡。據其透露,蘋果並未延續其他品牌與眼鏡廠商合作的模式,而是完全自主設計這款智能眼鏡的鏡框,正在測試的四種款式各有側重,以適配不同使用者需求。四種鏡框款式包括大號矩形鏡框,風格類似雷朋Wayfarer系列;更纖細的矩形設計,與蘋果CEO蒂姆•庫剋日常佩戴的眼鏡款式相近;較大的橢圓形或圓形鏡框;更小、更精緻的橢圓形或圓形款式,同時還將提供黑色、海藍色、淺棕色等多種配色選擇。材質方面,蘋果為這款智能眼鏡選用了醋酸纖維這一高端材料,相較於市面上多數品牌使用的標準塑料,這種材料更耐用、更具奢華質感,也符合蘋果打造“標誌性”產品外觀的定位,力求讓智能眼鏡兼具實用性與高端質感,區別於同類競品。據悉,該智能眼鏡並非此前傳聞中的AR眼鏡,而是一款輕量化智能穿戴裝置,功能介於Apple Watch與AirPods之間,需與iPhone深度整合使用,可實現拍照錄影、接聽電話、接收通知、播放音樂等日常功能,還將搭載iOS 27中經過大幅升級的Siri語音助手,支援免提互動與視覺AI互動。這一思路與Meta聯手雷朋推出的智能眼鏡有相似之處——不追求複雜的AR顯示技術,而是聚焦於日常高頻場景的便捷體驗。古爾曼同時透露,這款智能眼鏡是蘋果三管齊下的AI可穿戴裝置戰略的一部分,另外兩款同步推進的產品為新款AirPods和一款配備攝影機的吊墜式裝置,三者將借助電腦視覺技術感知環境,為蘋果的智能互動系統提供支撐。蘋果、華為、阿里等入局 行業有望迎來“示範效應”智能眼鏡是以第一人稱視角拍攝記錄生活、分析生活的穿戴裝置,視作手機之後的下一個物理介面。通過大模型整合到智能眼鏡上,能方便即時語音、文字互動。Counterpoint Research資料顯示,2025年下半年全球智能眼鏡出貨量同比增長139%,其中AI智能眼鏡成為絕對主力,佔總出貨量88%。AI智能眼鏡平均售價從2025年上半年的347美元上漲至360美元。根據IDC最新發佈的報告,2025年全球智能眼鏡市場出貨量1477.3萬台,同比增長44.2%。其中,中國智能眼鏡市場表現尤為突出,2025年中國智能眼鏡市場出貨量246.0萬台,同比增長87.1%,輕量化和AI接入成為標配,為行業從嘗鮮走向普及積蓄了勢能。日前,華為終端BG的CEO何剛通過微博發佈一張帶有“HUAWEI AI Glasses”水印的第一視角圖片,並配文“亮點自尋,敬請期待”,引發市場對於華為AI眼鏡新品的關注。3月2日,阿里巴巴旗下千問的首款AI硬體“千問AI眼鏡”正式上線,開啟線上線下全管道“0元預約”。該產品已在中國市場現貨發售,並計畫於2026年內登陸全球市場。當下,隨著蘋果、華為、阿里等頭部廠商入局首款智能眼鏡,該賽道有望迎來更具引領性的“示範效應”。興業證券最新研報分析了智能AI眼鏡行業現狀與發展趨勢:1)AI眼鏡同質化較為明顯,“iPhone 4”級產品暫未出現。AI眼鏡剛需場景缺乏,多數AI眼鏡的外觀/功能與Ray-Ban Meta差異較小,暫未出現“iPhone 4”等級的產品;2)品牌廠商與供應鏈企業共同推動供應鏈進步。AI眼鏡在輕量化、續航、光波導、微顯示、互動技術和應用生態方面仍有巨大進步空間,AI眼鏡廠商與供應鏈廠商重點加強了在光波導與微顯示研發投資力度;3)輕量化、時尚化趨勢持續加強。AI眼鏡持續減重、提升外觀設計,並通過與傳統眼鏡廠商合作,爭取佩戴體驗與傳統眼鏡形態相近,完成數位單品向時尚電子單品的升級;4)替代智慧型手機暫未可期。AI眼鏡在算力、續航、互動效率等方面距離智慧型手機差距巨大,當前AI眼鏡僅可作為智慧型手機的功能補充,其體驗需高度依賴智慧型手機,其移動終端的定位有賴於供應鏈技術取得巨大突破。 (財聯社)
智元開卷具身智能Agent,「搭積木」式部署機器人應用
人工智慧領域的Agent熱,毫無懸念地燒到了具身智能領域。4月13日,智元(AGIBOT)推出面向具身作業場景的「零程式碼」應用平台——Genie Studio Agent。Genie Studio是智元去年發佈的一站式具身智能模型開發平台,此番在Agent化後,官方稱其從「提供技術能力」走向「應用產品化」,從「單一交付項目」走向「搭建開放生態」:以一站式解決方案,讓機器人部署變得簡單、高效、可複製。圖源:智元具體而言,Genie Studio Agent具備如下四大核心能力:零程式碼上手:將視覺感知、運動控制、導航規劃、VLA模型、強化學習(RL)工具鏈等複雜能力,進行模組化重組,並封裝成可直接呼叫的能力元件,使用者無需輸入複雜程式碼與演算法,即可快速完成作業流程編排;內建模擬運行系統:內建三維場景重建與模擬系統,支援在模擬環境中提前規避風險並驗證路徑;引入真機強化學習:使機器人能在實際作業中通過力控與視覺反饋持續自主最佳化;提供全鏈路監控維運:實現從運行資料監控到異常預警的主動化管理。與之同步,Genie Studio Agent搭載開箱即用的標準化解決方案,在底層技術SDK基礎上,封裝了直觀的可視化介面與豐富的行業場景範本,即使是非工程技術人員也能較為容易配置並部署機器人應用。不難看出,Genie Studio Agent將複雜能力和底層技術進行了「模組化」和「標準化」設定,讓機器人應用部署像「搭積木」一樣簡單,意圖解決具身智能落地過程中門檻高、周期長、複製難等核心痛點。入手了智元機器人的使用者,在Genie Studio Agent平台只需拖曳相應的節點、簡單配置參數,即可通過平台快速建構屬於自己的機器人任務流程,得到專屬的機器人應用。在智元設想中,Genie Studio Agent是一套貫穿機器人全生命周期的軟體基礎設施,而其中最重要的「應用定義權」應該從後端工程師交還給一線場景端。圖源:智元相比個人使用者,行業使用者市場才是人形機器人在當下的主戰場。那麼在複雜工業場景等真實作業環境,Genie Studio Agent的部署是否也可以「輕鬆」落地呢?智元表示,Genie Studio Agent目前已在多個高精度製造場景中完成落地驗證,證明了機器人部署可以通過標準化平台能力,實現更高效的工程化複製。基於Genie Studio Agent,智元此前聯手某頭部半導體封測企業,已成功跑通「晶圓搬運」全流程。而在更具挑戰性的半導體封測場景,智元生態夥伴基於國際領先晶片企業半導體封測場景需求,借助Genie Studio Agent平台,成功完成了Tray盤上下料全流程作業驗證:作業成功率達到99.999%以上,掉盤率低於0.001%,系統平均無故障執行階段間超過168小時。圖源:智元需要指出的是,在發佈Genie Studio Agent前,智元已連續帶來了資料集、模擬平台、基座模型及世界模型領域的多項重要更新。作為全球具身智慧型手機器人銷量冠軍,智元在4月祭出的這一套組合拳,不僅可以加速具身智能在多元工業與商業場景中的規模化落地,也為更多「零程式碼」能力使用者帶來了嘗試和參與的機會。從根本上來說,人形機器人身體需要更加靈活、運動需要更加穩定、大腦需要更加聰明、開發需要更加簡易乃至「傻瓜」。而從個體(不管個人還是行業使用者)參與角度來說,具身智慧型手機器人在應用開發和部署上的全面簡易化和低上手門檻,才是銷量數字中那麼多個0前面最重要的一個1。 (雷科技)
比龍蝦更強?它一夜沖上全球第一! 圖片
最近,Hermes(愛馬仕智能體)橫空出世,上線不到兩個月,GitHub星標突破6.6萬。社區裡有人說:這大概是OpenClaw誕生以來,第一個真正意義上的競爭對手。一時間,朋友圈裡、技術論壇上,到處都是“Hermes愛馬仕真香”、“OpenClaw藥丸(要完)”的聲音。我想潑一盆冷水:Hermes(愛馬仕智能體)火了,但企業不必急著遷移。真正的競爭壁壘來自團隊對工具的使用深度,而非工具本身。看完後你會知道,什麼時候該追新工具,什麼時候該按兵不動。這篇文章,會給3類使用者各一個明確的判斷。更重要的話,我寫在了文章結尾,趕時間的朋友可以直接拉到文末閱讀。下面,我們展開說說。一、Hermes愛馬仕智能體為什麼會火?愛馬仕智能體的五層記憶系統:重新定義了Agent的“智商”。Hermes(愛馬仕智能體)的核心技術,是它的五層記憶系統——工作記憶、語義記憶、情景記憶、過程記憶和集體記憶。這不是花哨的概念,它解決的是一個真實的、讓所有Agent框架使用者頭疼的問題:長對話後,Agent開始“失憶”,上下文越多,智商越低。傳統解法是給Agent喂更多的上下文。上下文窗口越開越大,Token(詞元)費用越燒越多,但效果卻越來越差。Hermes(愛馬仕智能體)的解法不同:不給Agent更多的記憶,而是讓Agent學會“復盤”。每次任務完成後,系統自動復盤:那裡做對了,那裡繞了彎路,為什麼某個策略沒有生效。把這些經驗壓縮成可復用的Skill(技能),下次遇到同類任務,直接走捷徑,不再從零推理。這意味著:Agent的進步,不需要靠更大的模型,靠的是“經驗積累”。這才是正確的方向。什麼人可以立刻上Hermes(愛馬仕智能體),不用等?第一種,你正在選Agent框架,本來就要花時間搭,Hermes(愛馬仕智能體)的記憶系統是更先進的方向,現在直接用Hermes(愛馬仕智能體)等於站在更高的起點上。第二種,你的核心痛點就是長對話失憶,用OpenClaw(龍蝦)時80%的問題都是上下文混亂、記憶丟失,遷移到Hermes(愛馬仕智能體)能直接解決你的核心問題,這筆帳算得過來。第三種,你是個人或小團隊,沒有複雜的歷史工作流包袱,試錯成本幾乎為零,玩一玩沒損失,真踩坑了自己消化。除了這3類人,其他已經跑通OpenClaw(龍蝦)工作流的企業級團隊,我都建議你再等等。二、OpenClaw(龍蝦)沒有死,它在加速進化外部衝擊,真的動搖了OpenClaw(龍蝦)的根基嗎?判斷一個框架有沒有前途,從來不是看它有沒有被封禁、被唱衰。而是看三個指標:它的核心能力有沒有人在真正需要?它的社區還在不在活躍?它的團隊還在不在迭代?答案是:都在。OpenClaw的核心能力,是把AI能力封裝成一套可本地部署、可自訂工作流的Agent執行系統。這個需求,沒有因為一次衝擊而消失。真正讓一個框架走向衰落的,從來不是競爭對手,而是它自己停止迭代。OpenClaw的核心槽點,圈內早有共識:記憶系統容易崩潰,長對話後上下文丟失,記憶檔案越滾越大。這是真實痛點,承認就行。但這不代表框架要死。讓我們看看資料:據GitHub公開的提交記錄,2026年第一季度,OpenClaw(龍蝦)在記憶管理模組的程式碼提交量,就超過了過去半年的總和。每次更新,都在針對性修補記憶碎片化、上下文溢出等問題。這不是修修補補。這是系統性的迭代。這說明團隊知道問題在那裡,也知道怎麼修。一個框架被真正拋棄的標誌是什麼?沒有人再關心它。沒有人再提Bug。沒有人再提需求。沒有人再罵它。而OpenClaw現在的情況恰恰相反:罵得越多,迭代越快。GitHub上的Issue(問題清單)列表在持續更新,官方文件在持續修訂,Skills生態的貢獻者在持續增長。這才是判斷框架生命力的真正指標。這和人的成長規律一樣:被罵醒,往往是進步的開始。從歷史經驗看,這種外部競爭倒逼內部迭代,往往是一個框架走向成熟的加速器。三、遷移的成本,遠比你想像的高這是本文最核心的方法論之一。很多人換工具的理由很簡單:新的更強。這個判斷在邏輯上成立,但在現實中漏掉了最關鍵的一個變數:切換成本。我們來做一個簡單的盤點:你的團隊花了多少時間,才把OpenClaw配置到今天這個狀態?Skills指令碼寫了多少行?自訂的MCP(模型上下文協議)服務接了幾個?Prompt(提示詞)記憶體系裡積累了多少關於團隊工作方式的上下文?自動化工作流跑了多久才穩定下來的?MCP服務,全稱是Model Context Protocol,即模型上下文協議,是讓Agent與外部工具無縫協作的標準化介面。這套體系一旦建立,就成了團隊工作流的核心血管。這些東西,不是天上掉的。是時間和精力堆出來的。是踩過坑、調過錯、熬過夜之後,一點一點磨出來的。而換到Hermes(愛馬仕智能體),這一切都要重新來過。環境變數要重配,MCP服務要重調,工具集邏輯要重新理解。Hermes(愛馬仕智能體)內建的一些Skill(技能)目前還存在詭異的Bug。對於企業級團隊來說,排雷是需要時間的,業務等不起。你的團隊好不容易磨合出了一套工作節奏,大家知道怎麼用龍蝦處理需求,知道那些坑踩過、怎麼繞過去,知道在什麼場景下該用什麼工具組合效率最高,知道什麼任務丟給AI,什麼任務必須人來做。現在突然換工具,團隊進入“新手模式”。每個人都要重新學,效率打七折甚至五折。每一個工具,不只是一個執行層,它還是一個認知層。你用OpenClaw(龍蝦)積累的,不只是“怎麼用這個工具”,還有一整套思維方式:如何拆解問題、如何設計Agent工作流、如何判斷AI輸出質量、如何設計Prompt(提示詞)策略、如何建立團隊協作規範。換工具,思維框架要跟著重建。團隊從“能用一款新工具”到“真正用好一款新工具”,平均需要三到六個月。而從“用好”到“積累出獨特優勢”,則需要更長的時間。而在這三到六個月裡,你的競爭對手可能早就在原來的工具上跑得更遠了。四、AI時代,真正的護城河不是工具說到這兒,我想把視角拉遠一點,聊一個更根本的問題。AI時代,企業真正的護城河,到底是什麼?很多人以為,護城河是“我有某套別人不會的工具”,或者“我們用了某款最新的AI模型”,或者“我們團隊掌握了一套獨門工作流”。但我想說:AI的出現,正在系統性地消除這種工具型護城河。原因很簡單:你今天花三個月研究出來的OpenClaw(龍蝦)獨門用法,可能很快被一篇技術部落格完整公開,然後成為Skills(技能)市場裡的一個標準化範本。任何有學習能力的人,兩周內就能複製你的工作流。真正被AI弱化的,不是你的技術,而是你靠資訊差和工具差建立的競爭壁壘。這是正在發生的結構性變化。與其追工具,不如追“用工具的能力”。前者是流沙,後者是磐石。企業架構更高效、用的工具更順手,這才是AI時代的競爭優勢所在。讓我們做一個思想實驗:兩個企業擺在面前。A企業和B企業。同樣的啟動時間,同樣的資源投入。A企業:技術團隊嗅覺敏銳,永遠在追最新工具。ChatGPT出來了,第一時間研究;Claude發佈新版本,第一時間接入;OpenClaw(龍蝦)火的時候,第一批部署;Hermes(愛馬仕智能體)出來後,核心團隊立刻開干“遷移方案”。永遠在追,永遠在折騰,永遠在新手期。具體來看,A企業團隊每年花在“學新工具”上的時間不少:換一次工具,就要重新寫指令碼、調Prompt(提示詞)、建規範。最終每一套的積累,都只停留在了“能用”的層面。B企業:同樣面對工具爆炸的現實,但做了一個不同的選擇,不追熱點,但把自己手裡的工具用到極致。團隊積累數百個高品質Skills(技能),形成了多套完整Agent工作流,覆蓋從需求分析到文件輸出的全鏈路。每個成員對工具的理解,已從“會用”升級到“用得好”,他們知道什麼任務適合那種工具組合,知道什麼場景AI輸出質量會下降,知道怎麼設計Prompt(提示詞)讓AI的輸出穩定可控。半年、一年、兩年後,那個企業的AI應用能力更強?答案是明擺著的。工具本身沒有壁壘,你和團隊在工具上積累的深度理解和使用習慣,才是真正的壁壘。五、接下來3個月,我給你的建議面對Hermes(愛馬仕智能體)的崛起,先說結論:關注它,學習它,思考它,但目前階段,不必急於遷移。1.給OpenClaw三到六個月OpenClaw(龍蝦)的團隊已經被競爭倒逼,迭代在加速。記憶系統的問題已經進入修復快車道,這是可以預見的。等它系統性修復到位,等Skills(技能)生態進一步成熟,屆時再做評估,不遲。更重要的是:OpenClaw(龍蝦)的Skills生態,已經積累了相當數量的垂直領域工具。每一次大版本更新,Skills數量都在穩定增長,這是社區共同投入的結果,而非一人之力。這個生態優勢,不是Hermes(愛馬仕智能體)三個月能追上的。2.給Hermes三到六個月它的方向是對的,但企業級穩定性需要時間驗證。等社區把Bug排得差不多,等配置遷移真正做到“無感”,再上車也不遲。更值得關注的是它的設計哲學,Hermes在思考一個核心問題:當Agent越來越複雜,如何讓它不依賴越來越大的上下文窗口,而是通過“學會反思”來提升能力?“追工具派”最隱蔽的陷阱是:永遠在學習,永遠在遷移,永遠在付出切換成本,永遠沒有積累。更可怕的是,當團隊習慣了“遇到新工具就換”,他們就不再有耐心把任何一個系統打磨到極致。好的執行,需要深度。而深度,需要時間。結語關於工具,更關於你自己AI時代,工具會變,真正有掌控力的人,是那些想清楚“什麼東西不變”,然後把時間花在那上面的人。你判斷問題的眼光,不會變。你面對不確定性時的決策質量,不會變。這些東西,Hermes替代不了。OpenClaw替代不了。任何工具都替代不了。這種決策能力,不是天生的,是可以訓練的。 (筆記俠)
阿里首提智能體經濟,在全球AI競爭顯鋒芒!
行家一出手,便知有沒有!自AI問世以來,已成中美科技必爭之地,誰能笑到最後,關鍵還是要看應用!在這方面,矽谷那邊的公司一直想打通AI+消費這條路,但缺乏穩固的生態和龐大的應用場景,一直流於形式,還未實踐。而阿里在春節期間取得了千問辦事的成功之後,在新財年的首次集團戰略會上,阿里正式提出,要全力推進以千問為代表的智能體經濟。1. 什麼是“智能體經濟”?對普通人有什麼意義?“智能體經濟”簡單來說,就是通過AI這個技術載體來推動更好的消費,也就是很多官媒說的“AI+消費”!這玩意對普通人來說,有三好!一好為:方便。比如以前點外賣,得自己去外賣軟體上一個個找,現在一句話就能搞定;以前買電影票,選座位得研究一下,現在交給千問按需訂票。可以這麼說,過去很複雜的消費流程,現在一句話就能辦完,給誰誰能不喜歡?二好為:創造新的機會。往前翻個20年,就能發現每一次技術革新,除了會為行業帶來新變化以外,也會創造新的機會。比如當年的電商,讓很多人從個體戶變成了小老闆;10年前左右的自媒體,催生了現在的網紅經濟;那麼如今阿里的智能體經濟要發展,必然也會衍生出一系列的工作崗位,現在能想到的就是營運、設計、AI訓練師之類的工作,往後發展這方面人才缺口勢必會放大,普通人只要抓住機會,很有可能直接改變命運。三好為:技術普惠這個怎麼理解呢?以老年人為例。很多上了年紀的老人。對於智慧型手機用的並不熟練。一個人在家想點個外賣,都搞不明白。但在千問智能體經濟的技術普惠下,老年人也能一句話搞定外賣,體驗到年輕人的生活方式。網際網路的浪潮奔湧向前,阿里通過技術普惠,讓銀髮一族也能緊跟時代的步伐,這既是社會責任的體現,也是技術便利每一個日的最好寫照!2. 為什麼阿里是第一個提出此概念的公司?因為只有阿里具備這些條件!這個智能體經濟兩大要素,過人的技術,優秀的生態。而這兩方面,不管是那個條件,阿里都是王中王、頂中頂!論技術,阿里從模型到GPU晶片都是行業頂尖。最新模型Qwen 3.6 Plus一經發佈,單日呼叫量突破1兆Token的模型,問鼎全球大模型周呼叫量冠軍,究其原因,是因為它是國產程式設計模型技術能力的天花板。上周的時候,在AI視訊生成領域,由阿里巴巴內部孵化的模型HappyHorse-1.0,登頂Artificial Analysis排行榜。這個大模型有多牛?它在文字生成視訊、圖片生成視訊等四大核心賽道中全面領先。這也能證明,阿里在AI領域持續投入是有結果,同時,阿里在多模態大模型領域技術積累也非常的雄厚。平頭哥自研GPU也已實現規模化量產,截至26年2月已累計交付47萬片。AI技術,大模型是基礎,GPU是運轉的關鍵,兩大技術阿里全都有,並且全都硬,為智能體經濟提供了堅實的保障。論生態,阿里積累了20多年的網際網路商業、消費經驗,旗下擁有淘寶、閃購、高德、飛豬等覆蓋人們吃喝住行娛一體的生態產品,並且還這些產品還和千問全部打通,這也就將阿里的生態優勢賦能到了AI應用端。為了集中力量辦大事,4月8日的時候,阿里還進行了組織架構調整,新設立了阿里巴巴集團技術委員會,吳泳銘任組長,周靖人擔任首席AI架構師,整合優勢資源,投入到智能體經濟戰略當中來。3. 總結阿里今天提出智能體經濟,是其科技實力的體現,也是生態經營多年的結果。這大概也就是此前美國知名科技商業媒體The Information發報導稱:“阿里巴巴在AI辦事領域的進展快於亞馬遜和 OpenAI。”的原因所在! (梁穩健)
華為殺入!這種新機要爆了
智能眼鏡「第二股」花落誰家?2026 年 4 月初,專注於 AR 眼鏡的中國品牌 XREAL 向港交所提交了招股書,成為了真正意義上的智能眼鏡第一股,也再一次點燃了智能眼鏡 IPO 這個話題。比如在 4 月 7 日,南華早報引述知情人士消息,稱「Rokid 正準備最早於 4 月底申請在港交所上市」。不過很快,Rokid 創始人、CEO 祝銘明在回應媒體採訪時闢謠,稱 Rokid 只是重組改制,並強調「Rokid 現在彈藥儲備非常充足」。他還提到「目前我精力集中打造今年新品,其他(事情)的確不在我優先順序裡」,至此,關於 Rokid 即將 IPO 的「烏龍」告一段落。圖片來源:Rokid從行業的角度看,中國智能眼鏡三大獨立品牌(XREAL、Rokid、Rayneo)也確實都走到了可以 IPO 的這一步:XREAL 在月初遞招股書,而 Rayneo 也在公開招聘「具備成功上市經驗」的投資人總監;再加上 2026 年初來自移動、聯通的 10 億元等級的融資,雷科技(ID:Leikeji)認為 Rayneo 的 IPO 計畫應該也「箭在弦上、蓄勢待發」了。但問題是,2026 年的智能眼鏡市場有何特殊?為什麼大家都希望在 2026 這個關鍵時間點準備 IPO 呢?2026 為何成為智能眼鏡「IPO 元年」?在雷科技看來,2026 年之所以成為智能眼鏡的「IPO 元年」,這也和智能眼鏡市場當前所處的發展階段,以及使用者對智能眼鏡的接受程度有關。從 2014 年 Google Glass 開始銷售(發佈於 2012 年)開始算,智能眼鏡品類已經度過了 12 個年頭了。經歷了 12 年的市場沉澱和技術迭代,2026 年的消費者對智能眼鏡的看法早已從曾經的「極客玩物」變成了「大眾消費品」。Google Glass 曾經也是國內科技數位圈的市場單品。圖片來源:Google舉個例子,2012 年 Google Glass 剛剛亮相時,儘管這款產品實用性還不如小米手環,但整個矽谷依舊「為此瘋狂」。甚至在大洋彼岸的中國,科技博主也都爭先恐後地把自己微博頭像換成戴著 Google Glass 的自拍照。當時,沒人在意 Google Glass 能做什麼——你能拿到 Google Glass,那你在科技數位圈的「咖位」就得到了保證;但對一般人來說,Google Glass 並不具備任何實用意義。而在剛剛過去的 2025 年,智能眼鏡的身份已經迎來了天翻地覆的變化:在 Rayneo V3、Rokid AI 眼鏡、小米 AI 眼鏡等明星產品的「攻勢」下,智能眼鏡在國內迅速出圈——上周末雷科技參加賽道日活動,發現不少對科技數位完全不瞭解的車友,已經在用智能眼鏡拍攝試駕視訊了。可以說,消費者對智能眼鏡心中對智能眼鏡「智商稅」的刻板印象早已摘掉了,AGI 技術的爆發也為智能眼鏡提供了全新的市場增長點,品牌接下來要做的,就是讓自己的產品在智能眼鏡市場中脫穎而出,讓消費者一眼能看到。想讓產品脫穎而出,品牌必須大力推動智能眼鏡的技術革新,同時儘可能將相關技術專利共治在自己手裡,而這一切都需要大量的錢。可能很多人沒有意識到,智能眼鏡是一個極其燒錢的賽道:超小光機、波導鏡片、空間感知演算法、高密度電池,甚至連智能眼鏡揚聲器的「防漏音」技術,背後都需要大量的「前期成本」。圖片來源:XREAL以智能眼鏡三大獨立品牌中率先遞表的 XREAL 為例,根據招股書的資料:2023 年 XREAL 的研發開支高達 2.16 億元,毛利率只有 18.8%;到了 2025 年,XREAL 的研發開支仍有 1.83 億元,三年累計虧損超過 20 億元。招股書還提到,2025 年末時 XREAL 帳上「現金」只剩下 6363 萬元。帳上捉襟見肘,但要花錢的地方卻一點不少:根據高通產品更新的節奏和當前市場迭代的速度,雷科技認為高通很有可能會在 2026 年的驍龍峰會上發佈新一代的智能眼鏡晶片。新晶片不僅宣告著 AR1 時代的終結,同時也意味著智能眼鏡品類將迎來「第二階段」競爭。智能眼鏡品牌也必須提前準備好「彈藥」,搶佔 2027 的智能眼鏡市場。而當前智能眼鏡的頭部玩家中:Meta、小米本身就是大型上市集團,智能眼鏡業務在龐大的集團面前「不值一提」;千問雖然是獨立品牌,但仍屬於阿里巴巴,短期內不可能獨立上市;INMO 和界環體量太小,還沒到需要 IPO 的地步;星紀魅族則「自身難保」,有著大的「火」要救。圖片來源:Rayneo再聯絡到 Rayneo 雙線作戰、同時涉足 AR 眼鏡和 AI 眼鏡背後極高的研發成本,在雷科技看來,Rayneo 很可能會成為智能眼鏡的「第二股」。大廠搞「軍備競賽」,小廠第一波遭殃不過從另一個角度看,智能眼鏡迎來「IPO 元年」、各品牌陸續「養精蓄銳」,這也意味著智能眼鏡市場的競爭即將到達新的「巔峰」。而隨著「巔峰賽」開打,這幾年線上上市場以性價比取勝的智能眼鏡「萌新」,他們的好日子也將迎來終結。國內市場裡,XREAL、Rokid、Rayneo 為代表的獨立品牌正在持續迭代核心能力;小米、魅族為代表的手機品牌也充分利用其在 AI、生態互聯方面的優勢,以技術門檻更低的「拍攝 AI 眼鏡」賽道搶佔市場;就連華為也預告將在 4 月 20 日的 Pura 及全場景新品發佈會上發佈智能眼鏡產品。論技術和資金,小品牌們比不過 XREAL、Rokid、Rayneo 等頭部品牌;論生態和體驗,小品牌也不可能比得過小米、千問、華為等「背靠大樹」「自有生態」的「新勢力」。圖片來源:華為一般來說,碰到國內全是「卷王」的情況,雷科技會建議智能眼鏡品牌「出海試試」。但在海外智能眼鏡市場,Meta 的統治力更是難以忽視:憑藉於 Ray-Ban、Oakley 等海外知名頭部眼鏡品牌合作,Meta 已經憑藉單一品牌完成了「全眼鏡生態」的市場覆蓋:從日常墨鏡到運動眼鏡,再到為近視使用者打造的日常眼鏡,「Meta」生態應有盡有。國內小品牌想出海做眼鏡,同樣機會渺茫。圖片來源:Meta當然了,機會渺茫也不等於沒有機會,受限於 AR1 架構的高功耗,雷科技認為 2026 年的智能眼鏡品類,多多少少還是會被電池續航「拖後腿」。有痛點就意味著有市場——針對續航時間這一痛點,界環、BleeqUp 等品牌都拿出了自己的長續航智能眼鏡產品,在主流市場的「軍備競賽」之外生根發芽。智能眼鏡的「期末考」其實在 2027 年在雷科技看來,2026、2027 年智能眼鏡市場的主流發展方向,應會以「全功能」「AI 化」「生態化」為關鍵詞。硬體層面,在高通的新移動平台發佈之前,2026 的智能眼鏡品類很難在算力方面迎來大的變化,真正具有「革命性升級」的新品,很可能要等到 2027 年的 CES 才會亮相。因此,雷科技認為攝影機、成像質量(包括光波導光機和 Micro OLED 顯示)和電池的升級,會是 2026 年主流智能眼鏡品牌發力的重點。而在 AI 與生態方面,智能眼鏡品牌肯定會繼續發力眼鏡的多模態輸入能力:打通後端網際網路生態,基於現有的「攝影機+光波導+開放式揚聲器」的硬體,開發出更豐富的眼鏡使用場景。現在已經很成熟的「拍照掃碼支付」在雷科技看來,就是智能眼鏡品牌基於後端能力開發新功能的最好榜樣。歸根結底,2026 年之所以被叫做智能眼鏡「IPO 元年」,是因為智能眼鏡品牌要為 2027 年的市場競爭新階段「養精蓄銳」。經過 2025 年的沉澱,除蘋果外的智能眼鏡「玩家」已經悉數進場。而根據爆料,蘋果也將在 2027 年發佈自己的智能眼鏡產品。智能眼鏡的「iPhone 時刻」已經進入倒計時,現有的智能眼鏡品牌們確實該做準備了。 (雷科技)
世紀城最美地標288米極氪總部實景拍攝!
世紀城核心區最美地標288米極氪總部望朝中心極氪大廈日&夜景實景圖極氪大廈(望朝中心)位於杭州市蕭山區錢江世紀城類股,緊鄰市心北路,迎接著由慶春隧道和盈豐路,由1棟57層的塔樓、1棟10層的配套用房組成,高層塔樓位於基地西北側。項目剖面圖項目立面圖塔樓建築高度288米,是錢江世紀城目前第2高的摩天大樓,亦是重要地標建築。極氪大廈內透夜景實景圖望朝中心目前是極氪汽車總部所在,極氪汽車租下了23樓以上的全部樓層,總面積達5.9萬平方米,從此望朝中心被冠名為極氪大廈。是極氪大廈內透夜景實景圖到了晚上極氪總部透出全內透燈光,展現杭州國際化大都市繁華景象。項目效果圖項目現場實景圖望朝中心由SOM建築事務所負責設計,塔樓造型獨特,靈感源於火焰“直聳入天”,流線型曲面卻取自江南水鄉之意,沿著脈動的曲線向雲端升騰,彷彿在不斷流動。使用簡明的建築語言,用八根向外傾斜的巨型柱子形成為了主要結構,將主塔樓的形態勾勒出來,建築主體高峻挺拔,升騰的曲線讓人聯想到直衝天際的火焰,盡顯建築的力量感和雕塑感。望朝中心八根巨型角柱拔地而起,不僅構成了建築的骨架,更是結構設計的核心。這些角柱與中央混凝土核心筒協同工作,有效抵抗地震力和風荷載,展現了建築與結構一體化的卓越性能,既體現了建築外形的柔美,又彰顯了結構設計的力量感。巨柱沿塔樓造型傾斜,雖然每兩根巨柱只是相互靠近而不匯聚於一點,但是它們起到了巨型斜撐的作用,從而提高了結構設計的側向剛度,也提高了塔樓整體抗震性能。項目採用了巨柱邊隱藏式百葉的設計,既滿足了避難層裝置要求,也可以在辦公層作為租戶手動打開的通風口,巧妙地解決了超高層建築避難層立面不統一的難題,也更清晰地勾勒了建築線條。望朝中心擁有高流動性且無障礙友好性的首層設計,行人可以在佈滿花池和綠植的寧靜公共空間與建築之間穿行。大堂實景高達12.6米的超大跨度無柱藝術大堂,超透玻璃幕牆圍繞著首層大堂,讓大理石包裹的核心筒區域成為公共空間中的視覺焦點。SOM建築事務所是全球眾多地標的締造者之一,在中國,他們設計的天津周大福金融中心、南京紫峰大廈、上海金茂大廈等多座超400米的超高層建築,都成為了城市的地標性建築。望朝中心的設計同樣彰顯了SOM在設計上的獨特視角和創新精神。望朝中心在考慮了生態節能、辦公採光、景觀視線等綜合要求的基礎上,致力於實現中國綠色建築要求,並獲得了LEED金級認證。望朝中心同時獲得了2024年度CTBUH最佳高層建築獎(亞洲地區)。項目名稱:極氪大廈(望朝中心)項目位置:浙江省杭州市蕭山區錢江世紀城市心北路與盈豐路交匯處發展商:浙江誠稻置業有限公司建築高度:288米建築層數:57層設計公司:SOM (摩天漢)
重磅開源!240億參數力壓Nano Banana 2
當多數圖像AI還停留在「會生成、不會懂空間」的階段,京東開源JoyAI-Image-Edit,把圖像編輯從平面修圖推向空間智能,也讓外界第一次看清:京東的AI佈局,從來不是追風口,而是死磕自己最有勝算的真實場景。這一刻,圖像AI升維了!過去兩年,我們見過太多「神級」圖像模型——畫貓比真貓還毛茸茸,畫賽博朋克街道比電影還炫,畫一隻手有六根手指也能讓你覺得是藝術。Grok生成的AI圖像所有人都以為,圖像AI已經快到頭了。直到你真的上手用它幹點正經事——想換個角度看看自家客廳?透視關係瞬間崩塌,沙發像在漂浮,落地燈穿牆而過。想把前景的蘋果和後面的書調一下前後順序?遮擋關係直接錯亂,比例全面失衡,畫面宛如一場災難現場。你氣不氣?你崩不崩潰?它們會畫畫,卻不懂空間。它們能生成驚豔的像素,卻看不懂像素背後那個立體的、有前後、有深度、有光影邏輯的真實世界。它們是熟練的「平面裱糊匠」,卻不是懂事的「空間觀察者」。這道檻兒,橫在圖像AI面前。誰來邁?JoyAI-Image-Edit把「空間智能」刻進骨子裡的開源模型4月初,京東探索研究院正式對外開源自研的JoyAI-Image-Edit圖像模型。程式碼已經放在GitHub上,以Apache 2.0協議釋出,推理程式碼全部開放,開發者可以直接拿去做應用。目前,系統已完成對ComfyUI的支援,並全面相容Diffusers格式的模型權重與推理流程,方便開發者進行靈活部署與二次開發。連結:https://github.com/jd-opensource/JoyAI-Image體驗地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space開源權重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit這是一件大事。因為它不是又一個「更好用的AI修圖工具」,而是業內首個把「空間智能」寫進模型架構底層的開源一體化圖像模型,讓模型真正「理解空間,編輯空間」。野心就寫在標題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》,直譯過來就是「在統一的多模態理解與生成中,喚醒空間智能」。技術上,JoyAI-Image把一個80億參數的多模態語言模型(MLLM)和一個160億參數的多模態擴散Transformer(MMDiT)耦合在一起,形成一個共享介面,讓空間意圖從指令解析一路貫穿到圖像生成。更關鍵的是它背後的資料和訓練哲學:一條可擴展的資料流水線,包含空間理解資料(OpenSpatial)、長文字渲染資料、編輯資料(SpatialEdit),再加上多階段的最佳化策略。這套架構的精髓在那?在於「理解」和「生成」第一次形成了真正的閉環。過去的圖像模型,理解歸理解、生成歸生成,兩邊各玩各的。而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環協作:更強的空間理解讓生成和編輯更可控,而視角變換這類生成操作又反過來為空間推理提供新的證據。JoyAI-Image在圖像理解、合成與編輯方面均展現了全面領先的能力說人話就是:模型一邊「看」一邊「畫」,一邊「畫」又幫它看得更清楚。這才是真正意義上的空間智能覺醒。落到具體能力上,JoyAI-Image支援三種空間編輯提示範式:物體移動(Object Move)、物體旋轉(Object Rotation)和相機控制(Camera Control)。第一,相機控制。你可以用一句大白話告訴它——「把相機往右偏30度,往下俯15度,再拉近一點」——模型會在保持場景幾何一致性的前提下,給你生成一張全新視角的圖像,透視關係、遮擋關係、光影關係全都對得上。編輯指令:Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.編輯指令:Move the camera.Camera rotation: Yaw -45.0°, Pitch 22.5°.Camera zoom: unchanged.Keep the 3D scene static; only change the viewpoint.第二,物體旋轉與空間漫遊。支援連續的視角移動,能生成一整串邏輯連貫的多視角圖像序列。什麼意思?就好像你戴著一台虛擬相機,真的在這個三維場景裡「走動」,每一幀都立得住。編輯指令:Rotate the sneaker to show the front view.編輯指令:rotate the girl to show the rear left side view.編輯指令:rotate the elephant to show the front view.第三,物體空間關係操控。挪動、旋轉、縮放畫面中的任何一個物體,場景整體結構保持穩定,遮擋自然合理,光影過渡順滑,不會再出現變形、錯位、比例失衡那些老毛病。編輯指令:Move the coffee into the red box編輯指令:move the red car into the red box, remove the red box, remove the red car這種空間編輯能力帶來很多有趣的新玩法──給定第一幀(上圖)後,你利用空間編輯能力生成視訊的最後一幀(下圖)。然後,由視訊生成模型在兩者之間建立平滑的旋轉過渡,還能保持背景的一致性。更硬核的是橫評。和Qwen-Image-Edit、Nano Banana Pro相比,JoyAI-Image-Edit能夠忠實執行相機運動,合成最具診斷性的新視角,這些高保真的新視角有效地消除了複雜空間關係的歧義。同樣讓模型「換個角度看世界」,別人換出來的畫面或許能看,但JoyAI-Image-Edit換出來的畫面,是真的對,這對於把模型投入真實生產和應用環境來說至關重要。與此同時,它還全面相容15類通用編輯能力——替換、刪除、加入、風格遷移、細節精修、長文字渲染,樣樣拿得出手;尤其在空間推理、長文字渲染以及空間可控操作上表現尤為出色。比如,輸入一行指令就給小貓戴上皇冠。或者將行人從圖片中移走。長文字渲染更是拿手。頂尖的空間編輯×全面的通用編輯,這是真正的「文武雙全」。為什麼是電商和具身?一個模型的價值,不在跑分,而在用在那。JoyAI-Image-Edit最能發揮威力的兩個戰場,一個是電商,一個是具身智能——恰好都是京東的主場。做電商的品牌客戶,是對空間編輯最飢渴的使用者。一件商品拍進來,要換背景、換角度、換搭配、換場景、換光線。過去這些活兒要麼靠攝影師重拍,要麼靠設計師通宵P圖,要麼靠AI生成一堆「塑料感」假圖。有了JoyAI-Image-Edit,一張主圖可以自動衍生出幾十種視角和場景,商品還是那個商品,形象保持一致,細節不穿幫,成本直接砍到腳踝。對於服務著數百萬商家的京東來說,這不是錦上添花,這是水和電。具身智能的場景,則是空間理解最硬的剛需。機器人要在真實世界裡幹活,第一件事就是「看懂」空間——那是桌子、那是椅子、杯子離我多遠、我伸手能不能夠到。空間理解能力,就是機器人「理解世界」的核心底座。而機器人行業的卡脖子問題是「資料」,如何能生產海量供機器人訓練的資料,光靠本體採集、遙操是不夠的,這時候JoyAI-Image-Edit能派上很大用場。在具身智能的實測演示中,使用者只需輸入一句自然語言提示詞(比如「機器人左手舉起來」),並用畫框框選目標區域,就能對指定物體的動作、姿態和旋轉角度進行精細化操控.在機器人做家務的實拍場景裡,模型完整保留了背景環境、物體空間關係與物理合理性,生成了機器人抬手的全新姿態。這已經不是「修圖」,這是給機器人預演動作,也給機器人走進生活提供了大量優質的資料養料。現在,京東正在將AI能力融入其「超級供應鏈」。把空間智能的鑰匙交給所有人這一次,京東選擇了Apache2.0協議開源,任何開發者、任何企業都可以自由地使用、修改、商用這個模型。這件事的份量比想像中要重。因為空間智能是通往AGI的「最後一公里」——一個AI如果連物體在空間中的位置關係都搞不清楚,談何理解世界?而把這樣一個在空間一致性上達到世界一流水準的模型徹底開源,等於把一把關鍵鑰匙交到了整個社區手裡。對電商從業者,它是成本殺手;對設計師,它是隨身的三維助手;對機器人團隊,它是視覺感知的現成底座;對學術研究者,它是可以站在上面繼續往前走的巨人肩膀。更重要的是,它讓空間智能這件事,不再是少數幾家閉源巨頭的專利。不追風口,只押自己最懂的場景這兩年大廠卷AI捲得飛起,參數比大小、榜單比名次、發佈會比排場,每個人都想成為下一個OpenAI。但京東的節奏一直挺「穩」——不湊熱鬧,不跟風,它的AI佈局始終死死咬住一條主線:聚焦自己最懂、最具稟賦的實體場景,把AI扎到產業最深處。過去一段時間,京東在AI上的動作密集得驚人:開源基礎大模型JoyAI-LLM Flash,用基於「纖維叢」理論的FiberPO強化學習方法,在19個權威基準上躋身一梯隊;京東雲「龍蝦」系列產品上線後,一周token呼叫量環比暴漲455%;數字人JoyStreamer性能超越國際SOTA,覆蓋電商直播、文旅講解、新聞主播20多個場景;JoyInside附身智能已經深度接入近百個家電家居品牌、40多個機器人與AI玩具品牌,接入後帶動硬體對話輪次平均提升120%;更猛的是,京東宣佈要建全球規模最大、場景最全的具身智能資料採集中心,兩年內攢下超過1000萬小時真實場景資料,動員數十萬人搞「人類史上最大的資料採集行動」。看懂這份清單,你就看懂了京東的AI邏輯:零售、物流、工業、健康、具身——每一步都踩在自己的供應鏈和場景資源上。別人在雲端打參數戰,京東在地上打場景戰。別人在比誰的模型更聰明,京東在比誰的AI更能幹活、更能賺錢、更能落地。而這一次開放原始碼的JoyAI-Image-Edit,正是這套打法的最新一塊拼圖。京東的打法也給整個行業提了個醒:AI的競爭,終究不是參數的競爭,而是場景的競爭、落地的競爭、價值的競爭。誰最懂自己的主場,誰就能把AI真正用起來。零售、物流、工業、具身——京東把AI扎進了自己最肥沃的那幾畝地,然後讓種子在產業的土壤裡發芽。屬於空間智能的時代,才剛剛開始。 (新智元)
中國具身模型狂攬全球第一!機器人的人類資料時代來了
還得是這屆00後,強得可怕!一出手,具身智能就被“整頓”得底朝天。當別人還在Sim2Real打轉時,這支00後帶隊的靈初智能,已經開始用近10萬小時人類資料暴力拆解。這個數字就是放到整個行業裡看,也是遙遙領先。畢竟目前人類運算元據集大多還都集中在幾千到幾萬小時量級,最大的也不過是輝達的EgoScale,包含2萬小時人類第一視角視訊資料。靈初這次直接上了個新台階,10萬+資料,其中1000小時還開源。而且發佈形式也夠潮——直播show time~AI博主弗蘭克和靈初智能的00後聯合創始人陳源培,直接手把手給你剖析的那種。(techblog指路:https://www.psibot.ai/from-human-skill-to-robotic-mastery/)言而總之,整場直播我們復盤下來,就講兩件事:給具身智能喂什麼吃、讓具身智能長什麼樣的腦子。說人話就是,靈初給的,是一條與眾不同的務實路徑——不整虛的,直接對齊人類資料,再用Psi-R2和Psi-W0雙系統架構平穩落地具體場景。結果也很直觀,靈初Psi-R2迅速登頂MolmoSpace榜單。MolmoSpace由美國艾倫人工智慧研究所(AllenAI)發起,是全球具身智能領域權威基準評測平台,NVIDIA、PI等全球頂尖團隊均參與本次評測。而靈初Psi-R2在評測中一舉超越PI、DreamZero等國際知名模型,表現也顯著優於其他基線模型,妥妥的行業第一梯隊。在成功率這塊,也比同類VLA模型要高出近10倍。情況就是這麼個情況,靈初一來就整了個大活,具身智能終於迎來首個直接能用的大規模人類手部操作全模態資料集。下面就讓我們回到直播間現場,一一復盤拆解。10萬小時,讓具身智能吃個頂飽“為何偏偏具身智能會資料荒?”弗蘭克化身觀眾嘴替,率先給出這句經典靈魂拷問。要回答這個問題,首先需要釐清一點,具身智能和自動駕駛、大語言模型這些AI領域存在原生的資料差異。後者基於現實場景和網際網路,長期積累沉澱形成了海量存量資料,然後通過簡單粗暴的算力Scaling law就能實現性能穩步提升。但具身智能則截然不同,物理世界複雜的情況讓它幾乎沒有可用的成熟資料集,也很難像網際網路產品那樣邊用邊攢資料。可以說,影響具身智能發展的關鍵之一就是資料卡脖子。那咋辦呢?以靈初在內的具身智能公司紛紛將目光投向人類資料。模擬資料還需要遷移處理,才能在真實機器人上使用,但人類資料就是最優秀的參考對象,資料量大而且質量高。但事實上,這裡也同樣存在一個無法忽視的問題:人類和機器人之間存在本體差異(embodiment gap)。直接復用顯然不行,機器人必定會出現運動學結構、動力學特性不匹配種種問題。其次,現有的人類資料要直接給到預訓練,也是萬萬不行的。因為要麼都是些小規模開源資料,要麼就是網路上一些低品質的第一人稱視訊。但除去人類資料,也幾乎沒有其它更好的路徑可走。靈初給出的判斷是:具身智能要想面向真實商業化場景落地,純人類資料訓練是必要的。一方面,使用人類資料能夠讓機器人搶先學習到人類一線的標準作業流程(SOP),而這些都是得到商業實際驗證過的,即拿即用且行之有效。換言之,真實場景的無縫銜接能夠將資料成本降至最低,比如人類的觸覺資料收整合本,就僅為機器人的1/10以下。另一方面,人類資料的SOP也可以使操作速度達到機械臂物理運動上限(如1200),遠超遙操作可達的800,也更適配商業工廠的高節拍要求。所以靈初最終選擇了人類資料,並造出了首個可用於預訓練的大規模人類運算元據集。其中,在人類資料和機器人資料的融合處理中,靈初遵循的是一條化繁為簡的思路:Raw Data In,Raw Data Out(原生資料進,原生資料出)。捨棄人工設計的複雜資料處理,直接進行人類關節與機器人本體的運動學對齊,讓模型在海量資料中自行探索。另外,Auto Labeling也會替代人工進行資料質檢和標註,最後再交由人工稽核。最終模型預訓練使用的資料集將包括真機資料(5417小時)和人類資料(95472小時)兩部分,總計10萬小時資料。目前其中1000小時已開源,到年底整個資料集還將Scaling到百萬量級。具體來講,人類封包括靈初自研外骨骼手套採集資料與裸手運算元據,覆蓋294種場景、4821種任務與1382種物體。至於為什麼要強調觸覺資料呢?歸根結底,還是為了更好地彌補人機之間的embodiment gap。雖然人類與機器人在多個方面差異明顯,但二者在接觸訊號上卻保持了驚人的高度一致,能夠有效補償動力學差異,以及在顯著提升世界模型能力的同時,還能更好地預測機器人與物體之間的互動情況。這樣一整套高品質資料預訓練下來,機器人的泛化能力、長流程操作能力和操作精度都會有所突破,後續也僅僅只需要不到100條軌跡的真機資料就能完成微調。另外值得關注的是,靈初在此期間,還發現了另一處華點:資料訊號雜訊比才是決定人類資料能否有效支撐預訓練的核心因素。低訊號雜訊比的資料甚至還會起到反作用。如果要想判斷資料訊號雜訊比,可以從兩方面看:1、資料集分佈:操作任務多樣性>物體多樣性>>場景多樣性。泛化能力其實是模型最難學會的能力之一,但如果在預訓練階段可以見到更多工和操作對象,自然而然模型接手新任務速度就越快。2、感知模態:精準3D位姿>>觸覺模態>2D圖像特徵。在全模態資訊中,人手全域3D位姿追蹤是2D到3D模型轉化的關鍵,也和機器人動力學特性匹配度最高。簡單來說,靈初認為無論是精準採集的可復現資料,還是捨棄部分精度的粗糙泛化資料,都缺一不可。二者相互補充,既保證模型精度又確保泛化。具身智能長出雙系統新腦所以基於以上認知,靈初全新發佈Psi雙系統架構——Psi-R2和Psi-W0。先看Psi-R2,這是一款能讓機器人學習人類做事的模型,核心就是靠這10萬+的海量資料,學會精細操作。圖像和語言指令將作為輸入,輸出預測的未來操作視訊和可執行動作,所以Psi-R2可以稱之為世界行動模型(WAM)。其中訓練骨幹網路選用Wan2.2-IT2V-5B-480P,預訓練階段同步使用真機資料和人類資料,還搭建了一套完整的資料處理流程,從資料清洗、自動標註,到質量檢測、人工核對,Psi-W0還會幫忙檢查資料質量。同時,採用專門技術精準捕捉人類手部動作軌跡,比如通過外骨骼手套,將動作誤差控制在亞毫米級,以確保人類的操作細節能被機器人精準模仿。但WAM模型架構普遍存在一個bug——反應慢。單次推理要2.2秒,反映到機器人身上,就是明顯的卡頓。於是靈初通過DiT快取、Torch編譯、模型量化等多項技術最佳化,把反應時間極限壓縮到了100毫秒以內。再看Psi-W0,它和Psi-R2的基礎架構相似,但分工完全不同。Psi-R2是學習怎麼做,Psi-W0是協助做得更好。首先它和Psi-R2一樣,都是基於預訓練視訊生成模型建構的,但在Psi-W0里,機器人動作是輸入,輸出的是對未來場景視訊的預測,所以Psi-W0也被定義為動作條件型世界模型(AC-WM)。這裡就引出了另一個問題:Psi-R2也能輸出預測,那為什麼還要做Psi-W0?答案很簡單,為了反事實推理。Psi-R2學到的只有成功的操作,比如成功抓起蘋果,但沒有辦法預測到蘋果抓不穩這類失敗情況。但老話說得好,失敗是成功之母,機器人亦是如此。失敗經驗能夠幫助機器人避開錯誤、最佳化動作,Psi-W0就是專門負責填補這部分空白。具體來講,兩個模型的訓練骨幹和資料格式都是一致的,只是在Psi-W0的訓練資料中額外加入了30%的失敗樣本。顯然,Psi-R2和Psi-W0並非孤立存在,而是彼此之間協同配合。當Psi-R2學完人類操作後,Psi-W0就會模擬人類操作場景,讓Psi-R2再演練一遍,也就是進行策略評估,檢查它有沒有學漏學歪。Psi-W0還有一項核心功能,是通過強化學習將人類資料轉換為機器人資料。傳統方法中,資料轉換靠的是模擬環境調整,不僅複雜而且精準性不高。但用Psi-W0替代後,它就會模擬機器人視角和動作模式,再通過強化學習的試錯調優,將人類動作調整為機器人能精準執行的動作。更厲害的是,在這個過程中還能持續生成新的優質資料,當把這些資料反向喂給Psi-R2和Psi-W0繼續學習,就能構成閉環資料飛輪。當然也可以故意給Psi-W0進行隨機擾動以模擬部分特殊場景,然後再生成目標場景和訓練資料。高品質資料滋養模型高性能,模型場景落地反哺資料擴充。於是自然而然,輪子飛起來了。最終整套系統能夠實現長程任務自主規劃、任務自主恢復和適配多場景複雜任務。開源是最高效的落地槓桿回看整場直播,無論是弗蘭克還是陳源培聊的內容,其實貫穿技術始終的都是同一個關鍵詞——落地。弗蘭克站在觀眾角度,好奇什麼時候具身智能才能落地。陳源培則站在廠商視角,給出了靈初智能的落地方案:技術端,從大規模的真實人類資料採集,再到實際應用中的具身模型,無一不是從切實的落地場景中出發建構。應用端,靈初智能也同時宣佈要和北京石景山共建數采廠,以及和騰訊雲、抖音、覓蜂、智域基石達成生態合作。不難看出,靈初這家公司從誕生之初的DNA就是聚焦技術落地、提供通用全端技術。它的每一步都在驗證一個行業共識:具身智能從誕生之初就錨定的終點,絕非實驗室,而是每一個具體可感的複雜場景。而這恰恰才是檢驗具身智能的標準所在。在通往落地的過程中,靈初也率先意識到,單打獨鬥並非最優解,開源是必要的。對於它們自身而言,只有開源,才能讓全行業幫助他們快速採集海量資料,才能彌補上這套資料飛輪體系中的關鍵一環。而且AI時代,時間和資料就是最稀缺的黃金資源。越早進場、擁有越多資料,就能搶先收穫長尾效益。再放眼整個行業,開源不僅是情懷,也是打破技術封閉孤島的鑰匙。它能夠建立起廣袤的開發者生態,通過標準化的資料管線和預訓練底座,讓具身智能不再是孤立的廠商個體。而全行業開源共建,還能反向喂養靈初這類硬核玩家,讓他們集中精力攻堅最難的技術瓶頸。集眾智,才是具身智能跑贏節拍、實現商業落地的唯一捷徑。而靈初無疑是當中走得最快最穩的一位明星選手。最後化用一句老話,用來描述我眼中的靈初智能——有仰望星空的勇氣,亦有腳踏實地的努力。具身智能正在因這場青春風暴而面目一新。(量子位)