#VLA模型 | 熱門關鍵字 | 鉅亨號

輝達宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1。該模型旨在打造能在意外情況下"思考"解決方案的車輛，採用 100 億參數架構，使用視訊輸入生成軌跡和推理過程。黃仁勳稱，首款搭載輝達技術的汽車將第一季度在美上路。輝達還發佈了多個開源模型、資料和工具，如用於代理AI的輝達Nemotron家族、用於物理AI的Cosmos平台、用於機器人的輝達Isaac GR00T以及用於生物醫學的輝達Clara。輝達在無人駕駛領域邁出關鍵一步，宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1，這一舉措旨在加速安全的自動駕駛技術開發。該模型通過類人思維方式處理複雜駕駛場景，為解決自動駕駛長尾問題提供新路徑。美東時間1月5日周一，輝達CEO黃仁勳在拉斯維加斯舉行的CES展會上發佈了Alpamayo平台，使汽車能夠在真實世界中進行"推理"。黃仁勳表示，首款搭載輝達技術的汽車將於第一季度在美國上路。輝達免費開放Alpamayo模型，允許潛在使用者自行對模型進行重新訓練。該模型旨在打造能在意外情況下"思考"解決方案的車輛，例如交通訊號燈故障等場景。車載電腦將分析來自攝影機和其他感測器的輸入，將其分解為步驟並提出解決方案。這一開源舉措獲得了行業廣泛支援。包括捷豹路虎（JLR）、Lucid、Uber以及加州大學伯克利分校DeepDrive深度學習自動駕駛產業聯盟（BDD）在內，多家移動出行領軍企業和研究機構表示，將利用Alpamayo開發基於推理的自動駕駛技術堆疊，推動L4級自動駕駛部署。首個開源推理VLA模型發佈輝達此次發佈的Alpamayo家族整合了三大基礎支柱：開源模型、模擬框架和資料集，建構了一個完整的開放生態系統供任何汽車開發者或研究團隊使用。Alpamayo 1是業界首個為自動駕駛研究社區設計的思維鏈推理VLA模型，現已在Hugging Face平台發佈。該模型採用100億參數架構，使用視訊輸入生成軌跡及推理軌跡，展示每個決策背後的邏輯。開發者可以將Alpamayo 1改編為更小的執行階段模型用於車輛開發，或將其作為自動駕駛開發工具的基礎，例如基於推理的評估器和自動標註系統。黃仁勳表示：“物理AI的ChatGPT時刻已到來——機器開始理解、推理並在真實世界中行動。無人計程車是首批受益者。Alpamayo為自動駕駛汽車帶來推理能力，使其能夠思考罕見場景，在複雜環境中安全駕駛，並解釋其駕駛決策——這是安全、可擴展自動駕駛的基礎。”輝達強調，Alpamayo模型並非直接在車內運行，而是作為大規模教師模型，供開發者微調並提取到其完整自動駕駛技術堆疊的骨幹中。未來該家族的模型將具有更大的參數規模、更詳細的推理能力、更多的輸入輸出靈活性以及商業使用選項。推理VLA技術原理解析推理VLA是一種統一的AI模型，將視覺感知、語言理解和動作生成與逐步推理整合在一起。這類模型整合了明確的AI推理功能，在傳統視覺-語言-動作模型的基礎上建構。AI推理是AI逐步解決複雜問題並生成類似於人類思維過程推理痕跡的能力。這些系統對一系列網際網路規模的任務進行預訓練，包括語言生成和視覺連接，以發展通用知識和感知基礎。與將視覺輸入直接對應到動作的標準VLA模型不同，推理VLA模型將複雜的任務分解成可管理的子問題，並以可解釋的形式闡明其推理過程。這使模型能夠更準確地解決問題或執行任務，還能對模型正在進行的操作提供一定程度的反思。建構推理VLA模型需要三種基本AI功能：視覺感知、語言理解以及動作和決策制定。視覺感知處理來自攝影機、毫米波雷達或雷射雷達等感知感測器的即時資料；語言理解通過自然語言處理解釋命令、上下文提示和對話輸入；動作和決策制定則使用融合的感官和語言資訊來計畫、選擇和安全地執行任務，同時生成可解釋的推理痕跡。在自動駕駛場景中，推理VLA可以對交通狀況進行逐步推理。例如，接近一個十字路口時，系統可能會進行如此推理："我看到一個停止標誌，左邊有車輛駛來，還有行人正在過馬路。我應該減速，完全停下來，等待行人通過人行橫道，安全時再繼續前進。"完整開放生態系統支援開發除Alpamayo 1模型外，輝達還發佈了配套的模擬工具和資料集，建構完整的開發生態系統。AlpaSim是一個完全開放原始碼的端到端模擬框架，用於高保真自動駕駛開發，現已在GitHub平台發佈。它提供真實的感測器建模、可配置的交通動態和可擴展的閉環測試環境，實現快速驗證和策略最佳化。輝達還提供了面向自動駕駛最多樣化的大規模開放資料集，包含超過1700小時的駕駛資料，涵蓋最廣泛的地理位置和條件範圍，覆蓋罕見且複雜的真實世界邊緣案例，這對於推進推理架構至關重要。這些資料集可在Hugging Face平台獲取。這些工具共同為基於推理的自動駕駛技術堆疊建立了一個自我強化的開發循環。開發者可以利用這些資源在專有車隊資料上微調模型，將其整合到基於輝達DRIVE AGX Thor加速計算建構的輝達DRIVE Hyperion架構中，並在商業部署前通過模擬驗證性能。業界領軍企業表達支援據輝達介紹，多家移動出行領域的領軍企業對Alpamayo表示了濃厚興趣。Lucid Motors高級駕駛輔助系統和自動駕駛副總裁Kai Stepper表示："向物理AI的轉變凸顯了AI系統對真實世界行為進行推理能力的日益增長的需求，而不僅僅是處理資料。先進的模擬環境、豐富的資料集和推理模型是這一演進的重要元素。"捷豹路虎產品工程執行總監Thomas Müller表示："開放、透明的AI開發對於負責任地推進自動移動出行至關重要。通過開源Alpamayo等模型，輝達正在幫助加速整個自動駕駛生態系統的創新，為開發者和研究人員提供新工具，以安全地應對複雜的真實世界場景。"Uber全球自動移動出行和配送負責人Sarfraz Maredia表示："處理長尾和不可預測的駕駛場景是自動駕駛的決定性挑戰之一。Alpamayo為行業創造了令人興奮的新機遇，可以加速物理AI、提高透明度並增加安全的L4級部署。"加州大學伯克利分校DeepDrive聯合主任Wei Zhan表示："Alpamayo組合的推出代表著研究社區的一次重大飛躍。輝達決定公開這一技術具有變革意義，因為其存取權和能力將使我們能夠以前所未有的規模進行訓練——為我們提供了將自動駕駛推向主流所需的靈活性和資源。"跨行業AI模型全面開放本周一，輝達還發佈了推動各行業AI發展的多個新開源模型、資料和工具。這些模型涵蓋用於代理AI的輝達Nemotron家族、用於物理AI的輝達Cosmos平台、用於機器人的輝達Isaac GR00T以及用於生物醫學的輝達Clara。輝達還提供了開源訓練框架和全球最大的開放多模態資料集合之一，包括10兆語言訓練標記、50萬個機器人軌跡、45.5萬個蛋白質結構和100TB的車輛感測器資料。輝達代理式AI基礎模型Nemotron發佈了語音、多模態檢索增強生成（RAG）和安全相關的新模型。Nemotron Speech包含業界領先的開源模型，為即時字幕和語音AI應用提供即時、低延遲語音識別。Nemotron RAG包含新的嵌入和重排序視覺語言模型，提供高度精準的多語言和多模態資料洞察。在物理AI和機器人領域，輝達發佈了Cosmos開放世界基礎模型，為加速物理AI開發和驗證帶來類人推理和世界生成能力。Isaac GR00T N1.6是一個開放推理VLA模型，專為人形機器人打造，實現全身控制，並使用輝達Cosmos Reason實現更好的推理和上下文理解。輝達稱，博世（Bosch）、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和Uber等科技業的領頭羊正在採用並基於輝達的開源模型技術進行開發。輝達的開源模型、資料和框架現已在GitHub和Hugging Face平台發佈，並可通過一系列雲、推理和AI基礎設施平台以及build.nvidia.com獲取。這些模型中的許多還以輝達NIM微服務的形式提供，可在從邊緣到雲端的任何輝達加速基礎設施上進行安全、可擴展的部署。 (invest wallstreet)

2025/11/11

•

聽說字節要造機器人，月薪開12萬

宇宙廠要造機器人？據科創板日報、第一財經等多家媒體報導，字節跳動旗下的火山引擎團隊，正以高達9.5萬至12萬的月薪招聘操作演算法資深專家（具身智能）。按照職位描述，這個崗位主導研發“人形具身機器人”的操作演算法，包括但不限於演算法架構設計，抓取演算法，VLA模型研發，靈巧手等方向的工作。職位描述中的五大核心職責，包括“主導研發人形具身機器人的操作演算法”、“參與具身大模型的預訓練與部署”以及“推動演算法在硬體上的系統整合與部署”等。這份對人才的要求，勾勒出字節跳動意在打造一個整合先進大模型、具備複雜操作能力的具身智能體。除了操作演算法資深專家，字節跳動同時也在招聘具身智能資料開發工程師、具身智能推理性能最佳化工程師、運動控制演算法資深專家等具身領域相關崗位。開這麼高的工資，說明不是“端側小應用”，而是面向通用具身智能棧的投入。字節造機器人不是新鮮事，只不過之前造的是輪式物流機器人。據“晚點LatePost”披露，字節跳動的機器人探索始於 2020 年，2023年7月時已有50人團隊。到2025年已累計量產超千台。今年開始在具身智能發力。7月，字節跳動Seed團隊今日發佈通用機器人模型GR-3。這是一款VLA模型，也就是機器人的大腦，能讓機器人理解指令、操作柔性物體，甚至雙手協同幹活。同樣是7月，發佈高自由度靈巧手ByteDexter，具備20個自由度，可以通過遙操作等輔助裝置實現人手的靈巧操作。9月， Seed 團隊發佈最新的機器人研究成果——Robix，一個旨在提升機器人思考、規劃與靈活互動能力的“機器人大腦”。據“機器之心”報導，搭載 Robix 的機器人已展現出一系列過去難以實現的複雜互動能力。比如，在做飯時，它不僅能根據菜名（如“魚香肉絲”）準備食材，還能主動發現缺少配料並詢問是否需要補齊。10月，火山引擎還與賽力斯集團旗下重慶鳳凰技術有限公司簽署具身智能業務合作協議，合作範圍包括“面向多模態雲邊協同的機器人決策、控制與人機協作技術”。字節提供AI技術支援——包括AI演算法、算力、多模態模型等；賽力斯提供產業場景和落地經驗——包括真實的產業需求、測試環境，並負責將技術最終落地到汽車、機器人產品中。如果把機器人“拆”開來，字節跳動已經在機器人的大腦、手、腿、演算法、場景等都開始各自有所進展了。為什麼現在又要招人做完整的機器人？字節跳動的優勢在於多模態大模型與流量分發。而具身智能需要長時程、閉環互動資料（視覺-觸覺-動作-語言）。把機器人引入“倉配/門店/內容生產”多場景，能產生高價值對齊資料，反哺其Agent與VLA模型。“未來程式碼局”則認為，全球網際網路的線上使用者增長和使用時長都已見頂，“線上流量”枯竭了。新的流量在物理世界。具身智慧型手機器人是終極的資料採集終端。它擁有視覺、聽覺、觸覺，它在現實世界中24小時不間斷地與環境互動、收集資料。這些資料是訓練更強大AI的“完美燃料”。對於字節來說，佈局具身智能，不僅是開闢新業務，更是為了獲取“下一代流量”——物理世界的資料流，從而延續其“資料-演算法-產品”的核心優勢。另外，由前字節跳動財務投資部負責人楊潔創立的錦秋基金（字節跳動為其出資方之一），正在深度佈局具身智能產業鏈正在深度佈局具身智能產業鏈，已投了星塵智能、樂享機器人、首形科技等機器人公司。 (鉛筆道)

2025/10/28

•

特斯拉世界模擬器亮相ICCV！VP親自解密端到端自動駕駛技術路線

特斯拉世界模擬器來了！這些看似真實的駕駛場景，全都是用模擬器生成：這個模擬器在今年的電腦視覺頂會ICCV上亮相，由特斯拉自動駕駛副總裁Ashok Elluswamy親自講解。網友看了之後表示，這個模型實在是泰褲辣。同時，Elluswamy也首次揭秘了特斯拉的自動駕駛技術路線圖，表示端到端才是智能駕駛的未來。世界模擬器生成自動駕駛場景除了開頭看到的多場景駕駛視訊，特斯拉的世界模擬器還可以為自動駕駛任務生成新的挑戰場景。比如右側的車輛突然連並兩條線，闖入預設的駕駛路徑。也可以讓AI在已有的場景中執行自動駕駛任務，躲避行人和障礙物。模型生成的場景視訊，除了讓自動駕駛模型在裡面練手，也可以當成電子遊戲，供人類玩耍體驗。當然除了駕駛相關，對其他具身智能場景——比如特斯拉的柯博文機器人——也同樣有用。與這個模型一同被揭秘的，還有特斯拉在自動駕駛上的一整套方法論。特斯拉VP：端到端才是自動駕駛的未來ICCV演講中，特斯拉自動駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術細節，同時還在X上發表了文字版本。Ashok首先明確，端到端AI才是自動駕駛的未來。特斯拉利用端到端神經網路實現自動駕駛，這個端到端神經網路會利用來自各個攝影機的圖像、運動訊號（例如車速）、音訊、地圖等資料，生成驅動汽車的控制指令。與端到端相對的另一種方法是採用大量感測器的模組化駕駛，這類系統的優勢是在初期更容易開發和偵錯，但相比之下，端到端的優勢更加明顯：將人類價值觀規則化極其困難，但從資料中學習則容易；模組化方法中感知、預測和規劃之間的介面定義不明確，但在端到端中梯度從控制一直流向感測器輸入，從而整體最佳化整個網路；端到端方法可輕鬆擴展以處理現實世界機器人的繁重和長尾問題；端到端具有確定性延遲的同質計算。Ashok舉了一些例子，比如車輛行駛過程中發現前方路面存在積水，此時有兩種策略，一是直接從積水上開過，二是借用對向車道繞過積水。駛入對向車道是危險的，但在這個具體場景中視野開闊，在避開水坑所需的路程之內對向車道沒有車輛，借用對向車道避開水坑是一種可行的選擇。這種權衡取捨就很難用傳統的程式設計邏輯來表達，而對於人類來說，這在觀察場景時卻相當簡單。基於以上考慮及其他因素，特斯拉採用了端到端的自動駕駛架構，當然，端到端系統也仍有許多挑戰需要克服。特斯拉如何解決端到端自動駕駛困難端到端自動駕駛面臨的困難，其中之一就是評估。特斯拉推出的世界模擬器，也正是針對這一難題。該模擬器使用特斯拉篩選出的同樣的海量資料集進行訓練，其功能並非預測給定狀態下的行動，而是根據當前狀態和下一步行動來合成未來狀態。這樣的狀態可以與智能體或策略AI模型連接起來，以閉環方式運行，從而評估性能。同時，這些視訊並不侷限於評估，它還可以用於閉環大規模強化學習，從而實現超越人類的表現。除了評估之外，端到端自動駕駛還面臨“維數災難”，以及可解釋性和安全性保證的問題。在現實世界中，想讓自動駕駛系統安全運行，就需要處理高影格率、高解析度、長上下文輸入。假設輸入資訊包括7個攝影機×36FPS×5 百萬像素×30秒的場景畫面、未來幾英里的導航地圖和路線、100Hz的運動資料，以及48KHz的音訊資料，大約會有20億輸入Token。神經網路需要學習正確的因果對應，將這20億個Token精簡為2個，即車輛的下一個轉向和加速動作。在不學習虛假相關性的情況下學習正確的因果關係是一個極其棘手的問題。為此，特斯拉通過龐大的車隊，每天收集相當於500年駕駛總和的資料，並使用複雜的資料引擎篩選最高品質的資料樣本。使用這樣的資料進行訓練，就能讓模型獲得極高的泛化能力，從而應對極端情況。對於可解釋和安全性問題，如果車輛的行為不符合預期，端到端系統的偵錯可能就會變得很困難，但模型也可以生成可解釋的中間Token，可以根據情況用作推理Token。特斯拉的生成式高斯潑濺就是這樣一項任務，它具有出色的泛化能力，無需初始化即可建模動態物體，並可與端到端模型聯合訓練。其中所有的高斯函數都是基於量產車配置的攝影機生成的。除了3D幾何之外，推理還可以通過自然語言和視訊背景進行。該推理模型的一個小版本已經在FSD v14.x版本中運行。更多技術細節，可以到Ashok的文章和原始演講視訊當中一探究竟。端到端自動駕駛兩大路線：VLA還是世界模型？雖然端到端被視為自動駕駛的未來，但在業界，具體的軟體演算法路線也一直存在VLA和世界模型之爭。以國內為例，華為和蔚來都是世界模型路線的代表，元戎啟行和理想則選擇VLA路線，另外也有一些玩家認為應該將兩者結合。VLA玩家認為，該範式一方面可以應用網際網路已有的海量資料，積累豐富常識，進而理解世界。另一方面模型通過語言能力實際上是具備了思維鏈能力，能夠理解長時序資料並進行推理。更尖銳的觀點認為，有些廠家不用VLA是因為算力不夠，帶不動VLA模型。世界模型玩家們則堅持世界模型更接近問題本質，例如華為車BU CEO靳玉志認為“VLA這樣的路徑看似取巧，並不能真正走向自動駕駛”。而現在，特斯拉的方案之所以備受關注，也正是因為在自動駕駛發展歷程中，馬斯克從未有過“選錯”。特斯拉選什麼路線，VLA還是世界模型，關於端到端自動駕駛兩大技術路線的歷史性決戰。你看好VLA，還是世界模型？參考連結：[1]https://x.com/Tesla/status/1982255564974641628[2]https://x.com/aelluswamy/status/1981644831790379245 (量子位)

2025/05/26

•

高盛-中國人形機器人的實地調研

2025年5月19-20日，高盛拜訪了北京/深圳的8家仿人機器人企業，並於5月21日在上海舉辦了一場與3家機器人行業公司（創始人/研究主管）的小組討論（總計7家私人初創企業，6位C級管理層）。大多數行業參與者一致認為，機器人必須將通用智能與實際應用相結合，才能實現規模化發展。實現這一目標依賴於四項核心技術：演算法、資料、計算能力和硬體。儘管中國在硬體供應鏈方面仍保持強大優勢，但初創企業已開始致力於開發仿人機器人的“大腦”。在各企業中，視覺-語言-行動（VLA）模型被認為是一種可行的解決方案，而高品質的現實世界資料也越來越重要，以實現與物理世界的一致性和任務精準性。企業正在投資建設資料工廠，以大規模收集真實機器人互動資料，我們拜訪的一家公司估計需要1,000萬小時的資料才能達到通用（L3）能力，這需要1億至2億美元的投資。在計算能力方面，輝達的Jetson Orin仍然佔據主導地位，但中國企業開始探索與華為的合作。硬體開發的一個日益重要的重點領域是靈巧手，配備觸覺和力反饋感測器，因為精細運動控制和借助攝影機進行物理資料收集的重要性。就實際應用而言，工業用例（如物料搬運和分揀）通常被提及為早期商業機會，而消費類應用由於除了技術要求外，還有額外的安全和監管障礙，因此仍顯得遙不可及。就定價而言，仿人機器人的價格差異很大，根據功能規格，從1.5萬美元到10萬美元不等，人們普遍預期隨著規模生產和零部件最佳化，成本將會降低。總體而言，我們對仿人機器人技術的進步和行業的長期前景留下了積極的印象。我們維持我們對行業的預測，即2025年預計全球出貨量為2萬台，2035年預計為140萬台。在我們看來，與資料收集相關的供應鏈股票可能是新的受益者。值得關注的關鍵事件是：8月15-17日在北京舉行的全球仿人機器人運動會，包括（1）13項體育和表演項目，如田徑、自由體操、足球比賽、獨舞/群舞；（2）6項基於應用的項目，包括在工廠環境中搬運和整理材料，在醫療環境中分揀藥品和拆包，在酒店環境中互動接待和清潔。我們注意到，與2025年4月19日在北京舉行的仿人機器人半程馬拉松（主要展示硬體的可靠性和耐久性以及運動控制能力）相比，這一活動將提供更全面的仿人技術展示（特別是在智能、泛化水平和敏捷性方面）。詳細要點：仿人機器人參與者認為，為了實現仿人機器人的商業化，它們必須具備通用智能，同時能夠執行實際任務。為了實現這一目標，四項核心技術是必不可少的：（1）演算法，（2）資料，（3）計算能力，（4）硬體。硬體和軟體都是不可或缺的，發展通常呈螺旋式迭代——硬體的進步推動軟體的改進，反之亦然。儘管人們普遍認為中國在硬體供應鏈方面具有強大優勢，但在這次行程中，我們聽到初創企業越來越多地致力於增強仿人機器人的“大腦”研發。演算法——VLA模型被認為是一種可行的解決方案在生成式人工智慧中，大型語言模型（LLM）是通過對大量文字資料進行分析來輸出最相關的文字。而視覺-行動-語言（VLA）的核心架構與標準的大型語言模型並無本質區別。不同之處在於，輸入內容變為視覺和行動的整合，而輸出則是機器人預期執行的動作。VLA結構是大多數公司普遍接受的基礎，而一些公司還將觸覺資訊作為另一種類型的輸入進行整合。一家公司的管理層評論稱，該演算法結構可能比美國的研究質量落後0.5-1年，但在中國也在迅速發展。儘管VLA被視為一個成功的早期發展方向，但一家初創企業的首席執行官也指出，它可能並非最終解決方案，並提到了深度學習中的早期循環神經網路（RNN）——在基礎架構方面很重要，但隨著架構的成熟，可能會被取代。儘管如此，目前在VLA方面的工作對於實現未來模型的突破至關重要，預計該領域將經歷3-4次重大迭代。資料——高品質資料最為關鍵使用資料訓練模型通常有三個步驟：■ 通過人類工作視訊進行預處理：向模型傳授常識性知識和任務結構，例如，教機器人逆時針方向擰開水瓶蓋。■ 監督式微調（SFT）使用通過遠端操作收集的資料或模擬資料來微調演算法，提高精度。■ 帶人類反饋的強化學習（RLHF）是在現實世界的複雜情境中真正實施預期動作，並最佳化行為。儘管對於那種資料最為有效存在一些爭論，但基於上述訓練機制，目前使用了三種類型的資料——二維視訊、遠端運算元據和模擬資料。根據我們的交流，我們注意到對於那種資料最適合訓練具身人工智慧系統，目前仍存在爭議。一些人認為模擬資料最佳，因為它具有可擴展性和低成本；而另一些人則強調現實世界資料的重要性，因為它更好地捕捉了物理一致性，即遵循現實世界的物理規律。此外，擁有多樣化資料集也很重要，以便在各種情況下測試動作。此外，建構模擬環境中的多樣化環境也並不一定更便宜。總體而言，大多數人同意需要一種資料配方，即三種類型資料的有效混合，而高品質的現實世界資料最為關鍵，因為它具有：1）精準性——動作與物理現實的匹配程度；2）多樣性——環境、物體類型和動作的多樣性。為達到L3等級通用自主能力，一家初創公司首席執行官估計需要1,000萬小時的真實世界機器人資料，這相當於10,000台機器人或操作員2年的努力，需要1億至2億美元的投資，從而催生了“資料工廠”概念：多家公司如今將資料收集基礎設施——“資料工廠”——視為一項戰略投資。對於從一個機器人收集的資料能夠多大程度上應用到另一個機器人上，存在不同意見。一些人評論稱，通常情況下將“動作輸出”從一個機器人轉移到另一個機器人是相對容易的。另一些人則表示，儘管他們最終希望建構一個能夠適用於不同形態機器人的視覺-語言-行動（VLA）模型，但目前資料必須與硬體緊密結合，因為模型仍處於早期階段。即使在遠端運算元據中，也有幾種不同類型的資料收集方法：■ 基於視覺的系統（攝影機或虛擬現實）：這是最便宜且最具可擴展性的方法，但精度最低（在釐米到分米等級）。■ 慣性測量單元（IMU）感測器：安裝在關節處，精度可達毫米等級，但存在漂移/累積誤差問題。■ 光學運動捕捉：由Luster的子公司FZ Motion（股票程式碼：688400.SS）提供的解決方案，使用多個攝影機和反游標記，能夠實現小於0.1毫米的高精度。政府提供了基礎模型補貼和一些資料補貼。對於政府支援的資料收集中心，即使政府共享開源資料集，這可能有助於某些預訓練，但對於垂直領域的微調或任務級掌握可能還不夠。由於邊緣計算的限制，公司採用“快速+慢速”系統：在訓練或執行更複雜任務時，仍然需要像4090/3090這樣的高端GPU。他們使用邊緣裝置Jetson（Orin、Thor）來運行VLA，用於車載感知、規劃和輕量級推理。但一些本地初創企業正在與華為合作，表明在地緣政治風險下，正在努力建構國內計算基礎設施。幾乎所有公司都指出，靈巧手在他們為未來資料收集準備產品以及在中長期內在工廠中處理更複雜、更靈活的任務中發揮著關鍵作用。鑑於供應商數量的增加和行業努力，仿人機器人的其他元件（例如減速齒輪、電機和螺釘）越來越容易獲得，儘管這些元件的耐用性、可靠性和散熱性能仍有待改進。也就是說，靈巧手是一個關鍵障礙，主要是因為：（1）不同的機械設計使得在承載能力、靈活性和成本之間取得平衡非常困難；（2）觸覺感測器的性能和成本競爭力不夠理想，而觸覺感測器對於通過收集各種物理參數（如力、扭矩、溫度、紋理、摩擦力）來訓練和改進機器人AI模型至關重要。我們與一家國內觸覺感測器公司交談後瞭解到，他們正試圖引入一個明確的資料標準，以幫助通過靈巧手簡化資料收集、處理和訓練，並通過在設計、演算法和材料方面的創新降低感測器成本，其感測器平均售價目前比海外同行的同類產品低50%以上。仿人機器人公司經常提到，鑑於其在不同行業中廣泛且普遍的需求以及對任務性能（尤其是精度和效率）的相對較高容忍度，工廠中的物料搬運是早期商業機會。一家公司提到，他們的仿人機器人在物料搬運方面已達到95%的精度，另一家公司表示，他們的機器人在這一任務上的速度比人工勞動快30%（如果機器人每天工作兩班，則為60%），預計2025-2026年開始小規模採用。分揀是另一個經常被提及的應用，需求甚至更大（即不僅在工廠，還在零售環境，例如藥店），儘管其對速度的要求比物料搬運更高。公司還討論了托盤化/去托盤化和裝卸任務的巨大需求（例如，一家大型電動汽車公司有20,000名工人從事這些任務），但許多技術瓶頸仍有待解決（例如，識別小物體或顏色相似的物體）。此外，儘管仿人機器人製造商對長期消費類應用需求（例如做家務）持樂觀態度，但他們指出，鑑於消費者環境的高度多樣性，技術要求極高，更不用說監管和安全/隱私問題了。此外，商業仿人機器人已經在引導和互動接待角色中得到部署，這些角色對視覺-語言-行動（VLA）性能的要求相對較低。據一家初創公司稱，這些用例的出貨量超過了他們今年的預期。我們拜訪的公司提供的仿人機器人的平均售價從1.5萬美元到10萬美元不等，這主要是由於規格不同。行業共識表明，目前還沒有一種通用設計能夠滿足所有應用需求。低端定價的仿人機器人嵌入的智能/AI能力非常有限，只有基本的硬體規格（自由度有限，沒有靈巧手或視覺感測器）。這些低規格產品能夠快速進行基本運動（例如行走、揮手）和預程式設計的動作（例如跳舞），主要用於向大學和AI實驗室出售以供研究用途，以及向企業和政府出售用於接待或娛樂。另一方面，高規格的仿人機器人通常在手臂中使用諧波（而不是行星）減速齒輪，以及使用滾珠/滾柱絲槓（而不是連桿）代替，並配備多種感測元件，如視覺攝影機、力/扭矩感測器以及帶有觸覺感測器的靈巧手，旨在工廠環境中執行精細或重型任務，並具備AI/自主功能。大多數公司預計2025年的年出貨量將達到數百台機器人。展望未來，每家公司都看到了仿人機器人成本大幅降低的潛力，這將由生產最佳化（例如專用裝置和生產線）和更高的生產量推動，從而降低單位折舊和前期開發成本（例如研發和模具），這將為製造客戶帶來更好的投資回報率（ROI）。 (行業報告研究院)