特斯拉始終在做難而正確的事。
馬斯克在X上確認Optimus已經可以透過人類影片中學習任務。
結合今年6月的爆料:特斯拉當時要已經全面放棄模仿學習,並轉向機器人自己視頻學習。
進展神速。
天南作為業內研究員,是真的很佩服:從模仿學習到視頻學習,這是一個很難很難的技術突破,而這一切都在短短兩個月內,難度可想而知。
我這裡再簡單普及一下哈:
機器人領域想要訓練模型最開始的就是要模仿學習,操作員拿著VR眼鏡和把手,遙控代替機器人完成動作。同時記錄下來的運動的各項參數,例如操作員左手移動5cm,手臂多個電機需要完成2000轉的轉動等等。
天南在WAIC上和千尋智能、銀河智能等其他採用了VLA技術的公司進行交流,他們的資料來源主要是模仿學習。
操作員需要進行較長時間的操作,並且受限於VR精度,最後的質量也不是很高,這樣就很大程度上限制數據的數量和質量,並且這樣的數據也很貴,理解到特斯拉的操作員的時薪大概是48美元。
不過對於剛起步的公司而言,有個簡單能跑通的demo,去展示和拿融資更重要。這確實也是能讓機器人自主動(不是遙操哈),並執行指令的最快途徑。
所以我能理解國內的都是從模仿學習來獲取資料的初衷。但這種途徑肯定不是長久之計,因為資料太難太難取得了。
第一原理還原了人形機器人資料的最終形態,那就是世界模型中模擬訓練以及從人類視頻中的學習,因為這兩種途徑都是便宜且最接近大規模使用。
所以特斯拉去做了這件事,這是第一次有人形機器人公司傳出可以使用人類視訊資料訓練的消息。
這個時候,你就不得不佩服特斯拉的勇氣,永遠的第一原理,永遠的做難而正確的事。
接下來,我們在細緻化分析下特斯拉除了第一原理外,為什麼要放棄模仿學習,其真實模式學習它本身的上限也不夠高。
我在補充更多的遙控炒作細節,工作流程除了VR外還有動作捕捉服,這樣傳感器能夠拿到的資訊就豐富不少,而機器人就像一面鏡子一樣,同步復現這些動作。
然後透過這個過程拿到更多的資料pair對,也算是一種對應關係。例如人的動作序列如何對應到機器人的硬體移動。
然後有了這樣很多的資料,就可以去訓練一個策略網絡。
這個網路的目標就是學會:在給定的狀態下,應該輸出什麼樣的動作。
所以你知道為什麼大家都喜歡和B端使用者合作了吧,因為條件可控,透過這種方式讓機器人能夠精確搬運、拿取。
但接下來,你會發現,機器人無法適用更多的場景了。 因為你訓練了疊衣服,但他不會煎雞蛋,你還要訓練它煎雞蛋。
一個簡單的「倒水」任務,杯子的形狀、材質、重量,水的溫度,光照的角度,背景的雜亂程度…任何一個變數的改變,都可能導致機器人的失敗。
人類有那麼多場景,難道每個動作都要教一次嗎?這是遙控操作最致命的缺點。
特斯拉的技術專家也表達過這個觀點:
你根本不可能讓操作員在每一個可能的環境中,用每一種可能的物體,去示範每一個可以想像的任務。這個數據問題是通用機器人在很大程度上仍停留在科幻領域的主要原因。
另外還有一點,也是基本上無解的。 例如你拿特斯拉Optimus模仿學習疊衣服出來模型,你放在宇樹G1上,那一定是災難。
因為機器人的形態,電機方式之類的完全不同,而輸出的運動參數完全不適配了。
基於成本,基於泛化性,基於第一原理,為了到達更高的頂峰,特斯拉不得不放棄模仿學習,轉向更容易規模化放大的途徑,端到端視覺方案。
我有時候就在想,為什麼國內的人形公司只能當模仿者,為什麼不願意有一家人形機器人公司真的能願意出來做一些難而正確的事情呢?
我看到的都是資本運作,例如猛炒作一波,半個月翻10倍(某人形機器人公司入股上游零件公司),直接透支未來10年預期。
短期demo是能換融資,換某些人財富自由,卻走不通通用化的未來之路。
只有敢放棄“好走的路”、深耕“難而正確的事”,才能破解資料貴、泛化弱的根本困局。 (天南AI茶館)