之前在朋友圈表達了自己的觀點以後,收到很多的回覆。就特別想寫篇文章把自己的想法認真系統的闡明一下,但是我的合夥人一直阻止我 “I believe this is true. but it will require proof instead of talking” 。
但是作為公司唯一不寫code的傢伙,也作為一個老產品經理的本能,還是喜歡跳大神,把talking的工作做了,把邏輯和想法寫出來,以便日後驗證。
首先機械手已經可以在很多場景應用,貌似已經大概商業化了。而人形還遙遙無期。這也是朱嘯虎等投資人覺得非人形機器人會是正確的選擇原因。
其實這大體是對的。除了車間工作的場景不用贅述,在零售的場景上,早在今年CES銀河通用就展出了可以做零售的機器人,夾爪可以精準的拿取貨物,然後放在櫃檯上結帳。而人形機器人在這個方向上,其實進展遠不如異形機器人。figure/tesla展出的機器人在工廠/郵件處理中心的工作,那個雙腿也顯得有些多餘 — 很多時候就這麼傻站著。
另外在商業化故事上,輪式機器人就更好說了。只要之前有一些工廠/零售/物流 經驗的,就非常容易把這個想法帶入進去,基本上就可以在融資材料裡寫 “我們和xxx工廠/供應鏈企業/零售企業 合作,預計年銷售xxx台,xxxxx元銷售額”。2B永遠是講故事最容易的方向。
以上的這些情況其實都是對且客觀的存在的,本文的主要目的也不是diss輪式 + 手臂的解決方案沒有前途,其實我覺得在未來的一段時間內,輪式 + 機械手,會是比較大眾且可以商業化的方向,甚至是大部分機器人創業企業還有研究所們努力的方向。
所以這個問題又回來了:那麼我們為什麼還是要做人形?
其實在騰訊最大的福利是培訓可以聽張小龍老師的內部分享。給我的映像最深的就是要“把握住改變產品的關鍵因素”。
在機器人行業最重要的是:這一波機器人的關鍵因素是什麼?現在的機器人和之前的機器人有什麼不同?要知道早在本世紀初,Honda的Asimo就會走路了,機械手臂,拉燈工廠,也早就不是啥新鮮事,為什麼我們又把這個故事拿出來重新說一遍,把日本人走過的路又走一遍?
答案就是:Machine Learning
其實在過去的10年間,硬體和關節技術的發展仍然大體是線形的,大部分的結構都在MIT cheetah上的基礎上的最佳化和補充。唯一突破式的大發展,只有machine learning, 而ML的發展確實讓以前很多不敢想的場景和情況變成了可能。這其實也是Elon Musk在Tesla做機器人,隨後又有這麼多機器人公司起來的原因。
那麼是不是要說明雙足機器人在做ML的時候比輪式機器人更有優勢呢? 非常不幸的事情,結果還是否定的。
至少在現階段的輪式機器人在ML上有非常明顯的優勢:輪子的locomotion被自動駕駛和無人車大量訓練,機械臂的操作靈活,部署成本低,且有很多成功的部署先例。
但是,如果有了ML加持並且大發展了以後,就不一樣了。
先說結論:人類的雙足構型,其實是在算力和智能足夠強大的時候的最好的選擇。
首先是對需要上下半身配合的好處。目前的輪式機器人上半身(manipulation)和下半身(locomotion)大體上是分開的。無論兩邊用怎麼樣的protocol串聯,都會有資訊損失,這個和ML統一端到端模型的路線趨勢相背。
類似1X展示的這個向口袋裡裝枯枝落葉的場景,上下半身配合的簡單動作,其實對上下身份離的異形機器人就很難實現。
其次腿形機器人對成本是友好的 — 這個其實和大部分人的理解相背 — 其實雙足的機器人更加簡單 — 和上肢一樣,只是關節和骨架結構而已。這個其實是大大降低了複雜性和成本。而機器人底盤 — 很遺憾,一個穩定靈活可訓練的底盤,並沒有大家想像的那麼便宜。而且底盤想做到和腿那麼的方便和靈活,基本上也是不可能的事情。
第二是異形機器人其實為了適應場景。需要調整的地方太多了。那怕是平鋪的地面,其實輪式的機器人穩定重心,上下半身協同,其實都是對結構設計的巨大挑戰。一旦情況有變,結構設計就需要更改。
第三是對於模仿學習,人形機器人打開了可能性。目前機器人和學習最大的問題還是資料不足,和LLM可以使用海量的網際網路資料相比,機器人的資料是少的可憐的。有一個補充的方式就是通過動捕和視訊對機器人進行模仿學習,但是這個很多時候需要類人的構造才能起作用。
最後最重要的:Momentum和情感。雙足的機器人外觀衝擊力是遠遠被低估的。其實在產品設計裡, 人類對外觀“酷”的需求,其實大大超過人的預期和想像。另外人類對比較像自己的物種是有好感的。一個兩腿直立行走的機器人其實是更容易被人們在情感上接受。更有一些互動的慾望。這一點其實已經被很多的科幻電影所證明了。
在很多時候,一個更像人的機械,會讓人更容易產生情感的連結,這裡久不再贅述了。
一方面,不可否認現在的人形機器人的商業化的困難。整個軟體和硬體系統,都沒有到可以承擔家庭和工作場合,那怕最簡單的任務的情況。不用說人形 — 就算是異形機器人,在能達到工業機械手+傳送帶的路上,還有非常長的路要走。就算是現在做的比較好的 PI 和 Figure,其實效果也不是很盡如人意。
另一方面,機器人,特別是人形機器人的硬體已經趨於成熟,模擬器,強化學習甚至模擬學習的路徑都在慢慢明晰。在技術的路徑上,破曉的光已經出現在了東方的地平線上。
現在對機器人來說,這就是一個transformer被發明,深度神經網路變的可用,但是很多人卻沉迷於圖像識別的時代。Andy Rubin 在Danger 做sidekick,但是很多人沉迷於做山寨機的時代。2個Steve在車庫裡面焊電路板賺零花錢,但是很多人沉迷於做計算器的時代。
這是最好的時代,也是最難的時代。 (密涅瓦的貓頭鷹在黃昏起飛)