2021年的特斯拉AI Day,特斯拉PPT首發了人形機器人Tesla Bot的概念機設計方案。按照馬斯克畫的大餅,Tesla Bot可以完全取代人類「從事重複性/無聊的工作」。
也許是擔心在場觀眾乾看PPT無聊,馬斯克請來了一位身穿緊身衣的皮套人,模仿Tesla Bot尬舞了一段。
AI Day結束,科技媒體The Verge表示,馬斯克的Tesla Bot就是個笑話[1]。文章也引用中央蘭開夏大學機器人工程教授Carl Berry的評價:說它是馬糞都算抬舉它了(horse shit sounds generous, frankly)。
Carl Berry也專門搬離機器人領域的網紅公司波士頓動力,認為後者正在踏實的做事,特斯拉正在加深大眾對機器人不切實際的幻想。
今年4月,特斯拉的皮套人畫舞再度被拉出來鞭屍。在波士頓動力展示新款機器人的影片中,機器人以一種靈活到有些詭異的方式從地上站起來。
波士頓動力也在推特上陰陽怪氣了一句:“我們保證這不是一個穿著緊身衣的人。”
事情的起因是,波士頓動力宣布11歲「高齡」的人形機器人Atlas正式退休——Atlas算得上是初代機器人網紅,它被波士頓動力員工一棍子撂倒,接著踉踉蹌蹌爬起來的視頻,一度引發了「停止霸凌機器人」的後現代哲學思考。
結果Atlas領退休金的第一天,「煥新版」Atlas正式出道。最大的變化是,波士頓動力拋棄了原有的液壓結構,改為馬達驅動。
目前,「煥新版」Atlas的宣傳片已經在YouTube上收穫了500多萬播放量。
相較於Atlas熟悉的後空翻大劈叉,相較之下,去年年底的第二代Tesla Bot才剛學會緩慢行走和90度深蹲。
加上馬斯克近幾年大餅畫的太多,也不難理解The Verge會提出「機器人為什麼要像人」的質疑。
然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人民舞,決定了波士頓動力的命運。
相較於荒誕開場的Tesla Bot,波士頓動力這家公司是機器人領域根正苗紅的祖師爺。
波士頓動力成立於1992年,前身是麻省理工學院的腿部實驗室,長期致力於有腿機器人的研究。
2012年,DARPA(美國國防高級研究計畫局)為了推動機器人研究,資助了一場機器人挑戰賽,波士頓動力因此進入美國軍方的視野。
DARPA是五角大廈旗下的研究機構,和NASA一起誕生於美蘇爭霸的白熱化時期,目的是藉助國家意志確保美國在高科技領域的領先。只不過NASA負責地球以外,DARPA負責地球以內。過去幾十年間,DARPA直接或間接的推動了GPS、網路等科技的誕生。
2012年,正值DARPA在機器人、自動駕駛等領域大力投資,為了降低參賽門檻,DARPA希望能有一款標準化的人形機器人,供參賽團隊編程。
在這之前,波士頓動力已經為DARPA開發了多款產品,例如外型神似野豬的LS3,能夠穿梭於各種極端戰場環境,並快速運送物資。
2013年7月,在DARPA的資助下,波士頓動力打造出了身高1.88米,重達150公斤的初代Atlas。這個新聞很快就傳到了Google的耳朵裡,波士頓動力的命運也隨之改變。
當時,Google正在秘密籌備一個代號為「Replicant(複製人)」的機器人項目,由「安卓之父」安迪魯賓親自帶領團隊。依照魯賓的設想,Google將打造一個程式設計平台,從而推動機器人普及,最終在機器人身上復刻安卓系統的成功[3]。
為了這個龐大計劃,Google瘋狂掃貨,一口氣收購了九家機器人新創公司,Atlas問世不到半年,波士頓動力就被Google收入囊中。此後,Atlas的迭代速度也坐上了火箭。
2016年,波士頓動力毫無徵兆的發布了一則新款Atlas的演示視頻,視頻中Atlas熟練的行走跳躍,尤其是被推倒在地後,仍能自主起身繼續完成工作,整個過程栩栩如生,帶給公眾的震撼不亞於2022年底ChatGPT的問世。
目前,這影片的Youtube播放量已經累積到了4059萬。 2017年,Atlas再接再厲,用一個精彩的後空翻再度把波士頓動力送上全球熱搜。
然而,就在波士頓動力風頭正盛的2017年,投資了五年之久的谷歌卻將其甩賣。根據彭博的說法,Google管理階層的核心分歧在於商業化。
波士頓動力希望埋頭研究,但谷歌希望盡快打造能商業化的產品:“我們不可能用30%的資源去投入一個需要10年以上的項目[4]。”
在彭博的報道中,豐田和亞馬遜都是潛在的買家,但波士頓動力最終被賣給了軟銀,2020年又被賣給了韓國現代。
谷歌內部,安迪魯賓因性醜聞被掃地出門,Replicant計畫也草草收場,劃上一個滿是遺憾的句點。
一家明星公司在當打之年被潦草脫手,谷歌內部真實的決策過程難以知曉。但在這個過程中起到決定性作用的,很可能是2017年發生在谷歌內部的另一件事。
2017年6月,Google的8位AI科學家聯名發表了一篇名為《Attention Is All You Need》的論文。這是繼2012年AlexNet勇奪ImageNet挑戰賽冠軍之後,人工智慧發展史上的另一個里程碑事件。
谷歌的科學家在論文裡提出了一種“注意力機制”,並基於此開發一個名叫Transformer(變形金剛)的深度學習模型,解決了傳統RNN模型的一系列問題。
2020年,Google又提出了Vision Transformer ( ViT )概念,賦予了Transformer處理影像的能力。
隨著Transformer一口氣解決了眾多缺陷,它漸漸發展成了AGI領域的唯一解。
2012年的AlexNet讓AI有了「感知」的能力,而Transformer和之後的大模型讓AI有了「生成」的能力。換句話說,2012年的AI可以辨識出各種各樣的貓,2017年後的AI已經可以自己生成貓的圖片了。
因此,Transformer的推出直接開啟了今天的大模型時代,2018年6月,OpenAI推出了基於Transformer模型的GPT-1,GPT裡的“T”,就是Transformer的首字母。此後,OpenAI沿著這條路線持續迭代,並基於GPT模型開發了ChatGPT。
在大模型百花齊放的同時,Transformer也為人形機器人的進步打開了一扇窗。
傳統機器人大多基於特定的規劃執行特定的操作,例如運輸、分類,不具備感知和決策能力。人形機器人不僅能與物理世界交互,還有感知和理解能力。
舉一個不太恰當但好理解的例子:送餐機器人執行“把外賣送到1203號房”這個任務時,並不理解什麼是“外賣”和“1203號房”,只是根據軟體系統既定的指令和路線規劃完成任務。
但人形機器人可以藉由智慧化,理解物理世界各種物件、語言和文字的意義,並自主規劃和決策。也就是說,機器人可以不依賴預先的編程,就能完成諸如「關掉最上層抽屜」等較為模糊的指令。
波士頓動力的問題在於,無論Atlas的機械與動力結構多麼優秀,都無法解決「窮舉法」的問題。
Atlas的軟體原理是透過相機與感測器輸入外在環境數據,再根據事先建立的行為庫,執行對應的動作。在其官方的文檔裡,波士頓動力坦誠了這麼做的弊端:
“如果盒子向一側移動了0.5 米,那麼Atlas會找到並完成跳躍;如果盒子移動得太遠,那麼系統將停止[5]。”
由於Atlas的所有動作都依賴事先設計的模版,那麼真實環境的一點點變化,都可能讓機器人無所適從。這也是為什麼傳統機器人只被用於環境、路線和職能極度固定的工廠、飯店送餐等場景。
而Transformer帶來的想法是,只要讓機器學習足夠的數據,就能擁有類人的智能,可以脫離預設的規劃進行自主決策。
去年7月《紐約時報》探班谷歌實驗室, 完整記錄了基於RT-2模型的機器人智慧閃光的瞬間:
桌上放著一堆塑膠玩具,工程師讓單臂機器人“撿起滅絕的動物”,機器人拿起了恐龍。
這意味著機器人不僅能辨識三種動物,也能理解「滅絕的動物」的意義,還可以完成具體的操作。
Transformer的出現徹底改變了機器人的技術路徑,在感知-決策-執行的完整鏈條中,核心能力不再是驅動機器人後空翻大劈叉的機械結構,而是組成機器人大腦的軟體演算法。
人工智慧的進步在各行各業上演著軟體對硬體的奪權,機器人只是其中之一。
另一個正在由軟體定義的行業是自動駕駛,這也是為什麼馬斯克會說:當你能解決自動駕駛,你就能解決現實世界中的人工智慧。
特斯拉在AI世界的出場,常常呈現某種荒誕不經的色彩。
2022年特斯拉備受期待的Tesla Bot第一次「真人」亮相,居然要依靠三名壯漢攙扶。兩個月後ChatGPT橫空出世,Tesla Bot成了一塊無人問津的背景板。
然而,特斯拉在機器人領域的積累,可能比任何一家公司都要深厚。
自動駕駛本質上是機器人的一個“前置產業”,兩者的核心都是基於人工智慧,實現感知-決策-執行的完整鏈條。
這意味著無論是軟體層面的演算法,或是硬體層面的視覺感測器、FSD晶片等零件,理論上都可以用於人形機器人。
特斯拉也的確是這麼做的:Tesla Bot共配置3顆攝像頭,左右眼各一個,外加一顆魚眼廣角。晶片是和特斯拉電動車一模一樣的FSD自動駕駛晶片。軟體上,Tesla Bot也承襲了自動駕駛的技術方案。
2023年特斯拉股東大會,馬斯克也確認了這一點:特斯拉已經打通了自動駕駛晶片FSD和機器人的底層模組,實現了一定程度的演算法重複使用。
任何人工智慧的發展都需要演算法、算力、資料三駕馬車來拉動,演算法決定了電腦用什麼方式辨識事物;但演算法又需要足夠大的算力來驅動;同時,演算法的提升又需要大規模高品質的數據;三者相輔相成,缺一不可。
演算法和算力層面,特斯拉已經借助電動車業務,完成了從雲端(D1)到終端(FSD),核心軟硬體的自研。
資料層面,2022年的AI Day上,特斯拉宣稱已經儲存的有價值訓練資料集有23.2萬幀,驗證資料集0.38萬幀。上百萬車主正在源源不絕的為演算法訓練貢獻資料。
馬斯克本人在AI領域的涉足也常被忽略,他是OpenAI的創始人之一,也是DeepMind的早期投資人。他參與的人工智慧公司還有腦機晶片Neuralink、聊天機器人Grok。特斯拉每天接受並處理的影片畫面超過1,600億幀,這很可能是商業公司能擁有的最大的真實世界資料集。
波士頓動力很可能意識到了這個問題,但「煥新版」Atlas最大的改變,是從液壓改為全電動,最大的好處可能是降低成本。
在一次訪談中,創辦人Marc Raibert曾表示Atlas在某種程度上激勵了馬斯克製造Tesla Bot的想法。但在人工智慧殘酷的競爭中,波士頓動力已經落後太多。
波士頓動力的問題在於,他們花了20年的時間試圖教導機器人如何“運動”,但實際上,機器人應該先學會“思考”。
或許在不久的將來,判斷機器人的智能化程度,可能不是看它會不會後空翻大劈叉,而是能不能從九張圖片中選出包含紅綠燈或摩托車的圖片,或者滑動滑塊使圖片位於正確的角度。
[1] Don't overthink it: Elon Musk's Tesla Bot is a joke,The Verge
[2] Modest Debut of Atlas May Foreshadow Age of 'Robo Sapiens',The NewYorker Times
[3] Google's Andy Rubin Pursues 'Replicant' Robots,The Information
[4] Google Puts Boston Dynamics Up for Sale in Robotics Retreat,bloomberg
[5] Flipping the Script with Atlas,Boston Dynamics
[6] Elon Musk was likely inspired by Boston Dynamics' humanoid robot, its founder says,Businessinsider
( 遠川科技評論 )