有一種看似非常簡單的方式可以描述“物理 AI”究竟是什麼,而且任何具備 STEM 背景的人都能直覺地理解它。像所有其他 AI 模型一樣,控制機器人的模型本質上也是一個函數。它接收觀測輸入(攝影機像素、關節角度、夾爪感受到的阻力等),並輸出動作,也就是其電機下一組位置與扭矩指令。除此之外的所有內容——那些複雜的演算法、訓練方法,以及資料規模化理論——本質上都是在服務於一件事:產出這個函數的一個優良版本,並把它嵌入神經網路的權重之中。
本文來源於 An Overview of Modern AI Robotics from First Principles,翻譯整理而來,僅供參考。如需查看英文原版及更多資料,可在文末獲取。
圖 1 · 策略函數
圖 1 機器人的策略本質上是一個函數。觀測資訊從左側持續流入,網路對其進行提煉,然後一組動作指令從右側持續流出——機械臂的每一個關節、每一個自由度都對應一條指令。這個領域裡其餘的一切工作,都是為了讓這一個函數變得足夠優秀、足夠快速。