蘋果機器人新突破:賦予機器人“靈動”手勢,和人類一樣有魅力
人與人之間的交流,除了語言,還可以通過手勢、面部表情和身體語言傳遞更多的資訊。同樣,機器人在與人類互動時,如果能夠通過合適的手勢和動作來表達情感,互動就會變得更加流暢和自然。
在現階段,機器人雖然能夠執行一些簡單的手勢動作,但這些動作通常是預設的,缺乏靈活性,無法根據不同的社交情境做出合適的反應。
為了讓人形機器人能夠“讀懂”動作,並且做動作時更自然,Apple AIML研究人員Peide Huang在2024年10月的論文中提出了EMOTION框架。近期,該論文獲得了業界的廣泛關注。EMOTION框架通過大型語言模型(LLM)和視覺語言模型(VLM),幫助機器人生成自然且符合情境的手勢動作。
這樣,機器人不僅能夠做出“豎大拇指”或“揮手”等簡單手勢,還能根據不同的交流環境做出動態、富有表現力的手勢,提升與人類的互動體驗。
EMOTION利用大型語言模型(LLM)和視覺語言模型(VLM),讓機器人能夠理解並生成符合社交情境的手勢。
根據蘋果發表的論文顯示,EMOTION框架大語言模型主要用於動作生成序列,通過呼叫OpenAI GPT-4的API進行文字補全來實現;VLM 主要使用的是Vision Transformers技術,幫助機器人從圖像中提取重要資訊,比如 3D 關鍵點,如同人眼憑藉識別物體形狀來理解其資訊,機器人也能借助這種技術解讀圖片中的資訊。
這些模型如同機器人的“社交大腦”。當機器人看到某個情景或接收到語言指令時,框架會通過“學習”這些資訊,迅速生成合適的動作。
例如,看到某個人正在解題,機器人會自動做出一個“豎大拇指”的手勢,以表達鼓勵和支援。
這種能力的核心,在於機器人能根據社交環境自動“判斷”最合適的動作,而不是依賴於預設的、固定的程序。
那麼,EMOTION是如何做到這一點的呢?
其實,它的工作流程就像是一個高度智能化的“手勢工廠”。
首先,機器人會通過“上下文學習”,即理解當前情境所傳達的情感和資訊。當機器人接收到社交情境的輸入時,比如一個語言指令,或者是機器人對周圍環境的視覺觀察,它會根據這些理解,通過模型生成符合情境的動作序列,就像畫家根據不同的題材創作出各具風格的作品。
這一過程的關鍵在於動態生成。與傳統的預設手勢不同,EMOTION能夠根據每一次互動的獨特情境,生成與之最匹配的手勢。例如,機器人可能會因為不同的情緒表達或任務需求,做出不同的手勢,而不是重複固定的動作。這使得機器人不僅是一個簡單的“執行者”,更像是一個可以與人類進行富有表現力對話的夥伴。
其次,儘管EMOTION本身已能夠生成多樣化的手勢,但人類的反饋仍然是提升互動質量的關鍵。通過引入EMOTION++版本,機器人能夠在與人類的互動中,學習和調整自己的表現。這個過程就像是一個藝術家不斷在作品上進行打磨,直到它達到了更為自然和合適的效果。
在這個過程中,人類可以通過反饋告訴機器人那些動作看起來更自然、那些手勢更易於理解。例如,假如機器人做出一個“聽”的手勢,但這個手勢的手臂位置不夠直觀,可能讓人誤解為“停止”或“擁抱”,那麼通過人類的調整建議,機器人可以最佳化這個手勢,最終呈現出更加合適的表達。
通過這種人類反饋的持續最佳化,機器人生成的動作變得更加符合人類的期望和社交習慣,從而提升了機器人在互動中的自然性和可理解度。最終,EMOTION框架不僅使機器人能夠做出正確的手勢,還能使它們在與人類交流時表現得更富有“情感”和“智慧”。
為了驗證EMOTION框架的有效性,研究團隊設計了一項使用者研究,目的就是對比EMOTION生成的手勢與人類親自表演的手勢在自然性和理解度上的差異。
這就像是在評選誰的“表演”更具魅力——是機器人還是人類?
在實驗中,參與者觀看了由機器人和人類演示的手勢視訊,然後對這些手勢的自然性和可理解性進行了評分。結果顯示,EMOTION生成的手勢與人類手勢之間並沒有顯著的差異。簡而言之,機器人做的手勢在大多數情況下與人類的動作一樣自然、容易理解。
(ORACLE:表示由人類示範的手勢,是實驗中的對比組,作為參考。EMOTION:表示由EMOTION框架生成的手勢,基於大型語言模型(LLM)和視覺語言模型(VLM)進行生成的機器人手勢。EMOTION++:表示通過EMOTION框架生成的手勢,但在此基礎上引入了人類反饋(最佳化版本),以進一步提升手勢的自然性和可理解度。)
然而,儘管EMOTION表現良好,它仍有一些不足,特別是在某些細節的處理上。部分手勢,尤其是更為複雜或細膩的動作,仍需要進一步的最佳化和調整。
那麼,是什麼影響了這些手勢的自然性和理解度呢?
第一點,研究表明,手勢的細節在這其中起著至關重要的作用,也就是硬體限制。
比如,當前的機器人硬體可能無法靈活地模擬所有細膩的手勢。例如,手的位置和手指的姿勢直接決定了手勢是否能夠準確傳達意圖。就像你在用手勢傳達“OK”時,如果手指的彎曲程度不對,別人可能會誤解成“歪了的OK”或者完全不理解你的意圖。
第二點,動作模式也起到了重要作用。想像一下,如果你讓機器人做一個“停止”的手勢,動作的“流暢性”和“直觀性”決定了觀眾能否立刻理解這個動作。如果動作過於生硬,或是路徑不夠直接,就容易造成誤解。因此,EMOTION需要精細調整手勢的流暢度和精準度,確保每一個動作都能迅速且精準地傳達出正確的資訊。
第三點,計算時間是挑戰。生成每個動作序列需要一定的時間,而目前的計算速度可能不能滿足即時互動的需求。為了讓機器人能夠像人類一樣在自然對話中快速做出反應,計算時間需要進一步減少。
通過實驗統計顯示:
第一,生成初始動作序列的時間普遍較長。例如,對於“Thumbs-up”手勢,初始序列生成的時間為28.7秒,而其他手勢的時間也大致在24秒到33秒之間。這表明,機器人在初次生成動作時,需要較多的計算和處理時間。
第二,在加入人類反饋後,計算時間普遍縮短。例如,“Thumbs-up”手勢在人類反饋後的時間降至24.4秒,相較於初始生成的時間,明顯減少。這意味著,通過人類反饋最佳化手勢序列後,機器人能夠更高效地調整和改進動作。
面對這些挑戰,未來的解決方向包括最佳化硬體設計,提升機器人的關節和手指靈活性;同時,加速計算過程,利用更高效的演算法和本地化計算,縮短響應時間。
隨著EMOTION框架的進一步發展,機器人不僅能在實驗環境中表現出色,還可以在不同的應用場景中發揮更大的潛力。例如,家庭助手、教育機器人、醫療機器人等,未來都能借助EMOTION框架,進行更加自然和富有表現力的互動。 (騰訊科技)