人與人之間的交流,除了語言,還可以通過手勢、面部表情和身體語言傳遞更多的資訊。同樣,機器人在與人類互動時,如果能夠通過合適的手勢和動作來表達情感,互動就會變得更加流暢和自然。
在現階段,機器人雖然能夠執行一些簡單的手勢動作,但這些動作通常是預設的,缺乏靈活性,無法根據不同的社交情境做出合適的反應。
為了讓人形機器人能夠“讀懂”動作,並且做動作時更自然,Apple AIML研究人員Peide Huang在2024年10月的論文中提出了EMOTION框架。近期,該論文獲得了業界的廣泛關注。EMOTION框架通過大型語言模型(LLM)和視覺語言模型(VLM),幫助機器人生成自然且符合情境的手勢動作。
這樣,機器人不僅能夠做出“豎大拇指”或“揮手”等簡單手勢,還能根據不同的交流環境做出動態、富有表現力的手勢,提升與人類的互動體驗。