蘋果機器人新突破：賦予機器人“靈動”手勢，和人類一樣有魅力

2025/02/10

•

人與人之間的交流，除了語言，還可以通過手勢、面部表情和身體語言傳遞更多的資訊。同樣，機器人在與人類互動時，如果能夠通過合適的手勢和動作來表達情感，互動就會變得更加流暢和自然。

在現階段，機器人雖然能夠執行一些簡單的手勢動作，但這些動作通常是預設的，缺乏靈活性，無法根據不同的社交情境做出合適的反應。

為了讓人形機器人能夠“讀懂”動作，並且做動作時更自然，Apple AIML研究人員Peide Huang在2024年10月的論文中提出了EMOTION框架。近期，該論文獲得了業界的廣泛關注。EMOTION框架通過大型語言模型（LLM）和視覺語言模型（VLM），幫助機器人生成自然且符合情境的手勢動作。

這樣，機器人不僅能夠做出“豎大拇指”或“揮手”等簡單手勢，還能根據不同的交流環境做出動態、富有表現力的手勢，提升與人類的互動體驗。

EMOTION利用大型語言模型（LLM）和視覺語言模型（VLM），讓機器人能夠理解並生成符合社交情境的手勢。

根據蘋果發表的論文顯示，EMOTION框架大語言模型主要用於動作生成序列，通過呼叫OpenAI GPT-4的API進行文字補全來實現；VLM 主要使用的是Vision Transformers技術，幫助機器人從圖像中提取重要資訊，比如 3D 關鍵點，如同人眼憑藉識別物體形狀來理解其資訊，機器人也能借助這種技術解讀圖片中的資訊。

這些模型如同機器人的“社交大腦”。當機器人看到某個情景或接收到語言指令時，框架會通過“學習”這些資訊，迅速生成合適的動作。

例如，看到某個人正在解題，機器人會自動做出一個“豎大拇指”的手勢，以表達鼓勵和支援。

這種能力的核心，在於機器人能根據社交環境自動“判斷”最合適的動作，而不是依賴於預設的、固定的程序。

那麼，EMOTION是如何做到這一點的呢？

其實，它的工作流程就像是一個高度智能化的“手勢工廠”。

首先，機器人會通過“上下文學習”，即理解當前情境所傳達的情感和資訊。當機器人接收到社交情境的輸入時，比如一個語言指令，或者是機器人對周圍環境的視覺觀察，它會根據這些理解，通過模型生成符合情境的動作序列，就像畫家根據不同的題材創作出各具風格的作品。

這一過程的關鍵在於動態生成。與傳統的預設手勢不同，EMOTION能夠根據每一次互動的獨特情境，生成與之最匹配的手勢。例如，機器人可能會因為不同的情緒表達或任務需求，做出不同的手勢，而不是重複固定的動作。這使得機器人不僅是一個簡單的“執行者”，更像是一個可以與人類進行富有表現力對話的夥伴。

其次，儘管EMOTION本身已能夠生成多樣化的手勢，但人類的反饋仍然是提升互動質量的關鍵。通過引入EMOTION++版本，機器人能夠在與人類的互動中，學習和調整自己的表現。這個過程就像是一個藝術家不斷在作品上進行打磨，直到它達到了更為自然和合適的效果。

在這個過程中，人類可以通過反饋告訴機器人那些動作看起來更自然、那些手勢更易於理解。例如，假如機器人做出一個“聽”的手勢，但這個手勢的手臂位置不夠直觀，可能讓人誤解為“停止”或“擁抱”，那麼通過人類的調整建議，機器人可以最佳化這個手勢，最終呈現出更加合適的表達。

通過這種人類反饋的持續最佳化，機器人生成的動作變得更加符合人類的期望和社交習慣，從而提升了機器人在互動中的自然性和可理解度。最終，EMOTION框架不僅使機器人能夠做出正確的手勢，還能使它們在與人類交流時表現得更富有“情感”和“智慧”。

為了驗證EMOTION框架的有效性，研究團隊設計了一項使用者研究，目的就是對比EMOTION生成的手勢與人類親自表演的手勢在自然性和理解度上的差異。

這就像是在評選誰的“表演”更具魅力——是機器人還是人類？

在實驗中，參與者觀看了由機器人和人類演示的手勢視訊，然後對這些手勢的自然性和可理解性進行了評分。結果顯示，EMOTION生成的手勢與人類手勢之間並沒有顯著的差異。簡而言之，機器人做的手勢在大多數情況下與人類的動作一樣自然、容易理解。

（使用者對生成的機器人表現性行為的可理解性和自然性的評分，按手勢分類。*和**表示統計學意義，其中*表示p < 0.05，**表示p < 0.01。誤差條表示均值的標準誤差（SE））

（ORACLE：表示由人類示範的手勢，是實驗中的對比組，作為參考。EMOTION：表示由EMOTION框架生成的手勢，基於大型語言模型（LLM）和視覺語言模型（VLM）進行生成的機器人手勢。EMOTION++：表示通過EMOTION框架生成的手勢，但在此基礎上引入了人類反饋（最佳化版本），以進一步提升手勢的自然性和可理解度。）

然而，儘管EMOTION表現良好，它仍有一些不足，特別是在某些細節的處理上。部分手勢，尤其是更為複雜或細膩的動作，仍需要進一步的最佳化和調整。

那麼，是什麼影響了這些手勢的自然性和理解度呢？

第一點，研究表明，手勢的細節在這其中起著至關重要的作用，也就是硬體限制。

比如，當前的機器人硬體可能無法靈活地模擬所有細膩的手勢。例如，手的位置和手指的姿勢直接決定了手勢是否能夠準確傳達意圖。就像你在用手勢傳達“OK”時，如果手指的彎曲程度不對，別人可能會誤解成“歪了的OK”或者完全不理解你的意圖。

第二點，動作模式也起到了重要作用。想像一下，如果你讓機器人做一個“停止”的手勢，動作的“流暢性”和“直觀性”決定了觀眾能否立刻理解這個動作。如果動作過於生硬，或是路徑不夠直接，就容易造成誤解。因此，EMOTION需要精細調整手勢的流暢度和精準度，確保每一個動作都能迅速且精準地傳達出正確的資訊。

第三點，計算時間是挑戰。生成每個動作序列需要一定的時間，而目前的計算速度可能不能滿足即時互動的需求。為了讓機器人能夠像人類一樣在自然對話中快速做出反應，計算時間需要進一步減少。

（通過多次運行實驗，計算了每次生成手勢所需的平均時間，並考慮了計算中可能的波動（標準差）；Initial sequence（初始序列），Single-round HF（單輪人類反饋））

通過實驗統計顯示：

第一，生成初始動作序列的時間普遍較長。例如，對於“Thumbs-up”手勢，初始序列生成的時間為28.7秒，而其他手勢的時間也大致在24秒到33秒之間。這表明，機器人在初次生成動作時，需要較多的計算和處理時間。

第二，在加入人類反饋後，計算時間普遍縮短。例如，“Thumbs-up”手勢在人類反饋後的時間降至24.4秒，相較於初始生成的時間，明顯減少。這意味著，通過人類反饋最佳化手勢序列後，機器人能夠更高效地調整和改進動作。

面對這些挑戰，未來的解決方向包括最佳化硬體設計，提升機器人的關節和手指靈活性；同時，加速計算過程，利用更高效的演算法和本地化計算，縮短響應時間。

隨著EMOTION框架的進一步發展，機器人不僅能在實驗環境中表現出色，還可以在不同的應用場景中發揮更大的潛力。例如，家庭助手、教育機器人、醫療機器人等，未來都能借助EMOTION框架，進行更加自然和富有表現力的互動。 (騰訊科技)