對話科大訊飛劉聰：訊飛超腦平台已賦能420家機器人企業

2024/08/23

•

8月21日-25日，為期5天的2024世界機器人大會在北京舉行。

今年世界機器人大會期間，AI領域龍頭“科大訊飛”展示超腦2030計畫最新科技成果，包括全球首個整合大模型和多模態強化學習控制的人形機器人等眾多在機器人領域的成果。

22日下午，科大訊飛副總裁、研究院院長劉聰接受了包括鈦媒體AGI在內的小規模採訪。

劉聰表示，訊飛機器人超腦平台已賦能420家機器人企業，深度連結1.5萬機器人開發者，與優必選、北京具身智能人形機器人創新中心、宇樹科技等企業達成廣泛合作。

劉聰坦言，大模型將為人形機器人智能化帶來巨大提升空間。8月19日推出的星火極速超擬人互動技術，在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現突破，對標GPT-4o語音功能。這項技術與機器人結合後，機器人能更快聽懂使用者的語言表達，也能更快作出響應，還能結合當下語境和場景洞察使用者意圖，讓機器人更有“人情味兒”，提升情感陪伴等能力。

“星火極速超擬人互動技術一套全新對標GPT-4o。但現在在對標的基礎之上，我們也要走出自己的創新之路，所謂的對標是在能力上的對標。現在當然我們不是期貨，30號大家就能體驗到了整個語音互動、加上語音識別和文字，輸到大模型裡面給一個結果再把合成出來，原來的模式最起碼三秒的時間，但是現在我們真正的端到端。輸入進去就是一個語音快速輸出語音。”劉聰表示。

據悉，科大訊飛的訊飛研究院成立於2005年，致力於人工智慧核心技術的研發，主要研究方向包括智能語音方向（語音識別、語音合成、語義理解、聲學前端、聲紋識別、音訊分析等）；電腦視覺方向（視覺基礎演算法、圖文識別、視訊分析、虛擬形象、自動駕駛、工業視覺等）；自然語言處理方向（語音互動、人機對話、機器翻譯、司法認知、語言學習、教育認知、閱讀理解、前瞻認知等）和認知智能大模型，始終保持核心技術業界一流水平，積極推動技術落地行業的規模化應用。

科大訊飛作為佈局人形機器人的代表企業之一，在2024年世界機器人大會上攜全新升級的大模型+具身智能的人形機器人，以及訊飛機器人超腦平台亮相。

“在大模型加持下，可以推動具身智能與機器人運動控制深度結合。大模型將為人形機器人智能化帶來巨大提升空間。”劉聰表示，大模型的思維鏈推理能力將顯著提升人形機器人對於複雜任務的理解能力，並提供符合物理世界常識的拆解規劃。此外，將具身感知模型和具身決策模型相結合，也極大提升人形機器人在真實場景下的多模態感知和理解能力。

結合雲端協同技術和星火大模型的核心能力，科大訊飛在國內率先拉通以大模型和具身智能為代表的機器人“大小腦”到“肢體”運動控制的全鏈路。今年6月，訊飛星火大模型V4.0發佈，底座能力全面對標GPT-4 Turbo，其中，多模態能力升級使得機器人的互動能力更強，也讓機器人在開放場景下的環境感知和理解能力進一步提升。

另外，語音是萬物互聯的入口，語音互動的變革也將引領新一輪機器人產業變革。

劉聰指出，AI大模型帶來的革新，讓科研工作、專業的行業的虛擬助手都有非常大的空間，所以這不亞於網際網路和個人電腦的這樣一個時代。

在劉聰看來，機器人最終進入家庭場景的時間會相當長。如果機器人有一定的運動能力，可能需要3-5年。而機器人進入到千家萬戶家庭場景的時間則更長一些，非常複雜，這個時候會對雙足的靈活性有一些需求。“但它是不是到底一定是雙足，不一定”。

“技術怎麼樣，不是一個‘錘子’去錘‘釘子’，而是的確我在各個場景我需要什麼樣的東西。這個說白了，就是我的一個理解，你有的時候展示一個東西，到最終用的東西其實是不大一樣的。”劉聰認為，隨著大模型能力增強，機器人的發展方向肯定是“樂觀”，至少是曙光，但一款硬體從展示到真正這個好用，還是有一個長期、持續的路要走。 (鈦媒體AGI )