訊飛版「Her」橫空出世全民開放！百變人設逼真絲滑，情緒價值逆天

2024/09/01

•

【新智元導讀】OpenAI的「Her」還是期貨，訊飛星火版「Her」就搶先上線了！不僅極速響應自由打斷，還情緒價值拉滿，各種情感、風格、方言隨意切換。熊二被召喚出來的時候，家裡的熊孩子直接被硬控了30秒。

就在昨天，人類與機器的對話方式，全面升級了！

我們在使用一番之後，可謂是大開眼界。

比如，讓它用天津話講段相聲。

您別說，這味兒可太對了！

敲黑板：作為國內首個「極速超擬人互動」，這款訊飛星火版的「Her」，已經全民開放體驗了！

只要下載訊飛星火APP，即可體驗對標GPT-4o的超自然AI語音助手。

目錄中

實測驚豔

要知道，傳統的語音互動，一直面臨著三大挑戰：精準理解說話人意圖；生成恰當響應；高效通過聲音傳達資訊。

以往的語音互動，一直無法擺脫滿滿的智障味兒，就是因為這些環節中的延遲，大大拉低了使用者體驗。

而這一次，人機之間的互動，將如真人般自然流暢。

那麼問題來了，所謂的「超擬人」到底有多擬人？

直觀感受是：我們也有自己的「GPT-4o」了！

極速響應，自由打斷

此前，我們見到的語音AI，總是給人感覺不太聰明的樣子。

如果忽然打斷它，它就瞬間蒙圈了，要麼接不上來，要麼就開始「已讀亂回」。

但這次的小星，模型響應的快速和流暢度讓人眼前一亮。

即使隨時打斷、插話，小星依舊能做到秒回，這個快速反應能力，讓我們的觀感彷彿真人一般。

比如，我們拿前段時間的全球大熱點——巴黎奧運會考一考小星：「中國隊在巴黎奧運會上獎牌總數排行第幾？」

小星瞬間回覆，而且在搜尋過程中還使用了「讓我來數一數」這種流暢的過渡方式，讓互動過程更加自然。

可能是搜尋結果太過全面，小星不僅把金銀銅牌的總數都說了出來，還開始總結中國隊的優勢項目。

可以感覺到，整個語音交流的過程中非常順暢，非常自然，即使隨時打斷它，它都能立刻給出正確的反應，而不是跟一個「人工智障」在對話，這個感覺真是太~爽~了~

不僅如此，小星「緊跟熱點」的能力也是相當令人滿意。

十一調休安排過於混亂？只要問一句，它就能給你解釋得明明白白——

之所以模型的響應如此之快，如此之流暢，是因為它採用的是統一神經網路，直接實現了語音到語音的端到端建模。

情緒價值拉滿，情商秒殺部分人類

第二個非常鮮明的特點是，小星對情緒的感知，實在是太敏銳了。

無論是高興、悲傷、生氣、害怕，我們話中的情緒，它都能立刻識別出來，敏銳地和你的情緒產生共鳴。

然後，它會自動把你代入符合情境的對話，然後用合適的情緒語氣，進行貼心的回覆。

可以說，簡直秒殺了部分人類。

要上台演講了，看著台下的幾百個觀眾，緊張得手直抖，不用怕，小星來貼心地安慰你。

「我從未見過如此厚顏無恥之人」的網路熱梗，它都知道，識別出這句話中的情緒，自然也是不在話下。

然後，我們還能讓它用開心/沮喪/搞怪的方式來描述一下今天的天氣。

你見過有帶著哭腔念出的「全天多雲」嗎？

其實，從日常的交流中也可以感受到小星的豐富情緒。

比如沒有聽清問題時會不好意思地微笑，平時交流時始終情緒高漲、語氣上揚，但察覺到你的消極情緒時，語氣又會變得十分關切柔和，情緒價值給得相當到位。

注意，它並不是簡單地通過語音文字來進行情緒的判斷，而是針對複雜場景下的語音識別效果做了提升，因而能夠感知數十種情緒。

表達方式隨心控，情感、風格、方言都不在話下

在交流中，小星可以跟隨你的指令，控制數十種情感、風格、方言，還可以變換語速。

比如，讓它開心地給我們講一段睡前故事。

好聽，但是還能更誇張一點嗎？完全可以！

而且，這個小狐狸和月亮的故事，充滿詩意和淡淡的傷感，還懸念十足，聽到最後我們都為小狐狸的堅持而感動。

誒，暑假哄娃神器，這不就來了嘛。

我們還能讓它用主持人的口氣，給咱們讀一篇文章。不得不說，小星的朗誦十分有感染力，值得鼓掌！

如果你厭倦了同一種語調，還可以讓小星大展身手——扮演東北大哥給你來段相聲。

聽完之後，沒忍住吐槽了一句：就這？

您猜怎麼著，小星竟然絲滑地接過了話茬。這體驗也太類人了，彷彿手機裡真住了個大哥。

小星說起天津話來，也是妥妥的喜劇人一枚，那是相當干哏倔脆、調皮搗蛋。

跟悟空聊西遊，百變人設任意切換

小星的超擬人互動，還擁有百變人設，一不小心就被挖掘出「戲精」的一面。

孫悟空、蠟筆小新、小豬佩奇……多種角色的音色、語氣，它都模仿得惟妙惟肖，甚至還能模仿他們的人設和你聊天。

只需要一句簡單的指令：「扮演XX和我對話」，就能隨時和它來一場「語音cosplay」了。

只要幾句話，我們就召喚出孫悟空了。

那就讓我們問一下，取經過程中最難忘的一件事？

看來，白骨精著實給了他不小的陰影。

下一秒，小星就林妹妹上身，「三分柔弱兩分溫柔四分譏誚一分氣惱」的feel，拿捏得是十分到位。

被問到「在大觀園中最喜歡和誰一起玩」時，黛玉的回答是薛寶釵和史湘雲。

聽，小星模仿起熊二的聲音和語氣簡直是惟妙惟肖，瞬間從陽光開朗大男孩變成了一隻愛吃蜂蜜的傻萌棕熊，回答問題時也全程在人設內，完全不會OOC。

另外，我們還發現，小星回答問題的知識水平也令人刮目相看。難怪許多人沉迷和AI「談戀愛」，有「智性戀」那味兒了。

無聊時，可以喚醒它來和你玩兒一段成語接龍解悶——

讓它解釋物理學概念「胡克定律」和「能量守恆定律」，小星依舊能做到「秒回」。

而且絕不僅是機械地背概念，而是結合彈簧、陀螺這種生活中的例子向你繪聲繪色地解釋，還會生動地把能量守恆定律比作「大自然的記帳本」。

端到端新模型，讓互動快如閃電

相較以往的語音互動，此次的訊飛星火極速超擬人互動，有何不同？

傳統語音互動系統，若要實現和人的對話，一般需要通過語音識別——自然語言理解——自然語言生成，這三步來實現。具體來說：

第一步，需要通過語音系統，將語音轉換為文字；

第二步，利用大模型生成回覆的文字；

第三步，再用語音合成系統，轉換成語音。

此前，輝達高級科學家Jim Fan曾表示，這也是讓Siri/Alexa互動能力，提升10倍速的秘訣。

他利用當前先進的AI語音系統Whisper、大模型ChatGPT、以及語音合成技術VALL-E，重述了這一過程。

不過，這一過程需要三個獨立管道串聯才可實現，因此會帶來響應延遲，至少需要3秒左右。

另一方面，語音轉文字再轉語音的過程中，我們語音中的情感、副語言資訊，甚至是環境資訊都會丟失。

這樣一來，導致語音互動系統，只能針對轉換之後的文字資訊進行回應，不能有效靈活地做出應答。

由此，基於以上問題，科大訊飛提出了極速超擬人語音互動框架——一個端到端跨文字、音訊模型的新模型。

雖然模型內部劃分了多個模組，但仍是一個「統一模型」。

使用者語音通過音訊編碼器模組，編碼成音訊表徵，然後通過介面卡，將其與文字的語義表徵對齊。

再通過多模態大模型，去預測生成表徵，最後通過音訊解碼器得到語音。

相較於傳統語音互動系統，端到端統一模型以知識對齊表徵方式，讓資訊在各個模組之間傳遞。

這意味著，同一個神經網路直接實現語音-語音的建模，輸入和輸出皆由相同神經網路處理，大大縮短了對話響應時間。

同時，音訊中的情感、環境中資訊，它都可以沒有損失地進行傳遞。

從上面實測例子能夠深刻感知，人類和AI互動終於從你一句、我一句的「聊天軟體模式」，切換到對答如流的「日常交流模式」。

不僅如此，整個系統的資訊實現了無損貫穿，讓互動更加擬人化、豐富流暢。

核心：語音屬性解耦表徵

若說極速超擬人語音互動最大的不同，就是訊飛開發了一種特殊的語音訓練方法——多維度語音屬性解耦表徵訓練。

它能夠將語音的不同屬性分開處理，比如語種、內容、韻律、音色。

要知道，語音中的所有屬性都是耦合在一起的，比如你說話的情緒和吐出的內容，是密不可分的。

那麼，如何將這些表徵分開，如何確保它在下游任務中充分利用，對解耦能力提出了更高的要求。

對此，訊飛團隊做了很多對比loss學習，以及研發預測自監督學習等一些方案。

不過需要提一句，這裡並非說，必須把所有表徵資訊徹底分開。這就需要把握一個度，在TTS中就可以控制的更好。

這種方法，能夠讓不同語音樣本之間，實現更好的學習效果。

另外，它還能更靈活地控制內容、音色、情感等元素，滿足不同場景和需求。甚至，通過更便捷的相關定製，可加速落地過程。

雖然OpenAI版Her還未全面開放，但訊飛版Her已經完全開放使用了。

20億終端或被顛覆

語音互動是人機互動的一個子集，也是萬物互聯最自然的一個互動方式。

從歷史上看，人機語音互動經歷了幾個重要的發展階段。

第一個里程碑便是，以Siri語音助手為代表雲端語音助手的出現，標誌著語義互動技術的一大突破。

這是基於語音單點技術的進步，通過將這些技術巧妙地結合，語音助手能夠專注於執行基本的指令控制功能。

比如，設定鬧鐘、查詢天氣、播放音樂等等。

第二階段是以「智能音箱」為代表的產品，得益於麥克風陣列處理技術改進，以及遠場語音識別能力的提升，使得裝置互動可以在很遠的距離進行，比如家庭環境。

到了第三階段，便是以智能汽車語音助手為代表的互動，多音區技術、雲端意圖識別等技術發展，實現了多人複雜指令控制。

最後一階段，就是以ChatGPT發佈為起點，開創的全新語音對話的新範式。

這一次，訊飛語音互動系統的升級，帶來的更快響應、更懂情緒、更加靈活、更加百變的優勢，足以重寫整個語音互動市場。

2023全球數字經濟大會上，來自工信部資料顯示，截止去年5月，中國移動物聯網終端使用者超過20.5億。

而從產業發展來看，智能語音正迎來應用突破、產業擴展的黃金期。

據IDC分析，預計到2030年，全球智能語音服務市場規模將達約731.6億美元，複合增長率27%。

國內外科技公司看準這片藍海，紛紛入局開發，掀起了新一輪人機互動革命。

不光GPT-4o的語音功能還在內測；Google宣發的Gemini Live，也僅面向高級訂閱使用者使用。

反觀國內，鮮有大廠能夠站出，以匹敵OpenAI版Her產品的姿態，與之進行正面競爭。

憑藉語音起家的科大訊飛，是其中最強悍的挑戰者之一。

這是因為，訊飛星火大模型在不斷迭代過程中，逼近國際領先水平。

今年1月，訊飛星火V3.5發佈，歷經5個月的時間，再次迭代至V4.0版本，整體能力超越OpenAI的GPT-4 Turbo。

同在1月，訊飛還首發了語音大模型，實現首批37個主流語種語音識別效果超過OpenAI Whisper V3。

基於訊飛全球領先的多語種語音技術，語音大模型隨後再度升級，支援74種語言方言免切換輸入。

時隔1個月，訊飛在極速超擬人互動上取得的技術突破，足夠讓終端裝置實現「無感迭代」。

設想一下，當你有了這樣的裝置，不僅手握百科全書，還擁有了一個得力的助手、最親密的夥伴/朋友。

未來三大計畫，讓AI互動走進更多場景

科大訊飛表示，基於全新端到端框架，未來新系統還會朝著三大方向去拓展：更多模態、更多語言、更好體驗，帶來更實用、更豐富的功能。

這也代表著國產大模型如今早已從追趕、對標，快進到了自主創新的差異化之路。

不僅如此，訊飛還要雙管齊下，加速極速超擬人互動落地，便是下一個需要瞄準的方向。

一項技術只有落地了，才能彰顯它的價值。

未來，訊飛可能會佈局情感陪伴場景，將極速超擬人互動整合到兒童機器人中，又或是賦予線上IP能夠感知使用者情緒的能力。

另外，便是在智慧汽車、智慧家電等方面大規模開拓應用。

這一技術的應用和普及，還隱藏著巨大的可能性——語音市場在這個時代將被改寫，語音互動帶動萬物互聯的第六次產業浪潮，有望出現一次井噴。

智能語音技術，將進一步應用到智慧型手機、智能汽車、智能家電以及智能家居等產品中。

據IDC分析，到2030年，全球智能語音服務市場規模將達約731.6億美元，複合增長率27%。科大訊飛，有望收穫這一輪產業紅利。

中國AI語音的ChatGPT時刻，指日可待。 (新智元)