訊飛版「Her」橫空出世全民開放!百變人設逼真絲滑,情緒價值逆天


【新智元導讀】OpenAI的「Her」還是期貨,訊飛星火版「Her」就搶先上線了!不僅極速響應自由打斷,還情緒價值拉滿,各種情感、風格、方言隨意切換。熊二被召喚出來的時候,家裡的熊孩子直接被硬控了30秒。

就在昨天,人類與機器的對話方式,全面升級了!

我們在使用一番之後,可謂是大開眼界。

比如,讓它用天津話講段相聲。

您別說,這味兒可太對了!

敲黑板:作為國內首個「極速超擬人互動」,這款訊飛星火版的「Her」,已經全民開放體驗了!

只要下載訊飛星火APP,即可體驗對標GPT-4o的超自然AI語音助手。


目錄中


星火對話中


實測驚豔

要知道,傳統的語音互動,一直面臨著三大挑戰:精準理解說話人意圖;生成恰當響應;高效通過聲音傳達資訊。

以往的語音互動,一直無法擺脫滿滿的智障味兒,就是因為這些環節中的延遲,大大拉低了使用者體驗。

而這一次,人機之間的互動,將如真人般自然流暢。


那麼問題來了,所謂的「超擬人」到底有多擬人?

直觀感受是:我們也有自己的「GPT-4o」了!

極速響應,自由打斷

此前,我們見到的語音AI,總是給人感覺不太聰明的樣子。

如果忽然打斷它,它就瞬間蒙圈了,要麼接不上來,要麼就開始「已讀亂回」。


但這次的小星,模型響應的快速和流暢度讓人眼前一亮。

即使隨時打斷、插話,小星依舊能做到秒回,這個快速反應能力,讓我們的觀感彷彿真人一般。

比如,我們拿前段時間的全球大熱點——巴黎奧運會考一考小星:「中國隊在巴黎奧運會上獎牌總數排行第幾?」

小星瞬間回覆,而且在搜尋過程中還使用了「讓我來數一數」這種流暢的過渡方式,讓互動過程更加自然。

可能是搜尋結果太過全面,小星不僅把金銀銅牌的總數都說了出來,還開始總結中國隊的優勢項目。

可以感覺到,整個語音交流的過程中非常順暢,非常自然,即使隨時打斷它,它都能立刻給出正確的反應,而不是跟一個「人工智障」在對話,這個感覺真是太~爽~了~

不僅如此,小星「緊跟熱點」的能力也是相當令人滿意。

十一調休安排過於混亂?只要問一句,它就能給你解釋得明明白白——

之所以模型的響應如此之快,如此之流暢,是因為它採用的是統一神經網路,直接實現了語音到語音的端到端建模。

情緒價值拉滿,情商秒殺部分人類

第二個非常鮮明的特點是,小星對情緒的感知,實在是太敏銳了。

無論是高興、悲傷、生氣、害怕,我們話中的情緒,它都能立刻識別出來,敏銳地和你的情緒產生共鳴。

然後,它會自動把你代入符合情境的對話,然後用合適的情緒語氣,進行貼心的回覆。

可以說,簡直秒殺了部分人類。


要上台演講了,看著台下的幾百個觀眾,緊張得手直抖,不用怕,小星來貼心地安慰你。

「我從未見過如此厚顏無恥之人」的網路熱梗,它都知道,識別出這句話中的情緒,自然也是不在話下。

然後,我們還能讓它用開心/沮喪/搞怪的方式來描述一下今天的天氣。

你見過有帶著哭腔念出的「全天多雲」嗎?

其實,從日常的交流中也可以感受到小星的豐富情緒。

比如沒有聽清問題時會不好意思地微笑,平時交流時始終情緒高漲、語氣上揚,但察覺到你的消極情緒時,語氣又會變得十分關切柔和,情緒價值給得相當到位。

注意,它並不是簡單地通過語音文字來進行情緒的判斷,而是針對複雜場景下的語音識別效果做了提升,因而能夠感知數十種情緒。

表達方式隨心控,情感、風格、方言都不在話下

在交流中,小星可以跟隨你的指令,控制數十種情感、風格、方言,還可以變換語速。

比如,讓它開心地給我們講一段睡前故事。

好聽,但是還能更誇張一點嗎?完全可以!

而且,這個小狐狸和月亮的故事,充滿詩意和淡淡的傷感,還懸念十足,聽到最後我們都為小狐狸的堅持而感動。

誒,暑假哄娃神器,這不就來了嘛。

我們還能讓它用主持人的口氣,給咱們讀一篇文章。不得不說,小星的朗誦十分有感染力,值得鼓掌!

如果你厭倦了同一種語調,還可以讓小星大展身手——扮演東北大哥給你來段相聲。

聽完之後,沒忍住吐槽了一句:就這?

您猜怎麼著,小星竟然絲滑地接過了話茬。這體驗也太類人了,彷彿手機裡真住了個大哥。

小星說起天津話來,也是妥妥的喜劇人一枚,那是相當干哏倔脆、調皮搗蛋。

跟悟空聊西遊,百變人設任意切換

小星的超擬人互動,還擁有百變人設,一不小心就被挖掘出「戲精」的一面。

孫悟空、蠟筆小新、小豬佩奇……多種角色的音色、語氣,它都模仿得惟妙惟肖,甚至還能模仿他們的人設和你聊天。

只需要一句簡單的指令:「扮演XX和我對話」,就能隨時和它來一場「語音cosplay」了。

只要幾句話,我們就召喚出孫悟空了。

那就讓我們問一下,取經過程中最難忘的一件事?

看來,白骨精著實給了他不小的陰影。

下一秒,小星就林妹妹上身,「三分柔弱兩分溫柔四分譏誚一分氣惱」的feel,拿捏得是十分到位。

被問到「在大觀園中最喜歡和誰一起玩」時,黛玉的回答是薛寶釵和史湘雲。

聽,小星模仿起熊二的聲音和語氣簡直是惟妙惟肖,瞬間從陽光開朗大男孩變成了一隻愛吃蜂蜜的傻萌棕熊,回答問題時也全程在人設內,完全不會OOC。

另外,我們還發現,小星回答問題的知識水平也令人刮目相看。難怪許多人沉迷和AI「談戀愛」,有「智性戀」那味兒了。


無聊時,可以喚醒它來和你玩兒一段成語接龍解悶——

讓它解釋物理學概念「胡克定律」和「能量守恆定律」,小星依舊能做到「秒回」。

而且絕不僅是機械地背概念,而是結合彈簧、陀螺這種生活中的例子向你繪聲繪色地解釋,還會生動地把能量守恆定律比作「大自然的記帳本」。

端到端新模型,讓互動快如閃電

相較以往的語音互動,此次的訊飛星火極速超擬人互動,有何不同?

傳統語音互動系統,若要實現和人的對話,一般需要通過語音識別——自然語言理解——自然語言生成,這三步來實現。具體來說:

第一步,需要通過語音系統,將語音轉換為文字;

第二步,利用大模型生成回覆的文字;

第三步,再用語音合成系統,轉換成語音。


此前,輝達高級科學家Jim Fan曾表示,這也是讓Siri/Alexa互動能力,提升10倍速的秘訣。


他利用當前先進的AI語音系統Whisper、大模型ChatGPT、以及語音合成技術VALL-E,重述了這一過程。


不過,這一過程需要三個獨立管道串聯才可實現,因此會帶來響應延遲,至少需要3秒左右。

另一方面,語音轉文字再轉語音的過程中,我們語音中的情感、副語言資訊,甚至是環境資訊都會丟失。

這樣一來,導致語音互動系統,只能針對轉換之後的文字資訊進行回應,不能有效靈活地做出應答。

由此,基於以上問題,科大訊飛提出了極速超擬人語音互動框架——一個端到端跨文字、音訊模型的新模型。

雖然模型內部劃分了多個模組,但仍是一個「統一模型」。

使用者語音通過音訊編碼器模組,編碼成音訊表徵,然後通過介面卡,將其與文字的語義表徵對齊。

再通過多模態大模型,去預測生成表徵,最後通過音訊解碼器得到語音。

相較於傳統語音互動系統,端到端統一模型以知識對齊表徵方式,讓資訊在各個模組之間傳遞。

這意味著,同一個神經網路直接實現語音-語音的建模,輸入和輸出皆由相同神經網路處理,大大縮短了對話響應時間。

同時,音訊中的情感、環境中資訊,它都可以沒有損失地進行傳遞。


從上面實測例子能夠深刻感知,人類和AI互動終於從你一句、我一句的「聊天軟體模式」,切換到對答如流的「日常交流模式」。

不僅如此,整個系統的資訊實現了無損貫穿,讓互動更加擬人化、豐富流暢。

核心:語音屬性解耦表徵

若說極速超擬人語音互動最大的不同,就是訊飛開發了一種特殊的語音訓練方法——多維度語音屬性解耦表徵訓練。

它能夠將語音的不同屬性分開處理,比如語種、內容、韻律、音色。


要知道,語音中的所有屬性都是耦合在一起的,比如你說話的情緒和吐出的內容,是密不可分的。

那麼,如何將這些表徵分開,如何確保它在下游任務中充分利用,對解耦能力提出了更高的要求。

對此,訊飛團隊做了很多對比loss學習,以及研發預測自監督學習等一些方案。

不過需要提一句,這裡並非說,必須把所有表徵資訊徹底分開。這就需要把握一個度,在TTS中就可以控制的更好。

這種方法,能夠讓不同語音樣本之間,實現更好的學習效果。

另外,它還能更靈活地控制內容、音色、情感等元素,滿足不同場景和需求。甚至,通過更便捷的相關定製,可加速落地過程。

雖然OpenAI版Her還未全面開放,但訊飛版Her已經完全開放使用了。

20億終端或被顛覆

語音互動是人機互動的一個子集,也是萬物互聯最自然的一個互動方式。

從歷史上看,人機語音互動經歷了幾個重要的發展階段。

第一個里程碑便是,以Siri語音助手為代表雲端語音助手的出現,標誌著語義互動技術的一大突破。

這是基於語音單點技術的進步,通過將這些技術巧妙地結合,語音助手能夠專注於執行基本的指令控制功能。

比如,設定鬧鐘、查詢天氣、播放音樂等等。


第二階段是以「智能音箱」為代表的產品,得益於麥克風陣列處理技術改進,以及遠場語音識別能力的提升,使得裝置互動可以在很遠的距離進行,比如家庭環境。

到了第三階段,便是以智能汽車語音助手為代表的互動,多音區技術、雲端意圖識別等技術發展,實現了多人複雜指令控制。

最後一階段,就是以ChatGPT發佈為起點,開創的全新語音對話的新範式。


這一次,訊飛語音互動系統的升級,帶來的更快響應、更懂情緒、更加靈活、更加百變的優勢,足以重寫整個語音互動市場。

2023全球數字經濟大會上,來自工信部資料顯示,截止去年5月,中國移動物聯網終端使用者超過20.5億。

而從產業發展來看,智能語音正迎來應用突破、產業擴展的黃金期。

據IDC分析,預計到2030年,全球智能語音服務市場規模將達約731.6億美元,複合增長率27%。

國內外科技公司看準這片藍海,紛紛入局開發,掀起了新一輪人機互動革命。

不光GPT-4o的語音功能還在內測;Google宣發的Gemini Live,也僅面向高級訂閱使用者使用。

反觀國內,鮮有大廠能夠站出,以匹敵OpenAI版Her產品的姿態,與之進行正面競爭。

憑藉語音起家的科大訊飛,是其中最強悍的挑戰者之一。

這是因為,訊飛星火大模型在不斷迭代過程中,逼近國際領先水平。

今年1月,訊飛星火V3.5發佈,歷經5個月的時間,再次迭代至V4.0版本,整體能力超越OpenAI的GPT-4 Turbo。

同在1月,訊飛還首發了語音大模型,實現首批37個主流語種語音識別效果超過OpenAI Whisper V3。


基於訊飛全球領先的多語種語音技術,語音大模型隨後再度升級,支援74種語言方言免切換輸入。

時隔1個月,訊飛在極速超擬人互動上取得的技術突破,足夠讓終端裝置實現「無感迭代」。

設想一下,當你有了這樣的裝置,不僅手握百科全書,還擁有了一個得力的助手、最親密的夥伴/朋友。


未來三大計畫,讓AI互動走進更多場景

科大訊飛表示,基於全新端到端框架,未來新系統還會朝著三大方向去拓展:更多模態、更多語言、更好體驗,帶來更實用、更豐富的功能。

這也代表著國產大模型如今早已從追趕、對標,快進到了自主創新的差異化之路。


不僅如此,訊飛還要雙管齊下,加速極速超擬人互動落地,便是下一個需要瞄準的方向。

一項技術只有落地了,才能彰顯它的價值。

未來,訊飛可能會佈局情感陪伴場景,將極速超擬人互動整合到兒童機器人中,又或是賦予線上IP能夠感知使用者情緒的能力。

另外,便是在智慧汽車、智慧家電等方面大規模開拓應用。

這一技術的應用和普及,還隱藏著巨大的可能性——語音市場在這個時代將被改寫,語音互動帶動萬物互聯的第六次產業浪潮,有望出現一次井噴。

智能語音技術,將進一步應用到智慧型手機、智能汽車、智能家電以及智能家居等產品中。


據IDC分析,到2030年,全球智能語音服務市場規模將達約731.6億美元,複合增長率27%。科大訊飛,有望收穫這一輪產業紅利。

中國AI語音的ChatGPT時刻,指日可待。 (新智元)