#語音識別
剛剛!阿里發新模型,幻覺率爆降70%
定價僅為0.00022元/秒。智東西9月15日報導,今天,阿里巴巴通義實驗室推出了FunAudio-ASR端到端語音識別大模型。這款模型通過創新的Context模組,針對性最佳化了“幻覺”、“串語種”等關鍵問題,在高噪聲的場景下,幻覺率從78.5%下降至10.7%,下降幅度接近70%。FunAudio-ASR使用了數千萬小時的音訊資料,融合了大語言模型的語義理解能力,從而提升語音識別的上下文一致性與跨語言切換能力。通義實驗室打造了5大類測試集,重點關注語音識別在遠場、嘈雜背景等挑戰性場景下的表現,並結合開源測試集評估了模型的性能。FunAudio-ASR實現了超越Seed-ASR、KimiAudio-8B等業內知名模型的表現。同時,FunAudio-ASR在實際落地方面也進行了全面最佳化,支援低延遲流式識別、跨中英文自然切換以及使用者可自訂的熱詞識別,能夠覆蓋視訊會議、即時字幕、智能終端等多樣化應用場景。FunAudio-ASR提供兩個版本,滿血版由0.7B參數量的編碼器和7B參數量的大語言模型組成,追求最高精度;輕量的nano版本由0.2B參數量的編碼器和0.6B參數量的大語言模型,平衡效率與精度。目前,FunAudio-ASR已在釘釘的“AI聽記”、視訊會議、DingTalk A1硬體等多個場景中應用。FunAudio-ASR已上線阿里雲百煉平台,API定價為0.00022元/秒,轉錄一段一小時的音訊大約需要8毛錢。這款模型的技術報告已經發佈,開發者也可在魔搭社區體驗其效果。魔搭社區體驗:https://modelscope.cn/studios/iic/FunAudio-ASR阿里雲百煉平台:https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1技術報告:https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf01.幻覺、串語種問題獲針對性最佳化一手體驗高噪聲環境識別效果相比於文字大模型,語音大模型的“幻覺”問題尤為突出。這是因為聲學特徵與文字特徵在向量空間上天然存在差異,導致模型在“聽”完音訊後,容易“腦補”出大量不存在的內容。儘管通過訓練,可以將將聲學特徵對齊到文字特徵空間,但聲學特徵Embedding與真實的文字Embedding仍然存在這一定的差距,這會導致大語言模型在生成文字時發生幻覺的現象。▲聲學特徵Embedding與真實的文字Embedding分佈差異(圖片來源:https://arxiv.org/pdf/2410.18908)通義實驗室發現,給語音大模提供必要的上下文,可以減少文字生產時候的幻覺現象。為此,他們設計了Context增強模組:該模組通過CTC解碼器快速生成第一遍解碼文字,並將該結果作為上下文資訊輸入大語言模型,輔助其理解音訊內容。由於CTC結構輕量且為非自回歸模型,幾乎不增加額外推理耗時。例如,對於這段由AI生成、模仿海盜說話風格的音訊,FunAudio-ASR做到了一字不差的識別。此外,通義實驗室還觀察到幻覺問題在高噪聲場景中更易發生,因此在訓練資料中加入了大量模擬資料。為評估模型在高噪聲情況下的表現,他們建構了一個包含28條易觸發幻覺音訊的測試集,經最佳化後,幻覺率從78.5%下降至10.7%。智東西在實測中體驗了FunAudio-ASR在嘈雜場景的識別能力。這段音訊是在嘈雜的展會現場錄製的。可以聽到,模型基本精準識別了片段中男性說話者的聲音,但在聲音音量驟降後識別錯誤了。同時,這段音訊中有兩位說話者,FunAudio-ASR在識別兩人同時說話的部分時,遺漏了一些資訊。與OpenAI Whisper Large V3的識別結果對比,FunAudio-ASR識別出了更多正確的資訊。“串語種”是語音大模型落地中的另一類典型問題,例如,輸入音訊內容為英文,模型輸出卻為中文文字。這是因為文字大模型本身具備翻譯能力,在聲學特徵對應不夠精確時,模型可能在推理過程中“自動啟動”翻譯功能,從而影響語音識別的精準性。在FunAudio-ASR的Context增強模組中,CTC解碼器經過高品質資料訓練,本身發生串語種的機率極低。通過將CTC的第一遍解碼結果作為提示詞輸入給大語言模型,可有效引導模型聚焦於語音識別任務,緩解“翻譯”行為的發生。02.支援術語定製化識別召回率提升明顯在企業運用語音識別模型時,個性化定製是必不可少的技術。所謂定製化,是指在識別過程中對特定詞/短語(如人名、地名、品牌、專業術語等)施加額外機率偏好,從而顯著提高它們的識別召回率,同時儘量不損傷通用識別精準率。當前行業的主流做法是將使用者提供的領域詞,直接作為提示詞輸入大語言模型。該方法雖簡單有效,但隨著詞量增加,干擾也隨之上升,導致召回率下降——即“定製化能力衰減”。為緩解這一問題,通義實驗室在Context增強結構中引入RAG(檢索增強生成)機制,這一機制的運作方式如下:(1)建構知識庫:將使用者配置的定製詞建構成專屬RAG庫;(2)動態檢索:依據CTC第一遍解碼結果,從RAG庫中抽取相關詞彙;(3)精準注入:僅將相關詞彙注入大語言模型的提示詞中,避免無關資訊干擾。該方案在不增加推理複雜度的前提下,將定製化上文數量擴充到上千個以上,並且保持較高的定製化識別效果。為驗證模型的定製化效果,通義實驗室在微積分學、有機化學、物理學、哲學、人名等5個領域,選取了1000個專業詞彙進行測試。FunAudio-ASR在關鍵詞精準率上表現超越了支援同類功能的語音識別模型。例如,採用FunAudio-ASR模型的釘釘“AI聽記”,擁有對網際網路、科技、家裝、畜牧、汽車等10+領域、200+細分行業術語的識別能力,並支援在企業授權前提下,結合通訊錄、日程等上下文資訊進行推理最佳化,進一步提升結果可靠性。03.預訓練使用數千萬小時資料僅用8張A100完成強化學習技術報告中,通義實驗室闡述了FunAudio-ASR的技術細節。這一模型包含四個核心元件:(1)音訊編碼器(Audio Encoder):提取語音特徵,使用多層Transformer Encoder。(2)音訊介面卡(Audio Adaptor):連接編碼器和LLM,使用兩層Transformer Encoder。(3)CTC解碼器:用於初步識別假設,支援熱詞定製。(4)基於大語言模型的解碼器:結合音訊特徵和CTC預測生成最終輸出。▲FunAudio-ASR模型架構預訓練階段,FunAudio-ASR使用了數千萬小時的音訊資料,包括無標註音訊和有標註的音訊-文字資料,資料涵蓋AI、生物、電商、教育等多個領域。預訓練分為自監督預訓練和有監督預訓練。在自監督階段,FunAudio-ASR創新地使用Qwen3的權重初始化編碼器,加速收斂並提升表示質量。有監督預訓練則在編碼器-解碼器架構(AED)下進行,使編碼器能夠從大規模標註資料中學習更豐富的聲學-語言特徵,為後續與大語言模型的整合奠定基礎。▲FunAudio-ASR預訓練管線在此基礎上,FunAudio-ASR進入有監督微調(SFT)階段,該階段進一步分為五個子階段,逐步最佳化不同模組:(1)訓練介面卡以對齊音訊表示與大語言模型的語義空間;(2)最佳化編碼器和介面卡;(3)使用LoRA微調大語言模型以防止災難性遺忘;(4)全參數微調階段;(5)引入CTC解碼器用於後續的熱詞檢索與增強生成(RAG)。整個SFT過程使用了數百萬小時的多源資料,包括人工標註語料、偽標註資料、合成語音和噪聲增強資料等,確保了模型在多樣化場景下的泛化能力。為了進一步提升模型對長音訊和上下文資訊的理解能力,團隊還建構了超過5萬小時的上下文增強訓練資料。通過提取關鍵詞、合成相關上下文並混合無關語境,模型學會了在保持高識別精度的同時,有效利用對話歷史資訊,顯著提升了在複雜語境下的表現。在強化學習(RL)階段,團隊提出了專為音訊-語言模型設計的FunRL框架,支援多模組高效協同訓練。▲FunRL框架該框架採用GRPO演算法,並設計了多目標獎勵函數,綜合最佳化識別精準率、關鍵詞召回、幻覺抑制和語言一致性。模型僅使用8張A100顯示卡,在一天內完成RL訓練。RL訓練資料涵蓋硬樣本、長音訊、幻覺樣本、關鍵詞樣本和常規ASR資料,顯著提升了模型在困難場景下的魯棒性和使用者體驗。最後,FunAudio-ASR還針對實際應用需求進行了全面最佳化,包括流式識別支援、噪聲魯棒性增強、中英程式碼切換處理、熱詞定製和幻覺抑制等。04.結語:生成式AI賦能新一代ASR系統或成智能互動重要入口基於生成式AI的新一代語音識別模型,正在從“能聽清”走向“能理解”,並在幻覺抑制、跨語種識別、上下文一致性等關鍵問題上展現出進展。與傳統以聲學建模與統計學習為主的語音識別系統相比,這類模型不僅具備更強的語義理解與任務適配能力,還能在複雜噪聲、多說話人、跨領域等場景中保持更高的魯棒性和可控性。可以預見,未來語音識別有望告別單純的“輸入工具”,成為終端智能互動的重要入口。 (智東西)
1秒轉錄1小時音訊,輝達重磅開源語音識別最強模型Parakeet!
剛剛,Nvidia高調宣佈開源其最新語音識別模型:Parakeet TDT 0.6B,一上線就霸佔了Open ASR Leaderboard榜單第一名的位置!這款模型到底強在那裡?居然能在1秒內完成60分鐘音訊的轉錄!600M參數,不僅超高效,Nvidia還以CC-BY-4.0許可協議開源,意味著開發者可以完全免費將其用於商業用途。Vaibhav (VB) Srivastav(@reach_vb)對模型發佈做出評價:Nvidia 剛剛開源了 Parakeet TDT 0.6B,這是目前Open ASR榜單上表現最好的語音識別模型。 它能在1秒鐘內轉錄60分鐘的音訊,速度令人難以置信。 模型擁有6億參數,以商業許可(CC-BY-4.0)開放。 祝賀Nvidia的傑出發佈,直接擊敗了市面上主流的閉源巨頭們!為什麼這麼快?Parakeet採用的是最新的FastConformer-TDT架構。這種架構最顯著的特徵就是能對長達24分鐘的音訊片段進行高效處理,無需分割,直接單次處理完成。此外,它整合了強大的TDT解碼器,保證了高品質的標點符號預測、大小寫精準以及精準的時間戳預測。看看Hugging Face上的Open ASR排行榜表現:平均詞錯誤率(WER)僅為6.05%,在LibriSpeech clean測試集上甚至低至1.69%。各大常用基準(AMI、GigaSpeech、TEDLIUM等)均表現優異。而最關鍵的性能參數RTFx(即時性能倍數)更是驚人地達到3380(批處理大小128),說明其轉錄效率已經遠遠超越了現有的主流方案。開發者反應熱烈這次Nvidia開源Parakeet,引發了廣泛關注,不少AI圈的網友紛紛發推詢問、點評:tj(@new_discord_tea)直接驚呆了:一秒轉錄60分鐘音訊,你確定?我的RTX 3090能跑嗎?而AI Wave(@aiwaveco)則毫不掩飾自己的興奮:Nvidia這次玩得太大了,開放許可、性能屠榜,這種速度和易用性會改變整個行業。甚至有人開始積極探索Parakeet在各平台的相容性,Mono Silabo(@monosilabo)關注Mac平台:我能在我的MacBook Pro M3上運行它嗎?很快,就有使用者提供了方案。silv.eth(@mattsilv) 表示一開始對MacOS不抱希望,但後續有使用者發佈了針對Apple Silicon晶片最佳化的移植版本:而Nithin Rao(@nithinraok_)則提供了具體移植版本的資訊:有人已經把Parakeet移植到了mlx上,支援蘋果晶片的Mac使用者直接用pip安裝就能用了。傳送門:huggingface.co/senstella/parakeet-tdt-0.6b-v2-mlxHigh Jack(@jackadoresai)也推薦Mac使用者嘗試一下移植版:Parakeet-mlx聽說非常好用,蘋果晶片使用者可以試試,ASR也能變簡單。省流:暫只支援英文不過,有一點使用者要注意,Parakeet TDT 0.6B目前僅支援英文語音識別。Leo(@LeoVasanko)指出了語言支援的侷限:Nvidia的模型非常快,但語言支援目前仍有限。Parakeet只支援英語,之前的Canary雖然號稱支援四種語言,但在實際使用中對部分拉美口音的西班牙語表現並不好。Mikolaj Piech(@mikolajpiech) 也詢問大家是否知道更小巧的多語言模型:Parakeet雖然出色,但僅限英語,誰知道小巧好用的多語言ASR模型嗎?而針對一些專業使用者關心的SRT字幕和多人對話分離轉錄的功能,Ant A(@AntDX316)提出了疑問,目前官方還沒有給出明確回覆,看來還需要使用者自行測試探索。最後,Parakeet的具體安裝和呼叫也相當簡單:pip install -U nemo_toolkit['asr']import nemo.collections.asr as nemo_asrasr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")output = asr_model.transcribe(['audio.wav'], timestamps=True)for stamp in output[0].timestamp['segment']:    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")開放原始碼的巨大衝擊Nvidia此次開源Parakeet,最大的意義在於推動整個語音識別領域的技術民主化。DataInsta(@DataInsta_com)指出:開源能極大地加速創新,就像transformer開源後徹底改變了NLP領域一樣。Oboe(@oboelabs)也對此表示贊同:Parakeet是開源力量推動創新的絕佳例子,transformer開源後的繁榮就是最好的佐證。隨著更多高性能模型的開源,技術進步的門檻正在降低,未來的AI生態必然更加開放、豐富。現在,所有人都可以免費、自由地使用最前沿的AI語音識別技術了——Parakeet 來了,你準備好了嗎? ( AGI Hunt)