定價僅為0.00022元/秒。
智東西9月15日報導,今天,阿里巴巴通義實驗室推出了FunAudio-ASR端到端語音識別大模型。這款模型通過創新的Context模組,針對性最佳化了“幻覺”、“串語種”等關鍵問題,在高噪聲的場景下,幻覺率從78.5%下降至10.7%,下降幅度接近70%。
FunAudio-ASR使用了數千萬小時的音訊資料,融合了大語言模型的語義理解能力,從而提升語音識別的上下文一致性與跨語言切換能力。
通義實驗室打造了5大類測試集,重點關注語音識別在遠場、嘈雜背景等挑戰性場景下的表現,並結合開源測試集評估了模型的性能。FunAudio-ASR實現了超越Seed-ASR、KimiAudio-8B等業內知名模型的表現。
同時,FunAudio-ASR在實際落地方面也進行了全面最佳化,支援低延遲流式識別、跨中英文自然切換以及使用者可自訂的熱詞識別,能夠覆蓋視訊會議、即時字幕、智能終端等多樣化應用場景。
FunAudio-ASR提供兩個版本,滿血版由0.7B參數量的編碼器和7B參數量的大語言模型組成,追求最高精度;輕量的nano版本由0.2B參數量的編碼器和0.6B參數量的大語言模型,平衡效率與精度。目前,FunAudio-ASR已在釘釘的“AI聽記”、視訊會議、DingTalk A1硬體等多個場景中應用。
FunAudio-ASR已上線阿里雲百煉平台,API定價為0.00022元/秒,轉錄一段一小時的音訊大約需要8毛錢。這款模型的技術報告已經發佈,開發者也可在魔搭社區體驗其效果。
魔搭社區體驗:
https://modelscope.cn/studios/iic/FunAudio-ASR
阿里雲百煉平台:
https://help.aliyun.com/zh/model-studio/recording-file-recognition?spm=a2c4g.11186623.help-menu-2400256.d_0_3_1.f43e7432ytYkAa&scm=20140722.H_2880903._.OR_help-T_cn~zh-V_1
技術報告:
https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf
相比於文字大模型,語音大模型的“幻覺”問題尤為突出。這是因為聲學特徵與文字特徵在向量空間上天然存在差異,導致模型在“聽”完音訊後,容易“腦補”出大量不存在的內容。
儘管通過訓練,可以將將聲學特徵對齊到文字特徵空間,但聲學特徵Embedding與真實的文字Embedding仍然存在這一定的差距,這會導致大語言模型在生成文字時發生幻覺的現象。
通義實驗室發現,給語音大模提供必要的上下文,可以減少文字生產時候的幻覺現象。為此,他們設計了Context增強模組:該模組通過CTC解碼器快速生成第一遍解碼文字,並將該結果作為上下文資訊輸入大語言模型,輔助其理解音訊內容。
由於CTC結構輕量且為非自回歸模型,幾乎不增加額外推理耗時。
例如,對於這段由AI生成、模仿海盜說話風格的音訊,FunAudio-ASR做到了一字不差的識別。
此外,通義實驗室還觀察到幻覺問題在高噪聲場景中更易發生,因此在訓練資料中加入了大量模擬資料。
為評估模型在高噪聲情況下的表現,他們建構了一個包含28條易觸發幻覺音訊的測試集,經最佳化後,幻覺率從78.5%下降至10.7%。
智東西在實測中體驗了FunAudio-ASR在嘈雜場景的識別能力。這段音訊是在嘈雜的展會現場錄製的。可以聽到,模型基本精準識別了片段中男性說話者的聲音,但在聲音音量驟降後識別錯誤了。
同時,這段音訊中有兩位說話者,FunAudio-ASR在識別兩人同時說話的部分時,遺漏了一些資訊。
與OpenAI Whisper Large V3的識別結果對比,FunAudio-ASR識別出了更多正確的資訊。
“串語種”是語音大模型落地中的另一類典型問題,例如,輸入音訊內容為英文,模型輸出卻為中文文字。
這是因為文字大模型本身具備翻譯能力,在聲學特徵對應不夠精確時,模型可能在推理過程中“自動啟動”翻譯功能,從而影響語音識別的精準性。
在FunAudio-ASR的Context增強模組中,CTC解碼器經過高品質資料訓練,本身發生串語種的機率極低。通過將CTC的第一遍解碼結果作為提示詞輸入給大語言模型,可有效引導模型聚焦於語音識別任務,緩解“翻譯”行為的發生。
在企業運用語音識別模型時,個性化定製是必不可少的技術。所謂定製化,是指在識別過程中對特定詞/短語(如人名、地名、品牌、專業術語等)施加額外機率偏好,從而顯著提高它們的識別召回率,同時儘量不損傷通用識別精準率。
當前行業的主流做法是將使用者提供的領域詞,直接作為提示詞輸入大語言模型。該方法雖簡單有效,但隨著詞量增加,干擾也隨之上升,導致召回率下降——即“定製化能力衰減”。
為緩解這一問題,通義實驗室在Context增強結構中引入RAG(檢索增強生成)機制,這一機制的運作方式如下:
(1)建構知識庫:將使用者配置的定製詞建構成專屬RAG庫;
(2)動態檢索:依據CTC第一遍解碼結果,從RAG庫中抽取相關詞彙;
(3)精準注入:僅將相關詞彙注入大語言模型的提示詞中,避免無關資訊干擾。
該方案在不增加推理複雜度的前提下,將定製化上文數量擴充到上千個以上,並且保持較高的定製化識別效果。
為驗證模型的定製化效果,通義實驗室在微積分學、有機化學、物理學、哲學、人名等5個領域,選取了1000個專業詞彙進行測試。FunAudio-ASR在關鍵詞精準率上表現超越了支援同類功能的語音識別模型。
例如,採用FunAudio-ASR模型的釘釘“AI聽記”,擁有對網際網路、科技、家裝、畜牧、汽車等10+領域、200+細分行業術語的識別能力,並支援在企業授權前提下,結合通訊錄、日程等上下文資訊進行推理最佳化,進一步提升結果可靠性。
技術報告中,通義實驗室闡述了FunAudio-ASR的技術細節。這一模型包含四個核心元件:
(1)音訊編碼器(Audio Encoder):提取語音特徵,使用多層Transformer Encoder。
(2)音訊介面卡(Audio Adaptor):連接編碼器和LLM,使用兩層Transformer Encoder。
(3)CTC解碼器:用於初步識別假設,支援熱詞定製。
(4)基於大語言模型的解碼器:結合音訊特徵和CTC預測生成最終輸出。
預訓練階段,FunAudio-ASR使用了數千萬小時的音訊資料,包括無標註音訊和有標註的音訊-文字資料,資料涵蓋AI、生物、電商、教育等多個領域。
預訓練分為自監督預訓練和有監督預訓練。在自監督階段,FunAudio-ASR創新地使用Qwen3的權重初始化編碼器,加速收斂並提升表示質量。
有監督預訓練則在編碼器-解碼器架構(AED)下進行,使編碼器能夠從大規模標註資料中學習更豐富的聲學-語言特徵,為後續與大語言模型的整合奠定基礎。
在此基礎上,FunAudio-ASR進入有監督微調(SFT)階段,該階段進一步分為五個子階段,逐步最佳化不同模組:
(1)訓練介面卡以對齊音訊表示與大語言模型的語義空間;
(2)最佳化編碼器和介面卡;
(3)使用LoRA微調大語言模型以防止災難性遺忘;
(4)全參數微調階段;
(5)引入CTC解碼器用於後續的熱詞檢索與增強生成(RAG)。
整個SFT過程使用了數百萬小時的多源資料,包括人工標註語料、偽標註資料、合成語音和噪聲增強資料等,確保了模型在多樣化場景下的泛化能力。
為了進一步提升模型對長音訊和上下文資訊的理解能力,團隊還建構了超過5萬小時的上下文增強訓練資料。
通過提取關鍵詞、合成相關上下文並混合無關語境,模型學會了在保持高識別精度的同時,有效利用對話歷史資訊,顯著提升了在複雜語境下的表現。
在強化學習(RL)階段,團隊提出了專為音訊-語言模型設計的FunRL框架,支援多模組高效協同訓練。
該框架採用GRPO演算法,並設計了多目標獎勵函數,綜合最佳化識別精準率、關鍵詞召回、幻覺抑制和語言一致性。模型僅使用8張A100顯示卡,在一天內完成RL訓練。
RL訓練資料涵蓋硬樣本、長音訊、幻覺樣本、關鍵詞樣本和常規ASR資料,顯著提升了模型在困難場景下的魯棒性和使用者體驗。
最後,FunAudio-ASR還針對實際應用需求進行了全面最佳化,包括流式識別支援、噪聲魯棒性增強、中英程式碼切換處理、熱詞定製和幻覺抑制等。
基於生成式AI的新一代語音識別模型,正在從“能聽清”走向“能理解”,並在幻覺抑制、跨語種識別、上下文一致性等關鍵問題上展現出進展。
與傳統以聲學建模與統計學習為主的語音識別系統相比,這類模型不僅具備更強的語義理解與任務適配能力,還能在複雜噪聲、多說話人、跨領域等場景中保持更高的魯棒性和可控性。可以預見,未來語音識別有望告別單純的“輸入工具”,成為終端智能互動的重要入口。 (智東西)