1秒轉錄1小時音訊,輝達重磅開源語音識別最強模型Parakeet!

剛剛,Nvidia高調宣佈開源其最新語音識別模型:Parakeet TDT 0.6B,一上線就霸佔了Open ASR Leaderboard榜單第一名的位置!

這款模型到底強在那裡?

居然能在1秒內完成60分鐘音訊的轉錄

600M參數,不僅超高效,Nvidia還以CC-BY-4.0許可協議開源,意味著開發者可以完全免費將其用於商業用途。

Vaibhav (VB) Srivastav(@reach_vb)對模型發佈做出評價:

Nvidia 剛剛開源了 Parakeet TDT 0.6B,這是目前Open ASR榜單上表現最好的語音識別模型。 它能在1秒鐘內轉錄60分鐘的音訊,速度令人難以置信。 模型擁有6億參數,以商業許可(CC-BY-4.0)開放。 祝賀Nvidia的傑出發佈,直接擊敗了市面上主流的閉源巨頭們!

為什麼這麼快?

Parakeet採用的是最新的FastConformer-TDT架構。

這種架構最顯著的特徵就是能對長達24分鐘的音訊片段進行高效處理,無需分割,直接單次處理完成。

此外,它整合了強大的TDT解碼器,保證了高品質的標點符號預測、大小寫精準以及精準的時間戳預測。

看看Hugging Face上的Open ASR排行榜表現

  • 平均詞錯誤率(WER)僅為6.05%,在LibriSpeech clean測試集上甚至低至1.69%。
  • 各大常用基準(AMI、GigaSpeech、TEDLIUM等)均表現優異。

而最關鍵的性能參數RTFx(即時性能倍數)更是驚人地達到3380(批處理大小128),說明其轉錄效率已經遠遠超越了現有的主流方案。

開發者反應熱烈

這次Nvidia開源Parakeet,引發了廣泛關注,不少AI圈的網友紛紛發推詢問、點評:

tj(@new_discord_tea)直接驚呆了:

一秒轉錄60分鐘音訊,你確定?我的RTX 3090能跑嗎?

而AI Wave(@aiwaveco)則毫不掩飾自己的興奮:

Nvidia這次玩得太大了,開放許可、性能屠榜,這種速度和易用性會改變整個行業。

甚至有人開始積極探索Parakeet在各平台的相容性,Mono Silabo(@monosilabo)關注Mac平台:

我能在我的MacBook Pro M3上運行它嗎?

很快,就有使用者提供了方案。silv.eth(@mattsilv) 表示一開始對MacOS不抱希望,但後續有使用者發佈了針對Apple Silicon晶片最佳化的移植版本:

而Nithin Rao(@nithinraok_)則提供了具體移植版本的資訊:

有人已經把Parakeet移植到了mlx上,支援蘋果晶片的Mac使用者直接用pip安裝就能用了。

傳送門:huggingface.co/senstella/parakeet-tdt-0.6b-v2-mlx

High Jack(@jackadoresai)也推薦Mac使用者嘗試一下移植版:

Parakeet-mlx聽說非常好用,蘋果晶片使用者可以試試,ASR也能變簡單。

省流:暫只支援英文

不過,有一點使用者要注意,Parakeet TDT 0.6B目前僅支援英文語音識別

Leo(@LeoVasanko)指出了語言支援的侷限:

Nvidia的模型非常快,但語言支援目前仍有限。Parakeet只支援英語,之前的Canary雖然號稱支援四種語言,但在實際使用中對部分拉美口音的西班牙語表現並不好。

Mikolaj Piech(@mikolajpiech) 也詢問大家是否知道更小巧的多語言模型:

Parakeet雖然出色,但僅限英語,誰知道小巧好用的多語言ASR模型嗎?

而針對一些專業使用者關心的SRT字幕和多人對話分離轉錄的功能,Ant A(@AntDX316)提出了疑問,目前官方還沒有給出明確回覆,看來還需要使用者自行測試探索。

最後,Parakeet的具體安裝和呼叫也相當簡單:

pip install -U nemo_toolkit['asr']

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")

output = asr_model.transcribe(['audio.wav'], timestamps=True)
for stamp in output[0].timestamp['segment']:
    print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")

開放原始碼的巨大衝擊

Nvidia此次開源Parakeet,最大的意義在於推動整個語音識別領域的技術民主化。

DataInsta(@DataInsta_com)指出:

開源能極大地加速創新,就像transformer開源後徹底改變了NLP領域一樣。

Oboe(@oboelabs)也對此表示贊同:

Parakeet是開源力量推動創新的絕佳例子,transformer開源後的繁榮就是最好的佐證。

隨著更多高性能模型的開源,技術進步的門檻正在降低,未來的AI生態必然更加開放、豐富。

現在,所有人都可以免費、自由地使用最前沿的AI語音識別技術了——

Parakeet 來了,你準備好了嗎? ( AGI Hunt)