剛剛,Nvidia高調宣佈開源其最新語音識別模型:Parakeet TDT 0.6B,一上線就霸佔了Open ASR Leaderboard榜單第一名的位置!
這款模型到底強在那裡?
居然能在1秒內完成60分鐘音訊的轉錄!
600M參數,不僅超高效,Nvidia還以CC-BY-4.0許可協議開源,意味著開發者可以完全免費將其用於商業用途。
Vaibhav (VB) Srivastav(@reach_vb)對模型發佈做出評價:
Nvidia 剛剛開源了 Parakeet TDT 0.6B,這是目前Open ASR榜單上表現最好的語音識別模型。 它能在1秒鐘內轉錄60分鐘的音訊,速度令人難以置信。 模型擁有6億參數,以商業許可(CC-BY-4.0)開放。 祝賀Nvidia的傑出發佈,直接擊敗了市面上主流的閉源巨頭們!
Parakeet採用的是最新的FastConformer-TDT架構。
這種架構最顯著的特徵就是能對長達24分鐘的音訊片段進行高效處理,無需分割,直接單次處理完成。
此外,它整合了強大的TDT解碼器,保證了高品質的標點符號預測、大小寫精準以及精準的時間戳預測。
看看Hugging Face上的Open ASR排行榜表現:
而最關鍵的性能參數RTFx(即時性能倍數)更是驚人地達到3380(批處理大小128),說明其轉錄效率已經遠遠超越了現有的主流方案。
這次Nvidia開源Parakeet,引發了廣泛關注,不少AI圈的網友紛紛發推詢問、點評:
tj(@new_discord_tea)直接驚呆了:
一秒轉錄60分鐘音訊,你確定?我的RTX 3090能跑嗎?
而AI Wave(@aiwaveco)則毫不掩飾自己的興奮:
Nvidia這次玩得太大了,開放許可、性能屠榜,這種速度和易用性會改變整個行業。
甚至有人開始積極探索Parakeet在各平台的相容性,Mono Silabo(@monosilabo)關注Mac平台:
我能在我的MacBook Pro M3上運行它嗎?
很快,就有使用者提供了方案。silv.eth(@mattsilv) 表示一開始對MacOS不抱希望,但後續有使用者發佈了針對Apple Silicon晶片最佳化的移植版本:
而Nithin Rao(@nithinraok_)則提供了具體移植版本的資訊:
有人已經把Parakeet移植到了mlx上,支援蘋果晶片的Mac使用者直接用pip安裝就能用了。
傳送門:huggingface.co/senstella/parakeet-tdt-0.6b-v2-mlx
High Jack(@jackadoresai)也推薦Mac使用者嘗試一下移植版:
Parakeet-mlx聽說非常好用,蘋果晶片使用者可以試試,ASR也能變簡單。
不過,有一點使用者要注意,Parakeet TDT 0.6B目前僅支援英文語音識別。
Leo(@LeoVasanko)指出了語言支援的侷限:
Nvidia的模型非常快,但語言支援目前仍有限。Parakeet只支援英語,之前的Canary雖然號稱支援四種語言,但在實際使用中對部分拉美口音的西班牙語表現並不好。
Mikolaj Piech(@mikolajpiech) 也詢問大家是否知道更小巧的多語言模型:
Parakeet雖然出色,但僅限英語,誰知道小巧好用的多語言ASR模型嗎?
而針對一些專業使用者關心的SRT字幕和多人對話分離轉錄的功能,Ant A(@AntDX316)提出了疑問,目前官方還沒有給出明確回覆,看來還需要使用者自行測試探索。
最後,Parakeet的具體安裝和呼叫也相當簡單:
pip install -U nemo_toolkit['asr']
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/parakeet-tdt-0.6b-v2")
output = asr_model.transcribe(['audio.wav'], timestamps=True)
for stamp in output[0].timestamp['segment']:
print(f"{stamp['start']}s - {stamp['end']}s : {stamp['segment']}")Nvidia此次開源Parakeet,最大的意義在於推動整個語音識別領域的技術民主化。
DataInsta(@DataInsta_com)指出:
開源能極大地加速創新,就像transformer開源後徹底改變了NLP領域一樣。
Oboe(@oboelabs)也對此表示贊同:
Parakeet是開源力量推動創新的絕佳例子,transformer開源後的繁榮就是最好的佐證。
隨著更多高性能模型的開源,技術進步的門檻正在降低,未來的AI生態必然更加開放、豐富。
現在,所有人都可以免費、自由地使用最前沿的AI語音識別技術了——
Parakeet 來了,你準備好了嗎? ( AGI Hunt)