AI配音版Sora影片刷螢幕!絕美逼真音效打破「無聲電影」,或顛覆兆美元產業

【導讀】 Sora突破之後的突破又來了!語音新創公司ElevenLabs放大招,直接用AI給Sora經典影片完成了配音。網友驚呼離AI完全生成電影又更近了一步。

雖然有些人不想承認,但AI視訊模型Sora的開年王炸,確實為影視產業帶來了顛覆性的影響!


OpenAI Sora各種逼真影片的生成足以讓人驚掉下巴,但有網友卻表示,現在的Sora影片更像是「無聲電影」。


如果再給它們配上音效,現實可就真的就不存在了......

就在今天,AI語音克隆新創公司ElevenLabs給經典的Sora演示視頻,完成了絕美的配音。


聽過之後,讓人簡直是顱內高潮。

從建築物到鯊魚無縫切換影片中,可以聽到小鳥嘰喳喳,狗在狂吠,不同動物叫聲糅雜在一起,非常空靈。

汽車卯足勁向前行駛的聲音,偶爾還能聽到石子與輪胎的摩擦音。

還有這歡樂又喜慶的中國舞龍表演,敲鑼打鼓人聲鼎沸,好不熱鬧。

地鐵在軌道中咔噠咔噠行駛,還伴隨空氣被壓縮發出隆~隆~的聲音,讓人有種耳塞的趕腳。

機器人的專屬配音,直接將賽博風拉滿,聽過後就知道是那種「熟悉的味道」。

東京街頭上,靚麗的女人提著手提包在路邊行走,高跟鞋噠噠噠與步伐完全吻合。還有那汽車鳴笛,路人說話的聲音展現的淋漓盡致。

驚濤駭浪撞擊岩石,海鷗在高空中飛翔,叫聲高亢嘹亮。老奶奶開心地吹熄蠟燭,笑容洋溢在每個人的臉上,片刻美好,只希望時間能按下暫停鍵。

三隻可愛的金毛在雪地中嬉戲打鬧,興奮地汪汪大叫。

更令人震撼的是,下面這個影片直接配上了「紀錄片」的高級感。

在片尾,ElevenLabs表示,以上所有的配音全部由AI生成,沒有一點編輯痕跡。


網友驚呼,「這簡直離完全由AI生成電影又更近了一步」!


堪稱突破後的突破!


要補充的是,ElevenLabs的配音不是看影片直接生成的,還是需要prompt之後才能完成。


不過,這種夢幻連動確實讓人眼前一亮,或許OpenAI的下一步就是進一步擴展多模態能力,將影片、音訊同時呈現。

到時候,被革命的不僅是影視產業,甚至是配音、遊戲領域,也要發生翻天覆地的變化!


向量空間中建模,讓LLM理解隱式物理規則

那麼,視訊到音訊的精準映射,該如何突破呢?

對此,英偉達高級科學家Jim Fan做了一個比較全面的分析:

為了精確配合視訊內容,配音不僅需要文字訊息,視訊像素也至關重要。

若想精確地實現「視訊-音訊」的無縫匹配,還需要LLM在其潛在空間內理解一些「隱式的物理原理」。

那麼,端到端的Transformer需要掌握以下能力,才能正確模擬聲波:

- 確定每個物體的種類、材質和空間位置。

- 辨識物體間的複雜互動,例如棍子是敲在木頭、金屬還是鼓面?敲擊的速度如何?

- 辨識場景環境,是餐廳、太空站、黃石國家公園還是日本神社?

- 從模型的記憶體中提取物體及其環境的典型聲音模式。

- 應用「軟性」的、已學習的實體規則,組合併調整聲音模式的參數,或即時創造全新的聲音,類似於遊戲引擎中的「程式化音訊」。

- 對於複雜場景,模型需要根據物件的空間位置,將多條聲音軌道疊加起來。

所有這些能力都不是透過顯式模組實現的!它們是透過大量時間對齊的視訊和音訊配對,透過梯度下降法學習得來的。

模型的注意力層將利用其權重來實現這些功能,以達到擴散的目標。


目前,我們還沒有創造出如此高品質的「AI音訊引擎」。

Jim Fan挖掘了5年前來自MIT團隊的一項關於「The Sound of Pixels」的研究,或許從這裡可以找到一些靈感。


在這個專案中,研究人員提出了像素級聲源定位系統PixelPlayer。

透過結合聲音和影像訊息,AI能夠以無監督的方式從影像或聲音中識別目標、定位影像中的目標,甚至分離目標影片中的聲音來源。

當你給定一個輸入視頻,PixelPlayer可以聯合地將配音分離為目標組件,並在圖像幀上定位目標組件。

值得一提的是,它允許在視訊的“每個像素”上定位聲源。


具體來說,研究人員利用了影像和聲音的自然同時性,來學習影像聲源定位模型。

PixelPlayer學習了近60小時的音樂演奏,包括獨奏和二重奏。它以聲音訊號作為輸入,並預測和視訊中空間定位對應的聲源訊號。

在具體訓練過程中,作者還利用了自然聲音的可加性來生成視頻,其中構成聲源是已知的。同時,也透過混合聲源來訓練模型生成聲源。


這只是視覺-音頻聯合學習(Audio-Visual Learning)研究中的一瞥,過去在這一方向領域的研究也是無數。

例如,在ECCV 2018被接收的Oral論文「Learning to Separate Object Sounds by Watching Unlabeled Video」,同樣使用了視覺訊息來引導聲源分離。


論文網址:https://arxiv.org/pdf/1804.01665.pdf

比起MIT的那項研究,這篇論文除了在音樂,還在自然聲上進行了實驗。

以往的研究,都將為未來視訊-音訊完成精準映射進一步鋪路。

正如這幾天被人們炒過的火熱的Sora模型,背後架構採用的是Diffusion Transformer一樣,正是基於前輩們的成果。

話又說回來,網友發出疑問,「那得需要多少年,LLM才能完全遵守物理達則中的所有可能參照系」?


別慌!

有沒有可能OpenAI早已接近,甚至是實現AGI,只不過不想讓我們知道?



估值11億刀,前Google大佬創AI語音新創公司

前文提到的ElevenLabs,是由前Google機器學習工程師Piotr Dąbkowski、前Palantir部署策略師Mateusz Staniszewski,在2022年共同創立的利用AI實現語音合成與文字轉語音的公司。

這兩位創辦人都來自波蘭,在看到美國電影不盡人意的配音後,萌生了創造ElevenLabs的想法。

儘管ElevenLabs沒有固定辦公地點並且僅有15名員工,但它卻在2023年6月以約1億美元估值成功籌集到了1900萬美元的A 輪融資。

到了2024年1月22日,ElevenLabs又在B輪融資中籌集了額外的8,000萬美元,使估值達到了11億美元。同時,該公司也宣布推出了一系列新產品,包括聲音市場、AI 配音工作室和行動應用程式等。


自去年1月發表beta版平台以來,ElevenLabs就受到了創作者們的熱捧。


2023年3月,喜劇演員Drew Carey透過ElevenLabs的聲音克隆工具,在他的廣播節目《Friday Night Freakout》中復刻了自己的聲音。

2023年3月,串流自動化服務Super-Hi-Fi攜手ElevenLabs,利用後者的軟體和ChatGPT產生的提示詞,為其虛擬DJ配音,推出了全自動的「AI Radio」廣播服務。

6月13日,Storytel宣布與ElevenLabs達成獨家合作,後者將專門為Storytel的核心市場量身訂做聲音,製作AI敘事的有聲書。

在遊戲領域,ElevenLabs正與瑞典的Paradox Interactive和英國的Magicave等開發商進行合作。

ElevenLabs的技術也被用於多語言視訊配音,幫助內容創作者準確複製幾乎任何語言的任何口音。此外,明星粉絲也透過ElevenLabs使用他們偶像的聲音創作鼓舞人心的信息。


OpenAI下一次顛覆,又是兆美元產業?

還記得ChatGPT誕生後,OpenAI隨後為其「連網」,並發布了全新的插件功能。

那些新創公司緊跟著,上線了一大波插件應用程式。


沒想到,從3月發佈截止到11月,僅僅半年多的時間,一些新創公司卻遭到「屠殺」。

在首屆開發者大會上,Sam Altman首次公佈客製化GPTs,以及即將上線的GPT Store。

可以說,基於OpenAI介面建構新創公司,產品忽然就失去了意義。許多新創公司的產品,已經沒有了護城河。

當時有網友便問,OpenAI入局智能體後,全球十家頭部Agent新創公司接下來該做什麼?


而現在,首個AI視訊模型Sora的橫空出世,已經讓許多影視行業的人,倍感恐慌。


有網友表示,「Sora雖然有些不完美之處(可以檢測出來),例如從物理效果可以看出它是人工合成的。但是,它將會革命性地改變許多產業。

想像一下可以產生動態的、個人化的廣告影片進行精準定位,這將是一個萬億美元的產業」!


對於Sora的應用前景,預計在未來成為影片製作領域的重要工具。

等到OpenAI發布能夠視訊-音訊大模型之後,對於如上專門配音的新創公司ElevenLabs來說,都將是一場「災難」。

「我認為大多數人都不能理解,這對不久的將來的生活意味著什麼」。


未來,無論是電影、電視劇、廣告,甚至遊戲等領域,高品質視訊創作,都將被AI入侵。

在那一天還沒到來之前,想想我們還能做些什麼?(新智元)


參考資料:

https://twitter.com/elevenlabsio/status/1759240084342059260

https://twitter.com/DrJimFan/status/1759287778268025177