AI配音版Sora影片刷螢幕！絕美逼真音效打破「無聲電影」，或顛覆兆美元產業

2024/02/21

•

【導讀】 Sora突破之後的突破又來了！語音新創公司ElevenLabs放大招，直接用AI給Sora經典影片完成了配音。網友驚呼離AI完全生成電影又更近了一步。

雖然有些人不想承認，但AI視訊模型Sora的開年王炸，確實為影視產業帶來了顛覆性的影響！

OpenAI Sora各種逼真影片的生成足以讓人驚掉下巴，但有網友卻表示，現在的Sora影片更像是「無聲電影」。

如果再給它們配上音效，現實可就真的就不存在了......

就在今天，AI語音克隆新創公司ElevenLabs給經典的Sora演示視頻，完成了絕美的配音。

聽過之後，讓人簡直是顱內高潮。

從建築物到鯊魚無縫切換影片中，可以聽到小鳥嘰喳喳，狗在狂吠，不同動物叫聲糅雜在一起，非常空靈。

汽車卯足勁向前行駛的聲音，偶爾還能聽到石子與輪胎的摩擦音。

還有這歡樂又喜慶的中國舞龍表演，敲鑼打鼓人聲鼎沸，好不熱鬧。

地鐵在軌道中咔噠咔噠行駛，還伴隨空氣被壓縮發出隆～隆～的聲音，讓人有種耳塞的趕腳。

機器人的專屬配音，直接將賽博風拉滿，聽過後就知道是那種「熟悉的味道」。

東京街頭上，靚麗的女人提著手提包在路邊行走，高跟鞋噠噠噠與步伐完全吻合。還有那汽車鳴笛，路人說話的聲音展現的淋漓盡致。

驚濤駭浪撞擊岩石，海鷗在高空中飛翔，叫聲高亢嘹亮。老奶奶開心地吹熄蠟燭，笑容洋溢在每個人的臉上，片刻美好，只希望時間能按下暫停鍵。

三隻可愛的金毛在雪地中嬉戲打鬧，興奮地汪汪大叫。

更令人震撼的是，下面這個影片直接配上了「紀錄片」的高級感。

在片尾，ElevenLabs表示，以上所有的配音全部由AI生成，沒有一點編輯痕跡。

網友驚呼，「這簡直離完全由AI生成電影又更近了一步」！

堪稱突破後的突破！

要補充的是，ElevenLabs的配音不是看影片直接生成的，還是需要prompt之後才能完成。

不過，這種夢幻連動確實讓人眼前一亮，或許OpenAI的下一步就是進一步擴展多模態能力，將影片、音訊同時呈現。

到時候，被革命的不僅是影視產業，甚至是配音、遊戲領域，也要發生翻天覆地的變化！

那麼，視訊到音訊的精準映射，該如何突破呢？

對此，英偉達高級科學家Jim Fan做了一個比較全面的分析：

為了精確配合視訊內容，配音不僅需要文字訊息，視訊像素也至關重要。

若想精確地實現「視訊-音訊」的無縫匹配，還需要LLM在其潛在空間內理解一些「隱式的物理原理」。

那麼，端到端的Transformer需要掌握以下能力，才能正確模擬聲波：

- 確定每個物體的種類、材質和空間位置。

- 辨識物體間的複雜互動，例如棍子是敲在木頭、金屬還是鼓面？敲擊的速度如何？

- 辨識場景環境，是餐廳、太空站、黃石國家公園還是日本神社？

- 從模型的記憶體中提取物體及其環境的典型聲音模式。

- 應用「軟性」的、已學習的實體規則，組合併調整聲音模式的參數，或即時創造全新的聲音，類似於遊戲引擎中的「程式化音訊」。

- 對於複雜場景，模型需要根據物件的空間位置，將多條聲音軌道疊加起來。

所有這些能力都不是透過顯式模組實現的！它們是透過大量時間對齊的視訊和音訊配對，透過梯度下降法學習得來的。

模型的注意力層將利用其權重來實現這些功能，以達到擴散的目標。

目前，我們還沒有創造出如此高品質的「AI音訊引擎」。

Jim Fan挖掘了5年前來自MIT團隊的一項關於「The Sound of Pixels」的研究，或許從這裡可以找到一些靈感。

在這個專案中，研究人員提出了像素級聲源定位系統PixelPlayer。

透過結合聲音和影像訊息，AI能夠以無監督的方式從影像或聲音中識別目標、定位影像中的目標，甚至分離目標影片中的聲音來源。

當你給定一個輸入視頻，PixelPlayer可以聯合地將配音分離為目標組件，並在圖像幀上定位目標組件。

值得一提的是，它允許在視訊的“每個像素”上定位聲源。

具體來說，研究人員利用了影像和聲音的自然同時性，來學習影像聲源定位模型。

PixelPlayer學習了近60小時的音樂演奏，包括獨奏和二重奏。它以聲音訊號作為輸入，並預測和視訊中空間定位對應的聲源訊號。

在具體訓練過程中，作者還利用了自然聲音的可加性來生成視頻，其中構成聲源是已知的。同時，也透過混合聲源來訓練模型生成聲源。

這只是視覺-音頻聯合學習（Audio-Visual Learning）研究中的一瞥，過去在這一方向領域的研究也是無數。

例如，在ECCV 2018被接收的Oral論文「Learning to Separate Object Sounds by Watching Unlabeled Video」，同樣使用了視覺訊息來引導聲源分離。

論文網址：https://arxiv.org/pdf/1804.01665.pdf

比起MIT的那項研究，這篇論文除了在音樂，還在自然聲上進行了實驗。

以往的研究，都將為未來視訊-音訊完成精準映射進一步鋪路。

正如這幾天被人們炒過的火熱的Sora模型，背後架構採用的是Diffusion Transformer一樣，正是基於前輩們的成果。

話又說回來，網友發出疑問，「那得需要多少年，LLM才能完全遵守物理達則中的所有可能參照系」？

別慌！

有沒有可能OpenAI早已接近，甚至是實現AGI，只不過不想讓我們知道？

前文提到的ElevenLabs，是由前Google機器學習工程師Piotr Dąbkowski、前Palantir部署策略師Mateusz Staniszewski，在2022年共同創立的利用AI實現語音合成與文字轉語音的公司。

這兩位創辦人都來自波蘭，在看到美國電影不盡人意的配音後，萌生了創造ElevenLabs的想法。

儘管ElevenLabs沒有固定辦公地點並且僅有15名員工，但它卻在2023年6月以約1億美元估值成功籌集到了1900萬美元的A 輪融資。

到了2024年1月22日，ElevenLabs又在B輪融資中籌集了額外的8,000萬美元，使估值達到了11億美元。同時，該公司也宣布推出了一系列新產品，包括聲音市場、AI 配音工作室和行動應用程式等。

2023年3月，喜劇演員Drew Carey透過ElevenLabs的聲音克隆工具，在他的廣播節目《Friday Night Freakout》中復刻了自己的聲音。

2023年3月，串流自動化服務Super-Hi-Fi攜手ElevenLabs，利用後者的軟體和ChatGPT產生的提示詞，為其虛擬DJ配音，推出了全自動的「AI Radio」廣播服務。

6月13日，Storytel宣布與ElevenLabs達成獨家合作，後者將專門為Storytel的核心市場量身訂做聲音，製作AI敘事的有聲書。

在遊戲領域，ElevenLabs正與瑞典的Paradox Interactive和英國的Magicave等開發商進行合作。

ElevenLabs的技術也被用於多語言視訊配音，幫助內容創作者準確複製幾乎任何語言的任何口音。此外，明星粉絲也透過ElevenLabs使用他們偶像的聲音創作鼓舞人心的信息。

OpenAI下一次顛覆，又是兆美元產業？

還記得ChatGPT誕生後，OpenAI隨後為其「連網」，並發布了全新的插件功能。

那些新創公司緊跟著，上線了一大波插件應用程式。

沒想到，從3月發佈截止到11月，僅僅半年多的時間，一些新創公司卻遭到「屠殺」。

在首屆開發者大會上，Sam Altman首次公佈客製化GPTs，以及即將上線的GPT Store。

可以說，基於OpenAI介面建構新創公司，產品忽然就失去了意義。許多新創公司的產品，已經沒有了護城河。

當時有網友便問，OpenAI入局智能體後，全球十家頭部Agent新創公司接下來該做什麼？

而現在，首個AI視訊模型Sora的橫空出世，已經讓許多影視行業的人，倍感恐慌。

有網友表示，「Sora雖然有些不完美之處（可以檢測出來），例如從物理效果可以看出它是人工合成的。但是，它將會革命性地改變許多產業。

想像一下可以產生動態的、個人化的廣告影片進行精準定位，這將是一個萬億美元的產業」！

對於Sora的應用前景，預計在未來成為影片製作領域的重要工具。

等到OpenAI發布能夠視訊-音訊大模型之後，對於如上專門配音的新創公司ElevenLabs來說，都將是一場「災難」。

「我認為大多數人都不能理解，這對不久的將來的生活意味著什麼」。

未來，無論是電影、電視劇、廣告，甚至遊戲等領域，高品質視訊創作，都將被AI入侵。

在那一天還沒到來之前，想想我們還能做些什麼？(新智元)

參考資料：

https://twitter.com/elevenlabsio/status/1759240084342059260

https://twitter.com/DrJimFan/status/1759287778268025177