OpenAI再陷巨大爭議?Sora訓練資料被質疑非法,CTO訪談瘋狂翻車



【新智元導讀】最近,OpenAI CTO Murati接受訪問時,對Sora訓練資料語焉不詳、支支吾吾的表現,已經成了全網熱議的話題。畢竟,要是一個處理不好,OpenAI就又要陷入巨額賠償金的訴訟之中了。

最近,OpenAI CTO在訪談中大翻車的表現,已經在網路上掀起了軒然大波。Sora再陷版權爭議!


前幾天Murati接受華爾街日報採訪時,被問及Sora訓練資料的這段視頻,已經在全網爆火,引起網友熱議。

準備好,WSJ女記者要放大招了--「Sora是用什麼資料訓練的?」


Murati接下來的表現,十分值得玩味。

她眨了數次眼睛,目光閃爍,思考幾秒之後略帶遲疑地給出了一個官方味十足的答案——

「我們使用的是公開可用的數據,以及經過許可的數據。」


記者繼續出招:「所以,你們是用了YouTube上的影片嗎?」

Murati的反應亮了。她撇了撇嘴,眼神茫然地望向空中,猶豫了幾秒後只好承認——

「關於這個情況,我不太確定。」


記者步步緊逼:「那Facebook和Instagram上的影片呢?」

Murati的表情彷彿已經在崩潰的邊緣——

「你知道,如果這些數據可以公開使用……對……可以公開使用的話……可能是用了這些數據,但我不確定,真的不太確定。」然後她無奈地伸開雙手,表示差不多得了。


但記者還在發問:「Shutterstock呢?我知道你們公司跟他們有合作。」

Murati搖了搖頭,表示,「關於使用數據的細節,我是不會詳細說的,但我們使用的數據肯定是公開的,或者許可使用的。」


倉促上陣的Murati肯定沒想到,記者會準備得如此充分,讓她幾乎直接掉在坑裡。如果處理不夠得當,OpenAI極有可能會繼續吃官司。


網友形容Murati的窘迫表現

有人預言:Murati的反應絕對會被做成表情包,全網熱轉。


訓練AI模型資料所面臨的巨大版權爭議,是這一年多全球相關人士討論最多的話題。

如今,ChatGPT讓OpenAI的估值暴漲到了800億美元;而Sora幾乎要顛覆動輒上百億票房的好萊塢影視產業。

然而這些收益卻進了OpenAI的腰包,而做出關鍵貢獻的數據所有者,卻分文無收,甚至反而被掀了飯碗。

OpenAI被紐約時報起訴、ChatGPT被怒噴應當「銷毀」的故事,會再一次上演嗎?

網友:她的微表情在說謊

這段訪談的影片一出,業內人士和網友都震驚了。

有網友銳評道,這篇訪談看起來很愚蠢,整個對話彷彿是下面這個樣子——

你是壞人嗎?

不是。

你是壞人吧?

呃……不是吧?不是。

你到底是壞人嗎?

聽著,我不是壞人。


還有網友展開了微表情分析,認為Murati很有可能是在說謊。



科技專欄作家Brian Merchant批評道,Murati的表現「要么是對自己公司的產品驚人的無知,要么就是在謊言——無論哪種可能,都非常可怕!」


的確,對於一個AI公司CTO來說,她的表現是完全不合格的。


那麼問題來了,如果是後者可能,Murati為什麼要說謊呢?

如果她意識到自己需要撒謊來掩蓋某些事實,那就說明,她心裡明白OpenAI的做法是在違法的邊緣試探。


而在未來,當OpenAI被法官問話時,這很可能就會給OpenAI埋下一個大坑。


「看起來,OpenAI要面臨一場大型訴訟了」

目前,OpenAI正面臨著好幾場由作家和紐約時報發起的訴訟,後者聲稱,他們受版權保護的作品未經許可,就被OpenAI用來訓練ChatGPT等模型。

同時,外媒紛紛發表文章,嘲諷Murati在訪談中表現出的樣子太不專業。



CTO的這個表現,對官司纏身的OpenAI可真不算好消息。

如果CTO都無法堅定地回答,現在公司旗下最熱門新模型的訓練資料來自哪裡,那也就證明了,OpenAI高層甚至對這個問題根本就沒關注。

根據WSJ報道,在採訪結束後,Murati證實,Shutterstock上的影片確實包含在Sora的訓練集中。

不過,網路上有大量的影片內容,OpenAI從Shutterstock得到的,恐怕也只是Sora訓練資料池中的一小滴水而已。


其實,這件事情之所以能引起軒然大波,也是因為它直接指向了問題的本質──在公共領域的數據,所屬權到底屬於個人,還是完全共有?

從前,資料飛輪還沒能讓LLM加速到日進鬥金的程度時,這個問題沒有放到檯面上討論過。而現在,它背後代表了巨大的利益。

也有一些人為Murati和OpenAI辯護。

他們認為,既然你把東西發到了網路上,就應該默認它屬於公共資產。如果你不想公開,那就應該讓它們保持私密。


也就是說,一旦事情在公共場合發生,它就屬於整個人類。


這麼說來,我們在上網時,都得時時刻刻小心翼翼了。

一家價值數十億美元的AI公司,很可能會把你隨手拍的家人朋友的視頻,用作生成式AI模型的養料,獲得驚人的利潤。

對於這個資料監管的爭議,史丹佛教授Christopher Manning表示,目前最適合的AI監管辦法之一,就是要求模型廠商記錄他們所使用的所有訓練資料。


歐洲議會剛通過的AI法案,也同樣強調了這一點。




Sora最新一波示範出爐!


雖然在先前的訪談裡已經提到,Sora生成的影片還有很多bug,但這些不斷被放出的演示,依然在不斷驚艷世人。

例如瓷器店裡的公牛。


扛著攝影機的女記者忽然變成了機器人。(x


拿著手機的小美人魚,旁邊是她的蟹助手。


還拉著Runway對比了一波,生成兩個鏡頭前的女記者。




Sora還在不斷掀起颶風

其實,Sora的傳奇故事,才剛揭開序幕。

一個月前,曾給《死侍2》做特效的44歲視覺藝術家Greg Pilon,突然感覺:自己的行業似乎面臨著末日的鐘聲。

他見到Sora的第一眼,就有這種強烈的感覺。

無人機拍攝的海岸、一個男人在巴黎咖啡館深沉地思考人生的畫面、一個在迪斯可舞廳跳舞的袋鼠……這些驚豔的場景也令他恐懼。


Sora的先進程度,已經遠遠超越任何視訊AI。

Pilon曾以為,粗糙的AI要威脅自己的生計,而且得等幾年,但Sora卻顯示:被淘汰的危機已經近在眼前。

「我現在覺得,兩年後,我可能就會被取代了。」

雖然Sora還未發布,但僅僅是一些demo,就已經引起了好萊塢和遊戲界的巨大轟動。

團隊的三位負責人在最新的專訪中,對Sora進行了一些介紹


電影

前陣子最刷螢幕的新聞之一,就是好萊塢大導Tyler Perry在Sora剛發布一週後,取消8億美元工作室擴建計畫的消息。


對此,導演Scott Mann也認為,Sora將「為我們的行業帶來自電影攝影機發明以來最大的變革。」

2018年,Mann參與創立了Flawless,來開發AI電影製作工具。

他們最受矚目的產品,能夠解決電影編輯中的配音問題——這不僅可以節省昂貴的重拍費用,還可以用AI調整演員的嘴型來與另一種語言同步,從而幫助電影順利地進入國際市場。

在最近的作品《Fall》中,他就利用Flawless對其中的30多處粗口進行了配音處理。因此,電影達到了PG-13級別,擴大了受眾範圍。

在300萬美元的預算下,《Fall》的票房收入達到將近2,200萬美元,回報近7倍。

不過,Flawless的工作,或許很快就能由Sora完成了。


而給《權力的遊戲》和《吸血鬼日記》做特效的視覺工程師Pilon也發現,Sora很可能在幾分鐘內,完成他曾經要花數月才能完成的工作。

「沒有人預料到它會進展得這麼快,」Pilon說。「我們曾認為可能還需十年的技術,現在看來僅需幾年。」


遊戲

電玩公司Midwest Games的創辦人Ben Kvalo也表示,自己產業中的某些員工,的確會被AI淘汰。

與藝術家擅長的特定風格不同,生成式AI能夠創造出任何風格,或嘗試全新的風格。

而那些與電玩遊戲開發者合作,為遊戲初期角色和場景勾勒草圖的概念藝術家,很可能會因此失去工作。

不過,小規模的開發團隊,卻可能從中受益。

他們本來請不起概念藝術家,現在卻可以做出視覺上更高層次的遊戲項目,從而大賺一筆了。


而有朝一日,生成式AI也將達到一個新高度-讓遊戲能夠搭載「有意識」的NPC。

現在的遊戲中,NPC還停留在說簡單台詞、做基本動作的階段,如果AI能讓他們自發性對話、即興行動,故事情節會更豐富。


廣告

而在廣告領域,許多業內人士也堅信,AI模型比大家預料更早淘汰員工。

有別於電影和遊戲製作中緩慢而獨具匠心的創作過程,廣告業更重視迅速構思創意提案,盡可能地採用不同視覺風格,以及根據客戶需求快速調整方向的能力。

(Add)ventures的高級副總裁Scott Maiocchi,已經用上Midjourney和Stable Diffusion了。


商業片導演Justin Poirier,也開始用生成式AI創造情感氛圍板了。

之前,當他需要向客戶展示動畫藝術潛在的樣子時,他需要花數小時尋找靈感圖片。

他相信,未來品牌很可能會採用AI影片作為輔助畫面,而無需去Getty或Shutterstock篩選海量的影片。

畢竟,不少每個專案都有預算去用無人機空拍城市天際線的,一旦AI影片成熟,這種畫面幾秒鐘內就能得到。


3個月誕生10個類Sora應用

人們是不是對Sora有些恐慌了?有這種可能。

雖然Sora的展示很驚艷,但它也是一次巧妙的行銷——對OpenAI來說,不斷提升公司形象、吸引更多員工和資本,也是無可厚非的。

畢竟,運行Sora還會面臨巨大的成本問題,這會為它的顛覆性影響加個封印。

不過,現在市面上的玩家可不只是Sora一家。

Runway和Pika Labs這樣的新創公司,也能做出15到16秒的AI影片。而且它們已經分別獲得了2.36億美元和5500萬美元的資金

以色列新創公司Lightricks,也發布了文字到影片的全流程平台LTX Studio。

前軟體工程師、哈佛大學AI與商業課程教授Mike Grandinetti預測道:「從現在開始到6月,我們將看到10個以上類Sora應用程式的發布。」

AI在電影、遊戲、廣告這些產業還會掀起怎樣的颶風,讓我們拭目以待吧。(新智元)

參考資料:

https://www.reddit.com/r/MachineLearning/comments/1belin7/n_ooops_openai_cto_mira_murati_on_which_data_was/

https://www.theinformation.com/articles/the-sora-saga-has-only-just-started?rc=epv9gi

https://futurism.com/video-openai-cto-sora-training-data