今天,OpenAI和微軟正式被《紐約時報》起訴!索賠金額,達到了數十億美元。
指控內容是,OpenAI和微軟未經許可,就使用紐約時報的數百萬篇文章來訓練GPT模型,創建包括ChatGPT和Copilot之類的AI產品。
並且,要求銷毀「所有包含紐約時報作品的GPT或其他大語言模型和訓練集」。
醞釀了幾個月,該來的終於來了。
此案涉及的,是AI技術和版權法之間的複雜關係。大模型爆火之後,業界一直未能有明確的立法,對於AI侵害著作權給予界定。
紐約時報打響的這一炮,可以說是迄今為止規模最大、最具代表性和轟動性的案例。在整個生成式AI歷史上,這必定是一件具有重大意義的事件,標誌著人工智慧和版權的分水嶺。
在起訴文件中,《紐約時報》的關鍵爭議之一是ChatGPT訓練權重最大的資料集—公共爬蟲網站Common Crawl。其中2019年數據快照中,NYT的內容佔1億個token。
紐約時報甩出的證據,讓OpenAI啞口無言。
左邊是GPT-4輸出的句子,右邊是紐約時報的原文,紅色是重疊的部分。這種程度的逐字抄襲,簡直是讓人倒吸一口氣。
OpenAI這一關,怕是難過了。
GPT-4被曝照搬原文
「被告試圖搭紐約時報對新聞業巨額投資的便車,無償使用紐約時報的內容來創造它的替代品,並從中竊取讀者。」
文件中,NYT提供了許多關鍵事實。例如,NYT是Common Crawl中用於訓練GPT的最大的專有資料集。
從下表中,可以看出有1750億參數的GPT-3訓練資料中,大部分的資料集都來自Common Crawl,佔權重高達60%。
下圖中,是由501非營利組織Common Crawl提供的「網頁副本」。
在Common Crawl 2019年快照的過濾英語子集中,網域www.nytimes.com是代表度最高的專有來源(整體排名第三,僅次於維基百科和美國專利文件資料庫),佔1億個token。
具體來說,Common Crawl資料集包括至少1,600萬條來自《紐約時報》旗下的新聞網站(News)、烹飪程式Cooking、評論網站Wirecutter,體育新聞網站(The Athletic),以及超過6600萬條來自NYT的內容記錄。
OpenAl自己也承認,與其他低品質來源的內容相比,NYT在內的高品質內容對GPT模型的訓練更為重要,也更有價值。
NYT指出,GPT-4吐出與紐約時報文章內容大部分一致案例,足以證明OpenAI濫用自己的數據。
例如,前面提到的如下這個案例,是《紐約時報》在2019年發表了一系列五篇關於約市出租車行業的掠奪性借貸的文章,並獲得了普立茲獎。
這項為期18個月的調查,包括600次訪談、100多次資訊公開申請,大規模資料分析以及數千頁的內部銀行記錄,以及其他文件審查。
而OpenAI在這些內容的創作上沒有參與,只是用很少的提示,就直接輸出大部分內容。
還有如下這篇報道,是NYT在2012年聯繫了數百位現任和前任蘋果公司高管,最終從60多位蘋果公司內部人士,獲得了蘋果和其他科技公司的外包如何改變了全球經濟的資訊.
同樣,GPT-4複製了這些內容,並能逐字背誦其中的大部分內容。
看得出,ChatGPT回答時,會給出GPT模型所記憶的《紐約時報》作品的副本或衍生作品。
對此,NYT推測,GPT模型在訓練過程中一定使用了許多自家的作品,才使其生成如此一致的內容。
在下面這個例子中,ChatGPT引用了2012年普立茲獎得獎作品《紐約時報》的部分文章「Snow Fall:The Avalanche at Tunnel Creek」一文的部分內容。
微軟必應和ChatGPT在合成搜尋時,也會吐露出類似的數據。
Bing幾乎複製了紐約時報旗下網站Wirecutter的結果,但並沒有連結到Wirecutter的連結。投訴稱,這會導致Wirecutter的流量減少,收入銳減。
華頓商學院教授Ethan Mollick表示,在這起訴訟中,我們可以看到訓練資料和輸出的關係是多麼複雜。
一方面,你可以誘導ChatGPT直接吐出紐約時報的原文。
另一方面,ChatGPT也會產生幻覺,它會捏造說紐約時報在2020年1月發表了一篇《研究發現橙汁與非霍奇金淋巴瘤之間可能存在聯繫》的文章,實際上,這篇文章壓根就不存在。
紐約時報:我報導我自己
紐約時報記者表示,自家媒體「在未經授權使用已發表作品訓練AI技術日益激烈的法律鬥爭中,開闢了一條新戰線」。
的確,紐約時報是第一家就版權問題起訴ChatGPT平台的美國主流媒體機構。
同時,它也呼籲這些公司銷毀所有使用紐約時報版權資料的聊天機器人模型和訓練資料。
早在今年4月,紐約時報就曾與微軟和OpenAI接觸,表達了對其知識產權使用的擔憂,並且探索友好的解決方案,以建立商業協議和技術護欄。但談判並未達成任何解決方案。
起訴書中也指出,知識版權問題可能也是引發OpenAI宮鬥的導火線,因為前董事會成員Helen Toner曾經在一篇論文中提過這個問題,隨後Altman與她就此發生了爭執。
OpenAI發言人表示,公司一直在推動與紐約時報的洽談,對於這起訴訟感到驚訝和失望。
我們尊重內容創作者和所有者的權利,並致力於與他們合作,確保他們從人工智慧技術和新的收入模式中受益。
我們希望能找到一種互惠互利的合作方式,就像我們與許多其他出版商所達成的合作一樣。
網友熱議
有人說,分歧的矛盾點就在於,訓練不是複製,而是學習。進行統計研究,不會侵犯版權,例如透過檢查一百萬張圖像,來計算網路上包含小貓圖像的百分比。
有人反駁說,複製就是訓練過程的一部分,訓練顯然涉及了複製。
在美國,受版權保護內容是否合理使用,由許多因素決定。統計研究就是合理的使用,但生成式AI並不是。
所以,究竟該在哪一步界定為侵權呢?
在神經網路中創建權重有問題嗎?還是問題在於使用神經網路產生新內容?如果自己在家做,不賣結果,就不算侵權?
這位網友總結道,許多人認為,AI公司不應該像Photoshop這樣的工具一樣,對用戶的版權侵權承擔責任,這是完全錯誤的。
有一些AI公司的確獲得了創作者的同意,但大多數公司並沒有。
有人甚至表示,《紐約時報》對OpenAI的訴訟完全誤解了LLM的工作原理,如果法官弄錯了這一點,將對人工智慧造成巨大損害。
基本重點:大模型不會「儲存」基礎訓練文字。這在技術上是不可能的,因為GPT-3.5或GPT-4的參數大小不足以對訓練集進行無損編碼。
簡單講,大模型的工作原理便是,從整個互聯網獲取大量的文本訓練數據,然後訓練注意力模型,來預測給定用戶文本後面的下一個token。
也就是說,如果你說「太陽」,下一個字可能是「是」、「升起」、「發出」。如果是提示「海明威的《太陽》」,很可能下一個字是「也」。
注意力模型的權重大致就是這種機率分佈。使用LLM/Transformer的最大訣竅在於,了解先前文本的哪些部分對「準確」預測下一個token最有用。任何文字都不是從網路上「記憶」下來的。
也就是說,如果模型的參數遠遠超過訓練資料量(比GPT4大得多),並且使用者提供了獨特的前文,該文本和後續文本多次與訓練資料中的某些內容完全匹配,那麼模型就可以重複產生訓練資料中的內容,也就是後續內容的機率趨近於1!
也就是說,超大模型確實可以複述訓練文本,但這需要參數遠超訓練資料並給出相關文本。然而目前GPT水準還達不到這個狀態。
再回到NYT在訴訟文件中的例子。
這裡,GPT幾乎完美地吐出了2012年一篇「Snow Fall」文章的開頭段落。但這篇文章在網路上到處都是,超級著名的文章!這就是為什麼GPT對前一段文章的後驗預測如此之好。
而對於那些不太著名的文章,NYT指責ChatGPT傳播誤導的事實。
主要是因為,如果給定的先前句子集在訓練資料中只出現一次,則預測的後驗文字將不會與訓練資料相符。它會「幻覺」出類似合理的文本。
幻覺之所以會發生,是因為大模型根本不了解事實,只知道下一個字的分佈。
這是一件大事,因為它可能為兩個方面建立先例:1. 法院怎樣確定新聞內容在訓練大語言模型時的價值;2. 對於先前的使用情況,應支付多少賠償。
Midjourney吐出「原圖」?
不只是OpenAI、微軟,就連最強的AI作圖神器Midjourney也將在未來面臨一大波的起訴。
Midjourney V6升級後驚艷了全網,但同時有人發現,其輸出的圖片完全和好萊塢等電影劇照毫無差別。
曾為漫威工作的插畫家兼電影概念藝術家Reid Southen表示,只需要15分鐘,就能找到Midjourney侵犯版權和剽竊的證據。
如下的圖片中,可以看出生成的影像與電影原作非常接近,僅在鏡頭角度或姿勢等方面存在細微差別。
他還製作了一段視頻,展示了他使用Midjourney V6進行的剽竊實驗。
因為他發表的評論,Southen已經被踢出了Midjourney Discord小組。
根據Southen表示,AI軟體可以完全複製受版權保護的智慧財產權,並且可以創造無限的衍生性商品。
藝術家將在同一市場上與自己的作品競爭。當網路上50%的漫威作品最終都是人工智慧的山寨品時,品牌形象問題和消費者的困惑又將如何解決?
《蒙娜麗莎》這樣的經典藝術品,只提供兩個字的提示,就能完全復刻原圖。
而且在這種情況下,這種行為並不會在法律上被判為“剽竊”,因為《蒙娜麗莎》的年代久遠,已經屬於公有版權。
2019年由陶德·菲利普斯執導的電影《小丑》中的畫面,也被Midjourney V6「拿來即用」。
這兩張圖如此相似,不得不讓人懷疑,這似乎就是在訓練資料中微調之後的版本。
而它們的不同之處,在於燈光和色彩。
矩陣中的基努,也和原片幾乎一毛一樣。
Midjourney V6甚至可以複製任何動畫風格。
小小兵、瑞克和莫迪、巴斯光年等等,完全逼真全現。
為了最大限度地提高效能,新模型可能會在相同的資料上反覆強化訓練,導致輸出結果與訓練資料幾乎完全相同。
這就是所謂的「過度擬合」,先前研究表明這種情況可能會發生。ChatGPT也會出現文字過度擬合的跡象。
全新的V6模型很可能是一枚重磅炸彈。目前,Midjourney已經捲入了至少一起訴訟。
以後網路上這些畫面究竟是原動畫還是AI生成,恐怕沒人能分得清了。(新智元)
參考資料:
https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
https://the-decoder.com/midjourneys-v6-model-draws-close-to-copyright-infringement-with-movie-scene-images/
https://twitter.com/CeciliaZin/status/1740109462319644905
https://twitter.com/maxaltl/status/1740116230114312264