大模型對數據的胃口,像無底洞。為了「煉」出更好的大模型,科技巨頭們現在八仙過海,不惜各出「陰招」。
紐約時報在4月6日發布了一篇重磅長篇調查報道,其中顯示:OpenAI此前收集了超過100萬小時的YouTube視頻,將其中音頻轉錄成文本,餵給GPT-4進行訓練。
OpenAI用的是自家開發的音頻轉錄工具,叫Whisper。但在這項工作上,
Whisper多了一層意義──悄悄地轉錄,打槍的不要。
別忘了,OpenAI技術長Mira Murati,在3月時還不能交代清楚Sora的訓練資料來源。無論是文字轉錄,還是影片內容的爬取,YouTube都明令禁止。
底線一次又一次被試探,還要繼續忍耐嗎?
根據彭博社4月5日消息,YouTube首席執行官Neal Mohan又點名OpenAI——雖然還沒證據表明,你們給Sora餵了油管視頻,要是真這麼幹的,可就違規了!
但YouTube的遭遇,只是大模型數據之爭的冰山一隅。
各家矽谷巨頭正在尋求捷徑,不惜進入灰色地帶。
YouTube敢叫板OpenAI,但也給金主爸爸谷歌台階下。前述採訪中,Mohan不忘補刀:我們家Google確實也用YouTube內容訓練大模型Gemini,但和你們不一樣,影片部落客都給了授權。
可以說谷歌“近水樓台先得月”,但補的這一刀,谷歌不一定開心。
根據紐約時報,在谷歌為自己自己制定的規則,能否利用YouTube用戶資料在影片平台之外開發商業服務(例如大模型Gemini),並未完全解釋清楚。
同樣的,Google旗下的APP家族,含有數十億英文單字的語料,取之不盡用之不竭——如公開上傳的Google文檔,用戶在Google地圖上的打卡評論。但谷歌只能做瞪眼,因為自己訂的規定,限制了這些數據的使用方式。
養了這麼久的用戶,Google早就抓心搔肝了。 2023年7月,Google修改隱私權政策,擴大應用程式的資料使用範圍,以便「(訓練)人工智慧模型以及開發類似Google翻譯、Bard和Cloud AI的功能」。但官方解釋,不會「未經用戶明確許可」用資料訓練大模型。
所以,當Google員工知道OpenAI偷偷用YouTube影片訓練模型,並沒有選擇曝光。
此時在大模型競賽稍顯落後的Meta,數據焦慮更強烈。
根據紐約時報,內部員工表示,Meta並沒有太多用戶貼文文本,可用於模型訓練。 Facebook上,許多用戶已經刪掉先前的帖子,平臺本身也並非定位於長內容。 Meta的AI團隊,幾乎使用了網路上所有可用的英語書籍、論文、詩歌和新聞文章來訓練模型。
紐約時報在報道中也介紹,2023年3月到4月期間,Meta高層急得每天都要開會想辦法,討論怎麼搞到有版權的內容:有的法子能說,比如收購Simon&Schuster出版社;有的不方便說,例如冒著吃官司的風險,在網路上收集有版權的文字。
科技公司們的數據需求如此旺盛,有些內容平台正因此迎來第二春。
根據路透社,圖像託管網站的Photobucket曾有7000萬用戶,近來降到只有200萬。但現在,這家公司庫存的130億份照片和視頻,正吸引多家科技公司前來洽談價格,希望授權用於模型訓練。
執行長Ted Leonard介紹價格區間,單張照片5美分到1美元之間格,單一影片超過1美元。
「數據燃料」或許昂貴,總比事後吃官司強。 2023年2月,攝影社Getty Images起訴AI新創公司Stability AI,稱其AI創作工具Stable Diffusion 已經竊取了超過1200萬張受版權保護的照片,Stable Diffusion可能要付出1.8萬億美元的代價。
而Getty Images先前已與其他AI創作工具合作,這更加聚焦了Stability AI未經許可、沒有付費的事實。
由於AIGC侵權案件十分前沿,業內人士指出,案件可能會持續幾年時間。
AI的胃口比想像的大,數據使用入不敷出。根據研究機構Epoch AI,可用於訓練的高品質文本,很可能會在2026年耗盡。
在Scaling Law的遊戲法則下,科技公司不進則退,害怕被甩在身後。他們努力挖掘各種機會,盤活各大平台上一切有價值的數據。但內容原創方不幹了——這一矛盾自ChatGPT、AI文生圖、AI圖生圖走紅後,就一直存在(見智能湧現文章《被AI奪走工作的人,決定反抗AI|智湧深度》)。
最新的爭論則來自最近紅遍全球的AI音樂生成模型Suno,讓“人人都能發專輯”。 4月2日,200多位國際樂壇知名音樂人如Billie Eilish, Nicki Minaj等,聯署公開信,矛頭指向大公司-不經過作者允許,就將作品餵給大模型進行訓練。
音樂人還表示,“若使用時不負責任,AI將不僅使我們難以保護自己的隱私、身份和音樂作品,也將難以維持生計。”
觀察AI音樂生成模式Suno V3,或許你會明白音樂人的怒火。根據滾石雜誌,Suno的投資人Rodriguez很早之前就已充分了解風險,即唱片公司和發行商可能會提起訴訟。可以說,很早就做好打官司的準備了…
Suno至今也未公佈模型訓練使用的資料來源,不過有一個初步的姿態:不允許使用者在提示中指定任何特定藝術家的風格,同時也不會使用真實藝術家的聲音。但這樣戰術上的掩蓋,很難讓人滿意。
在這場「人機大戰」中,創作者們不應該只是機構之外的「沉默的大多數」。在美國,版權法為藝術家和音樂唱片公司提供保護,但AI生成的內容,並不直接挪用藝術家創作的歌詞或旋律,而僅僅是「模仿(mimic)」。創作者們正在遭遇新的侵權,舊的法律無法成為他們的堅強後盾。
根據CNBC,當地時間3月21日,美國田納西州率先通過立法,以「保護歌曲作者、表演者和音樂產業專業人士的聲音免受人工智慧濫用」。這部《確保相似語音和影像安全(ELVIS)法案》,將於7月1日生效。
當然,如果雙方能良性共存,何樂而不為呢? 3月,OpenAI執行長Sam Altman在訪談中曾回應模型訓練時的公平性問題。他希望,為創造有價值數據的人,創造一套激勵機制。他說:
如果我是藝術家,一是希望可以選擇,讓別人不要使用我的風格來創作藝術作品。二是如果確實用了我的風格來創作,希望能有一套經濟模式,確保滿足我在中間的利益。
但就具體方案,Sam Altman沒說,其他AI公司也不知道。
合成資料是現在比較主流的可行方向:把AI產生的資料再餵給AI,用合成資料(synthetic data)來訓練。
根據紐約時報,OpenAI和其他公司正在探索的數據生成模式便是,兩個不同的大模型搭配幹活,一個生產數據,一個檢查數據,以此保證數據品質。只要判斷數據的大模型做得夠好,這個法子就能走通。
2023年5月,AI新創公司Anthropic介紹的「憲法AI(Constitutional AI)」訓練方法,便是這個邏輯。
不過,用合成資料訓練的還僅限於頭部的幾家AI公司,目前還沒有被廣泛應用。而創作者們的鬥爭,也還有很長的路要走。 (36氪Pro)