Nature曝驚人內幕:論文被天價賣出喂AI!出版商狂賺上億,作者0收入



Nature的一篇文章透露:你發過的paper,很可能已經被拿去訓練模型了!有的出版商靠賣資料,已經狂賺2300萬美元。然而辛辛苦苦碼論文的作者們,卻拿不到一分錢,這合理嗎?


全球資料告急,怎麼辦?

論文來湊!

最近,Nature的一篇文章向我們揭露了這樣一個事實:連科研論文,都被薅去訓AI了……


據悉,很多學術出版商,已經向科技公司授權訪問自家的論文,用來訓練AI模型。

一篇論文從醞釀idea到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情況下,就成為訓AI的資料。

這合理嗎?


更可氣的是,自己的論文還被出版商拿來牟利了。

根據Nature報告,上個月英國的學術出版商Taylor & Francis已經和微軟簽署了一項價值1000萬美元的協議,允許微軟獲取它的資料,來改進AI系統。

而6月的一次投資者更新顯示,美國出版商Wiley允許某家公司使用其內容訓模型後,直接一舉豪賺2300萬美元!

但這個錢,跟廣大論文的作者是半毛錢關係都沒有的。


而且,華盛頓大學AI研究員Lucy Lu Wang還表示,即使不在可開放獲取的儲存庫內,任何可線上閱讀的內容,都很可能已經被輸入LLM中。

更可怕的是,如果一篇論文已經被用作模型的訓練資料,在模型訓練完成後,它是無法刪除的。

如果現在,你的論文還尚未被用於訓練AI,那也不用擔心——它應該很快就會了!


資料集如黃金,各大公司紛紛出價

我們都知道,LLM需要在海量資料上進行訓練的,而這些資料通常是從網際網路上抓取的。

正是從這些訓練資料中數十億的token中,LLM推匯出模式,從而生成文字、圖像、程式碼。

而學術論文篇幅又長,資訊密度又高,顯然就是能喂給LLM的最有價值的資料之一。

而且,在大量科學資訊上訓練LLM,也能讓它們在科學主題上的推理能力大大提高。

Wang已經共同建立了基於8110萬篇學術論文的資料集S2ORC。起初,S2ORC資料集是為了文字挖掘而開發的,但後來,它被用於訓練LLM。

2020年非營利組織Eleuther AI建構的Pile,是NLP研究中應用最廣泛的大型開源資料集之一,總量達到800GB。其中就包含了大量學術來源的文字,arXiv論文比例為8.96%,此外還涵蓋了PubMed、FreeLaw、NIH等其他學術網站。


前段時間開放原始碼的1T token資料集MINT也挖掘到了arXiv這個寶藏,共提取到了87萬篇文件、9B token。

從下面這張資料處理流程圖中,我們就能發現論文資料的質量有多高——幾乎不需要太多的過濾和去重,使用率極高。


而現在,為了應對版權爭議,各大模型公司也開始真金白銀地出價,購買高品質資料集了。

今年,「金融時報」已經把自己的內容以相當可觀的價格,賣給了OpenAI;Reddit也和Google達成了類似的協議。

而以後,這樣的交易也少不了。


證明論文曾被LLM使用,難度極高

有些AI開發者會開放自己的資料集,但很多開發AI模型的公司,會對大部分訓練資料保密。

Mozilla基金會的AI訓練資料分析員Stefan Baack表示,對於這些公司的訓練資料,誰都不知道有什麼。

而最受業內人士歡迎的資料來源,無疑就是開源儲存庫arXiv和學術資料庫PubMed的摘要了。

目前,arXiv已經託管了超過250萬篇論文的全文,PubMed包含的引用數量更是驚人,超過3700萬。

雖然PubMed等網站的一些論文全文有付費牆,但論文摘要是免費瀏覽的,這部分可能早就被大科技公司抓取乾淨了。


所以,有沒有技術方法,能識別自己的論文是否被使用了呢?

目前來說,還很難。

倫敦帝國理工學院的電腦科學家Yves-Alexandre de Montjoye介紹道:要證明LLM使用了某篇確定的論文,是很困難的。

有一個辦法,是使用論文文字中非常罕見的句子來提示模型,看看它的輸出是否就是原文中的下一個詞。


有學者曾以「哈利·波特與魔法石」第三章的開頭提示GPT-3,模型很快正確地吐出了大約一整頁書中的內容


如果是的話,那就沒跑了——論文就在模型的訓練集中。

如果不是呢?這也未必是有效證據,能證明論文未被使用。

因為開發者可以對LLM進行編碼,讓它們過濾響應,從而不和訓練資料過於匹配。

可能的情況是,我們費了老大勁,依然無法明確地證明。

另一種方法,就是「成員推理攻擊」。


這種方法的原理,就是當模型看到以前見過的東西時,會對輸出更有信心,


論文地址:https://arxiv.org/abs/2112.03570


為此,De Montjoye的團隊專門開發了一種「版權陷阱」。


論文地址:https://arxiv.org/abs/2402.09363


為了設定陷阱,團隊會生成看似合理卻無意義的句子,並將其隱藏在作品中,比如白色背景上的白色文字或網頁上顯示為零寬度的欄位。

如果模型對未使用的控制句的困惑度,比對隱藏在文字中的控制句的困惑度更高,這就可以作為陷阱曾被看到的統計證據。



版權爭議

然而,即使能證明LLM是在某篇論文上訓練的,又能怎麼辦呢?

這裡,就存在一個由來已久的爭議。

在出版商看來,如果開發者在訓練中使用了受版權保護的文字,且沒有獲得許可,那鐵定就是侵權。

但另一方卻可以這樣反駁:大模型並沒有抄襲啊,所以何來侵權之說?


的確,LLM並沒有複製任何東西,它只是從訓練資料中獲取資訊,拆解這些內容,然後利用它們學習生成新的文字。

當然,這類訴訟已經有先例了,比如「紐約時報」對OpenAI那場石破天驚的起訴。

其中更加複雜的問題,是如何劃清商用和學術研究用途。

根據目前arXiv網站上的使用條款,如果是個人或研究用途,抓取、儲存、使用所有的電子預印本論文和網站中繼資料都是合規且被支援的。


然而,arXiv對商業方面的使用是嚴令禁止的。

那麼問題來了,如果某個商業公司使用了學術機構發佈的開源資料集訓練自己的商業模型,且資料來源含有arXiv或類似學術出版機構,這怎麼算?

此外,出版商在使用者的訂閱條款中往往也沒有明確規定,能否將論文用作模型的訓練資料。

比如,一個付費購買Wiley論文庫閱讀全文資格的使用者,是否被允許將這些文字複製下來喂給模型?

現在的問題是,有人想讓自己的作品納入LLM的訓練資料中,有人不想。


有人已經做出來一個[haveibeentrained」的同名網站,用來檢測自己的內容是否被用於訓練AI模型

比如Mozilla基金會的Baack就表示,非常樂於看到自己的作品讓LLM變得更準確,「我並不介意有一個以我的風格寫作的聊天機器人」。

但是,他只能代表自己,依然有其他很多藝術家和作家,會受到LLM的威脅。

如果提交論文後,這篇論文的出版商決定出售對版權作品的存取權,那個別的論文作者是根本沒有權力干涉的。

整個圈子也是魚龍混雜,公開發表的文章既沒有既定的方法來分配來源,也無法確定文字是否已被使用。

包括de Montjoye在內的一些研究者對此感到沮喪。

「我們需要LLM,但我們仍然希望有公平可言,但目前我們還沒有發明出理想的公平是什麼樣子。」


多模態資料不夠,arXiv來湊

事實上,龐大的arXiv論文庫中,可以利用的不止文字資料。

ACL 2024接收了一篇來自北大和港大學者的論文,他們嘗試利用這些論文中的圖文建構高品質多模態資料集,取得了非常不錯的效果。


項目首頁:https://mm-arxiv.github.io/


前段時間,紐約大學謝賽寧教授和Yann LeCun等人發佈的Cambrian模型也用到了這個資料集。



之所以要用arXiv論文中的圖片,主要還是由於科學領域訓練資料集的稀缺。

GPT-4V等視覺語言模型雖然在自然場景的圖像中有出色的表現,但在解釋抽象圖片方面,比如幾何形狀和科學圖表,依舊能力有限,也無法理解學術圖片中細微的語義差別。

這篇論文建構的多模態arXiv資料集總共用到了各個STEM領域的57.2萬篇論文,超過arXiv論文總數(2.5M)的五分之一,包含兩部分:問答資料集ArXivQA和圖片標註資料集ArXivCap。



依託arXiv大量且多樣的論文收錄,與之前的科學圖片資料集相比,ArXivCap的資料量是第二名SciCap的3倍,ArXivQA也是唯一涵蓋廣泛領域內真實論文的問答資料集。



通過使用這些領域特定資料進行訓練,VLM的的數學推理能力有了顯著增強,在多模態數學推理基準上實現了10.4%的精準率提升。

比如,在ArXivQA上訓練過的Qwen 7B模型能夠正確理解條形圖並回答相關問題(左圖),數學能力也有所提高(右圖)。不僅答案正確,給出的推理過程也更加完整充分。



資料集建構

資料集的建構流水線如下圖所示。由於arXiv是預印本平台,所以需要先通過發表記錄篩選出被期刊或會議接收的論文,以保證資料質量。

提取論文中的圖片-文字對並進行基於規則的清理後,組成ArXivCap;ArXivQA則由GPT-4V生成,但使用了精心設計過的prompt範本。


ArXivCap中的一個單圖示注對:


2019年論文「Semigroup models for biochemical reaction networks」

ArXivCap資料集中的一個多圖示注對:


2018年論文「Low-Power Wide-Area Networks for Sustainable IoT」

ArXivQA資料集示例:


2020年論文「Skyrmion ratchet propagation: Utilizing the skyrmion Hall effect in AC racetrack storage devices」

評估

根據在MathVista資料集上的結果,ArXivCap和ArXivQA共同提升了Qwen-VL-Chat的整體性能,超越了Bard的表現。


最佳結果以粗體顯示,次佳結果以下劃線標記


在為單張圖片生成圖注的任務中,提升效果更加顯著,經過ArXivCap訓練的Qwen 7B模型可以匹配甚至超過GPT-4V。


灰色結果由資料集中500個樣本的測試得到


論文提出了三個新定義任務:多圖的圖注生成、上下文中的圖注生成以及標題生成。經過ArXivCap訓練的Qwen 8B的所有分數都超過了GPT-4V,且多數情況下是最佳結果。


最佳結果以粗體顯示


按照研究領域劃分,ArXivQA資料集上的訓練在天體物理、凝聚態物理、數學、電腦科學這些領域都能帶來相當顯著的提升,超過60%,精準率變化比例超過60%。


人工評估

前面所述的文字生成質量和精準率都是基於演算法的自動評估,研究團隊還對單圖的圖注生成任務進行了人工評估,但只專注於電腦科學領域的論文。


與前面的基準測試結果相比,人工評估的結果並不理想,100個案例中只有16%被認為是「可接受的」,「上下文誤讀」的問題相對嚴重,也有一定比例的「過度簡化」和「識別錯誤」。


參考資料:

https://www.nature.com/articles/d41586-024-02599-9 (新智元)