Nature最新發佈:AI革命面臨資料枯竭,研究人員該怎麼做?

導讀:AI開發者們正在快速耗盡網際網路上的資料來訓練大型語言模型,比如支援ChatGPT的模型。以下是他們嘗試解決這一問題的方法。


網際網路是人類知識的廣闊海洋,但它並非無限。而人工智慧研究者們幾乎已經把它榨乾了。

過去十年,AI的爆炸性進展在很大程度上得益於神經網路規模的擴大和用越來越多的資料進行訓練。這種擴展證明對大語言模型(LLM)——如驅動聊天機器人ChatGPT的模型——非常有效,使它們不僅更能模擬對話語言,還能夠發展出推理等湧現特性。但一些專家表示,我們現在正接近擴展的極限。這部分是因為計算所需的能源需求不斷膨脹,但更重要的是,LLM開發者已經用盡了傳統的資料集來訓練他們的模型。

一項顯著的研究在今年成為頭條,它為這一問題提供了具體的資料:非營利研究機構Epoch AI的研究人員預測,到2028年左右,用於訓練AI模型的資料集典型規模將達到與全球公共線上文字總量相當。換句話說,AI可能在大約四年後就會面臨訓練資料枯竭的問題。與此同時,資料所有者——例如報紙出版商——開始加強對其內容使用的管控,進一步收緊存取權。這導致了“資料公地”規模的危機,麻省理工學院的AI研究員Shayne Longpre表示,他領導著資料來源倡議(Data Provenance Initiative),這是一個進行AI資料集審計的草根組織。

訓練資料即將到來的瓶頸可能已經開始顯現。“我強烈懷疑這已經在發生了,”Longpre說。



儘管專家們表示,這些限制可能會減緩AI系統的快速進展,但開發者們正在尋找解決方法。“我不認為大型AI公司的人會因此感到恐慌,”Epoch AI的馬德里研究員、預測2028年資料危機的研究主筆Pablo Villalobos說。“至少如果他們感到恐慌,也不會發郵件告訴我。”

例如,位於加利福尼亞州舊金山的知名AI公司OpenAI和Anthropic公開承認了這一問題,並表示他們有應對方案,包括生成新資料和尋找非常規資料來源。OpenAI的一位發言人對《自然》雜誌表示:“我們使用了多個來源的資料,包括公開的資料、與非公開資料的合作、合成資料生成以及來自AI訓練師的資料。”

即便如此,資料緊縮可能迫使人們在建構生成式AI模型時發生變革,可能會從大型通用LLM轉向更小、更專業化的模型,改變現有的格局。


數兆的單詞資料

過去十年,LLM(大語言模型)的發展展示了它對資料的巨大需求。儘管一些開發者沒有公開他們最新模型的規格,Villalobos估計,自2020年以來,用於訓練LLM的“tokens”(即詞的部分)數量已增長了100倍,從數百億增加到數十兆。

這可能是網際網路內容的一大部分,儘管總量如此龐大,難以精準衡量——Villalobos估計,目前網際網路上的文字資料總量為3100兆個 tokens。各種服務使用網路爬蟲抓取這些內容,然後去除重複項並篩選掉不良內容(如色情)以生成更乾淨的資料集:一個常見的叫做RedPajama的資料集包含了數十兆個詞語。一些公司或學者會自己進行抓取和清理,以建立定製化的資料集來訓練大型語言模型(LLMs)。網際網路中被認為高品質的內容比例較小,例如經過人工編輯且社會可接受的文字,這些內容可能出現在書籍或新聞報導中。

可用網際網路內容的增長速度出乎意料地緩慢:Villalobos的論文估計,它的年增長率低於10%,而AI訓練資料集的規模每年卻增長了一倍以上。根據這些趨勢的預測,兩條線將在2028年左右交匯。

與此同時,內容提供商越來越多地通過加入軟體程式碼或修訂使用條款,以阻止網路爬蟲或AI公司抓取其資料用於訓練。Longpre及其同事在今年7月發佈的一份預印本顯示,阻止特定爬蟲存取網站的資料提供商數量顯著增加。在三個主要清理資料集中最高品質、最常使用的網頁內容中,被限制抓取的tokens數量比例從2023年的不足3%上升到了2024年的20%至33%。

目前有多起訴訟正在進行,試圖為提供用於AI訓練的資料供應商爭取賠償。2023年12月,《紐約時報》起訴OpenAI及其合作夥伴微軟,指控其侵犯版權;今年4月,紐約市的Alden Global Capital旗下的八家報紙聯合提起了類似的訴訟。反方觀點認為,AI應該像人類一樣,能夠讀取並從線上內容中學習,這構成了對材料的合理使用。OpenAI公開表示,他們認為《紐約時報》的訴訟“毫無依據”。

如果法院支援內容提供商應獲得經濟賠償的觀點,這將使AI開發者和研究人員更難獲得所需的資料——包括那些資金並不充裕的學者。Longpre說:“學者將是這些訴訟中受影響最大的一方。”他補充道:“開放網路為社會和民主帶來了許多重要的積極影響。”


資料的獲取

資料短缺對傳統的AI擴展策略構成了潛在的重大問題。儘管可以在不增加訓練資料的情況下,通過增加模型的計算能力或參數數量來擴展模型,但這往往會導致AI變得緩慢且昂貴,Longpre表示——這種情況通常不是首選。

如果目標是尋找更多資料,一種選擇可能是收集非公開資料,如WhatsApp消息或YouTube視訊的轉錄文字。雖然以這種方式抓取第三方內容的合法性尚未得到驗證,但公司確實可以訪問自己的資料,一些社交媒體公司表示,他們使用自己的資料來訓練AI模型。例如,位於加利福尼亞州門洛帕克的Meta表示,他們用虛擬現實頭盔Meta Quest收集的音訊和圖像用於訓練其AI。然而,各公司的政策各不相同。視訊會議平台Zoom的服務條款表示,公司不會使用客戶內容來訓練AI系統,而轉錄服務OtterAI則表示,確實會使用去標識化和加密的音訊及轉錄文字記錄進行訓練。

然而,Villalobos估計,目前這些專有內容總共可能只包含另外一兆個文字tokens 。考慮到其中大量內容質量較低或存在重複,他表示,即使假設單個AI能夠在不引發版權侵犯或隱私問題的情況下訪問所有這些資料,這些內容也僅能將資料瓶頸推遲一年半。“即使資料存量增加十倍,也只能延長大約三年的擴展時間,”他說。

另一種選擇可能是專注於專門的資料集,如天文資料或基因組資料,這些資料正迅速增長。斯坦福大學的著名AI研究員李飛飛公開支援這一策略。她在5月的彭博技術峰會上表示,關於資料枯竭的擔憂過於狹隘,因為在醫療、環境和教育等領域中有大量未開發的資訊可供利用。

但Villalobos表示,目前尚不清楚這些資料集是否能夠用於訓練LLM,或者它們的實用性如何。“許多資料類型之間似乎存在一定程度的遷移學習,”Villalobos說。“不過,我對這種方法並不抱太大希望。”

如果生成式AI不僅僅依賴文字資料,而是訓練於其他類型的資料,可能性會更廣泛。一些模型已經能夠在一定程度上利用未標註的視訊或圖像進行訓練。擴展和改進這些能力可能會打開通往更豐富資料的大門。

Meta的首席AI科學家、紐約大學電腦科學家Yann LeCun(被視為現代AI的奠基人之一)在今年2月的於加拿大溫哥華舉行的AI會議上,強調了這些可能性。用於訓練現代LLM的1013個 tokens聽起來很多:LeCun計算得出,一個人要讀完這些 tokens需要170,000年。然而,他提到一個四歲的孩子在清醒時間通過觀察物體所吸收的資料量是這個數字的50倍。LeCun在人工智慧促進協會(AAAI)的年度會議上展示了這些資料。

類似的豐富資料最終可能通過讓AI系統以機器人形式,從自身的感官經驗中學習來加以利用。“我們不可能僅僅通過訓練語言就達到人類水平的AI,這根本不可能,”LeCun說。

如果找不到資料,更多的資料也可以被創造出來。一些AI公司支付人們生成內容用於AI訓練;另一些公司則使用AI生成的合成資料來訓練AI。這是一個潛在的龐大來源:今年早些時候,OpenAI表示它每天生成1000億個詞語——這相當於每年超過36兆個詞語,和目前的AI訓練資料集規模差不多。而且,這一產出正在快速增長。

總體而言,專家們一致認為,合成資料在有明確、可識別規則的領域(如國際象棋、數學或程式設計)中表現良好。例如,一個名為AlphaGeometry的AI工具成功地通過1億個合成示例進行了幾何問題求解訓練,而沒有使用任何人類示範。合成資料已經在真實資料有限或存在問題的領域得到應用,包括醫療資料(因為合成資料不存在隱私問題)和自動駕駛汽車的訓練環境(因為合成車禍不會傷害任何人)。

合成資料的問題在於,遞迴循環可能固化錯誤資訊、放大誤解,並且通常會降低學習質量。一項2023年的研究創造了“模型自噬障礙”(Model Autophagy Disorder)這一術語,描述AI模型可能“瘋狂”(go MAD)的方式。例如,部分基於合成資料訓練的面部生成AI模型開始畫出帶有奇怪雜湊標記的面孔。


少投入多產出

另一種策略是放棄“越大越好”的概念。儘管開發者仍在建構更大的模型,並依靠擴展來改進他們的LLM,許多人正在追求更高效的、用於專注於特定任務的小型模型。這些模型需要精煉的專業資料和更好的訓練技術。

總體而言,AI努力已經在用更少的資源做更多的事情了。2024年的一項研究結論顯示,由於演算法的進步,LLM實現相同性能所需的計算能力大約每8個月就會減少一半。

加上專為AI設計的計算晶片以及其他硬體的改進,打開了以不同方式使用計算資源的大門:一種策略是讓AI模型多次“重讀”其訓練資料集。雖然許多人認為電腦有完美的記憶,只需“閱讀”一次資料,但AI系統是以統計方式運作的,這意味著重讀能提升性能,斯坦福大學的博士生、Data Provenance Initiative成員Niklas Muennighoff表示。在他曾供職於紐約市的AI公司HuggingFace期間,Muennighoff和他的同事們在2023年發表的一篇論文中展示了,一個模型通過重讀給定的資料集四次所學到的效果,和通過閱讀相同量的全新資料所學到的效果是一樣的——儘管重讀的好處在超過四次後迅速減弱。

雖然OpenAI沒有透露其最新LLM模型o1的大小或訓練資料集的具體資訊,但該公司強調該模型採用了一種新方法:在強化學習(模型根據最優答案獲得反饋的過程)上投入更多時間,並更多時間思考每個響應(response)。觀察者指出,這種模型將重點從使用大規模資料集的預訓練轉移到了訓練和推理上。這為擴展方法增添了一個新維度,Longpre表示,儘管這是一種計算成本高昂的策略。

有可能的是,LLM已經讀過了大部分網際網路內容,不再需要更多的資料來變得更智能。卡內基梅隆大學(賓夕法尼亞州匹茲堡)的研究生Andy Zou,專注於AI安全研究,他表示,進展可能很快通過AI的自我反思來實現。“現在它已經有了一個基礎的知識庫,這可能比任何一個人都要廣泛,”Zou說,這意味著它只需要坐下來思考。“我認為我們很可能接近這個點了。”

Villalobos認為,所有這些因素——從合成資料、專業資料集,再到重讀和自我反思——都會有所幫助。“模型能夠自主思考,並以各種方式與現實世界互動的結合——這可能是推動前沿領域發展的關鍵。” (超算百科)