OpenAI和微軟此前被一些匿名人士集體起訴,稱其用了互聯網上大量的公共數據來進行人工智能的訓練,並以此牟私利。
這一事件中,關於用戶發表在互聯網上的信息是否屬於受保護的版權成為爭議重點。諸如維基百科、社交媒體、博客等數百萬條評論變成棘手的難題,用戶可能不在乎自己的文字在互聯網上二次傳播,但可能不願拿來作為某個公司AI模型的“課本”。
或許是受到競爭對手的啟發,谷歌選擇先行堵上這一漏洞。
7月1日,谷歌更新了其隱私政策,現在的政策中明確谷歌有權收集任何公開可用的數據,並將其用於其人工智能模型的培訓。
也就是說,谷歌已經向其所有用戶表明,只要是谷歌能從公開渠道獲得的內容,它都可以拿來訓練自己的Bard模型或未來的一切人工智能。
用戶或許不知道隱私政策,但只要繼續使用谷歌的服務,按照這個政策來看,就是默認自己的信息可以被用來訓練谷歌AI模型。
很難評價谷歌的這一做法是否恰當,因為事實上,像谷歌這樣的大型搜索引擎服務商在收集公共信息或數據上幾乎沒有任何限制。其每天抓取數十億個公共網頁,以索引到其龐大的數據庫中,這是OpenAI和微軟都沒有的優勢。
然而,法律上講,由於對AI的監管還處於非常初步的探討階段,人們很難釐清公共數據被用於私人模型是否存在法律障礙。
不過,谷歌這種“騷操作”可能也被一些數據所有者看透,比如推特。
根據推特最近的政策,不同賬戶將擁有不同數量的推特內容訪問權,比如經過驗證的賬戶可以每天看到幾萬條推文,而陌生訪客則將無法訪問推文等。
這種策略很大程度上限制了谷歌所謂的公開可獲得數據的範圍,當然也引起了不少推特網友的不理解。
推特執行董事馬斯克公開表示,推特此前的數據被大量掠奪,導致普通用戶的服務質量下降。因此,即便用戶無法理解馬斯克的決定,但他還是有足夠的理由推行這一政策,以防止AI公司們一波又一波地薅推特羊毛。(元宇宙NEWS)