根據非營利新聞工作室 Proof News 調查發現,如蘋果、輝達、Salesforce、Anthropic 等科技公司使用的 AI 模型,利用數千部 YouTube 影片字幕做為資料來源訓練模型,這未經過創作者同意,可能違反 YouTube 服務條款。
這些科技公司使用 the Pile 訓練他們的 AI 模型,the Pile 是非營利組織 EleutherAI 的資料集,目的是為沒有資源與大型科技公司競爭的個人或中小企業提供有用的資料集,但之後也被大型科技公司加以運用。
the Pile 資料來源包含書籍、維基百科文章等,Proof News 發現還有 YouTube 字幕 API 收集來的「YouTube Subtitles」,這些字幕內容是從 48,000 多個 YouTube 頻道的 173,536 部 YouTube 影片字幕抓取而來,包括可汗學院(Khan Academy)、麻省理工學院、哈佛大學等線上教育影片,甚至有知名 YouTuber 的影片字幕資料,如 MrBeast、PewDiePie、jacksepticeye、Marques Brownlee 等。
Proof News 提出一項,利用搜尋方式查看你喜歡的 YouTuber 和影片內容是否出現在此資料集當中。
蘋果、輝達及 Salesforce 等公司在他們的研究論文描述如何使用 the Pile 來訓練 AI,如蘋果的文件顯示,使用 the Pile 訓練 ,這是今年 4 月發表的模型。
「蘋果從多家公司取得 AI 資料,其中一家從 YouTube 影片(包括我的影片)抓取大量資料/字幕。蘋果在技術上避免犯這種錯,因為他們不是直接抓取資料的一方,但長久發展下這是個問題」,Marques Brownlee 在 X 提出看法。
Apple has sourced data for their AI from several companies
One of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids “fault" here because they’re not the ones scraping
But this is going to be an evolving problem for a long time
— Marques Brownlee (@MKBHD)
▲ Marques Brownlee 在 X 對未經授權抓取 YouTube 影片內容提出看法。
The Pile 經常在 AI 領域被採用,科技公司過去常用於模型訓練。智慧財產權所有人針對科技公司提起訴訟時,常引用這一點;被告的科技公司則認為,這種抓取行為屬於合理使用,這個問題在法庭上還未有進一步結論。
Google 發言人告訴 Proof News,Google 多年來一直採取行動防止濫用、未經授權的抓取行為,不過針對此事沒有進一步回應。
AI 和模型需求激增下,如何取得更多、更豐富的資料訓練模型更具挑戰性。YouTube 有大量影片內容,如同資料金礦,許多公司以合理使用為由,默默收集公開影片資料進行訓練,可能因此涉入 AI 和版權相關法規的灰色地帶。
(首圖來源:shutterstock)
延伸閱讀:
文章看完覺得有幫助,何不給我們一個鼓勵
想請我們喝幾杯咖啡?
每杯咖啡 65 元
您的咖啡贊助將是讓我們持續走下去的動力
標題:大咖 YouTuber 驚訝發現,蘋果、輝達等大廠利用字幕資料訓練 AI
地址:https://www.utechfun.com/post/398640.html