發展 AI 的大型科技公司爭先恐後尋找新資料來源訓練模型,但可能涉及 AI 和版權相關法規灰色地帶,需要以放大鏡仔細檢視。
OpenAI 迫切需要資料訓練模型,運用自家開發的 Whisper 音訊轉錄模型,轉錄超過 100 萬小時 YouTube 影片訓練 GPT-4 模型。《紐約時報》報導指出,OpenAI 知道這在法律層面有疑慮,但認為是合理使用,甚至由總裁布洛克曼(Greg Brockman)親自參與影片資料收集。
報導談道,OpenAI 2021 年即用盡訓練資料,並在耗盡其他資源後開始討論對 YouTube 影片、Podcast 節目、有聲書等進行轉錄,轉變成訓練資料。
針對此事,OpenAI 發言人赫爾德(Lindsay Held)僅向外媒表示,OpenAI 為每個模型開發策劃獨特資料集,幫助模型了解這個世界並保有競爭力,宣稱訓練資料來自眾多來源,包括公開資料以及合作夥伴的非公開資料,OpenAI 也在考慮產生合成資料,換句話說就是 AI 系統從自己生成的內容再訓練,然而他未正面回應是否運用 YouTube 影片投入 GPT-4 訓練。
Google 發言人布萊恩(Matt Bryant)告訴外媒,Google 有看到未經證實的報導談道 OpenAI 的行為,「我們的 robots.txt 檔案和服務條款皆禁止未經授權的抓取或下載 YouTube 內容」,他強調。
值得一提的是,YouTube 執行長莫漢(Neal Mohan)上週就 OpenAI 使用 YouTube 影片訓練 Sora 影片生成模型可能性發表類似論點。「在明確的法律或技術依據下,Google 會採取技術和法律措施防止這類未經授權的資料使用」,布萊恩補充說。
不只 OpenAI,Google 和 Meta 同樣急需資料訓練模型。
《紐約時報》引述知情人士的說法,Google 也從 YouTube 收集資料。布萊恩則表示,Google 根據與 YouTube 創作者協議,以一些影片內容訓練模型。此外,Google 法務部門要求自家隱私團隊調整政策說辭,擴大對消費者資料的處理範圍,包括 Google 文件等生產力工具。
《紐約時報》取得 Meta 內部錄音檔也顯示,AI 團隊曾討論在追趕 OpenAI 過程中使用未經授權的版權作品。瀏覽網路上幾乎所有可用的英語書籍、散文、詩歌、新聞後,Meta 考慮採取一些措施,例如支付書籍授權費用,甚至直接收購出版商。在爆發劍橋分析爭議後,Meta 進行以隱私為中心的改革,同時限制使用消費者資料方式。
OpenAI、Google、Meta 在內大型科技公司為取得訓練資料,無視資料政策和法規選擇走捷徑,迫使出版業者以及書籍作者、影音創作者紛紛提起侵權訴訟,也讓用戶更具有 AI 生成內容可能侵犯版權的意識。
(首圖來源:)
標題:尋求新資料訓練 GPT-4 惹議,OpenAI 轉錄百萬小時 YouTube 影片
地址:https://www.utechfun.com/post/354987.html