導讀 生成式 AI 的開發需要極大量的內容作訓練,這些訓練內容不少都是從網路抓取,也因此引起爭議。雖然有一些業界標準可以表明拒絕抓取,但看來 AI 開發公司並沒有遵從此規定。 據報導指,不少 AI 開發公...
生成式 AI 的開發需要極大量的內容作訓練,這些訓練內容不少都是從網路抓取,也因此引起爭議。雖然有一些業界標準可以表明拒絕抓取,但看來 AI 開發公司並沒有遵從此規定。
據報導指,不少 AI 開發公司並沒有遵守拒絕抓取內容的 robot.txt 協議,擅自從網站取得內容訓練 AI。其中 AI 搜尋新創 Perplexity 就因此被媒體指責。內容授權新創 TollBit 表示,他們分析這些出版商的網站存取記錄,發現了一些代理有特定模式存取網站,「這意味著來自多個來源(不僅是一家公司)的 AI 代理選擇無視 robots.txt 協議來取得網站內容」。
Business Insider 進一步爆料,OpenAI 和 Anthropic 等知名 AI 公司也存在類似行為。對此,Perplexity CEO Aravind Srinivas 在接受 Fast Company 採訪時辯稱,他們「並非故意忽視 Robot Exclusions Protocol 之後說謊」。他解釋,他們除了自家抓取工具外還使用第三方網路抓取服務,而發現的抓取工具就是其中之一。他認為「情況很複雜」,而且 robots.txt 協議「並非法律框架」,出版商應該與 AI 開發公司建立新的關係。
(本文由 授權轉載;首圖來源:shutterstock)
延伸閱讀:
文章看完覺得有幫助,何不給我們一個鼓勵
想請我們喝幾杯咖啡?
每杯咖啡 65 元
x
1
x
3
x
5
x
您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元
關鍵字: , , ,
標題:網站禁抓取內容訓練 AI 形同虛設,AI 公司被指無視 robot.txt 協議擅取內容
地址:https://www.utechfun.com/post/388978.html