網站禁抓取內容訓練 AI 形同虛設，AI 公司被指無視 robot.txt 協議擅取內容

2024-06-25 14:40:00 編輯： Unwire HK

導讀生成式 AI 的開發需要極大量的內容作訓練，這些訓練內容不少都是從網路抓取，也因此引起爭議。雖然有一些業界標準可以表明拒絕抓取，但看來 AI 開發公司並沒有遵從此規定。據報導指，不少 AI 開發公...

生成式 AI 的開發需要極大量的內容作訓練，這些訓練內容不少都是從網路抓取，也因此引起爭議。雖然有一些業界標準可以表明拒絕抓取，但看來 AI 開發公司並沒有遵從此規定。

據報導指，不少 AI 開發公司並沒有遵守拒絕抓取內容的 robot.txt 協議，擅自從網站取得內容訓練 AI。其中 AI 搜尋新創 Perplexity 就因此被媒體指責。內容授權新創 TollBit 表示，他們分析這些出版商的網站存取記錄，發現了一些代理有特定模式存取網站，「這意味著來自多個來源（不僅是一家公司）的 AI 代理選擇無視 robots.txt 協議來取得網站內容」。

Business Insider 進一步爆料，OpenAI 和 Anthropic 等知名 AI 公司也存在類似行為。對此，Perplexity CEO Aravind Srinivas 在接受 Fast Company 採訪時辯稱，他們「並非故意忽視 Robot Exclusions Protocol 之後說謊」。他解釋，他們除了自家抓取工具外還使用第三方網路抓取服務，而發現的抓取工具就是其中之一。他認為「情況很複雜」，而且 robots.txt 協議「並非法律框架」，出版商應該與 AI 開發公司建立新的關係。

（本文由授權轉載；首圖來源：shutterstock）

延伸閱讀：

文章看完覺得有幫助，何不給我們一個鼓勵

想請我們喝幾杯咖啡？

每杯咖啡 65 元

x 1

x 3

x 5

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0 元

留給我們的話

關鍵字: , , ,

標題：網站禁抓取內容訓練 AI 形同虛設，AI 公司被指無視 robot.txt 協議擅取內容

地址：https://www.utechfun.com/post/388978.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：

上一篇:你知道 NVIDIA 的正確念法嗎？名字來自羅馬神話「嫉妒女神」

下一篇:Claude 3.5 Sonnet 新模型 Coding 能力大升級，收費更低瞄準企業客戶

您現在的位置：首頁人工智能

網站禁抓取內容訓練 AI 形同虛設，AI 公司被指無視 robot.txt 協議擅取內容

延伸閱讀：

想請我們喝幾杯咖啡？

每杯咖啡 65 元

留給我們的話

猜你喜歡

您現在的位置： 首頁 人工智能

延伸閱讀：

想請我們喝幾杯咖啡？

每杯咖啡 65 元

留給我們的話

猜你喜歡

您現在的位置：首頁人工智能