ChatGPT版權第一案：OpenAI面臨六項指控，因輸出圖書摘要被“抓包”

2023-08-07 18:10:29 編輯： robot

導讀　　文章轉載來源：騰訊科技　　原文來源：騰訊科技圖片來源：由無界 AI‌ 生成　　2023年6月28日，第一起具有代表性的ChatGPT版權侵權之訴，終於出現在了公衆視野。兩名作家在美國加州北...

　　文章轉載來源：騰訊科技

　　原文來源：騰訊科技

圖片來源：由無界 AI‌ 生成

　　2023年6月28日，第一起具有代表性的ChatGPT版權侵權之訴，終於出現在了公衆視野。兩名作家在美國加州北區法院，對Open AI公司發起了版權集體訴訟，指控後者未經授權利用自身享有版權的圖書訓練ChatGPT，謀取商業利益。

　　原告Paul Tremblay和Mona Awad居住於馬薩諸塞州，分別享有涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版權；被告Open AI創建和運營了生成式人工智能產品ChatGPT，目前主要由GPT-3.5和GPT-4兩個底層大語言模型驅動。

　　起訴狀指出，雖然原告沒有授權Open AI使用自身享有版權的圖書進行模型訓練，但ChatGPT卻能夠根據prompts指令輸出圖書的摘要，而這只有在被告將涉案圖書納入語料庫加以訓練才可能發生。

　　01 因爲輸出圖書摘要而被“抓包”

　　原告表示，Open AI訓練數據集中收錄的大量內容屬於版權保護的作品，這其中便包括原告享有版權的圖書。但Open AI既沒有經過原告的同意，也沒有標明內容來源、支付必要的費用。而原告出版的圖書具有明確的版權管理信息，包括出版號、版權號、版權人姓名以及使用條款等。

　　原告從既有的事實和信息可以推斷，ChatGPT之所以可以准確生成特定圖書的摘要，唯一可解釋的原因便是Open AI獲取、復制了涉案圖書，並用於旗下大語言模型（GPT3.5 或GPT4）的訓練。

　　原告測試發現，當通過prompts的方式要求ChatGPT總結兩部涉案圖書時，ChatGPT可以生成較爲准確的摘要（雖然也存在少量的錯誤內容）。這表明ChatGPT保存了被訓練數據集中特定作品的內容，並能夠輸出對應的文本。與此同時，ChatGPT通過對大語言模型內容生成原理的設計，輸出內容並不會包含原有的版權管理信息。

　　02 “ChatGPT，你是如何運行的！”

　　本案有意思之處在於，原告證明Open AI侵權的過程中，對於ChatGPT基本原理的介紹，是建立在同ChatGPT對話，讓其“進行自我介紹”的基礎之上。具體內容總結如下。

　　Open AI至今已經公开了一系列的大語言模型，包括GPT-1（2018·6）、GPT-2（2019·2）、GPT-3（2020·5）、GPT-3.5（2022·3）以及最新的GPT-4（2023·3）。通常來講，人工智能軟件旨在借助統計學方法，通過算法模擬人類的邏輯和推理。大語言模型則是一類專門的人工智能軟件，用來解析和輸出自然語言。

　　一方面，Open AI以每個月20美元的價格將ChatGPT通過網絡頁面的方式提供給用戶。使用者可以選擇兩個版本的ChatGPT，GPT-3.5模型或者更新後的GPT-4模型。另一方面，ChatGPT也以API的方式提供給軟件开發者。API接口允許开發者撰寫程序用於和ChatGPT進行數據交換，在此情況下則是按照使用量來計費。

　　不管是以頁面還是API方式提供服務，ChatGPT都會積極響應用戶的prompts請求。如果用戶向ChatGPT提問，它會給出答案；如果用戶向ChatGPT下指令，ChatGPT會執行；如果用戶要求ChatGPT總結一本圖書的摘要，ChatGPT依然會照做。

　　03 圖書是大模型訓練的核心語料

　　原告着重論證的觀點是，不同於傳統軟件是由工程師撰寫代碼而成，大語言模型則是通過“訓練”的方式研發——收集不同來源的海量內容語料並“投喂”給模型，這些語料被稱爲訓練數據集（training dataset）。

　　大語言模型會不斷調整自身的輸出，盡可能的接近被訓練作品中的文字組合順序。值得關注的是，雖然很多內容都被用來訓練大語言模型，但圖書一直是訓練數據集中核心的語料素材，因爲其提供了高質量長篇寫作的最佳範例。

　　在2018年6月發表的企業論文《通過生成式預訓練提升語言理解力》中，Open AI披露GPT-1的訓練依賴於“BookCorpus”的數據集。“BookCorpus”包含7000本涉及探險、奇幻、浪漫等不同領域的圖書。Open AI指出，之所以圖書作爲訓練語料尤爲重要，是因爲其包含了長篇幅的連續文本，這可以讓生成式模型學習如何處理長文本信息的能力。

　　包括Open AI、谷歌、亞馬遜等在內的衆多人工智能研發企業，都利用“BookCorpus”進行模型訓練。2015年，一個人工智能研究團隊創建了該數據集，其包含的圖書來源於Smashwords.com網站，但“BookCorpus”在收錄這些圖書時未獲得版權人授權。

　　04 揭祕GPT背後的圖書語料庫

　　通過公开檢索Open AI主動披露信息（企業論文）的方式，原告希望論證GPT系列模型的訓練建立在，未經授權侵權利用海量圖書內容的基礎之上。在2020年7月發表的企業論文《語言模型是小樣本學習者》中，Open AI披露GPT-3訓練數據集中15%的內容，來源於兩個名爲“Books1”“Books2”的電子圖書語料庫。

　　雖然Open AI沒有說明“Books1”和“Books2”內容的具體情況，但可以通過相關线索推斷：第一，兩個語料庫均來自於網絡；第二，兩個語料庫的規模均明顯大於“BookCorpus”。根據Open AI的披露，“Books1”的規模是BookCorpus的9倍（約6.3萬本書），Books2是42倍（約29.4萬本書）。現實中，只有極少數的數據庫能夠提供如此規模的圖書語料。一方面，“Books1”大概率來源於“古登堡項目”或“古登堡語料庫標准化項目”。“古登堡項目”（Project Gutenberg）是一個匯集“超過版權保護期限”的在线電子書庫。2020年9月，古登堡項目宣布已經收錄超過6萬本書。因爲不受版權保護，古登堡項目一直被廣泛用作人工智能模型訓練。2018年，一個人工智能研究團隊在“古登堡項目”的基礎上，創建了超過5萬本圖書的“古登堡語料庫標准化項目”（Standardized Project Gutenberg Corpus）。另一方面，“Books2”極大可能來源於網絡上的“影子圖書館”。“Books2”數據集大約含有2.94萬本書，只有飽受詬病的“影子圖書館”（shadow library），能夠提供如此規模的圖書語料。例如Library Genesis、Z-Library、Sci-Hub和Bibliotik等。“影子圖書館”一詞由美國社會科學研究理事會，在2011年發表的《新興經濟體中的媒體盜版問題》文章中創造，指代侵權收錄大量書籍並向公衆免費开放的網站。2023年3月，Open AI發布GPT-4企業論文，但表示“出於行業競爭形勢和產品應用安全角度考量，不再對訓練數據集的結構和內容進行相關披露。”

　　05 Open AI面臨的六項侵權指控

　　原告針對Open AI一共發起了六項指控，前三項涉及版權侵權，第四項涉及不正當競爭，第五和第六項涉及兩類基本民事責任——注意義務和不當得利。

　　第一、版權直接侵權。原告沒有授權Open AI對其圖書進行復制、制作演繹作品，也沒有授權Open AI公开展示、分發上述復制品或演繹作品。

　　此外，原告強調，因爲Open AI大語言模型需要從原告圖書中提取和保存表達性信息才能夠運行，所以在缺乏原告授權的情況下，大語言模型本身構成侵權演繹作品。

　　第二、版權替代侵權。原告強調，在缺乏授權的情況下，大模型每次輸出的內容都構成侵權演繹作品。因爲有權利和能力控制大語言模型的內容輸出，並從中獲得了經濟利益，所以Open AI構成版權替代侵權。

　　在美國判例法體系下，“替代侵權”和“幫助侵權”“教唆侵權”共同構成了版權間接侵權的完整體系。間接侵權與直接侵權相對，意指侵權人雖然沒有直接從事版權專有權利規制的行爲（即版權直接侵權），但卻爲版權直接侵權提供了一定的助成條件。

　　第三、違反DMCA中版權管理信息的規定。從產品設計機制來看，ChatGPT輸出的內容不會保留作品的“版權管理信息”（CMI），所以被告故意移除原告作品版權管理信息的行爲，違反《數字千年版權法》（DMCA）的規定。此外，在未獲授權的情況下，被告分發了不含有版權管理信息的侵權演繹作品，也違反了DMCA。

　　“版權管理信息”是一種能夠識別有關作品權利人、權利歸屬和使用條件的相關信息。不管是在美國是我國，刪除或改變版權管理信息，或向公衆提供被刪除或改變版權管理信息的作品，都構成違法。

　　第四、不正當競爭。Open AI未經授權使用原告受版權保護的作品進行模型訓練，這一行爲違反了《加利福尼亞州商業和職業條例》，因爲其具有不正當性、不道德性、強迫性並損害了消費者利益。

　　被告有意設計了ChatGPT，可以在不標明內容出處的情況下，輸出原告作品的片段和摘要。ChatGPT通過隱瞞作者、復制被侵權作品內容和觀點的方式，研發商業產品獲取不公平的利益和名聲。

　　第五、過失侵權即違反注意義務。Open AI需要承擔《加州民法典》規定的注意義務——所有人對於他人應當採取一種合理的行爲方式。這一義務建立在行業慣例、商業實踐、被告掌握的信息以及基於信息所擁有的控制能力基礎之上。

　　被告一旦爲了訓練GPT模型而收集原告享有版權的作品，那么便需要負有一定的注意義務：當預見到未經授權將作品進行模型訓練會對原告造成損害時，便不應再侵權利用這些作品。

　　第六、不當得利。原告爲創作涉案圖書付出了實質性的時間和精力。因爲自身作品被未經授權的用來訓練GPT模型，原告被剝奪了從作品中原本可以獲利的權利。通過使用原告作品訓練GPT模型獲得商業利益，佔據這些利益對於被告而言是不公平的。除非加以禁止或限制，被告的行爲將會給原告造成難以彌補的損害。

　　寫在最後：本案待探討的三個問題。

　　作爲ChatGPT版權侵權的首例代表性訴訟，加州北區法院做出正式判決仍將經歷一個漫長的過程。但在此之前，針對原告起訴狀中的具體內容，仍然有一些問題值得關注和思考。

　　關注一：發現模型侵權不容易。

　　大語言模型的訓練本質上是一種機器內部的、非外顯性作品利用行爲，版權人存在發現自身作品被侵權的現實難題。一般來說，只能通過比對模型生成內容和自身作品存在實質性相似，倒推出模型訓練階段存在未經授權的作品利用行爲。本案中，原告之所以能夠指控自身圖書被Open AI旗下的大語言模型侵權訓練，便是從發現ChatGPT輸出了自身作品的摘要，倒推而來。

　　但這一主張是否成立仍有待探討。若ChatGPT輸出的作品摘要，僅是建立自身在收集網絡上原告圖書公开介紹資料的基礎上，而非直接對原告圖書進行復制和訓練，那么該侵權指控的正當性便會受到動搖。原告也承認ChatGPT輸出的自身圖書摘要存在少部分事實錯誤，一定程度也表明大模型可能並未完整的學習涉案圖書。

　　關注二：侵犯何種權利待論證。

　　目前來看，雖然“作品數據的儲存行爲”形式上可以落入版權法“復制權”的規制範疇，但核心的“作品數據的訓練行爲”，是否侵權以及侵犯何種版權法上的權利尚未有一致結論。本案，原告強調大語言模型的正常運行和內容輸出，建立在對作品語料的訓練基礎之上，所以大模型訓練便構成版權侵權，大模型本身也構成侵權演繹作品。

　　這一主張亦仍有待探討。除了少數類似於本案“以prompts方式要求概括、總結、翻譯特定版權作品”這類特殊內容生成需求之外，絕大多數情況下大模型接收开放式內容生成指令（不限定特定作品、特定作家風格），基本不會輸出特定作品甚至說特定作品的片段，也就不構成版權法上的侵權。

　　關注三：上下遊責任需明確。

　　在大模型版權領域，模型研發者對於大模型本身享有相關權利，所以承擔模型訓練涉及的版權責任；而對於大模型輸出的內容，從目前行業實踐來看，通行做法是通過合同方式，明確權利和責任均屬於使用者。在2023年7月10日，網信辦發布的《生成式人工智能服務管理暫行辦法》也明確認可，“提供者應當與使用者籤訂服務協議，明確雙方權利義務。”

　　值得關注，從原告訴訟請求看，亦遵循了模型訓練和內容輸出兩個階段，權利責任二分的思路。原告對於版權直接侵權的主張，聚焦於Open AI模型訓練階段：一是，未經原告授權在模型訓練過程中制作了圖書的復制品；二是在缺乏原告授權的情況下，大語言模型本身構成侵權演繹作品。原告對於ChatGPT輸出內容侵權的指控，僅是主張Open AI構成版權間接侵權（替代侵權）。這也意味着對於大模型輸出的內容，是由使用者承擔版權直接侵權責任，因爲其享有對應的權利。

海量資訊、精准解讀，盡在新浪財經APP

責任編輯：張靖笛

標題：ChatGPT版權第一案：OpenAI面臨六項指控，因輸出圖書摘要被“抓包”

地址：https://www.utechfun.com/post/246554.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤： AI GP

上一篇:華爲公开最新芯片封裝專利有利於提高芯片性能

下一篇:太自律了！谷愛凌在成都早上訓練晚上夜跑

您現在的位置：首頁智能設備

ChatGPT版權第一案：OpenAI面臨六項指控，因輸出圖書摘要被“抓包”

猜你喜歡

您現在的位置： 首頁 智能設備

猜你喜歡

您現在的位置：首頁智能設備