導讀 據《福布斯》9月4日報道,牛津大學的伊利亞·舒梅洛夫博士及其團隊在《自然》雜志上發表的一項研究中指出,當AI系統僅依賴於由自身生成的內容進行訓練時,其輸出質量會迅速下降。這種現象被稱爲“模型崩潰”,...
據《福布斯》9月4日報道,牛津大學的伊利亞·舒梅洛夫博士及其團隊在《自然》雜志上發表的一項研究中指出,當AI系統僅依賴於由自身生成的內容進行訓練時,其輸出質量會迅速下降。
這種現象被稱爲“模型崩潰”,即AI在不斷使用自身生成的數據進行訓練後,其輸出內容逐漸失去准確性和實用性。
研究顯示,在經過五次連續的自我生成內容訓練後,AI的輸出質量顯著下降;到了第九次,輸出內容已經退化爲毫無意義的文本。
舒梅洛夫博士指出,模型崩潰的發生速度之快和難以察覺的程度令人驚訝。最初,它可能只影響少數數據,但隨後會逐漸侵蝕輸出的多樣性,最終導致整體質量的嚴重下降。
爲了驗證這一現象,研究人員採用了一種方法:他們使用了一個預訓練的AI系統,該系統能夠驅動一個維基百科的版本,並讓AI基於自己生成的內容進行更新。結果發現,隨着受污染數據的累積,原本的訓練集逐漸被侵蝕,輸出的信息質量也隨之惡化。例如,在經過多次循環後,原本關於14世紀英國教堂尖頂的條目被錯誤地更新爲關於短尾兔子的論文。
此外,AWS團隊在6月的另一項研究中發現,大約57%的網絡文本都經過了AI算法的處理。如果互聯網上的人類生成內容被AI生成內容迅速取代,那么AI可能正面臨“自我毀滅”的風險,同時也可能對互聯網的內容質量造成嚴重影響。
研究最後建議,爲了確保AI的長期可持續發展,必須確保其能夠訪問到非AI生成的內容,並持續引入新的人工生成內容,以避免模型崩潰的發生。
標題:新研究揭示:AI自生成內容的循環使用可能導致“模型崩潰”
地址:https://www.utechfun.com/post/417962.html