導讀 人工智能領域的超級巨星ChatGPT在不斷前進的道路上一直面臨一個問題:它是否已經達到了生成與人類回應難以區分的輸出的圖靈測試標准?最新研究表明,盡管ChatGPT表現出色,但似乎還未完全越過這個門...
人工智能領域的超級巨星ChatGPT在不斷前進的道路上一直面臨一個問題:它是否已經達到了生成與人類回應難以區分的輸出的圖靈測試標准?最新研究表明,盡管ChatGPT表現出色,但似乎還未完全越過這個門檻。
加利福尼亞大學聖地亞哥分校的兩名研究人員,語言、語義和機器學習專家卡梅倫·瓊斯和認知科學教授本傑明·伯根,通過參考圖靈70年前的工作,提出了這一問題。圖靈提出了一個過程,用以確定一台機器是否能夠達到一種智能和對話能力的水平,足以愚弄他人以爲它是人類。
他們的報告標題爲“GPT-4是否通過了圖靈測試?”可以在arXiv預印本服務器上找到。在研究中,他們召集了650名參與者,進行了1,400個“遊戲”,其中參與者與另一個人類或GPT模型進行了短暫的對話,並被要求確定他們正在與誰交談。
研究人員的發現引人矚目。GPT-4模型在41%的情況下愚弄了參與者,而GPT-3.5只在5%到14%的情況下愚弄了他們。有趣的是,人類只在63%的試驗中成功地讓參與者相信他們不是機器。
研究人員總結道:“我們沒有找到GPT-4通過圖靈測試的證據。”然而,他們指出,圖靈測試仍然具有評估機器對話效果的價值,作爲一種框架來衡量流暢的社交互動和欺騙,以及了解人類適應這些設備的策略。
不過,他們也警告說,在許多情況下,聊天機器人仍然能夠以令人信服的方式進行交流。研究人員指出:“41%的成功率表明,AI模型可能已經具備欺騙的能力,尤其是在人類對可能不是與人交談的可能性不夠警惕的情境中。AI模型如果能夠堅固地模仿人類,可能會對社會和經濟產生廣泛的影響。”
研究人員觀察到,正確識別AI與人的參與者關注了幾個因素。模型的形式過於正式或過於不正式會引起懷疑。如果它們的表達過於囉嗦或過於簡潔,如果它們的語法或標點使用異常好或“不令人信服地”糟糕,也會成爲確定參與者與人類還是機器交往的關鍵因素。此外,參與者對聽起來過於通用的回答也很敏感。
研究人員建議,隨着AI模型變得更具流暢性並吸收更多類似人類的怪癖,追蹤這些模型將變得越來越重要。他們表示:“識別導致欺騙的因素和減輕欺騙的策略將變得越來越重要。”這項研究揭示了智能對話領域仍然面臨挑战,但也提供了有關如何改進AI模型的有用見解。
標題:GPT-4未通過圖靈測試:在智能對話領域仍有挑战
地址:https://www.utechfun.com/post/286958.html