OpenAI公布大模型新訓練方法:阻止ChatGPT“一本正經地胡說八道”

2023-06-01 18:10:21    編輯: robot
導讀   新浪科技訊 北京時間6月1日早間消息,據報道,當地時間周三,OpenAI公司通過論文介紹了一種全新的方法,來訓練生成式人工智能語言模型。   OpenAI這一研究成果來得很是時候,最近,隨着生成...

  新浪科技訊 北京時間6月1日早間消息,據報道,當地時間周三,OpenAI公司通過論文介紹了一種全新的方法,來訓練生成式人工智能語言模型。

  OpenAI這一研究成果來得很是時候,最近,隨着生成式人工智能技術流行,以及美國2024年總統大選初步啓動,人工智能“胡說八道”的問題引發了史無前例的關注和討論。

  去年,OpenAI公司推出了人工智能對話撰稿工具ChatGPT,背後依托於GPT3和GPT4語言模型。ChatGPT的優秀表現在全世界掀起了生成式人工智能的一股風暴,兩個月之內,相關服務的月度活躍用戶超過了一億人,用戶增長速度創造了新的世界紀錄。

  OpenAI背後的大股東之一是微軟,微軟已經累計對該公司投資130億美元。目前,OpenAI的市值大約爲290億美元。

  人工智能“胡說八道”,術語上也被稱爲“AI幻覺”。面對用戶的提問,ChatGPT以及谷歌的Bard等工具會杜撰出一些虛假信息,看上去像是權威正確的答案。

  比如,今年2月谷歌針對Bard工具推出了一個演示視頻,視頻中Bard有關美國韋伯太空望遠鏡的描述就存在錯誤。此外,美國紐約的幾位律師最近使用ChatGPT撰寫法律文件,ChatGPT描述了完全虛構的案例,這些律師將面臨處罰。

  OpenAI公司的研究人員表示,即使是最先進的人工智能模型也會杜撰虛假信息,尤其是在拿不准的時候,它們往往傾向於編造事實。

  研究人員表示,在要求多步驟推理的領域,人工智能胡編的後果尤爲嚴重,因爲一個單一的邏輯錯誤會導致整個解決方案“翻車”。

  OpenAI准備採用新战略,防止人工智能胡編。比如在過去,一旦提供一個正確的最終答案,模型會獲得某種鼓勵,但是以後,在每一個單一的邏輯推理環節如果表現正確,就將獲得鼓勵反饋。這種模式也被稱之爲“過程監督”(以往的模式術語“結果監督”)。

  研究人員表示,“過程監督”模式有助於產生更加清晰合理的回答,它將會鼓勵生成式人工智能能夠像人類一樣,在推理思考中做到“環環相扣”。

  OpenAI公司“隨機生成數學”研究專家卡爾·柯比(Karl Cobbe)表示,發現並且減少人工智能模型的邏輯錯誤,也就是“AI幻覺”,是構建“通用人工智能”的關鍵一步。另外,“過程監督”模式並非OpenAI公司發明,但是該公司正在加以推廣普及。

  柯比表示,新方法的目的,是解決人工智能胡編問題,從而讓語言模型能夠解決更加復雜的推理難題。

  這位專家介紹,OpenAI已經發布了一個研究使用的數據集,包括80萬條人工標籤,可用上述新模式訓練語言模型。

  不過,美國電子隱私信息中心的資深律師本·魏特斯(Ben Winters)對這種新的訓練模式表示質疑,他希望親自查看OpenAI的完整數據集,以及相關的例子。

  魏特斯表示,目前生成式人工智能還處於野蠻生長時代,OpenAI的新模式還無法實質性緩解AI胡編亂造錯誤答案的問題。

  這位律師表示,最重要的是,OpenAI是否會將一些研究論文成果部署到實際產品中,如果沒有這樣的計劃,這將會引發社會質疑,即他們到底要向公衆發布怎樣的最終產品。

  美國布朗大學的學者維克塔(Suresh Venkatasubramanian)表示,目前還不清楚OpenAI的研究論文是否經過了同行評議,他認爲這一研究還僅僅停留在“初步觀察”階段。

  維克塔表示,在做出某種確定性結論之前,研究論文還需要在學術圈子內進行更多傳播。他認爲,如今,人工智能領域每天都會有很多研究成果,但是“大型語言模型”在工作時存在不穩定性,因此在某種條件、背景或者模式下的運行結果,可能無法應用於另外一種條件、背景或模式。

  維克塔認爲,在人工智能胡編的問題中,包括了語言模型胡編一些他人引言或者參考信息。OpenAI的新論文並沒有證據能解決這一問題。

  OpenAI專家柯比表示,未來將會在學術會議上把論文交給其他人,進行同行評議。對於何時將會把研究成果和“過程監督”整合到ChatGPT等最終產品中,OpenAI尚未發表官方評論。

  美國人工智能研究專家薩拉·邁爾斯·韋斯特(Sarah Myers West)表示,人工智能公司开始解決虛假答案問題,這是一個好消息,但OpenAI目前的論文還停留在“公司內部研究”的階段,還需要攻克更多難關。

  韋斯特表示,在論文中,OpenAI發布一個“人類級反饋”的小規模數據集,但是並沒有訓練GPT4模型所用數據的更多介紹。雖然生成式人工智能已經开始改變普通人的工作生活,但是距離“負責任的人工智能應用”,還存在相當多的技術挑战。

炒股开戶享福利,送投顧服務60天體驗權,一對一指導服務! 海量資訊、精准解讀,盡在新浪財經APP

責任編輯:鄭卓



標題:OpenAI公布大模型新訓練方法:阻止ChatGPT“一本正經地胡說八道”

地址:https://www.utechfun.com/post/220365.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡