由 OpenAI 開發的 AI 聊天機器人 ChatGPT 風靡全球,最新推出的 GPT-4 回答甚至比 GPT-3.5 更完整正確,但是身體不適還是要尋求醫生診斷,千萬不要想著跑去問 ChatGPT 就能得到答案,因為 ChatGPT 並沒有通過美國胃腸病學會(American College of Gastroenterology,ACG)的考試,被認定無法提供患者正確的醫療資訊。
美國範斯坦醫學研究所(Feinstein Institute for Medical Research)的醫生進行一項研究測試,針對由 OpenAI 開發的 GPT-3.5 模型和 GPT-4 系統,導入 2021 年和 2022 年美國胃腸病學會自我評估測試中的多項選擇題,並分析 ChatGPT 給予的回答,結果 GPT-3.5 模型和 GPT-4 系統都沒有達到通過考試的 70% 門檻 。
根據團隊測試結果,GPT-3.5 的版本正確回答 455 個問題中的 65.1%,而最新的 GPT-4 得分為 62.4%,但是很難解釋得分差距的原因,因為開發商 OpenAI 對訓練模型的方式十分保密,只有透過 OpenAI 的發言人知悉, ChatGPT 的這兩種模型都接受到 2021 年 9 月的數據訓練,但這兩個結果都沒有通過考試。
美國範斯坦醫學研究所副教授阿文德(Arvind Trindade)表示,雖然分數離及格的 70% 不遠,但是對提供醫學諮詢或醫學教育來說,分數應該在 95% 以上,因為患者不會相信只了解醫療領域 70% 的醫生,所以人們應該要求醫療聊天機器人達到醫生的高標準,否則應該被認定無法提供患者正確的醫療資訊。
美國胃腸病學會的評估測試被當作培訓醫生的官方考試練習,因為要成為獲得認證的胃腸病學家,醫生需要通過美國內科委員會胃腸病學考試,而這需要大量的知識和學習,並不僅僅是憑藉著直覺作答,但是 ChatGPT 這項技術雖然先進,卻並不完美,而且往往容易產生虛假事實的幻覺,尤其是出現訓練數據中可能不存在的小眾主題。
阿文德指出,ChatGPT 的基本功能是預測文本字符串中的下一個單詞,以根據可用資訊產生預期的答案,並沒有要求資訊是否正確,而且用來訓練 ChatGPT 的只有網路資訊,而醫療資訊應該使用最好的資源,如醫學期刊或數據庫,但是這些資源並不容易取得,因為可能都被鎖在付費專區,導致 ChatGPT 可能沒有充分接觸到專家知識,因此建議 ChatGPT 不應使用在醫療諮詢。
(首圖來源:shutterstock)
延伸閱讀:
標題:有病還是要看醫生!ChatGPT 沒有通過美國胃腸病學會考試
地址:https://www.utechfun.com/post/216803.html