最近研究顯示,在軟體工程職位的模擬面試中,進行面試回饋的 AI 模型對男性評價較低,尤其是那些擁有「英式」名字的男性。
這項研究是由 Celeste De Nadai 在瑞典斯德哥爾摩皇家理工學院(KTH)所進行的畢業論文,目的是調查當大型語言模型(LLM)面對性別資料與可進行文化推論的名字時,是否展現偏見。
同時 De Nadai 也是 AI 內容公司 Monok 行銷長。她告訴 The Register,彭博社曾報導神經網路基於名字會產生偏見的新聞,成為他做題目的靈感。目前很多新創公司都透過 AI 進行招募,強調沒有偏差,而她質疑這個說法。
De Nadai 的研究以 Google 的 Gemini-1.5-flash、Mistral AI 的 Open-Mistral-nemo-2407,以及 OpenAI 的 GPT4o-mini 為研究對象,在溫度(影響可預測性與隨機性的模型設定)、性別及與文化群體相關的名稱變化的情況下,觀察它們如何對 24 個求職面試問題的回答進行分類與評分。
最重要的是,為了測試模型,相同答案會使用不同姓名和背景組合。結果發現,具英式(盎格魯.撒克遜)名字的男性雖然在軟體工程表現更好,但模型會降低其他有利答案的評分。
該研究將申請人的名字和性別變換 200 次,以對應 200 個離散角色,再細分為 100 名男性和 100 名女性,並分為四個不同的文化群體(西非、東亞、中東、盎格魯.撒克遜),主要反映在名字和姓氏上。
結果原本預期男性和西方名字會受青睞,如同過往的偏見研究發現一樣。但結果卻完全不同。研究報告指出,「這些服務存在固有偏見,在特定研究案例中,男性名字普遍受歧視,尤其是盎格魯・撒克遜(英式)名字」。不過當包含更詳細問題分級標準和溫度高於 1 的提示時,Gemini 模型表現比其他模型好」。
De Nadai 認為,對英式姓氏男性的偏見,反映在先前研究中,對偏向相反方向的輸出進行過度修正。她建議如果要更公平的話,可提供提示,說明如何為面試問題打分的嚴格、詳細標準。溫度調整可能有幫助,也可能有傷害,視模型而定。
這項研究指出,進行分類或評估時,建議務必遮蔽姓名和混淆性別,確保結果盡可能概括且無偏見,並在系統指示提示中提供如何分級的標準。
(首圖來源:)
延伸閱讀:
文章看完覺得有幫助,何不給我們一個鼓勵
想請我們喝幾杯咖啡?
每杯咖啡 65 元
您的咖啡贊助將是讓我們持續走下去的動力
標題:過度修正產生新 AI 偏見?研究:「英式」名字男性在科技面試得分較低
地址:https://www.utechfun.com/post/448376.html