近日 X(原 Twitter)用戶 @dylan522p 展示牛津大學研究:GPT-4 和其他常見 LLM 語言模型推理成本差距很大。
英文輸入輸出比其他語言便宜,簡中成本約是英文2倍,西文成本是英文1.5倍,緬甸撣文是英文15倍。理由可追溯至5月牛津大學arXiv預印本。
詞元是將自然語言文本轉換成詞元(token)序列的過程,是語言模型處理文本的第一步。LLM計算力成本核算,詞元越多,耗費算力成本越高。毫無疑問,生成式AI商業化趨勢下,算力成本也會轉嫁給用戶,許多AI服務就是照處理詞元量計費。
論文顯示,研究分析17種詞元化方法,同文本轉換成不同語言詞元序列長度差異巨大,即使宣稱支援多語言,也無法做到完全公平。OpenAI GPT3 tokenizer詞元化「你的愛意」,英文只兩個詞元,簡中需八個詞元,即使簡中只有4字元,英文文本有14個字元。
@dylan522p上傳圖片可看到LLM處理一句英文需17個詞元(tokens),處理同樣意思的緬文需198個詞元(tokens),代表緬文處理成本達英文11倍。
The cost of LLM inference varies hugely based on the language for GPT-4 and most other common LLMs.
English is the cheapest.
Chinese is 2x English.
Languages like Shan + Burmese are 15x more expensive.
This is mostly because of how tokenizers work so need to output more tokens— Dylan Patel (@dylan522p)
類似情況很多,Aleksandar Petrov提供相關數據,感興趣的讀者自行查看語言差異。
OpenAI官網也有類似資訊,解釋API如何詞元化文本,以及顯示文本詞元總數。一個詞元通常對應英文文本約4字元,100個詞元約等於75個單字。得益於英文詞元序列短的優勢,生成式AI預訓練成本效益,英文是最大贏家,將其他語言使用者遠遠甩在身後,間接產生不公平局面。
除此之外,詞元序列長度差異也會導致處理延遲(某些語言處理同樣內容需更多時間)和長序列依賴性建模不公平(部分語言只能處理更短文本)。簡單說,某些語言用戶需要付出更高成本,接受更多延遲,卻性能更差,降低公平使用語言技術的機會,間接導致英文使用者和其他語言的AI鴻溝。
僅從輸出成本看,簡中成本是英文2倍。隨著AI深層發展,對總是「差一步」的簡中用戶並不友善。成本等各因素權衡下,非英文母語國也紛紛嘗試開發母語大模型。
以中國為例,中國最早探索AI的巨頭,3月20日百度上線文心一言,之後阿裏巴巴通義千問大模型、華為盤古大模型等也陸續湧現。華為盤古大模型NLP大模型是首個千億參數中文大模型,有1,100億密集參數,經40TB大量數據訓練而成。
聯合國常務副祕書長阿米娜·穆罕默德曾警告,如果國際社會不採取行動,數位鴻溝將成為「不平等的新面孔」。隨著生成式AI突飛猛進,AI鴻溝也很有可能成為另類「不平等的新面孔」。
(本文由 授權轉載;首圖來源:shutterstock)
標題:AI 大模型語言不平等:英文訓練成本最便宜,簡中是英文 2 倍
地址:https://www.utechfun.com/post/245323.html