人工智能軍備競賽白熱化：谷歌最新AI大語言模型數據量擴充5倍

2023-05-17 18:10:11 編輯： robot

導讀　　新浪科技訊北京時間5月17日早間消息，據報道，谷歌上周發布的最新大語言模型使用的訓練數據，幾乎是2022年的上一代模型的5倍。得益於此，該模型在編程、數學和創意寫作方面的表現更爲優秀。　　谷...

　　新浪科技訊北京時間5月17日早間消息，據報道，谷歌上周發布的最新大語言模型使用的訓練數據，幾乎是2022年的上一代模型的5倍。得益於此，該模型在編程、數學和創意寫作方面的表現更爲優秀。

　　谷歌是在其I/O开發者大會上發布最新通用大語言模型PaLM2的。內部文件顯示，該模型採用了3.6萬億個令牌（token）進行訓練。令牌指的是單詞串，這是訓練大語言模型的重要基礎，因爲這可以教給模型如何預測字符串中可能出現的下一個單詞。

　　之前版本的PaLM發布於2022年，當時使用的令牌爲7800億個。

　　雖然谷歌很希望展示其人工智能技術的實力，以及嵌入搜索、電子郵件、字處理和電子表格後的效果，但該公司卻不愿發布其訓練數據的規模和其他細節。微軟支持的OpenAI也對其最新的GPT-4大語言模型的細節信息保密。

　　這些公司表示，之所以不披露這些信息，是出於商業競爭考慮。谷歌和OpenAI都在努力吸引想要用聊天機器人代替傳統搜索引擎，從而直接獲取答案的用戶。

　　但隨着人工智能軍備競賽日趨白熱化，相關研究人員也呼籲企業加大透明度。

　　自從發布PaLM2之後，谷歌一直表示新的模型比之前的大語言模型更小，這就意味着該公司的技術效率得以提升，但卻可以完成更加復雜的任務。內部文件顯示，PaLM2基於3400億個參數訓練——這項指標可以說明該模型的復雜程度。最初的PaLM則基於5400億個參數訓練。

　　目前，谷歌尚未對此置評。

　　谷歌在一篇關於PaLM2的博文中表示，該模型使用了一種名爲“計算機優化擴張”的新技術。這就讓大語言“更高效、整體性能更好，包括加快推理速度、減少參數調用和降低服務成本。”

　　在宣布PaLM2時，谷歌證實了此前的媒體報道，計該模型針對100種語言進行訓練，可以執行更廣泛的任務。它已經被用於25項功能和產品，包括該公司的實驗性聊天機器人Bard。按照從小到大的規模劃分，該模型共有4種，分別是壁虎（Gecko）、水獺（Otter）、野牛（Bison）和獨角獸（Unicorn）。

　　根據公开披露的信息，PaLM2比現有的任何模型都更加強大。Facebook在2月份宣布的的LLaMA大語言模型採用1.4萬億個令牌。OpenAI上一次披露GPT-3的訓練規模時表示，它當時基於3000億個令牌。OpenAI今年3月發布GPT-4時表示，它在許多專業測試中展示出“與人類媲美的表現”。

　　LaMDA是谷歌兩年前推出的一個對話型大語言模型，在今年2月還與Bard一同對外宣傳。該模型基於1.5萬億個令牌訓練。

　　隨着新的人工智能應用快速進入主流，圍繞底層技術的爭議也越來越激烈。

　　谷歌高級研究科學家艾爾·邁赫迪·艾爾·麥哈麥迪（El Mahdi El Mhamdi）於今年2月辭職，主要原因就是人工智能技術缺乏透明度。本周二，OpenAI CEO山姆·阿爾特曼（Sam Altman）出席美國國會針對隱私和技術舉行的聽證會，他也認爲需要設立一套新的制度來應對人工智能的潛在問題。

　　“對於一種全新的技術，我們需要一套全新的框架。”阿爾特曼說，“當然，像我們這樣的公司應當爲我們推出的工具承擔許多責任。”

炒股开戶享福利，送投顧服務60天體驗權，一對一指導服務！

海量資訊、精准解讀，盡在新浪財經APP

責任編輯：鄭卓

標題：人工智能軍備競賽白熱化：谷歌最新AI大語言模型數據量擴充5倍

地址：https://www.utechfun.com/post/213593.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：人工智能 AI GP 谷歌

上一篇:同樣用5G網，有人網速快有人慢，爲啥？

下一篇:華爲，表態了

您現在的位置：首頁智能設備

人工智能軍備競賽白熱化：谷歌最新AI大語言模型數據量擴充5倍

猜你喜歡

您現在的位置： 首頁 智能設備

猜你喜歡

您現在的位置：首頁智能設備