數據永動機?合成數據的美夢與陷阱

2023-08-08 18:40:07    編輯: robot
導讀 距離數據用光還剩3年時間。 以上是研究機構Epoch給出的一個初步估計,機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”,低質量的語言數據和圖像數據的存量將分別在 2030 年至 205...

距離數據用光還剩3年時間。

以上是研究機構Epoch給出的一個初步估計,機器學習數據集可能會在2026年前耗盡所有“高質量語言數據”,低質量的語言數據和圖像數據的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。

數十億參數起步,以TB爲單位的數據集喂養,百模大战,千模大战的持續上演,正在以燃盡數據爲代價,當數據荒變成直觀的倒計時時,這種迫近的危機感才开始在整個產業圈蔓延。

高質量數據告急

第一個感受到數據荒危機的便是那些亟需數據的AI公司們。

繼算力缺口後,數據成爲最緊俏的資源,數據採集要價也在水漲船高。自2008年以來,Reddit API一直是以免費的方式开放給第三方,然而近期,Reddit通知开發者將從7月1日开始使用用數據接口進行收費。根據第三方軟件Apollo的开發者Christian Selig透露,Reddit的收費爲0.24美元/1000次API響應。對於Apollo來說,這就相當於200萬美元每月或2000萬美元每年的开銷。

而根據推特今年3月發布的API新政策,企業需要爲抓取推文的API支付每月4萬美元至20萬美元不等的費用,對應可以獲得5000萬至2億條推文。根據測算,最低一個檔次的套餐約等於整體推文的0.3%。

數據變貴了,這點已經成爲業界心照不宣的共識,而大模型混战無疑讓數據供不應求的局面進一步加劇。

已有的(通用)數據資源似乎已經接近效能極限,Cohere首席執行官Aiden Gomez表示,網絡上那些通用數據已不足以推動AI模型的性能發展。

的確,大模型競賽就像上了發條一樣,一旦觸發,便沒有停下來的間隙,需要保證不斷的攝取營養,當大模型發展走向更深度,比如行業大模型,其所需的數據就不是互聯網免費公开的數據了,要訓練出精度極高的的模型,需要的是行業專業知識,甚至商業機密類型的知識。

而恰恰目前全球數據供給的現狀,70%的數據源都僅僅停留在免費公开數據集的層面,這與大模型成長所需的理想數據環境相差甚遠,一些行業的垂類大數據,比如金融、醫療、科研、行業型大數據還遠未开掘,一位業內人士透露。垂類數據通常由政府和行業機構掌握,而出於數據安全合規的考慮,行業機構愿意把核心數據拿出來开放共享的又在少數。而從原生的數據資源到數據資產化再到形成數據產品,這個數據形態演變的過程,需要經歷數據的篩選、分級和標注,中間附着的人力成本和硬件成本都極爲不菲,初始收集的數據總量,到最後可用的數據量可能只有70%,相比於算力,數據的稀缺性更爲突出。

如果說全球都難逃數據荒,那么“重災區”更顯見於中文語料。

可能會有人說,中國有14億人口和5千余家上市公司,全社會的數據資源存量排在全球第二,應該在數據上是長板,但數據表明,全球通用的50億大模型數據訓練集裏,中文語料的佔比僅爲1.3%,一些主流數據集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文爲主,最流行的Common Crawl中文數據也只佔其4.8%。“大而不強”是中國數據市場比較刺眼的現實,在國內來看,據統計,數據資源80%集中在公共和政府事業單位。而據發改委官方披露,我國政府數據資源佔全國數據資源的比重超過3/4,但开放規模不足美國的10%,個人和企業可以利用的規模更是不及美國的7%,开放程度遠低於美國。

流於“形式开放”正成爲我國公共數據开放的症結,據公开資料統計,我國各級地方政務數據开放網站开放的數據普遍周期較長,地方平台約有46%的平台沒有更新數據,只有8.5%的地方平台連續兩年發布了新的數據集。

开放程度低是一大掣肘,數據質量差才是卡脖子的首要因素,目前的中文公开數據集不是沒有,近2個月來,國內不少團隊先後开源了中文數據集,除通用數據集外,針對編程、醫療等垂域也有專門的开源中文數據集發布。开源的還包括MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數量和質量,和英文數據集相比可謂九牛一毛。並且其中相當一部分的內容已經非常陳舊。

數據荒有救了?合成數據成“新賽道“

數據的捉襟見肘讓大模型的進化難以爲繼,高質量數據從哪裏來?

舊路難循,便开始造新路。7月25日,深圳數交所聯合近50家單位成立“开放算料聯盟”,抱團聚力。參與公司不僅有聯通、電信兩大運營商以及騰訊雲,還有多家A股公司,合力匯集論文、政策、報告、標准、法律、代碼、古籍、中醫藥、基因及蛋白質結構等多模態的訓練數據,爲數據交易增加合成數據、標注數據、模型參數等新專區和新品類,合成數據正成爲生成和豐富AI訓練數據的第二條路。

何謂合成數據?合成數據即由計算機人工生產的數據,來替代現實世界中採集的真實數據,來保證真實數據的安全,比如用戶小A有10個特點、用戶小B有10個特點、用戶小C有10個特點,合成數據將這30個特點進行隨機打散匹配,形成3個全新的數據個體,這並不對准真實世界的任何一個實體,但卻有訓練價值,作爲真實數據的“平替”,合成數據高效、廉價並且不涉及個人隱私和公共利益,且可以兼顧數據多樣性和公平性,理論上可以生成所有數據,包括現實世界中難以採集或幾乎不存在於現實中的極端案例,最大化地提高模型的精准度,糾正歷史數據中的偏見、消除算法歧視,優越性不言而喻。

對於有些行業而言,合成數據具有天然的應用適配度,比如自動駕駛,讓汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現實的,故大量的合成數據可以用於模擬各種駕駛場景,從而提高算法的魯棒性。在這種情況下,合成數據可能佔據訓練數據的很大一部分,甚至高達90%以上。

而對於數據敏感的金融和生物醫藥領域,在不提供敏感的歷史交易信息的前提下,訓練量化交易模型,從而提升獲利能力;而在藥物研發工作上,通過合成數據集,可以在不泄露患者隱私信息的條件下訓練相關模型,加速新藥研發過程,發現潛在的治療方法,提高醫藥領域的效率和准確性。

更重要的一點是,一直以來,數據標記都被視爲現代機器學習中一個笨拙、不雅、成本高昂的部分,而合成數據不需要手動標記,自動帶有完美的數據標籤,這一點已經足夠迷人。

巨大的剛需和高景氣度面前,合成數據不捧自火,國外的主流科技公司已經在紛紛部署,比如英偉達的元宇宙平台Omniverse擁有合成數據能力omniverse replicator;亞馬遜使用合成數據來訓練、調試其虛擬助手Alexa,以避免用戶隱私問題;微軟的Azure雲服務推出了airSIM平台,可以創建高保真的3D虛擬環境來訓練、測試AI驅動的自主飛行器,微軟、OpenAI、Cohere等公司都已經开始測試使用合成數據來訓練AI模型...

其中也少不了自動駕駛汽車廠商們,早有布局,比如Waymo、Cruise、Aurora、Zoox等,都在合成數據和模擬方面進行了大量投資,並將其作爲其技術堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英裏的模擬駕駛數據來訓練其自動駕駛系統(相比之下,從現實世界收集的駕駛數據僅爲 300 萬英裏)。到 2019 年,這一數字已達到100 億英裏。

而國內,騰訊、阿裏巴巴、百度走在前列。騰訊自動駕駛實驗室开發的自動駕駛仿真系統TADSim可以自動生成無需標注的各種交通場景數據;阿裏巴巴自研的語音合成技術KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上;百度也發布了多個數據合成與半自動標注工具。

值得關注的是,合成數據已經自成賽道,一批瞄准合成數據爲主攻方向的數據新勢力集中湧現,出現的第一批合成數據初創公司瞄准了自動駕駛汽車終端市場。其中包括 Applied Intuition(2022年估值180億人民幣,入選全球獨角獸榜)、Parallel Domain 和 Cognata 等公司。

而近段時間以來,圍繞爲企業落地AI提供合成數據服務的初創企業也开始瘋狂刷屏,國內合成數據公司光輪智能於今年1月份才創立,便宣告連續拿到了種子輪、天使輪、天使+輪融資,累計融資金額達數千萬元;新加坡合成數據初創公司Betterdata也於日前宣布獲得了一筆165萬美元規模的種子輪融資,資本市場對於合成數據的青睞可見一斑。

數據永動機的“美夢與陷阱”

數據永動機的美夢似乎正在成真,合成數據暗含的變革可能性开始吸引越來越多人駐足和买單。

不單單體現在數據的無限生成,看好合成數據的人認爲,合成數據可以幫助解鎖各種基於語言的機會,此前困於數據有限而無法深入研究的領域可以松开鐐銬,大展拳腳了。

舉例來說,2021年年底,全球領先的基因測序公司 Illumina宣布與初創公司 Gretel.ai 合作創建合成基因組數據集。基因組數據是世界上最復雜、多維、信息豐富的數據類型之一,長度超過 30 億個鹼基對,每個人獨特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心髒病或藥物濫用的風險。(雖然不是自然語言,但基因組序列是文本數據;每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進行編碼。)基因研究有助於解碼生命奧祕,探索人類健康,但由於基因組數據的可用性有限,這項研究一直遲滯不前,很難突破,圍繞人類基因數據的嚴格隱私法規和數據共享限制也成爲極大阻礙。

而合成數據提供了一種潛在的革命性解決方案:它可以復制真實基因組數據集的特徵和信號,同時回避這些數據隱私問題,因爲數據是人工生成的,並不對應於現實世界中的任何特性個體。

基因數據的用例只是冰山一角,從早期的計算機視覺,到如今的機器人技術再到物理安全,從地理空間圖像到制造,從生物醫藥到基因研究,凡是需要“大量數據出奇跡”的領域,合成數據都代表着強大的解決方案。

而更爲隱性的層面,合成數據的出現或將帶來數據平權的曙光,通過使高質量的訓練數據更容易獲得和負擔得起,合成數據將削弱專有數據資產作爲持久競爭優勢的優勢。

從科技史發展的脈絡來看,強者恆強的馬太效應通常都是仰賴於數據的底層原料,“滾雪球般”的數據累積讓谷歌、Facebook和亞馬遜等科技巨頭始終佔據着得天獨厚的優勢,而合成數據的興起或將賦能全新一代的人工智能新貴,並通過降低構建人工智能優先產品的數據壁壘來掀起人工智能創新浪潮。

當然,美夢固然很美,但也有人在質疑。

來自牛津大學、劍橋大學、倫敦帝國學院等機構的研究人員今年5月發表論文稱,AI用AI生成的數據進行訓練,會導致AI模型存在不可逆轉的缺陷,最終走向模型崩潰(Model Collapse),也就是,新一代模型的訓練數據會被上一代模型的生成數據所污染,從而對現實世界的感知產生錯誤的理解。更進一步,這種崩潰還會引發比如基於性別、種族或其他敏感屬性的歧視問題,尤其是如果生成 AI 隨着時間的推移學會在其響應中只生成某個種族,而忘記其他種族的存在。

需要注意的是,模型崩潰的過程與災難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學過的數據,而是开始把模型的錯誤想法曲解爲現實,並且還會強化自己對錯誤想法的信念。

而更爲預料不及的是,由此帶來的合成數據泛濫,真實數據難以尋覓,真實與虛擬的邊界消弭,人們再難辨清自己是活在真實還是虛擬。

       原文標題 : 數據永動機?合成數據的美夢與陷阱



標題:數據永動機?合成數據的美夢與陷阱

地址:https://www.utechfun.com/post/247109.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡