自動駕駛和大模型極大激發了數據標注的需求,但這個行業也從之前的純人工標准,开始向自動化標注和更智能的數據工程平台過渡。
文|徐鑫
編|任曉漁
AI應用落地熱潮正推動數據標注市場進入新一輪洗牌期。
大模型和自動駕駛領域的AI需求攪動了數據服務市場,數據標注服務商整數智能CEO林群書告訴數智前线,今年以來他們接到了非常多基於大模型訓練場景的訂單,市場需求量呈現出了一條比較陡峭的增長曲线。
新的應用場景對服務商的能力提出了新要求。一方面,不同於傳統深度學習算法,大模型場景下數據處理流程中,在數據需求量最大的預訓練環節,使用的多是無標注或弱監督標注數據。更多的人工標注需求出現在預訓練環節之後的微調(SFT)以及基於人類反饋的強化學習(RLHF)階段。微調和對齊時,人工標注的質量會極大影響模型在生成內容時的智能水平,這對人工標注的數據質量提出了更高的要求。
另一方面,AI技術的進步正推動行業從人力密集型向自動化標注轉變。
新一代數據標注服務商已經基於機器學習算法,探索構建更智能的數據工程平台,提升數據標注的自動化水平。而原本處於數據服務下遊的算法研發平台及科技企業自身也在嘗試把大模型技術用到了自身的數據標注場景,例如商湯科技在自動駕駛場景基於視覺大模型技術,降低了人工數據標注的數量,大幅提升了數據標注效率。
大廠也加速進入這一市場。由於看中了大模型訓練的算力市場,不少模型提供商提供了AI訓練全家桶,數據標注被納入了大廠的服務範圍,這可能正加劇行業的競爭。
數據標注自動化水平提升,拉高了服務標准,同時還在釋放行業的降價空間。一位資深人士稱,今年數據標注市場或許會加速向技術型玩家集中,單純依靠人工標注的企業生存更爲艱難,市場正开啓淘汰賽。
01
AI落地潮催熟數據標注市場
數據被認爲是人工智能智能化水平提升的燃料。過去兩年裏大模型和自動駕駛等領域裏的AI落地熱潮正在催熱數據標注市場。
據信通院數據,OpenAI 2020 年推出 GPT-3 以來,超大預訓練模型參數數量、訓練數據規模按照 300 倍/年的趨勢增長。大模型熱潮使得國內的數據標注公司也受到了不小關注。今年以來,國內的老牌數據標注企業海天瑞聲備受矚目,該公司高管在接受採訪時稱收到了大量問詢。
今年2月,海天瑞聲還專門發布了公告,稱公司尚未與OpenAI开展合作,收入結構中有大約90%的貢獻來自於智能語音和計算機視覺業務領域,自然語言業務對公司整體貢獻大約在10%左右。
雖然與大語言模型直接相關的訓練需求,在這家老牌數據標注服務商的業務佔比不大,但市場對數據標注廠商的熱情依然迅猛。海天瑞聲今年股價實現了大幅上漲,波動範圍從31.28 元最高到過192.69元,雖然目前股價已回落到百元以內區間,但仍較年初水平翻倍。
除了老牌數據標注商的股價飆漲,新興的數據標注創業公司也明顯感知到了這股趨勢。 整數智能CEO林群書告訴數智前线,今年他們能看到兩個領域的數據標注需求非常明顯,一個是自動駕駛場景,另外一個就是大模型,這也是他們重點布局的兩大領域。
業界觀察,大模型的訓練方式與此前的深度學習算法的开發範式並不一樣:大模型的預訓練環節需要的數據量比較大,但這一環節通常會採用弱監督或無監督數據,對數據標注的需求增加並不明顯。而在預訓練環節之後的微調和基於人類反饋的強化學習階段,則需要高質量的人工標注數據。比如,此前工行的技術專家在華爲雲論壇上分享訓練自己的大模型應用時提到,在微調階段需要體系內的業務專家們去標注金融相關的數據,這已不是普通數據標注員能完成的作業。
林群書介紹,目前他所在的整數智能已經針對大模型不同階段的數據需求向企業提供不同的數據服務。比如針對需要做模型訓練但自身沒有專業獲取數據來源的團隊,提供從數據標注工具到定制數據集的整套服務。
自動駕駛也是近年來另一個對數據標注服務有大量需求的場景。根據德勤今年3月份的一份報告顯示,2022年自動駕駛領域在人工智能基礎數據服務的整個下遊應用佔比約爲38%,到2027年這個比例將增長到52%。
這一場景的數據需求暴增與自動駕駛場景特性有關。車企對數據標注的要求相比其他行業更高。林群書告訴數智前线,目前國內車企也在對標特斯拉的數據閉環方案,能服務這個場景的數據服務商需要有專門的自動化標注平台與專業的標注工具,例如4D標注工具,同時需要一整套完整的解決方案。
另外,出於對安全考量,車企對數據標注的准確度要求通常在99%以上,這實際上也大幅提高了對數據服務商的要求門檻。
整體而言,數據標注市場需求在大量釋放的同時,門檻也進一步拉高。
02
從“靠人工實現智能”到智能化工程平台
過去十年,深度學習和人工智能技術,基於標注好的數據,智能水平有了巨大的突破。
張宏江院士今年年初在一場有關大模型的演講中提及,伴隨算法的進步實際上數據層面發生的變化也非常明顯,從最开始人工的標注,到开放的數據集分享,現在發展到數據自動標注和深層研究。這也是國內數據標注領域裏正在發生的現實。
行業內最經典的人工數據標注工作,當屬 ImageNet數據集。2007年开始,人工智能學者李飛飛在美國普林斯頓大學任教期間,啓動了 ImageNet的標注工作。通過亞馬遜 Mechanical Turk 在线衆包,李飛飛團隊利用了67 個國家的 49000 人次,花費兩年半的時間,最終標注了1500 萬張圖片。這個龐大數據集爲後來深度學習算法的良好表現打下了基礎,無怪乎有人稱李飛飛爲深度學習之母。
而數據標注作業能從純手工標注逐漸往自動化標注及更智能的數據工程平台過渡,實際上與這個細分行業的特性有關。
一位業界人士告訴數智前线,數據標注工作本質是要把日常生活中這些非結構化數據翻譯成機器能理解的結構化數據。而無論是結構化還是非結構化數據,數據的模態是有限的,包含圖像、音頻、視頻、文本、點雲等有限種類。另外,在實現人工智能的數據工程任務時,不同模態數據要完成的是有限個子任務。以圖像領域爲例,要識別圖像信息,共包含了目標檢測、語義分割、目標跟蹤等十個以內的子任務。
專業的數據服務商可以針對所有模態數據的子任務,做出針對性的數據標注工具,並從中提煉出標准化流程,更高效完成數據的採集和標注,從而服務和滿足人工智能應用和不同場景的需求。
過去十余年,國內數據標注最初是純人工完成,隨着人工智能算法發展帶來的數據標注任務增加,一些軟件公司开始开發衆包的數據標注平台,從而更高效組織和管理人工標注任務的分發,控制流程,推動人工數據標注及質檢工作的流程標准。
數據標注作業朝向自動化邁开步伐,時間節點在2017年~2018年。當時行業裏發現,隨着自動駕駛這樣需要處理海量數據的場景出現,一個場景要標注的數據體量可能達到幾千萬張圖片規模。在這樣體量的需求前,人工完成數據標注任務,一致性管理和進度追蹤變得極爲困難。
一方面人工要完成千萬張圖片級別的數據標注,通常需要幾百人團隊花費大半年以上的周期。同時,衆包平台的人工標注作業可能會因爲一致性管理難,而出現准確率不達標等情況,需要返工,這可能進一步拉長作業周期。
業界开始探討用人工智能來減少標注工作量。比如訓練一個人工智能算法,對標注任務進行預標注,再由人工去做精加工。預標注過程能大幅減少人工標注數量,同時由於篩選標准統一,結果的一致性更高,數據標注的質量也能提升。
目前,國內已經有不少企業把大模型技術應用到了數據標注場景。商湯科技聯合創始人、大裝置事業群副總裁陳宇恆此前接受數智前线採訪時提到,在自動駕駛場景裏,商湯正通過大模型去對自動駕駛的路測回流數據做挖掘、自動標注、泛化與重建,大幅提升了自動駕駛算法迭代所需的高質量數據規模化生成效率。
商湯絕影產品總監Larry方面還透露,目前商湯絕影智能駕駛主要模型訓練所依賴的標注已經大部分採用大模型自動標注技術,全自動標注和半自動標注(採用人工抽樣質檢)基本已經代替了人工標注,成本和時間周期均大幅下降。
今年4月,海康威視在一季度的財報電話會上向投資者答疑時也提到,他們也在將自研AI技術用到自動化標注場景,“用同樣的人力投入, 數據標注的數量可以提升 10 倍”。數智前线獲悉,網易旗下的伏羲有靈衆包平台已經在控制成本、縮短任務周期、保證質量等方面融入了一系列的前沿算法,將人工標注數據反哺 AI算法,實現人機協作任務處理。
一些新興的數據標注服務商們試圖再往前一步,建設更通用的數據工程平台,在一些跨行業或跨場景的算法自動化標注減少工程師需要額外調試的時間。老牌廠商海天瑞聲就計劃啓動領域裏的垂直大模型研發,把大模型的泛化能力應用到數據標注領域。
整數智能則开發了智能數據工程平台(ABAVA Platform),希望適用所有的模態數據及更普遍的行業場景,他們還將MLOps模塊集成在數據工程平台上,使得平台可以以插件的形式使用內外部的算法模型,用於提升數據標注以及智能審核的效率。林群書介紹,“通過把一套Machine Learning Ops的系統集成到了整個數據工程平台,每次完成的數據都可以用來迭代自動標注算法,使得自動標注算法不斷學習垂直場景數據,變得更加聰明。數據標注也能形成數據應用的閉環和飛輪。”
在數據標注的智能化演進路徑裏,也有觀察人士評價,人工標注師們的努力正推動算法進步,最終使得自身被算法汰換。
03
淘汰賽开啓
對投資人工智能的企業而言,數據標注是項長期成本,只要企業還期望提升算法的智能程度,每年對數據標注的需求和投入就穩定存在。
也有應用开發方在訓練算法時會幹脆不靠外部標注商,自己投入力量來標注數據。例如不少互聯網平台就建設了數據標注衆包平台,這些企業有大量的人工智能算法及AI應用开發需求,自建團隊對這些企業而言能更方便滿足業務的數據需求。
但這個行當的進入門檻相對不高。據了解,前些年在一些人力資源充足地區如山東、山西、河南、貴州等地,出現了不少數據標注基地,大量廉價的勞動力資源是這些標注基地生存發展的重要原因。
大模型時代到來後,數據需求方對人工標注的數據要求在提升。例如,業界發現微調環節的反饋和數據質量正大大影響模型的智能度,在一些前沿的研究論文裏就已經在指出,擴大數據量而不同時擴大提示多樣性時,收益會大大減少,而在優化數據質量時,收益會大大增加。爲了提升模型表現,數智前线了解到,今年4月國內某頭部大模型提供商就專門組建了更專業的標注團隊,標注員要求本科以上學歷。
算法類企業自身離數據和人工智能算法近,他們也在用大模型來提升自身的數據處理能力,比如海康威視、商湯科技,此前被行業裏劃爲應用开發或算法研發環節,現在他們也有一些智能化工具和應用來提升數據標注效率。
大廠內部的數據標注平台的服務方式也在發生變化。由於看中了大模型帶來的算力市場,大廠正在提供一站式服務,其中包含了AI訓練的工具鏈、數據標注的工具等。數據標注被納入AI訓練全家桶,統一對外服務。一些分析人士認爲,這種模式下,大廠的數據標注服務可能變得比以前更有吸引力,可能會擠佔第三方標注服務商的生意。
不過也有業內人士認爲,大廠內部建的數據標注平台有一些局限。這些基於內部數據需求和業務場景出發來建的平台,通常很難應對市場多樣化的數據標注任務需求。另外該資深人士也認爲,一些企業還有私有化部署的需求,從合規角度需要把訓練任務放在本地,專業的數據標注服務商更擅長滿足這部分需求。
林群書也提及,醫療行業就更傾向用私有化部署去保護數據安全。醫療行業裏的客戶會從標注環節开始,整套系統和標注平台做私有化部署,整個平台放內網,然後這些機構會自己安排一些醫生上來做數據標注。
同時,新興的AI場景也對數據標注服務商提出了更高要求。例如自動駕駛領域,如果一家數據標注服務商沒有4D標注工具和能力,現在可能沒有辦法跟主機廠合作。
總之,市場开始變得更卷。更多類的參與主體,行業裏的智能化、自動化趨勢使得從前單純疊人力、沒有技術含量的數據標注範式逐漸在喪失生存空間。
林群書透露,由於智能化工具減少了人工標注的工作量,同樣的數據標注任務他們可以用更少的成本達到更高質量的標注。由於有了技術紅利,他們還能釋放一部分成本優勢給客戶,降低單位數據標注任務的價格。
這是一個持續有需求的市場。2019年艾瑞咨詢的報告中評估,市場在2025年將達到百億規模,但實際上,業界人士評估目前國內市場整體規模可能在今年就已經達到了百億水准。市場需求正在加速釋放,行業正在從勞動密集型向技術密集型轉變。
一位業界人士稱,一場淘汰賽已經开啓,行業內競爭加劇,今年剩者爲王更爲明顯。
原文標題 : 數據標注,從藍領到白領
標題:數據標注,從藍領到白領
地址:https://www.utechfun.com/post/250068.html