垂直大模型的第一關:把數據“煮熟”

2024-10-17 18:40:27    編輯: robot
導讀 來源 | 零壹智庫 國家電子計算機質量檢驗檢測中心專家: 垂直大模型的第一關:把數據“煮熟” 在應用上下功夫,被很多人認爲是中國大模型超車的捷徑。應用就要落腳到各個行業和場景,也就是垂直大模型。但是...

來源 | 零壹智庫

國家電子計算機質量檢驗檢測中心專家:

垂直大模型的第一關:把數據“煮熟”

在應用上下功夫,被很多人認爲是中國大模型超車的捷徑。應用就要落腳到各個行業和場景,也就是垂直大模型。但是做垂直模型也面臨着很多難關。

“很多行業缺乏權威統一的標准規範,缺少工作依據,特別是金融行業,雖然有很多部門和政府都在嘗試做,但還未形成統一的數據治理標准。”國家電子計算機質量檢驗檢測中心(以下簡稱“國家計算機質檢中心”)專家認爲,這是發展垂直大模型要過的第一關,否則都將是無米之炊。

2024年8月16日,在零壹智庫與蘇州高鐵新城產業發展有限公司聯合舉辦的“金融數智化系列研討會之:金融大模型的機遇與門檻”會議上,國家計算機質檢中心專家對數據治理問題進行了深入闡述。

在會後的訪談中,國家計算機質檢中心專家在會議發言的基礎上,系統闡述了對數據治理、數據管理等方面的理解。

 01 

垂直模型初具數據基礎

零壹財經:一般認爲,大模型的發展有三大基礎,算力、算法和數據。當前討論較多的數據更多是各類公开和公共數據,但隨着大模型向各個產業、細分領域和場景深入,行業性數據、商業性數據、用戶數據等非公开數據就成爲核心資源。現在是否具備發展垂直領域大模型的數據基礎?

國家計算機質檢中心專家:

隨着各行業數字化水平持續提高以及大數據前沿技術的進步,許多企業和單位已經建立起自己的數據中心、數據倉庫等,積累了大量的行業性數據、商業性數據和用戶數據,其內容和種類豐富,已經初步具備了發展大模型的技術和數據基礎。

但是在具體實施層面,仍然存在一些挑战。比如數據的有效性和准確性,直接影響大模型的訓練效果;比如在訓練過程中如何保護用戶數據隱私,防止泄露。

讓數據可用、好用,更加真實地反映行業和用戶需求,這對於數據質量和數據安全提出了持續性要求,需要有一套常態化的數據管理手段。

 02 

數據管理的國家標准

零壹財經:看來數據管理是關鍵。但數據管理是很籠統的說法,可以包含數據業務的方方面面,如何建立合理的數據管理標准?

國家計算機質檢中心專家:

近年來雖然對於數據管理和治理領域的標准重視程度日益提高,但其內容和方法確實缺少統一定義,通常以信息化、數字化系統建設爲主要手段。

而不同企業的數據管理現狀差異很大。數據治理是一項復雜工程,往往面臨衆多問題,需要系統性指引。

正是基於構建數據管理基礎制度的頂層設計,我國從整個體系框架的層面推出了DCMM標准,即《數據管理能力成熟度評估模型》。

這是我國在數據管理領域的首個國家標准,代表了一種自上而下的數據治理方法,經過多年的大力推廣,正處於高速發展期。

DCMM標准體系將企業數據管理成熟度劃分爲五個等級,按照從低至高的特徵,分別爲項目級、部門級、組織級、量化級、優化級,清晰地定位不同企業數據管理能力所處的階段。

通過數千家企業的評估實踐,已經充分證明了DCMM等級劃分的科學性和適用性。

金融行業同樣也適合借助DCMM標准體系的推廣、貫標以及應用,幫助企業和行業機構科學的評估自身的數據管理能力,發現自身在數據管理方面的問題和不足,建立起符合自身特點的數據管理框架,爲金融數據資產化、參與數據市場流通奠定了堅實基礎。

零壹財經:具體而言,在哪些環節、哪些領域進行改進,才能獲得更好的數據管理級別?

國家計算機質檢中心專家:

DCMM體系兼顧了技術和管理多方面的要求,從組織、制度、流程、工具等多個維度綜合分析,幫助企業發現問題,改進問題。它充分覆蓋了數據治理的常見要素,具體包括八個核心能力域——數據战略、數據治理、數據架構、數據標准、數據應用、數據安全、數據質量、數據生存周期。

具體來說,應當運用先進的技術工具和平台,支撐大數據治理和應用工作落地;同時也要重視全過程的規範管理,引導企業的管理部門和業務部門共同參與,保障數據管理工作的閉環和常態化執行;應當自上而下地推動形成數據管理文化和意識,明確數據管理的目標、路徑和權責,避免爲了治理而治理;積極探索多樣的數據分析、數據共享方式,挖掘並實現內外部數據資產價值。

這樣多管齊下,才能全面提升數據管理水平。

 03 

挑战:大部分企業還處於2級階段

零壹財經:經過近幾年的數據管理檢測和評級的推進,你們認爲現在數據管理領域面臨的最大的問題是什么?

國家計算機質檢中心專家:

從企業方面來說,領導層面的認識和決心是最重要的,是數智化轉型的原動力。面對數據管理這樣一項涉及衆多部門、需要耗費大量精力和財力的工作,不同行業和地區的現狀也差異較大。

以DCMM全國貫標工作的數據來看,大部分企業處於2級階段,也代表着大部分數據需求僅限於業務層面,對於數據治理體系和平台的整體規劃投入不足,企業對於數據治理的意義和認識有待提升。

從行業的角度,數據管理工作在落地的過程中,往往面臨行業數據標准欠缺的問題。各行業工作特性差異巨大,勢必需要細致的數據質量、數據標准、數據安全等行業規範。

如果沒有權威、統一的行業數據治理標准,由企業自行开展規劃建設,既增加了數據治理的成本和難度,也對數據开放共享流通環節帶來困難。

而在數據管理測評認證方面,雖然數據領域的各項標准在積極推進,但全國性的、權威的數據治理認證體系仍然不多。

譬如現在國家大力推動的數據入表、數據要素交易流通等工作,其前提就要求確保數據質量,由第三方機構出具數據質量報告。但數據質量標准在各行業、各地區的落地轉化、評估認證仍然缺乏統一的體系,尺度和要求不一。

數據質量報告難以跨行業、跨地區的相互認可,這不僅限制了大規模數據交易和應用,也增加了國家和行業監管的難度,無法准確衡量數據質量和制定監管措施,影響數據市場的長遠健康發展。

 04 

政務數據的特點與嘗試

零壹財經:各行各業都有很多數據其實掌握在政府部門。從政府數據管理的角度看,目前“數據成熟度”如何?

國家計算機質檢中心專家:

政府和政務數據是我國近年在數據治理領域意識比較領先的,發揮着積極作用。一方面各地政數局等數據主管部門牽頭制定公共數據共享服務標准,規劃和規範各地區數據治理的頂層設計。

同時一些發展水平較成熟的地區,積極牽頭建設數據交換共享服務平台,甚至設立數據交易流通市場,深度參與到數據治理工作中,推動數據資源的整合和共享,爲政府數據管理提供了更加便捷、高效的工具,有助於提升各地數據管理的規範化和標准化水平。

一些數字化水平較高的行業,也由各地行業主管部門積極推進,統籌行業數據標准化管理。比如金融、能源、醫療等行業的監管水平都相對領先。

我們接觸了一些醫療機構,了解到北京數交所去年在北京醫管局選擇了六家醫院做數據共享和交易試點。數據交易有多種模式,包括統一的、分場景的、分級分類的,目前主要是集中共享到交易平台,需求方經授權後按需使用,但不能拿走數據。

但不管是地方政府或者行業主管部門,他們在數據要素市場中的定位和權責與企業、公民有很大不同,更多是管理方或監管方的身份。

政務數據在數據安全、數據價值等方面的要求和關注點,也與其他種類數據有所不同。

因此在數據治理和交易流通的鏈條中,仍然需要不同參與方基於自身的訴求和特點,承擔不同的數據治理任務,共同構建數據治理生態。

 05 

金融業數據“成熟度”較高

零壹財經:很多金融機構和金融科技機構在推進金融大模型的發展和創新。金融業是數據密度、敏感度很高的行業。在金融數據管理方面,目前整體情況如何,是否爲金融大模型的發展做好了准備,您有什么建議?

國家計算機質檢中心專家:

金融行業在數據管理方面,目前整體呈現出積極向好的態勢,建議持續完善和提升,積極探索金融大模型的發展。

以DCMM全國貫標工作的統計數據來看,金融業雖然在企業絕對數量上不多,在獲得DCMM證書的金融企業中,DCMM三級以上佔比超過一半,取得最高等級的五級企業(銀行)也有多家,數據治理平均能力處於全國領先。

在數據治理平台建設、數據分析應用开發等方面得分較高,在數據安全這一其他行業普遍偏弱的領域,由於金融行業的特點,也有較高的數據管理意識和管理水平。

甚至於DCMM國家標准本身,在起草之初也參考調研了我國金融行業的數據治理實踐經驗。

有力的行業監管和良好的數字化基礎,強烈的數據治理的需求,以銀行爲代表的集團公司+子公司的組織形態,這些條件都爲金融行業各機構、各級數據管理工作的落實提供了持續推力和資源保證。

金融數據行業可以充分發揮自身的優勢積累,以行業頭部機構爲優勢示範案例和帶頭,在全面深化提升整個行業的數據管理水平的同時,從數據標准、數據質量、數據开放共享等方面繼續完善數據治理成果。

加強數據要素生態合作,積極創新實踐,探索發展適合行業特點和發展需求的金融大模型。

       原文標題 : 垂直大模型的第一關:把數據“煮熟”



標題:垂直大模型的第一關:把數據“煮熟”

地址:https://www.utechfun.com/post/433239.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡