爲什么合成數據是人工智能的必備條件?

2023-08-01 18:00:27    編輯: robot
導讀 爲什么合成數據是人工智能的必備條件? 企業正在收集拍字節、艾字節甚至澤字節數量級的數據。但數據是混亂的,往往是分散和孤立的。許多企業對於在某些環境中使用數據猶豫不決,因爲其具有高度專有性。在電信等受...

爲什么合成數據是人工智能的必備條件?


企業正在收集拍字節、艾字節甚至澤字節數量級的數據。

但數據是混亂的,往往是分散和孤立的。許多企業對於在某些環境中使用數據猶豫不決,因爲其具有高度專有性。在電信等受監管行業中,由於其高度敏感的性質,許多數據甚至無法被觸及。

由於這些原因和其他原因,包括缺乏人工智能所需的大規模可用數據、數據偏差或數據漂移,越來越多的企業正在轉向合成數據。合成數據,顧名思義,這不是真實數據,但與真實數據非常相似。



增強、保護現實世界的數據

合成數據在數學和統計上反映了現實世界的數據。但它不是從現實世界中收集和測量的,而是通過計算機模擬、算法、簡單規則、統計建模、模擬和其他基於小型、匿名的現實世界樣本的技術創建出來的。

雖然真實數據幾乎總是從數據中獲取洞察的最佳來源,但由於隱私法規,真實數據往往價格昂貴、不平衡、不可用或無法使用。合成數據可以成爲真實數據的有效補充或替代。

人工數據可以幫助減輕真實數據的弱點,或者可以在不存在實時數據、數據高度敏感或存在偏見、或無法使用、共享或移動的情況下使用。但它並不總是需要接受真實數據的訓練:它可以通過查看領域或機構知識或真實數據的痕跡來生成。

隨着數據密集型生成人工智能模型的大量使用以及隱私和安全的必要性,各行業領域的企業正在認識到合成數據的潛力:2021年其全球市場價值僅爲1.689億美元,但預計將增長到2031年將達到35億美元,復合年增長率接近36%。

Gartner甚至預測,到2030年,人工智能模型中的合成數據將完全蓋過真實數據。

利用合成數據克服隱私障礙

Vodafone作爲一家跨國企業,在多個不同的司法管轄區運營,有着不同的規則和法規,自然會在數據使用方面受到阻礙。主要由於隱私問題,對數據的訪問通常受到限制,當涉及到跨地理邊界的數據流動時,也存在限制。

在這方面,Vodafone與總部位於倫敦的合成數據初創企業Hazy合作。該企業於3月份宣布獲得900萬美元的A輪種子融資,主要與Vodafone、Accenture、PwC、BMW Group和Wells Fargo等大型組織合作,因爲他們都在數據方面面臨最大的問題。

這些大型企業擁有“大量敏感數據”,以及分散在不同地區的“大量數據孤島”。

這些企業的工具採用結構化數據集,並使用機器學習(ML)來進行掃描,以識別列之間的趨勢、模式、相關性、差異和關系。無論數據落在哪裏,都可以要求它生成一個真實的數據點。

該工具可以生成比源數據集中更多的數據,並且在保留數據特徵但不包含敏感細節的安全環境中生成數據。

最全面的數據分析,加速機器學習

Vodafone正在尋求進行更全面的數據分析,研究不同國家的不同廣告活動是如何運作的,並從這些數據集中學習。

“宏偉計劃”是在每個國家創建合成數據資產,並將其聚合到一個中心位置,以便進行更廣泛、更大規模的分析。例如,客戶流失分析。

其他感興趣的領域包括負載預測和欺詐預測,以及網絡中斷的檢測和預測。

人工數據的一大用例是機器學習:加快創建和改進模型,以及執行快速實驗的內部开發流程。

通常沒有足夠的數據訪問權限,雖然可以使用开源數據,但這通常不是需要的,不適合情況。需要創建反映網絡現實的合成數據。

人工數據有助於改善和加速數據訪問,並更快地啓動項目,從而提高生產力和企業的敏捷性。

數據就像機器學習的燃料。沒有數據,就無法進行監督學習。

促進協作,加強自動化

Vodafone龐大的移動網絡供應商生態系統也在進行機器學習創新,如果想要訓練新的機器學習模型,就需要數據。

但要分發網絡數據並不容易。相反,提供合成數據,可以消除這些障礙。

軟件測試是另一個重要的用例。Vodafone正在內部开發更多軟件,這需要進行測試。人工數據可以幫助確定何時可能發生故障、特定網絡軟件組件上的負載如何隨時間變化、如何將計算資源最佳地分配給軟件組件,以及如何將能耗降至最低。

測試每個大企業的基本業務可能需要數年時間,最大的障礙是獲取代表性生產數據。

此外,合成數據對於網絡自動化很重要。因此,希望盡可能實現自動化,以進行預測。

電信以外的合成數據考慮

當然,合成數據不僅僅在電信領域有用例。它被一些企業用來微調大型語言模型(LLM),而不會泄露企業特定的數據,這些數據對ChatGPT等公共模型“超級敏感”。

與此同時,在銀行業,人工數據已被用作沙盒系統的一部分,以幫助开發圍繞欺詐檢測和洗錢的新技術。與此同時,BMW利用合成數據,對潛在客戶的信用狀況做出了更快、更准確的決策。Accenture开發了一款應用,旨在根據客戶的信用卡和借記卡交易記錄,識別易受影響的客戶,以便及早幹預,防止出現不良財務狀況。

同樣,該技術可用於生成數據集的某些區域,以更能反映現實。例如,假設一個數據集只有20%是女性,組織可以再生成30%,以更好地服務其用戶群。

人工數據提高了企業創新的強度,可以快速進行實驗和創新。

獲得認可,決定企業成熟度

從文化的角度來看,使用合成數據可以幫助隱私官員放松心情,並消除其阻礙創新甚至是數據科學家敵人的看法。

我們可以將合成數據視爲真正的匿名數據。但盡管如此,由於它改變了數據在組織中移動的方式,因此必須得到首席信息安全官、首席信息官、首席執行官、安全和法律團隊以及其他高管和部門領導的支持。

從小事做起,建立證據點。爲了支持這一點,Hazy創建了一個合成數據成熟度模型。成熟階段包括探索、評估、操作化、擴展和嵌入。

不過,同樣重要的是,要解決人工數據是“假的”或不准確的反彈。

有一些誤解認爲,使用合成材料會失去一些准確性。合成數據永遠不會像真實數據那樣100%准確。

的確。通過將數據保密,會在准確性上有所犧牲。但盡管略有下降,但還是有很多有用之處。

最終,合成數據將迎來它的時代:監管機構正在开始探索其可能性,隨着越來越多的企業接受它,圍繞數據使用和共享的行業標准將出現。

這對於合成數據來說,是一個有趣的時刻。合成數據是一個復雜的產品,企業不太容易採用。但未來幾年將是一個相當重要的轉折點。



標題:爲什么合成數據是人工智能的必備條件?

地址:https://www.utechfun.com/post/244788.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡