導讀 曾經簡單的數據湖不斷發展,推動企業分析。隨着人工智能敲开企業大門,這一點在今天變得更加重要。當這個想法在2010年代初出現時,有些人認爲數據湖是恰逢其時的正確架構。數據湖是一個非結構化數據存儲庫,利...
曾經簡單的數據湖不斷發展,推動企業分析。隨着人工智能敲开企業大門,這一點在今天變得更加重要。當這個想法在2010年代初出現時,有些人認爲數據湖是恰逢其時的正確架構。數據湖是一個非結構化數據存儲庫,利用新的低成本雲對象存儲格式(如亞馬遜的S3)。它可以容納當時從網絡上傳出的大量數據。
然而,對其他人來說,數據湖是一種容易被嘲笑的“市場結構”。這一陣營的人稱之爲“數據沼澤”。這個陣營中的許多人青睞歷史悠久但並不便宜的關系數據倉庫。
盡管存在質疑,數據湖已經發展並成熟,成爲當今人工智能和分析領域的關鍵組成部分。
隨着生成式人工智能重新關注數據架構,我們將仔細研究數據湖如何轉變以及它們在推動高級人工智能分析方面所發揮的作用。
數據湖的需求
對於追求電子商務和相關領域數據驅動洞察的年輕企業來說,實施數據湖的好處是多方面的。
亞馬遜、谷歌、雅虎、Netflix、Facebook等企業都开發了自己的數據工具。這些工具通常基於ApacheHadoop和基於Spark的分布式引擎。新系統處理的數據類型比當時分析數據倉庫中現有的關系數據類型結構性更低。
對於那個時代的系統工程師來說,這種架構顯示出了一些好處。“沼澤”或“湖泊”,它將成爲搜索、異常檢測、價格優化、客戶分析、推薦引擎等先鋒應用的基礎。
數據湖擁有巨大的未开發潛力,今天存儲的海量數據將推動明天的洞察和人工智能進步。
這種更靈活的數據處理方式是成長中的網絡巨頭的迫切需求。文本、圖像、音頻、視頻和其他數據“海嘯”根本不適合關系數據庫和數據倉庫處理。另一個缺點是:隨着每一批數據的加載,數據倉庫成本也隨之上升。
無論人們喜歡與否,數據湖如今仍充斥着數據。在數據處理中,數據工程師可以“立即存儲”數據,然後決定以後如何處理數據。但基本數據湖架構已擴展爲更高級的數據發現和管理功能。
這一變革由自主开發的解決方案以及Databricks和Snowflake等一流初創企業的解決方案引領,但還有更多企業參與其中。隨着數據中心規劃人員着眼於新的AI領域,它們的各種架構如今受到了密切關注。
數據湖的演變:從Lake到Lakehouse
數據湖競賽的參與者包括Amazon Lake Formation、Cloudera Open Data Lakehouse、Dell Data Lakehouse、Dremio Lakehouse Platform、Google BigLake、IBM watsonx.data、Microsoft Azure DataLakeStorage、Oracle CloudInfrastructure、Scality Ring和Starburst Galaxy等。
正如上述內容所示,趨勢是將產品稱爲“數據湖屋”,而不是數據湖。這個名字更類似於用於處理結構化數據的傳統數據倉庫。是的,這代表了另一個牽強的類比,就像之前的數據湖一樣,受到了一些審查。
在數據市場中,命名是一門藝術。如今,解決數據湖初始缺陷的系統被指定爲集成數據平台、混合數據管理解決方案等。但奇怪的命名慣例不應掩蓋功能方面的重要進步。
在當今更新的分析平台中,不同的數據處理組件以流水线方式連接。新數據工廠的進步可能集中在以下方面:
新的表格式:例如,DeltaLake和Iceberg建立在雲對象存儲之上,爲ApacheSpark、Hadoop和其他數據處理系統提供ACID事務支持。經常關聯的Parquet格式可以幫助優化數據壓縮。
元數據目錄:SnowflakeDataCatalog和DatabricksUnifyCatalog等設施只是執行數據發現和跟蹤數據沿襲的一些工具。後者特性對於確保分析數據質量至關重要。
查詢引擎:這些引擎爲高性能查詢存儲在各種類型和位置的數據提供了通用的SQL接口。PrestoDB、Trinio和ApacheSpark就是其中的例子。
這些改進共同描述了當今爲使數據分析更有條理、更高效、更易於控制所做的努力。
它們伴隨着明顯的“先提取後轉換”方法的使用。這與數據倉庫熟悉的提取轉換加載(ETL)數據暫存順序不同。現在,方法可能改爲提取加載轉換(ELT)。
不管叫什么名字,這都是高級數據架構的決定性時刻。它們恰逢新一輪閃亮的生成式人工智能時代。但它們從雜物櫃到定義更明確的容器的演變發展緩慢。
數據湖安全和治理問題
數據湖導致了大數據的徹底失敗。所以我們需要保護數據免受未經授權的訪問,並遵守GDPR等治理標准。這意味着應用元數據技術來識別數據。
主要需求是安全性。這需要精密度的訪問控制,而不僅僅是將文件扔進數據湖,更好的數據湖方法現在可以解決這個問題。現在,組織中的不同角色反映在不同的權限設置中。
這種控制類型並不是早期數據湖的標准,早期數據湖主要是難以更新的“僅追加”系統。
新的表格格式改變了這一現狀。近年來,DeltaLake、Iceberg和Hudi等表格格式相繼出現,爲數據更新支持帶來了顯著的改進。
Iceberg等工具的標准化和廣泛可用性爲終端用戶在選擇系統時提供了更多優勢。這可以節省成本並提高技術控制能力。
推動未來:數據湖通過處理大量非結構化數據來爲先進的人工智能分析提供動力。
生成式人工智能的數據湖
如今,生成式人工智能已成爲許多企業待辦事項清單中的首要任務,而數據湖和數據湖庫與這一現象密切相關。生成式人工智能模型熱衷於在大量數據上運行。與此同時,計算成本可能會飆升。
人工智能與數據管理之間日益緊密的聯系揭示了未來的關鍵機遇和障礙:
人工智能將改變數據管理
數據倉庫、數據湖和數據湖屋將有助於改進GenAI,但這也是一條雙向的道路。生成式人工智能正在推動進步,這將極大地增強數據處理過程本身,這包括數據准備、構建BI儀表板和創建ETL管道。
生成式人工智能爲解決數據管理中的模糊問題提供了獨特的機會,比如數據清理。這一直是人類的活動,而自動化則是一項挑战。現在我們可以應用[生成式人工智能]技術來獲得相當高的准確性。實際上可以使用基於自然語言的交互來完成部分工作,從而大大提高工作效率。
企業將不斷努力將工作連接到多個數據湖,並專注於更加自動化的操作,以增強數據的可發現性。
人工智能數據湖將帶來更具彈性的數據中心
人工智能正在挑战現有的遊戲規則。這意味着數據湖工具既可以縮小規模,也可以擴大規模。這意味着支持數據中心和雲端的靈活計算。
在某些月份的某些日子,數據團隊希望將數據移至本地。其他時候,他們希望將數據移回雲端。但是,當你來回移動所有這些數據工作負載時,就會產生負擔。
當首席財務官們开始關注人工智能的“稅收”,即其對支出的影響時,數據中心將成爲試驗場。IT領導者將專注於通過真正彈性的可擴展性將計算帶入數據。
人工智能基礎模型輸出的定制是關鍵
這就是你如何賦予它你的業務語言,比如可以使用數據定制AI。它將從用例和質量角度以您想要的方式有效地代表您的企業。
定制工作應與新AI時代的數據治理相輔相成。治理提供生命周期管理和監控護欄,以確保遵守您自己的企業政策以及任何監管政策。
更多本地處理即將到來
精心策劃的數據湖對於支持AI工作負載(包括與生成AI相關的工作負載)至關重要。我們將看到人們對混合數據架構的興趣激增,部分原因是AI和機器學習的興起。
人工智能的這種勢頭將把更多的數據帶回本地世界或混合世界。企業不會想把所有的數據和人工智能模型都發送到雲端,因爲把這些數據放到雲端的成本太高了。
使用本質上與存儲分離的查詢和計算引擎是一種主流趨勢,這種趨勢將在人們已經擁有的多樣化數據基礎設施中以及跨多個數據湖發揮作用。這通常被稱爲“將計算轉移到數據”。
數據越多就越好嗎?
基於未分類、不足或無效數據的AI工作負載是一個日益嚴重的問題。但正如數據湖的發展所表明的那樣,這是一個可以通過數據管理解決的已知問題。
顯然,如果無法理解,那么獲取大量數據也是無益的。如果能利用數據,數據越多越好。但如果不能利用,數據就沒有任何用處。
數據湖、數據倉庫及其數據湖屋分支使企業能夠使用更多類型和更多數據。這對生成式人工智能模型很有幫助,這些模型在對大型、多樣化的數據集進行訓練時會得到改進。如今,數據湖以各種形式存在。
CIBIS峰會
由千家網主辦的2024年第25屆CIBIS建築智能化峰會即將开啓, 本屆峰會主題爲:“匯智提質:开啓未來新篇章”。屆時,我們將攜手全球知名智能化品牌及業內專家,共同探討物聯網、AI、雲計算、大數據、智慧建築、智能家居、智慧安防等熱點話題與最新技術應用,分享如何利用更智慧、更高效、更安全、更低碳的智慧技術,共同开啓未來美好智慧生活。
歡迎建築智能化行業小夥伴報名參會,共同分享交流!
報名方式
長沙站(10月24日):https://hdxu.cn/MrRqa
成都站(11月05日):https://hdxu.cn/7FoIq
西安站(11月07日):https://hdxu.cn/ToURP
北京站(11月19日):https://hdxu.cn/aeV0J
上海站(11月21日):https://hdxu.cn/xCWWb
廣州站(12月05日):https://hdxu.cn/QaqDj
更多2024年峰會信息,詳見峰會官網:http://summit.qianjia.com
標題:數據湖的演變:分裂架構推動人工智能分析新時代的到來
地址:https://www.utechfun.com/post/422522.html