2024年大數據行業預測(二)

2024-01-08 18:00:44    編輯: robot
導讀 2024年大數據行業預測(二) 大數據 數字化轉型投資將成爲2024年首席信息官議程上的優先事項,特別是在通貨膨脹不斷上升的情況下,因爲這將允許更大的風險管理、降低成本和改善客戶體驗。此外,根據我們...

2024年大數據行業預測(二)


大數據

數字化轉型投資將成爲2024年首席信息官議程上的優先事項,特別是在通貨膨脹不斷上升的情況下,因爲這將允許更大的風險管理、降低成本和改善客戶體驗。此外,根據我們今年看到的趨勢,在生成人工智能方面也會有持續的投資。在評估我們最初的業務需求和目標時,同樣重要的是我們承諾建立優先考慮負責任使用的指導方針。最後,作爲一個行業,我們需要擁抱數據孤島。我們不能忽略孤島,反而應該更好地啓用,並賦予其提取所需經過審查的數據的能力。—Danielle Conklin,Quality首席信息官
大數據的固有特徵,如數量、速度、價值、多樣性和准確性,每年都保持不變,而每年出現的不斷發展的技術,幫助我們利用領域知識將數據情境化並獲得更多見解,加速業務轉型。–Ahmed El Adl博士,Sand Technologies高級顧問
大數據洞察不再只是數據科學家的專利:從大數據中提取有意義的業務洞察的能力,在很大程度上已經成爲高度專業化的數據科學家的領域。但是,就像在網絡安全領域一樣,這些專家寥寥無幾,而且越來越多的團隊對這種有限的資源提出了要求。在接下來的一年裏,我們將看到這種指數級的變化。數據結構平台、數據科學和機器語言(DSML)平台正在改變遊戲規則,統一和簡化對企業數據的訪問。這些平台的用戶界面更加友好,使更多團隊中的更多人能夠看到並應對業務面臨的威脅或其他挑战。隨着人工智能的進步使不良行爲者更容易滲透,數據的民主化來得正是時候。隨着更多的人關注並能夠採取保護措施,企業有機會在威脅之前保持領先地位。–Nicole Bucala,Comcast Technology Solutions副總裁兼總經理
首席數據官或任何數據領導者,需要首先成爲變革管理專家,其次才是數據專家,才能在2024年取得成功。創建數據文化與Field of Dreams的“構建,夢就會成真”的方法完全相反,CDO經常發現自己身處一個只有自己夢想的領域。因此,必須將“數據夢想”帶到組織的所有領域,以使數據驅動的文化成爲現實;生成式人工智能是CDO迄今爲止最切實、最可靠的工具。–Niamh O’Brien,Fivetra高級經理
在即將到來的一年裏,我們預測對演進數據湖的需求將不斷增長,以及GenAI如何幫助組織更容易地訪問大數據。企業領導者尋求的不僅僅是一個有組織的存儲空間;還將尋找一個智能的交互式平台,促進與數據的有意義的對話,並將其轉化爲可行的見解。GenAI中的大型語言模型(LLM),爲彌合大數據和決策之間的差距帶來了新的機會。在LLM的支持下,智能代理將具有理解和響應自然語言查詢的創造性能力,爲企業开闢新天地,因爲其將允許用戶以對話方式處理數據。這種轉變推動組織轉向組織良好的數據存儲庫,使用戶能夠對其數據有有用的理解。–Nirav Patel,Bristlecone首席執行官
2024年是我們停止移動數據並开始使用數據的一年:二十多年來,數據增長速度超過了連接速度,導致了一個指數級問題。指數問題可能會突然變得難以應對,就像一個裝滿沙粒的罐子,每天都會翻倍。而總有一天,其便會溢出來。數據傳輸速率無法滿足我們的需求,因此催生了諸如Amazon AWS Snowmobile之類的解決方案,這是一個由卡車牽引的45英尺長集裝箱,旨在傳輸EB級數據。我們已經到了無法將所有數據移動到需要分析或使用的地方的地步——從一個數據中心轉移動另一個數據中心。邊緣,如工廠、醫院、自動駕駛汽車,每天都會生成數艾字節的數據,爲新的人工智能模型提供動力。然而,人工智能生態系統主要駐留在雲端,而將如此巨大的數據量從邊緣轉移到雲端是不可行的。到2024年,我們預計工具將會興起,讓我們能夠在不移動數據的情況下處理數據。這些工具將使雲應用能夠像訪問本地數據一樣訪問邊緣數據,或者使數據中心應用能夠像訪問本地數據一樣訪問雲數據。歡迎來到無處不在的數據時代。–Kiran Bhageshpur,Qumulo首席技術官

與雲和操作系統無關的高可用性,已成爲大多數應用的預期要求:IT團隊將尋找跨操作系統和雲一致的應用高可用性解決方案,從而降低復雜性並提高成本效率。隨着高可用性需求的增加,在本地和雲環境中運行應用,以及在Windows和Linux環境中運行應用的企業,都希望通過高可用性解決方案來簡化其應用環境,這些解決方案可以在所有環境中提供一致的用戶界面,並匹配來自高可用性供應商的雲和操作系統技術支持和服務。–Cassius Rhue,SIOS Technology副總裁
組織將繼續尋找公共雲DBaaS替代方案:我們從用戶、客戶以及整個市場那得知,都需要公共雲DBaaS替代方案。造成這種情況的原因有多種,例如,希望更加獨立於供應商、希望優化成本,或者在數據庫配置方面獲得更大的靈活性。目前,市場爲那些愿意做出改變的人提供了有限的選擇。與特定提供商的DBaaS不同,开源私有數據庫平台市場存在缺口,該平台可以讓組織和IT團隊更好地控制數據訪問、配置靈活性以及與基於雲的數據庫相關的成本。Kubernetes和Kubernetes Operator的發展,使得這種方法的實施變得更加容易,但是仍然存在多個差距,這使得在生產環境中部署和運行變得更加困難。縮小這些差距,並提供完全开源的DBaaS選項將在2024年實現。–Aleksandra Mitroshkina,Percona高級運營經理
構建從提示开始,並通過雲托管:在不久的將來,人工智能驅動的語言模型(LLM),將不斷革新基於服務器的(虛擬化)計算,其中自動化工具的快速部署將推動這一變化。其以一個簡單的提示开始,指導創建一個網站。添加額外的指示以指導所構建的網站類型。雲托管將成爲首要考慮因素,隨着在线業務的增長,其具有擴展、負載平衡、安全和處理大量流量的能力。爲了提高可靠性、安全性和靈活性,越來越多的用戶可能希望切換到多雲方法,從而避免被單一提供商鎖定。無服務器功能可以按需運行代碼,而無需管理基礎設施、提供服務器或升級硬件,這將進一步成爲开發人員的首選架構。其簡化了部署過程,可以更有效地分配資源,並將大大節省精力和時間。隨着量子計算的進步,即使進展緩慢,其也將顛覆傳統的加密方法。雲托管提供商必須通過提供抗量子安全解決方案來適應,以保護敏感數據。不斷上漲的能源價格,將推動雲托管採用更可持續的做法。更多供應商將致力於使用可再生能源、廢水再利用、減少碳足跡,並推廣生態友好型雲服務。–Mark Neufurth,IONOS首席策略師

數據庫/數據倉庫/數據湖/數據管理

數據模型將發生結構性轉變,從高度結構化的傳統數據庫中脫離出來。隨着越來越多的企業集成人工智能功能,以獲得競爭優勢並改變業務的實時節奏,歷史上的數據管理方法將被淘汰,需要一種新的數據模型來取而代之。–General Catalyst
一種新型的數據倉庫將會出現:Snowflake、BigQuery和Redshift將企業數據帶到雲端。到2024年,我們將看到新一代數據庫從這些單一數據倉庫中竊取工作負載。這些實時數據倉庫將通過提供更快、更有效的實時數據驅動應用來實現這一目標,這些應用爲產品的可觀察性和分析提供支持。–Tanya Bragin,ClickHouse副總裁
SQL將繼續存在:每隔幾年,結構化查詢語言或SQL就會被認爲過時,到2024年,使用LLM人工智能工具生成數據庫查詢的提案將受到廣泛關注。但SQL,是20世紀70年代至今唯一一種仍被廣泛使用的編程語言,原因之一是其查詢數據的強大功能。可能有些人不喜歡這種語法,甚至覺得其規則有些隨意。但幾十年來,SQL已經一次又一次證明自己是操作數據的首要工具——它不會很快過時的。–Dave Stokes,Percona技術員

現在比以往任何時候都更需要靈活的全球架構


對全球數據庫的需求,將來自於日益增長的數據駐留合規性要求,以及向全球分布的用戶群提供低延遲數據的需求。隨着越來越多的國家制定數據駐留法規,全球企業將需要評估其數據庫,以確保其可以部署在靈活的全球架構中。
《通用數據保護條例》(GDPR)(2018年5月25日頒布)是世界上最嚴格的數據保護政策。其對企業保護歐盟公民的個人數據和隱私提出了嚴格要求。如果企業不遵守GDPR,最高可處以1000萬歐元的罰款,或最高可達上一財年全球營業額的2%。這些嚴厲的處罰,以及媒體報道帶來的聲譽損失,使得企業滿足並遵守全球法規變得越來越重要,無論身在何處。擁有靈活的全球架構,有助於企業避免違反這些法規。對全球數據庫的需求,可能是日益嚴格的合規性要求的結果,但擁有靈活的全球架構也可以改善組織的隱私衛生。擁有靈活的全球架構,使企業能夠適應不斷變化的市場和客戶需求,並以低延遲向全球分布的用戶數據庫提供數據。–Suda Srinivasan,Yugabyte战略與運營副總裁
數據湖的興起和數據湖供應商的衰落:雖然一些企業可能會選擇收集更少的數據,但日益嚴格的監管要求意味着大多數團隊別無選擇,只能用更少的數據做更多的事情。隨着企業努力尋找更經濟高效的方法來存儲價值不可預測的數據時,會越來越多地重新考慮數據湖。曾經被認爲是非結構化數據的最終歸宿,預計到2024年,將加速向數據湖的遷移,這是由於存儲成本的增加,以及跨數據湖和對象存儲的查詢能力的進步,以及數據可以相對容易地路由到數據湖中。由於能夠快速且經濟高效地搜索大型數據存儲,企業將开始使用數據湖作爲數據的第一站,而不是最終目的地。這將導致數據量從分析平台和熱存儲轉移到數據湖中。與這種增長形成對比的是,我們預計,隨着市場從理論和部署到現實和利用的成熟,那些並非同類最佳的數據湖供應商明年可能會看到增長放緩和整合。對於經歷過大幅增長導對於那些經歷了超高速增長的行業來說,這種痛苦將會更加嚴重,而數據湖供應商肯定在這個名單上。–Nick Heudecker,Cribl高級總監
英語將取代SQL成爲業務分析師的通用語言:在成功解決其准確性、性能和安全問題之後,我們可以預見語言到SQL技術將得到主流主流採用。此外,在使用這些LLM時,用於語言到SQLl的LLM將移動到數據庫中以保護敏感數據,從而解決了圍繞數據隱私和安全的主要問題之一。語言到SQL技術的成熟,將爲更廣泛的受衆打开大門,使數據和數據庫管理工具的訪問民主化,並進一步將自然語言處理集成到日常數據相關任務中。-Nima Negahban,Kinetica首席執行官兼聯合創始人
开放格式准備對數據倉庫模型進行最後的打擊。雖然許多人預計數據湖屋模型會取代倉庫,但真正的顛覆者是开放格式和數據堆棧。它們使企業擺脫了供應商鎖定,這是一種影響到倉庫和倉庫架構的約束。–Justin Borgman,Starburst聯合創始人兼首席執行官
數據優先的架構方式和數據管理策略:我們即將看到人們保存的數據再次爆炸式增長。到2025年,全球數據創建量預計將增長到超過180 ZB。數據對組織而言,變得越來越有價值,即使不知道如何使用或長期需要它。數據爆炸,將繼續推動對高可用性和可擴展解決方案的需求。爲了利用這一爆發,組織需要跨部門實現數據民主化,以採用數據優先的方法,以便所有事情都能真正受益於組織的各個方面。–Jeff Heller,Faction,Inc.技術和運營副總裁
2024年是事務性分布式數據庫進入主流應用的一年。直到最近,人們還認爲分布式數據庫只對小衆用例有用。然而,隨着人工智能和雲應用的增長,以及企業在多個時區和地點擴展業務,越來越多的應用將需要可擴展性、彈性、高可用性和數據地理分布。經過行業領先企業驗證的雲原生分布式數據庫,將成爲許多此類組織的明顯選擇。對數據駐留立法徵稅和合規的需要將進一步推動採用。我們預計,在未來的一年裏,像AWS、Google Cloud和Microsoft Azure這樣的主要參與者將宣布更多的分布式關系數據庫功能,以利用這一趨勢。–Karthik Ranganathan,Yugabyte創始人兼首席技術官

數據工程

人工智能技術不會取代开發人員:人工智能正在走向軟件开發的最前沿,IT領導者利用人工智能來加快上市時間,並緩解开發人員短缺的問題。雖然基於生成式人工智能的工具可以加速許多常見的开發人員任務,但復雜的任務目前仍屬於开發人員的領域。人工智能技術將用於增強开發人員而不是取代,因爲某些任務仍然需要熟練的开發人員專業知識。–Jason Beres,Infragistics高級副總裁
人工智能生成的代碼將產生對數字免疫系統的需求:到2024年,更多組織將經歷重大的數字服務中斷,其因是軟件代碼質量差和監管不足。开發人員將越來越多地使用生成式人工智能驅動的自主代理編寫代碼,從而使組織面臨影響客戶和用戶體驗的意外問題的風險增加。這是因爲維護自主代理生成的代碼的挑战,類似於維護由離开組織的开發人員創建的代碼。其余的團隊成員都沒有完全了解代碼。因此,當代碼中出現問題時,沒有人能夠快速解決。此外,那些嘗試使用生成式人工智能來審查和解決自主代理創建的代碼中的問題的人,會發現自己遇到了一個遞歸問題,因爲他們仍然缺乏有效管理其所需的基礎知識和理解。這些挑战將推動組織开發數字免疫系統,結合軟件設計、开發、運營和分析的實踐和技術,通過默認確保代碼彈性來從內部保護其軟件。爲了實現這一點,組織將利用預測人工智能在代碼或應用出現問題之前自動預測問題,並觸發即時、自動響應以保障用戶體驗。例如,开發團隊可以設計具有自我修復功能的應用。如果新版本引入了錯誤,這些功能可以自動回滾到代碼庫的最新穩定版本,或者自動配置額外的雲資源,以支持計算能力需求的增長。–Bernd Greifeneder,Dynatrace首席技術官兼創始人

數據治理和監管

40%的企業將主動投資人工智能治理以實現合規性。隨着歐盟即將通過新的歐盟人工智能法案、美國敦促監管機構生產人工智能和生成人工智能抵押品,以及中國最近的人工智能監管,一些企業將進一步推動人工智能合規性。如果不這樣做,就意味着錯過合規期限,並且必須改造人工智能治理,從而增加復雜性、成本和時間。爲了滿足當前和未來的合規要求,企業將投資獲取新技術、填補人才缺口並獲得所需的第三方支持。–Forrester
數據治理將演變成數據智能:數據丟失預防和保護策略在數據治理的早期佔據主導地位。盡管這些工具對於滿足政府要求仍然有用,但可能會阻礙數據的有效利用。當數據被緊緊鎖定時,管理員無法了解數據是如何使用、移動或訪問的,因此無法有效改進其數據存儲和實施實踐。但這種情況很快會改變。數據治理對於維持合規性仍然至關重要。然而,進化的數據智能能力現已出現,使從業者不僅能夠控制數據,而且能夠了解數據——這些能力在現代商業世界中是必須的。挖掘元數據以了解其生命周期,將使團隊能夠更有效地支持其業務需求。這些开明的治理策略,將幫助組織實現數據合規性的共同目標,同時揭示更精准的數據洞察。–Brett Hansen,Semarchy首席執行官
人工智能將被拖入混亂的監管迷宮。世界各地的人工智能監管法規將如雨點般落下,形成一個復雜的監管迷宮,這對於企業而言將具有挑战性。具體點,在美國,人工智能監管可能而且很可能會因州、甚至因城市而異,類似於目前稅法因司法管轄區而異。到2024年,當組織致力於解決人工智能監管框架的拼湊問題時,必須問自己:“這裏是否應該啓用人工智能?如果是,如何啓用?”—David Lloyd,Ceridian首席數據官
美國不太可能在2024年頒布與人工智能相關的法律:如果歷史有任何跡象的話,立法者需要很長時間才能掌握有關人工智能的實用知識、了解其選擇並達成足夠的共識制定法律。預測任何復雜政治進程的結果都是困難的,尤其是在總統選舉即將到來的情況下。然而,考慮到生成式人工智能在2023年佔據了公衆的想象力,人們有一種緊迫感,這可能是拜登總統發布“安全、可靠、值得信賴的人工智能”行政命令(EO)的動力。代替聯邦法律指導法學碩士和人工智能的使用和發展,《行政命令》將通過利用行政部門的權力和資源,如國土安全、國防、能源、商業等,幫助進一步加強人工智能的安全和保障。政府通過其廣泛的購买力對市場的影響,也將被利用來推動安全和安保控制的开發和採用。—Maurice Uenuma,Blancco美洲副總裁兼總經理
可信數據將成爲世界上最重要的資產:可信數據在人工智能系統中的關鍵作用正在成爲未來技術的基石。確保人工智能系統生成的信息和數據值得信賴同樣重要。在一個越來越接近通用人工智能(AGI)的世界中,知道該信任什么、該信任誰,對於我們學到的一切和自認爲知道的一切都至關重要。Forrester強調了這一轉變,預測特定領域、注入大型語言模型(LLM)的數字助手將很快協助十分之一的運營任務。當根據特定的業務需求進行定制時,這些LLM有望帶來豐厚的投資回報。這一趨勢導致組織更加關注查找、理解和管理高質量、可靠的數據,這對於訓練針對特定業務需求的人工智能模型至關重要。其結果是,人工智能治理將迅速變得重要。其涉及到的不僅僅是管理數據,還是關於了解信息和模型的整個生命周期。在生成人工智能時代和幻覺帶來的挑战中,將數據比作新石油似乎還不夠。在當今的商業環境中,僅僅收集和分析大型數據集已不再足夠。到2024年及以後,可信數據以及與建立數據信任相關的所有工具,將成爲組織的第一大商品。–Satyen Sangani,Alation首席執行官兼聯合創始人
由於監管障礙,生成式人工智能的採用將放緩,重點將轉向企業數據可用性:在2023年成爲衆人矚目的焦點之後,生成式人工智能將在新的一年面臨監管阻力,導致企業在進入2024年時更加謹慎。日益嚴重的安全問題,正促使組織停止大規模採用。盡管試點舉措衆多,但許多舉措可能達不到預期效果,從而削弱了企業的積極性。隨着人工智能評估的加劇,供應商將面臨更嚴格的審查。然而,這種審查可以爲更加以數據爲中心、用戶友好的應用環境鋪平道路。–Nick Heinzmann,Zip研究主管


數據集成、數據質量

大大小小的企業將優先考慮幹淨的數據集:隨着企業認識到人工智能驅動的數據分析的力量,都會想跟上這一潮流。但如果沒有統一的、幹淨的數據集,也無法走得太遠,因爲人工智能算法的有效性在很大程度上取決於數據的質量和清潔度。幹淨的數據集將成爲成功實施人工智能的基礎,使企業能夠獲得有價值的見解,並保持競爭力。–Arina Curtis,DataGPT首席執行官兼聯合創始人


數據網格、數據結構

隨着企業希望跨分布式環境共享數據,數據結構和數據網格將繼續成爲熱門話題。實施一個數據網格架構,讓每個業務部門設計自己的數據解決方案,然後只將其連接到所需要的更大規模的組件。–Manish Patel,CData首席運營官


數據可觀測性

數據可觀測性:數據可觀測性已成爲一種關鍵趨勢,可以主動確保數據質量,並解決整個數據管道中的異常情況。數據可觀測性的5個關鍵支柱是譜系、質量、新鮮度、數量和模式漂移。在雲設置中主動監控這些支柱可以顯著節省成本,有可能將成本降低30-40%。其意義在於,高質量的數據對於做出明智的決策至關重要。確保整個環境的適當可觀測性,使用戶能夠訪問值得信賴和精心策劃的數據資產,以獲得有價值的見解。–Arnab Sen,Tredence Inc.數據工程副總裁
可觀測性被認爲是一個數據問題:盡管每年在可觀測性和監控工具上投入數億美元,但企業對平均時間-分辨率(MTTR)的影響可以忽略不計——事實上,它們正在增加。爲什么?現代分布式應用非常復雜,其每天都要更改多次,這導致DevOps團隊每天都在生產中看到“未知”的問題。在排除“未知”問題時,DevOps團隊必須對數據點進行三角測量,以確定問題可能發生的位置。這就是問題开始的地方,一些數據點位於日志工具、監視工具或APM工具中。最佳做法通常是將每個工具顯示的內容截圖,並發布在Slack頻道中,以便最終決策者能夠進行關聯。這是不可持續的。爲了讓可觀測性實現其承諾,可觀測性數據必須在一個地方,而不是在幾個孤島中。如果數據在一個地方,就更容易導航,找到正在調查的事件的相關背景,並且DevOps團隊可以在一個一致的界面中合作。—Jeremy Burton,Observe首席執行官

未完,待續…

若想查看上一篇有關大數據行業預測,請點擊:2024年大數據行業預測(一)



標題:2024年大數據行業預測(二)

地址:https://www.utechfun.com/post/315061.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡