先進存力,已是數智化轉型的核心基建。
文|遊勇
編|周路平
在人工智能蓬勃發展和數智化轉型的當下,存儲的價值愈發凸顯。
隨着數據量的急劇膨脹,以及大模型訓推和業務實時分析的需要,傳統的數據中心越來越力不從心,存儲系統亟需向更高吞吐量,更低時延,更高效數據管理的先進數據基礎設施演變。
IDC則在《構建面向智能化時代的先進存力中心》白皮書中提到,要“適度超前建設先進存力中心”。
01
AI時代下,存儲也是一等公民
39.5ZB,這是IDC預測的中國在2024年的數據總生成量。四年後,這個數字將達到97.1ZB。
或許你對存儲容量單位沒有概念,如果拿當下內存容量最大的手機來對比,1ZB就需要10億台1TB內存容量的手機才能放得下。
數據正處於大爆炸階段。從互聯網到移動互聯網到物聯網、人工智能,每天產生的數據量越來越大,而且種類越來越豐富,不僅有結構化數據,還有大量非結構化和半結構化數據。
海量的數據對存儲系統提出了更高的容量要求。數智前线在統計政企招投標採購時發現,今年前8個月已經出現了數百個與存儲相關的項目,主要涉及金融、制造、能源、運營商、交通等行業。在大模型熱的背景下,存儲市場也分外活躍。
另外,大量數據只管存,很少被真正用起來,價值挖掘不夠。但現在無論是AI的需求,還是業務場景的需要,使得高頻率、高速率、大帶寬的實時讀寫需求猛增,存儲系統也需要具備大帶寬、低時延、高並發的存儲性能,以支持實時數據的高速讀寫和分析處理。
“AI的興起是對數據價值的再發現。”曙光存儲副總裁郭照斌說,以前存儲是被動響應上層需求,但在數智化時代下,數據的價值被提到了新的高度,“以前大家覺得死的數據,現在經過反復的迭代訓練,它能產生智能化的東西,它能產生新的數據,這個時候大家才重視起來。”
過去,業內存在“重算力輕存力”的現象,建設了大量以GPU爲主的智能算力基礎設施,而忽視了對先進存力的建設。去年初,英偉達發布過一個AI數據中心購置預算的構成,其中存儲僅佔20%。
但越來越多人發現,存儲的性能深刻影響了算力性能的發揮。
尤其在大模型的訓練過程中,光解決算力和數據問題遠遠不夠,很多企業在採購了不少GPU後,發現往往很難滿負荷運轉,網絡和存儲經常遇到瓶頸,出現等待和浪費,拖累整個模型的訓練效率。
由於傳統業務對存儲的性能基本在百GB級,而大模型的訓練,對存儲的需求激增到TB級。無論是海量訓練數據加載、PB級斷點續訓,還是高並發推理問答,存儲性能直接決定了整個訓練推理過程中的GPU利用率。特別是在萬卡集群下,較差的存儲性能嚴重增加GPU闲置時間,造成資源的極大浪費。
有報告曾提到,在同等GPU算力規模下,存儲性能的高低可能造成模型訓練周期數倍的差異。
而且,相比於傳統AI的需求,大模型的場景具有數據量大、參數規模大、訓練周期長等特點。相對應的,它對存力提出了更高的要求,更加強調高吞吐、高IOPS、高帶寬、低延時等極致性能。
存儲系統正逐漸演進到更高吞吐量,更低時延,更高效的數據平台。而傳統的數據中心面臨升級,新形態之一就是建設存算協同的先進存力中心。
曙光存儲副總裁郭照斌說,數智化時代,存儲不再是單純的被動響應,它會隨着算力的發展協同往前發展。
中科院院士錢德沛更是直言:存儲也是一等公民。換句話說,在AI時代,沒有先進存力,算力也無法充分發揮,兩者已經是相輔相成的關系。
越來越多人意識到存儲的價值。今年,中國計算機學會(CCF)首次舉辦了存儲大會。而2024年10月,中國電子工業標准化技術協會也成立了數據存儲專業委員會,曙光是會長單位。業內甚至有一種說法,存儲是算法、算力、數據之外,AI基礎設施的第四支柱。
不過,郭照斌也提到,在存儲標准方面,依然還有很長的路要走。比如存儲的評價方法、測試方法目前還沒有特別明確的統一標准;而存儲的協議目前也比較老舊,在應用端造成很多的不便。
02
先進存力,打通中國存儲產業
構建先進存力中心,成爲智能時代解決數據難題的必然發展方向。
IDC在《構建面向智能化時代的先進存力中心》白皮書中提到,先進存力中心的技術突破和應用主要體現在應用EB級平滑擴展能力、多協議支持、先進軟件架構能力、多重防護機制、智能化管理平台、液冷等先進技術,共同鑄就其高效融合、提質增效、全域流動、安全可靠、綠色低碳等五大特徵。
這些特徵背後對應的都是當前存儲系統需要應對的難題和挑战。
比如,隨着數據來源和格式越來越復雜,不同存儲系統之間產生了數據孤島,影響數據的管理和有效利用。而且,許多傳統存儲系統在設計時未充分考慮擴展性,難以應對業務發展的需要。
而先進存力中心具備足夠的靈活性和可擴展性,一方面可以兼容不同架構技術棧,用戶可根據自身需求靈活選擇技術方案;另一方面,當面對高並發和大數據集的存儲需求時,能夠平滑擴容。
比如大容量、高速率、低延遲逐漸成爲智能化時代評估存儲系統性能的重要指標,但當前存儲設備的容量和讀寫性能成爲提質增效的重要瓶頸。而先進存力中心要求具備更高的性能,通過提升NVMe全閃存的比重,應用多級數據加速技術等,來實現海量的存儲空間、超高的吞吐量和IOPS能力。
算力流動本質是數據要素的流動。數據流動需要攻克跨域存儲集群組合管理、數據冷熱分級感知、數據跨域網智能流動及跨域無感知訪問等關鍵技術,支撐存力資源的優化布局。
而先進存力中心需要支持數據的全域流動,包括數據在集中式、分布式存儲之間的跨平台流動,支持雲端和本地化數據之間的流動,以及熱溫冷數據跨形態的流動等。
另外,綠色低功耗也在成爲先進存力中心的必選項。
IDC數據顯示,存儲耗能約佔數據中心總能耗的35%。IDC中國區副總裁周震剛提到,過往都是算力中心對能耗有比較高的要求,存儲和GPU消耗的算力不在一個級別,但隨着大模型訓練對於存儲I/O吞吐的訪問猛增,存儲的功耗也被提了起來,所以存儲對液冷等綠色技術有了更多的需求。
而作爲先進存力中心概念的倡導者和先行者,曙光存儲正在快速適應AI時代存儲市場的需要。
2024年6月,曙光存儲發布全球首個億級IOPS集中式全閃存儲FlashNexus,“帶來了劃時代的性能革新”,成爲業界唯一具備百控級擴展能力的集中式存儲產品,主要用於金融、運營商、醫療等行業的核心業務系統。
當下,發展全閃介質已經成爲行業共識。相比傳統的HDD,全閃存介質支持高IOPS、低時延,更適用於AI大模型訓練階段的隨機讀寫場景。
在發布了首個集中式全閃產品的同時,曙光也升級了分布式存儲產品——ParaStor全閃存儲,主要面向AI應用,依托NVMe全閃的技術優化,單節點帶寬最高達到150GB/s、320萬IOPS。
ParaStor全閃存儲採用業界首創五級加速方案。比如BurstBuffer加速層,只需將關鍵數據存儲在計算節點本地的NVMe盤上,避免大量的網絡數據傳輸和遠程存儲訪問,適合存儲和快速讀取海量小文件,能夠將讀取性能提升數倍甚至十倍以上。比如XDS雙棧兼容,讓GPU直接訪問存儲,不僅減少了CPU本身的損耗,也縮短了整個I/O通路,降低了延時。
基於分布式帶來的擴展能力,曙光ParaStor分布式全閃存儲已經在科教、金融、運營商、生信等領域,以及自動駕駛等AI前沿的應用場景中廣泛落地。比如智元機器人公司在過去一年時間,頻繁發布新品,而智元能實現產品的快速迭代,背後也是曙光ParaStor分布式全閃存儲在提供支撐。
如今,曙光存儲已經形成了FlashNexus集中式存儲和ParaStor分布式存儲兩大產品线。曙光將其分別稱爲強存和智存,從其字面意思不難理解,集中式存儲面向的是金融、運營商等領域的核心業務場景,對性能和可靠性要求高;而以分布式存儲爲代表的智存面向的是AI等敏態業務需要。
而在這兩大不同架構的產品线之間,曙光又推出了通存的方案,打通集中式存儲與分布式存儲壁壘,讓數據無界流動,實現跨平台一鍵式容災恢復、跨形態熱溫冷數據無感流動和跨域資源池全維度視圖,以充分提升存儲資源利用率,同時更好地支持東數西存、東數西渲、東數西訓等應用場景。
通過強存+智存+通存的產品和方案組合,曙光給AI時代提供的全新數據基礎設施正在得到越來越多用戶的認可。根據IDC年上半年最新數據顯示,曙光的市場增速達到了19.2%,遠高於市場平均水平。
03
先進客戶,走出了最佳實踐
位於重慶的西部科學城先進數據中心是東數西算的示範項目,也是成渝樞紐的主節點,通過高密度液冷機架和風冷機架相結合的方式,這裏的核心計算設備PUE能做到1.04,能耗遠低於行業平均水平。
作爲先進存力中心的代表之一,這裏具備百PB級的海量存儲容量,支持冷溫熱分級存儲跨區域無感調度,可以按需爲上層提供從文件、塊、大數據等多種協議的支持,靈活適配前端應用。
IDC認爲,政府建設區域先進存力中心,需要綜合考慮基礎設施供應、建設與運營成本、中心整體存力及算力性能配比、數據安全與隱私保護、生態开放、綠色低碳發展要求等。
爲了滿足不同客戶在先進存力上的需求,曙光已經探索出了三種部署模式。
除了上述爲政府建設區域先進存力中心,在行業領域,先進存力中心也有廣闊的發揮空間。比如高端計算在氣象、環境、海洋等領域已經非常普遍,這些行業對數據處理能力有着非常高的要求,構建行業/產業鏈先進存力中心變得至關重要。
中國氣象局與曙光合作,構建了橫跨三地的存力平台,建立了國省統一的數據環境,並以NVMe全閃存儲帶來超強的IOPS性能。根據億歐智庫發布的報告顯示,中科曙光以52%的市場份額,位居2023年度中國氣象高端計算服務市場應收份額頭名。
一位曙光的人士透露,針對行業的先進存力中心,曙光會針對行業數據匯聚需求,做跨域流通的准備。比如中國移動攜手曙光存儲打造了業內首個存力智能調度平台。其核心能力包括數據的分級及策略管理,可以按照冷、熱、溫數據進行分級管理;統一觀測,支持異構存儲統一管理,數據和存力分布一目了然;數據跨區域遷移,支持不同資源池間數據自由遷移,實現業務無感訪問。
企業也有自建先進存力中心的需求,海量數據成爲分析和大模型訓練的基礎,企業級先進存力中心不僅能夠提供高效、安全的數據存儲解決方案,還能夠支持快速的數據訪問和處理能力,這對於加速AI模型的訓練與推理過程尤爲重要。
比如某家人工智能企業,面臨着訓練數據龐大和推理過程對讀寫速度高的困擾,這家企業通過與曙光合作,構建先進存力中心,應用簡潔的系統架構、高效的數據流轉性能、百微秒級元數據極致訪問性能,爲業務提供堅實支撐。
除了人工智能廠商,自動駕駛企業也對先進存力中心有着旺盛需求,曙光存儲以超過100PB的存儲能力支撐某自動駕駛企業的模型迭代。
而這些先進客戶背後,都代表了所在行業和領域的動向和訴求。曙光存儲通過發揮技術創新和資源整合能力,打通存儲產業上下遊,持續推動三大創新部署模式落地,也取得了階段性成果。
背後離不开長期的產業實踐和技術積累。曙光在存儲領域的开拓已有二十年,早在2004年开始堅定選擇自研路线,致力於解決中國存儲產業的底層技術難題。2009年曙光自研的存儲系統ParaStor正式誕生。2022年11月,曙光ParaStor分布式統一存儲系統登頂IO5O0全球存儲性能評測的榜首。
2023年,曙光存儲作爲存儲領域的先行者和探索者,率先提出“先進存力”的概念,首批試點完成了一些先進存力中心的建設。經歷了多個產業化升級的曙光存儲,不僅幫助用戶實現了數據基礎設施的更新迭代,也在服務用戶的過程中走出了最佳實踐,實現了蝶變。
原文標題 : 存儲,也是“一等公民”
標題:存儲,也是“一等公民”
地址:https://www.utechfun.com/post/457140.html