導讀 人工智能的需求如何影響數據中心?| 專家視點 人工智能應用的增長徹底改變了數據中心行業,但也面臨着挑战。最令人擔憂的問題之一是,人工智能所需的功耗增加和高功率密度環境,這極大地影響了數據設施的物理基...
人工智能的需求如何影響數據中心?| 專家視點
人工智能應用的增長徹底改變了數據中心行業,但也面臨着挑战。最令人擔憂的問題之一是,人工智能所需的功耗增加和高功率密度環境,這極大地影響了數據設施的物理基礎設施需求。
在20世紀70年代末,數據中心功率密度一般在2kW至4kW之間,但現在,爲了適應AI或高性能計算(HPC)工作負載,超過40kW的情況並不罕見。去年11月,Silicon Valley Power透露,其預測2035年數據中心的年度負載“幾乎是當前系統負載的兩倍”。
JLL Real Estate數據中心高級總監Colm Shorten表示:“確實,數據中心基礎設施在過去20年裏沒有發生太大變化,因此有些設計模型會被重復使用,無論是基於正常運行時間或基於朝九晚五的可用性。“
“最根本的事情始終是確保數據中心運行、供電、網絡、冷卻和安全。這些通常會以中高個位數運行,大約8到12kW,19kW被認爲是高功率。”
“人工智能在顛覆性意義上所做的是,其對這些功率需求提出了挑战,因此機架密度和機架功率需求都增加了。如果產生大量電力,就會產生大量熱量。如果產生大量熱量,就必須散發並消除熱量。”
羅格朗數據中心解決方案愛爾蘭和中東歐區域總監David Bradley補充道:“現在我們需要轉變思維,考慮如何冷卻這些機架,以及如何根據人工智能的需求提供電源架。”
人工智能給數據中心行業帶來的挑战
隨着計算能力和芯片設計的進步,設備機架的功率密度每六到七年就會翻一番。根據Uptime Institute數據,超過三分之一的數據中心運營商表示,其密度在過去三年中“迅速增加”。人工智能服務器集群的密集化,需要從空氣冷卻轉向液體冷卻,這帶來了一些挑战,如場地限制、過時風險、安裝復雜性以及可持續流體選擇有限。專門的冷卻方法,如後門熱交換器,也成爲必要的,以解決維持冗余和效率。
人工智能工作負載的多方面性質增加了另一層復雜性。培訓要求減少冗余,但強調成本效益。Bradley表示:“訓練人工智能不依賴於延遲,所以這可能意味着實際上可以可以在FLAPD中心區域之外部署新的數據中心。"
Shorten補充道:”過去,我們通常會在雲區域或人口密集的地鐵裏找一個站點,在那裏建一個數據中心,並爲其提供電源。現在可把數據中心帶到電源上。與傳統的雲模型相比,人工智能培訓網站對延遲的敏感度較低。這意味着我們可以獲得傳統上無法獲得的電力。"
人工智能需求激增也加劇了網絡需求,給數據中心帶來了額外的壓力,以確保強大的連接和低延遲。與此同時,對電力冗余和彈性的要求也越來越高。這需要高可靠性機制和電源之間的無縫切換,以避免整個數據中心的停機風險。由非线性元件引起的功率浪湧和諧波畸變等操作風險對效率和安全構成了持續的威脅,往往會導致過熱問題。
根據Shorten先生的說法,數據中心對人工智能工作負載的需求不斷變化,這意味着運營商需要考慮面向未來的設施。其表示:“我們必須开發一種所謂的混合解決方案,因爲如果我們建立一個純粹的傳統模式,那么它就有可能在兩到四年內被淘汰。”
"當你認爲建立和發展數據中心的成本在每兆瓦700萬到1000萬美元之間時,如果建立一個100兆瓦的大型數據中心,就得投入數十億美元。然後需要資產持續15到30年。不可否認,這中間會有技術更新,但如果必須在六七年之後改變冷卻技術或電源分配,尤其是一些人工智能組件幾乎商品化時,那么將面臨挑战。“
"其中一些機器和應用在物理上很重,所以如果在20年前建造了一個數據中心,第一層就要12千萬,而且還得上兩層樓。如果在後門增加熱交換器和其他基礎設施,這可能會上升到15到20、30千萬。那么,要在兩三年內重新設計和改造它是非常困難的。”
Bradley補充道:“可以在架子上增加200到300公斤的重量。現在,第一層是無法承受這些。然後會有一個連鎖反應:必須要做一件事來改造它,然後影響其他的東西。”
"因此,必須研究人工智能的需求--從根本上講,是人工智能的功率和冷卻需求,然後就從那开始設計。"
然而,並不是所有人工智能需求激增的挑战都與物理基礎設施有關。監管機構很難預測這項技術的發展軌跡,導致了各種各樣的監管方法,比如歐盟的《人工智能法案》和NIS2指令。這使得數據中心運營商很難滿足合規性要求並相應地調整其基礎設施。
同樣,數據中心要實現其可持續性目標也變得更加困難。根據Uptime Institute的《2022年數據中心行業調查》,63%的數據中心運營商希望在未來五年內強制性的可持續發展報告。《企業可持續性報告指令》(CSRD)將從2024年1月1日起开始對一些歐盟企業產生影響,並將需要報告新的指標,如水和碳使用效率。這對延長基礎設施、回收冷卻劑、與可持續供應商合作以及使用可再生能源,造成了更大的壓力。
隨着數據量的增加,安全風險也隨之增加,人工智能引入了自動攻擊和漏洞識別等新威脅。但這些並不總是惡意的,因爲根據Uptime Institute最近的一項研究,自2020年以來,近40%的組織因人爲錯誤而遭受了重大中斷。其中,近85%是由於員工沒有遵循程序或所遵循的流程存在缺陷造成的。數據中心必須實施先進的加密、生物識別認證和網絡安全解決方案,以應對未經授權的訪問並監控異常情況。
Shorten表示:“從安全角度看,人工智能是一把雙刃劍。積極的一面是,如果應用其來觀察模式的變化是非常好的。所以,如果發生網絡攻擊或者有人闖入環境,從網絡的角度來看,人工智能可以發現異常現象。另一方面,人工智能非常非常強大,可以被惡意者用在不好的地方。”
"網絡犯罪分子和建立安全和保護體系的人不斷地相互競爭,以發展其保護或滲透能力。"
應對挑战的辦法
隨着挑战的增加,現有的解決辦法也在增加。Bradley表示,需要從電力和冷卻的角度來解決人工智能帶來的需求,羅格朗就有這些解決方案。
USystems的後門冷卻器等創新設計優化了熱管理,同時解決了與空間限制和可持續冷卻選擇相關的挑战。它們通過從源頭去除主動設備產生的熱量來確保最佳的熱和能源性能,防止熱排氣進入數據室。冷卻器允許每個機櫃的負載去除高達92千瓦,並獲得了英國最負盛名的商業獎——創新獎。
強大的系統冷卻機架運行人工智能應用。Minkels的的擴展機櫃配有氣流管理配件,旨在密封間隙,管理電纜進入,並爲有效的氣流控制創造一個密閉的環境。液體冷卻解決方案,如直接到芯片或浸入式冷卻,也越來越多地用於管理高密度環境,比傳統的空氣冷卻方法更有效地散熱。
智能機架配電單元(PDU),如Raritan PX4和Server Technology PRO4X機架PDU,設計用於處理人工智能帶來的高功耗和密度。這些一流的PDU提供業界公認的高密度出口技術和突破性的智能功能,可滿足復雜的人工智能需求。模塊化解決方案和可定制的機櫃提供了適應未來增長所需的靈活性和可擴展性。
帶有監測點的軌道總线解決方案,可以識別潛在的能源效率和可靠性改進,有助於使配電更能響應動態需求。採用超大中性導體和功率表設計的總线,還可以降低電力浪湧和諧波失真的運行風險,如Starline臨界功率監測器。Starline的軌道總线也有助於將電氣安裝時間縮短90%,這要歸功於其首創的接入槽,可以在不中斷服務的情況下靈活改變布局。Infinium acclAIM等高密度光纖解決方案可以滿足AI推理的任何低延遲要求以及其他網絡需求,確保城域網集线器和數據中心之間的快速響應時間和高效數據傳輸。
智能機櫃鎖定系統,如Nexpand的Smart Lock,符合PCI DSS、SOX、HIPAA、GDPR和EN50600的法規要求。機櫃可以遠程打开,也可以讓用戶監控誰打开了機櫃,並與視頻監控解決方案協同工作。這樣的物理安全性是有幫助的,但運營商應該考慮配備最新網絡安全協議的智能PDU,並爲用戶身份驗證、密碼管理和一流的數據加密方法提供多種選擇。
採用節能硬件和可再生能源,對於降低數據中心的運行成本和碳足跡至關重要。環境監測裝置,如智能傳感器,其可以追蹤整個設施的溫度、溼度和氣流,實現精確的冷卻管理,最大限度地減少能源浪費。監測數據有助於預測潛在的設備故障,減少意外停機的可能性,並告知有關基礎設施升級、布局改變或設備更換的決策,從而減少能源使用。
Shorten表示:“在動力方面,由於Starline總线以及後門熱交換器,羅格朗擁有非常創新的解決方案,正在幫助我們實現這一目標。”
憑借可定制的模塊化設計,羅格朗提供可擴展的解決方案,以滿足不斷變化的需求。其方法確保了面向未來的數據中心的可靠性、安全性和能源效率。羅格朗的專家團隊協助解決復雜的問題,優化從設計到管理的每個階段。
標題:人工智能的需求如何影響數據中心?| 專家視點
地址:https://www.utechfun.com/post/325034.html