導讀 最佳溫度範圍是影響數據中心高效運行的關鍵因素。然而,隨着許多國家進入極端高溫時期,出現嚴重且日益嚴重的停電風險。熱浪可能導致數據中心組件過熱和故障,導致運營商關閉服務器以防止損壞,從而導致停機和潛在...
最佳溫度範圍是影響數據中心高效運行的關鍵因素。然而,隨着許多國家進入極端高溫時期,出現嚴重且日益嚴重的停電風險。
熱浪可能導致數據中心組件過熱和故障,導致運營商關閉服務器以防止損壞,從而導致停機和潛在的中斷。
例如,2022年7月,倫敦創紀錄的高溫達到104華氏度(40攝氏度),導致冷卻系統故障,導致谷歌和甲骨文數據中心下线。兩個月後,酷熱天氣導致推特位於薩克拉門托地區的數據中心癱瘓。
敏感電子設備和硬件(例如服務器、存儲設備和網絡設備)中的各個組件都有特定的工作溫度才能實現最佳運行。數據中心的建議溫度範圍可能低至65華氏度或高至95華氏度,在防止過熱和設備潛在損壞方面起着關鍵作用。該範圍由特定硬件目標的工作溫度範圍和該硬件可以運行的條件決定。
隨着熱浪越來越頻繁,這將是一個反復出現且日益嚴重的問題,熱浪加上停電,數據中心就離线了。溫度波動始終是數據中心運營需要考慮的問題,而天氣的預期範圍並不是主要問題。
極端溫度,尤其是高溫,會給電網帶來巨大壓力,並可能增加當地生活用水的使用量,而這些用水量取決於冷卻系統。當熱浪來襲時,電力和水的使用量將根據系統和冷卻技術類型而增加,從而給當地市場帶來額外的壓力。
確保熱浪期間的連續性
如今全球都出現了極端高溫,許多人都致力於確保數據中心能夠繼續運行。確保熱浪期間連續性的關鍵利益相關者是現場設施經理,以及更廣泛的設施團隊,包括電工、機械工程師以及暖通空調專業人員。
此外,數據中心冷卻擁有龐大的控制系統網絡,需要穩定的電流來操作系統的各個組件,以確保調節後的空氣以最佳方式流入數據中心空間。
數據中心運營商和支持這些設施的機械團隊已經爲一系列自然災害和資源限制做好了計劃。數據中心運營商隨後與客戶密切合作,以滿足已發布或商定的服務水平協議(SLA)。
如果資源或自然災害需要關閉或限制某些服務,可能還會與客戶制定應急計劃。過去幾年最大的關注點是效率,盡可能有效地利用電力、冷卻和水資源,並減少整個設施的浪費。這是通過提高數據中心溫度、改進監控解決方案和智能樓宇管理系統以及改進配電和調節來實現的。
數據中心運營商越來越多地採用液體冷卻技術,以進一步提高其設施的效率,同時在許多情況下在設施或IT設備層面轉向閉環、“無水”冷卻設計。所有這些都有助於數據中心更加高效地在日益嚴峻的條件下運行。
節能基礎設施和更有效的冷卻設計(例如液體冷卻)是目前正在考慮的兩種技術。高效數據中心電源管理的另一種有效但較少被探索的策略是減少主動管理的數據量。”
由於數據消耗了數據中心30%或更多的資源,並且80%的數據都是冷數據,因此高效的數據管理可以幫助減少數據中心三分之一的負擔,甚至不需要對基礎設施進行任何改造。
隨着熱浪頻率的上升,再加上更高密度的人工智能處理器的熱量輸出更大,問題在兩個方面變得更加復雜。
● 人工智能增加了數據中心的熱量和電力消耗,使冷卻挑战更加復雜。
● 人工智能使挑战復雜化,並提供解決方案。
人工智能的持續崛起將加劇這些挑战,但許多挑战也有助於解決保持數據中心在可接受的工作溫度下運行的問題。
人工智能耗電量巨大,更多的人工智能處理會增加數據中心的熱量輸出和功耗,從而加劇這一問題。
一方面,在更密集的硬件配置下,模型訓練和推理的AI工作負載需要大量的計算能力和能源。爲AI模型和應用提供動力的服務器會產生大量熱量,必須進行散熱和冷卻。
訓練這些模型時會發生復雜的計算,需要更多資源密集型的硬件,從而提高模型的最佳運行整體功率。資源利用率和發電量的增加意味着數據中心內會產生更多的熱量,從而給冷卻系統帶來壓力。此外,人工智能算法和模型的動態特性可能會導致電力需求和熱量產生的激增,而傳統的冷卻系統可能難以跟上。
考慮到過去一年來爲了滿足對LLM的巨大需求而對集中式數據中心建設的巨額投資,我預計電網的壓力將會增加。
雖然人工智能工作負載的增加,爲保持數據中心的最佳運行溫度帶來了更多挑战,但它也可以成爲解決問題的良方。
這可以包括優化熱性能管理的人工智能,包括液體冷卻或氣流的需求流和冷卻系統的預測性維護。
隨着熱浪的增加,人工智能還可以用於爲實時天氣和長期環境模式的系統提供動力,從而根據外部因素自動調整能源消耗和冷卻系統。
標題:熱浪和人工智能挑战會給數據中心帶來壓力嗎?
地址:https://www.utechfun.com/post/401719.html