導讀 如果想增加數據中心的正常運行時間,需要識別並緩解最常見的中斷源。這可能很有挑战性,因爲數據中心可能出現故障的原因有很多,而且通常不可能解決每一個問題。相反,數據中心運營商必須決定優先考慮哪些正常運行...
如果想增加數據中心的正常運行時間,需要識別並緩解最常見的中斷源。這可能很有挑战性,因爲數據中心可能出現故障的原因有很多,而且通常不可能解決每一個問題。相反,數據中心運營商必須決定優先考慮哪些正常運行時間威脅。
數據中心正常運行的最大威脅
您可能會認爲數據中心停機的最常見原因是網絡攻擊或極端天氣等風險,這些風險一旦發生往往會引起媒體的廣泛關注。
但實際上,從數據中心正常運行時間的角度來看,這些風險可以忽略不計。大多數數據中心故障的核心問題分爲以下幾類:
1.物理系統故障
數據中心故障最常見的原因是電源問題,根據報告顯示,電源問題佔所有數據中心故障的52%。另外19%的停電事件源於數據中心冷卻問題,該研究所將其與電力系統問題分开分類。
這意味着,到目前爲止,數據中心正常運行的最大風險是物理系統故障。想要提高正常運行時間的數據中心運營商應該投資於冗余能源供應或HVAC系統等解決方案。
2.第三方提供商的挑战
對數據中心正常運行時間的第二大威脅是第三方供應商問題。這意味着由服務提供商(企業通過外包協議或類似安排與其籤約管理數據中心)造成的故障。
很難說將數據中心運營轉移到企業內部是否會緩解這個問題。似乎可以推斷,專注於日常數據中心運營的數據中心外包企業,可能比數據中心管理不是重點的企業實現更好的正常運行時間率。但在這方面的裏程可能會有所不同,這取決於內部員工在管理數據中心方面的熟練程度。
無論如何,如果您選擇第三方提供商來管理數據中心運營,應該詢問其正常運行時間記錄,以確保提供商不會成爲數據中心可用性策略中最薄弱的環節。
3.IT設備故障
IT系統硬件和軟件故障是數據中心停機的第三大常見原因。這並不奇怪,因爲自數字時代來臨以來,企業一直在努力應對服務器崩潰的問題。
雖然沒有靈丹妙藥可以減輕這種風險,但有一些行之有效的策略。比如投資更好的監控和可觀察性解決方案,並創建帶有自動故障轉移控制的備份IT環境,以便如果服務器崩潰,其工作負載可以立即轉移到另一台服務器。
4.網絡故障
網絡故障與IT設備故障類似:它們導致數據中心停機的概率幾乎完全相同,而且是企業長期以來一直在應對的一種挑战。
與增加IT設備正常運行時間一樣,提高數據中心網絡可靠性的策略,包括更好的網絡監控和在網絡內建立冗余,以便當部分網絡出現故障時,數據包可以選擇替代路由。
更多地使用軟件定義網絡也可以提高網絡可靠性,因爲使用軟件控制而不是物理網絡設備可以更容易地識別和減輕故障。
其他數據中心正常運行時間挑战
火災和信息安全事件也在數據中心停機原因排名中佔據重要位置,但只是勉強上榜。它們分別佔所有中斷的3%和1%。
當然,這並不是說不應該投資防火措施和網絡安全保護。但如果想決定優先考慮哪些類型的數據中心正常運行風險,數據表明這些不應該是列表上的唯一操作。
標題:數據中心故障原因有哪些?
地址:https://www.utechfun.com/post/410467.html