導讀 從短信和流媒體服務到關鍵的政府、教育和醫療保健應用,數據中心爲我們日常生活提供了便利。隨着世界比以往任何時候都更加依賴數據中心,確保這些設施保持安全和正常運行至關重要。因此,數字基礎設施組織必須制定...
從短信和流媒體服務到關鍵的政府、教育和醫療保健應用,數據中心爲我們日常生活提供了便利。隨着世界比以往任何時候都更加依賴數據中心,確保這些設施保持安全和正常運行至關重要。因此,數字基礎設施組織必須制定強大的數據中心災難恢復計劃。
什么是數據中心災難恢復?
盡管在避免數據中心在建設階段停機,以及在運行後通過備份和輔助電源方面已經取得了進展,但數據中心仍然容易受到不可預見的情況的影響,包括自然災害、人爲錯誤和網絡攻擊。
盡管不可能預防每一場災難,但組織必須盡一切努力做好最壞的准備。確保數據中心做好應對意外情況的准備的最佳方法是制定一個強大的數據中心災難恢復計劃。
數據中心災難的類型
停電
停電通常是數據中心停機和系統故障的主要原因。這可能導致重大損失,無論是收入還是客戶信心。企業越來越多地轉向混合提供商和雲服務,以確保其數據由冗余系統備份,並限制受潛在停電影響的客戶數量。
人爲錯誤
人都會犯錯,因此這是不可避免的,但在數據中心運營商可能遇到的災難中,人爲錯誤的風險可以通過採取正確的預防措施大大降低。
過去三年,近40%的組織因人爲失誤而遭遇過重大中斷。在這些事件中,85%的原因是工作人員未能遵守程序,或流程和程序本身存在缺陷。
人爲錯誤的例子包括意外斷开電源、電路過載或不安全的結構設計。
網絡攻擊
雖然停電、結構損壞和人爲錯誤是造成許多數據中心災難的原因,但包括勒索軟件在內的網絡攻擊也是數據中心面臨的主要威脅,而且這些網絡攻擊的代價同樣高昂。根據報告顯示,2022年全球三分之二的組織遭受了網絡攻擊,業務因攻擊而平均中斷五天。
爲什么數據中心需要災難恢復計劃
面對衆多運營風險,災難恢復計劃可以說是應對數據中心緊急情況的最重要的一步。
一個真實事件很好地說明了這一點:2021年10月15日,韓國兩大科技公司KakaoCorporation和NaverCorporation發生火災。雖然Naver能夠相對較快地啓動並運行其服務器,但Kakao的服務器卻癱瘓了數小時,導致用戶突然無法使用他們的消息平台、支付應用或拼車服務,從而遭受廣泛而嚴重的中斷。
重要的是,盡管Kakao確實制定了災難管理協議,但該協議並未考慮到火災發生時的斷電情況,從而延緩了服務恢復工作。從這一事件中吸取教訓後,Kakao成立了一個預防再發委員會,以防止類似事件再次發生。
數據顯示,企業越來越認識到災難規劃的重要性,近90%的組織都有某種形式的災難恢復計劃。然而,與此同時,大多數受訪者(70%)只將很少的預算(0%-10%)分配給災難恢復規劃。一個問題是,災難恢復規劃主要是IT工作者的責任,很少直接向高管匯報。
災難恢復計劃對高管層的可見性有限,只有41%的災難恢復計劃負責人向高管層匯報。不過,在今年的調查中,我們看到同樣多的受訪者表示,災難恢復負責人的下屬比高管層低兩個級別,這一比例比我們上次調查中的26%大幅增加。在組織中提升這一職位可以加強與整體業務需求的一致性,並增加獲取資源的機會,以確保關鍵業務的技術彈性。
面向未來的數據中心建設
雖然無法預防自然災害,但數據中心开發商正在設計更能抵御極端天氣、火災和地理要求的設施。
每個數據中心的設計都必須考慮到其所在地的具體地理位置,研究最佳建築材料、施工技術和設施布局,以抵御自然災害力量,同時遵守IBC2003規範。
設計冗余電源和冷卻系統,以便在暴風雨中也能繼續運行。結構分析驗證了定制的建築材料、施工方法和布局,以抵御極端風力和隆起。所有支持設備(包括發電機等)都在數據中心內部,這意味着內部設備受到保護。
制定數據中心災難恢復計劃
確定數據中心的關鍵任務服務
在制定災難恢復計劃時,了解哪些服務是關鍵任務至關重要。一些企業處理災難恢復的一種方式是通過彈性和可靠性實踐,這允許組織通過包括異地備份來從中斷中恢復,這可能具有用於故障轉移的輔助基礎設施。
考慮成本
不僅要考慮停機或結構損壞的成本,還要考慮數據中心服務對誰的影響,以及自然數據中心災難對當地社區意味着什么。
數據中心災難可能會破壞當地社區服務,如政府職能、公用事業、醫療保健和互聯網接入,災難恢復計劃應考慮對公民生活的直接和間接影響,並提供應急計劃,以便在停電期間實現基本的社區功能。災難恢復計劃應考慮在災難期間提供替代的社區‘接入點’,例如WiFi連接的災難恢復中心,公民可以在那裏提出索賠並與親人聯系。運營商應與當地官員協調災難恢復計劃。”
實施安全最佳實踐
在網絡安全方面,隨着攻擊者的攻擊方法越來越復雜,數據中心IT必須通過定期備份、端點保護、頻繁滲透測試和持續的員工培訓來加強安全實踐。
備份數據是災難恢復的關鍵挑战之一。數據中心運營商可能會選擇基於SaaS的備份,從而限制對本地服務器管理的需求。SaaS數據托管在线,可從任何地方訪問,從而確保在設施無法訪問的情況下繼續運營。基於SaaS的備份提供固有的災難恢復,因爲SaaS數據存儲在遠程,可提供冗余。SaaS提供商管理底層基礎設施和災難恢復,減輕組織的負擔。
制定災難恢復計劃
數據中心災難恢復計劃應根據組織的特定需求進行量身定制,制定全面計劃後,組織必須確保所有關鍵數據中心員工都了解宣布緊急情況的協議。此外,組織必須經常測試其事件響應和災難恢復計劃,其中可能包括模擬災難場景。除了建立一個災難恢復設施,以便在發生大規模中斷時轉移關鍵服務之外,還應關注其事件響應程序。
標題:數據中心災難恢復:業務連續性的必要措施
地址:https://www.utechfun.com/post/403762.html