硬盤出故障、機房被雷劈,企業如何避免雲服務故障給自身業務帶來損失

2018-08-09 10:48

這個夏天,雲服務日子都不太好過!繼上次阿里雲服務出現技術故障後,騰訊雲服務又出了大岔子。7 月 20 日,騰訊雲北京三區部分雲硬盤 IO 異常。類似的故障在各大雲廠商提供的雲服務裏,可謂是司空見怪,但這次因爲一家名叫“前沿数控”的創業公司,這個事件重新發酵,引起了熱議。

 

雲廠商故障宕機這些年來一直不是什麼新聞:

2018 年 6 月 27 日,阿里雲故障,起因:運維操作失誤觸發未知 bug;

2017 年 2 月 28 日,雲計算巨頭 AWS S3 故障,起因:調試時輸入錯誤指令,意外移除大量服務器導致 S3 不能正常工作;

2017 年 3 月 22 日,微軟雲服務一個月內出現又一次宕機(上一次是 3 月 7 日);

2015 年 6 月 6 日,QingCloud 廣東 1 區全部硬件設備因遭遇雷暴天氣引發電力故障,造成 QingCloud 官網及控制檯短時無法訪問、部署於 GD1 的用戶業務暫時不可用。

 

運維失誤、硬盤出故障、機房被雷劈、調試輸入錯誤指令,不同的失誤會引起不同的 bug,最後同樣導致雲服務故障,造成大額損失。AWS 的費良宏老師回顧雲計算的發展時曾說:“我眼里的云计算,就是十年生聚,十年教训”。

 

故障,一直是雲服務命運的雙生子,每一次故障的陣痛,都是在倒逼雲服務廠商和用戶加速成長,只是這一次對於“前沿数控”这家创业公司而言过于疼痛了。

 

頭部的雲服務“网红”產品,都不能保證百分百好用,以至於用戶都在想,是不是僅僅購買一家雲服務廠商的服務,都沒法保證業務穩定的需求了?

 

甚至有公司,因此想自建機房,但是這樣會帶來巨大的後期運維成本,大企業還好,對於中小企業尤其是初創企業,更是徒增負擔。而且雲計算和自建機房相比,很明顯雲計算更安全,水平也更高。對於很多中小企業,公有云無疑是最好的選擇。

但任何公有云都有可能發生宕機或數據丟失的風險,所以一套完整的運維服務計劃就顯得尤爲重要。

 

神州光大的服務即可以助力企業上雲,又可以提供安全可靠的本地備份及按需使用的工程師資源,讓企業享受上雲的便利和低成本的運維服務,防止自身經驗不足帶來的風險。

 

對於企業而言,IT運維的專業化分工本質上是對IT運維人力資源配置的優化。例如,明確運維事件分級處理流程,明確運維人員的職責、權限、義務和績效考覈標準。事實上許多實踐也證明,明確每種運維事件的專業化分工處理流程,可以大大減少IT運維操作的隨意性和混亂性,並能大大提高運維中的人力資源效率。

 


服务架构

 

 

神州光大IT運維管理服務實施模型

 

 

集中監控平臺

 

基本排障流程

 

 

神州光大致力於幫助企業解決上雲難題,提供可靠的災備方案實施,爲客戶帶來長期的運維價值,爲保障數據安全貢獻力量。