您好,登錄后才能下訂單哦!
2019年3月3日凌晨,阿里云出現宕機故障。受宕機故障影響,華北不少互聯網公司APP、網站紛紛癱瘓,一大波程序員、運營和運維不得不從被窩里爬起來干活。更重要的是,這已經不是阿里云第一次出現故障而在宕機驚魂之后,人們需要思考宕機故障何以屢屢發生,事后該如何賠償?
1.驚魂三小時
針對阿里云此次宕機,58高級架構師沈劍稱,事故持續了3個小時左右,事后觀察了2個小時。
宕機最直接的影響是,購買阿里云服務的企業網站或APP無法正常使用。
如果說“無法使用”還是一個抽象名詞,那么受影響的企業能夠提供比較具象的理解。
孔夫子舊書網3日發布聲明稱,由于阿里云大規模故障,導致孔網暫時無法使用。言外之意,在宕機的這段時間內,用戶將無法在孔網購買商品。
再比如同日發布聲明的即嗨比分(一家足球賽事直播應用平臺)稱,阿里云宕機導致即嗨部分模塊出現卡頓現象,即用戶體驗出現下降。
依次類推,阿里云出現故障面積越大,受影響的企業和用戶也就越多。
在宕機故障發生大約1小時后,阿里云官方回應稱,華北2地域可用區C部分ECS服務器等實例出現IO HANG,經緊急排查處理后逐步恢復。
查詢阿里云官網顯示,阿里云服務從地域上可以分為亞太、歐洲與美洲、中東與印度三大塊,而具體到亞太又包括華北、華東、華南、香港等13個分區。
“華北2地域可用區C部分”,即華北地域中的一處。
通常,為了降低網絡時延、提高客戶訪問速度,企業會選擇購買靠近客戶的地域。
因此,此次宕機故障發生后,“華北可謂是亂成一鍋粥”。
而隨著越來越多企業及應用將數據搬上云端,服務器上的每一個小小的宕機,都可能引發一場大災難。
2.阿里云歷次宕機
作為國內最大的云服務商,這并不是阿里云第一次宕機。
2018年6月,阿里云出現大規模訪問異常,圖片服務等產品無法正常使用,官網賬號也無法登陸。官方公布,該故障是因為運維上的一個操作失誤。事后,阿里云表示,將敬畏每一行代碼,敬畏每一份托付。
2016年10月,阿里云華東1地域可用區B部分也曾發生過ECS服務器IO HANG的事故。
再往前,2015年9月,阿里云云盾的安騎士產品升級觸發bug導致了用戶ECS里的部分正常文件被誤隔離。原因是,程序員寫錯了一行代碼。也是在當年,阿里云啟動了“百倍時間賠償計劃”
如此大體量,阿里云每次的宕機都會給客戶帶來不小影響。
與其給客戶帶來的負面影響相反,阿里云憑借中國大市場已經躋身全球云服務領先地位。
阿里巴巴1月30日公布財報顯示,阿里云營收規模為213.6億元,4年間增長約20倍,成為亞洲最大的云服務公司。上一年,這一數字為111.7億元。
3.宕機如何賠償?
在此次宕機事件發生后,阿里云表示,將根據SLA協議,盡快處理賠償事宜。
“SLA協議”即,服務等級協議(Service Level Agreement,簡稱“SLA”)。根據阿里云官網資料顯示,對于單ECS實例,如服務可用性低于99.95%,用戶可獲得月度服務費10%、25%、100%不等的賠償。
此外,華為云、騰訊云的賠償標準均與此相似。
一位云計算企業工程師告訴中新社國是直通車,云服務發生故障的賠償基本以“送時間”為主。比如此前,阿里云就執行過“百倍時間賠償”。
4.阿里云官網截圖
“但這點賠償有時候與企業的損失差距巨大。”前述工程師舉例,如果京東淘寶5分鐘不能登陸,這得損失多少錢。
針對此次宕機,也有網友提出,除了賠使用時長和代金券,還應該賠償“加班費”,不少運維和程序員從被窩里爬起來加班。
而對企業而言,他們最關心是如何避免發生故障。
有分析人士認為,盡管云服務商承諾99.99%的安全可靠性,但誰都有可能是那倒霉的0.01%。因此,避免故障通常有兩種做法,一種是數據備份,并定期更新;一種是不把雞蛋放在同一個籃子里,使用一個以上的云服務提供商。
但這無疑都會增加企業的成本。云服務商如何更可靠,仍是一個待解之題
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。