您好,登錄后才能下訂單哦!
墨菲定律暗示我們,如果擔心某種情況會發生,那么它更有可能發生,久而久之就一定會發生。這警示我們,在互聯網公司,對生成環境發生的任何怪異現象和問題都不要輕視,對其背后的原因一定要調查清楚。同樣,海恩法則也強調任何嚴重的事故背后都是很多次小問題的積累,當到一定量級后會導致質變,嚴重的問題就會浮出水面。
那么,我們需要對線上服務產生任何現象,哪怕是小問題,都要刨根問底,對任何現象都要遵循下面問題
在生成環境發生故障時快速恢復服務,避免或減少故障帶來的損失,避免或減少故障對客戶的影響
線上應急一般分為 6 個階段
過程中要記住,應急只有一個總體目標:盡快恢復,消除影響。不管處于哪個階段,首先想到的必須是恢復問題,恢復問題不一定能定位問題,也不一定有完美的解決方案,可能通過經驗或者開關等。但這可以達到快速恢復的目的,然后保留現場,以及定位問題,解決問題和復盤
通常我們通過系統層面、應用層面和中間件層面監控來發現問題
分析定位過程中先考慮系統最近發生的變化,需要考慮如下幾方面
解決問題要以定位問題為基礎,必須清晰定位問題產生的根本原因,在提出解決問題的有效方案,沒有明確原因之前,不用使用各種方法來嘗試修復問題,可能還沒有解決這個問題又引入了下個問題,想想剛剛提到的墨菲定律
解決問題后,需應急團隊與相關方回顧事故產生的原因、應急過程的合理性、提出整改措施,主要聚焦在以下幾個問題:
根據回顧問題提出的改進措施,以正式的項目管理方式進行統一管理,采用 SMART 原則來跟進
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。