您好,登錄后才能下訂單哦!
作為一家中型網站的運維工程師,真實遇到網站故障了,尋求理想排查步驟,自己心得,附加網友觀點
網站掛了:
1、ping我的網站主站IP,可能是禁ping,不通,可能是機房網絡問題,那么就去ping機房的網關!
2、機房網絡如果沒問題的話,那我會去看訪問是什么情況,服務器異常或者是nginx報錯的話,
那我會排查一下硬件,我的網站是用簡單的nginx負載+對外防火墻的,那我就看看access。log,
統計一下這階段可疑IP以及行為,如果有***,先拉黑可疑黑名單
3、排查從公網到我們主站IP的路由,tracert,可不可能跨域問題,聯通網絡訪問掛了?還是電信?看 看DNS是不是被劫持了
4、這時候我再看下服務器,我的網站程序是tomcat運行的,看看tomcat進程是否僵死,看日志情況,一 般來說,只要負載,沒得問題,一般不會http請求堆積在一個server上,那可能負載權重問題
,或者說我的tomcat(或者其他web容器,內存設定問題)
其實這些情況,可以通過zabbix監控來完成(一般如果訪問量暴增,或者是前端時間有變更操作,很 可能存在cpu吃緊情況,一般程序出現內存溢出,在系統資源允許情況下,加大jvm大小,初始棧,連 接數,還是重點關照開發,關于內存的回收)
5、可以試試單點登錄一臺節點看看,遇到內部程序調用的。內部curl看看,
或者使用httprequest看看post和get訪問的放回那個狀態碼200是OK
大神解說:方案最佳:
【高級】 帝都——大師兄 2016/8/2 21:54:06
我會先看看監控,因為監控上基本上你這些檢測,我都做了。
通過監控數據,先縮小排查范圍。針對性去找故障點,排查。你這一套下來,估計業務中斷也有一段時間了。
【高級】 帝都——大師兄 2016/8/2 21:55:54
快速響應,先把影響降低到最小。這是你應該做的。
【高級】 帝都——大師兄 2016/8/2 21:56:09
問題可以先放后,先把業務恢復上來。
【高級】 帝都——大師兄 2016/8/2 21:56:23
業務是關鍵,問題可以慢慢查。
【高級】 帝都——大師兄 2016/8/2 21:56:41
因為有日志,和監控數據所以可以慢慢分析具體哪里導致的業務中斷。
【高級】 帝都——大師兄
整個工作在你接手時,就應該預先考慮到,網站掛掉后,如何可以立刻恢復上來,大公司更是用戶無感知的恢復。小公司因為各種限制,可能會稍微有點影響。
【高級】 帝都——大師兄 2016/8/2 21:59:55
等到網站掛掉,你在去各種查問題,你已經晚了。
【高級】 帝都——大師兄 2016/8/2 22:00:56
個人觀點,僅供參考。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。