美國服務器宕機檢測需要注意的異常情況有:1、需要注意網絡干擾排除問題,防止美國服務器出現宕機檢測出錯;2、需要注意特殊情況干擾排除問題,比如根據監控每個機房的上報頻率,排除干擾;3、需要注意進一步識別誤報問題,比如服務器心跳異常、Ping異常等誤報問題。
具體內容如下:
1、網絡干擾排除
宕機分析中較多誤報是由于網絡問題干擾,無法準確判斷出美國服務器是否宕機,因為也有可能是網絡問題。 排除上聯網絡設備異常導致的誤報,包括機房小面積網絡故障,上聯網絡故障,如通過探測丟包情況,使用一些邏輯初步判斷網絡問題。
美國服務器本身未丟包的誤報除了需要過濾出網絡問題,還要通過丟包數據分析,過濾掉SA誤報問題, SA異常會上報心跳異常,被誤理解為宕機。
2、特殊情況干擾排除
個別美國服務器機房有時候會出現大面積風暴式的無故心跳異常,同時網絡Ping值異常,但上聯網絡設備Ping值包正常,這種誤報一般根據具體case具體進行針對性的分析,如根據監控每個機房的上報頻率,排除干擾。
3、進一步識別誤報
至此大部分干擾已經過濾掉,但仍有一部分誤報隱藏其中。比如心跳異常,Ping異常,都合乎美國服務器宕機判斷的邏輯,會導致誤判成宕機,如導致網卡被打爆,或者重試率高,這種是業務原因導致網絡異常。或者美國服務器并沒有宕機,但IO延時和資源占用率各項指標都不正常等場景,需要增加uptime判斷以及帶外日志分析排查。