您好,登錄后才能下訂單哦!
眾所周知,故障是運維人員永遠的痛!相信每一個運維人員的KPI中都有一項:可用性。
可用性高就是不出故障,各個公司對可用性和故障評級的標準都不相同,但是避免故障的方法卻是殊途同歸。
運維人員應該怎么避免故障?下面簡單列舉了以下幾條:
01、變更要有回滾,在同樣的環境測試過
所有的變更都必須有回滾的辦法,在同樣的環境下測試過。沒有做過的東西,總是會在你意想不到的地方給你一次痛擊,多年運維經驗告訴我們,所有沒有做過的變更,出錯的概率最大。
所以我們需要給變更以回滾的可能,在各個步驟可能出錯的情況下,考慮回滾到最初狀態。優秀的運維人員對不考慮回滾的的操作都是敬而遠之的。從某種意義上來說,運維是一門經驗的學科,是一門試錯的學科。
02、對破壞性的操作謹慎小心
破壞性的操作有哪些列?對數據庫來說有:DROP Table,Drop database,truncate table,delete all data;這些操作做完了以后幾乎無法考慮怎么把數據都回滾回去了。就算回滾,代價也是非常大的。你執行這樣的語句非常簡單,但是回滾恢復數據缺非常困難。這些操作時就要更加謹慎了。
03、設置好命令提示
讓你時刻知道你在操作哪個數據庫,讓你知道你在哪個目錄下。開多個標簽頁的話,如果每個標簽頁的標題上內容一樣,我們切來切去就有可能在錯誤的標簽頁上做操作,設置了這個以后,這個問題概率就會小很多。
04、備份并驗證備份有效性
是人總會出錯,是機器總可能會有突然崩潰的那一天,怎么辦?我們需要準備備份。備份有了,是否就可以高枕無憂了?還是不行。你需要驗證備份的有效性。沒有一個備份能夠保證它備份出來的數據能夠100%恢復出正確的數據。所以,備份并不只是備份,它還包括備份的驗證,它如果不能恢復出正確的數據,就只是浪費空間而已。
05、交接和休假最容出故障變更,請謹慎
這個是經驗之談。我們在總結故障的情況時,發現在公司部門有變化時,工作交接,故障的出現頻率會比正常情況下多50%以上。有人說,這是因為機器或者應用是有感情的,舍不得離開的運維者。
我們不談感情,簡單的理性分析一下。公司或者部門難免會做一些調整,變化是世界上唯一不變的事情。而運維人員是一線做事情的人,部門調整或者領導的更換可能導致工作的著重點不同,做事的方式和評測的標準變了,適應過程中難免會出現一些考慮不周到的地方,出故障也是情理之中了。
所以,運維部門和運維人員對變化需要盡量放平心態;接手別人的工作要一而再,再而三的確認變更方案。請教人并不見得就是能力不行的表現;休假前最好各種可以做好的事情,最好能夠準備一份文檔,指明在什么情況下怎么做和聯系哪些人。在別人放假的時候接手工作,“能拖則拖”,實在需要執行:必須不厭其煩的跟原運維者確認各個操作細節。
06、搭建報警,及時獲得出錯信息
搭建性能監控,了解歷史,獲得趨勢,預測未來。運維的最高境界不是故障來了,泰山崩于前而不驚,而是沒有故障,讓故障消失在萌芽之中。請給那些默默無聞,每天想著我們的系統還存在哪些隱患,怎么解決,怎么及早發現的運維人員鼓掌。他們是最可愛的人。而他們賴以生存的工具就是報警和監控。Oracle發展了這么多年,awr和相關的性能參數都相對比較全;MySQL現在也已經迎頭趕上,配套的工具越來越多。
報警可以讓你及時知道系統出現了什么異常。性能監控可以讓你了解系統的歷史性能信息。分析故障發生時的各種現象,確認故障的真正原因;了解變化趨勢,發現故障的苗頭,及早優化和調整。報警和性能監控其實不不完全獨立的,很多性能的監控項也可以報警出來。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。