您好,登錄后才能下訂單哦!
詳細描述本人在使用IBM磁盤陣列及MSCS的日常維護方法,并對可能出現的問題說明了解決方法。
一、 磁盤陣列的維護
基本知識
1、陣列的四種主要狀態:
。Online(在線):Cluster中有控制權的節點的陣列狀態。
。Offline(脫機):Cluster中無控制權的節點的陣列狀態,或有控制權,但處于脫機狀態。
。Critical(臨界狀態):在Cluster中,處于此狀態的陣列不允許進行切換,必須在原來有控制權的機器上對陣列進行恢復,即進行Rebuild或其它恢復操作。
。Blocked(阻塞狀態):只出現在RAID0級別中。在Cluster中,處于此狀態的陣列不允許進行切換或讀寫操作,必須在原來有控制權的機器上對陣列進行恢復。
2、磁盤的兩種主要狀態:
。Online(在線):硬盤燈為綠色或指示燈不亮(與陣列柜型號有關)。此時陣列的狀態為Online。
。 Defunct(非在線、失效):硬盤燈為紅色。此時陣列的狀態為Offline、Critical或Blocked。
3、每次切換后,磁盤陣列都會進行一次數據的同步,此時硬盤燈出現有規則的閃爍,持續時間大概為2小時左右(與陣列容量有關)。同時仍然可以進行其它操作,但是一定不能斷電或進行熱插拔操作,否則陣列信息將丟失。
4、硬盤的Firmware版本查看:
在ServeRaid Manager的物理磁盤組中,點擊要查看硬盤,屏幕上將顯示該硬盤的的Firmware版本號。
說明:版本要求為1.09(或S96E)以上。
5、陣列卡的Firmware及Bios版本查看:
在ServeRaid Manager中,點擊要查看的控制卡,屏幕上將顯示該陣列卡的Firmware 及Bios版本號。
說明:Firmware版本應為3.70以上、 Bios版本應為4.0以上。
現象觀察
1、查看陣列柜的前面板的狀態燈提示
一般陣列柜中硬盤有兩個指示燈,一個為狀態燈(紅),一個為硬盤讀寫指示燈(綠)。
。若干磁盤的綠燈不規則閃爍表示為對該盤當前有讀寫操作(此時綠燈較亮),陣列為Online狀態;
。全部磁盤的綠燈規則閃爍表示陣列作同步操作(此時綠燈較暗),陣列為Online狀態;
。磁盤的綠燈全滅表示當前無操作,陣列處于Online狀態;
。單個硬盤亮紅燈表示此盤狀態為DDD(不可用)或OffLine;
。某個硬盤綠燈及桔黃燈交替規則閃爍表示該盤正在Rebuild;
。兩個以上硬盤亮紅燈時表示陣列柜已壞,Cluster 必然當機。
2、通過ServeRaid Manager管理工具查看
在有控制權的節點啟動ServeRaid Manager。
。控制器、邏輯盤處于OK狀態;
。構成陣列的物理硬盤處于Online狀態(如果存在Hot Spare盤,可看到本機的Hot Spare盤狀態為Hot Spare,另一節點的Hot Spare盤狀態為Ready);
。如果存在Hot Spare 硬盤,則在Hot Spare 菜單中可以找到該硬盤;
。如果某物理硬盤狀態為DDD,說明該盤已不可用,需要修復或替換;
。如果某塊物理硬盤狀態為Offline,表示該盤為脫機狀態(未損壞);
。在RAID 1、RAID 1E、RAID 5及RAID 5E 中如果某一硬盤狀態為DDD或Offline,則陣列或邏輯盤狀態為Critical,即臨界狀態;
。在RAID 0 中,如果某一硬盤狀態為DDD或Offline,則陣列或邏輯盤狀態為Blocked,即阻塞狀態,此時對硬盤不能進行任何操作,等待恢復完后,手工將Blocked 狀態設為UnBlocked狀態;
說明:無控制權的節點陣列中的磁盤狀態為Defunct(Hot Spare盤為正常)。
磁盤異常狀態處理
要求主機對磁盤陣列擁有控制權。
1、單個磁盤DDD狀態,此時禁止Cluster切換(可關閉備機)。
說明:DDD狀態并不一定表示硬盤物理故障,根據該盤的使用情況,有如下處理方法:
。該盤作為Array磁盤時,并且該節點存在Hot Spare盤 :當該盤失效時,Hot Spare 盤自動完成接管,陣列自動進入Rebuild狀態,同時該盤狀態轉為Hot Spare。如果沒有自動Rebuild,需要人工執行Rebuild 操作,完畢后,將該盤設置為Hot Spare狀態。若人工Rebuild操作失敗,可拔出此盤,隔一分鐘后再插入磁盤柜中,重復上述操作;如果仍然失敗,說明該盤可能存在物理故障。
。該盤作為Array磁盤時,節點無Hot Spare 盤;選中該盤,按鼠標右鍵,執行Rebuild操作,若操作失敗,可拔出此盤,隔一分鐘后再插入磁盤柜中,重復上述操作;如果仍然失敗,說明該盤存在物理故障。
。該盤為Hot Spare 盤:選中該盤,按鼠標右鍵,執行Delete Hot Spare將此盤從Hot Spare狀態刪除,再將該盤重新設置為Hot Spare(也可使用Replace and Rebuild進行)。如果操作失敗,可拔出此盤,隔一分種后再插入磁盤柜中,重復上述操作;如果仍然失敗,說明該盤可能存在物理故障。
2、單個磁盤Offline狀態
手工設置為Online;如果不成功,先關閉備機(無控制權),再重啟主機,然后重新設置為Online;如果還不成功,將盤拔出磁盤柜,隔一分鐘后重新插入柜中,再次關閉備機(無控制權),再分別重新啟動主機和備機。
以下兩種情況先關掉B機,防止系統切換
3、兩個盤 Offline狀態
先將其中一個Online,所另一個作Rebuild操作,完成后重新啟動主機。
4、一個Offline,一個DDD
將Offline盤設置為 Online,對DDD盤作Rebuild操作,完成后重新啟動主機。
5、硬盤狀態為Defunct時,可按下列步驟進行恢復
。打開ServeRaid Manager。
。 選中Defunct的硬盤,按右鍵。
。使用Replace And Rebuild對硬盤數據進行重建。
。按照屏幕提示,需要先將硬盤拔出,然后再插入。
磁盤陣列異常處理
1、當陣列處于Critical時,只需在原來有控制權的機器上對故障硬盤進行Rebuild即可。
2、當陣列處于Blocked時,作如下操作:
。為了保證對陣列的恢復,先將原來沒有控制權的機器關閉。
。重新啟動有控制權的機器,此時系統提示:按F4——修正錯誤;F5 ——接收當前配置。
。按F4修正當前的錯誤,將Blocked狀態修正為Critical狀態。
。系統自動對硬盤進行Rebuild。
硬盤Rebuild時的進度顯示ServeRaid Manager中窗口底部的狀態條中
二、MSCS的維護:
MSCS的維護與陣列的維護密切相關,如果陣列工作狀態正常,則MSCS一般情況下也正常,但是如果Cluster 中的某些服務不能啟動或損壞,MSCS可能發生工作異常。
以下是日常維護操作說明:
1、首先檢查RAID的工作狀態(通過IBM ServeRaid manager檢查);
2、使用Cluster Administators查看每個服務的工作情況,所有資源應為Online;
3、如果某服務或資源處于Offline狀態時,先查明原因,然后人工設置為Online;
4、如果磁盤或磁盤陣列工作異常,可按照磁盤陣列的維護進行處理;
注意:此時陣列處于Critical狀態,應防止、禁止切換操作(采取關閉備機的辦法)。
5、如果異外斷電(所有設備全部斷電),啟動時按下列順序啟動系統:
。先啟動陣列柜;
。陣列柜加電后,啟動斷電前屬于控制狀態的節點;
。待完全啟動后,再啟動另外一個節點。
雙機系統中存在主域控制服務器,應先啟動主域控制服務器。
6、緊急情況下關機順序如下:
。首先關閉處于備用狀態的節點;
。再關閉處于控制狀態的節點;
。最后關閉磁盤陣列。
原則上陣列柜不能掉電,特別是正在對進行陣列的讀寫操作時。
7、在特殊情況下,Cluster可能不能啟動,一般情況下可能該節點對磁盤陣列無控制權,此時在命令行方式下執行ipshahto.exe文件,強行取得控制權。
此步驟建議在由技術人員指導下進行。
8、當硬盤正在Rebuild時,不允許切換;正在同步時,盡量不要切換;
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。