如何進行VMware ESXi 宕機的分析

發布時間：2021-11-18 14:25:28 來源：億速云閱讀：1460 作者：柒染欄目：云計算

如何進行VMware ESXi 宕機的分析，相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

近期發現ESXI主機宕機導致視頻會議系統故障，整理分析過程如下：
環境為ESXi 6.0,被vCenter 6.7U1管理，宕機后并未拍屏幕而直接重啟了主機。

從vCenter層面收集ESXi 系統日志，只看到實時日志，未看到宕機前的日志信息。
ssh 連接到esxi, cd /var/log也未看到壓縮的歷史日志文件，從vmksummary.log看到主機重啟后的時間，并有提示已經找到DUMP文件，故障時間點基本確認

2019-04-16T19:54:13Z bootstop: Host has booted
2019-04-16T19:54:13Z bootstop: partition core dump found

cd /scratch 看到有log文件夾，ls log 看到了大量壓縮的歷史日志文件

如何進行VMware ESXi 宕機的分析

原來日志被重定向到這里來了。

4、根據時間點查看歷史日志文件內容，并未發現有用信息。

5、ls /scratch/core 看到有一個vmkernel-zdump.1 的dump文件，基本確認主機發了生紫屏才宕機的

6、如何分析打開這個文件呢？網上查詢了VM 也有KB說明,根據KB使用一個命令:
vmkdump -l vmkernel-zdump.1 會創建一個vmkernel.log.1 的文件，可用cat 或vi或其它文本工具查看：
^[[7m2019-04-15T11:31:36.550Z cpu30:32805)WARNING: Heartbeat: 781: PCPU 26 didn't have a heartbeat for 21 seconds; may be locked up.^[[0m
^[[31;1m2019-04-15T11:31:36.550Z cpu26:33339)ALERT: NMI: 681: NMI IPI recvd. We Halt. eip(base):ebp:cs [0x3080cd(0x41800d800000):0x1:0x4010](Src0x1, CPU26)^[[0m
2019-04-15T11:31:36.550Z cpu30:32805)World: 9729: PRDA 0x418047800000 ss 0x0 ds 0x10b es 0x10b fs 0x10b gs 0x0
2019-04-15T11:31:36.550Z cpu30:32805)World: 9731: TR 0x4020 GDT 0x4392ef421000 (0x402f) IDT 0x41800d8c9000 (0xfff)
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b560:[0x41800db080cd]MemNode_NUMANodeMask2MemNodeMask@vmkernel#nover+0x25 stack: 0x1
2019-04-15T11:31:36.550Z cpu30:32805)World: 9732: CR0 0x80010031 CR3 0x6c4ed1000 CR4 0x42768
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b580:[0x41800db45622]MemDistributeNUMAPolicy@vmkernel#nover+0x27a stack: 0x0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b6c0:[0x41800db4616d]MemDistribute_Alloc@vmkernel#nover+0x299 stack: 0xe59bb55
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b820:[0x41800d8181f0]PagePool_AllocCustom@vmkernel#nover+0x2f0 stack: 0x4390d1d9bac0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b8e0:[0x41800d820c04]vmk_MemPoolAlloc@vmkernel#nover+0x37c stack: 0x41800dfad8b1
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bd90:[0x41800dfad8b1]fusion_get_seq_num@<None>#<None>+0xd9 stack: 0x43034ef4cc40
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bea0:[0x41800dfa2adb]megasas_hotplug_work@<None>#<None>+0x16b stack: 0x0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bf20:[0x41800d82245f]VmkTimerQueueWorldFunc@vmkernel#nover+0x21f stack: 0x0
2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bfd0:[0x41800da13dae]CpuSched_StartWorld@vmkernel#nover+0xa2 stack: 0x0
2019-04-15T11:31:36.600Z cpu30:32805)Panic: 798: Saved backtrace: pcpu 26 Heartbeat NMI
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b560:[0x41800db080cd]MemNode_NUMANodeMask2MemNodeMask@vmkernel#nov
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b580:[0x41800db45622]MemDistributeNUMAPolicy@vmkernel#nover+0x27a
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b6c0:[0x41800db4616d]MemDistribute_Alloc@vmkernel#nover+0x299 stac
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b820:[0x41800d8181f0]PagePool_AllocCustom@vmkernel#nover+0x2f0 sta
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b8e0:[0x41800d820c04]vmk_MemPoolAlloc@vmkernel#nover+0x37c stack:
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bd90:[0x41800dfad8b1]fusion_get_seq_num@<None>#<None>+0xd9 stack:
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bea0:[0x41800dfa2adb]megasas_hotplug_work@<None>#<None>+0x16b stac
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bf20:[0x41800d82245f]VmkTimerQueueWorldFunc@vmkernel#nover+0x21f s
2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bfd0:[0x41800da13dae]CpuSched_StartWorld@vmkernel#nover+0xa2 stack
2019-04-15T11:31:36.623Z cpu30:32805)^[[45m^[[33;1mVMware ESXi 6.0.0 [Releasebuild-3073146 x86_64]^[[0m
PCPU 26: no heartbeat (2/2 IPIs received)

基本確認主機宕機原因是Esxi 主機無法與CPU通信（通信超時21秒）導致。

vCPU分配過多了？？檢查了下vCPU 數量小于LCPU。

7、通過關鍵字進行搜索“POSD no heartbeat”，未找到此故障原因，國外網友也有類似問題，只查到建議是升級ESXi。

8、最后一在篇ESXi 6.0U2發行說明“已解決問題”看到解決了“no heartbeat”的問題：

ESXi 主機顯示紫色診斷屏幕并顯示多條“可更正計算機檢查中斷”(CMCI) 消息

由于短時間內 vmkernel.log 文件中的多個 CMCI 導致 CPU 無響應，ESXi 主機可能會失敗并顯示紫色診斷屏幕。紫色診斷屏幕中會顯示類似以下內容的條目：

ESXi 主機顯示紫色診斷屏幕并顯示多條“可更正計算機檢查中斷”(CMCI) 消息

由于短時間內 vmkernel.log 文件中的多個 CMCI 導致 CPU 無響應，ESXi 主機可能會失敗并顯示紫色診斷屏幕。紫色診斷屏幕中會顯示類似以下內容的條目：

PCPU <N>: no heartbeat (2/2 IPIs received)0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]MCEReapMCABanks@vmkernel#nover+0x195
br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]IRQ_DoInterrupt@vmkernel#nover+0x33e<br/0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]IDT_IntrHandler@vmkernel#nover+0x12b 0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]gate_entry@vmkernel#nover+0x640xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]LFQueue_Dequeue@vmkernel#nover+0x59
br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]BH_DrainAndDisableInterrupts@vmkernel#nover+0xf3<br/0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]VMMVMKCall_Call@vmkernel#nover+0x2c6

將向 vmkernel.log 文件中記錄類似于以下內容的條目：

cpu1:33127)MCE: 1118: cpu1: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
cpu1:33127)MCE: 231: cpu1: bank9: MCA recoverable error (CE): "Memory Controller Scrubbing Error on Channel 0."
cpu1:33127)MCE: 222: cpu1: bank9: status=0xXXXXXXXXXXXXXXXX: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), ECC=no, Addr:0xXXXXXXXXXXXXXXXX (valid), Misc:0x8c3589300 (valid)

本版本已解決該問題。

最后實在找不到其它原因了，就定為BUG吧。升級到esxi 6.0 U3

看完上述內容，你們掌握如何進行VMware ESXi 宕機的分析的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何進行VMware ESXi 宕機的分析

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何進行VMware ESXi 宕機的分析

猜你喜歡

最新資訊

相關推薦

相關標簽