這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

發布時間：2020-08-12 07:13:23 來源：ITPUB博客閱讀：205 作者：記錄每一次錯誤欄目：關系型數據庫

最近有朋友和小 y 反饋：

他們的一臺 IBM 的 X86 服務器（現在屬于聯想）出現硬件損壞，維護人員通過管理口收集診斷日志給廠商時，服務器上運行的好好的一套 ORACLE 11.2 的 RAC 數據庫，

突然有一個節點重啟了 .. 這是是什么情況 ?

聽到這里，小 y 基本上猜到了原因，類似的問題，以前分析和處理過幾次，分析過程也不復雜， 但是沒想到，類似的故障現在居然還在發生 .

因此有必要把這個 風險提示出來 !

這里，小 y 為大家分享一個過去處理的案例 , 文章最后會給出 X86 服務器與 RAC 結合的具體的風險提示，希望大家早了解，早預防，避免踩坑，傷人傷己。

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

問題來了！！

周五，晚上十一點，電話響了，是一位服務商的電話，看來出大事了，一下來了精神;

“小y,一套linux上的11.2.0.3 2節點的RAC，

節點2數據庫今天下午自己重啟了一次，后來自己起來了。

幾個小時前，又掛了，到現在還沒起來！

兩個節點私網IP互相ping了一下,可以ping通！

你趕緊遠程連上來處理下吧”

BTW：

是的，大家沒看錯，是服務商而不是最終客戶的電話。

小y所在的公司不僅直接面向客戶提供數據庫專家服務，也為其他服務商、軟件開發商提供三線支持，不過小y最近業績壓力大的晚上睡不著覺，還請各位兄弟多多幫忙推薦和介紹啊。

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

分析與恢復故障

驗證節點2無法啟動

時間緊急，遠程連入后，發現節點 2 確實掛掉了，那就直接 startup 啟動數據庫看看

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

照理來說，startup命令下去后，這里很快就可以看到SGA分配并啟動到mount的信息，

但命令下去已經一分鐘了，還沒任何輸出，確實不妙。

最終，startup命令在敲入后長時間依然無響應，大概10分鐘后后報ORA-03113錯誤后退出。

如下圖所示：

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

看來，數據庫啟動過程中遇到了異常，需要繼續分析alert日志。

檢查節點2數據庫的alert日志

截取altert日志關鍵信息，如下圖所示：

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

可以看到：

由于節點 2 的 Lmon 進程通過 ipc 與節點 1 的 LMON 進程通訊超時，簡單來說，兩個節點的 RAC 無法通訊，因此無法加入集群。因此需要進一步檢查兩個節點的私網通訊是否正常。

獲取兩個節點私網通訊的IP地址

之前他們提到兩個節點的私網 IP 是可以 ping 通的，我估計他們是 ping 錯 IP 了。

因為，從 11.2.0.2 （含）開始， ORACLE 私網通訊不再直接采用“我們在私網網卡上所配置的地址（例如 192.168 這樣的地址）”，而是采用 GRID 啟動后， ORACLE 在私網網卡上綁定的 169.254 這個網段的地址。確認了一下，他們果然 ping 的是 192.168 這個 IP ，這個 IP 能 PING 通是不夠的 …

發出下列命令獲得，兩個節點私網通訊采用的 IP 地址如下所示:

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

也就是說， RAC 兩個節點用于私網通訊的真實地址是：

節點 1 采用的私網通訊地址是 169.254.220.75 ，而不是 192.168.x.x

節點 2 采用的私網通訊地址是 169.254.106.133 ，而不是 192.168.x.x

也就是說， GRID 啟動前后的 IP ，如下所示：

Node1

Node2

備注

Bond0

192.168.1.1

192.168.1.2

GRID 啟動前、啟動后都存在的 IP

Bond0:1

169.254.220.75

169.254.106.133

GRID 啟動后才存在的 IP

RAC 和 ASM 通訊使用

檢查兩個節點私網通訊是否正常

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

從上圖可以看到：

兩個節點之間互相 ping 不通 169.254 這個實際的私網通訊地址！這就是為什么節點 2 的數據庫實例加不到集群的原因！

思考時間

到這里，我們不妨用一張表表格小結一下：

其中 bond0 是私網網卡， 192.168 是手工配置的， 169.254 這個 IP 是 GRID 起來后綁上去的:

	Node1	Node2
Bond0	192.168.1.1	192.168.1.2	可以互相 ping 通
Bond0:1	169.254.220.75	169.254.106.133	互相 ping 不通

這是什么情況呢？

其實很簡單，別著急，問題原因就在后面，什么時候往下翻，由你決定…

……

那是什么原因導致兩個地址不通呢？

我們進一步檢查兩個節點的路由情況，發現了異常。如下所示

檢查，發現節點 1 上的私網路由丟失，導致兩個節點之間的私網無法正常通訊，繼而無法正常加入集群。

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

而節點 2 上是存在 169.254 這個路由的！

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

暫時解決問題

在節點 1

#route add -net 169.254.0.0 netmask 255.255.0.0 dev bond1

在節點 1 上實施該解決方案后，節點 2 數據庫實例啟動正常，問題得到解決。

到這里，有同學說， 可以不可以把兩個節點的 GRID 全部停掉，全部重啟來恢復呢 ?

答案是 yes !

因為重啟 GRID ，會重新在 bond0 綁 169.254 這個 IP ，同時添加 169.254.0.0 這個路由

2016-06-02 23:05:47.457:

[crsd(10403)]CRS-2772:Server 'node2' has been assigned to pool 'ora.RACDB'.

2016-06-03 19:36:48.517:

[/oracle/app/11.2.0.3/grid/bin/orarootagent.bin(8641)]CRS-5018:(:CLSN00037:)

1) 19:36:25, 節點 1 USB0 網卡被分配 169.254.95.120 這個 IP

2)         19:36:48, 節點 1 orarootagent 進程發現 USB0 上分配的 169.254 IP 與 RAC 集群通訊的 IP 沖突后刪除 169.254 的路由，導致兩個節點 RAC 無法通訊

3)         19:41:24, 節點 2 報 IPC 通訊超時，被驅逐出集群

4)         由于節點 1 的 169.254 的路由丟失，導致節點 2 無法與節點 1 通訊，一直無法加入集群

5)         手工對節點 1 增加 169.254 的路由后，問題解決

不難看出來，這個行為是正常的行為！

我們以“ Removed unused HAIProute: 169.254.95.0 ”作為搜索關鍵字，在 METALINK 上查找， MOS 上的下面文章也介紹了這個行為，推測得到驗證。

Oracle RAC H/A Failure Causes Oracle Linux Node Eviction On Server With IBM Integrated Management Module (IMM) (文檔 ID 1629814.1)

風險提示

風險提示

在部署了 ORACLE11.2.0.2 或以上的版本中

由于集群的 ASM 和 DB 使用 169.254.x.x 作為集群私網通訊的 IP

【 GRID 啟動后在私網網卡綁定 169.254.x.x 這個 IP 并添加 169.254.0.0 的路由】

目前已知的情況中， IBM X86 服務器裝完操作系統后，存在 USB0 這樣一塊網卡，這個網卡是用來和 IMM 通訊的， IMM 是服務器的管理口，通過 USB 網絡的 LAN 進行硬件管理。

當 USB0 網卡被激活時，將分配 169.265.95.120 （ 118 ）這個 IP ，將導致 RAC 集群路由被破壞，繼而導致 DB/ASM 無法通訊而重啟 / 節點驅逐的故障 ,
#cat /var/log/messages*|grep dhclient |grep "bound to 169.254"

如有，則進入預防環節

2 ） 發出下列命令，檢查系統是否當前存在非 RAC 私有網卡被分配 169.254 這個網段的 IP

# ifconfig -a

..

usb0     Link encap:Ethernet HWaddr XX:XX:XX:XX:XX:XX


# vi
# /sbin/ifdown usb0

# /sbin/ifup usb0

# /sbin/ifconfig usb0

本文轉載于中亦安圖

向AI問一下細節

推薦閱讀：

看工程師的必備技能-技術人生系列第五十一期-我和數據中心的故事

動態增加CPU帶來的數據庫重啟風險--技術人生系列第四十六期-我和數據中心的故事

免責聲明：本站發布的內容（圖片、視頻和文字）以原創、轉載和分享為主，文章觀點不代表本網站立場，如果涉及侵權請聯系站長郵箱：is@yisu.com進行舉報，并提供相關證據，一經查實，將立刻刪除涉嫌侵權內容。

oracle+rac 一期人生

上一篇新聞：
C語言--memcpy和memmove

下一篇新聞：
2011-10-06 修改包頭后對變量的引用

猜你喜歡

Java中動態賦值的方法是什么

c++回調函數的使用方法是什么

c++回調函數的應用場景有哪些

c++回調函數參數是如何傳的

python調用c++動態庫如何new對象

python怎么動態創建一個類

java加載動態庫的原理是什么

c++多態的實現方式有哪些

c++運算符重載怎么實現

linux中gcc升級的方法是什么

最新資訊

C++ hook庫的代碼示例有哪些

C++ hook庫的跨平臺能力怎樣

C++ hook庫的內存管理機制

C++ hook庫的多線程支持如何

C++ hook庫的兼容性測試報告

C++ hook庫的安全更新頻率

C++ hook庫的性能優化建議

C++ hook庫的日志記錄功能

C++ hook庫的錯誤處理機制

C++ hook庫的API設計如何

相關推薦

從“山窮水盡”到“柳暗花明”--技術人生系列第四十四期我和數據中心的故事

這個鍋，我們運維，不背！開發和運維都該看看--技術人生系列第四十三期

一個案例看Oracle的歷史故障回放功 --技術人生系列第三十七期-我和數據中心的故事

如何解決程序時快時慢的業界性能難題--技術人生系列第二十九期-我和數據中心的故事

足以摧毀整個應用的數據庫設計--技術人生系列第二十八期-我和數據中心的故事

一次系統優化！-技術人生系列-我和數據中心的故事-第十七期

技術人生系列 · 我和數據中心的故事（第十一期）- 一次啟停引發的故障

技術人生系列 · 我和數據中心的故事（第四期）-導致Oracle性能抖動的參數提醒

技術人生系列 · 我和數據中心的故事（第二期）——風險提醒之Oracle RAC高可用失效

技術人生系列 · 我和數據中心的故事——第一期

相關標簽

oracle 優化器 oracle安裝 oracle12 cx_oracle oracle創建表空間和用戶 oracle 19c oracle 12c oracle vm virtualbox oracle鎖 oracle 11gr2 連接oracle oracle存儲過程 oracle12c安裝 oracle rman oracle lob oracle 分頁 oracle 10g oracle用戶安裝oracle oracle pl/sql

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

這么用X86，小心ORACLE+RAC中招--技術人生系列第四十一期-我和數據中心的故事

猜你喜歡

最新資訊

相關推薦

相關標簽