一 . 什么是 HACMP ( High Availability Cluster Multi-Processing )
1.1 高可用性
在當(dāng)今的復(fù)雜環(huán)境中,為應(yīng)用程序提供連續(xù)的服務(wù)是成功的 IT 實(shí)現(xiàn)的重要組成部分。高可用性屏蔽或消除計(jì)劃內(nèi)和計(jì)劃外的系統(tǒng)和應(yīng)用程序停機(jī)時(shí)間,是幫助為應(yīng)用程序客戶端提供連續(xù)服務(wù)的組件之一。這是通過(guò)消除硬件和軟件 單點(diǎn)故障( single points of failure , SPOF ) 來(lái)實(shí)現(xiàn)的。
高可用性解決方案將確保任何解決方案組件(無(wú)論是硬件、軟件還是系統(tǒng)管理)的故障不會(huì)導(dǎo)致應(yīng)用程序及其數(shù)據(jù)對(duì)用戶不可用。
高可用性解決方案應(yīng)該通過(guò)適當(dāng)?shù)脑O(shè)計(jì)、規(guī)劃、硬件選擇、軟件配置和精心控制的變更管理規(guī)程來(lái)消除單點(diǎn)故障 (SPOF) 。
1.2 停機(jī)時(shí)間
停機(jī)時(shí)間是應(yīng)用程序不能為其客戶端提供服務(wù)的時(shí)間范圍。可以將停機(jī)時(shí)間劃分為:
1.2.1 計(jì)劃內(nèi)停機(jī):
1) 硬件升級(jí)
2) 維修
3) 軟件更新 / 升級(jí)
4) 備份(離線備份)
5) 測(cè)試(需要定期測(cè)試以實(shí)現(xiàn)集群驗(yàn)證。)
6) 開(kāi)發(fā)
1.2.2 計(jì)劃外停機(jī):
1) 管理員錯(cuò)誤
2) 應(yīng)用程序故障
3) 硬件故障
4) 環(huán)境災(zāi)難
用于 AIX 的 IBM 高可用性解決方案 High Availability Cluster Multi Processing 基于久經(jīng)考驗(yàn)的 IBM 集群技術(shù),并包括兩個(gè)組件:
1) 高可用性:通過(guò)使用重復(fù)和 / 或共享資源來(lái)確保應(yīng)用程序可供使用的過(guò)程。
2) 集群多處理:運(yùn)行在相同節(jié)點(diǎn)上并具有共享或并發(fā)數(shù)據(jù)訪問(wèn)的多個(gè)應(yīng)用程序。
基于 HACMP 的高可用性解決方案提供了自動(dòng)化的故障檢測(cè)、診斷、應(yīng)用程序恢復(fù)和節(jié)點(diǎn)重新集成。使用適當(dāng)?shù)膽?yīng)用程序, HACMP 還可以為并行處理應(yīng)用程序提供并發(fā)數(shù)據(jù)訪問(wèn),從而提供卓越的水平可伸縮性。
圖 1 顯示了一個(gè)典型的 HACMP 環(huán)境。
1.3 歷史和發(fā)展
IBM High Availability Cluster Multi-Processing 可追溯到 20 世紀(jì) 90 年代初。
HACMP 的開(kāi)發(fā)始于 1990 年,目的是為運(yùn)行在 RS/6000 服務(wù)器上的應(yīng)用程序提供高可用性解決方案。
我們不提供有關(guān)每個(gè)早期版本的信息,因?yàn)槟切┌姹驹诒緯帉懼H已不再被支持或不再使用,我們僅提供有關(guān)最近版本的重點(diǎn)介紹。
1.3.1 HACMP V4.2.2
與 HACMP Classic (HAS) 一起,此版本引入了增強(qiáng)的可伸縮性版本( enhanced scalability version , ES ), ES 是基于并行系統(tǒng)支持計(jì)劃( Parallel Systems Support Program , PSSP )所產(chǎn)生的可靠的可伸縮集群技術(shù)( Reliable Scalable Clustering Technology , RST )拓?fù)洹⒔M和事件管理服務(wù)。
1.3.2 HACMP V4.3.X
除了其它方面以外,此版本還引入了對(duì) HACMP/ES 的 32 節(jié)點(diǎn)支持、 C-SPOC 增強(qiáng)功能、 ATM 網(wǎng)絡(luò)支持、 HACMP 任務(wù)指南(用于簡(jiǎn)化集群配置的 GUI )、多個(gè)事件前和事件后腳本、 FDDI MAC 地址接管、監(jiān)視和管理支持增強(qiáng)功能、逐個(gè)節(jié)點(diǎn)的遷移,以及 AIX 快速連接支持。
1.3.3 HACMP V4.4.X
此版本中的新項(xiàng)目包括與 Tivoli? 的集成、應(yīng)用程序監(jiān)視、無(wú)退回的級(jí)聯(lián) (cascading with out fallback) 、 C-SPOC 增強(qiáng)功能、改進(jìn)的遷移支持、 HA-NFS 功能集成,以及軟拷貝文檔( HTML 和 PDF )。
1.3.4 HACMP V4.5
在此版本中, AIX 5L 是必需的,并且存在自動(dòng)化的配置發(fā)現(xiàn)功能、每個(gè)網(wǎng)絡(luò)適配器上的多個(gè)服務(wù)標(biāo)簽(通過(guò)使用 IP 別名)、持久 IP 地址支持、 64 位功能的 API ,以及監(jiān)視和從卷組定額喪失中恢復(fù)。
1.3.5 HACMP V5.1
這是引入了重大變更的版本,涵蓋從配置簡(jiǎn)化和性能增強(qiáng)到更改 HACMP 術(shù)語(yǔ)的范圍。
HACMP V5.1 中的部分重要新功能包括:
1) SMIT “標(biāo)準(zhǔn)”和“擴(kuò)展”配置路徑(過(guò)程)
2) 自動(dòng)化的配置發(fā)現(xiàn)
3) 自定義資源組
4) 基于通過(guò)磁盤的心跳檢測(cè)的非 IP 網(wǎng)絡(luò)
5) 快速磁盤接管
6) 卷組的強(qiáng)制啟用( varyon )
7) 通過(guò) IP 別名的心跳檢測(cè)
8) HACMP Classic (HAS) 已被丟棄;現(xiàn)在僅存在基于 IBM 可靠的可伸縮集群技術(shù)的 HACMP/ES
9) 改進(jìn)的安全性,通過(guò)使用集群通信守護(hù)進(jìn)程(消除了對(duì)使用標(biāo)準(zhǔn) AIX “ r ”命令的需要,從而消除了對(duì) /.rhosts 文件的需要)來(lái)實(shí)現(xiàn)
10) 改進(jìn)的集群自定義和同步性能
11) HACMP 術(shù)語(yǔ)的規(guī)范化
12) 配置和維護(hù)的簡(jiǎn)化
13) 在線規(guī)劃工作表增強(qiáng)功能
14) 卷組的強(qiáng)制啟用
15) 自定義資源組
16) 接管節(jié)點(diǎn)上的服務(wù) IP 地址 / 標(biāo)簽的心跳信號(hào)監(jiān)視
17) 通過(guò) IP 別名的心跳檢測(cè)
18) 通過(guò)磁盤的心跳檢測(cè)
19) 各種 C-SPOC 增強(qiáng)功能
20) GPFS 集成
21) 集群驗(yàn)證增強(qiáng)功能
22) 改進(jìn)的資源組管理
1.3.6 HACMP V5.2
從 2004 年 7 月開(kāi)始,新的 HACMP V5.2 添加了管理、配置簡(jiǎn)化、自動(dòng)化和性能方面的更多改進(jìn)功能。
下面是 HACMP V5.2 中的改進(jìn)功能摘要:
1) 兩節(jié)點(diǎn)配置助手,同時(shí)帶有 SMIT 菜單和 Java ? 接口
2) (另外還有 SMIT “標(biāo)準(zhǔn)”和“擴(kuò)展”配置路徑)。
3) 文件收集。
4) 用戶密碼管理。
5) 不再使用傳統(tǒng)資源組,自定義資源組已將其取代。
6) 自動(dòng)化的測(cè)試過(guò)程。
7) 自動(dòng)集群驗(yàn)證。
8) 改進(jìn)的在線規(guī)劃工作表( Online Planning Worksheets , OLPW )現(xiàn)在可以從現(xiàn)有的 HACMP 集群導(dǎo)入配置。
9) 事件管理( Event management , EM )已由資源監(jiān)視和控制( resource monitoring and a control , RMC )子系統(tǒng)( AIX 中的標(biāo)準(zhǔn)組件)所取代。
10) 增強(qiáng)的安全性。
11) 資源組依賴性。
12) 自我修復(fù)的集群。
1.4 高可用性概念
關(guān)鍵環(huán)境中的任何 IT 解決方案的目標(biāo)都是提供連續(xù)的服務(wù)和數(shù)據(jù)保護(hù)。
高可用性只是實(shí)現(xiàn)連續(xù)操作目標(biāo)的一個(gè)構(gòu)件。高可用性基于硬件、軟件(操作系統(tǒng)及其組件)、應(yīng)用程序和網(wǎng)絡(luò)組件的可用性。
若要實(shí)現(xiàn)高可用性解決方案,您需要:
1) 冗余服務(wù)器
2) 冗余網(wǎng)絡(luò)
3) 冗余網(wǎng)絡(luò)適配器
4) 監(jiān)視
5) 故障檢測(cè)
6) 故障診斷
7) 自動(dòng)化的故障轉(zhuǎn)移
8) 自動(dòng)化的重新集成
HACMP 的主要目標(biāo)是消除單點(diǎn)故障 (SPOF) 。
表 1 單點(diǎn)故障
集群對(duì)象 |
消除單點(diǎn)故障的方法 |
節(jié)點(diǎn)(服務(wù)器) |
多個(gè)節(jié)點(diǎn) |
電源 |
多個(gè)電路和 / 或電源 |
網(wǎng)絡(luò)適配器 |
冗余網(wǎng)絡(luò)適配器 |
網(wǎng)絡(luò) |
用于連接節(jié)點(diǎn)的多個(gè)網(wǎng)絡(luò) |
TCP/IP 子系統(tǒng) |
非 IP 網(wǎng)絡(luò)以便為 TCP/IP 提供后備 |
磁盤適配器 |
冗余磁盤適配器 |
磁盤 |
冗余硬件和磁盤鏡像或 RAID 技術(shù) |
應(yīng)用程序 |
配置應(yīng)用程序監(jiān)視和備份節(jié)點(diǎn),以獲取應(yīng)用程序引擎和數(shù)據(jù) |
表 1 中的“集群對(duì)象”列中列出的每個(gè)項(xiàng)目是一個(gè)物理或邏輯組件,如果該組件發(fā)生故障,則會(huì)導(dǎo)致應(yīng)用程序無(wú)法為客戶端提供服務(wù)。
1.5 高可用性與容錯(cuò)的對(duì)比
可以將用于硬件和軟件故障檢測(cè)及處理的系統(tǒng)定義為兩個(gè)組:
1) 容錯(cuò)系統(tǒng)
2) 高可用性系統(tǒng)
1.5.1 容錯(cuò)系統(tǒng)
提供容錯(cuò)功能的系統(tǒng)旨在幾乎無(wú)中斷地操作,而不管可能發(fā)生的故障如何(也許由于自然災(zāi)害導(dǎo)致的完全站點(diǎn)故障除外)。在此類系統(tǒng)中,至少為所有的軟件或硬件組件配置了重復(fù)組件。
因而, CPU 、內(nèi)存和磁盤具有特殊的設(shè)計(jì),即使在一個(gè)子組件發(fā)生故障時(shí)也可以提供連續(xù)的服務(wù)。
此類系統(tǒng)非常昂貴,并且極其專門化。實(shí)現(xiàn)容錯(cuò)解決方案需要大量的精力和所有系統(tǒng)組件的高度自定義。
在不能接受任何停機(jī)時(shí)間的場(chǎng)合(生命保障等等),容錯(cuò)設(shè)備和解決方案是必需的。
1.5.2 高可用性系統(tǒng)
為高可用性而配置的系統(tǒng)是以如下方式配置的硬件和軟件組件的組合:即確保在發(fā)生故障時(shí),能夠使用最短的可接受停機(jī)時(shí)間實(shí)現(xiàn)自動(dòng)化的恢復(fù)。
在此類系統(tǒng)中,相關(guān)軟件將檢測(cè)環(huán)境中的問(wèn)題,然后將應(yīng)用程序傳輸?shù)搅硪慌_(tái)計(jì)算機(jī),從而接管原始計(jì)算機(jī)(節(jié)點(diǎn))的身份。
因而, 消除環(huán)境中的所有單點(diǎn)故障 (SPOF) 是非常重要的 。例如,如果計(jì)算機(jī)只有一個(gè)網(wǎng)絡(luò)連接,則應(yīng)該在同一個(gè)節(jié)點(diǎn)中提供第二個(gè)網(wǎng)絡(luò)接口,以便在提供服務(wù)的主適配器發(fā)生故障時(shí)接管工作。
另一個(gè)重要問(wèn)題是鏡像數(shù)據(jù),并將數(shù)據(jù)放在可從集群中的任何一臺(tái)計(jì)算機(jī)訪問(wèn)的共享磁盤區(qū)域,從而保護(hù)數(shù)據(jù)。
高可用性集群多處理( High Availability Cluster Multi-Processing , HACMP )軟件提供了用于在高度可用的系統(tǒng)中集成應(yīng)用程序的框架和一組工具。
要在 HACMP 集群中集成的應(yīng)用程序需要相當(dāng)多的自定義,此自定義不是在應(yīng)用程序級(jí)別進(jìn)行,而是在 HACMP 和 AIX 平臺(tái)級(jí)別進(jìn)行。
HACMP 是一個(gè)靈活的平臺(tái),允許運(yùn)行在 AIX 平臺(tái)上的通用應(yīng)用程序?qū)崿F(xiàn)集成,從而以合理的成本提供高度可用的系統(tǒng)。
1.6 高可用性解決方案
與其他解決方案相比較,高可用性 (HA) 解決方案可以提供許多優(yōu)點(diǎn)。表 2 描述了一些 HA 解決方案及其特征。
解決方案 |
獨(dú)立系統(tǒng) |
增強(qiáng)的
|
高可用性集群 |
容錯(cuò)系統(tǒng) |
停機(jī)時(shí)間 |
兩天 |
兩小時(shí) |
視情況而定(通常三分鐘) |
永不停機(jī) |
數(shù)據(jù)可用性 |
上次的完全備份 |
上一個(gè)事務(wù) |
上一個(gè)事務(wù) |
無(wú)數(shù)據(jù)損失 |
高可用性解決方案提供了以下優(yōu)點(diǎn):
1) 標(biāo)準(zhǔn)的組件
2) 可與現(xiàn)有的硬件一起使用
3) 適用于幾乎任何應(yīng)用程序
4) 可使用廣泛的磁盤和網(wǎng)絡(luò)類型
5) 以合理成本實(shí)現(xiàn)卓越的可用性
針對(duì) IBM Eserver pSeries 的 IBM 高可用性解決方案提供了一些獨(dú)特的優(yōu)點(diǎn)。此類優(yōu)點(diǎn)包括:
1) 經(jīng)證實(shí)的解決方案(超過(guò) 14 年的產(chǎn)品開(kāi)發(fā)歷史)
2) 靈活性(在獨(dú)立 AIX 系統(tǒng)上運(yùn)行的幾乎任何應(yīng)用程序都可以使用 HACMP 來(lái)保護(hù))
3) 使用“現(xiàn)成的”硬件組件
4) 經(jīng)證實(shí)的客戶支持承諾
5)
提供高可用性解決方案的注意事項(xiàng)包括:
1) 全面的設(shè)計(jì)和詳細(xì)的規(guī)劃
2) 消除單點(diǎn)故障
3) 選擇適當(dāng)?shù)挠布?
4) 正確的實(shí)現(xiàn)(不要走“捷徑”)
5) 訓(xùn)練有素的系統(tǒng)管理實(shí)踐
6) 有文檔記錄的操作過(guò)程
7) 詳盡的測(cè)試
二 . HACMP 概念
2.1 HACMP 基本概念
HACMP 的基本概念可按如下方式進(jìn)行分類:
( 1 )集群拓?fù)? :
包含基本集群成員節(jié)點(diǎn)、網(wǎng)絡(luò)、通信接口、通信設(shè)備和通信適配器。
( 2 )集群資源
將要使其高度可用的實(shí)體(例如,文件系統(tǒng)、原始設(shè)備、服務(wù) IP 標(biāo)簽和應(yīng)用程序)。資源在資源組( resource group , RG )中分組在一起, HACMP 將資源組作為單個(gè)實(shí)體來(lái)保持其高度可用。
資源組可從單個(gè)節(jié)點(diǎn)使用,或在并發(fā)應(yīng)用程序的情況下,可以同時(shí)從多個(gè)節(jié)點(diǎn)使用。
( 3 )故障轉(zhuǎn)移
表示資源組響應(yīng)活動(dòng)節(jié)點(diǎn)上的故障而從該活動(dòng)節(jié)點(diǎn)轉(zhuǎn)移到另一個(gè)節(jié)點(diǎn)(備份節(jié)點(diǎn))。
( 4 )退回
表示資源組在先前的節(jié)點(diǎn)變得可用時(shí)從備份節(jié)點(diǎn)轉(zhuǎn)移到先前的節(jié)點(diǎn)。此轉(zhuǎn)移通常是為了響應(yīng)先前發(fā)生故障的節(jié)點(diǎn)的重新集成。
2.2 HACMP 術(shù)語(yǔ)
要理解 HACMP 的正確功能和用途,必須知道一些重要的術(shù)語(yǔ):
( 1 )集群 (Cluster)
獨(dú)立系統(tǒng)(節(jié)點(diǎn))或 LPAR 的松散耦合的集合,組織到一個(gè)網(wǎng)絡(luò)中以便共享資源和彼此通信。
HACMP 定義了操作系統(tǒng)之間的關(guān)系,其中當(dāng)某個(gè)集群節(jié)點(diǎn)無(wú)法提供服務(wù)時(shí),對(duì)等的集群節(jié)點(diǎn)將提供該節(jié)點(diǎn)所提供的服務(wù)。
在任何集群組件發(fā)生故障的情況下,這些單獨(dú)的節(jié)點(diǎn)共同維持一個(gè)或多個(gè)應(yīng)用程序的功能。
( 2 )節(jié)點(diǎn) (Node)
運(yùn)行 AIX 和 HACMP 的 IBM Eserver pSeries 計(jì)算機(jī)(或 LPAR ),被定義為集群的一部分。每個(gè)節(jié)點(diǎn)都有一個(gè)資源集合(磁盤、文件系統(tǒng)、 IP 地址和應(yīng)用程序),在節(jié)點(diǎn)發(fā)生故障的情況下,可以將該資源集合轉(zhuǎn)移到集群中的另一個(gè)節(jié)點(diǎn)。
( 3 )資源 (Resource)
資源是集群配置的邏輯組件,可從一個(gè)節(jié)點(diǎn)移動(dòng)到另一個(gè)節(jié)點(diǎn)。提供高度可用的應(yīng)用程序或服務(wù)所必需的所有邏輯資源在資源組 (RG) 中分組在一起。
在節(jié)點(diǎn)發(fā)生故障的情況下,資源組中的組件一起從一個(gè)節(jié)點(diǎn)移動(dòng)到另一個(gè)節(jié)點(diǎn)。集群可能具有多個(gè)資源組,從而允許高效地使用集群節(jié)點(diǎn)(從而實(shí)現(xiàn) HACMP 中的“多處理”)。
( 4 )接管 (Takeover)
接管是指在集群內(nèi)的節(jié)點(diǎn)之間轉(zhuǎn)移資源的操作。如果一個(gè)節(jié)點(diǎn)由于硬件問(wèn)題或 AIX 崩潰而發(fā)生故障,其資源應(yīng)用程序?qū)⒁苿?dòng)到另一個(gè)節(jié)點(diǎn)。
( 5 )客戶端 (Client)
客戶端是能夠通過(guò)局域網(wǎng)訪問(wèn)運(yùn)行在集群節(jié)點(diǎn)上的應(yīng)用程序的系統(tǒng)。客戶端運(yùn)行客戶端應(yīng)用程序,連接到運(yùn)行應(yīng)用程序的服務(wù)器(節(jié)點(diǎn))。
三 . HACMP/XD (擴(kuò)展距離)
High Availability Cluster Multi-Processing for AIX (HACMP) 基本軟件產(chǎn)品處理部分連續(xù)操作問(wèn)題。它處理單個(gè)站點(diǎn)的計(jì)算聯(lián)合體中的計(jì)算機(jī)、適配器或局域網(wǎng)的故障恢復(fù)。
圖 2 顯示了典型的 HACMP/XD 高可用性地理集群( High Availability Geographic Cluster , HAGEO )。
若要在發(fā)生重大災(zāi)難(站點(diǎn)故障)的情況下保護(hù)應(yīng)用程序,將需要附加的軟件。 HAGEO 提供了:
( 1 )配置具有地理分離站點(diǎn)的集群的能力。
HAGEO 將 HACMP 擴(kuò)展到包括兩個(gè)地理位置上的遠(yuǎn)程數(shù)據(jù)中心或站點(diǎn)。此擴(kuò)展可以防止個(gè)別站點(diǎn)成為集群中的單點(diǎn)故障。
地理鏡像過(guò)程為每個(gè)站點(diǎn)提供了基本數(shù)據(jù)的更新副本。
任一個(gè)站點(diǎn)都可以運(yùn)行關(guān)鍵應(yīng)用程序,從而確保在故障或?yàn)?zāi)難導(dǎo)致一個(gè)站點(diǎn)失效的情況下,任務(wù)關(guān)鍵型計(jì)算資源在地理上分離的另一個(gè)站點(diǎn)上連續(xù)可用。
( 2 )自動(dòng)的故障檢測(cè)和通知。
HAGEO 與 HACMP 合作提供了站點(diǎn)或地理網(wǎng)絡(luò)故障的自動(dòng)檢測(cè)。它啟動(dòng)恢復(fù)過(guò)程,并將有關(guān)檢測(cè)到的所有故障及其所執(zhí)行的響應(yīng)操作的信息通知系統(tǒng)管理員。
( 3 )自動(dòng)化故障轉(zhuǎn)移
HAGEO 包括事件腳本,以處理站點(diǎn)或地理網(wǎng)絡(luò)故障的恢復(fù)。這些腳本與標(biāo)準(zhǔn) HACMP 事件腳本集成在一起。
可以通過(guò)添加事件前或事件后腳本來(lái)自定義配置的行為,就像對(duì) HACMP 所做的那樣。
( 4 )快速的災(zāi)難恢復(fù)。
HAGEO 還在可操作的站點(diǎn)提供了數(shù)據(jù)和應(yīng)用程序的快速恢復(fù)。地理鏡像過(guò)程確保在災(zāi)難降臨時(shí),數(shù)據(jù)已經(jīng)在第二個(gè)站點(diǎn)可用。
恢復(fù)時(shí)間通常要花幾分鐘,其中不包括應(yīng)用程序恢復(fù)時(shí)間。
( 5 )站點(diǎn)恢復(fù)期間的自動(dòng)數(shù)據(jù)重新同步
HAGEO 作為站點(diǎn)恢復(fù)過(guò)程不可或缺的一部分處理每個(gè)站點(diǎn)上的鏡像的重新同步。重新加入的站點(diǎn)上的節(jié)點(diǎn)將自動(dòng)使用在該站點(diǎn)發(fā)生故障時(shí)接收的數(shù)據(jù)進(jìn)行更新。
( 6 )可靠的數(shù)據(jù)完整性和一致性。
HAGEO 的地理鏡像和地理消息組件確保在站點(diǎn)發(fā)生故障時(shí),幸存站點(diǎn)的數(shù)據(jù)與故障站點(diǎn)的數(shù)據(jù)保持一致。
當(dāng)故障站點(diǎn)重新集成到集群中時(shí), HAGEO 使用來(lái)自可操作站點(diǎn)的最新數(shù)據(jù)來(lái)更新該站點(diǎn),從而再次確保數(shù)據(jù)一致性。
( 7 )靈活、可伸縮的配置。
HAGEO 軟件支持廣泛的配置,允許您按自己的需要配置獨(dú)特的災(zāi)難恢復(fù)解決方案。
HAGEO 集群中最多可以有八個(gè)節(jié)點(diǎn),每個(gè)站點(diǎn)的節(jié)點(diǎn)數(shù)量各不相同。
HAGEO 與文件系統(tǒng)和數(shù)據(jù)庫(kù)無(wú)關(guān),因?yàn)榈乩礴R像設(shè)備的行為與它所支持的磁盤設(shè)備的行為相同。由于鏡像是透明的,配置為使用地理鏡像的應(yīng)用程序不必進(jìn)行任何方式的修改。
3.1 HACMP/XD : HAGEO 組件
該軟件具有三個(gè)重要功能:
( 1 ) GeoMirror :
包括一個(gè)邏輯設(shè)備和在第二個(gè)站點(diǎn)上執(zhí)行鏡像的偽設(shè)備驅(qū)動(dòng)程序;數(shù)據(jù)在一個(gè)站點(diǎn)輸入。 TCP/IP 用作鏡像數(shù)據(jù)的傳輸協(xié)議。
GeoMirror 可以在異步或同步模式下使用,具體取決于站點(diǎn)之間的通信帶寬,以及應(yīng)用程序事務(wù)量(將決定更改的數(shù)據(jù)量)。
( 2 ) GeoMessage :
在兩個(gè)站點(diǎn)的 GeoMirror 設(shè)備之間提供可靠的數(shù)據(jù)和消息傳輸。
( 3 )地理拓?fù)洌?
提供用于將地理鏡像功能與 HACMP 功能集成的邏輯,以提供自動(dòng)的故障檢測(cè)和從影響整個(gè)站點(diǎn)的事件中恢復(fù)。
( 4 )從災(zāi)難中恢復(fù)
當(dāng)災(zāi)難導(dǎo)致站點(diǎn)故障時(shí),幸存站點(diǎn)的節(jié)點(diǎn)上的集群管理器將快速檢測(cè)情況,并采取操作以保持地理鏡像的應(yīng)用程序可用。
同樣,如果集群由于全局地理網(wǎng)絡(luò)故障而被分割,則配置為非主控 (non-dominant) 的站點(diǎn)上的集群管理器將關(guān)閉自身,以便避免數(shù)據(jù)偏差。
3.2 HACMP/XD : HAGEO 基本配置
可以按照 HACMP 基本軟件所支持的任何一種配置來(lái)配置 HAGEO 集群。這些配置包括備用( standby )、單邊接管( one-sided takeover )、相互接管( mutual
takeover )和并發(fā)訪問(wèn)( concurrent access )配置。
( 1 )備用配置
備用配置是一種傳統(tǒng)冗余硬件配置,其中集群中的一個(gè)或多個(gè)節(jié)點(diǎn)保持空閑,直到某個(gè)服務(wù)器節(jié)點(diǎn)發(fā)生故障。
在 HAGEO 中,這轉(zhuǎn)變?yōu)槭褂靡粋€(gè)空閑站點(diǎn)。該站點(diǎn)并非完全空閑,因?yàn)樗€參與了地理鏡像過(guò)程。但是該站點(diǎn)的節(jié)點(diǎn)不執(zhí)行應(yīng)用程序工作。
( 2 )接管配置
在接管配置中,所有節(jié)點(diǎn)都在執(zhí)行處理;不存在空閑節(jié)點(diǎn)。
配置包括:
1) 站點(diǎn)內(nèi)(本地)接管
2) 遠(yuǎn)程單邊接管
3) 遠(yuǎn)程相互接管
( 3 )并發(fā)配置
在并發(fā)訪問(wèn)配置中,一個(gè)站點(diǎn)的所有節(jié)點(diǎn)可以同時(shí)訪問(wèn)并發(fā)卷組,并擁有相同的磁盤資源。
另一個(gè)站點(diǎn)以相同的方式進(jìn)行設(shè)置。
如果某個(gè)節(jié)點(diǎn)離開(kāi)站點(diǎn),資源的可用性不會(huì)受到影響,因?yàn)槠渌?jié)點(diǎn)已啟用并發(fā)卷組。
如果某個(gè)站點(diǎn)發(fā)生故障,另一個(gè)站點(diǎn)可以提供該站點(diǎn)上的節(jié)點(diǎn)所提供的并發(fā)訪問(wèn)。并發(fā)應(yīng)用程序可由集群中的所有節(jié)點(diǎn)訪問(wèn)。
HACMP Cluster Lock Manager 必須在集群中的所有節(jié)點(diǎn)上運(yùn)行。 并非所有數(shù)據(jù)庫(kù)都可用于涉及到跨地理位置的節(jié)點(diǎn)的并發(fā)訪問(wèn)。
3.3 HACMP/XD PPRC 集成功能
在兩個(gè)站點(diǎn)都使用了 IBM Enterprise Storage Server? 并且對(duì)等遠(yuǎn)程復(fù)制( Peer to Peer Remote Copy , PPRC )功能提供了存儲(chǔ)卷鏡像的環(huán)境中,同時(shí)在 HACMP V4.5 PTF5 和 HACMP V5.1 中引入的此功能可以提供自動(dòng)化的站點(diǎn)故障轉(zhuǎn)移和應(yīng)用程序數(shù)據(jù)的遠(yuǎn)程副本激活。
在主站點(diǎn)發(fā)生故障的情況下,數(shù)據(jù)應(yīng)該在輔助站點(diǎn)可供使用(通過(guò) PPRC 進(jìn)行復(fù)制)。必須激活輔助站點(diǎn)中的數(shù)據(jù)副本才能將其用于處理。
HACMP/XD PPRC 集成功能在主站點(diǎn)發(fā)生故障時(shí)提供自動(dòng)化的副本拆分,在主站點(diǎn)變得可用時(shí)提供自動(dòng)化的重新集成。
From :
HACMP 認(rèn)證學(xué)習(xí)系列,第 1 部分:入門
http://www.ibm.com/developerworks/cn/aix/redbooks/HACMP-1/index.html
------------------------------------------------------------------------------
Blog : http://blog.csdn.net/tianlesoftware
網(wǎng)上資源: http://tianlesoftware.download.csdn.net
相關(guān)視頻: http://blog.csdn.net/tianlesoftware/archive/2009/11/27/4886500.aspx
DBA1 群: 62697716( 滿 ); DBA2 群: 62697977( 滿 )
DBA3 群: 62697850 DBA 超級(jí)群: 63306533;
聊天 群: 40132017
-- 加群需要在備注說(shuō)明 Oracle 表空間和數(shù)據(jù)文件的關(guān)系,否則拒絕申請(qǐng)
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
