CLUSTERPRO for Linux システム構築ガイド

CLUSTERPRO for Linux Ver 2.0 入門編第 1 版 2001.12.14

改版履歴版数改版年月日改版ページ内容第 1 版 2001.12.14 Ver1.0 の第 3 版をベースに新規作成 2

はじめに CLUSTERPRO システム構築ガイドはこれからクラスタシステムを設計導入しようとしているシステムエンジニアやすでに導入されているクラスタシステムの保守運用管理を行う管理者や保守員の方を対象にしています CLUSTERPRO は日本電気株式会社の登録商標です Linux は Linus Torvalds 氏の米国およびその他の国における登録商標あるいは商標ですその他のシステム名社名製品名等はそれぞれの会社の商標または登録商標です 3

CLUSTERPRO ドキュメント体系 CLUSTERPRO のドキュメントは CLUSTERPRO をご利用になる局面や読者に応じて以下の通り分冊しています初めてクラスタシステムを設計する場合はシステム構築ガイド入門編を最初に読んでくださいシステム構築ガイド入門編 ( 必須 ) 設計構築運用保守クラスタシステムをはじめて設計構築する方を対象にした入門書ですシステム設計編( 基本 / 共有ディスク ) ( 必須 ) 設計構築運用保守クラスタシステムを設計構築を行う上でほとんどのシステムで必要となる事項をまとめたノウハウ集です構築前に知っておくべき情報構築にあたっての注意事項などを説明していますシステム設計編( 応用 ) ( 選択 ) 設計構築運用保守設計編 ( 基本 ) で触れなかったCLUSTERPROのより高度な機能を使用する場合に必要となる事項をまとめたノウハウ集ですクラスタ生成ガイド( 共有ディスク ) ( 必須 ) 設計構築運用保守 CLUSTERPROのインストール後に行う環境設定を実際の作業手順に沿って分かりやすく説明しています運用/ 保守編 ( 必須 ) 設計構築運用保守クラスタシステムの運用を行う上で必要な知識と障害発生時の対処方法やエラー一覧をまとめたドキュメントです GUI リファレンス ( 必須 ) 設計構築運用保守クラスタシステムの運用を行う上で必要な CLUSTERPRO マネージャなどの操作方法をまとめたリファレンスですコマンドリファレンス ( 選択 ) 設計構築運用保守 CLUSTERPROのスクリプトに記述できるコマンドやサーバから実行できる運用管理コマンドについてのリファレンスですトレッキングツール編 ( 選択 ) 設計構築運用保守 CLUSTERPROトレッキングツールの操作方法を説明したリファレンスです分冊 (GUI システム構成( 共有ディスクシステム )) しています 4

目次 1 CLUSTERPRO の概要... 6 1.1 クラスタシステム導入の効果... 6 1.2 フェイルオーバ型クラスタ... 7 1.2.1 障害監視のしくみ... 7 1.2.2 監視できる障害と監視できない障害... 8 1.2.3 フェイルオーバのしくみ... 9 1.2.4 フェイルオーバ資源... 10 1.3 クラスタシステムの構成と運用形態... 11 1.3.1 スーパークラスタ... 11 1.3.2 サブクラスタ... 12 1.3.3 フェイルオーバ型クラスタのシステム構成... 12 2 クラスタシステムの構築から運用... 14 2.1 クラスタシステムの構築... 14 2.2 運用前の評価と障害復旧マニュアルの作成... 15 2.2.1 障害発生個所と偽証評価... 15 2.2.2 状態遷移評価... 16 2.2.3 パラメータ調整... 16 2.3 フェイルオーバ型クラスタシステムの運用... 17 3 高度なクラスタ... 19 3.1 さらに信頼性を高めるために... 19 3.1.1 アプリケーション障害への対策... 19 3.1.2 ハードウェア障害 OSの部分障害への対策... 19 3.1.3 CLUSTERPROコマンド... 19 4 付録... 20 4.1 用語集... 20 5

1 CLUSTERPRO の概要近年 Linux の適用範囲が広がりミッションクリティカルな分野にも使用され始めましたこのため Linux サーバシステムにも可用性や拡張性がより一層強く求められ脚光を浴びているのがクラスタシステムです CLUSTERPRO はクラスタシステムを支えるミドルウェアであり可用性拡張性の高いシステムを構築できる幅広い製品を提供しています 1.1 クラスタシステム導入の効果クラスタシステムとは複数のサーバを協調動作させ一台のサーバでは達成できない高い可用性と拡張性を提供するシステムを指し CLUSTERPRO によるクラスタシステムの導入により次の効果を得られます * 高可用性クラスタを構成するサーバのうち一台が障害などにより停止してもそのサーバが処理していた業務を他の健全なサーバへ自動的に引き継ぐことにより障害時の業務停止時間を最小限に抑えます 6

1.2 フェイルオーバ型クラスタフェイルオーバ型クラスタシステムはサーバ内で発生する種々の障害を監視し障害発生時に業務を他サーバに移動 ( フェイルオーバ ) します 1.2.1 障害監視のしくみ (1) サーバ監視サーバ監視とはフェイルオーバ型クラスタシステムの最も基本的な監視機能でクラスタを構成するサーバが停止していないかを監視する機能です CLUSTERPRO はサーバ監視のために定期的にサーバ同士で生存確認を行いますこの生存確認をハートビートと呼びますハートビートは以下の通信パスを使用して行います * インタコネクト専用 LAN フェイルオーバ型クラスタ専用の通信パスで一般の Ethernet NIC を使用しますハートビートを行うと同時にサーバ間の情報交換に使用します * パブリック LAN クライアントと接続している通信パスを予備のインタコネクトとして使用します TCP/IP が使用できる NIC であればどのようなものでも構いませんインタコネクト専用 LAN の異常時にはサーバ間の情報交換にも使用します * 共有ディスク NEC Express5800/130Dpro 1 インタコネクト専用 LAN 2 パブリック LAN 3 共有ディスク 4 COM ポートフェイルオーバ型クラスタを構成する全てのサーバに接続されたディスク上に CLUSTERPRO 専用のパーティション (CLUSTER パーティション ) を作成し CLUSTER パーティション上でハートビートを行います他サーバに障害が発生した場合にこの経路による最終確認を行うことによってネットワークパーティション症状によるデータ破壊を防ぎます * COM ポートフェイルオーバ型クラスタを構成するサーバ間を COM ポートを介して通信を行い他サーバの生存を確認しますここでの通信はネットワークパーティション症状の解決に用います 2 1 4 3 NEC Express5800/130Dpro ネットワークパーティション症状 (Sprit-brain-syndrome) とはクラスタサーバ間の全ての通信路に障害が発生しネットワーク的に分断されてしまう状態のことネットワークパーティション症状に対応できていないクラスタシステムでは通信路の障害とサーバの障害を区別できず同一資源を複数のサーバからアクセスしデータ破壊を引き起こす場合がありますこれらの通信経路を使用することでサーバ間の通信の信頼性は飛躍的に向上しネットワークパーティション症状の発生を防ぎます 7

(2) 業務監視業務監視とは業務アプリケーションそのものや業務が実行できない状態に陥る障害要因を監視する機能です * アプリケーションの死活監視 CLUSTERPRO の armload 1 コマンドによりアプリケーションを起動し定期的にプロセスの生存を確認することで実現します業務停止要因が業務アプリケーションの異常終了である場合に有効です < 注意 > CLUSTERPRO が直接起動したアプリケーションが監視対象他の常駐プロセスを起動し終了してしまうようなアプリケーションでは常駐プロセスの異常を検出することはできませんアプリケーションの内部状態の異常は監視できないアプリケーションのストールや結果異常を検出することはできません * リソースの監視 CLUSTERPRO のリソース監視 2 リソースによりクラスタ資源 ( ディスクパーティション IP アドレスなど ) やパブリック LAN の状態を監視することで実現します業務停止要因が業務に必要な資源の異常である場合に有効です (3) 内部監視 CLUSTERPRO 内部のモジュール間相互監視です CLUSTERPRO の各監視機能が正常に動作していることを監視します次のような監視を CLUSTERPRO 内部で行っています * CLUSTERPRO 本体プロセスと CLUSTERPRO 監視プロセスとの相互監視 * 各種ハートビートスレッドのストール監視 1.2.2 監視できる障害と監視できない障害 (1) サーバ監視監視条件 : 障害サーバからのハートビートが途絶 * 監視できる障害の例 + ハードウェア障害 (OS が継続動作できないもの ) + panic * 監視できない障害の例 + OS の部分的な機能障害 ( マウス / キーボードのみが動作しない等 ) (2) 業務監視監視条件 : 障害アプリケーションの消滅継続的なリソース異常あるネットワーク装置への通信路切断 * 監視できる障害の例 + アプリケーションの異常終了 1 armloadコマンドの詳細についてはシステム構築ガイドコマンドリファレンスを参照してください 2リソース監視についてはシステム構築ガイドシステム設計編 ( 応用 ) を参照してください 8

+ 共有ディスクへのアクセス障害 (HBA 3 の故障など ) + パブリック LAN NIC の故障 * 監視できない障害の例 + アプリケーションのストール / 結果異常 = アプリケーションのストール / 結果異常を CLUSTERPRO で直接監視することはできませんがアプリケーションを監視し異常検出時に自分自身を終了するプログラムを作成しそのプログラムを ARMLOAD コマンドで監視することでフェイルオーバを発生させることは可能です 1.2.3 フェイルオーバのしくみ CLUSTERPRO ではフェイルオーバ開始前に検出した障害がサーバの障害かネットワークパーティション症状かを判別しますこの後健全なサーバ上で各種資源を活性化し業務アプリケーションを起動することでフェイルオーバを実行しますこのとき同時に移動する資源の集まりをフェイルオーバグループと呼びますフェイルオーバグループは利用者から見た場合仮想的なコンピュータとみなすことができます < 注意 > クラスタシステムではアプリケーションを健全なノードで起動しなおすことでフェイルオーバを実行しますこのためアプリケーションのメモリ上に格納されている実行状態をフェイルオーバすることはできません障害発生からフェイルオーバ完了までの時間は数分間必要です以下にタイムチャートを示します障害発生フェイルオーバ完了障害検出フェイルオーバ開始ハートビートタイムアウトネットワークハーティション解決各種資源活性化 ( ディスク, IPアドレス, ) ファイルシステム復旧アプリケーション復旧処理再起動 * ハートビートタイムアウト + 業務を実行しているサーバの障害発生後待機系がその障害を検出するまでの時間です + 業務の負荷に応じてクラスタプロパティの設定値を調整します ( 出荷時設定では 30 秒に設定されています ) * ネットワークパーティション解決 + 検出した相手サーバの障害がネットワークパーティション症状によるものか実際に相手サーバが障害を起こしたのかを確認するための時間です + CLUSTER パーティションへのアクセス時間やハートビートタイムアウト値などに連動して必要な時間が変化します ( 出荷時設定では 30 秒以上 60 秒以下で解決するように設定されています ) 3 Host Bus Adapter の略で共有ディスク側ではなくサーバ本体側のアダプタのことです 9

* 各種資源活性化 + 業務で必要な資源を活性化するための時間です + 一般的な設定では数秒で活性化しますがフェイルオーバグループに登録されている資源の種類や数によって必要時間は変化します ( 詳しくはシステム構築ガイドシステム設計編 ( 基本 ) を参照してください ) * 開始スクリプト実行時間 + データベースのロールバック / ロールフォワードなどのデータ復旧時間と業務で使用するアプリケーションの起動時間です + ロールバック / ロールフォワード時間などはチェックポイントインターバルの調整である程度予測可能です詳しくは各ソフトウェア製品のドキュメントを参照してください 1.2.4 フェイルオーバ資源 CLUSTERPRO がフェイルオーバ対象とできる主な資源は以下のとおりです * 切替パーティション + 業務アプリケーションが引き継ぐべきデータを格納するためのディスクパーティションです * フローティング IP アドレス + フローティング IP アドレスを使用して業務へ接続することでフェイルオーバによる業務の実行位置 ( サーバ ) の変化をクライアントは気にする必要がなくなります + パブリック LAN アダプタへの IP アドレス動的割り当てと ARP パケットの送信により実現していますほとんどのネットワーク機器からフローティング IP アドレスによる接続が可能です < 注意 > ARP パケットを受信することで ARP テーブルを更新できるネットワーク機器であればフローティング IP アドレスでの接続が可能です * スクリプト + CLUSTERPRO では業務アプリケーションをスクリプトから起動します + 共有ディスクにて引き継がれたファイルはファイルシステムとして正常であってもデータとして不完全な状態にある場合がありますスクリプトにはアプリケーションの起動のほかフェイルオーバ時の業務固有の復旧処理も記述します 10

1.3 クラスタシステムの構成と運用形態 1.3.1 スーパークラスタスーパークラスタはフェイルオーバ型クラスタを束ねた管理単位です一つのスーパークラスタで管理できるサブクラスタ数は最大 128 となりますスーパークラスタパブリック LAN NEC Express5800/130Dpro NEC Express5800/130Dpro NEC Express5800/130Dpro NEC Express5800/130Dpro データデータ共有ディスクサブクラスタ共有ディスクサブクラスタ 11

1.3.2 サブクラスタサブクラスタはスーパークラスタの下に作成するフェイルオーバ型クラスタです一つのサブクラスタは 2~16 台のサーバを持つことができますただし共有ディスクを接続するサブクラスタは 2 サーバ構成のみとなりますまた一つのサブクラスタ内に共有ディスクを接続するサーバと接続しないサーバとを共存させることはできません 1.3.3 フェイルオーバ型クラスタのシステム構成フェイルオーバ型クラスタはディスクアレイ装置をクラスタサーバ間で共有しますサーバ障害時には待機系サーバが共有ディスク上のデータを使用し業務を引き継ぎますパブリック LAN インタコネクト専用 LAN NEC Express5800/130Dpro NEC Express5800/130Dpro CLUSTERPRO OS OS データ共有ディスクフェイルオーバ型クラスタでは運用形態により次のように分類できます (1) 片方向スタンバイクラスタ一方のサーバを運用系として業務を稼動させ他方のサーバを待機系として業務を稼動させない運用形態です最もシンプルな運用形態でフェイルオーバ後の性能劣化のない可用性の高いシステムを構築できます業務 AP 業務 AP フェイルオーバ 12

(2) 同一アプリケーション双方向スタンバイクラスタ複数のサーバである業務アプリケーションを稼動させ相互に待機する運用形態ですアプリケーションは双方向スタンバイ運用をサポートしているものでなければなりませんある業務データを複数に分割できる場合にアクセスしようとしているデータによってクライアントからの接続先サーバを変更することでデータ分割単位での負荷分散システムを構築できます業務 AP 業務 AP 業務 AP 業務 AP フェイルオーバ図の業務 AP は同一アプリケーションフェイルオーバ後に一つのサーバ上で複数の業務 AP インスタンスが動く (3) 異種アプリケーション双方向スタンバイクラスタ複数の種類の業務アプリケーションをそれぞれ異なるサーバで稼動させ相互に待機する運用形態ですアプリケーションが双方向スタンバイ運用をサポートしている必要はありません業務単位での負荷分散システムを構築できます業務 1 業務 1 業務 2 業務 2 フェイルオーバ業務 1 と業務 2 は異なるアプリケーションを使用 13

2 クラスタシステムの構築から運用 2.1 クラスタシステムの構築クラスタシステムの構築は下記のように行います下記に記述した点について注意しクラスタシステムを構築しますインストール手順や設定方法の詳細についてはクラスタ生成ガイドを参照してください (1)OS のインストール OS を各サーバにインストールします (2)CLUSTERPRO のインストール 1) CLUSTERPRO サーバ * クラスタサーバに CLUSTERPRO サーバをインストールクラスタ生成ガイド ( 共有ディスク編 ) CLUSTERPRO サーバのインストールを参照してください * インストール後の設定クラスタ生成ガイド ( 共有ディスク編 ) インストール後の設定を参照してください 2) CLUSTERPRO マネージャ * 管理端末に CLUSTERPRO マネージャをインストールクラスタ生成ガイド ( 共有ディスク編 ) CLUSTERPRO マネージャのインストールを参照してください 3) クラスタ生成 - サーバ追加 - グループ追加 * CLUSTERPRO マネージャから行うクラスタ生成ガイド ( 共有ディスク編 ) CLUSTERPRO マネージャによるクラスタの生成を参照してください (3) 業務アプリケーションのインストール業務で使用するアプリケーションをインストール 14

2.2 運用前の評価と障害復旧マニュアルの作成本番運用前に本番時の負荷や障害を想定した評価を行い作成したスクリプトの動作の確認やパラメタ調整を行いますこの評価に基づいて障害発生時の復旧マニュアルを作成してください 2.2.1 障害発生個所と偽証評価障害発生個所を洗い出し偽証評価を行います例えば次のような障害個所が考えられます障害個所主な障害内容業務継続性サーバ本体 CPU 故障 (OS panic) 1 ディスプレイ / キーボード / マウス故障 7 HDD 一台故障ディスクアレイ HDD 複数台故障共有装置コントローラ故障 2 ディスク SCSI ケーブル断線終端故障 2 HBA アダプタ故障 (OS panic) 1 (Host Bus Adapter) アダプタ故障 (I/Oエラー) 3 LAN インタコネクトLAN NIC 故障ケーブル断線 HUB/Switch 故障パブリックLAN NIC 故障 4 ケーブル断線 HUB/Switch 故障 4 OS panic 1 ソフトウェア業務アプリケーションの停止 5 業務アプリケーションのストール 6 : 業務の継続が可能 : CLUSTERPRO またはハードウェアの機能により業務の継続が可能 : 業務の継続はできない 1: フェイルオーバが発生し待機系で業務を継続する 2: SCSI バスを二重化することで正常なパスで業務を継続する 3: リソース監視を使用することでディスク資源の障害を検出しフェイルオーバを実行し待機系で業務を継続する 4: リソース監視を使用することでディスク資源の障害を検出しフェイルオーバを実行し待機系で業務を継続する 5: armload を使用しアプリケーションの障害を検出しフェイルオーバを実行し待機系で業務を継続する 6: 業務アプリケーションに合わせたアプリケーションモニタを作成することでストール検出しフェイルオーバを実行し待機系で業務を継続する 7: ディスプレイ / キーボード / マウス故障が直接業務の停止に結びつかない場合 15

2.2.2 状態遷移評価運用に即した評価項目を作成しクラスタシステムの状態遷移評価を行います 2 ノードのフェイルオーバ型クラスタが存在するシステムでは次のような評価項目が考えられます評価項目操作確認内容起動クラスタ起動スーパークラスタを構成する全全てのサーバおよびグループがてのサーバを起動する正常に起動するフェイルオーバ型クラス運用系サーバのみ起動するタの運用系のみ起動フェイルオーバ型クラス待機系サーバのみ起動する OS 起動後 5 分間待機系の起動を待ち合わせた後フェイルオーバグループが起動するタの待機系のみ起動シャットダウンスーパークラスタをシャットダ全てのサーバがシャットダウンウンするする (CLUSTERPROマネージャをまた再起動後に全てのサーバお使用 ) よびグループが正常になることを確認するフェイルサーバ切り離し現用系サーバをクラスタから切現用系サーバがクラスタから切オーバり離すり離されフェイルオーバが発生 (CLUSTERPROマネージャをする使用 ) フェイルオーバ後に業務が継続サーバシャットダウン現用系サーバをOSからシャッできるトダウンするサーバ電源切断シャットダウンを行わず現用系サーバの電源を切断するフェイル移動フェイルオーバグループを移動フェイルオーバグループが待機オーバグ / 停止 / 起動する系へ移動するループ (CLUSTERPROマネージャを移動後業務が継続できる停止使用 ) 切り替えパーティションの切り離しに失敗しない起動フェイルオーバグループが起動する起動後業務が開始できる障害復旧片サーバダウンクラスタから切り離されているクラスタに組み込まれ待機系にからの復帰サーバをクラスタに復帰する (CLUSTERPROマネージャを使用 ) なる両サーバダウンからの復適切なサーバをクラスタに強制クラスタ状態が正常状態になる帰復帰し他のサーバを復帰するこの時点ではグループは停止状 (CLUSTERPROマネージャを態となる使用 ) 2.2.3 パラメータ調整下記の項目はシステム構成に応じて調整をする必要があります項目調整方法ハートビートタイムアウト時間サーバに業務で発生する最大負荷をかける ( その状況で不正にフェイルオーバが起きないこと ) 立ち上げ同期の猶予時間全てのサーバの起動時間差を計測するスクリプトタイムアウト時間スクリプトの最大実行時間を計測する OS 起動時間共有ディスクの起動にかかる最大時間を設定 16

2.3 フェイルオーバ型クラスタシステムの運用クラスタシステムの運用手順や注意点をまとめます CLUSTERPRO マネージャの具体的な操作については CLUSTERPRO 構築ガイド GUI リファレンスを参照してください (1) クラスタ起動 * サブクラスタのサーバは立ち上げ猶予時間内に電源を投入します (2) クラスタシャットダウン * CLUSTERPRO マネージャにてクラスタを選択しクラスタシャットダウンを行います (3) 現用系ダウン * 自動的にフェイルオーバする場合 + 現用系サーバがダウンした場合 CLUSTERPRO マネージャ画面でダウンしたサーバが赤く表示され自動的に待機系へのフェイルオーバが発生します * 自動的にフェイルオーバしない場合 + OS の一部機能のストールやアプリケーションのストールなど CLUSTERPRO が自動でフェイルオーバできない場合現用系サーバをシャットダウンまたはダンプスイッチの押下などを行い現用系サーバを完全にダウンさせてくださいこれによって CLUSTERPRO は相手サーバのダウンに気づき待機系へフェイルオーバを実行します + このときできる限り障害サーバの電源は切断してください (4) 障害サーバの復帰 CLUSTERPRO では障害発生後にサーバを再起動するとそのサーバは自動的にクラスタから切り離された状態になりますそのサーバを待機状態に戻すためには障害原因を取り除いた後クラスタへ復帰させる必要があります CLUSTERPRO マネージャにてクラスタから切り離されたサーバをクラスタに復帰します < 注意 > クラスタから切り離された状態でも CLUSTERPRO の状態確認などの通信を行っていますこのためネットワークや HBA など他のサーバと接続している部位を保守する場合はクラスタシステムからハードウェア的に切り離して ( ネットワークおよび共有ディスクが接続されていない状態で ) 作業してください 17

(5) サブクラスタ内のサーバの保守 ( ローリングアップグレード ) メモリ追加などのサブクラスタ内のサーバ保守はサーバを 1 台ずつアップグレード ( ローリングアップグレード ) することでシステム停止時間を最小限にとどめることが可能です以下の手順で行います (1) 待機系サーバの切り離し CLUSTERPRO マネージャから待機系サーバを選択しサーバ切り離しを行います (2) 待機系サーバにメモリを追加し再起動します (3) 待機系サーバの復帰 CLUSTERPRO マネージャで待機系サーバを選択しサーバ復帰を行います (4) グループ移動 CLUSTERPRO マネージャで運用系サーバで動作しているグループを待機系サーバへ移動します (5) 運用系サーバの切り離し (6) 運用系サーバにメモリを追加し再起動します < 注意 > ソフトウェアのローリングアップグレードは運用系と待機系でソフトウェアリビジョンが変わることによる弊害が考えられます共有ディスク上のデータの互換性など問題が無いことが分かっている場合にのみ行ってください (6) 全てのサーバがダウンした場合の復帰何らかの原因で全てのサーバがダウンしてしまった場合は信頼できるクラスタ情報を持っているサーバを CLUSTERPRO で判断できないためサーバの復帰をできませんこの状態からの復帰は以下の手順で行います (1) CLUSTERPROマネージャからクラスタ情報のベースとなるサーバを選択してサーバ強制復帰を行います (2) CLUSTERPROマネージャから残りのサーバを復帰させます (3) CLUSTERPROマネージャからフェイルオーバグループを起動します 18

3 高度なクラスタ 3.1 さらに信頼性を高めるために 3.1.1 アプリケーション障害への対策アプリケーションのストールや結果異常など armload コマンドでは検出できない障害に対応するためにはアプリケーションごとの内部事情を理解した上でアプリケーションの状態を監視するようなモニタプログラムを作成します例えば定期的にデータベースへアクセスし一定時間応答がないなどストールしていると判断できる場合にサーバをシャットダウンすることでデータベースアプリケーションのストール監視を行うことができますまたアプリケーションの使用メモリ容量や使用ディスク容量を監視し異常に消費している場合フェイルオーバグループを移動するという方法も考えられますこのようなモニタプログラムはサーバのシャットダウンやフェイルオーバのために CLUSTERPRO コマンド (armdown armfover) を利用することができます詳しくはシステム構築ガイドシステム設計編 ( 応用 ) を参照してください 3.1.2 ハードウェア障害 OS の部分障害への対策ハードウェア障害のうちいくつかは業務が停止する前に syslog などに警告または異常を登録しますこれらを監視することで CLUSTERPRO が直接検出できない障害をフェイルオーバ対象とすることができますこれは次の方法でハードウェア障害の発生を検出し CLUSTERPRO へフェイルオーバ指示を出すことで実現します * ESMPRO/ServerAgent による障害監視同様の方法によってメモリやディスクの使用量などを監視し OS が障害に陥る前に事前に障害の種を検出しフェイルオーバを行うことで OS の部分障害による業務停止を防ぐことも考えられます 3.1.3 CLUSTERPRO コマンド CLUSTERPRO では armload や armrsp など高可用性を実現するためのコマンドフェイルオーバグループのスクリプトの記述を容易にするためのコマンドやクラスタシステムを運用管理するためのコマンドを用意しています詳しくはシステム構築ガイドコマンドリファレンスを参照してください 19

4 付録 4.1 用語集用語あインタコネクトか仮想 IPアドレス管理クライアント起動属性共有ディスク共有ディスクシステム切替パーティション切替ミラーディスククラスタシステムクラスタ復帰クラスタシャットダウンクロスコールディスク説明クラスタサーバ間の通信パス ( 関連 ) プライベート LAN パブリック LAN フェイルオーバした場合クライアントのアプリケーションが接続先のサーバ切り替えを意識することなく行うために CLUSTERPROが使用する仮想的なIPアドレス ( 関連 ) 実 IPアドレス CLUSTERPROマネージャが起動されているマシンクラスタ起動時自動的にフェイルオーバグループを起動するか手動で起動するかを決定するフェイルオーバグループの属性管理クライアントより設定が可能複数サーバよりアクセス可能なディスク共有ディスクを使用するクラスタシステム複数のコンピュータに接続され切り替えながら使用可能なディスクパーティション ( 関連 ) 共有パーティション CLUSTERパーティションディスクミラーリングを行うことにより同一のディスクに接続されているように使用することが可能なディスク ( 関連 )CLUSTERパーティション複数のコンピュータをLANなどでつないで 1つのシステムのように振る舞わせるシステム形態障害によりクラスタから切り離されたサーバを復旧後正常なクラスタに戻すこと CLUSTERPROマネージャよりクラスタシステムを構成しているサーバをクラスタとして正常にシャットダウンさせること 2サーバよりアクセス可能なディスク現用系ある一つの業務セットについて業務が動作しているサーバ ( 関連 ) 待機系さサブクラスタ配下のフェイルオーバ型クラスタを構成するサーサーババスーパークラスタ配下に作成するクラスタサブクラスタフェイルオーバ型クラスタを構成する CLUSTERPROの最上位の管理単位スーパークラスタ配下にフェイルオーバを行うサブクラスタを作成することができるスーパークラスタ管理サースーパークラスタ内の各クラスタの構成情報を一元管理するサーババフェイルオーバ型クラスタに所属していなければならない 20

用語セカンダリ ( サーバ ) 実 IP アドレスた待機系ネットワークパーティション症状はハートビートパブリック LAN フェイルオーバ説明通常運用時フェイルオーバグループがフェイルオーバする先のサーバ ( 関連 ) プライマリサーバ仮想 IPアドレスに対し各マシンに通信のために設定されたIPアドレス ( 関連 ) 仮想 IPアドレス現用系ではない方のサーバ ( 関連 ) 現用系インタコネクトを使用して行うハートビートがLAN 障害により両方とも途切れてしまうこと ( 関連 ) インタコネクトハートビートサーバ間の監視のために定期的に送信しあうこと ( 関連 ) インタコネクトネットワークパーティションサーバ / クライアント間通信パスのこと ( 関連 ) インタコネクトプライベートLAN 待機系が現用系上の業務アプリケーションを引き取ることフェイルバックフェイルオーバグループフェイルオーバした後に両サーバを再起動させて業務を本来の現用系に戻すこと業務を実行するのに必要なクラスタ資源属性の集合フェイルオーバグループの両サーバの再起動をせずにフェイルバックを実行させること移動フェイルオーバ可能なサーバリストとその中でのフェイルオーバフェイルオーバポリシ優先順位を持つ属性インタコネクト専用 LANと同じ意味で使用プライベートLAN ( 関連 ) インタコネクトパブリックLAN フェイルオーバグループでの基準で主となるサーバプライマリ ( サーバ ) ( 関連 ) セカンダリ ( サーバ ) フェイルオーバが発生したときクライアントのアプリケーションが接続先サーバの切り替えを意識することなく使用できるIPアフローティングIPアドレスドレスクラスタサーバが所属するLANと同一のネットワークアドレス内で他に使用されていないホストアドレスを割り当てるまマスタクラスタミラーディスクシステムスーパークラスタ管理サーバが所属するフェイルオーバ型クラスタ共有ディスクを使用しないクラスタシステムサーバのローカルディスクをサーバ間でミラーリングする 21

ミラーディスクシステム用語 C CLUSTER パーティション S Sprit-brain-syndrome 共有ディスクを使用しないクラスタシステムサーバのローカルディスクをサーバ間でミラーリングする説明相手サーバの監視を行う CLUSTERPRO 専用パーティション ( 関連 ) 共有パーティション切替パーティションネットワークパーティション症状 22