CLUSTERPRO for Linux システム構築ガイド

Similar documents
Microsoft Word - L20_sys_xcall_3.doc

Microsoft Word - L20_sys_mirror_2.doc

CLUSTERPRO/システム構築ガイド

CLUSTERPRO X IIJ GIO インフラストラクチャー P2 動作検証報告 2017 年 11 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPROグループ 1 NEC Corporation 2017

Windows Server 2003 Service Pack 適用手順書

CLUSTERPRO MC ProcessSaver 2.3 for Windows 導入ガイド 第 5 版 2018 年 6 月 日本電気株式会社

Windows Server 2003 Service Pack 適用手順書

CLUSTERPRO MC ProcessSaver 1.2 for Windows 導入ガイド 第 4 版 2014 年 3 月 日本電気株式会社

人と地球にやさしい情報社会を イノベーションで実現する グローバルリーディングカンパニー NEC グループビジョン 2017 Page 2

CLUSTERPROXSingleServerSafe SingleServerSafe ご紹介 2007 年 10 月

クラスタ構築手順書

Windows Server 2003 Service Pack 適用手順書

CLUSTERPRO MC ProcessSaver 2.1 for Windows 構築ガイド 2016(Mar) NEC Corporation はじめに 責任範囲 適用範囲 概要 事前準備 クラスタ設定

CLUSTERPRO MC RootDiskMonitor 1.0 for Windows FAQ 集 2013(Mar) NEC Corporation 導入に関する質問 運用に関する質問 動作環境に関する質問

CLUSTERPRO MC ProcessSaver 1.0 for Windows 構築ガイド 2012(Sep) NEC Corporation はじめに責任範囲適用範囲概要事前準備クラスタ設定

CLUSTERPRO SSS 導入編

改版履歴 版数改版履歴改版年月日 1 新規作成 2013/3/29 2 TESTIO_MODE を追加 OVER_ACTION VG_STALL_ACTION の設定値を変更 2013/9/30 3 CLUSTERPRO MC StorageSaver for BootDisk (for Linux

CLUSTERPRO システム構築ガイド


CLUSTERPRO X OperationHelper 3.2 for Windows Server Failover Cluster 製品ご紹介資料 2017 年 9 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPRO グループ ( グローバル プロモーションチーム )

DHCPサーバのクラスタ化

PowerPoint プレゼンテーション

BIGLOBEクラウドホスティングAPIリファレンス

改版履歴 版数改版履歴改版年月日 1.0 新規作成 2015/03/31 Page 2 NEC Corporation 2015

CLUSTERPRO MC StorageSaver 2.0 for Windows 導入ガイド 第 1 版 2015 年 3 月 日本電気株式会社

改版履歴 Ver. 日付履歴初版 2014/7/10 - 目次 1. はじめに クラスター構築の流れ Windows Server Failover Cluster をインストールするための準備 OS のセットアップ時の注意... -

CLUSTERPRO X 4.0 for FileMaker Server ご紹介資料

NFS On CLUSTERPRO for Linux

CLUSTERPRO システム構築ガイド

LANスイッチブレード活性交換作業時の確認事項およびその付随作業

CLUSTERPRO X 4.1 for FileMaker Server ご紹介資料

クラスタ環境でのデータベースのアップグレード手順

CLUSTERPRO X for Windows PPガイド

クラスタ環境でのデータベースのアップグレード

はしがき 本書は CLUSTERPRO MC ProcessSaver 1.0 for Linux ( 以後 ProcessSaver と記載します ) と CLUSTERPRO X 3.1 for Linux ( 以後 CLUSTERPRO と記載します ) を組み合わせて フェイルオーバクラスタ

CLUSTERPRO/システム構築ガイド

改版履歴 版数改版履歴改版年月日 1.0 新規作成 2013/03/ OverAction と DiskStallAction の値変更 (ActionNone ServiceCmdDisable ProcessOfRdmstatKillEnable ServiceCmdEnable)

SigmaSystemCenter ネットワークアダプタ冗長化構築資料 第 3 版

CLUSTERPRO/システム構築ガイド

Oracle Database 監視製品の使い分け 2017 年 10 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPROグループ

CLUSTERPRO MC StorageSaver 1.2 for Linux パラメータシート 第 4 版 2014 年 3 月 31 日 日本電気株式会社

CLUSTERPRO MC (HA シリーズ ) のご紹介 2013/4/1 NEC システムソフトウェア事業部 CLUSTERPRO グループ

CLUSTERPRO X VMware vSphere 6.0/6.5 ゲストOS間クラスタ システム構築ガイド

改版履歴 Ver. 日付履歴 1.0 版 2014/5/30 目次 0 はじめに 本文中の記号について Windows Server Failover Cluster をインストールするための準備 Windows Server Failover

SAMBA Stunnel(Windows) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxx 部分は会社様によって異なります xxxxx 2 Windows 版ダウンロード ボ

PRIMERGYの遠隔管理 リモートマネジメントご紹介

CLUSTERPRO X 3.3 for Windows インストール & 設定ガイド


CLUSTERPRO MC StorageSaver 1.1 for Linux リリースメモ 2015(Jun) NEC Corporation ライセンス パッケージのインストール セットアップ マニュアル 補足事項 注意事項

CLUSTERPRO for Linux PostgreSQL HowTo

FUJITSU Software Systemwalker Centric Manager Lite Edition V13.5 機能紹介資料

CLUSTERPRO X 3.2 for FileMaker Server 13 ご紹介資料 2015 年 8 月日本電気株式会社クラウドプラットフォーム事業部 CLUSTERPRO グループ ( グローバル プロモーションチーム )

CLUSTERPRO X 3.0 for Windows インストール & 設定ガイド

クラスタ連携ガイド MSCS/MSFC 編

CLUSTERPRO/システム構築ガイド

kaisetu.book

CLUSTERPRO/システム構築ガイド

VG シリーズ用ローカルファームアップ / 自動ファームウェア更新設定手順書 VG400aⅡ ローカルファームアップ / 自動ファームウェア更新設定手順書

Hi-Available Mail on CLUSTERPRO for Linux HOWTO

CLUSTERPRO MC ProcessSaver 2.2 for Linux 構築ガイド 2017(Oct) NEC Corporation 責任範囲 適用範囲 概要 事前準備 クラスター設定 動作確認

CLUSTERPRO MC StorageSaver 2.2 for Linux リリースメモ 2017(Apr) NEC Corporation ライセンス パッケージのインストール セットアップ マニュアル 補足事項 注意事項

CLUSTERPRO X for Windows PPガイド (Arcserve Backup)

CLUSTERPRO for Linux MySQL HowTo

目次 基本構成 推奨する主な構成. 仮想マシン用ライセンス概要. VMware vsphere 5 環境の高可用構成 2. ライセンス体系 2. VMware vsphere 4 環境の高可用構成. 共有ディスク型 ( 仮想マシン2 台 ). VMware vsphere 4 環境の高可用構成 2

CLUSTERPRO for Linux システム構築ガイド

Samba on CLUSTERPRO for Linux HOWTO

CLUSTERPRO X VMware vCenter plug-in 構築ガイド

CLUSTERPRO X 4.0 for Windows インストール & 設定ガイド

CLUSTERPRO X 4.0 for Windows インストール & 設定ガイド

SAMBA Stunnel(Mac) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxxxx 部分は会社様によって異なります xxxxx 2 Mac OS 版ダウンロー

CLUSTERPRO X for Windows PPガイド (バックアップツール)

ESMPRO/ServerManager サーバ死活監視機能

Administration of Veritas Cluster Server 6.0 for UNIX の管理練習問題 例題 1. installvcs -installonly が正常に実行されたことが記録されるテキストファイルは次のどれですか (2 つ選択 ) a. インストールログ b.

WebSAM LogCollector (リリース3.3)クラスタ構築ガイド

PRIMERGY RX300S6 におけるクラスタ製品「DB/Control」と「DBC/APKeeper」の動作検証報告

CLUSTERPRO X 4.1 for Windows インストール & 設定ガイド

SigmaSystemCenter 3.x データベースのアップグレード手順

目次 1.iStorage M シリーズ連携機能 概要 対応製品 システム構成 ハードウェア ソフトウェア システム構築時の注意事項 環境設定 インストール.

CLUSTERPRO X 4.0 for Windows スタートアップガイド

CLUSTERPRO MC StorageSaver 2.1 for Linux FAQ 集 2016(Mar) NEC Corporation 導入に関する質問 起動 終了に関する質問 監視に関する質問 障害復旧に関する質問 クラスタに関する質問 動作環境に関する質問

ServerView RAID Manager VMware vSphere ESXi 6 インストールガイド

スライド 1

Windows Server 2008 R2 Hyper-V ネットワーク設定ガイド

CLUSTERPRO SSS 動作環境編

クローン機能について 保存先が HDLH シリーズの場合マスタースレーブファイル 設定のコピー HDLH シリーズ 台をそれぞれマスター / スレーブとして構成し マスターの設定やファイルをスレーブに保存します ファイルの保存はレプリケーション機能を利用しておこなわれます 社内 LAN マスター故障

iStorage NSシリーズ管理者ガイド(詳細編)

CLUSTERPRO MC RootDiskMonitor 1.1 for Linux リリースメモ 2013(Sep) NEC Corporation ライセンス パッケージのインストール セットアップ マニュアル

Microsoft Word - h70_pp_com_6_1.doc

CLUSTERPRO X 3.3 for Windows スタートアップガイド

ESMPRO/ServerManager, ServerAgentディスクアレイ監視

WebSAM LogCollector (リリース3.3) HP-UX用マネージャ クラスタ構築ガイド

[技術資料] PRIMERGY サーバブレードのLAN 冗長化

LANカード(PG-2871) 取扱説明書

CLUSTERPRO システム構築ガイド

- 主な機能 - 設定機能キャッシュメモリをキャッシュセグメントに分割し 業務で使用する論理ディスクを割り付けるための設定を行います WebSAM istoragemanager のクライアント画面から操作が可能です キャッシュセグメント作成 削除機能キャッシュセグメントの作成 削除を可能にします

Microsoft Word - nvsi_090200jp_r1_nvbsvr_mscs.doc

Microsoft Word - TestReport_PRIMEPOWER250_ doc

スライド 1

改版履歴 Ver. 日付履歴 1.0 版 2014/5/30 目次 0 はじめに 本文中の記号について Live Migration を設定するための準備 Live Migration の設定 Live Migration の運

Transcription:

CLUSTERPRO for Linux Ver 2.0 入門編 第 1 版 2001.12.14

改版履歴 版数改版年月日改版ページ内容 第 1 版 2001.12.14 Ver1.0 の第 3 版をベースに新規作成 2

はじめに CLUSTERPRO システム構築ガイド は これからクラスタシステムを設計 導入しようとしているシステムエンジニアや すでに導入されているクラスタシステムの保守 運用管理を行う管理者や保守員の方を対象にしています CLUSTERPRO は日本電気株式会社の登録商標です Linux は Linus Torvalds 氏の米国およびその他の国における登録商標あるいは商標です その他のシステム名 社名 製品名等はそれぞれの会社の商標または登録商標です 3

CLUSTERPRO ドキュメント体系 CLUSTERPRO のドキュメントは CLUSTERPRO をご利用になる局面や読者に応じて以下の通り分冊しています 初めてクラスタシステムを設計する場合は システム構築ガイド 入門編 を最初に読んでください システム構築ガイド 入門編 ( 必須 ) 設計 構築 運用 保守クラスタシステムをはじめて設計 構築する方を対象にした入門書です システム設計編( 基本 / 共有ディスク ) ( 必須 ) 設計 構築 運用 保守クラスタシステムを設計 構築を行う上でほとんどのシステムで必要となる事項をまとめたノウハウ集です 構築前に知っておくべき情報 構築にあたっての注意事項などを説明しています システム設計編( 応用 ) ( 選択 ) 設計 構築 運用 保守設計編 ( 基本 ) で触れなかったCLUSTERPROのより高度な機能を使用する場合に必要となる事項をまとめたノウハウ集です クラスタ生成ガイド( 共有ディスク ) ( 必須 ) 設計 構築 運用 保守 CLUSTERPROのインストール後に行う環境設定を実際の作業手順に沿って分かりやすく説明しています 運用/ 保守編 ( 必須 ) 設計 構築 運用 保守クラスタシステムの運用を行う上で必要な知識と 障害発生時の対処方法やエラー一覧をまとめたドキュメントです GUI リファレンス ( 必須 ) 設計 構築 運用 保守クラスタシステムの運用を行う上で必要な CLUSTERPRO マネージャなどの操作方法をまとめたリファレンスです コマンドリファレンス ( 選択 ) 設計 構築 運用 保守 CLUSTERPROのスクリプトに記述できるコマンドやサーバから実行できる運用管理コマンドについてのリファレンスです トレッキングツール編 ( 選択 ) 設計 構築 運用 保守 CLUSTERPROトレッキングツールの操作方法を説明したリファレンスです 分冊 (GUI システム構成( 共有ディスクシステム )) しています 4

目次 1 CLUSTERPRO の概要... 6 1.1 クラスタシステム導入の効果... 6 1.2 フェイルオーバ型クラスタ... 7 1.2.1 障害監視のしくみ... 7 1.2.2 監視できる障害と監視できない障害... 8 1.2.3 フェイルオーバのしくみ... 9 1.2.4 フェイルオーバ資源... 10 1.3 クラスタシステムの構成と運用形態... 11 1.3.1 スーパークラスタ... 11 1.3.2 サブクラスタ... 12 1.3.3 フェイルオーバ型クラスタのシステム構成... 12 2 クラスタシステムの構築から運用... 14 2.1 クラスタシステムの構築... 14 2.2 運用前の評価と障害復旧マニュアルの作成... 15 2.2.1 障害発生個所と偽証評価... 15 2.2.2 状態遷移評価... 16 2.2.3 パラメータ調整... 16 2.3 フェイルオーバ型クラスタシステムの運用... 17 3 高度なクラスタ... 19 3.1 さらに信頼性を高めるために... 19 3.1.1 アプリケーション障害への対策... 19 3.1.2 ハードウェア障害 OSの部分障害への対策... 19 3.1.3 CLUSTERPROコマンド... 19 4 付録... 20 4.1 用語集... 20 5

1 CLUSTERPRO の概要 近年 Linux の適用範囲が広がり ミッションクリティカルな分野にも使用され始めました このため Linux サーバシステムにも可用性や拡張性がより一層強く求められ 脚光を浴びているのがクラスタシステムです CLUSTERPRO は クラスタシステムを支えるミドルウェアであり 可用性 拡張性の高いシステムを構築できる幅広い製品を提供しています 1.1 クラスタシステム導入の効果 クラスタシステムとは 複数のサーバを協調動作させ 一台のサーバでは達成できない 高い可用性と拡張性を提供するシステムを指し CLUSTERPRO によるクラスタシステムの導入により 次の効果を得られます * 高可用性クラスタを構成するサーバのうち一台が障害などにより停止しても そのサーバが処理していた業務を他の健全なサーバへ自動的に引き継ぐことにより 障害時の業務停止時間を最小限に抑えます 6

1.2 フェイルオーバ型クラスタフェイルオーバ型クラスタシステムはサーバ内で発生する種々の障害を監視し 障害発生時に業務を他サーバに移動 ( フェイルオーバ ) します 1.2.1 障害監視のしくみ (1) サーバ監視サーバ監視とはフェイルオーバ型クラスタシステムの最も基本的な監視機能で クラスタを構成するサーバが停止していないかを監視する機能です CLUSTERPRO はサーバ監視のために 定期的にサーバ同士で生存確認を行います この生存確認をハートビートと呼びます ハートビートは以下の通信パスを使用して行います * インタコネクト専用 LAN フェイルオーバ型クラスタ専用の通信パスで 一般の Ethernet NIC を使用します ハートビートを行うと同時にサーバ間の情報交換に使用します * パブリック LAN クライアントと接続している通信パスを予備のインタコネクトとして使用します TCP/IP が使用できる NIC であればどのようなものでも構いません インタコネクト専用 LAN の異常時には サーバ間の情報交換にも使用します * 共有ディスク NEC Express5800/130Dpro 1 インタコネクト専用 LAN 2 パブリック LAN 3 共有ディスク 4 COM ポート フェイルオーバ型クラスタを構成する全てのサーバに接続されたディスク上に CLUSTERPRO 専用のパーティション (CLUSTER パーティション ) を作成し CLUSTER パーティション上でハートビートを行います 他サーバに障害が発生した場合にこの経路による最終確認を行うことによってネットワークパーティション症状によるデータ破壊を防ぎます * COM ポートフェイルオーバ型クラスタを構成するサーバ間を COM ポートを介して通信を行い 他サーバの生存を確認します ここでの通信は ネットワークパーティション症状の解決に用います 2 1 4 3 NEC Express5800/130Dpro ネットワークパーティション症状 (Sprit-brain-syndrome) とはクラスタサーバ間の全ての通信路に障害が発生しネットワーク的に分断されてしまう状態のこと ネットワークパーティション症状に対応できていないクラスタシステムでは 通信路の障害とサーバの障害を区別できず 同一資源を複数のサーバからアクセスしデータ破壊を引き起こす場合があります これらの通信経路を使用することでサーバ間の通信の信頼性は飛躍的に向上し ネットワークパーティション症状の発生を防ぎます 7

(2) 業務監視業務監視とは業務アプリケーションそのものや業務が実行できない状態に陥る障害要因を監視する機能です * アプリケーションの死活監視 CLUSTERPRO の armload 1 コマンドによりアプリケーションを起動し 定期的にプロセスの生存を確認することで実現します 業務停止要因が業務アプリケーションの異常終了である場合に有効です < 注意 > CLUSTERPRO が直接起動したアプリケーションが監視対象他の常駐プロセスを起動し終了してしまうようなアプリケーションでは 常駐プロセスの異常を検出することはできません アプリケーションの内部状態の異常は監視できないアプリケーションのストールや結果異常を検出することはできません * リソースの監視 CLUSTERPRO の リソース監視 2 リソースによりクラスタ資源 ( ディスクパーティション IP アドレスなど ) やパブリック LAN の状態を監視することで実現します 業務停止要因が業務に必要な資源の異常である場合に有効です (3) 内部監視 CLUSTERPRO 内部のモジュール間相互監視です CLUSTERPRO の各監視機能が正常に動作していることを監視します 次のような監視を CLUSTERPRO 内部で行っています * CLUSTERPRO 本体プロセスと CLUSTERPRO 監視プロセスとの相互監視 * 各種ハートビートスレッドのストール監視 1.2.2 監視できる障害と監視できない障害 (1) サーバ監視監視条件 : 障害サーバからのハートビートが途絶 * 監視できる障害の例 + ハードウェア障害 (OS が継続動作できないもの ) + panic * 監視できない障害の例 + OS の部分的な機能障害 ( マウス / キーボードのみが動作しない等 ) (2) 業務監視監視条件 : 障害アプリケーションの消滅 継続的なリソース異常 あるネットワーク装置への通信路切断 * 監視できる障害の例 + アプリケーションの異常終了 1 armloadコマンドの詳細については システム構築ガイドコマンドリファレンス を参照してください 2リソース監視については システム構築ガイドシステム設計編 ( 応用 ) を参照してください 8

+ 共有ディスクへのアクセス障害 (HBA 3 の故障など ) + パブリック LAN NIC の故障 * 監視できない障害の例 + アプリケーションのストール / 結果異常 = アプリケーションのストール / 結果異常を CLUSTERPRO で直接監視することはできませんが アプリケーションを監視し異常検出時に自分自身を終了するプログラムを作成し そのプログラムを ARMLOAD コマンドで監視することで フェイルオーバを発生させることは可能です 1.2.3 フェイルオーバのしくみ CLUSTERPRO では フェイルオーバ開始前に 検出した障害がサーバの障害かネットワークパーティション症状かを判別します この後 健全なサーバ上で各種資源を活性化し業務アプリケーションを起動することでフェイルオーバを実行します このとき 同時に移動する資源の集まりをフェイルオーバグループと呼びます フェイルオーバグループは利用者から見た場合 仮想的なコンピュータとみなすことができます < 注意 > クラスタシステムでは アプリケーションを健全なノードで起動しなおすことでフェイルオーバを実行します このため アプリケーションのメモリ上に格納されている実行状態をフェイルオーバすることはできません 障害発生からフェイルオーバ完了までの時間は数分間必要です 以下にタイムチャートを示します 障害発生 フェイルオーバ完了 障害検出 フェイルオーバ開始 ハートビートタイムアウト ネットワークハ ーティション解決各種資源活性化 ( ディスク, IPアドレス, ) ファイルシステム復旧 アプリケーション復旧処理 再起動 * ハートビートタイムアウト + 業務を実行しているサーバの障害発生後 待機系がその障害を検出するまでの時間です + 業務の負荷に応じてクラスタプロパティの設定値を調整します ( 出荷時設定では 30 秒に設定されています ) * ネットワークパーティション解決 + 検出した相手サーバの障害が ネットワークパーティション症状によるものか実際に相手サーバが障害を起こしたのかを確認するための時間です + CLUSTER パーティションへのアクセス時間や ハートビートタイムアウト値などに連動して必要な時間が変化します ( 出荷時設定では 30 秒以上 60 秒以下で解決するように設定されています ) 3 Host Bus Adapter の略で 共有ディスク側ではなく サーバ本体側のアダプタのことです 9

* 各種資源活性化 + 業務で必要な資源を活性化するための時間です + 一般的な設定では数秒で活性化しますが フェイルオーバグループに登録されている資源の種類や数によって必要時間は変化します ( 詳しくは システム構築ガイドシステム設計編 ( 基本 ) を参照してください ) * 開始スクリプト実行時間 + データベースのロールバック / ロールフォワードなどのデータ復旧時間と業務で使用するアプリケーションの起動時間です + ロールバック / ロールフォワード時間などはチェックポイントインターバルの調整である程度予測可能です 詳しくは 各ソフトウェア製品のドキュメントを参照してください 1.2.4 フェイルオーバ資源 CLUSTERPRO がフェイルオーバ対象とできる主な資源は以下のとおりです * 切替パーティション + 業務アプリケーションが引き継ぐべきデータを格納するためのディスクパーティションです * フローティング IP アドレス + フローティング IP アドレスを使用して業務へ接続することで フェイルオーバによる業務の実行位置 ( サーバ ) の変化をクライアントは気にする必要がなくなります + パブリック LAN アダプタへの IP アドレス動的割り当てと ARP パケットの送信により実現しています ほとんどのネットワーク機器からフローティング IP アドレスによる接続が可能です < 注意 > ARP パケットを受信することで ARP テーブルを更新できるネットワーク機器であれば フローティング IP アドレスでの接続が可能です * スクリプト + CLUSTERPRO では 業務アプリケーションをスクリプトから起動します + 共有ディスクにて引き継がれたファイルはファイルシステムとして正常であっても データとして不完全な状態にある場合があります スクリプトにはアプリケーションの起動のほか フェイルオーバ時の業務固有の復旧処理も記述します 10

1.3 クラスタシステムの構成と運用形態 1.3.1 スーパークラスタ スーパークラスタは フェイルオーバ型クラスタを束ねた管理単位です 一つのスーパークラスタで管理できるサブクラスタ数は 最大 128 となります スーパークラスタ パブリック LAN NEC Express5800/130Dpro NEC Express5800/130Dpro NEC Express5800/130Dpro NEC Express5800/130Dpro データ データ 共有ディスク サブクラスタ 共有ディスク サブクラスタ 11

1.3.2 サブクラスタサブクラスタは スーパークラスタの下に作成するフェイルオーバ型クラスタです 一つのサブクラスタは 2~16 台のサーバを持つことができます ただし 共有ディスクを接続するサブクラスタは 2 サーバ構成のみとなります また 一つのサブクラスタ内に 共有ディスクを接続するサーバと接続しないサーバとを共存させることはできません 1.3.3 フェイルオーバ型クラスタのシステム構成フェイルオーバ型クラスタは ディスクアレイ装置をクラスタサーバ間で共有します サーバ障害時には待機系サーバが共有ディスク上のデータを使用し業務を引き継ぎます パブリック LAN インタコネクト専用 LAN NEC Express5800/130Dpro NEC Express5800/130Dpro CLUSTERPRO OS OS データ 共有ディスク フェイルオーバ型クラスタでは 運用形態により 次のように分類できます (1) 片方向スタンバイクラスタ一方のサーバを運用系として業務を稼動させ 他方のサーバを待機系として業務を稼動させない運用形態です 最もシンプルな運用形態でフェイルオーバ後の性能劣化のない可用性の高いシステムを構築できます 業務 AP 業務 AP フェイルオーバ 12

(2) 同一アプリケーション双方向スタンバイクラスタ複数のサーバである業務アプリケーションを稼動させ相互に待機する運用形態です アプリケーションは双方向スタンバイ運用をサポートしているものでなければなりません ある業務データを複数に分割できる場合に アクセスしようとしているデータによってクライアントからの接続先サーバを変更することで データ分割単位での負荷分散システムを構築できます 業務 AP 業務 AP 業務 AP 業務 AP フェイルオーバ 図の業務 AP は同一アプリケーション フェイルオーバ後に一つのサーバ上で複数の業務 AP インスタンスが動く (3) 異種アプリケーション双方向スタンバイクラスタ複数の種類の業務アプリケーションをそれぞれ異なるサーバで稼動させ相互に待機する運用形態です アプリケーションが双方向スタンバイ運用をサポートしている必要はありません 業務単位での負荷分散システムを構築できます 業務 1 業務 1 業務 2 業務 2 フェイルオーバ 業務 1 と業務 2 は異なるアプリケーションを使用 13

2 クラスタシステムの構築から運用 2.1 クラスタシステムの構築クラスタシステムの構築は下記のように行います 下記に記述した点について注意しクラスタシステムを構築します インストール手順や設定方法の詳細については クラスタ生成ガイド を参照してください (1)OS のインストール OS を各サーバにインストールします (2)CLUSTERPRO のインストール 1) CLUSTERPRO サーバ * クラスタサーバに CLUSTERPRO サーバをインストール クラスタ生成ガイド ( 共有ディスク編 ) CLUSTERPRO サーバのインストール を参照してください * インストール後の設定 クラスタ生成ガイド ( 共有ディスク編 ) インストール後の設定 を参照してください 2) CLUSTERPRO マネージャ * 管理端末に CLUSTERPRO マネージャをインストール クラスタ生成ガイド ( 共有ディスク編 ) CLUSTERPRO マネージャのインストール を参照してください 3) クラスタ生成 - サーバ追加 - グループ追加 * CLUSTERPRO マネージャから行う クラスタ生成ガイド ( 共有ディスク編 ) CLUSTERPRO マネージャによるクラスタの生成 を参照してください (3) 業務アプリケーションのインストール業務で使用するアプリケーションをインストール 14

2.2 運用前の評価と障害復旧マニュアルの作成本番運用前に本番時の負荷や障害を想定した評価を行い 作成したスクリプトの動作の確認やパラメタ調整を行います この評価に基づいて障害発生時の復旧マニュアルを作成してください 2.2.1 障害発生個所と偽証評価障害発生個所を洗い出し偽証評価を行います 例えば 次のような障害個所が考えられます 障害個所主な障害内容業務継続性 サーバ本体 CPU 故障 (OS panic) 1 ディスプレイ / キーボード / マウス故障 7 HDD 一台故障 ディスクアレイ HDD 複数台故障 共有装置コントローラ故障 2 ディスク SCSI ケーブル断線 終端故障 2 HBA アダプタ故障 (OS panic) 1 (Host Bus Adapter) アダプタ故障 (I/Oエラー) 3 LAN インタコネクトLAN NIC 故障 ケーブル断線 HUB/Switch 故障 パブリックLAN NIC 故障 4 ケーブル断線 HUB/Switch 故障 4 OS panic 1 ソフトウェア 業務アプリケーションの停止 5 業務アプリケーションのストール 6 : 業務の継続が可能 : CLUSTERPRO またはハードウェアの機能により 業務の継続が可能 : 業務の継続はできない 1: フェイルオーバが発生し待機系で業務を継続する 2: SCSI バスを二重化することで正常なパスで業務を継続する 3: リソース監視を使用することでディスク資源の障害を検出し フェイルオーバを実行し待機系で業務を継続する 4: リソース監視を使用することでディスク資源の障害を検出し フェイルオーバを実行し待機系で業務を継続する 5: armload を使用しアプリケーションの障害を検出し フェイルオーバを実行し待機系で業務を継続する 6: 業務アプリケーションに合わせたアプリケーションモニタを作成することでストール検出し フェイルオーバを実行し待機系で業務を継続する 7: ディスプレイ / キーボード / マウス故障が直接業務の停止に結びつかない場合 15

2.2.2 状態遷移評価運用に即した評価項目を作成しクラスタシステムの状態遷移評価を行います 2 ノードのフェイルオーバ型クラスタが存在するシステムでは 次のような評価項目が考えられます 評価項目操作確認内容 起動 クラスタ起動 スーパークラスタを構成する全全てのサーバおよびグループが てのサーバを起動する 正常に起動する フェイルオーバ型クラス運用系サーバのみ起動するタの運用系のみ起動フェイルオーバ型クラス待機系サーバのみ起動する OS 起動後 5 分間待機系の起動を待ち合わせた後 フェイルオーバグループが起動する タの待機系のみ起動 シャットダウン スーパークラスタをシャットダ全てのサーバがシャットダウン ウンする する (CLUSTERPROマネージャをまた再起動後に全てのサーバお 使用 ) よびグループが正常になること を確認する フェイルサーバ切り離し 現用系サーバをクラスタから切現用系サーバがクラスタから切 オーバ り離す り離され フェイルオーバが発生 (CLUSTERPROマネージャをする 使用 ) フェイルオーバ後に業務が継続 サーバシャットダウン 現用系サーバをOSからシャッできるトダウンする サーバ電源切断 シャットダウンを行わず 現用 系サーバの電源を切断する フェイル移動 フェイルオーバグループを移動フェイルオーバグループが待機 オーバグ / 停止 / 起動する 系へ移動する ループ (CLUSTERPROマネージャを移動後業務が継続できる 停止 使用 ) 切り替えパーティションの切り 離しに失敗しない 起動 フェイルオーバグループが起動する起動後業務が開始できる 障害復旧片サーバダウン クラスタから切り離されているクラスタに組み込まれ待機系に からの復帰 サーバをクラスタに復帰する (CLUSTERPROマネージャを使用 ) なる 両サーバダウンからの復適切なサーバをクラスタに強制クラスタ状態が正常状態になる 帰 復帰し 他のサーバを復帰するこの時点ではグループは停止状 (CLUSTERPROマネージャを態となる 使用 ) 2.2.3 パラメータ調整下記の項目はシステム構成に応じて調整をする必要があります 項目 調整方法 ハートビートタイムアウト時間サーバに業務で発生する最大負荷をかける ( その状況で不正にフェイルオーバが起きないこと ) 立ち上げ同期の猶予時間 全てのサーバの起動時間差を計測する スクリプトタイムアウト時間 スクリプトの最大実行時間を計測する OS 起動時間 共有ディスクの起動にかかる最大時間を設定 16

2.3 フェイルオーバ型クラスタシステムの運用クラスタシステムの運用手順や注意点をまとめます CLUSTERPRO マネージャの具体的な操作については CLUSTERPRO 構築ガイド GUI リファレンス を参照してください (1) クラスタ起動 * サブクラスタのサーバは 立ち上げ猶予時間内に電源を投入します (2) クラスタシャットダウン * CLUSTERPRO マネージャにて クラスタを選択しクラスタシャットダウンを行います (3) 現用系ダウン * 自動的にフェイルオーバする場合 + 現用系サーバがダウンした場合 CLUSTERPRO マネージャ画面でダウンしたサーバが赤く表示され 自動的に待機系へのフェイルオーバが発生します * 自動的にフェイルオーバしない場合 + OS の一部機能のストールやアプリケーションのストールなど CLUSTERPRO が自動でフェイルオーバできない場合 現用系サーバをシャットダウンまたはダンプスイッチの押下などを行い 現用系サーバを完全にダウンさせてください これによって CLUSTERPRO は相手サーバのダウンに気づき待機系へフェイルオーバを実行します + このとき できる限り障害サーバの電源は切断してください (4) 障害サーバの復帰 CLUSTERPRO では障害発生後にサーバを再起動するとそのサーバは自動的にクラスタから切り離された状態になります そのサーバを待機状態に戻すためには 障害原因を取り除いた後 クラスタへ復帰させる必要があります CLUSTERPRO マネージャにて クラスタから切り離されたサーバをクラスタに復帰します < 注意 > クラスタから切り離された状態でも CLUSTERPRO の状態確認などの通信を行っています このため ネットワークや HBA など他のサーバと接続している部位を保守する場合は クラスタシステムからハードウェア的に切り離して ( ネットワークおよび共有ディスクが接続されていない状態で ) 作業してください 17

(5) サブクラスタ内のサーバの保守 ( ローリングアップグレード ) メモリ追加などのサブクラスタ内のサーバ保守は サーバを 1 台ずつアップグレード ( ローリングアップグレード ) することでシステム停止時間を最小限にとどめることが可能です 以下の手順で行います (1) 待機系サーバの切り離し CLUSTERPRO マネージャから 待機系サーバを選択しサーバ切り離しを行います (2) 待機系サーバにメモリを追加し再起動します (3) 待機系サーバの復帰 CLUSTERPRO マネージャで 待機系サーバを選択しサーバ復帰を行います (4) グループ移動 CLUSTERPRO マネージャで 運用系サーバで動作しているグループを待機系サーバへ移動します (5) 運用系サーバの切り離し (6) 運用系サーバにメモリを追加し再起動します < 注意 > ソフトウェアのローリングアップグレードは運用系と待機系でソフトウェアリビジョンが変わることによる弊害が考えられます 共有ディスク上のデータの互換性など問題が無いことが分かっている場合にのみ行ってください (6) 全てのサーバがダウンした場合の復帰何らかの原因で全てのサーバがダウンしてしまった場合は 信頼できるクラスタ情報を持っているサーバを CLUSTERPRO で判断できないためサーバの復帰をできません この状態からの復帰は 以下の手順で行います (1) CLUSTERPROマネージャから クラスタ情報のベースとなるサーバを選択し てサーバ強制復帰を行います (2) CLUSTERPROマネージャから 残りのサーバを復帰させます (3) CLUSTERPROマネージャから フェイルオーバグループを起動します 18

3 高度なクラスタ 3.1 さらに信頼性を高めるために 3.1.1 アプリケーション障害への対策アプリケーションのストールや結果異常など armload コマンドでは検出できない障害に対応するためには アプリケーションごとの内部事情を理解した上で アプリケーションの状態を監視するようなモニタプログラムを作成します 例えば 定期的にデータベースへアクセスし一定時間応答がないなどストールしていると判断できる場合に サーバをシャットダウンすることで データベースアプリケーションのストール監視を行うことができます また アプリケーションの使用メモリ容量や使用ディスク容量を監視し 異常に消費している場合フェイルオーバグループを移動するという方法も考えられます このようなモニタプログラムは サーバのシャットダウンやフェイルオーバのために CLUSTERPRO コマンド (armdown armfover) を利用することができます 詳しくは システム構築ガイドシステム設計編 ( 応用 ) を参照してください 3.1.2 ハードウェア障害 OS の部分障害への対策ハードウェア障害のうちいくつかは業務が停止する前に syslog などに警告または異常を登録します これらを監視することで CLUSTERPRO が直接検出できない障害をフェイルオーバ対象とすることができます これは次の方法で ハードウェア障害の発生を検出し CLUSTERPRO へフェイルオーバ指示を出すことで実現します * ESMPRO/ServerAgent による障害監視 同様の方法によってメモリやディスクの使用量などを監視し OS が障害に陥る前に事前に障害の種を検出しフェイルオーバを行うことで OS の部分障害による業務停止を防ぐことも考えられます 3.1.3 CLUSTERPRO コマンド CLUSTERPRO では armload や armrsp など高可用性を実現するためのコマンド フェイルオーバグループのスクリプトの記述を容易にするためのコマンドや クラスタシステムを運用管理するためのコマンドを用意しています 詳しくは システム構築ガイドコマンドリファレンス を参照してください 19

4 付録 4.1 用語集 用語あインタコネクトか仮想 IPアドレス管理クライアント起動属性共有ディスク共有ディスクシステム切替パーティション切替ミラーディスククラスタシステムクラスタ復帰クラスタシャットダウンクロスコールディスク 説明 クラスタサーバ間の通信パス ( 関連 ) プライベート LAN パブリック LAN フェイルオーバした場合 クライアントのアプリケーションが接続先のサーバ切り替えを意識することなく行うために CLUSTERPROが使用する仮想的なIPアドレス ( 関連 ) 実 IPアドレス CLUSTERPROマネージャが起動されているマシン クラスタ起動時 自動的にフェイルオーバグループを起動するか 手動で起動するかを決定するフェイルオーバグループの属性管理クライアントより設定が可能複数サーバよりアクセス可能なディスク 共有ディスクを使用するクラスタシステム 複数のコンピュータに接続され 切り替えながら使用可能なディスクパーティション ( 関連 ) 共有パーティション CLUSTERパーティションディスクミラーリングを行うことにより 同一のディスクに接続されているように使用することが可能なディスク ( 関連 )CLUSTERパーティション複数のコンピュータをLANなどでつないで 1つのシステムのように振る舞わせるシステム形態障害によりクラスタから切り離されたサーバを 復旧後正常なクラスタに戻すこと CLUSTERPROマネージャより クラスタシステムを構成しているサーバを クラスタとして正常にシャットダウンさせること 2サーバよりアクセス可能なディスク 現用系 ある一つの業務セットについて 業務が動作しているサーバ ( 関連 ) 待機系 さサブクラスタ配下のフェイルオーバ型クラスタを構成するサーサーババスーパークラスタ配下に作成するクラスタサブクラスタフェイルオーバ型クラスタを構成する CLUSTERPROの最上位の管理単位スーパークラスタ配下に フェイルオーバを行うサブクラスタを作成することができるスーパークラスタ管理サースーパークラスタ内の各クラスタの構成情報を一元管理するサーババ フェイルオーバ型クラスタに所属していなければならない 20

用語 セカンダリ ( サーバ ) 実 IP アドレス た 待機系 ネットワークパーティション症状 は ハートビート パブリック LAN フェイルオーバ 説明 通常運用時 フェイルオーバグループがフェイルオーバする先のサーバ ( 関連 ) プライマリサーバ仮想 IPアドレスに対し 各マシンに通信のために設定されたIPアドレス ( 関連 ) 仮想 IPアドレス 現用系ではない方のサーバ ( 関連 ) 現用系インタコネクトを使用して行うハートビートがLAN 障害により両方とも途切れてしまうこと ( 関連 ) インタコネクト ハートビート サーバ間の監視のために 定期的に送信しあうこと ( 関連 ) インタコネクト ネットワークパーティションサーバ / クライアント間通信パスのこと ( 関連 ) インタコネクト プライベートLAN 待機系が 現用系上の業務アプリケーションを引き取ること フェイルバック フェイルオーバグループ フェイルオーバした後に両サーバを再起動させて業務を本来の現用系に戻すこと業務を実行するのに必要なクラスタ資源 属性の集合 フェイルオーバグループの両サーバの再起動をせずにフェイルバックを実行させること移動フェイルオーバ可能なサーバリストとその中でのフェイルオーバフェイルオーバポリシ優先順位を持つ属性インタコネクト専用 LANと同じ意味で使用プライベートLAN ( 関連 ) インタコネクト パブリックLAN フェイルオーバグループでの基準で主となるサーバプライマリ ( サーバ ) ( 関連 ) セカンダリ ( サーバ ) フェイルオーバが発生したとき クライアントのアプリケーションが接続先サーバの切り替えを意識することなく使用できるIPアフローティングIPアドレスドレスクラスタサーバが所属するLANと同一のネットワークアドレス内で 他に使用されていないホストアドレスを割り当てる ま マスタクラスタ ミラーディスクシステム スーパークラスタ管理サーバが所属する フェイルオーバ型クラスタ共有ディスクを使用しないクラスタシステムサーバのローカルディスクをサーバ間でミラーリングする 21

ミラーディスクシステム 用語 C CLUSTER パーティション S Sprit-brain-syndrome 共有ディスクを使用しないクラスタシステムサーバのローカルディスクをサーバ間でミラーリングする説明 相手サーバの監視を行う CLUSTERPRO 専用パーティション ( 関連 ) 共有パーティション 切替パーティション ネットワークパーティション症状 22