CLUSTERPRO MC (HA シリーズ ) のご紹介 2013/4/1 NEC システムソフトウェア事業部 CLUSTERPRO グループ
本資料について 本資料に記載されている内容は NEC 製サーバ Express5800 シリーズ ( 以降 NEC 製サーバ ) でのご利用を前提としています 他社機への導入を検討されている場合 本資料末尾に記載されているお問い合わせ先までご相談ください 本資料に掲載しております価格には消費税は含まれておりません ご購入の際に消費税が付加されますのでご承知おき願います 本資料に記載されている会社名 製品名は各社の商標または登録商標です Page 1
CLUSTERPRO MC(HA シリーズ ) NEC が手がけたミッションクリティカルシステムの構築 運用の現場の声を監視製品という形でフィードバックしました 障害の予兆検出や予防を行うことにより システムの可用性を極限まで高めます 適用効果 業務停止の防止 クラスタ化 ( サーバの冗長化 ) 障害の検出 フェイルオーバ 障害の防止 装置の冗長化 障害の予兆検出 障害の予防 ダウンタイム短縮 フェイルオーバに至る前の障害も未然に検出したいというニーズに応えます OS やアプリケーションなど 監視対象に特化した 深い 監視によって障害原因の特定にも効果です CLUSTERPRO MC (HA シリーズ )(*1) (*1) 以降 CLUSTERPRO MC (HA) サーバ監視ノウハウを容易に導入 NEC が手がけた UNIX システムにおいて豊富な利用実績がある監視機能を Linux,Windows システムに提供します それらにより UNIX 並みの高可用性を実現できます 監視 監視 資源未解放プロセス ファイルシステム異常 業務停止 障害 ( 業務停止の予兆 ) 障害の予兆 ディスクのセクタエラー データベース格納ディスクの空き不足 I/O パスの頻繁なスイッチ ハインリッヒの法則で例えれば 重大な事故 軽微な事故 ヒヤリ ハット Page 2
CLUSTERPRO と CLUSTERPRO MC (HA) の監視範囲イメージ CLUSTERPRO MC (HA) サーバ CLUSTERPRO MC (HA) CLUSTERPRO MC (HA) ネットワークディスク OS アプリケーション CLUSTERPRO MC (HA) CLUSTERPRO MC (HA) CLUSTERPRO は広く 浅く CLUSTERPRO MC (HA) は狭く 深く Page 3
CLUSTERPRO MC (HA) 製品ラインナップ プロセス監視 ProcessSaver Windows Linux 障害監視 Disk 監視 RootDiskMonitor StorageSaver Windows Linux Windows Linux Oracle 監視 ApplicationMonitor Linux OS 監視クラスタ制御 ResourceSaver Linux Linux / Windows シングル クラスタ Page 4
CLUSTERPRO MC (HA) 製品紹介 1. ProcessSaver 2. RootDiskMonitor 3. StorageSaver 4. ApplicationMonitor 5. ResourceSaver Page 5
CLUSTERPRO MC ProcessSaver 1.0 プロセスが異常終了しても自動再開させ業務を継続 < 製品概要 > プロセスを監視し プロセス消滅時に自動的に再起動を実施 プロセス再起動に失敗した場合はクラスタウェアと連携しノードを切り替え業務を継続するなど高可用を実現することが可能 < 導入効果と機能 > プロセス自動再起動によるダウンタイム短縮 業務アプリケーションや OS デーモン 同一名のプロセス グループ化された複数プロセス ミドルウェアなどを構成する プロセスなど 多様なプロセスを監視可能 Win Linux 異常終了に加えて 様々な手段でプロセスのハングアップ ( 無応答 ) を検出することも可能 Linux 異常検出時は プロセスを自動再起動 クラスタ連携によるダウンタイム短縮 再起動を繰り返しても復旧しない場合は クラスタウェアと 連携して待機系にフェイルオーバし 業務を継続 Win Linux CLUSTERPRO と連携する場合 ProcessSaver によって容易なグループ監視や様々な手段でのハングアップ監視が 実現可能 (*1) Win Linux Win Linux 設定テンプレートで容易に導入 設定 OS プロセスや Web サーバなどの代表的なアプリケーション については 監視設定や再起動スクリプトのテンプレートを提供 Win Linux イメージ図 ProcessSaver 1 監視 / 障害検出 監視対象プロセス 3 再起動 障害 異常終了 ハングアップ 同一名のプロセス 関連するプロセスのグループ 2 システムログ通知 システム管理者 動作環境 (*2) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 Microsoft Windows Server 2003/2008/2012 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日 型番 : UL4438-102 他 価格 ( 最小構成 ): 220,000 円 ( シングル構成 CPUライセンス メディア含む場合 ) (*1) ハングアップ監視は Linux 版のみ利用可能です (*2) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 6
幅広いプロセスの柔軟な監視 障害事例 原因 導入効果 業務が突然停止 手動での業務再起動まで業務が停止し 復旧後は障害箇所の特定に人手と時間を要した 業務プロセスが依存するプロセスが異常終了したことで業務プロセスも停止したが 情報がログに出力されなかった 依存するプロセスが異常終了した場合 依存関係を考慮して自動再起動することで業務停止時間を最小限へ短縮 異常終了したプロセスをログに通知するため 障害箇所の特定と対処が短時間で可能 ProcessSaver 多様なプロセスを柔軟に監視可能 業務アプリミドルウェア OS デーモン プロセスA プロセスA プロセスA プロセスA 同一名のプロセス プロセス 1 プロセス 2 プロセス 4 プロセス 3 グループ化されたプロセス Page 7
様々な手段でプロセスのハングアップを検出 Linux 障害事例 原因 導入効果 業務が突然停止 業務プロセス自体は起動しており原因がわからず 手動での業務再起動まで業務が停止 業務プロセスは起動していたもののハングアップ状態で 情報がログに出力されなかった 監視対象に応じて様々な手段でプロセスのハングアップを検出 ハングアップしたプロセスを自動再起動することで業務停止時間を最小限へ短縮 異常終了したプロセスをログに通知するため 障害箇所の特定と対処が短時間で可能 監視対象プロセスが定期的にファイルを更新している場合 ファイルのタイムスタンプを監視 ProcessSaver プロセスが起動するスレッド数の変化を監視 プロセスがオープンするファイル数の変化を監視 プロセス プロセス プロセス Page 8
CLUSTERPRO MC RootDiskMonitor 1.0 OS ディスクの障害を早期に検出し 業務を安定して継続 < 製品概要 > OS ディスクの障害発生時にシステムログに障害を通知 両系障害発生時には クラスタウェアと連携してノード切替することで安定した業務を継続 イメージ図 クラスタウェア 3 ノード切り替え 両系障害の場合 RootDiskMonitor < 導入効果と機能 > 多彩な監視機能により障害を早く確実に検出 OS ディスクを構成する論理ディスク (LUN) の 死活監視 Win Linux I/O リクエストの無応答やメディアエラーを検出 管理領域および未使用領域も含むディスク全面セクタ検査 Win Linux I/O リトライによる OS 高負荷を警告 メディアエラー ( セクタ不良など ) が発生した OS ディスクを通知 Win Linux 片系障害の検出により予防保守が可能 (*1) 片系ディスクの障害を検出し ディスクの両系障害に至る前に通知し 予防保守を促すことが可能 Win Linux クラスタウェア連携によるダウンタイム短縮 ディスクの両系障害時には クラスタウェア連携による フェイルオーバで業務を継続 Win Linux Win Linux コマンドにより 監視の一時停止 / 再開やパラメータの動的変更が可能 2 システムログコンソール通知 システムログ 1OS ディスクの死活監視及び ハングアップ監視 障害 PV1 異常検知 ディスク故障通知 OS ディスク PV2 ミラーリング 動作環境 (*2) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 Microsoft Windows Server 2003/2008/2012 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日 型番 : UL4441-102 他 価格 ( 最小構成 ): 185,000 円 ( シングル構成 CPUライセンス メディア含む場合 ) (*1) Linux で HW-RAID 環境の場合 Universal RAID Utility(URU: RAID コントローラを管理する RAID システム管理ユーティリティ ) が必要です URU は EXPRESS サーバに含まれます また Windows の HW-RAID 環境は 2013 年 4 月時点で本機能のサポート対象外です (*2) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 9
ディスクの全面検査で不良セクタを早期発見 障害事例 原因 年次処理時に突然サーバダウン その後 OS は起動できたがサーバダウンが頻発し 障害箇所の特定に人手と時間を要した 通常運用時にアクセスしない領域でメディアエラーが発生していたが年次処理でメディアエラー領域にアクセスし顕在化 導入効果 OS や業務アプリケーション バックアップソフトが問題のあるセクタへアクセスすることにより発生する I/O エラーや I/O リクエストの無応答を未然に防止 OS からのアクセス業務 I/O OS からのアクセス業務 I/O パトロールシーク機能 (*) 通常運用で頻繁にアクセスする領域 パトロールシーク機能による検査領域 メディアエラーセクタ I/O エラーや I/O リクエストの無応答の発生によりシステムへの影響大 通常運用でアクセスしない領域はメディアエラー自体が表面化せず 年次処理や OS バックアップなどで表面化し 障害となる場合がある 全ディスク領域を定期的にテストアクセスするため メディアエラーセクタの早期検出が可能 (*) 未使用箇所を含むディスクの全面検査を行う機能 Page 10
片系障害の検出により予防保守が可能 (*1) 障害事例 内蔵ディスクを冗長化していたが 両系障害が発生しサーバダウン ディスク交換を行うまで業務が停止 原因 片系障害時に情報が通知されなかったためそのまま運用を続け 両系障害に至った 導入効果 ディスクの片系障害を検出し 通知することで両系障害に至る前に予防保守を行うことが可能 Linux で HW-RAID 環境の場合 RootDiskMonitor 論理ディスク RAID コントローラ ミラー 物理ディスク (*1) Linux で HW-RAID 環境の場合 Universal RAID Utility (URU: RAID コントローラを管理する RAID システム管理ユーティリティ ) が必要です URU は EXPRESS サーバに含まれます また Windows の HW-RAID 環境は 2013 年 4 月時点で本機能のサポート対象外です Page 11
CLUSTERPRO MC StorageSaver 1.0 ディスクアレイ装置の障害を早期に検出し 業務を安定して継続 < 製品概要 > FC (Fibre Channel) iscsi 接続されたディスクアレイ装置の障害監視 運用管理を実施 イメージ図 < 導入効果と機能 > 経路を含めたディスクアレイ装置監視により業務のエラーや性能低下を早く確実に検出 サーバとディスクアレイ装置間を結ぶ I/O パスの死活監視 および I/O リクエストの無応答の検出 Win Linux 間欠障害による頻繁なパス切替の原因を検出 予防してディスク I/O 性能の低下を防止 Win Linux VG (Volume Group) 監視により 業務エラーを論理ディスクのレベルで早期に検出 Linux クラスタ連携によるダウンタイム短縮 I/O パスの両系障害時には クラスタウェア連携によるフェイルオーバで業務を継続 Win Linux FC( 正 ) 障害 業務 AP FC カード マルチパス管理製品 Storage Saver FC カード 1 ディスクアレイ装置資源を監視 FC( 副 ) 動作環境 (*1) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 Microsoft Windows Server 2003/2008 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日 型番 : UL4440-102 他 価格 ( 最小構成 ): 360,000 円 ( シングル構成 CPUライセンス メディア含む場合 ) (*1) サポート済みのディスクアレイ装置 マルチパス管理ソフトウェア含む 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html 2 障害を検出 3 システムログに通知 FC: Fibre Channel 4 障害を検出した I/O パスを切り離し 5 マルチパス管理製品が正常なパスを使用して I/O を継続 Page 12
ディスク I/O のスループット低下防止 障害事例 ディスク I/O のスループットが低下 原因 間欠障害により I/O パスの切り替えが頻発し ディスクアクセスが遅延 導入効果 StorageSaver が障害の発生した I/O パスを閉塞 間欠障害時の頻繁な I/O パスの切替による業務のスローダウンを防止し 安定した業務継続を実現 マルチパス管理製品 正系副系 間欠障害 頻繁な切り替わり発生 ディスクアレイ装置 障害が発生したノード内では I/O パスの監視が継続されます 障害が発生したノード内の I/O パスの監視で正常に見えると切り戻しが発生します そのため間欠障害ではノード内の I/O パスが頻繁に切り替わり ディスクアクセスが遅延する可能性があります StorageSaver 間欠障害 閉塞副系 ディスクアレイ装置 障害を検出すると正系から副系へ切り替わります 障害が発生したノード内の I/O パスを閉塞することができるので 間欠障害でも頻繁な切り替わりは発生しません Page 13
CLUSTERPRO MC ApplicationMonitor 1.0 Oracle データベースシステムを監視し 業務停止につながる重大問題を回避 < 製品概要 > RAC 構成を含む Oracle データベースシステムを監視し業務停止につながる障害を早期に検出 障害発生時には Oracle プロセスの再起動もしくはクラスタ連携によるフェイルオーバで業務停止時間を最小化 イメージ図 現用待機構成の Oracle を監視した場合 現用サーバ 4 待機サーバへフェイルオーバ 待機サーバ < 導入効果と機能 > Oracle に特化した監視で障害を早く確実に検出 インスタンス リスナ Oracle Clusterware の障害 ( 停止 無応答 ) を監視し 早期に障害を検出 無応答に至る前の予兆検出も可能 クラスタウェア連携によるダウンタイム短縮 障害発生時には Oracle プロセスの再起動 クラスタウェア連携によるフェイルオーバ / ノード縮退で業務を継続 障害種別 ( 停止 無応答 ) ごとにクラスタウェア連携動作の指定が可能 停止障害時は自動復旧 無応答障害時はオペレータ介入 といった運用にも柔軟に対応 障害情報の自動採取による原因特定までの時間短縮 インスタンス障害はバックグラウンドプロセス単位で特定 障害検出時には 原因究明に必須となる情報を自動的に採取 早期原因究明が可能 3 通知 ApplicationMonitor 1 監視 2 障害発生箇所 Oracle を特定障害 5 待機サーバで業務の継続が可能 動作環境 (*1) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日 型番 : UL4437-102 他 価格 ( 最小構成 ): 1,322,500 円 ( シングル構成 CPUライセンス メディア含む場合 ) (*1) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 14
Oracle のインスタンス無応答状態下での業務継続 障害事例 原因 導入効果 業務が突然停止 手動での業務再起動まで業務が停止し 復旧後は障害箇所の特定に人手と時間を要した アーカイブ出力先のディスクがいっぱいになり アーカイブ処理が終了せず データベース更新ができない状態だった ApplicationMonitor がインスタンス無応答障害を検出し 業務は待機系へフェイルオーバすることで業務停止時間を最小限へ短縮 障害情報をログに通知するため 障害箇所の調査と対処が容易に可能 接続中の業務は停止業務停止 業務 業務復旧 業務 業務 AP AP サーバ 業務 AP AP サーバ 処理遅延 アーカイブ LOG Oracle 無応答障害 DB DB サーバ ApplicationMonitor CLUSTERPRO X 障害情報採取 無応答障害として検出 処理遅延 アーカイブ LOG Oracle 無応答障害 DB DB サーバ フェイルオーバ Page 15
CLUSTERPRO MC ResourceSaver 1.0 クラスタシステムを補強し 可用性の向上を実現 < 製品概要 > クラスタシステムのリソース監視を補強する製品 ハングアップ / パニックにつながる障害監視 ( 異常監視 ) により業務停止を最小限にし クラスタシステムダウンを防止 イメージ図 現用サーバ 待機サーバへフェイルオーバ 待機サーバ < 導入効果と機能 > 無用な回復動作を防いでダウンタイム短縮 (*1) 複数のリソースをグループ化し 1 つの仮想リソースとして監視し 各種演算式により仮想リソースの障害判定条件を細かく設定可能 これによって業務継続不可となり真に回復動作が必要な状況を正確に判定可能 障害検出時に監視をリトライし 間欠障害や一時的な高負荷状態でのフェイルオーバ発生を防止 ファイルシステムの障害検知により 障害を局所化 (*2) I/O エラーによるリマウントを検知し データ破壊が進行しないよう保守を促す 全 CPU に対してウォッチドッグ方式のスケジューラ監視 (*2) CPU 障害および CPU 異常負荷によるスケジューラ異常を迅速に検知 OS FileSystem ResourceSaver 障害 CPU 仮想リソース MC SCOPE (*1) 監視リソース FC LAN 障害 システムログ通知 システム管理者 動作環境 (*3) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日 型番 : UL4442-102 他 価格 ( 最小構成 ): 412,500 円 ( シングル構成 CPUライセンス メディア含む場合 ) (*1) MC SCOPE ( 障害監視や原因究明に必要な詳細ログを記録する NEC 製ミドルウェア ) が必要です MC SCOPE は Enterprise Linux with Dependable Support に含まれます (*2) 本機能は OS が Red Hat Enterprise Linux 6 の場合利用可能です (*3) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 16
全 CPU の監視により 業務影響を最小化 (*) 本機能は OS が Red Hat Enterprise Linux 6 の場合利用可能です 障害事例 業務が突然停止し しばらくしてフェイルオーバ その間業務が停止した 復旧後は障害箇所の特定に人手と時間を要した 原因 導入効果 特定の CPU が応答しなくなったことにより プロセスのデッドロックが発生 この影響でシステムがハングアップしたが ログなど情報が残っていなかった 全 CPU または 全コアを対象として CPU 監視を行い ハングアップの予兆を検知 障害情報を収集した後に 必要に応じてフェイルオーバまたは リブートすることが可能 これにより 業務への影響を最小限にすることが可能 ResourceSaver 未導入時 運用中 CPU 異常発生ハングアップ業務停止原因特定が困難 ResourceSaver 導入時 運用中 CPU 異常発生障害情報収集フェイルオーバ / リブートダウンタイム縮小 ResourceSaver CPU 障害を検知 Page 17
お問い合わせ先 本製品に関するご相談 お問い合わせは下記までお願いいたします 問い合わせ先 : info@clusterpro.jp.nec.com 以下製品サイトより製品マニュアルなどがダウンロードいただけます URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html NEC 開発製品ですので ユーザサポートも安心です! Page 18
Page 19