CLUSTERPRO MC (HA シリーズ ) のご紹介 2013/4/1 NEC システムソフトウェア事業部 CLUSTERPRO グループ

本資料について本資料に記載されている内容は NEC 製サーバ Express5800 シリーズ ( 以降 NEC 製サーバ ) でのご利用を前提としています他社機への導入を検討されている場合本資料末尾に記載されているお問い合わせ先までご相談ください本資料に掲載しております価格には消費税は含まれておりませんご購入の際に消費税が付加されますのでご承知おき願います本資料に記載されている会社名製品名は各社の商標または登録商標です Page 1

CLUSTERPRO MC(HA シリーズ ) NEC が手がけたミッションクリティカルシステムの構築運用の現場の声を監視製品という形でフィードバックしました障害の予兆検出や予防を行うことによりシステムの可用性を極限まで高めます適用効果業務停止の防止クラスタ化 ( サーバの冗長化 ) 障害の検出フェイルオーバ障害の防止装置の冗長化障害の予兆検出障害の予防ダウンタイム短縮フェイルオーバに至る前の障害も未然に検出したいというニーズに応えます OS やアプリケーションなど監視対象に特化した深い監視によって障害原因の特定にも効果です CLUSTERPRO MC (HA シリーズ )(*1) (*1) 以降 CLUSTERPRO MC (HA) サーバ監視ノウハウを容易に導入 NEC が手がけた UNIX システムにおいて豊富な利用実績がある監視機能を Linux,Windows システムに提供しますそれらにより UNIX 並みの高可用性を実現できます監視監視資源未解放プロセスファイルシステム異常業務停止障害 ( 業務停止の予兆 ) 障害の予兆ディスクのセクタエラーデータベース格納ディスクの空き不足 I/O パスの頻繁なスイッチハインリッヒの法則で例えれば重大な事故軽微な事故ヒヤリハット Page 2

CLUSTERPRO と CLUSTERPRO MC (HA) の監視範囲イメージ CLUSTERPRO MC (HA) サーバ CLUSTERPRO MC (HA) CLUSTERPRO MC (HA) ネットワークディスク OS アプリケーション CLUSTERPRO MC (HA) CLUSTERPRO MC (HA) CLUSTERPRO は広く浅く CLUSTERPRO MC (HA) は狭く深く Page 3

CLUSTERPRO MC (HA) 製品ラインナッププロセス監視 ProcessSaver Windows Linux 障害監視 Disk 監視 RootDiskMonitor StorageSaver Windows Linux Windows Linux Oracle 監視 ApplicationMonitor Linux OS 監視クラスタ制御 ResourceSaver Linux Linux / Windows シングルクラスタ Page 4

CLUSTERPRO MC (HA) 製品紹介 1. ProcessSaver 2. RootDiskMonitor 3. StorageSaver 4. ApplicationMonitor 5. ResourceSaver Page 5

CLUSTERPRO MC ProcessSaver 1.0 プロセスが異常終了しても自動再開させ業務を継続 < 製品概要 > プロセスを監視しプロセス消滅時に自動的に再起動を実施プロセス再起動に失敗した場合はクラスタウェアと連携しノードを切り替え業務を継続するなど高可用を実現することが可能 < 導入効果と機能 > プロセス自動再起動によるダウンタイム短縮業務アプリケーションや OS デーモン同一名のプロセスグループ化された複数プロセスミドルウェアなどを構成するプロセスなど多様なプロセスを監視可能 Win Linux 異常終了に加えて様々な手段でプロセスのハングアップ ( 無応答 ) を検出することも可能 Linux 異常検出時はプロセスを自動再起動クラスタ連携によるダウンタイム短縮再起動を繰り返しても復旧しない場合はクラスタウェアと連携して待機系にフェイルオーバし業務を継続 Win Linux CLUSTERPRO と連携する場合 ProcessSaver によって容易なグループ監視や様々な手段でのハングアップ監視が実現可能 (*1) Win Linux Win Linux 設定テンプレートで容易に導入設定 OS プロセスや Web サーバなどの代表的なアプリケーションについては監視設定や再起動スクリプトのテンプレートを提供 Win Linux イメージ図 ProcessSaver 1 監視 / 障害検出監視対象プロセス 3 再起動障害異常終了ハングアップ同一名のプロセス関連するプロセスのグループ 2 システムログ通知システム管理者動作環境 (*2) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 Microsoft Windows Server 2003/2008/2012 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日型番 : UL4438-102 他価格 ( 最小構成 ): 220,000 円 ( シングル構成 CPUライセンスメディア含む場合 ) (*1) ハングアップ監視は Linux 版のみ利用可能です (*2) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 6

幅広いプロセスの柔軟な監視障害事例原因導入効果業務が突然停止手動での業務再起動まで業務が停止し復旧後は障害箇所の特定に人手と時間を要した業務プロセスが依存するプロセスが異常終了したことで業務プロセスも停止したが情報がログに出力されなかった依存するプロセスが異常終了した場合依存関係を考慮して自動再起動することで業務停止時間を最小限へ短縮異常終了したプロセスをログに通知するため障害箇所の特定と対処が短時間で可能 ProcessSaver 多様なプロセスを柔軟に監視可能業務アプリミドルウェア OS デーモンプロセスA プロセスA プロセスA プロセスA 同一名のプロセスプロセス 1 プロセス 2 プロセス 4 プロセス 3 グループ化されたプロセス Page 7

様々な手段でプロセスのハングアップを検出 Linux 障害事例原因導入効果業務が突然停止業務プロセス自体は起動しており原因がわからず手動での業務再起動まで業務が停止業務プロセスは起動していたもののハングアップ状態で情報がログに出力されなかった監視対象に応じて様々な手段でプロセスのハングアップを検出ハングアップしたプロセスを自動再起動することで業務停止時間を最小限へ短縮異常終了したプロセスをログに通知するため障害箇所の特定と対処が短時間で可能監視対象プロセスが定期的にファイルを更新している場合ファイルのタイムスタンプを監視 ProcessSaver プロセスが起動するスレッド数の変化を監視プロセスがオープンするファイル数の変化を監視プロセスプロセスプロセス Page 8

CLUSTERPRO MC RootDiskMonitor 1.0 OS ディスクの障害を早期に検出し業務を安定して継続 < 製品概要 > OS ディスクの障害発生時にシステムログに障害を通知両系障害発生時にはクラスタウェアと連携してノード切替することで安定した業務を継続イメージ図クラスタウェア 3 ノード切り替え両系障害の場合 RootDiskMonitor < 導入効果と機能 > 多彩な監視機能により障害を早く確実に検出 OS ディスクを構成する論理ディスク (LUN) の死活監視 Win Linux I/O リクエストの無応答やメディアエラーを検出管理領域および未使用領域も含むディスク全面セクタ検査 Win Linux I/O リトライによる OS 高負荷を警告メディアエラー ( セクタ不良など ) が発生した OS ディスクを通知 Win Linux 片系障害の検出により予防保守が可能 (*1) 片系ディスクの障害を検出しディスクの両系障害に至る前に通知し予防保守を促すことが可能 Win Linux クラスタウェア連携によるダウンタイム短縮ディスクの両系障害時にはクラスタウェア連携によるフェイルオーバで業務を継続 Win Linux Win Linux コマンドにより監視の一時停止 / 再開やパラメータの動的変更が可能 2 システムログコンソール通知システムログ 1OS ディスクの死活監視及びハングアップ監視障害 PV1 異常検知ディスク故障通知 OS ディスク PV2 ミラーリング動作環境 (*2) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 Microsoft Windows Server 2003/2008/2012 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日型番 : UL4441-102 他価格 ( 最小構成 ): 185,000 円 ( シングル構成 CPUライセンスメディア含む場合 ) (*1) Linux で HW-RAID 環境の場合 Universal RAID Utility(URU: RAID コントローラを管理する RAID システム管理ユーティリティ ) が必要です URU は EXPRESS サーバに含まれますまた Windows の HW-RAID 環境は 2013 年 4 月時点で本機能のサポート対象外です (*2) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 9

ディスクの全面検査で不良セクタを早期発見障害事例原因年次処理時に突然サーバダウンその後 OS は起動できたがサーバダウンが頻発し障害箇所の特定に人手と時間を要した通常運用時にアクセスしない領域でメディアエラーが発生していたが年次処理でメディアエラー領域にアクセスし顕在化導入効果 OS や業務アプリケーションバックアップソフトが問題のあるセクタへアクセスすることにより発生する I/O エラーや I/O リクエストの無応答を未然に防止 OS からのアクセス業務 I/O OS からのアクセス業務 I/O パトロールシーク機能 (*) 通常運用で頻繁にアクセスする領域パトロールシーク機能による検査領域メディアエラーセクタ I/O エラーや I/O リクエストの無応答の発生によりシステムへの影響大通常運用でアクセスしない領域はメディアエラー自体が表面化せず年次処理や OS バックアップなどで表面化し障害となる場合がある全ディスク領域を定期的にテストアクセスするためメディアエラーセクタの早期検出が可能 (*) 未使用箇所を含むディスクの全面検査を行う機能 Page 10

片系障害の検出により予防保守が可能 (*1) 障害事例内蔵ディスクを冗長化していたが両系障害が発生しサーバダウンディスク交換を行うまで業務が停止原因片系障害時に情報が通知されなかったためそのまま運用を続け両系障害に至った導入効果ディスクの片系障害を検出し通知することで両系障害に至る前に予防保守を行うことが可能 Linux で HW-RAID 環境の場合 RootDiskMonitor 論理ディスク RAID コントローラミラー物理ディスク (*1) Linux で HW-RAID 環境の場合 Universal RAID Utility (URU: RAID コントローラを管理する RAID システム管理ユーティリティ ) が必要です URU は EXPRESS サーバに含まれますまた Windows の HW-RAID 環境は 2013 年 4 月時点で本機能のサポート対象外です Page 11

CLUSTERPRO MC StorageSaver 1.0 ディスクアレイ装置の障害を早期に検出し業務を安定して継続 < 製品概要 > FC (Fibre Channel) iscsi 接続されたディスクアレイ装置の障害監視運用管理を実施イメージ図 < 導入効果と機能 > 経路を含めたディスクアレイ装置監視により業務のエラーや性能低下を早く確実に検出サーバとディスクアレイ装置間を結ぶ I/O パスの死活監視および I/O リクエストの無応答の検出 Win Linux 間欠障害による頻繁なパス切替の原因を検出予防してディスク I/O 性能の低下を防止 Win Linux VG (Volume Group) 監視により業務エラーを論理ディスクのレベルで早期に検出 Linux クラスタ連携によるダウンタイム短縮 I/O パスの両系障害時にはクラスタウェア連携によるフェイルオーバで業務を継続 Win Linux FC( 正 ) 障害業務 AP FC カードマルチパス管理製品 Storage Saver FC カード 1 ディスクアレイ装置資源を監視 FC( 副 ) 動作環境 (*1) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 Microsoft Windows Server 2003/2008 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日型番 : UL4440-102 他価格 ( 最小構成 ): 360,000 円 ( シングル構成 CPUライセンスメディア含む場合 ) (*1) サポート済みのディスクアレイ装置マルチパス管理ソフトウェア含む動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html 2 障害を検出 3 システムログに通知 FC: Fibre Channel 4 障害を検出した I/O パスを切り離し 5 マルチパス管理製品が正常なパスを使用して I/O を継続 Page 12

ディスク I/O のスループット低下防止障害事例ディスク I/O のスループットが低下原因間欠障害により I/O パスの切り替えが頻発しディスクアクセスが遅延導入効果 StorageSaver が障害の発生した I/O パスを閉塞間欠障害時の頻繁な I/O パスの切替による業務のスローダウンを防止し安定した業務継続を実現マルチパス管理製品正系副系間欠障害頻繁な切り替わり発生ディスクアレイ装置障害が発生したノード内では I/O パスの監視が継続されます障害が発生したノード内の I/O パスの監視で正常に見えると切り戻しが発生しますそのため間欠障害ではノード内の I/O パスが頻繁に切り替わりディスクアクセスが遅延する可能性があります StorageSaver 間欠障害閉塞副系ディスクアレイ装置障害を検出すると正系から副系へ切り替わります障害が発生したノード内の I/O パスを閉塞することができるので間欠障害でも頻繁な切り替わりは発生しません Page 13

CLUSTERPRO MC ApplicationMonitor 1.0 Oracle データベースシステムを監視し業務停止につながる重大問題を回避 < 製品概要 > RAC 構成を含む Oracle データベースシステムを監視し業務停止につながる障害を早期に検出障害発生時には Oracle プロセスの再起動もしくはクラスタ連携によるフェイルオーバで業務停止時間を最小化イメージ図現用待機構成の Oracle を監視した場合現用サーバ 4 待機サーバへフェイルオーバ待機サーバ < 導入効果と機能 > Oracle に特化した監視で障害を早く確実に検出インスタンスリスナ Oracle Clusterware の障害 ( 停止無応答 ) を監視し早期に障害を検出無応答に至る前の予兆検出も可能クラスタウェア連携によるダウンタイム短縮障害発生時には Oracle プロセスの再起動クラスタウェア連携によるフェイルオーバ / ノード縮退で業務を継続障害種別 ( 停止無応答 ) ごとにクラスタウェア連携動作の指定が可能停止障害時は自動復旧無応答障害時はオペレータ介入といった運用にも柔軟に対応障害情報の自動採取による原因特定までの時間短縮インスタンス障害はバックグラウンドプロセス単位で特定障害検出時には原因究明に必須となる情報を自動的に採取早期原因究明が可能 3 通知 ApplicationMonitor 1 監視 2 障害発生箇所 Oracle を特定障害 5 待機サーバで業務の継続が可能動作環境 (*1) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日型番 : UL4437-102 他価格 ( 最小構成 ): 1,322,500 円 ( シングル構成 CPUライセンスメディア含む場合 ) (*1) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 14

Oracle のインスタンス無応答状態下での業務継続障害事例原因導入効果業務が突然停止手動での業務再起動まで業務が停止し復旧後は障害箇所の特定に人手と時間を要したアーカイブ出力先のディスクがいっぱいになりアーカイブ処理が終了せずデータベース更新ができない状態だった ApplicationMonitor がインスタンス無応答障害を検出し業務は待機系へフェイルオーバすることで業務停止時間を最小限へ短縮障害情報をログに通知するため障害箇所の調査と対処が容易に可能接続中の業務は停止業務停止業務業務復旧業務業務 AP AP サーバ業務 AP AP サーバ処理遅延アーカイブ LOG Oracle 無応答障害 DB DB サーバ ApplicationMonitor CLUSTERPRO X 障害情報採取無応答障害として検出処理遅延アーカイブ LOG Oracle 無応答障害 DB DB サーバフェイルオーバ Page 15

CLUSTERPRO MC ResourceSaver 1.0 クラスタシステムを補強し可用性の向上を実現 < 製品概要 > クラスタシステムのリソース監視を補強する製品ハングアップ / パニックにつながる障害監視 ( 異常監視 ) により業務停止を最小限にしクラスタシステムダウンを防止イメージ図現用サーバ待機サーバへフェイルオーバ待機サーバ < 導入効果と機能 > 無用な回復動作を防いでダウンタイム短縮 (*1) 複数のリソースをグループ化し 1 つの仮想リソースとして監視し各種演算式により仮想リソースの障害判定条件を細かく設定可能これによって業務継続不可となり真に回復動作が必要な状況を正確に判定可能障害検出時に監視をリトライし間欠障害や一時的な高負荷状態でのフェイルオーバ発生を防止ファイルシステムの障害検知により障害を局所化 (*2) I/O エラーによるリマウントを検知しデータ破壊が進行しないよう保守を促す全 CPU に対してウォッチドッグ方式のスケジューラ監視 (*2) CPU 障害および CPU 異常負荷によるスケジューラ異常を迅速に検知 OS FileSystem ResourceSaver 障害 CPU 仮想リソース MC SCOPE (*1) 監視リソース FC LAN 障害システムログ通知システム管理者動作環境 (*3) : Red Hat Enterprise Linux 5/6 Oracle Linux 6 製品 URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html 出荷開始日 : H24 年 10 月 12 日型番 : UL4442-102 他価格 ( 最小構成 ): 412,500 円 ( シングル構成 CPUライセンスメディア含む場合 ) (*1) MC SCOPE ( 障害監視や原因究明に必要な詳細ログを記録する NEC 製ミドルウェア ) が必要です MC SCOPE は Enterprise Linux with Dependable Support に含まれます (*2) 本機能は OS が Red Hat Enterprise Linux 6 の場合利用可能です (*3) 動作環境の詳細については下記 URL をご確認ください http://www.nec.co.jp/clusterpro/mc_ha/environment.html Page 16

全 CPU の監視により業務影響を最小化 (*) 本機能は OS が Red Hat Enterprise Linux 6 の場合利用可能です障害事例業務が突然停止ししばらくしてフェイルオーバその間業務が停止した復旧後は障害箇所の特定に人手と時間を要した原因導入効果特定の CPU が応答しなくなったことによりプロセスのデッドロックが発生この影響でシステムがハングアップしたがログなど情報が残っていなかった全 CPU または全コアを対象として CPU 監視を行いハングアップの予兆を検知障害情報を収集した後に必要に応じてフェイルオーバまたはリブートすることが可能これにより業務への影響を最小限にすることが可能 ResourceSaver 未導入時運用中 CPU 異常発生ハングアップ業務停止原因特定が困難 ResourceSaver 導入時運用中 CPU 異常発生障害情報収集フェイルオーバ / リブートダウンタイム縮小 ResourceSaver CPU 障害を検知 Page 17

お問い合わせ先本製品に関するご相談お問い合わせは下記までお願いいたします問い合わせ先 : info@clusterpro.jp.nec.com 以下製品サイトより製品マニュアルなどがダウンロードいただけます URL : http://www.nec.co.jp/clusterpro/mc_ha/index.html NEC 開発製品ですのでユーザサポートも安心です! Page 18

Page 19