外部向け資料作成にあたって

Similar documents
Microsoft PowerPoint - OSS運用管理勉強会資料_ a.pptx

障害管理テンプレート仕様書

スライド 1

スライド 1

McAfee Application Control ご紹介

Webセキュリティサービス

Mailman管理者マニュアル

HDC-EDI Manager Ver レベルアップ詳細情報 < 製品一覧 > 製品名バージョン HDC-EDI Manager < 対応 JavaVM> Java 2 Software Development Kit, Standard Edition 1.4 Java 2

PowerPoint プレゼンテーション

Nagios XI Webサイトの改ざん監視

動体検知によるメール送信イベントの設定方法(ファームウェアⅴ7.1ⅹ以上)

Symantec AntiVirus の設定

PowerPoint プレゼンテーション

Oracle Un お問合せ : Oracle Data Integrator 11g: データ統合設定と管理 期間 ( 標準日数 ):5 コースの概要 Oracle Data Integratorは すべてのデータ統合要件 ( 大量の高パフォーマンス バッチ ローブンの統合プロセスおよ

< 目次 > 1. ビジネスポータル初回ログイン手順について Arcstar IP Voice 開通後 最初にビジネスポータルにアクセスして 初期設定をしていただく手順についてご案内します 2. ログインとダッシュボード画面の表示メニュービジネスポータルにログインし ダッシュボード画面を表示するまで

Microsoft PowerPoint - A-10 ダウンロード用(C確認済).pptx

アラートの使用

任意の間隔での FTP 画像送信イベントの設定方法 はじめに 本ドキュメントでは AXIS ネットワークカメラ / ビデオエンコーダにおいて任意の間隔で画像を FTP サー バーへ送信するイベントの設定手順を説明します 設定手順手順 1:AXIS ネットワークカメラ / ビデオエンコーダの設定ページ

Webセキュリティサービス

インストーラー 管理番号 内容 対象バージョン 230 HULFT がすでにインストールされているパスに対してサイレントインストールを実行すると インストールされていた HULFT の動作環境が不正な状態になる 7.3.0~7.3.1 ユーティリティ 管理番号 内容 対象バージョン 231 管理情報

産直くん 9 リピートくん 9 バックアップ リストア作業チェックリスト バックアップ リストア作業項目一覧 作業項目作業目安時間概要 00 バックアップ リストア作業を行う前に 産直くん 9 リピートくん 9 のバックアップ リストア作業を円滑に行うための確認事項をまとめています 1. バックアッ

障害およびログの表示

ライフサイクル管理 Systemwalker Centric Manager カタログ

構成管理記録テンプレート仕様書

Webセキュリティサービス

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

1. はじめに (1) 本書の位置づけ 本書ではベジフルネット Ver4 の導入に関連した次の事項について記載する ベジフルネット Ver4 で改善された機能について 新機能の操作に関する概要説明 ベジフルネット Ver4 プログラムのインストールについて Ver4 のインストール手順についての説明

アカウント管理者 操作ドキュメント

PowerPoint プレゼンテーション

リモートアクセス Smart Device VPN ユーザマニュアル [ マネージドイントラネット Smart Device VPN 利用者さま向け ] 2015 年 10 月 20 日 Version 1.6 bit- drive Version 1.6 リモートアクセス S


変更要求管理テンプレート仕様書

ESMCommonService 本サービスは 複数の監視サービスで構成されています ESMCommonService サービス本体で検出するイベントを処理します 通報時のイベントログのソース名は "ESMCommonService" で登録されます CPU 負荷監視定期的にシステムのパフォーマンス

<48554C46545F F A5490E08E9197BF2E786C73>

+メッセージ利用設定 利用マニュアル

目次 1 はじめに 本書について モバイルコネクトについて モバイルコネクトの制約 モバイルコネクト初期設定 初期設定メール 解像度の設定 初期エントリー パス

V-CUBE One

9 WEB監視

平成 30 年度需要家側エネルギーリソースを活用したバーチャルパワープラント構築実証事業 (A 事業 ) 東京電力パワーグリッド株式会社関西電力株式会社 2019 年 3 月

レプリケーションについて レプリケーション元に設定したメイン機の共有フォルダーと レプリケーション先に指定した予備機の共有フォルダーを同期し 同じ状態に保ちます (LAN 環境により遅延が発生します ) 遠隔地へのレプリケーションにより メイン機側での災害 事故によるデータ損失のリスク低減ができます

目 次 1. 目的 利用前提 承認経路 ユーザ ID 権限申請 ( 変更 廃止 ) 上長承認 アプリオーナー承認 ユーザ情報確認 調達部門管理担当課向け

PowerPoint プレゼンテーション

Upload path ファイル送信先ディレクトリのパスを指定します ホームディレクトリに画像を送信する場合は空白のまま サブディレクトリに画像を送信する場合はディレクトリ名を指定します さらに下位のディレクトリを指定する場合は \ マークを利用します 例 ) ホームディレクトリ以下の camera

要求仕様管理テンプレート仕様書

目次 1. 教育ネットひむかファイル転送サービスについて ファイル転送サービスの利用方法 ファイル転送サービスを利用する ( ひむか内 ) ファイル転送サービスへのログイン ひむか内 PCでファイルを送受信する

沖縄科学技術研究基盤整備機構

目次 : はじめに 2 1. 安否確認アプリについて 安否確認アプリの設定について 安否確認アプリのインストール方法について Android の場合 iOS の場合 アプリの通知設定について 7 2. メールについて 8 2-

( 目次 ) 初回ログインクリプト便送信クリプト便受信ご参考 P2~ P6~ P11~ P14~ 本マニュアルは NRIセキュアテクノロジーズ株式会社 ( 以下 NRI 社 という ) より提供されました2014 年 12 月 1 日時点の クリプト便 ユーザーマニュアルをもとに作成しております 最

FUJITSU Software Systemwalker Centric Manager Lite Edition V13.5 機能紹介資料

3Dカメラアプリ

ソフト活用事例③自動Rawデータ管理システム

サービス内容 サービス内容 ドメインサービス Web サービスのサービス内容についてご案内します このたびは ドメイン /Web サービスをお申し込みいただきまして 誠にありがとうございます 本冊子は ドメイン /Web サービスの運用を管理される方向けの内容で構成されております お客様のご利用環境

HULFT 技術サポートサイト お問い合わせ入力操作説明


Microsoft Word - シャットダウンスクリプトWin7.doc

ESMPRO/ServerManager Ver. 6 変更履歴

カミネット EDI 活用事例集 株式会社カミネット 1 / 19

<4D F736F F F696E74202D F938C8B9E979D89C891E58A77976C5F91B28BC690B68CFC82AF E67654F6E6C696E B B837D836A B5F76312E322E707074>

クローバーネットWebセルフページ操作説明書

画像投稿掲示板マニュアル

IBM API Connect 開発者ポータル構成ガイド 1章

はじめに 本ドキュメントは Redmine を使用して稼働する定量的プロジェクト管理ツール ( 以下 IPF と略します ) のヘルプです IPF の操作に関わる機能を解説しており Redmine 及び構成管理ツール (Subversion Git) の標準機能については 本ヘルプの記載対象外として

MRS-NXシリーズご利用ガイド

<4D F736F F F696E74202D E656D6F73837D836C815B C B CC90DA91B182CC8E DD82F0979D89F082B582E682A F38DFC E >

PC にソフトをインストールすることによって OpenVPN でセキュア SAMBA へ接続することができます 注意 OpenVPN 接続は仮想 IP を使用します ローカル環境にて IP 設定が被らない事をご確認下さい 万が一仮想 IP とローカル環境 IP が被るとローカル環境内接続が行えなくな

Ver25 メディアマート株式会社 アドバンスト アナリティクス株式会社 Statistics 25.0 のインストール手順書 Authorized User ライセンス ( シングルライセンス ) 1. 事前に IBM SPSS Statistics 25 をインストールする場合 Administ

PowerPoint プレゼンテーション

目次 1. 概要 動作環境

掲示板の閲覧 掲示板の閲覧 登録権または参照権のある掲示板グループの掲示版を閲覧することができます 各利用者の権限は 管理者によって設定されます 掲示板を閲覧する 1 掲示板画面を表示し 閲覧する掲示が含まれている掲示板グループ 掲示板の順にクリックします 掲示板画面の表示方法 ポータル画面の画面説

迷惑メール対策[Barracuda]操作マニュアル

目次 移行前の作業 3 ステップ1: 移行元サービス メールソフトの設定変更 3 ステップ2: アルファメール2 メールソフトの設定追加 6 ステップ3: アルファメール2 サーバへの接続テスト 11 ステップ4: 管理者へ完了報告 11 移行完了後の作業 14 作業の流れ 14 ステップ1: メー

FUJITSU Cloud Service for OSS 「システム監視サービス」ご紹介資料

統合運用管理ソフトウェア Systemwalker 総合カタログ

アルファメールプラチナのについてご案内します この度は アルファメールプラチナをお申し込みいただきまして 誠にありがとうございます 本冊子は アルファメールプラチナをご利用いただく方 ( 一般利用者 ) 向けの内容で構成されております お客様のご利用環境によってはご紹介した画面や操作とは異なる場合が

スライド 1

アーカイブ機能インストールマニュアル

管理サイト操作マニュアル Version.1.1. デジアナコミュニケーションズ株式会社

2. 設定画面から 下記の項目について入力を行って下さい Report Type - 閲覧したい利用統計の種類を選択 Database Usage Report: ご契約データベース毎の利用統計 Interface Usage Report: 使用しているインターフェイス * 毎の利用統計 * 専用

スライド 1

MIRACLE MH for SNMP サポート SLA( サービスレベルアグリーメント ) ML-CS-0747 本書は サイバートラスト株式会社 ( 以下 サイバートラスト ) が MIRACLE MH for SNMP サポート ( 以下当サポートサービス ) の内容について説明するものである

1. アクセスナンバーでのログイン アクセスナンバーとは 平成 28 年 3 月以前にご加入されたお客様は PC 端末設定表 に記載のご契約時のアカウント名 ( 左部 追加ではないアドレス ) とパスワードが アクセスナンバーとパスワードになります なおメールアドレスを変更され

Transcription:

監視システムからの膨大なアラートを自動的に集約/判断し 管理 ジョブ管理に自動連携する方法

管理 サービスオペレーションのプロセスの1つ ITIL Ver3 Service Strategy Service Design Service Operation Service Operation Continual Service Improvement イベント管理 管理 問題管理 要求実現 アクセス管理 2

管理とは 目 的 により中断されたITサービスを早急に復旧させ ビジネスの負のインパクトを最小限にすること 障害発生 運用監視ツール 管理ツール 早急な復旧作業 管理のプロセス 1 2 3 4 5 検知と記録 分類と初期サポート 調査と診断 解決と復旧 のクローズ プロセスとしてはシンプルではありますが 確実に行うことは大変です ITサービスの運用を円滑に回す為の重要なポイントとなる為 しっかりと行う必要があります その為には 専用のツールを導入することも解決の1つとなります 3

実際に現場は 障害発生 XXXXXXX株式会社 XXXXXXX株式会社 障害対応管理表 20XX年X月度 XX/XX以降 障害対応管理表 20XX年X月度 XX/XX以降 イベントID イベントID イベントID 件名 件名 件名 発生日 発生日 発生日 4621 4621 4621 ZBX メールシステム 2017/7/21 2017/7/21 2017/7/21 00:22:39 00:22:39 00:22:39 DBパフォーマンスエラー DBパフォーマンスエラー DBパフォーマンスエラー 完了日 完了日 完了日 影響度 影響度 影響度 発生 発生 発生 ホスト名 ホスト名 ホスト名 IPアドレス IPアドレス IPアドレス 件名 Excel Excel 必要項目抽出 アラートメール受信 作業案件追加 必要項目転記 完了日 影響度 発生 ホスト名 IPアドレス 事象:アラートメールを受信 (下記アラートによるディスク障害) 事象:アラートメールを受信 事象:アラートメールを受信 (下記アラートによるディスク障害) Event Name: Physical Drive Drive Status Status Change Change (3046) (3046) Event Event Name: Name: Physical Physical Drive 内容概略 URL: https://isz180bkbb:2381/event originator: isz180bkbbevent isz180bkbbevent Severity: Severity: Critical Critical URL: URL: https://isz180bkbb:2381/event https://isz180bkbb:2381/event originator: 事象 アラートメールを受信 Event received: 21-Jan-2014, 20:27:41Event 20:27:41Event description: description: Physical Physical Drive Drive Status Status Change. Change. Event Event received: received: 21-Jan-2014, 21-Jan-2014, パフォーマンスしきい値 : MOM This trap signifies that that the the agentデータベースの空き領域 has detected detected aa change change- エラーしきい値 the status status ofof aa drive drive array array This agent has inin the This trap trap signifies signifies that the 2017/7/23 軽度の障害 isz180bkbb 192.168.100.110 2017/7/23 2017/7/23 軽度の障害 軽度の障害 isz180bkbb isz180bkbb 192.168.100.110 192.168.100.110 Db % Free Space Available: exmommng value = 19 physical drive. The The variable variable cpadaphydrvstatus cpadaphydrvstatus indicates indicates the the current current physical physical drive drive physical physical drive. drive. The variable 2017/7/21 重度の障害 ISZ180KA 192.168.100.100 原因 MOM DBの空き領域が少なくなっていることによるもの status. User physical drive drive status status isis failed(3) failed(3) oror predictivefailure(4), predictivefailure(4), replace replace status. User Action: Action: IfIf the the physical 00:22:39 対応 メーカーとしては 監視ソフトに関連するアラートのため 対応不要として終了した the drive. the drive. DBパフォーマンスエラー 障害対応管理表 20XX年X月度 XX/XX以降 XXXXXXX株式会社 補足 最終的にはMOMのデータベースの一つであるone point DBの容量枯渇が発生し 1/12 原因:ディスクPort 2I2I Box Bya の障害 の障害 原因:ディスクPort Box 11 Bya イベントID 発生 イベントID 発生 物理ドライブ変更エラー 物理ドライブ変更エラー 発生日 完了日 影響度 IPアドレス 内容概略 発生日 完了日 影響度 IPアドレス SQLサービス停止 1/13 MOMのサービス停止が発生 対応:ディスクPort 2I2I Box Bya 交換 交換 内容概略 件名 ホスト名 対応:ディスクPort 11 Bya Box 件名 ホスト名 事象:アラートメールを受信 (下記アラートによるディスク障害) 事象 アラートメールを受信 XXXXXXX株式会社 障害対応管理表 20XX年X月度 XX/XX以降 事象: 事象 アラートメールを受信 事象:下記アラートメール受信(アラート: IIS 8 Web サーバーは利用できません) 事象: 46791 46791 46791 4621 メール内容確認 発生日 イベントID 4621 4621 件名 2017/7/22 2017/7/22 2017/7/22 10:47:15 10:47:15 10:47:15 2017/7/21 発生日 2017/7/21 2017/7/21 4738 46791 00:22:39 2017/7/30 00:22:39 4621 2017/7/22 DBパフォーマンスエラー 10:47:15 10:47:15 DBパフォーマンスエラー 2017/7/21 00:22:39 DBパフォーマンスエラー IIS/Webサーバ利用不可 物理ドライブ変更エラー 46791 46791 46791 2017/7/22 2017/7/22 10:47:15 10:47:15 2017/7/22 10:47:15 物理ドライブ変更エラー 物理ドライブ変更エラー 物理ドライブ変更エラー 担当者 担当者 担当者 ロケーション ロケーション ロケーション 状況概略 状況概略 状況概略 1/27 23 12 23 12 アラートメールを検知 お客様へ報告し 手順書指示によりメーカへ アラートメールを検知 お客様へ報告し 手順書指示によりメーカへ 1/27 1/27 23 12 アラートメールを検知 お客様へ報告し 手順書指示によりメーカへ エスカレート Symsntecケース番号 05915234 Symsntecケース番号 05915234 エスカレート エスカレート Symsntecケース番号 05915234 1/27 3:43 3:43 --- 19:37 19:37 Symantec社とのやりとりの後 ログを提出 Symantec社とのやりとりの後 ログを提出 1/27 1/27 3:43 19:37 Symantec社とのやりとりの後 ログを提出 John DC Rac#23 DC Rac#23 1/28 1/28 12:51 12:51 お客様へエラーの解析結果とエラーの回避方法を報告 お客様様より お客様へエラーの解析結果とエラーの回避方法を報告 お客様様より John John DC Rac#23 1/28 12:51 お客様へエラーの解析結果とエラーの回避方法を報告 お客様様より 対応についてはセンターSEと調整後に対応するため ケースを一度ホールドしてもら 対応についてはセンターSEと調整後に対応するため ケースを一度ホールドしてもら 対応についてはセンターSEと調整後に対応するため ケースを一度ホールドしてもら 補足 最終的にはMOMのデータベースの一つであるone point DBの容量枯渇が発生し 1/12 DBの容量枯渇が発生し 1/12 補足 最終的にはMOMのデータベースの一つであるone 補足 最終的にはMOMのデータベースの一つであるone point SQLサービス停止 1/13 MOMのサービス停止が発生 SQLサービス停止 1/13 SQLサービス停止 1/13 MOMのサービス停止が発生 MOMのサービス停止が発生 XXXXXXX株式会社 障害対応管理表 20XX年X月度 XX/XX以降 イベントID 内容概略 内容概略 内容概略 事象 アラートメールを受信 事象 アラートメールを受信 事象 アラートメールを受信 パフォーマンスしきい値 MOM データベースの空き領域 データベースの空き領域 --- エラーしきい値 エラーしきい値 パフォーマンスしきい値 パフォーマンスしきい値 ::: MOM MOM データベースの空き領域 エラーしきい値 Db Free Space Space Available: Available: exmommng exmommng value value === 19 19 Db Db %%% Free Free Space Available: exmommng value 19 2017/7/21 重度の障害 ISZ180KA 192.168.100.100 原因 MOM DBの空き領域が少なくなっていることによるもの 2017/7/21 2017/7/21 重度の障害 重度の障害 ISZ180KA ISZ180KA 192.168.100.100 192.168.100.100 原因 MOM 原因 MOM DBの空き領域が少なくなっていることによるもの DBの空き領域が少なくなっていることによるもの 対応 メーカーとしては 監視ソフトに関連するアラートのため 対応不要として終了した 対応 メーカーとしては 監視ソフトに関連するアラートのため 対応不要として終了した 対応 メーカーとしては 監視ソフトに関連するアラートのため 対応不要として終了した 2/18 23:52 23:52 アラート検知 アラート検知 2/18 2/190:34 お客様にメール報告 お客様にメール報告 2/190:34 再発 再発 再発 - RPC遅延 - RPC遅延 - RPC遅延 2013/11/24 2013/11/24 2013/11/24 AGCEXSVR12 AGCEXSVR12 AGCEXSVR12 完了 2013/12/1 2013/12/1 完了 完了 2013/12/1 AGCEXSVR14 AGCEXSVR14 AGCEXSVR14 いたいとの連絡受信 対応後確認 いたいとの連絡受信 対応後確認 クローズ クローズ 2013/12/8 2013/12/8 AGCEXSVR1 AGCEXSVR1 - RPC遅延 - RPC遅延 2013/11/24 2013/11/24 再発 0:40-8:55 8:55 AGCEXSVR12 0:40AGCEXSVR12 1/27 23 12 アラートメールを検知 お客様へ報告し 手順書指示によりメーカへ - RPC遅延 一旦 手順書より担当の判断で非監視対象とし お客様へクローズの報告を 2013/12/1 一旦 手順書より担当の判断で非監視対象とし お客様へクローズの報告を 2013/12/1 エスカレート Symsntecケース番号 05915234 2013/11/24 行ったがその後 お客様から調査依頼を受ける AGCEXSVR14 行ったがその後 お客様から調査依頼を受ける AGCEXSVR14 DC Rac#33 1/27 3:43-19:37 Symantec社とのやりとりの後 ログを提出 完了 AGCEXSVR12 DC Rac#33 完了 NOC 10:09 RCへ連絡 RCへ連絡 2013/12/8 NOC 10:09 2013/12/8 John DC Rac#23 1/28 完了 2013/12/1 12:51 お客様へエラーの解析結果とエラーの回避方法を報告 お客様様より Smith 11:32 お客様に調査再開を通知 お客様に調査再開を通知 AGCEXSVR1 Smith 11:32 AGCEXSVR1 対応についてはセンターSEと調整後に対応するため ケースを一度ホールドしてもら AGCEXSVR14 2/20 2/20 いたいとの連絡受信 対応後確認 2013/12/8 14:10 RCとのやり取りの後 RCにログを提出 14:10 RCとのやり取りの後 RCにログを提出 担当者 状況概略 ステータス AGCEXSVR1 再発 担当者 状況概略 ステータス 再発 クローズ 2/24 10:10-18:04 10:10-18:04 メーカー対応完了報告 メーカー対応完了報告 ロケーション 2/24 ロケーション 2/18 23:52 - RPC遅延 1/27 23 12アラート検知 アラートメールを検知 お客様へ報告し 手順書指示によりメーカへ - RPC遅延 1/27 23 12 アラートメールを検知 お客様へ報告し 手順書指示によりメーカへ - RPC遅延 2/190:34 2013/11/24 エスカレートお客様にメール報告 Symsntecケース番号 05915234 2013/11/24 エスカレート Symsntecケース番号 05915234 2013/11/24 担当者 状況概略 ステータス 再発 ロケーション 1/27 0:40-8:55 AGCEXSVR12 1/27 3:43 -- 19:37 19:37 Symantec社とのやりとりの後 ログを提出 Symantec社とのやりとりの後 ログを提出 AGCEXSVR12 1/27 3:43 AGCEXSVR12 08:05 アラートメール検知 1/27 23 12 アラートメールを検知 お客様へ報告し 手順書指示によりメーカへ 完了 2013/12/1 - RPC遅延 John 一旦 手順書より担当の判断で非監視対象とし お客様へクローズの報告を John DC Rac#23 DC Rac#23 1/28 1/28 12:51 お客様へエラーの解析結果とエラーの回避方法を報告 お客様様より 2013/12/1 John 完了 2013/12/1 12:51 お客様へエラーの解析結果とエラーの回避方法を報告 お客様様より 08:31 手順書よりログイン確認 正常 エスカレート Symsntecケース番号 05915234 2013/11/24 行ったがその後 お客様から調査依頼を受ける AGCEXSVR14 対応についてはセンターSEと調整後に対応するため ケースを一度ホールドしてもら AGCEXSVR14 John DC Rac#13 完了 DC Rac#33 対応についてはセンターSEと調整後に対応するため ケースを一度ホールドしてもら 完了 AGCEXSVR14 09:07 お客様へ障害連絡メール送付 1/27 3:43-19:37 Symantec社とのやりとりの後 ログを提出 AGCEXSVR12 NOC 10:09 RCへ連絡 2013/12/8 いたいとの連絡受信 対応後確認 2013/12/8 いたいとの連絡受信 対応後確認 2013/12/8 John DC Rac#23 対応中 完了 AGCEXSVR1 1/28 12:51 お客様へエラーの解析結果とエラーの回避方法を報告 お客様様より 2013/12/1 Smith 11:32 お客様に調査再開を通知 クローズ AGCEXSVR1 クローズ AGCEXSVR1 対応についてはセンターSEと調整後に対応するため ケースを一度ホールドしてもら AGCEXSVR14 2/20 23:52 2/18 23:52 アラート検知 アラート検知 - RPC遅延 2/18 - RPC遅延 いたいとの連絡受信 対応後確認 2013/12/8 14:10 RCとのやり取りの後 RCにログを提出 2/190:34 お客様にメール報告 2013/11/24 2/190:34 お客様にメール報告 2013/11/24 クローズ AGCEXSVR1 2/24 8:55 10:10-18:04 メーカー対応完了報告 0:408:55 AGCEXSVR12 0:40AGCEXSVR12 2/18 23:52 アラート検知 - RPC遅延 John 一旦 手順書より担当の判断で非監視対象とし お客様へクローズの報告を 2013/12/1 John 一旦 手順書より担当の判断で非監視対象とし お客様へクローズの報告を 2013/12/1 2/190:34 お客様にメール報告 2013/11/24 行ったがその後 お客様から調査依頼を受ける AGCEXSVR14 行ったがその後 お客様から調査依頼を受ける AGCEXSVR14 DC Rac#33 0:40-8:55 完了 AGCEXSVR12 DC Rac#33 完了 NOC 10:09 RCへ連絡 RCへ連絡 2013/12/8 NOC 10:09 2013/12/8 John 一旦 手順書より担当の判断で非監視対象とし お客様へクローズの報告を 2013/12/1 Smith 11:32 お客様に調査再開を通知 お客様に調査再開を通知 AGCEXSVR1 Smith 11:32 AGCEXSVR1 行ったがその後 お客様から調査依頼を受ける AGCEXSVR14 2/20 DC Rac#33 2/20 完了 NOC 10:09 RCとのやり取りの後 RCにログを提出 RCへ連絡 2013/12/8 14:10 14:10 RCとのやり取りの後 RCにログを提出 Smith 11:32 お客様に調査再開を通知 AGCEXSVR1 2/24 10:10-18:04 10:10-18:04 メーカー対応完了報告 メーカー対応完了報告 2/24 2/20 担当者 ロケーション 状況概略 ステータス John John 手入力 Event Change (3046) -- エラーしきい値 発生 パフォーマンスしきい値 MOMStatus データベースの空き領域 エラーしきい値 パフォーマンスしきい値 :: MOM データベースの空き領域 ソース:Name: IIS WebPhysical ServerDrive 完了日 影響度 IPアドレス 内容概略 ホスト名 URL: originator: Severity: Critical Db %%https://isz180bkbb:2381/event Free Space Space Available: Available: exmommng exmommng value ==isz180bkbbevent パス: T180AVZPTM2.agc.jp Db Free value 1919 AGCEXSVR11 192.168.100.102 事象 アラートメールを受信 Event received:dbの空き領域が少なくなっていることによるもの 21-Jan-2014, 20:27:41Event description: Physical Drive Status Change. 2017/7/21 重度の障害 重度の障害 ISZ180KA ISZ180KA 192.168.100.100 192.168.100.100 原因 MOM 原因 MOM DBの空き領域が少なくなっていることによるもの イベント日時: 2014/02/20 18:16:07 2017/7/21 AGCEXSVR12 192.168.100.103 パフォーマンスしきい値 : MOM - エラーしきい値 This trap signifiest180avzptm2.agc.jp that the agentデータベースの空き領域 has detected a change in the status of a drive array 対応 メーカーとしては 監視ソフトに関連するアラートのため 対応不要として終了した アラートの説明: の IIS 8 Web サーバーは利用できません 対応 メーカーとしては 監視ソフトに関連するアラートのため 対応不要として終了した 2017/7/23 致命的な障害 軽度の障害 AGCEXSVR13 isz180bkbb 192.168.100.110 192.168.100.106 physical Db % Free Space Available: exmommng value = 19 drive. The variable cpadaphydrvstatus indicates current physical drive 補足 最終的にはMOMのデータベースの一つであるone pointthedbの容量枯渇が発生し 1/12 DBの容量枯渇が発生し 1/12 原因 調査中 補足 最終的にはMOMのデータベースの一つであるone point 192.168.100.109 status. 2017/7/21 重度の障害 AGCEXSVR14 ISZ180KA 192.168.100.100 原因 MOM DBの空き領域が少なくなっていることによるもの User Action: If the physical drive status is failed(3) or predictivefailure(4), replace SQLサービス停止 1/13 MOMのサービス停止が発生 対応 未定 SQLサービス停止 1/13 MOMのサービス停止が発生 対応 メーカーとしては 監視ソフトに関連するアラートのため 対応不要として終了した the drive. 原因: 事象:アラートメールを受信 (下記アラートによるディスク障害) 原因:ディスクPort 2I Box 1(下記アラートによるディスク障害) Bya の障害 原因: 事象:アラートメールを受信 補足 最終的にはMOMのデータベースの一つであるone 原因:ディスクPort Box 11Status Bya 交換 の障害 対応: 対応:ディスクPort Box Bya Event Name: Physical Physical2I2IDrive Drive Status Change (3046) (3046) point DBの容量枯渇が発生し 1/12 対応: Event Name: Change SQLサービス停止 1/13 MOMのサービス停止が発生 対応:ディスクPort 2I Box 1 Bya 交換originator: URL: https://isz180bkbb:2381/event https://isz180bkbb:2381/event originator: isz180bkbbevent isz180bkbbevent Severity: Severity: Critical Critical URL: 事象:アラートメールを受信 事象:received: Event received: 21-Jan-2014, 21-Jan-2014,(下記アラートによるディスク障害) 20:27:41Event description: description: Physical Physical Drive Drive Status Status Change. Change. Event 20:27:41Event Event Name: Physical Drive StatushasChange (3046) This trap trap signifies that the the agent agent detected change inin the the status status ofof aa drive drive array array This signifies that has detected aa change 2017/7/23 軽度の障害 軽度の障害 isz180bkbb isz180bkbb 192.168.100.110 192.168.100.110 URL: https://isz180bkbb:2381/event originator: isz180bkbbevent Severity: Critical 2017/7/23 physical drive. drive. The The variable variable cpadaphydrvstatus cpadaphydrvstatus indicates indicates the the current current physical physical drive drive physical Event 21-Jan-2014, 20:27:41Event Drive Status Change. status.received: User Action: Action: the physical physical drive status statusdescription: failed(3)physical predictivefailure(4), replace status. User IfIf the drive isis failed(3) oror predictivefailure(4), replace This trap signifies that the agent has detected a change in the status of a drive array the drive. drive. 2017/7/23 軽度の障害 isz180bkbb 192.168.100.110 the physical drive. The 2Ivariable indicates the current physical drive 原因:ディスクPort Box 11cpaDaPhyDrvStatus Bya の障害 の障害 原因:ディスクPort 2I Box Bya status. User Action:2IIf Box the physical 対応:ディスクPort Bya 交換 交換drive status is failed(3) or predictivefailure(4), replace 対応:ディスクPort 2I Box 11 Bya the drive. 原因: 事象: 事象: 原因:ディスクPort 2I Box 1 Bya の障害 対応: ステータス ステータス ステータス 担当通知 Copy & Type 対応:ディスクPort 2I Box 1 Bya 交換 14:10 RCとのやり取りの後 RCにログを提出 2/24 10:10-18:04 メーカー対応完了報告 事象: 原因: 原因: 対応: 対応: 原因: 対応: 障害対応開始 課 題 メール電文を見て障害対応の必要性を判断 メール電文からチケットに必要な項目を転記 チケット起票を優先すると対応着手が遅れる 障害対応の優先で対応状況がわからない 遅延 記述ミス SLA違反へ 管理に支障 4

運用業務の自動化で期待できる効果 判断 遅延 作業 1.業務の効率化 2.人的ミス削減 ミス 障害通知 3.運用プロセスの定着 内容確認 手順確認 障害対応 復旧確認 ユーザ#1 ユーザ#2 新規監視 リソース増員 4.サービス拡大に対応 増員 5

管理システムを使うと 障害発生 手順書情報 担当者へチケット通知 自動処理 ZBX 管理 システム 受信 情報抽出 チケット登録 担当者通知 抽出 不要 チケット登録済み 転記 不要 管理システム SHERPA-SM 障害対応開始 効果 全ての通知を自動取込み 必要な項目を自動転記 該当担当者通知 全ての進捗状況の把握 対応漏れが無くなる 起票ミス 記載漏れ無し 譲り合っての対応遅延防止 運用品質の向上 6

SHERPA-SM アラートメール自動取込み機能 障害発生 自動登録 運用監視ツール アラート Zabbixからの通知メールサンプル 名前 アラートメール送信 デフォルトの件名 障害 {TRIGGER.NAME}: {ITEM.LASTVALUE}: zabbix デフォルトのメッセージ Original event ID: {EVENT.ID} 障害発生時刻 {DATE} {TIME} ホスト名 {HOST.HOST} IPアドレス {HOST.IP} 設置場所 {INVENTORY.LOCATION} 深刻度 {TRIGGER.SEVERITY} 障害内容 {TRIGGER.NAME} 最新値 {ITEM.LASTVALUE} 必要な情報を自動取り込み フィールドも増やせます Zabbix メール原文 記入漏れや情報不足などのミスを防止 7

SHERPA-SM その他機能 ガントチャート マイページ SHERPA-SM A 全体 担当者B 担当チケット 12 # プロジェクト B 1 2 3 4 5 C 名称 タスク状況 ハードウエア 定期作業 Ver UP ソフトウエア 自分の担当分が直ぐにわかり SHERPA-SM Login 対応漏れが無くなる 親チケット #1 担当者 B 優先度表示 No 子チケット #1 子チケット #2 子チケット #3 (終了100% (82% (38% 親チケットで全体管理 小チケットで関連 対応もリアルタイムに状況把握 対応履歴の検索 トラッカー ステータス 優先度 題名 211 APP障害 新規 緊急 Windows node 212 APP障害 担当 緊急 APP ID=2345 226 ハード障害 新規 高め ファシリティID 227 ハード障害 新規 高め ファシリティID 231 ハード障害 担当 普通 定期メンテンス 色 分 け 表 示 234 ハード障害 担当 普通 リンクダウン 障害対応に対する緊急度を把握した上で 作業に取り掛かることが出来る 検索 対応履歴を共有することで 障害復旧時間 8 を短縮や対応品質の均一化が出来る

監視ツールと管理を自動連携 監視ツールと管理を自動連携するとこのような状況になることがあります 大量アラート 管理ツール 運用監視ツール 自動登録 選別作業 選別作業 大量チケット 重複 クローズ 同一原因による沢山のアラートが大量のとして登録される 登録された不要なを確認後チケットクロース処理を行う 担当外の障害にも拘らずアラートが飛んでくる オペレータの作業増大 人手による運用1次オペレーション作業の増加は 障害復旧作業開始までの遅延や 運用1次オペレータの作業ミスを誘発します 9

管理をうまく回すには 管理にうまく自動連係するには 登録は必要モノ以外は登録しない はオペレータによる処理作業が必要なもの絞る 具体的にはどうすれば良いのか 管理に登録する前に不要なものはフィルタすれば良い 条件マッチ Filter ZBX アラート 管理ツール 自動登録 フィルター後 チケット登録される 10

SHERPA-IRは1次オペレータ作業の自動化を支援 障害発生 管理ツール 管理ツール 運用監視ツール 自動登録 1次オペレータの人手による作業 チケット内容確認と処理判断 重複等不要チケットのクロース処理 該当手順書の検索 後続ツールへの連携処理 該当担当者へ通知 障害対応作業 障害対応の遅延 ミスの発生 サービス品質低下 条件マッチ Filter 障害発生 管理ツール 管理ツール 運用監視ツール 自動登録 自動化で作業削減 残った人手作業 11

イベント制御ツール SHERPA IR SHERPA-IR機能 都度処理 通知先 重複処理 手順書 復旧処理 フォーマット 変 重要度 換 コマンド メンテナンス 対 応 インプット 重要度 普通 重要度 低い 繰延処理 複合処理 重要度 高い 処理制御 AP連携 ジョブ管理ツール ログ管理ツール アウトプット 管理ツール 12

アラート取込み フォーマット変換 抽出処理 フィールドに設定したい値を入力します 今回の例では メールテンプレートの内容を フィールドに設定し メールの件名からパターンを洗い出し正規表現で設定 SHERPA-IR 運用監視ツール 抽出 抽出セット名 条件に対する正規表現 メールヘッダー 抽出CF名 アラートメール受信 メール本文 取込 抽出 抽出情報タイプ1 XXXXXXXXXXXXXXXXXXXXXXX 大小無視 複数行可 抽出方法 お客様名 標準 Alias.*) ホスト 標準 Host.*) トリガー名 標準 Notification Type.*) 通知区分 標準 State.*) 手順書URL 標準 対象サーバ 標準 Address.*) エラー内容 標準 Service.*) 障害レベル 標準 13

設定 更新処理 どのようなアラートが来たら アラート内容を一意に判定する為に 事前に設定した 4つのキー項目 文字列や 等を設定します SHERPA-IR 更新 新しい更新情報 お客様名 Alias.*) ホスト Host.*) トリガー名 通知区分 Notification Type.*) State.*) 上記4つのキーが揃ったら 設定作業 例 プロジェクト名称 ホスト トリガー名 プロブレムリカバーの通知 区分 Ping監視 http監視 等を設定 14

設定 更新情報設定 どのような処理をさせるか 処理したい作業を記述します コマンド登録 複数可 や 付加情報として手順書のURLや通知先を登録 処理情報 処理次ステータス 処理時実行コマンド 新規) Rake filter_issue:make_back_issue template 手順書URL 非処理時ステータス 処理したいコマンド登録 複数可 手順書URL情報を通知 非処理時のコマンド登録 複数可 非処理時実行コマンド 設定作業 どのような処理をするか設定 手順書はSHERPA-SMのWiki 文書に UPするとURLが表示され利用出来ます 15

設定 更新条件設定 どのようなフィルタをするか 何にどんな処理をさせるのかの設定は終わったが 同一の複数アラートに対して 処理タイプを選び集約させます 処理条件 処理フィルタ名 処理タイプ 処理(発生回数) イベントタイプ 都度 重複 障害 復旧 繰延 対象チケット 処理時間(分) 追越し 初回 NG 処理タイプ フィルター を設定 都度 付加情報を付けて都度通知 重複 指定時間帯の同一アラート抑制 復旧 復旧報によるアラート抑制 繰延 期間繰延アラート抑制 設定作業 どのようなフィルタをするか設定 16

SHERPA-IRの処理の流れとアラートフィルターの様子 以下の様な流れで 複数のアラートをとして登録するチケットに 集約していきます 抽出処理 更新処理 分類 集約 アラート発生 運用監視ツール 管理ツール 不要アラート 破 棄 アラートをキー情報で分別 通知が重複しているかは見ていない 4つの処理タイプを使って チケットを集約し登録します 17

SHERPA-IRの機能 追加情報登録 アラートに対する情報を追加して登録が出来ます 判 断 付加情報 ハードウエア障害 Filter 担当者 エスカレーションB社 担当者A 担当チケット 1 管理ツール 運用監視ツール # プロジェクト 1 2 判断 ソフトウエア障害 Rules ソフトウエア障害 名称 ハードウエア ソフトウエア エスカレーション マニュアル HWマニュアル 付加情報 優先度 緊急 担当者 開発会社 B社 手順書 エスカレーションマニュアル 担当者 A 付加情報によるメリット 開発会社 B社 1 手順書情報 に対応する手順書URLが付加されるので直ぐに障害対応へ 2 担当者情報 障害の担当者やエスカレーション先に自動通知 障害対応見落とし削減 18

SHERPA-IRの機能 重複処理 フィルタリング 同一のアラートが指定した時間帯に 指定回数通知された場合に 登録を行います 重複処理 Filter 運用監視ツール 重複 アラート 制御 管理ツール 管理ツール TIMER 制限時間超え 1通のみ通知 重複処理対応メリット 1 アラート内容確認から解放 2 重要アラート見落とし削減 3 ミスの軽減 4 サービスレベルの均一化 19

SHERPA-IRの機能 繰延処理 既に障害対応作業に取掛っていても 障害復旧していなければ 設定時間をすぎると新 たにが作成されてしまいす 重複処理 繰延処理は 指定した時間内に同一のアラートが通知された場合 指定時間のタイマー をクリアー 繰延 し 制御を継続することが出来ます 繰延処理 Filter 運用監視ツール 重複 アラート 制御 管理ツール 管理ツール TIMER 制限時間繰延 1通のみ通知 障害対応中 繰延処理対応メリット 1 作業時間を気にすることなく 障害対応に専念できる 20

SHERPA-IRの機能 復旧処理 復旧処理は 対象機器からの 障害報 と 復旧報 を考慮する処理タイプです LinkDown/LinkUP等ネットワーク機器で 障害報 が通知された場合 一定時間 対 となる 復旧報 を静観する場合があります 復旧処理では 障害報 が来ても直ぐに チケット作成指示を出さず 一定時間 復旧報 を持ち 通知されれば障害報を無視し 通知が無ければチケット作成指示を実施します 復旧処理 Filter 運用監視ツール 障害報 復旧報 TIMER 管理ツール 管理ツール チケット登録 復旧報待ち タイムアウト 障害対応開始 繰延処理対応メリット 1. 対 となるアラート待ちからの解放 2. 不要チケットの消込作業削減 21

SHERPA-IRの機能 非処理 同じアラートでも 曜日や時間帯を考慮して通常の処理をしない 非処理 21 3 O 46 15 処理判断 日中と同じ 障害発生 Filter 運用監視ツール 時間帯 DAY 適応ルール 時間帯 担当 手順書 作業 9:00 17:59 昼間担当者 A 障害手順書 コマンド入力 Rules NIGHT 夜間帯 非処理設定 適応ルール 時間帯 担当 非処理 手順書 作業 18:00 8:59 夜間担当者 B エスカレーション手順書 電話連絡 22

SHERPA-IRの機能 メンテナンス メンテナンス時のアラート制御は 指定機器 及び 指定時間帯 を非処理機 能を利用して行います 指定時間帯のメンテナンス機器からのアラートは無視 されます メンテナンス時間帯でも 指定されていない機器からのアラート は 通常の制御として処理されます メンテン処理 Filter 運用監視ツール 重複 アラート 制御 管理ツール 管理ツール 12月24日 00:00~08:59 チケット登録 障害対応開始 メンテンンス時処理メリット 1. メンテナンス作業中の作業サーバ停止による大量不要アラートからの解放 2. 不要チケットの消込削減 23

SHERPA-IR機能 レポート SHERPA-IR Reporterを利用して 削減効果報告や運用改善提案へ アラート アラート制御 分類 分析 IR処理レポート 削減効果報告 運用改善提案 運用責任者 満足 経営者 お客様 処理タイプと処理件数の分析で運用改善の仮説検証へ展開 24

SHERPA-IR導入の進め方 25

SHERPA-IR導入の進め方 26

SHERPA-IRの配置 SHERPA-IRの導入は 大きなシステム変更をする必要はありません メールシステム 運用監視ツール 専用端末 Excel アラートの向け先を変える 管理ツール SHERPA-IRの動作環境 Mail アラート メール取込み Rules IR制御ルール作成 直ぐ使えどんどん効果を実感 27

導入事例 ソフト開発会社 サービス提供基盤を自社で監視から障害対応 障害対応 Zabbix 情報配信 運用管理部門 アラートストーム 管理ツール Nagios お客様 サービス 提供基盤 Kondos 手順書も有ったり 無かったり アラート 対応履歴を全ては 記述していない 電話連絡 夜間業務委託先企業 目標 コストを抑えて運用アウトソースしたい 課題 ① ② ③ ④ ⑤ アラートストームを含め大量に発生する 障害アラート内容を確認し対応するか否かを人が判断している 匠運用に頼り障害対応手順書が整備されていない 障害対応履歴も手入力で全ては登録していない 24時間対応が出来ていない 現状環境条件ではコストが高くなり 障害対応まで含めた作業を依頼する ことが出来ない 28

導入事例 チューニング 大量アラートの原因は Zabbix Nagios Kondos Alert Storm ①申請なしのメンテナンス作業によるアラート ②同一障害のアラートが複数通知される 改善 メンテナンス申請関連改善によるアラートストームの抑止 メンテナンス 処理制御 Zabbix Nagios Kondos Alert Storm アラートストームの抑止 アラート数の振れ幅最小 メンテナンス申請 メンテナンス 申請処理 メンテナンス作業 29

導入事例 先ずはIRを通した登録フロー作成 先ずはじめは処理タイプ 都度 を設定し SHERPA-IRを利用するルートを設定し利用開始 明確に不要なアラート以外は都度登録となり 重複チケットのクローズ処理が発生している 都度 管理ツール 運用監視ツール 選別作業 自動登録 不要アラート 破棄 重複 クローズ SURVEY SURVEY 都度 都度 復旧 Filter 繰延 集約 30

導入事例 定期チューニング 手順有りの通知数がが 限りなく対応件数と近くなるようにIRルールを見直し 人手による障害対応作業をジョブにて自動化 内容確認 825 手順有228 対応 8 8 ジョブ設計 ジョブで自動化 何を見て判断? 対応 不要 手順無 140 JOB Rules IR制御ルール作成 597 対応作業の内容からジョブ管理ツールで自動化できないかの検討 通知内容より 対応 or 不要 の判断時間の短縮 31

導入事例 定期チューニング 手順無しで且つ障害対応したに対して新たに作業手順書を作成 手順無し通知数が 限りなく対応件数と近くなるようにIRルールを見直し 手順有 228 825 手順有へ 内容確認 手順無597 対応 8 6 作業手順ヒアリング 何を見て判断? 対応 不要 493 Rules 手順書作成 IR制御ルール作成 手順書を作成し紐付ける事により アウトソースへ依頼できる対象件数の拡大 通知内容より 対応 or 不要 の判断時間の短縮 32

導入事例 定期チューニング イベント内容を解析しルールを更新する定期チューニングを繰り返し行うことで アラート件数の削減を実現し リスクの高い重要なに絞り込むみ オペレータの人手作業を軽減できます ルールチューニング オペレータの人手作業を軽減 イベント数 Rules Rules Rules 1か月 2か月 3か月 Rules 4か月 33

ご提供ソリューションMAP 34

SHERPA-IR導入アセスメント 色々と良さそうな事聞いたけど うちの運用環境で使えるのかなぁ Yes SHERPA-IR導入 No SHERPA-IR導入アセスメント 35

SHERPA-IR導入アセスメント 36

SHERPA-IR導入アセスメントの流れ 1. アセスメントお申込み 2. お客様のアラートメール データ送付 約10営業日 3. 想定効果レポートを提示 37

END ご清聴ありがとうございました 38