外部向け資料作成にあたって

監視システムからの膨大なアラートを自動的に集約/判断し管理ジョブ管理に自動連携する方法

管理サービスオペレーションのプロセスの１つ ITIL Ver3 Service Strategy Service Design Service Operation Service Operation Continual Service Improvement イベント管理管理問題管理要求実現アクセス管理 2

管理とは目的により中断されたITサービスを早急に復旧させビジネスの負のインパクトを最小限にすること障害発生運用監視ツール管理ツール早急な復旧作業管理のプロセス１２３４５検知と記録分類と初期サポート調査と診断解決と復旧のクローズプロセスとしてはシンプルではありますが確実に行うことは大変です ITサービスの運用を円滑に回す為の重要なポイントとなる為しっかりと行う必要がありますその為には専用のツールを導入することも解決の１つとなります 3

実際に現場は障害発生 XXXXXXX株式会社 XXXXXXX株式会社障害対応管理表 20XX年X月度 XX/XX以降障害対応管理表 20XX年X月度 XX/XX以降イベントID イベントID イベントID 件名件名件名発生日発生日発生日 4621 4621 4621 ZBX メールシステム 2017/7/21 2017/7/21 2017/7/21 00:22:39 00:22:39 00:22:39 DBパフォーマンスエラー DBパフォーマンスエラー DBパフォーマンスエラー完了日完了日完了日影響度影響度影響度発生発生発生ホスト名ホスト名ホスト名 IPアドレス IPアドレス IPアドレス件名 Excel Excel 必要項目抽出アラートメール受信作業案件追加必要項目転記完了日影響度発生ホスト名 IPアドレス事象:アラートメールを受信 (下記アラートによるディスク障害) 事象:アラートメールを受信事象:アラートメールを受信 (下記アラートによるディスク障害) Event Name: Physical Drive Drive Status Status Change Change (3046) (3046) Event Event Name: Name: Physical Physical Drive 内容概略 URL: https://isz180bkbb:2381/event originator: isz180bkbbevent isz180bkbbevent Severity: Severity: Critical Critical URL: URL: https://isz180bkbb:2381/event https://isz180bkbb:2381/event originator: 事象アラートメールを受信 Event received: 21-Jan-2014, 20:27:41Event 20:27:41Event description: description: Physical Physical Drive Drive Status Status Change. Change. Event Event received: received: 21-Jan-2014, 21-Jan-2014, パフォーマンスしきい値 : MOM This trap signifies that that the the agentデータベースの空き領域 has detected detected aa change change- エラーしきい値 the status status ofof aa drive drive array array This agent has inin the This trap trap signifies signifies that the 2017/7/23 軽度の障害 isz180bkbb 192.168.100.110 2017/7/23 2017/7/23 軽度の障害軽度の障害 isz180bkbb isz180bkbb 192.168.100.110 192.168.100.110 Db % Free Space Available: exmommng value = 19 physical drive. The The variable variable cpadaphydrvstatus cpadaphydrvstatus indicates indicates the the current current physical physical drive drive physical physical drive. drive. The variable 2017/7/21 重度の障害 ISZ180KA 192.168.100.100 原因 MOM DBの空き領域が少なくなっていることによるもの status. User physical drive drive status status isis failed(3) failed(3) oror predictivefailure(4), predictivefailure(4), replace replace status. User Action: Action: IfIf the the physical 00:22:39 対応メーカーとしては監視ソフトに関連するアラートのため対応不要として終了した the drive. the drive. DBパフォーマンスエラー障害対応管理表 20XX年X月度 XX/XX以降 XXXXXXX株式会社補足最終的にはMOMのデータベースの一つであるone point DBの容量枯渇が発生し 1/12 原因:ディスクPort 2I2I Box Bya の障害の障害原因:ディスクPort Box 11 Bya イベントID 発生イベントID 発生物理ドライブ変更エラー物理ドライブ変更エラー発生日完了日影響度 IPアドレス内容概略発生日完了日影響度 IPアドレス SQLサービス停止 1/13 MOMのサービス停止が発生対応:ディスクPort 2I2I Box Bya 交換交換内容概略件名ホスト名対応:ディスクPort 11 Bya Box 件名ホスト名事象:アラートメールを受信 (下記アラートによるディスク障害) 事象アラートメールを受信 XXXXXXX株式会社障害対応管理表 20XX年X月度 XX/XX以降事象: 事象アラートメールを受信事象:下記アラートメール受信(アラート: IIS 8 Web サーバーは利用できません) 事象: 46791 46791 46791 4621 メール内容確認発生日イベントID 4621 4621 件名 2017/7/22 2017/7/22 2017/7/22 10:47:15 10:47:15 10:47:15 2017/7/21 発生日 2017/7/21 2017/7/21 4738 46791 00:22:39 2017/7/30 00:22:39 4621 2017/7/22 DBパフォーマンスエラー 10:47:15 10:47:15 DBパフォーマンスエラー 2017/7/21 00:22:39 DBパフォーマンスエラー IIS/Webサーバ利用不可物理ドライブ変更エラー 46791 46791 46791 2017/7/22 2017/7/22 10:47:15 10:47:15 2017/7/22 10:47:15 物理ドライブ変更エラー物理ドライブ変更エラー物理ドライブ変更エラー担当者担当者担当者ロケーションロケーションロケーション状況概略状況概略状況概略 1/27 23 12 23 12 アラートメールを検知お客様へ報告し手順書指示によりメーカへアラートメールを検知お客様へ報告し手順書指示によりメーカへ 1/27 1/27 23 12 アラートメールを検知お客様へ報告し手順書指示によりメーカへエスカレート Symsntecケース番号 05915234 Symsntecケース番号 05915234 エスカレートエスカレート Symsntecケース番号 05915234 1/27 3:43 3:43 --- 19:37 19:37 Symantec社とのやりとりの後ログを提出 Symantec社とのやりとりの後ログを提出 1/27 1/27 3:43 19:37 Symantec社とのやりとりの後ログを提出 John DC Rac#23 DC Rac#23 1/28 1/28 12:51 12:51 お客様へエラーの解析結果とエラーの回避方法を報告お客様様よりお客様へエラーの解析結果とエラーの回避方法を報告お客様様より John John DC Rac#23 1/28 12:51 お客様へエラーの解析結果とエラーの回避方法を報告お客様様より対応についてはセンターＳＥと調整後に対応するためケースを一度ホールドしてもら対応についてはセンターＳＥと調整後に対応するためケースを一度ホールドしてもら対応についてはセンターＳＥと調整後に対応するためケースを一度ホールドしてもら補足最終的にはMOMのデータベースの一つであるone point DBの容量枯渇が発生し 1/12 DBの容量枯渇が発生し 1/12 補足最終的にはMOMのデータベースの一つであるone 補足最終的にはMOMのデータベースの一つであるone point SQLサービス停止 1/13 MOMのサービス停止が発生 SQLサービス停止 1/13 SQLサービス停止 1/13 MOMのサービス停止が発生 MOMのサービス停止が発生 XXXXXXX株式会社障害対応管理表 20XX年X月度 XX/XX以降イベントID 内容概略内容概略内容概略事象アラートメールを受信事象アラートメールを受信事象アラートメールを受信パフォーマンスしきい値 MOM データベースの空き領域データベースの空き領域 --- エラーしきい値エラーしきい値パフォーマンスしきい値パフォーマンスしきい値 ::: MOM MOM データベースの空き領域エラーしきい値 Db Free Space Space Available: Available: exmommng exmommng value value === 19 19 Db Db %%% Free Free Space Available: exmommng value 19 2017/7/21 重度の障害 ISZ180KA 192.168.100.100 原因 MOM DBの空き領域が少なくなっていることによるもの 2017/7/21 2017/7/21 重度の障害重度の障害 ISZ180KA ISZ180KA 192.168.100.100 192.168.100.100 原因 MOM 原因 MOM DBの空き領域が少なくなっていることによるもの DBの空き領域が少なくなっていることによるもの対応メーカーとしては監視ソフトに関連するアラートのため対応不要として終了した対応メーカーとしては監視ソフトに関連するアラートのため対応不要として終了した対応メーカーとしては監視ソフトに関連するアラートのため対応不要として終了した 2/18 23:52 23:52 アラート検知アラート検知 2/18 2/190:34 お客様にメール報告お客様にメール報告 2/190:34 再発再発再発 - RPC遅延 - RPC遅延 - RPC遅延 2013/11/24 2013/11/24 2013/11/24 AGCEXSVR12 AGCEXSVR12 AGCEXSVR12 完了 2013/12/1 2013/12/1 完了完了 2013/12/1 AGCEXSVR14 AGCEXSVR14 AGCEXSVR14 いたいとの連絡受信対応後確認いたいとの連絡受信対応後確認クローズクローズ 2013/12/8 2013/12/8 AGCEXSVR1 AGCEXSVR1 - RPC遅延 - RPC遅延 2013/11/24 2013/11/24 再発 0:40-8:55 8:55 AGCEXSVR12 0:40AGCEXSVR12 1/27 23 12 アラートメールを検知お客様へ報告し手順書指示によりメーカへ - RPC遅延一旦手順書より担当の判断で非監視対象としお客様へクローズの報告を 2013/12/1 一旦手順書より担当の判断で非監視対象としお客様へクローズの報告を 2013/12/1 エスカレート Symsntecケース番号 05915234 2013/11/24 行ったがその後お客様から調査依頼を受ける AGCEXSVR14 行ったがその後お客様から調査依頼を受ける AGCEXSVR14 DC Rac#33 1/27 3:43-19:37 Symantec社とのやりとりの後ログを提出完了 AGCEXSVR12 DC Rac#33 完了 NOC 10:09 RCへ連絡 RCへ連絡 2013/12/8 NOC 10:09 2013/12/8 John DC Rac#23 1/28 完了 2013/12/1 12:51 お客様へエラーの解析結果とエラーの回避方法を報告お客様様より Smith 11:32 お客様に調査再開を通知お客様に調査再開を通知 AGCEXSVR1 Smith 11:32 AGCEXSVR1 対応についてはセンターＳＥと調整後に対応するためケースを一度ホールドしてもら AGCEXSVR14 2/20 2/20 いたいとの連絡受信対応後確認 2013/12/8 14:10 RCとのやり取りの後 RCにログを提出 14:10 RCとのやり取りの後 RCにログを提出担当者状況概略ステータス AGCEXSVR1 再発担当者状況概略ステータス再発クローズ 2/24 10:10-18:04 10:10-18:04 メーカー対応完了報告メーカー対応完了報告ロケーション 2/24 ロケーション 2/18 23:52 - RPC遅延 1/27 23 12アラート検知アラートメールを検知お客様へ報告し手順書指示によりメーカへ - RPC遅延 1/27 23 12 アラートメールを検知お客様へ報告し手順書指示によりメーカへ - RPC遅延 2/190:34 2013/11/24 エスカレートお客様にメール報告 Symsntecケース番号 05915234 2013/11/24 エスカレート Symsntecケース番号 05915234 2013/11/24 担当者状況概略ステータス再発ロケーション 1/27 0:40-8:55 AGCEXSVR12 1/27 3:43 -- 19:37 19:37 Symantec社とのやりとりの後ログを提出 Symantec社とのやりとりの後ログを提出 AGCEXSVR12 1/27 3:43 AGCEXSVR12 08:05 アラートメール検知 1/27 23 12 アラートメールを検知お客様へ報告し手順書指示によりメーカへ完了 2013/12/1 - RPC遅延 John 一旦手順書より担当の判断で非監視対象としお客様へクローズの報告を John DC Rac#23 DC Rac#23 1/28 1/28 12:51 お客様へエラーの解析結果とエラーの回避方法を報告お客様様より 2013/12/1 John 完了 2013/12/1 12:51 お客様へエラーの解析結果とエラーの回避方法を報告お客様様より 08:31 手順書よりログイン確認正常エスカレート Symsntecケース番号 05915234 2013/11/24 行ったがその後お客様から調査依頼を受ける AGCEXSVR14 対応についてはセンターＳＥと調整後に対応するためケースを一度ホールドしてもら AGCEXSVR14 John DC Rac#13 完了 DC Rac#33 対応についてはセンターＳＥと調整後に対応するためケースを一度ホールドしてもら完了 AGCEXSVR14 09:07 お客様へ障害連絡メール送付 1/27 3:43-19:37 Symantec社とのやりとりの後ログを提出 AGCEXSVR12 NOC 10:09 RCへ連絡 2013/12/8 いたいとの連絡受信対応後確認 2013/12/8 いたいとの連絡受信対応後確認 2013/12/8 John DC Rac#23 対応中完了 AGCEXSVR1 1/28 12:51 お客様へエラーの解析結果とエラーの回避方法を報告お客様様より 2013/12/1 Smith 11:32 お客様に調査再開を通知クローズ AGCEXSVR1 クローズ AGCEXSVR1 対応についてはセンターＳＥと調整後に対応するためケースを一度ホールドしてもら AGCEXSVR14 2/20 23:52 2/18 23:52 アラート検知アラート検知 - RPC遅延 2/18 - RPC遅延いたいとの連絡受信対応後確認 2013/12/8 14:10 RCとのやり取りの後 RCにログを提出 2/190:34 お客様にメール報告 2013/11/24 2/190:34 お客様にメール報告 2013/11/24 クローズ AGCEXSVR1 2/24 8:55 10:10-18:04 メーカー対応完了報告 0:408:55 AGCEXSVR12 0:40AGCEXSVR12 2/18 23:52 アラート検知 - RPC遅延 John 一旦手順書より担当の判断で非監視対象としお客様へクローズの報告を 2013/12/1 John 一旦手順書より担当の判断で非監視対象としお客様へクローズの報告を 2013/12/1 2/190:34 お客様にメール報告 2013/11/24 行ったがその後お客様から調査依頼を受ける AGCEXSVR14 行ったがその後お客様から調査依頼を受ける AGCEXSVR14 DC Rac#33 0:40-8:55 完了 AGCEXSVR12 DC Rac#33 完了 NOC 10:09 RCへ連絡 RCへ連絡 2013/12/8 NOC 10:09 2013/12/8 John 一旦手順書より担当の判断で非監視対象としお客様へクローズの報告を 2013/12/1 Smith 11:32 お客様に調査再開を通知お客様に調査再開を通知 AGCEXSVR1 Smith 11:32 AGCEXSVR1 行ったがその後お客様から調査依頼を受ける AGCEXSVR14 2/20 DC Rac#33 2/20 完了 NOC 10:09 RCとのやり取りの後 RCにログを提出 RCへ連絡 2013/12/8 14:10 14:10 RCとのやり取りの後 RCにログを提出 Smith 11:32 お客様に調査再開を通知 AGCEXSVR1 2/24 10:10-18:04 10:10-18:04 メーカー対応完了報告メーカー対応完了報告 2/24 2/20 担当者ロケーション状況概略ステータス John John 手入力 Event Change (3046) -- エラーしきい値発生パフォーマンスしきい値 MOMStatus データベースの空き領域エラーしきい値パフォーマンスしきい値 :: MOM データベースの空き領域ソース:Name: IIS WebPhysical ServerDrive 完了日影響度 IPアドレス内容概略ホスト名 URL: originator: Severity: Critical Db %%https://isz180bkbb:2381/event Free Space Space Available: Available: exmommng exmommng value ==isz180bkbbevent パス: T180AVZPTM2.agc.jp Db Free value 1919 AGCEXSVR11 192.168.100.102 事象アラートメールを受信 Event received:dbの空き領域が少なくなっていることによるもの 21-Jan-2014, 20:27:41Event description: Physical Drive Status Change. 2017/7/21 重度の障害重度の障害 ISZ180KA ISZ180KA 192.168.100.100 192.168.100.100 原因 MOM 原因 MOM DBの空き領域が少なくなっていることによるものイベント日時: 2014/02/20 18:16:07 2017/7/21 AGCEXSVR12 192.168.100.103 パフォーマンスしきい値 : MOM - エラーしきい値 This trap signifiest180avzptm2.agc.jp that the agentデータベースの空き領域 has detected a change in the status of a drive array 対応メーカーとしては監視ソフトに関連するアラートのため対応不要として終了したアラートの説明: の IIS 8 Web サーバーは利用できません対応メーカーとしては監視ソフトに関連するアラートのため対応不要として終了した 2017/7/23 致命的な障害軽度の障害 AGCEXSVR13 isz180bkbb 192.168.100.110 192.168.100.106 physical Db % Free Space Available: exmommng value = 19 drive. The variable cpadaphydrvstatus indicates current physical drive 補足最終的にはMOMのデータベースの一つであるone pointthedbの容量枯渇が発生し 1/12 DBの容量枯渇が発生し 1/12 原因調査中補足最終的にはMOMのデータベースの一つであるone point 192.168.100.109 status. 2017/7/21 重度の障害 AGCEXSVR14 ISZ180KA 192.168.100.100 原因 MOM DBの空き領域が少なくなっていることによるもの User Action: If the physical drive status is failed(3) or predictivefailure(4), replace SQLサービス停止 1/13 MOMのサービス停止が発生対応未定 SQLサービス停止 1/13 MOMのサービス停止が発生対応メーカーとしては監視ソフトに関連するアラートのため対応不要として終了した the drive. 原因: 事象:アラートメールを受信 (下記アラートによるディスク障害) 原因:ディスクPort 2I Box 1(下記アラートによるディスク障害) Bya の障害原因: 事象:アラートメールを受信補足最終的にはMOMのデータベースの一つであるone 原因:ディスクPort Box 11Status Bya 交換の障害対応: 対応:ディスクPort Box Bya Event Name: Physical Physical2I2IDrive Drive Status Change (3046) (3046) point DBの容量枯渇が発生し 1/12 対応: Event Name: Change SQLサービス停止 1/13 MOMのサービス停止が発生対応:ディスクPort 2I Box 1 Bya 交換originator: URL: https://isz180bkbb:2381/event https://isz180bkbb:2381/event originator: isz180bkbbevent isz180bkbbevent Severity: Severity: Critical Critical URL: 事象:アラートメールを受信事象:received: Event received: 21-Jan-2014, 21-Jan-2014,(下記アラートによるディスク障害) 20:27:41Event description: description: Physical Physical Drive Drive Status Status Change. Change. Event 20:27:41Event Event Name: Physical Drive StatushasChange (3046) This trap trap signifies that the the agent agent detected change inin the the status status ofof aa drive drive array array This signifies that has detected aa change 2017/7/23 軽度の障害軽度の障害 isz180bkbb isz180bkbb 192.168.100.110 192.168.100.110 URL: https://isz180bkbb:2381/event originator: isz180bkbbevent Severity: Critical 2017/7/23 physical drive. drive. The The variable variable cpadaphydrvstatus cpadaphydrvstatus indicates indicates the the current current physical physical drive drive physical Event 21-Jan-2014, 20:27:41Event Drive Status Change. status.received: User Action: Action: the physical physical drive status statusdescription: failed(3)physical predictivefailure(4), replace status. User IfIf the drive isis failed(3) oror predictivefailure(4), replace This trap signifies that the agent has detected a change in the status of a drive array the drive. drive. 2017/7/23 軽度の障害 isz180bkbb 192.168.100.110 the physical drive. The 2Ivariable indicates the current physical drive 原因:ディスクPort Box 11cpaDaPhyDrvStatus Bya の障害の障害原因:ディスクPort 2I Box Bya status. User Action:2IIf Box the physical 対応:ディスクPort Bya 交換交換drive status is failed(3) or predictivefailure(4), replace 対応:ディスクPort 2I Box 11 Bya the drive. 原因: 事象: 事象: 原因:ディスクPort 2I Box 1 Bya の障害対応: ステータスステータスステータス担当通知 Copy & Type 対応:ディスクPort 2I Box 1 Bya 交換 14:10 RCとのやり取りの後 RCにログを提出 2/24 10:10-18:04 メーカー対応完了報告事象: 原因: 原因: 対応: 対応: 原因: 対応: 障害対応開始課題メール電文を見て障害対応の必要性を判断メール電文からチケットに必要な項目を転記チケット起票を優先すると対応着手が遅れる障害対応の優先で対応状況がわからない遅延記述ミス SLA違反へ管理に支障 4

運用業務の自動化で期待できる効果判断遅延作業 1.業務の効率化 2.人的ミス削減ミス障害通知 3.運用プロセスの定着内容確認手順確認障害対応復旧確認ユーザ#1 ユーザ#2 新規監視リソース増員 4.サービス拡大に対応増員 5

管理システムを使うと障害発生手順書情報担当者へチケット通知自動処理 ZBX 管理システム受信情報抽出チケット登録担当者通知抽出不要チケット登録済み転記不要管理システム SHERPA-SM 障害対応開始効果全ての通知を自動取込み必要な項目を自動転記該当担当者通知全ての進捗状況の把握対応漏れが無くなる起票ミス記載漏れ無し譲り合っての対応遅延防止運用品質の向上 6

SHERPA-SM アラートメール自動取込み機能障害発生自動登録運用監視ツールアラート Zabbixからの通知メールサンプル名前アラートメール送信デフォルトの件名障害 {TRIGGER.NAME}: {ITEM.LASTVALUE}: zabbix デフォルトのメッセージ Original event ID: {EVENT.ID} 障害発生時刻 {DATE} {TIME} ホスト名 {HOST.HOST} IPアドレス {HOST.IP} 設置場所 {INVENTORY.LOCATION} 深刻度 {TRIGGER.SEVERITY} 障害内容 {TRIGGER.NAME} 最新値 {ITEM.LASTVALUE} 必要な情報を自動取り込みフィールドも増やせます Zabbix メール原文記入漏れや情報不足などのミスを防止 7

SHERPA-SM その他機能ガントチャートマイページ SHERPA-SM A 全体担当者B 担当チケット 12 # プロジェクト B 1 2 3 4 5 C 名称タスク状況ハードウエア定期作業 Ver UP ソフトウエア自分の担当分が直ぐにわかり SHERPA-SM Login 対応漏れが無くなる親チケット #1 担当者 B 優先度表示 No 子チケット #1 子チケット #2 子チケット #3 (終了100% (82% (38% 親チケットで全体管理小チケットで関連対応もリアルタイムに状況把握対応履歴の検索トラッカーステータス優先度題名 211 APP障害新規緊急 Windows node 212 APP障害担当緊急 APP ID=2345 226 ハード障害新規高めファシリティID 227 ハード障害新規高めファシリティID 231 ハード障害担当普通定期メンテンス色分け表示 234 ハード障害担当普通リンクダウン障害対応に対する緊急度を把握した上で作業に取り掛かることが出来る検索対応履歴を共有することで障害復旧時間 8 を短縮や対応品質の均一化が出来る

監視ツールと管理を自動連携監視ツールと管理を自動連携するとこのような状況になることがあります大量アラート管理ツール運用監視ツール自動登録選別作業選別作業大量チケット重複クローズ同一原因による沢山のアラートが大量のとして登録される登録された不要なを確認後チケットクロース処理を行う担当外の障害にも拘らずアラートが飛んでくるオペレータの作業増大人手による運用１次オペレーション作業の増加は障害復旧作業開始までの遅延や運用１次オペレータの作業ミスを誘発します 9

管理をうまく回すには管理にうまく自動連係するには登録は必要モノ以外は登録しないはオペレータによる処理作業が必要なもの絞る具体的にはどうすれば良いのか管理に登録する前に不要なものはフィルタすれば良い条件マッチ Filter ZBX アラート管理ツール自動登録フィルター後チケット登録される 10

SHERPA-IRは1次オペレータ作業の自動化を支援障害発生管理ツール管理ツール運用監視ツール自動登録１次オペレータの人手による作業チケット内容確認と処理判断重複等不要チケットのクロース処理該当手順書の検索後続ツールへの連携処理該当担当者へ通知障害対応作業障害対応の遅延ミスの発生サービス品質低下条件マッチ Filter 障害発生管理ツール管理ツール運用監視ツール自動登録自動化で作業削減残った人手作業 11

イベント制御ツール SHERPA IR SHERPA-IR機能都度処理通知先重複処理手順書復旧処理フォーマット変重要度換コマンドメンテナンス対応インプット重要度普通重要度低い繰延処理複合処理重要度高い処理制御 AP連携ジョブ管理ツールログ管理ツールアウトプット管理ツール 12

アラート取込みフォーマット変換抽出処理フィールドに設定したい値を入力します今回の例ではメールテンプレートの内容をフィールドに設定しメールの件名からパターンを洗い出し正規表現で設定 SHERPA-IR 運用監視ツール抽出抽出セット名条件に対する正規表現メールヘッダー抽出CF名アラートメール受信メール本文取込抽出抽出情報タイプ１ XXXXXXXXXXXXXXXXXXXXXXX 大小無視複数行可抽出方法お客様名標準 Alias.*) ホスト標準 Host.*) トリガー名標準 Notification Type.*) 通知区分標準 State.*) 手順書URL 標準対象サーバ標準 Address.*) エラー内容標準 Service.*) 障害レベル標準 13

設定更新処理どのようなアラートが来たらアラート内容を一意に判定する為に事前に設定した４つのキー項目文字列や等を設定します SHERPA-IR 更新新しい更新情報お客様名 Alias.*) ホスト Host.*) トリガー名通知区分 Notification Type.*) State.*) 上記４つのキーが揃ったら設定作業例プロジェクト名称ホストトリガー名プロブレムリカバーの通知区分 Ping監視 http監視等を設定 14

設定更新情報設定どのような処理をさせるか処理したい作業を記述しますコマンド登録複数可や付加情報として手順書のURLや通知先を登録処理情報処理次ステータス処理時実行コマンド新規) Rake filter_issue:make_back_issue template 手順書URL 非処理時ステータス処理したいコマンド登録複数可手順書URL情報を通知非処理時のコマンド登録複数可非処理時実行コマンド設定作業どのような処理をするか設定手順書はSHERPA-SMのWiki 文書に UPするとURLが表示され利用出来ます 15

設定更新条件設定どのようなフィルタをするか何にどんな処理をさせるのかの設定は終わったが同一の複数アラートに対して処理タイプを選び集約させます処理条件処理フィルタ名処理タイプ処理(発生回数) イベントタイプ都度重複障害復旧繰延対象チケット処理時間(分) 追越し初回 NG 処理タイプフィルターを設定都度付加情報を付けて都度通知重複指定時間帯の同一アラート抑制復旧復旧報によるアラート抑制繰延期間繰延アラート抑制設定作業どのようなフィルタをするか設定 16

SHERPA-IRの処理の流れとアラートフィルターの様子以下の様な流れで複数のアラートをとして登録するチケットに集約していきます抽出処理更新処理分類集約アラート発生運用監視ツール管理ツール不要アラート破棄アラートをキー情報で分別通知が重複しているかは見ていない４つの処理タイプを使ってチケットを集約し登録します 17

SHERPA-IRの機能追加情報登録アラートに対する情報を追加して登録が出来ます判断付加情報ハードウエア障害 Filter 担当者エスカレーションB社担当者A 担当チケット 1 管理ツール運用監視ツール # プロジェクト 1 ２判断ソフトウエア障害 Rules ソフトウエア障害名称ハードウエアソフトウエアエスカレーションマニュアル HWマニュアル付加情報優先度緊急担当者開発会社 B社手順書エスカレーションマニュアル担当者 A 付加情報によるメリット開発会社 B社１手順書情報に対応する手順書URLが付加されるので直ぐに障害対応へ２担当者情報障害の担当者やエスカレーション先に自動通知障害対応見落とし削減 18

SHERPA-IRの機能重複処理フィルタリング同一のアラートが指定した時間帯に指定回数通知された場合に登録を行います重複処理 Filter 運用監視ツール重複アラート制御管理ツール管理ツール TIMER 制限時間超え 1通のみ通知重複処理対応メリット１アラート内容確認から解放２重要アラート見落とし削減３ミスの軽減４サービスレベルの均一化 19

SHERPA-IRの機能繰延処理既に障害対応作業に取掛っていても障害復旧していなければ設定時間をすぎると新たにが作成されてしまいす重複処理繰延処理は指定した時間内に同一のアラートが通知された場合指定時間のタイマーをクリアー繰延し制御を継続することが出来ます繰延処理 Filter 運用監視ツール重複アラート制御管理ツール管理ツール TIMER 制限時間繰延 1通のみ通知障害対応中繰延処理対応メリット１作業時間を気にすることなく障害対応に専念できる 20

SHERPA-IRの機能復旧処理復旧処理は対象機器からの障害報と復旧報を考慮する処理タイプです LinkDown/LinkUP等ネットワーク機器で障害報が通知された場合一定時間対となる復旧報を静観する場合があります復旧処理では障害報が来ても直ぐにチケット作成指示を出さず一定時間復旧報を持ち通知されれば障害報を無視し通知が無ければチケット作成指示を実施します復旧処理 Filter 運用監視ツール障害報復旧報 TIMER 管理ツール管理ツールチケット登録復旧報待ちタイムアウト障害対応開始繰延処理対応メリット 1. 対となるアラート待ちからの解放 2. 不要チケットの消込作業削減 21

SHERPA-IRの機能非処理同じアラートでも曜日や時間帯を考慮して通常の処理をしない非処理 21 3 O 46 15 処理判断日中と同じ障害発生 Filter 運用監視ツール時間帯 DAY 適応ルール時間帯担当手順書作業 9:00 17:59 昼間担当者 A 障害手順書コマンド入力 Rules NIGHT 夜間帯非処理設定適応ルール時間帯担当非処理手順書作業 18:00 8:59 夜間担当者 B エスカレーション手順書電話連絡 22

SHERPA-IRの機能メンテナンスメンテナンス時のアラート制御は指定機器及び指定時間帯を非処理機能を利用して行います指定時間帯のメンテナンス機器からのアラートは無視されますメンテナンス時間帯でも指定されていない機器からのアラートは通常の制御として処理されますメンテン処理 Filter 運用監視ツール重複アラート制御管理ツール管理ツール 12月24日 00:00~08:59 チケット登録障害対応開始メンテンンス時処理メリット 1. メンテナンス作業中の作業サーバ停止による大量不要アラートからの解放 2. 不要チケットの消込削減 23

SHERPA-IR機能レポート SHERPA-IR Reporterを利用して削減効果報告や運用改善提案へアラートアラート制御分類分析 IR処理レポート削減効果報告運用改善提案運用責任者満足経営者お客様処理タイプと処理件数の分析で運用改善の仮説検証へ展開 24

SHERPA-IR導入の進め方 25

SHERPA-IR導入の進め方 26

SHERPA-IRの配置 SHERPA-IRの導入は大きなシステム変更をする必要はありませんメールシステム運用監視ツール専用端末 Excel アラートの向け先を変える管理ツール SHERPA-IRの動作環境 Mail アラートメール取込み Rules IR制御ルール作成直ぐ使えどんどん効果を実感 27

導入事例ソフト開発会社サービス提供基盤を自社で監視から障害対応障害対応 Zabbix 情報配信運用管理部門アラートストーム管理ツール Nagios お客様サービス提供基盤 Kondos 手順書も有ったり無かったりアラート対応履歴を全ては記述していない電話連絡夜間業務委託先企業目標コストを抑えて運用アウトソースしたい課題 ① ② ③ ④ ⑤ アラートストームを含め大量に発生する障害アラート内容を確認し対応するか否かを人が判断している匠運用に頼り障害対応手順書が整備されていない障害対応履歴も手入力で全ては登録していない 24時間対応が出来ていない現状環境条件ではコストが高くなり障害対応まで含めた作業を依頼することが出来ない 28

導入事例チューニング大量アラートの原因は Zabbix Nagios Kondos Alert Storm ①申請なしのメンテナンス作業によるアラート ②同一障害のアラートが複数通知される改善メンテナンス申請関連改善によるアラートストームの抑止メンテナンス処理制御 Zabbix Nagios Kondos Alert Storm アラートストームの抑止アラート数の振れ幅最小メンテナンス申請メンテナンス申請処理メンテナンス作業 29

導入事例先ずはIRを通した登録フロー作成先ずはじめは処理タイプ都度を設定し SHERPA-IRを利用するルートを設定し利用開始明確に不要なアラート以外は都度登録となり重複チケットのクローズ処理が発生している都度管理ツール運用監視ツール選別作業自動登録不要アラート破棄重複クローズ SURVEY SURVEY 都度都度復旧 Filter 繰延集約 30

導入事例定期チューニング手順有りの通知数がが限りなく対応件数と近くなるようにIRルールを見直し人手による障害対応作業をジョブにて自動化内容確認 825 手順有228 対応 8 8 ジョブ設計ジョブで自動化何を見て判断? 対応不要手順無 140 JOB Rules IR制御ルール作成 597 対応作業の内容からジョブ管理ツールで自動化できないかの検討通知内容より対応 or 不要の判断時間の短縮 31

導入事例定期チューニング手順無しで且つ障害対応したに対して新たに作業手順書を作成手順無し通知数が限りなく対応件数と近くなるようにIRルールを見直し手順有 228 825 手順有へ内容確認手順無597 対応 8 6 作業手順ヒアリング何を見て判断? 対応不要 493 Rules 手順書作成 IR制御ルール作成手順書を作成し紐付ける事によりアウトソースへ依頼できる対象件数の拡大通知内容より対応 or 不要の判断時間の短縮 32

導入事例定期チューニングイベント内容を解析しルールを更新する定期チューニングを繰り返し行うことでアラート件数の削減を実現しリスクの高い重要なに絞り込むみオペレータの人手作業を軽減できますルールチューニングオペレータの人手作業を軽減イベント数 Rules Rules Rules 1か月 2か月 3か月 Rules 4か月 33

ご提供ソリューションMAP 34

SHERPA-IR導入アセスメント色々と良さそうな事聞いたけどうちの運用環境で使えるのかなぁ Yes SHERPA-IR導入 No SHERPA-IR導入アセスメント 35

SHERPA-IR導入アセスメント 36

SHERPA-IR導入アセスメントの流れ 1. アセスメントお申込み 2. お客様のアラートメールデータ送付約10営業日 3. 想定効果レポートを提示 37

END ご清聴ありがとうございました 38