LS 研究委員会 2016 年度研究成果発表 運用ログを活用したアノマリ事象の検知と活用に関する研究 障害予兆検知への活用 1
アジェンダ 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 まとめ 2
目的 背景 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 まとめ 3
システム障害は大きな経済損失に 納税システム障害で数百万ポンドの損失 保険請求処理システム障害で 1 億ドルの損失 クラウドサービスの障害で 1 億 5 千万ドルの損失 支払いシステム障害で毎秒 2,0 0 ドルの損失 チェックインシステム障害で 4.5 億円の損失 出典 2017 /5/23 確認 ( 左上 )TheIndependent:Softwareglitchcoststaxofficemilli onsinlostrevenue,201 ( 右上 )LongIslandBusinessNews:FaultysoftwarecostsNY$114M,2010 ( 中央 )CNETJapan:PayPal に大規模なサービス障害が発生 -- 現在は復旧,2009 ( 左下 )EconomicNews: コマンド ミスから波及アマゾンのクラウドサービス 4 時間停止で損失額 1 億 5 千万ドル,2017 ( 右下 )ITpro: 初めて責任者が語る! 全日空システム障害の対策と教訓,2007 4
障害が発生してからでは遅い 経済損失はあっという間に増大する 組織の経済損失 未然に防ぎたい!! ( 出典 ) IPA 海外における IT 障害の影響及び対応策に関する事例調査 報告書,2013 障害発生後の経過時間 5
本分科会の目的 障害を未然に防ぎ システムを安定運用させたい 予兆検知を取り入れた製品が登場してきたが ODMA 予兆監視 by 富士通 ( 株 ) 効果あるのかな? ODMA? 難しそう 高くない? 導入のハードルはまだまだ高いのが現状 もっと気軽に 手軽に 効果を実感できる 明日からはじめる 障害予兆検知の成果を得る 6
障害監視の現状 運用ログを監視し 障害 発生 を検知する 検知 障害だ! 急いで対処しないと Active Down Active 正常稼動 障害発生 障害対応 復旧 障害検知タイミング ソフトウェアダウンのメッセージ検知 性能情報による閾値超過 ユーザーのクレーム 7
今後必要となる監視 予兆 の検知でシステム障害を未然に防ぐ Active 検知 正常稼動 障害予兆 予防処置 正常稼動 30 分後に障害が発生します! 8
キーワードは アノマリ検知技術 アノマリ (anomaly) とは 異常 = いつもと違う 意味 アノマリ検知技術は いつもと違う 状態を検知する技術 障害予兆検知を実現できる 6/7 のみ セッション数の減少が発生していない 障害発生の 予兆 障害発生 アノマリ 9
導 事例 生産設備の故障予兆検知システム 電圧や温度などのデータから 設備故障の予兆を検知 ビッグデータから 設備の温度が 60 度を超えると 故障が発生しやすい といった関連性を導出 上下水道設備の故障予兆検知システム 山間部に設置している機器とデータセンター間で一定間隔でデータ送信を実施 データ送信間隔の変動から機器故障の予兆を検知 10 [ 日経 SYSTEMS2015 年 6 月号 ] より
アノマリ検知技術活用の現状 アノマリ検知技術は 運用現場では普及していないその原因を普及学の観点から分析する 1962 年 Rogers により提唱された理論 新しいアイデアがなぜ普及したりしなかったりするのかを分析 普及の要件比較優位適合性わかりやすさ可視性試用可能性 普及に必要となる 5 要素 内容従来のアイデアや技術と比較した優位性があるか従来のやり方から大きな変化が発生しないか利 者にとって分かりやすいか導入したこと 導入による効果が他者から観察できるか実験的な使用ができるか 11
アノマリ検知技術活用の現状 普及学の観点によるアノマリ検知の分析結果 普及の要件アノマリ検知の状況評価 比較優位従来と比較して先進的な監視を実現できる 適合性従来の仕組みを きく変更する必要は ない わかりやすさ専 的な知識が必要で 難しい 可視性効果が明確に示されていない 試用可能性 導入には開発が発生し コストが掛かるため気軽に試すことができない わかりやすさ 可視性 試用可能性が阻害要因となっている 12
研究プロセス 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 まとめ 13
本分科会の取り組み 標準的な分析 法の確 が重要 標準的な分析方法 わかりやすさ 可視性 試用可能性 専 的な知識が無くてもアノマリ検知技術を利 できるアノマリ検知の有用性を証明する手軽に導入できるようにする 研究プロセス 1 アノマリ検知ツールの検証 2 問題点の洗い出し 3 問題点の解決 4 知 を再利 可能な形に整理 14
研究プロセス < 検証 > 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 まとめ 15
アノマリ検知ツールの動作検証 適用案件 :Web アクセス遅延事象 発生時刻 2016 /6/708:46~ 6/808:00 発生事象 業務影響 従来監視による検知時刻 検証方法 Web からの応答が遅延した 部の基幹業務が実 不可となった 2016 /6/7 20:26 アノマリ検知ツールにより 早い時刻で検知できるかを検証 使用ツール 使用データ AnomalyDetection[Twitter,Inc.] 1ヶ月分のネットワークセッション数データ (netst at ログ ) 16
アノマリ検知ツールの検証結果 従来の監視方法と比較し 36 分早く検知可能 6/720:26 6/719:50 しかし 精度に問題あり ( 過剰な検知が発 ) 時系列 17
研究プロセス < 問題点の洗い出し > 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 まとめ 18
問題点の洗い出し 事例分析 データの内容を 分に理解 必要なデータを際 たせる加工を実施 問題点 データの理解 データの準備 加工 が考慮されていない [Shearer(2000 )] より [CRISP-DM のモデル ] 19
研究プロセス < 問題点の解決 > 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 まとめ データの理解データの準備 加工 20
データの理解 : 運 ログを分析 運用ログの性質 1: 周期性 ツール検証で使ったセッション数の 1 か月推移データ パターン (1 日 ) 一日ごとに山のパターンが繰り返し発生している 周期性がある 21
周期性の重要性 データの周期性を理解することでより正確なアノマリ検知ができる 問題例 今日の午前 11:00 の気温は 24 だった この気温はいつもに べて異常だろうか 解答例 気温の変動には 朝 昼 の 1 日の周期性がある 過去 10 年の毎 午前 11:00 の気温を調べて 平均したら 12 だった じゃあ 今 はかなり異常だ この結果で納得できるか? 気温変動は 1 年の周期もあるので 1 年周期を前提に解きなおそう!! 22
データの理解 : 運 ログを分析 運 ログの性質 2: 分散不均 性 セッション数のグラフを 1 日ごとに分割して重ね合わせると 時間帯に応じて数値の出 のバラツキが異なっている 運用ログは分散不均 性を持っている バラツキ小 バラツキ大 23
分散不均 性の重要性 うまい人 A さん 初心者 B さん バラツキ小平均 30 ヤードバラツキ大 問題 それぞれの平均 距離から 30 ヤード短い 距離のショットを打ったとする うまい人 A さん と 初心者 B さん のどちらのショットが異常? 従来の答え 平均からの距離が同じだから異常さも同じ 30 ヤード 平均 この結果で納得できるか? 24
データの理解 : 運 ログの性質 運用ログが一般的に持つ性質 周期性 分散不均 性 同じデータでも時間帯によって数値の分散 ( トレンドからのバラツキ ) が変わる性質 過剰検知の理由は この性質を既存のツールが満たしていないからじゃないか? 実際にツールの中 を てみよう! 25
データの準備 加工 : 改善に向けて AnomalyDetection のメカニズムを調査 1 周期的なトレンドを導く 2 トレンドから上下一定値以内を正常範囲とする 3 正常範囲外のデータをアノマリとして判断する 26
データの準備 加工 : 改善策 AnomalyDetection は分散不均 性を考慮していない稼働しているシステムでは時間帯によってバラツキが異なるので 時間帯に応じてアノマリとして判定する基準値は変動するべきバラツキの度合いによってアノマリ判定する基準が変わるように加工する方法を考案 27
データの準備 加工 : 改善結果 実際の障害事例に対して検証を実施 過剰検知が 90% 減少したことを確認 過剰検知が激減!! 接続済みセッション数 過剰検知が発生 接続済みセッション数 ( 加工後 ) 時系列 時系列 28
研究プロセス < 知 の整理 > 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 今後の展望 29
知 の整理 研究プロセス アノマリ検知問題点の問題点の 1 2 3 4 ツールの検証洗い出し解決 知 を再利 可能な形に整理 理論 法の確 標準的な方法に体系化 障害事例で有用性を提示 低コストでの導入 30
研究プロセス < 知 の整理 > 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 今後の展望 標準手法の体系化有用性の提示導入コストの削減 31
知 の整理 1 標準手法の体系化 本分科会で確 した標準分析 法 評価 ログ収集 数値化 分析 周期性 理解 準備 加工 分散不均 性 32
知 の整理 1 標準手法の体系化 (1) 弱 周期性の可視化ツール 任意のデータについて周期性を可視化するツールを作成 netst at のセッション数データの周期性を可視化 周期性 1 10 の各周期でデータを たときの周期性の度合を数値化 数値が低いほどその周期での度合が強い 7 周期の度合が強いことがわかる 強 1 日周期 3 日周期 5 日周期 7 日周期 9 日周期 周期 33
周期性可視化の理屈 ( イメージ ) 同じ時系列データを異なる周期 A,B で分割し重ねる 周期 A( 短 ) 周期 B( ) どの縦の断面をとっても比較的バラツキが小さい 周期性大 どの縦の断面をとっても比較的バラツキが大きい 周期性小 34
知 の整理 1 標準手法の体系化 (2) 分散不均 性を考慮した加 ツール 時間帯ごとのデータのバラツキの差異を考慮して 数値を調整するように加工 ( 正規化の技法を応用 ) バラツキが少ない時間帯の数値を高く評価 逆に高い値であってもバラツキが大きい時間帯の数値は低く評価 専 知識がなくてもデータの 理解 と 準備 加工 を可能にした 35
研究プロセス < 知 の整理 > 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 今後の展望 標準手法の体系化有用性の提示導入コストの削減 36
知 の整理 2 有用性の提示 (1) 事例 1:Web アクセス遅延事象 従来の監視方法よりも早期の検知を実現 トレンドからの乖離度合 アノマリ検知 30 分早く検知 従来の監視 6/719:55 6/720:26 37
知 の整理 2 有用性の提示 (2) 事例 2:CPU ハングアップ事象 従来の監視方法では検知不可の予兆を検知 トレンドからの乖離度合 トレンド 正常範囲 トレンドからの乖離を異常とすることで検知可能 従来の閾値監視では検知不可の異常 38
研究プロセス < 知 の整理 > 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 今後の展望 標準手法の体系化有用性の提示導入コストの削減 39
知 の整理 3 低コストでの導入を実現 フリーのソフトウェアで下記のツールを実現 周期性の可視化ツール 分散不均 性を考慮した加 化ツール ツールの利 法および分析 針をマニュアル化 コマンドレベルで誰でもできるように記載 自社に持ち帰っても好評!! 明日からデータサイエンティストに!? 40
研究成果 目的 背景 研究プロセス 検証 問題点の洗い出し 問題点の解決 知 の整理 研究成果 今後の展望 41
研究成果 本分科会の活動成果 普及の要件 アノマリ検知の状況 評価 比較優位 従来と比較して先進的な監視を実現できる 適合性 従来の仕組みを きく変更する必要は ない 専 的な知識が必要で 分析手法を標準化し わかりやすさ未経験者でも実施可能とした難しい 可視性効果が明確に示されていない事例により有 性を提 した フリーソフトウェアの使用により 導入には開発が発生し 試用可能性コストが掛かるため気軽に試すことができない低コストでの導入を実現した障害予兆検知普及の土壌を整えることができた 42
まとめ 明日からはじめる 障害予兆検知を実現!! さぁ明日からはじめよう! 標準的な分析方法を確 専 知識不要の導 順 ( わかりやすさ ) 予兆検知への有用性 ( 可視性 ) ツール化により手軽に導入可能 ( 試用可能性 ) 43
今後の展望 本研究の成果をもとにアノマリ検知を発展させる 標準的な分析方法 研究成果 支援ツール アノマリ検知の実践 運用 知 要望の収集 障害を未然に防止システムの安定稼働 知 の集積 検知精度の向上 開発 機能 使い易さの向上 44