特集ビッグデータの利活用異常検知技術の概要と応用動向について吉澤亜耶橋本洋一概要モノのインターネット (IoT:Internet of Things) にみられるように膨大なデータが収集可能となった現代におけるデータ活用のひとつとして異常検知が脚光を浴びている本稿では技術的特徴に着目し

特集ビッグデータの利活用異常検知技術の概要と応用動向について吉澤亜耶橋本洋一概要モノのインターネット (IoT:Internet of Things) にみられるように膨大なデータが収集可能となった現代におけるデータ活用のひとつとして異常検知が脚光を浴びている本稿では技術的特徴に着目した異常検知技術の概要とその応用事例について紹介するまず過去文献をもとに異常検知技術をルール学習クラスタリングクラシフィケーション回帰に分類して俯瞰的に紹介するさらに異常検知技術の中でも実用性が高いはずれ値検知技術について検知手法の特徴ごとに解説する応用事例として機械や設備関連データへの適用事例や評価実験の紹介を行いモデル作成時および異常検知システム運用時におけるドメイン知識の重要性について述べる 1. はじめに I otの広がりにより家電や自動車などの製品に搭載した各種センサーからこれまで収集が難しかったデータをリアルタイムに収集できる状況になりつつあるさらにビッグデータ処理技術の進展によりこれまで処理し切れなかった大量データの活用が可能になってきているこうした情報技術の変革が製造業におけるデータ分析のあり方に変化をもたらしている製造機器にセンサーを取り付けてデータを収集し設備の異常検知そこから得られるデータの特徴に違いがあるたとえばコンピュータの CPU 異常を検出したい場合対象データは主に数値になるセキュリティ攻撃検知やクレジットカードの不正使用検知ならば数値データとテキストログデータを組み合わせる必要がある工場の機械故障検知のケースであれば特有のノイズを含んでいるおそれがある 1 分間隔程の比較的短い間隔でデータが得られるものもあれば健康診断のように年 1,2 回しかデータが得られないものもあるこのようにデータの特徴が異なるものを全て同じ手法でカバーすることは難しいそのたや生産性向上に資する取り組みは従来から存在していたしかし I Tの発展は今まで数分間隔でしか収集できなかったデータをミリ秒間隔で収集することを可能にしたまた Hadoopに代表される並列分散技術は今までは捉えることのできなかった設備の故障やその予兆を捉え稼動率の向上等に役立てることを可能にしつつある本稿では設備の故障やその予兆を検知することを総称して異常検知と呼ぶことにする米国の大手通信事業者 Verizonのレポート [1] によると同社のネットワークを利用した M2M(Machine to Machine ) 接続数の分野別増加率は製造業が圧倒的に増えており製造業における IoTへの期待の高まりを裏付けている ( 図 1) 異常検知は古くから統計や機械学習の応用先としてよく研製造業金融及び保険メディア及びエンターテイメント宅内監視小売及びホスピタリティ交通及び流通エネルギー及びユーティリティ公共 / スマートシティヘルスケア及び医療 IoT BY THE NUMBERS Here s how M2M connections on our network increased from 2013 to 2014 by sector: Manufacturing Finance & Insurance Media & Entertainment 120% Home Monitoring Rental & Hospitality Transportation & Distribution 83% Energy & Utilities Public Sector/Smart Cities 46% Healthcare & Pharma Verzon 2 204% 128% 89% 88% 49% 40% 究されている分野である理由のひとつとして異常検知の対象分野が多岐に渡ることが挙げられる対象分野が異なれば出典 : 文献 [1]p6 の図を引用一部加筆図 1 米 Verizon の M2M 接続数の増加率 (2014/2013) 42

本稿では異常検知技術を分類しその中の主なものを紹介する異常検知技術の分類には対象データの性質に着目した分け方 [2] や技術の特徴に着目したわけ方 [3][4] などいくつかの分類方法がある [5] 2 章では技術的特徴に着目した分類に基づいた異常検知技術の概要を示す 3 章でははずれ値検知技術に注目して実際に用いられる手法を説明するさらに 4 章で機械故障検知を対象とした応用事例紹介を通じて実データに適用する上でのドメイン知識の重要性について述べる 2. 異常検知技術の概要ここでは異常を正常時とは異なるメカニズムで発生するデータであるとする歴史的に遡ると異常にはさまざまな定義がなされている [5] 古くは 1969 年のGrubsによる他のサンプルから著しく逸脱したものという定義がある近年では Chandolaにより通常の動作として明確に定義された概念に準拠しないデータのパターンとされている異常検知技術の手法を概観するためにルール学習クラスタリングクラシフィケーション回帰の 4つに分類してそれぞれの特徴を表 1に示したこの分類は Agrawalらの分類 [4] を踏襲したものであるこれはデータマイニングの一般的な分類としても知られているものであり異常検知の技術もデータマイニングの分類にならって分類することができる今回紹介した各手法は観点の違いにより別の分類に含められる場合もある例えばクラシフィケーションの手法であっても応用次第ではずれ値検知に用いられることがあるここに掲げた分類はあくまで一例と捉えていただきたい第 17 号 2016 特3. はずれ値検知技術はずれ値検知は期待される正常な振る舞いとは異なる振集め異常検知にはさまざまな手法が開発されているる舞いをする異常な状態をみつける手法全般を指す予め異常な状態全てを網羅することが困難なケースや異常データが極少数しか得られないケースはしばしば存在する異常な状態をモデルとして表現することが難しい場合正常な状態を表現したモデルから逸脱したものを異常と判断するはずれ値検知が適用しやすい以降でははずれ値検知の代表的な手法について述べる検知手法の種類距離に基づく検知手法密度に基づく検知手法統計的分布に基づく検知手法角度に基づく検知手法その他の手法表 2 はずれ値検知における異常検知手法検知手法最近傍法 K 近傍法部分空間法 LOF iforest 統計的検定ホテリング理論マハラノビス = タグチ法ガウス混合分布カーネル密度推定法 ABOD 1 クラス SVM 情報量他はずれ値検知技術は手法の特徴から距離に基づく検知手法密度に基づく検知手法統計的分布に基づく検知手法角度に基づく検知手法に分類できる ( 表 2) ここではそれ以外のものを含め 5 つに分類したそれぞれの検知手法の特徴について概略を述べるなおここでは学習に用いるデータを学習データと呼び異常かどうか判定したいデータを未知データと呼ぶことにするはずれ値検知ではあらかじめ得られている過去の正常データを学習データとして用いることが多い表 1 技術的特徴に着目した異常検知技術の分類概要 [4] 分類特徴異常検知での使われ方アルゴリズムや手法ルール学習正常時のデータにおけるルールを学習しておきそこからはずれるものを異常とする手法である正常時の挙動をもとに閾値を設定する手法や正常時に起こる頻度が低いものを異常とする手法がある PN-rule[2] CREDOS[2] 等クラスタリングデータの集合を似たデータ同士にグループ化して分類する手法である正常時のクラスタリングの状態と異なるクラスタや正常クラスタからはずれるデータを異常とする K-Means[4] K-medoids[4] EM Clustering[4] はずれ値検知等クラシフィケーションあらかじめ正常か異常かのラベルづけがされたデータを学習しておき未知のデータがどちらに分類されるかを判別する手法である正常と異常の 2 カテゴリにわけてラベルづけを行ったものを学習データとして用い異常カテゴリに判別されるものを異常とする異常データが少ない場合は異常の学習がうまくいかないケースがあるニューラルネットワークサポートベクターマシン等回帰正常時のデータから回帰式とよばれるモデルを構築しそのモデルからの逸脱をもとに異常かどうかの判定を行う入力と出力が対になって観測される場合に用いられる手法であり与えられた入力から予測される値と実際の観測値のずれに注目して異常検知を行う線形回帰モデル [6] リッジ回帰モデル [6] ベイズ的線形回帰モデル [6] 等 43

(1) 距離に基づく検知手法距離に基づく検知手法は未知データと学習データの距離が閾値を越えた場合に異常と判断する閾値は学習データ間の距離から推定する最もシンプルな手法として最近傍法がある [4] 最近傍法は最も近い学習データとの距離が予め決められた基準値を超える場合に異常と判断する方法である最近傍法の拡張として k 最近傍法がある [6] これは最も近いものでなく k 番目に近い学習データとの距離を指標とするまた局所部分空間法は未知データの k- 近傍データを用いて k -1 次元のアフィン部分空間を作成しそこへの投影距離に基づいて異常かどうかを判定する方法である [8] (2) 密度に基づく検知手法密度に基づく検知手法は未知データ周辺の密度と未知データの近傍にある学習データ周辺の密度を比較する手法であるこの手法は正常データ周辺の密度はその近傍点の密度に近いが異常データ周辺の密度はその近傍点周辺の密度との違いが大きいという考えに基づいている古くから知られる手法として LOF(Local Outlier Factor) が挙げられる [9] LOFは各データからの一定距離内の密度を計算しそれに伴い異常スコアを計算する手法である他にも二分木構造を用いた高速な手法として i Forest[10] が開発されている (3) 統計的分布に基づく検知手法統計的分布に基づく検知手法ではあらかじめ学習データの統計的分布の特徴を計算しておきそこから大きく離れたものを異常とする大別してパラメトリックな手法とノンパラメトリックな手法に分けることができるパラメトリックなものとしては統計的検定手法 [11] やホテリング理論 [6] がノンパラメトリックなものとしてはガウス混合分布 [12] やカーネル密度推定法 [13] が挙げられるパラメトリックな手法は学習データが既知の確率分布に従うことを仮定して異常検知をする統計的検定手法は学習データが従う確率分布の信頼区間を推定して得られた対象データが信頼区間の範囲外ならば異常とみなすというものであるホテリング理論は学習データが正規分布に従うことを仮定して学習データの中心点と未知データのマハラノビス距離を特徴量とするこのときマハラノビス距離はカイ二乗分布に従うためカイ二乗分布に基づき計算した異常度により判断する多変数のホテリング理論で計算されるのは全変数の総合的な異常度になるためどの変数がどの程度寄与しているかはわからないこの課題を解決する手法としてホテリング理論に変数選択手法を組み合わせたマハラノビス=タグチ法 (MT 法 ) が開発されている [6] ノンパラメトリックな手法は学習データが既知の確率分布に従うことを仮定しない手法である混合ガウス分布モデルは複数のガウス分布を用いて学習データの分布を表現する手法であるカーネル密度推定法は学習データを複数の領域にわけその領域ごとにカーネルを適用しそれら全体を足し合わせて正規化することによりデータの分布を推定する手法であるどちらも推定した確率分布に基づいて算出した確率密度をもとに異常度を計算する (4) 角度に基づく検知手法角度に基づく検知手法は未知データ点と学習データ点がなす角度のばらつきにより判断する手法である ( 図 2) 未知データ点がはずれ値ならば角度のばらつきは小さくなる逆にはずれ値でなければ角度のばらつきは大きくなる ABOD(Angle-Based Outlier Detection) というアルゴリズムがKriegelらによって開発されている [14] この手法の利点は高次元データであっても精度が低下しにくい点であるデータの次数が高くなるにつれ距離に基づく手法では精度が著しく低下するしかし角度に基づく手法ではデータの次数が高くなっても精度の低下が生じにくい 73 72 71 β 70 α 69 γ 68 67 66 31 32 33 34 35 36 37 38 39 40 41 図 2 角度に基づく検知手法 (5) その他その他の手法としては 1クラス SVM(Support Vector Machine)[15] や情報量 [16] を用いたものなど多くの手法がある上記に述べた手法の性能についても触れておきたい異常検知手法のベンチマーク評価結果が Emmott らの論文 [12] にまとめられているこの論文でははずれ値検知手法を対象とした比較評価も実施されているはずれ値検知手法の中で最も精度がよいのは i Forest ついでカーネル密度推定法となっている 44

第 17 号 2016 特4. 応用動向この章では異常検知技術の具体的な応用事例について紹介する機械や設備の異常検知は I ot の普及により今後さらに注目されていく分野であると考えられるここでは異常検知技術を機械や設備に適用した論文についてとりあげ論文で得られている知見を通して実際の現場で異常検知を行うにあたって何が必要かについて述べる 4.1 応用事例 (1) 人工衛星データへの異常検知技術の適用 [17] [18] 過去の正常データから作ったシステムが正常な挙動を示す統計モデルを人工衛星の状態監視に応用した事例である所謂はずれ値検知に相当するものであるこの論文ではそれをデータ駆動型異常検知と称している具体的には次元削減とクラスタリングを組み合わせた混合確率主成分分析を拡張した方法である検証期間中 2 回の異常イベントを検出しており 1 回は稀な運用を前例のない挙動として検知したものもう 1 回は運用者が事前に想定していなかった事象を検知したものであるここで用いられている手法は異常の度合に対する各変量の寄与度を算出することが可能であり後者の異常が姿勢に関連するものであることを推定しているこの論文では異常判定の結果に対して運用者の経験と専門知識による最終判断が必要であると述べられているデータ駆動型異常検知では過去に前例のないパターンを異常と判断するため稀な正常パターンを異常とみなしてしまう誤判定が生じることがあるそのためデータ駆動型異常検知システムが運用者を完全に代替することは現状では難しいとしている一方で微妙なデータの変調を捉えることにより運用者に気づきを与える可能性についても言及しておりその価値の重要性を主張している (2) 回転機械に対する異常検知技術の適用 [11] 生産現場における回転機械診断についてワイブル分布を用いた異常判定基準の研究事例である本論文における 3 章 (3) で紹介した統計的分布に基づく検知手法に相当する回転機械診断は簡易診断と精密診断に大きく分けられる通常の点検では簡易診断を用い簡易診断で異常が見つかった場合はさらに精密診断にまわすという二段構成になっている簡易診断で早期に異常をみつけることが重大な事故の予防につながる手法としての特徴は特徴量の分布を正規分布からワイブル分布に変更した点である従来の手法は特徴量が正規分集布に従うことを仮定した統計的検定による異常診断を行うものであったしかし実データを精査すると正規分布に従わない場合がありそれが誤判定の原因になっていたそこで正規分布に比べて当てはまりがよいワイブル分布を仮定することにより異常診断精度の向上を図ることに成功している著者は簡易診断時に最も重要なことは振動信号の特徴を表す良好な特徴量の選択および適切な状態判定基準の作成であると主張しているさらに実験や経験などにより特徴パラメータの総合判定の例を作成し異常検知を行う上での特徴量活用に関する知見をまとめている (3) 小型発電設備および半導体製造装置への適用評価 [8] 局所部分空間法を高速化した高速局所部分空間法を用いた事例である小型発電設備と半導体製造装置での評価結果が示されている小型発電設備の事例では故障発生の 4 日前に予兆を検知することに成功している測定対象は温度圧力電流電圧など17 種に及ぶ学習期間は故障発生前月 1ヵ月間評価期間を故障発生までの8 日間としている半導体製造装置の事例においても異常発生の 5 日前から異常発生の直前に渡って予兆の検知に成功している測定対象は明記されていないが14 種の測定値を用いている学習期間は正常動作時 4 日間評価期間は既知の異常が発生した日を含む6 日間であるこの論文では異常検知の感度が学習データの質に依存すると述べられている高い感度を得るためには網羅的かつ正確に正常データを収集し学習させる必要がある [19] 学習データに異常データが混入していると感度が低下してしまうため学習データの中から異常度の高いデータを除外する試みにも言及している 4.2 異常検知技術の適用におけるドメイン知識の必要性ここまで挙げた事例を通して言えることは異常検知技術の現場への適用にはそれぞれの対象機械や設備に関するドメイン知識つまり対象分野の専門家がもつ分野固有の知識が必要だということであるここではモデル生成時異常検知システム運用時の二つの場合におけるドメイン知識の重要性について述べたいモデル作成時とは 2 章 3 章で挙げた異常検知手法を用いて異常検知対象に合った異常検知の仕組み ( モ 45

デル ) を作る段階のことを指すまた異常検知システム運用時とは開発したモデルを用いて未知データに対して異常正常の判定をする段階のことを指すモデル作成時により高い精度を達成するためのポイントとしてまず適切な特徴量を選択すること次にモデル作成に用いるデータに矛盾がないことそして対象システムおよび対象データに合った手法を選択すること以上の 3つを挙げることができるまず精度の良いモデルを得るためには適切な特徴量を選択することが重要である 4.1(2) の文献 [11] ではモデル作成のためには特徴量の選定が重要であると述べており入力として用いる特徴量の調査にもとづいて適切な状態判定基準を作成しているこのように対象となる特徴量の調査が重要となるモデル作成に用いるデータに矛盾を生じさせないためには異常なデータとして正常なデータを与えたり正常なデータとして異常データを含めたりすることを避けるよう何が異常で何が正常かを見極めておかなければならない 4.1(3) の文献 [19] では LSC 法の感度が学習データに左右されるため学習データをクレンジングするための仕組みを開発している対象システムおよび対象データに合った手法を選択するためには監視対象データに対する考察が必要である 4.1(1) の論文 [17] では多くの異常検知手法のうちどれを使うのがよいのか論じるために監視対象データの特徴に対する調査考察を行い重要度の高い特徴に的をしぼって手法を開発しているより良い異常検知システムの運用にはまず異常かどうかの最終判断はドメイン知識を持つ人間が行うこと誤検出から得られる知見を今後の運用に活用していくことさらに運用者のフィードバックを通して異常検知の精度を上げていくことこの 3つを挙げることができる異常かどうかの最終判断をドメイン知識を持つ人間が行うことにより分野特有の知識を反映させた判断を行うことができる 4.1(1) の文献 [17] では異常度を定義して用いているが高異常スコアの解釈には人工衛星の構造や日食の周期など分野特有の知識が必要であるたとえ高い異常スコアが出たとしても人工衛星そのものの異常ではなく周りの環境が原因であるケースや運用状況の違いによるケースも観測されている高異常度 = 異常ではなく異常度の増大に関わるデータの挙動をよく見極めることが異常診断に重要としている誤検出があった場合には詳細なデータの解析を通して誤検出の原因について調査しそこから得られる知見を今後の運用に活用していくことによりより精度のよいシステムを作ることができる 4.1(1) の文献 [18] ではまれな正常パターンを異常として誤判定してしまう事例について言及しておりこれは監視対象システムによってはモデル作成時に全ての正常パターンを網羅することが難しいことを示唆しているそのためモデル作成後に発生した新たな異常データから得られる知見もモデルに組み込むなどして精度をあげることができるまた運用者のフィードバックを通して異常検知の精度を上げていくことが可能である 4.1(1) の文献 [18] では異常かどうかの最終判断には運用者による経験と専門知識による最終判断が必要であると述べ運用者の最終判断結果をシステムにフィードバックすることにより異常検知精度を高めていく協調型状態監視器の試みについて触れている異常検知のための手法選択や適切な結果の解釈には対象分野におけるドメイン知識が必要である 2 章 3 章で示したように異常検知のために多くの手法が開発されているでは一体どの手法を使うのがよいのか手持ちのデータのうちどのデータを使うべきかまたデータの加工は必要かこれらの選択には対象データおよびシステムに対する深い理解と知識が必要であるまた構築した異常検知システムが異常だと判定した場合それをどう解釈するかそれは本当に異常なのかそれとも滅多にない正常なのかもしくは今まで気づくことのなかったシステムの性質を示唆しているのかそれらの判断は運用者に委ねられるそのため実際に異常検知システムを運用するにあたっては対象分野に対するドメイン知識が必要不可欠であるということが今回紹介した事例から窺える 5. おわりに異常検知技術の概要としてルールの学習クラスタリングクラシフィケーション回帰の 4つに分けて異常検知技術について述べさらにはずれ値検知にしぼって技術的詳細について述べたデータを元にデータの特性を識別する異常検知はデータマイニングや統計機械学習といったデータから知見を得る技術と相性が良いそのため多くの研究者らにより研究され数多くのアルゴリズムや手法が開発されているそれらのコードはオープンになっているものも多くデータとコードがあれば手法に対する細かい理解無しでもなんらかの結果を出すことができるだろうしかし現実のデータで適切な異常検知を行うためには対 46

第 17 号 2016 特象としているデータに対する知見が必要であることが応用事例によって示されている対象としているデータがどのようなものなのかどのような性質をもつのかそれらを把握しないまま技術を適用しても効果を得ることは難しいまた構築した異常検知システムの結果をそのまま鵜呑みにするのが危険であることも応用事例は示しているデータマイニングや統計機械学習の技術を用いて構築した異常検知システムは実データに対してもそれなりに機能するしかしそれを活用できるのはドメイン知識をもつ人間なのである参考文献 [1] 平成 27 年版情報通信白書,pp295-296, 総務省 [2] Arindam Banerjee, Varun Chandola, Vipin Kumar, Jaideep Srivastava,Aleksandar Lazarevic:Anomaly Detection: A Tutrial, https://www.siam.org/meetings/sdm08/ts2.ppt [3] Amol M. Pawar,Manisha S. Mahindrakar:A Comprehensive Survey on Online Anomaly Detection, International Journal of Computer Applications, Volume 119 No.17, (2015) [4] Shikha Agrawal, Jitendra Agrawal:Survey on Anomaly Detection using Data Mining Techniques Procedia Computer Science, 60, pp.708 713, (2015) [5] Ravneet Kaur, Sarbjeet Singh:A survey of data mining and social network analysis based anomaly detection techniques, Egyptian Informatics Journal, (2015) [6] 井手剛 : 入門機械学習による異常検知, コロナ社, (2015) [7] Varun Chandola, Arindam Banerjee, Vipin Kumar: Outlier Detection : A Survey, (2007) [8] 渋谷久恵, 前田俊二 : センサ信号からの異常検知および異常関連センサ特定技術, pp21-26, IEE Japan 2014(1-15), (2014) [9] Markus M. Breunig,Hans-Peter Kriege,Raymond T. Ng,Jorg Sander:LOF: Identifying Density-Based Local Outliers, SIGMOD '00 Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pp.93-104,(2000) [10]Fei Tony Liu,Kai Ming Ting, Zhi-hua Zhou:Isolation- Based Anomaly Detection, TKDD Homepage archive, Volume 6 Issue 1, March 2012, Article No. 3, (2012) [11] 陳山鵬 : 機械設備の異常検知と状態判定基準について ( 異常検知と変化点検出 ), REAJ 誌 2015 Vol.37,No.3, (2015) [12]Andrew Emmott, Shubhomoy Das, Thomas Dietterich, Alan Fern, Weng-Keen Wong:Systematic Construction of Anomaly Detection Benchmarks from Real Data, Proceedings of the ACM SIGKDD Workshop on Outlier Detection and Description, pp.16-21, (2013) [13]Robust Kernel Density Estimation, JooSeuk Kim,et al, ICASSP 2008. IEEE International Conference on, March 31 2008-April 4, pp.3381 3384, (2008) [14]H.-P. Kriegel, M. Schubert, and A. Zimek:Angle-Based Outlier Detection in High-Dimensional Data., in Proc. of the 14th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 444-452, (2008) [15] 井手剛, 杉山将異常検知と変化検知, 講談社, (2015) [16]Armin Daneshpazhouh, Ashkan Sami:Entropy-based outlier detection using semi-supervised approach with few positive examples, Pattern Recognition Letters, Volume 49, 1 November 2014, pp.77-84, (2014) [17] 矢入健久 : 衛生の状態監視システムのつくりかた - 過去のデータに基づく異常検知 -, 情報処理 Vol.56, No.8, Aug, (2015) [18] 高田昇, 西田尚樹, 中島佑太, 矢入健久他 : 機械学習データマイニング技術による異常検知システムの評価実験, 第 59 回宇宙科学技術連合講演会公演集, (2015) [19] 渋谷久恵 : パターン認識技術の応用展開,pp73-78, ITE Technical Report Vol39, No.30, Aug, (2015) 本論文には他社の社名商号商標および登録商標が含まれます吉澤亜耶 YOSHIZAWA Aya 先端技術研究所機械学習の応用研究に従事橋本洋一 HASHIMOTO Youichi 先端技術研究所機械学習の応用研究に従事集47