Takeuchi, J., and Yamanishi, K.: A Unifying Framework for Detecting Outliers and Change Points from Time Series, IEEE Trans. on Knowledge and Data Eng

Similar documents
様々なミクロ計量モデル†

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Probit , Mixed logit

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft Word - Time Series Basic - Modeling.doc

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

カイ二乗フィット検定、パラメータの誤差

基礎統計

Microsoft Word - 補論3.2


ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

main : 2015/8/3(10:20) R 2015

SAP11_03

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

NLMIXED プロシジャを用いた生存時間解析 伊藤要二アストラゼネカ株式会社臨床統計 プログラミング グループグルプ Survival analysis using PROC NLMIXED Yohji Itoh Clinical Statistics & Programming Group, A

PowerPoint プレゼンテーション

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

講義「○○○○」

統計的データ解析

PowerPoint プレゼンテーション

景気指標の新しい動向

スライド 1

博士学位請求論文審査報告書 申請者 : 植松良公 論文題目 :Statistical Analysis of Nonlinear Time Series 1. 論文の主題と構成経済時系列分析においては, 基礎となる理論は定常性や線形性を仮定して構築されるが, 実際の経済データにおいては, 非定常性や

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - å“Ÿåłžå¸°173.docx

PowerPoint プレゼンテーション

スライド 1

memo

4 段階推定法とは 予測に使うモデルの紹介 4 段階推定法の課題 2

Microsoft Word doc

PowerPoint プレゼンテーション

Microsoft PowerPoint 新道路研究会_公開用.pptx

今回用いる例データ lh( 小文字のエル ) ある女性の血液中の黄体ホルモンを 10 分間隔で測定した時系列データ UKgas 1960 年 ~1986 年のイギリスのガス消費量を四半期ごとに観測した時系列データ ldeaths 1974 年 ~1979 年のイギリスで喘息 気管支炎 肺気腫による死

ボルツマンマシンの高速化

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

パソコンシミュレータの現状

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

スライド 1

PowerPoint プレゼンテーション

日心TWS

untitled

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft PowerPoint - Econometrics pptx

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

数値計算法

Microsoft PowerPoint - 三次元座標測定 ppt

生命情報学

Microsoft Word - eviews6_

スライド 1

Microsoft PowerPoint - 【配布・WEB公開用】SAS発表資料.pptx

データ解析

PowerPoint プレゼンテーション

アルゴリズムとデータ構造

Microsoft PowerPoint - 基礎・経済統計6.ppt

スライド 1

 

Microsoft PowerPoint SIGAL.ppt

インターネットと運用技術シンポジウム 2016 Internet and Operation Technology Symposium 2016 IOTS /12/1 syslog 1,2,a) 3,b) syslog syslog syslog Interop Tokyo Show

微分方程式による現象記述と解きかた

スライド 1

ベイズ統計入門

Microsoft Word - ㅎ㇤ㇺå®ı璃ㆨAIã†®æŁ°ç’ƒ.docx

1.民営化

解析センターを知っていただく キャンペーン

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

横浜市環境科学研究所

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

Aberdeen, D., Pacovsky, O., and Slater, A., The Learning Behind Gmail Priority Inbox, In LCCC: NIPS 2010 Workshop on Learning on Cores, Clusters and Clouds, 2010.

第7章

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

<4D F736F F F696E74202D2091E6824F82568FCD8CEB82E892F990B382CC8CF889CA82BB82CC82515F B834E838A B9797A3959C8D F A282E982C682AB82CC8CEB82E897A62E >

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

Microsoft PowerPoint - mp11-06.pptx

Microsoft PowerPoint - Inoue-statistics [互換モード]

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft Word - NumericalComputation.docx

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

Microsoft PowerPoint - 14回パラメータ推定配布用.pptx

データ科学2.pptx

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

Microsoft PowerPoint - ICS修士論文発表会資料.ppt

Stanによるハミルトニアンモンテカルロ法を用いたサンプリングについて

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

ii 3.,. 4. F. (), ,,. 8.,. 1. (75%) (25%) =7 20, =7 21 (. ). 1.,, (). 3.,. 1. ().,.,.,.,.,. () (12 )., (), 0. 2., 1., 0,.

Microsoft Word - lec_student-chp3_1-representative

untitled

Microsoft Word - 微分入門.doc

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

フィードバック ~ 様々な電子回路の性質 ~ 実験 (1) 目的実験 (1) では 非反転増幅器の増幅率や位相差が 回路を構成する抵抗値や入力信号の周波数によってどのように変わるのかを調べる 実験方法 図 1 のような自由振動回路を組み オペアンプの + 入力端子を接地したときの出力電圧 が 0 と

トピックモデルの応用: 関係データ、ネットワークデータ

PowerPoint Presentation

³ÎΨÏÀ

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

今回 次回の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ Danger!! (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか これは次回)

特定のグループがとる大きさの確率分布を考えよう 時点において 第 グループが大きさ x である確率を P (,) x であらわす 時点におけるグループの大きさは から+ cまでの範囲内にある したがって + c x= P(,) x = である ここでつの仮定を設けよう それは Son (955) が

Microsoft Word - thesis.doc

Transcription:

Takeuchi, J., and Yamanishi, K.: A Unifying Framework for Detecting Outliers and Change Points from Time Series, IEEE Trans. on Knowledge and Data Engineering, 18(4), pp.482-492, 2006. 2013 年度論文ゼミ #9 20130621 中西航 東京大学大学院工学系研究科社会基盤学専攻

論文全体の構成 2 1. Introduction 2. Problem Setting :: 本論文の主題 Change Point Detection の位置づけ 3. Two-Stage Learning for Change Point Detection ::Change Point Detection の定式化 4. Other Methods :: 以下での比較用に別の手法を紹介 5. Simulation :: 人工データに対する適用と分析 6. Experiment with Real Data :: 実データに対する適用 7. Concluding Remarks

1. 時系列データからの 検出 3 時系列データの変化には 外れ値の検出変化点の検出 の 2 種類があり ともに興味を引く問題となってきている 何かの値 外れ値 変化点? 時刻

1. 時系列データからの 検出 4 時系列データの変化には 外れ値の検出変化点の検出 の 2 種類があり ともに興味を引く問題となってきている 例 ) ネットワークのアクセスログ 通常状態をデータから学習し 新たに入ってくるデータがそこからどの程度はずれているか = 外れ値 = 異常検出 一方で 膨大な外れ値データが入ってきた場合は 統計的に通常状態自体が変化しているととらえたい これまで 外れ値検出と変化点検出は別個に行われてきた これを統一した枠組みで記述したい

1. 著者らの既往研究との関係 5 従来 : 統計的な外れ値検出手法 ( 時系列データに未対応 ) これに対し 時系列データに対応 変化点の検出にも対応 の 2 点が本研究の手法 具体的には Auto Regression モデルを従来手法に導入する 外れ値検出と変化点検出を 2 段階の 検出 ステップに分離し 逐次同時に処理する より具体的には データ単体の外れ度合いの計算と データの移動平均の外れ度合いの計算を行う この手法を ChangeFinder と命名する

1. 関連する研究 ( の課題 ) 6 外れ値検出は時系列データへの対応が不完全 時系列を考慮した AR モデルはデータの定常性を仮定 非定常な時系列データを扱う方法として AR モデルの ( 共 ) 分散に時間変化を持たせる方法 割引率の導入による一種の最尤推定 ( 本研究のアプローチ ) 事前に変化点の個数が分かっていることを前提 変化後のデータがある程度蓄積されてから変化点が検出 より一般化した適用可能性の高い手法の構築

2.Change Point Detection では何を行うか 7 Change Point とは データの属性が急激に変化する時間軸上の点 ( 時刻 ) のことで 緩やかな変化は対象としない この時刻 t=a を検出するのが Change Point Detection ( 中西注 : 緩やかな変化に対しては 動的パラメータの逐次推定やファジィシステムの適用が行われているように思われる ) 何かの値 Change Point? a 時刻

2.Change Point Detection では何を行うか 8 ある確率過程 p に基づいて d 次元の実数ベクトル x t が t=1 から順次得られる p(x t x t-1 ) は x 1 から x t-1 が得られたもとでの x t の分布 このとき ある時刻 t=aがchange Pointならば pがある時刻 t=aを境にp (1) とp (2) という2つの ( 異なる ) 確率密度関数に分離されるという想定が出来る x p1 Change Point? p2 a 時刻

2.Change Point Detection では何を行うか 9 このときカルバック ライブラー情報量 2 1 1 p D p p lim E 2 ln n p n p 2 1 x x n n E p :p の期待値 たとえば 有意な Change Point である t=a では D の値がとても大きい というような想定 もし p (1) と p (2) が i.i.d. を満たす確率密度関数ならば p (1) のもとで x a+1 から x a+m までの一連の x が得られる確率は p (2) のもとで得られる確率の exp(-md) 倍に比例する ところで 上記の方法では 唯一の変化点 t=a の存在と その前後での p (1) と p (2) の定常性を仮定している これに対し本研究は 複数の変化点に対応し 変化点を出来る限りリアルタイムで検出することを目的としている

2.Change Point Detection では何を行うか 10 具体的には以下の 2 つを扱う Jumping mean( 平均の変動 ) p (i) が i.i.d. の 1 次元正規分布で 平均 μ (i) 分散ともに σ 2 のとき D p p 2 1 1 2 2 2 2 μ (1) -μ (2) が大きいとき Jumping mean 型の変化点 Jumping variance( 分散の変動 ) p (i) がi.i.d. の1 次元正規分布で平均ともに0 分散がσ (i)2 のとき 1 ln 2 1 1 p 2 D p 2 2 2 2 2 2 1 1 σ (1)2 と σ (2) 2 が大きく異なるとき Jumping variance 型の変化点

3.ChangeFinder 11 2 段階学習を行う x t : 時系列データ p:x の時系列変化を表す ( 条件付き ) 確率密度関数 y t :p t-1 のもとでの x t の合致度の移動平均 q:y の時系列変化を表す ( 条件付き ) 確率密度関数 データ x t が入る 確率密度関数 p t を学習 ( 更新 ) p t-1 の x t についての表現力を計算 Outlier Detection p はどんな関数でも良いここでは AR モデルを導入 ( 後述 ) スコアリング方法として 2 種類提案 ( 後述 ) 幅 T の窓でスコアの移動平均を算出この時系列を y t とする y t を表現する確率密度関数 q t を学習 ( 更新 ) q t-1 の y t についての表現力を計算 Change Point Detection

3.Outlier Detection 12 Scoringの方法 Score t1 1. 対数損失 xt log pt 1 xt x 情報理論の立場では p t-1 に従って生成されるバイナリデータをもとにx t をエンコードするのに必要な記述長 2. 二次損失 データ x t が入る 確率密度関数 p t を学習 ( 更新 ) p t-1 の x t についての表現力を計算 Outlier Detection p はどんな関数でも良いここでは AR モデルを導入 ( 後述 ) スコアリング方法として 2 種類提案 2 t1 ˆ, ˆ t t t t = t1 t Score x x x x xp x x dx Score(x) が大きいとき外れ値の可能性が高いということ

3.Outlier Detection 13 データ x t が入る 確率密度関数 p t を学習 ( 更新 ) p t-1 の x t についての表現力を計算 p はどんな関数でも良いここでは AR モデルを導入 スコアリング方法として 2 種類提案 ( 前述 ) pにarモデルを導入初期値の平均が0であるようなd 次元ベクトルz t が k 次のARモデルに従う k z A z ε, ε N 0, Σ t i ti i1 x z μ t t t1 x t-k からx t-1 までの系列データを xt kと表記すれば p t1 1 1 1 xt xtk : θ exp k /2 1/2 xt w Σ xt w 2 Σ 2 k i1,,...,,, w A x μ μ θ A A μ Σ i ti 1 k T Outlier Detection

3.Outlier Detection 14 さきほどの式展開 x z μ t k t i1... w A x μ μ A x μ A x μ A x μ μ i ti 1 t1 2 t2 k tk xt w zt A1zt 1 A2zt2... Akztk ε N 0, Σ z t についての回帰式 p t1 1 1 1 xt xtk : θ exp k /2 1/2 xt w Σ xt w 2 Σ 2 T Sequential Discounting AR learning による θ の推定 : 割引率 r を導入した以下の式を最大化する θ t x x θ i1 ti i 1 r log p 1 i,

3.Outlier Detection 15 Sequential Discounting AR learning による θ の推定量 := は代入 ( 更新 ) であり 逐次推定を行うという意味 μ の推定量 C: 計算上設定する変数 自己共分散関数 と呼ばれる Yule-Walker の方程式これを解くと A の推定量が得られる A の推定量を代入すると x と Σ の推定量が得られる

3.Change Point Detection 16 幅 T の窓でスコアの移動平均を算出この時系列を y t とする y t を表現する確率密度関数 q t を学習 ( 更新 ) q t-1 の y t についての表現力を計算 Score(x) を元に新たな時系列データ y を生成 いわゆる移動平均 外れ値 x の前後での y の値の変化は小さく 変化点 t の前後での y の値の変化は大きいことが想定される x t p t と同じ要領で y t から q t を生成する p t と同じ要領で q t について Scoring し Score(t) とする T: 小 変化点検出高速 外れ値との峻別能力低い T: 大 変化点検出低速 検出精度高い Change Point Detection y t t 1 Score( x ) T i t T 1 i

4. 比較手法 17 GS: Guralnik and Srivastava(1999) に基づく手法 誤差 ( 残差 ) の平方和の最小化 GS では多項式による近似も行っているが今回は線形近似 SC: GS に AR モデルを導入した手法 確率的コンプレキシティ (Stochastic Complexity) 最小化 t 確率密度関数 t tk と系列データが与えられたとき 確率的コンプレキシティ t1 p x x, θ は与えられた x( 時刻 u から t-1 まで ) のもとでの最尤推定量 変化点 t=a のあと 毎時刻 t=b で を計算し 閾値以上となれば t=i を変化点として検出 変化点が検出されたら i を a として繰り返す t=i で区間を分割し 異なる θ による p を用いた方が確率的コンプレキシティが低下するとき 表現力が高いモデルだということ x u t t t1 t1 u log t tk, u I x p x x x iu t b 1 t a 1 tb i tb t min t i1 I x I x I x a i: t a i t b a

5. Simulation データ作成 18 x t :2 次の AR モデルに従って生成 y t :3 次の AR モデルに従って生成 Score(x): 対数損失で計算 Score(y): 二次損失で計算 移動平均の幅 T=5 x a x a x t 1 t1 2 t2 t 2 a 0.6, a 0.5, N 0, 1 2 割引率 r=0.02 変化点は t=1000x(x=1,2,,9) に設ける 3 種類のパターンで試行

5. Simulation: Jumping mean with constant variance 19 t=1000x(x=1,2, 9) の 9 回 平均を Δx=10-x 変化 ( 加算 ) Δx を change size と呼ぶ σ 2 =1( 一定 ) x 回目の変化前後での KL 情報量は 2 x 2 t=6000 まで検出できているこのとき K(x) 6.4 2 1 a K x 0.405 x 0.4 10 x 2 2 i1 i 2 2 元データ Score

5. Simulation: Jumping mean with varying variance 20 t=1000x(x=1,2, 9) の9 回 平均をΔx=1 変化 ( 加算 ) 2 0.1 0.01 10000 t /10000 時間経過とともに 0.1 10 に増加 x 回目の変化前後での KL 情報量は 0.410 x 2 K x t=6000 まで検出できているこのとき K(x) 6.4 元データ Score

5. Simulation: Jumping variance with constant mean 21 平均は 0 で一定 t=1000x(x=1,2, 9) の 9 回 σ 2 を 1.0 と 9.0 とで行き来させる 元データ 1.0 9.0 のときの KL 情報量 2.90 9.0 1.0 のときの KL 情報量 0.65 分散が増大するときは変化点が検出できているが 減少するときは検出できていない Score

5. Simulation: Quantitative Evaluation 22 Activity Monitoring[Fawcett and Provost, 1999] に基づき 検出力を検出速度と誤検出率の観点から評価 Score に対して設ける閾値によって検出力が変動する Effective Alarm と False Alarm Rate とを軸とした ROC 曲線のようなことを考える Effective Alarm: 変化点から20タイムステップ以内に検出 * t* を真の変化時刻 tを検出時刻としたとき benefit t t t Alarm Policy: 最新の Alarm から 20 タイムステップ以内の Alarm は無視 1 / 20 SCやGSの場合はt* より前の時点で検出することがあるので benefit t 1 t t /10 とする * False Alarm Rate:False Alarm/ 全 Alarm

benefit(t) の平均 5. Simulation: Quantitative Evaluation 23 Jumping mean with constant variance データセットは前出同様 ただし change size は 5 で固定している CF の性能が高い 誤検出率

benefit(t) の平均 5. Simulation: Quantitative Evaluation 24 Jumping mean with varying variance データセットは前出同様 誤検出率 CF よりも GS の性能が高い ただし 分散が徐々に縮小していくパターンを試すと CF のみが変化点を検出できた ( と書いてあるがグラフは無い )

benefit(t) の平均 5. Simulation: Quantitative Evaluation 25 Jumping variance with constant mean データセットは前出同様 誤検出率 CF の性能が高い ただし 分散が小さくなる (KL 情報量が小さい ) 変化点を検出できていないので benefit が低い そもそも KL 情報量に依存する手法であることの課題

5. Simulation 26 考察 定性的には CF は SC や GS よりも変化点検出に遅れの出にくい方法といえる SC や GS で False Alarm Rate をあげても Benefit が低下することがある これは Alarm の発生が真の変化点よりも早すぎることが多くなるため CF は SC や GS に匹敵する検出力を持っている 特に 3 番目のデータセットと 2 番目のデータセットの分散を小さくしていくパターンでは 相対的に高性能といえる 計算のオーダーは SC や GS が O(n 2 ) であるのに対し CF は O(n) であるため リアルタイム分析には CF が適している

6. 実データへの適用 27 DoS 攻撃の実例に適用 パラメータ設定は Simulation と同様 Scoring は対数損失 CF により 変化点を正しく検出できた 8 月 11 日の Alarm は 現実のトレンドマイクロの発表より 1 時間 44 分早く 8/18 の Alarm も約 1 日の遅れに留まっている SC や GS でも変化点は検出できるが CF より検出時刻が遅い

7. まとめ 28 成果 2 段階の学習プロセスからなるChangeFinderの開発 ChangeFinderへのARモデルとSDARモデルの適用外れ値検出と変化点検出の統合的な枠組みの構築いくつかのデータによる挙動の検証 課題 Tの最適化 データセットからのT 自体の学習分散が減少する変化点の検出法 ARIMAモデルや状態空間モデルへの拡張隠れマルコフモデル等との統合