時系列解析入門 モデリング. 確率分布と統計的モデル が確率変数 (radom varable のとき すべての実数 R に対して となる確 率 Prob( が定められる これを の関数とみなして G( Prob ( とあらわすとき G( を確率変数 の分布関数 (probablt dstrbuto ucto と呼 ぶ 時系列解析で用いられる確率変数は通常連続型と呼ばれるもので その分布関数は ( t ( < t< G ( ( tdt を満たす関数の積分によって と表現できる このとき ( を密度関数 (dest, probablt dest ucto と呼 ぶ 逆に分布関数が与えられると 任意のa< b に対してa< b となる確率が b ( Ga ( ( d Gb によって求められる a 代表的な密度関数として以下がある 正規分布 ( ガウス分布 ormal dstrbuto ( ( ep, < < π 平均 分散 れる と表記され (, で (, は標準正規分布と呼ば コーシー分布 (Cauch dstrbuto (, < < π {( } ピアソン分布族 (Pearso aml o dstrbuto c (, < < b π {( } b ただし ( c Γb Γ b Γ で b のときコーシー分布 b / としたとき自由度 の と一致する また を正の整数として (
t 分布 (t-dstrbuto と呼ばれる 指数分布 (epoetal dstrbuto ( λ λe,, < χ 分布 (ch-square dstrbuto ( / e Γ, <, は自由度と呼ばれる のとき指数分布となる 重指数分布 (double epoetal dsbtuto ( e e 一様分布 (uorm dstrbuto ( ( ba, a< b, other ある密度関数から得られるデータを 確率変数の実現値 (realzato という 反対に 観 測するデータの背後に確率変数を想定し データはその確率変数の実現値として得られた ものと考えるとき この確率変数を特徴付ける密度関数 ( を真のモデル (true model と呼ぶ 通常この真のモデルは未知であるから 与えられたデータから確率分布を推定する必要が ある このとき データから推定された密度関数は統計的モデル (statstcal model と呼 ばれ ( と表される 時系列データの場合はさらに 同時分布 (,, を考える必要がある 時系列,, を標本平均 ˆ と標本自己共分散関数 Ĉ によって表現するということは 次元ベクトル ( T が平均ベクトル ˆ ( ˆ,, ˆ T,, 分散共分散行列
ˆ ˆ C C ˆ C の多次元正規分布に従うとするモデルを想定していることに相当する このようなモデル は正規分布に従う定常時系列を柔軟に表現できるが データ数 に対して 個の未知 数 ˆ ˆ,, C を推定することになり データの情報を効率よく縮約することにはなら ない. KL 情報量とエントロピー最大化原理 現実のデータを生成する真のモデルを ( それを近似した統計的モデルを ( と表すことにする 統計モデリングでは ( になるべく 近い ( を求めることが主要な目的になる そのためにはモデル ( のよさを客観的に評価する基準が必要になる ここではそ の基準としてカルバック ライブラー情報量 (Kullbac-Lebler ormato 以下 KL 情 報量 を用いる ( 番目の等式は モデルが連続型の確率分布の場合 ( ( ( ( ( I ; Elo lo ( d この KL 情報量は 以下の性質を持っている I( ; I( ; ( ( また KL 情報量の符号を反転した量 B ( ; I( ; は一般化されたエントロピー (etrop とも呼ばれ 想定した分布 ( から 個の実現値をとった時に その相対度数 分布が真の分布 ( と等しくなる確率のを近似的に与える 従って KL 情報量が小さ いほど確率分布 は に近いと考えることができる 統計モデルはデータ,, に基づいて真の分布 ( を近似したもので そのよさは KL 情報量 I ( ; で評価できる 統計的モデリングにおいて B ( ; I( ; を最大とする ようにモデルを構築しようとするのがエントロピー最大化原理 (etrop mamzato prcple である 例えば 真のモデル ( およびそれを近似したモデル ( 考える がともに正規分布である場合を
( ( ep, π ( ( ep, π この場合 ( ( ( ( lo lo となるので KL 情報量は ( ( ( ( ( ( lo E E lo lo E ; I で与えられる と が正規分布の場合の KL 情報量の計算は簡単だが そうでない場合は数値計算によって求められる 例えば以下の台形公式などが用いられる ( ( ( { } ( ( ( ( ( h h h I lo ; ˆ ただし 3. KL 情報量の推定と対数尤度実際の統計解析の場面では真の分布は未知であるため KL 情報量は実際の統計モデルの評価に用いられることはほとんどない 真の分布 ( の代わりに ( から独立に観測されたデータ,, が与えられている場合 モデル ( の KL 情報量を以下の方法で推定する エントロピー最大化原理に従って最も良いモデルを求めるためには ( ( I B ; ; を
最大 I ( ; を最小とするモデルを求めればよい KL 情報量は I( ; Elo( Elo( と二つの項に分解できる 右辺第 項は ( が与えられないと計算できないが モデル ( には依存しない一定の値を取るので無視できる 右辺第 項は平均対数尤度 (epected lo-lelhood と呼ばれる量で 密度関数を持つ連続型のモデルの場合は E lo ( lo( ( d と表現できる この平均対数尤度も ( が未知の場合には直接計算できないが データ が密度関数 ( に従って生成されることから 大数の法則によりデータ数が の時 lo ( E lo( が成り立つ 従って KL 情報量 ( (lo-lelhood l ( I ; を最小とするモデルの代わりに 対数尤度 lo を最大とするようなモデルを選べば 近似的にエントロ ピーを最大にすることができる また その指数をとった L ( と呼ばれる は尤度 (lelhood 時系列解析のモデルでは 通常観測値が独立に得られるという仮定は成り立たない この ような一般の場合には 尤度は,, の同時分布を用いて L,, ( と定義される この場合対数尤度は となる ( l lol lo,, 4. 最尤法によるパラメータの推定 モデルがθ をパラメータとするパラメトリックモデルで ( ( θ の形をしている場 合には 対数尤度 l はパラメータ θ の関数と考えることができる したがって θ を明示的 に表し l ( θ lo lo を θ の対数尤度関数と呼ぶ ( θ ( 独立の場合 (,, ( θ 一般の場合 対数尤度関数 l( θ はθ で定まるモデルの良さを評価した量なので ( θ l を最大とする θ を選
ぶことによって パラメトリックモデル ( θ のパラメータの最適な値を定めることがで きる このように対数尤度あるいは尤度を最大化することによりパラメータを推定する方 法は最尤法 (mamzato lelhood method と呼ばれる また最尤法で推定されたパラ メータを θˆ と表し 最尤推定値 (mamum lelhood estmate と呼ぶ 例として 平均 分散 の正規分布モデル ( ep π ( のパラメータ を最尤法で推定する この場合対数尤度関数は l ( loπ ( したがって l( を最大とするためには S ( ( を最小とする を求めればよいので S( の一階導関数を とおくことによって ˆ が得られる S( ( のように二乗和を最小にすることによりパラメータを推 定する方法は 最小二乗法 (least squares method と呼ばれる 一般に時系列モデルのパラメータ θ の最尤推定値を求めるためには 擬似ニュートン法によ る数値的最適化 (umercal optmzato が用いられる パラメータθ の初期値 θ の値を l 定めたときの対数尤度の値 l( θ と一階微分が与えられると θ θ θ を繰り返して ( θ λ H 自動的に決定される l θ l の極大点を自動的に求める ステップ幅 λ とヘッセ行列の逆行列 H は 5. AIC( 赤池情報量基準 最大対数尤度はそのままでは異なるモデル間の比較には用いることができない 最尤推定 値 θˆ で規定されるモデルは ( θˆ l が E lo ( θˆ の推定量として正の偏りを持つためで ある この偏差は パラメータの推定とモデルの評価のための平均対数尤度の推定に同じ
データを 度用いたことによって生じる E を lo ( θˆ を l( ( ˆ θ lo ˆ θ C E E lo ( ( ˆ θ lo ˆ θ とおく このとき ( θˆ l をC だけ補正し l( θˆ C によって推定したときに生じる平均的な偏り とすることにより E lo ( θˆ の 偏りのない推定量を求めることができる ここでC となることから 赤池情報量 基準 (AIC: Aae Iormato Crtero が得られる ( ˆ θ AIC l ( 最大対数尤度 ( パラメータ数 6. データ変換 正規分布しなかったり分散が一定でない時系列のデータも 対数変換すれば変動が小さく なったり正規分布に近づいたりする 対数変換を含む一般的のデータ変換として Bo-Co 変換 z λ (, λ lo λ, λ がある Bo-Co 変換は定数を無視すると λ のとき対数 λ のとき逆数 λ. 5 のとき平方根 λ のとき原データをとる変換となる AIC を用いると データに適した変換を定めるパラメータλ を選択することができる h z に従う場合 元データ Bo-Co 変換によって変換されたデータ z ( が密度関数 ( の密度関数は ただし dh d ( ( h( dh d は変換のヤコビアン (Jacoba と呼ばれる これは 変換したデータの モデルが変換前のデータに関してもひとつのモデルを定めていることを示している 例えば 原データ および変換されたデータz に正規分布を当てはめたときの AIC の値を それぞれAIC AIC とする このとき z
AIC ' z AIC z lo dh d の値をAIC と比較することにより 原データと変換後データのどちらかが正規分布に近い ' かを判断することができる すなわちAIC <AIC z の場合は原データのほうがよいことに ' ' なる 一方 AIC >AIC z の場合は変換した方がよいことがわかる さらに AICz が最小にな るようにすることによって Bo-Co 変換の最適な λ の値を選択することもできる 実際 の時系列データでは Bo-Co 変換を行った後 色々な時系列モデルを当てはめることが多 いので その場合には時系列モデルの AIC を Bo-Co 変換のヤコビアンを使って補正する 必要がある