memo - PDF 無料ダウンロード

数理情報工学特論第一機械学習とデータマイニング 4 章 : 教師なし学習 3 かしまひさし鹿島久嗣 ( 数理 6 研 ) kashima@mist.i.~ DEPARTMENT OF MATHEMATICAL INFORMATICS 1

グラフィカルモデルについて学びますグラフィカルモデルグラフィカルラッソグラフィカルラッソの推定アルゴリズム 2

グラフィカルモデル 3

教師なし学習の主要タスクは 4 つあるのでした教師なし学習においては通常データ上の確率分布 P(Á(x)) を何らかの形で推定することが行われる確率分布の使い道としては主に以下の 4 つが挙げられる : タスク 1: 確率分布そのものを用いた分析 ( 今日はコレ ) タスク 2: データの確率評価タスク 3: 未観測値 ( 欠損値 ) の推定 ( 前々回 ) タスク 4: 潜在変数の推定 ( 前回 ) 4

今回はデータの特徴ベクトルの要素間の関係を調べるために精度行列が疎であるような多次元確率分布を考えます 4 つのタスクのひとつ確率分布そのものを用いた分析では確率分布そのものを用いてデータに対する知見を得ることが目的 1. パラメータ ( もしくは確率分布 P(Á(x)) の形 ) を鑑賞することによってデータ全体がどのような形で分布しているかを知る 2. 2 つのデータ集合から推定された 2 つの確率分布が異なるか異なるとしたらどのように異なるのかを調べる多次元正規分布モデルの場合精度行列の各要素は任意の 2 要素の積にかかる係数であるから要素間の直接的な関係を表しているこの要素間の関係は精度行列の非零要素の数つまり直接的な関係の数が尐ない方が解釈が容易になるそのため今回は精度行列が疎 ( 多くの要素が 0) で要素間の関係がよりはっきりと示されているような多次元正規分布を扱う 5

一般にパラメータがグラフ構造 ( 疎な構造 ) をもつと解釈できるようなモデルをグラフィカルモデルと呼びます ( 多次元正規分布に限らず ) 一般に疎なパラメータ構造をもちその構造がある種のグラフ構造として解釈できるような確率モデルをグラフィカルモデルと呼ぶ連続の場合の代表的モデル : グラフィカルラッソ ( 疎な多次元正規分布 ) 離散の場合の代表的モデル : ベイジアンネットワーク広い意味では教師つき学習のところで紹介した条件付き確率場 ( CRF) もグラフィカルモデルの範疇に入る 6

グラフィカルラッソ 7

精度行列の最尤推定量は通常密になります多次元正規分布の精度行列を観測されたデータからの最尤推定する方法については以前述べたたとえ真の精度行列が疎である場合でも通常は推定された精度行列は密になってしまう精度行列を用いた多次元正規分布の密度関数 : パラメータ ¹ およびを訓練データ集合 {x (i) } i=1n から最尤推定によって求めることにするとその最適化問題は : このままでは精度行列の推定量 * が (=Σ *-1 ) 密行列になってしまう 8

精度行列の推定量を疎にするために L 1 正則化を行ったものをグラフィカルラッソと呼びますパラメータ ¹ およびを訓練データ集合 {x (i) } i=1n から最尤推定によって求めることにするとその最適化問題は : このままでは精度行列の推定量 * が密行列になってしまう精度行列の推定量 * を疎にするために精度行列について L 1 正則化を行うことにすると最適化問題は : k k 1 は行列の L 1 - ノルムであり以下のように各要素の絶対値の和 9

L 1 正則化を行うと精度行列の推定量は閉じた形では求まりません平均パラメータの推定量 ¹ * については正則化項が存在しないため最尤推定の場合と同じになりその推定量は : 全データの特徴ベクトルの平均一方で精度行列のほうは L 1 正則化項の存在により平均パラメータのように閉じた形では求まらない従ってグラフィカルラッソの本質はいかにして精度行列の推定を行うかということになる 10

グラフィカルラッソの目的関数はシンプルに書けますについてのみ最適化することにして多次元正規分布の密度関数の定義を代入して書き下すと : この最適化問題の目的関数は以下のように書き換えられる : ここで以下を使った : 標本分散共分散行列 S: 11

グラフィカルラッソのアルゴリズム 12

まずは目的関数を精度行列で微分しますグラフィカルラッソの目的関数を最大化するを求めたい実はこの最適化問題は精度行列についてではなくその逆行列である分散共分散行列 Σ = -1 について解くことになるこの目的関数をの各 (k,l)- 要素 [ ] k,l で微分すると : ここで行列の微分の公式をもちいた : と Σ の逆行列を通じた等価性からの式において ( についての微分 )=0 の成立は対応する Σ が最適解であることも意味する 13

対角成分は閉じた形で求まりますまず微分をの対角成分についてみてみる精度行列は正定行列であることに注意するとその対角成分は必ず正つまり [ ] k,k >0 であることから微分の対角成分は : これを 0 と置くと分散共分散行列 Σ の対角成分を閉じた形で得る : これで分散共分散行列 Σ の対角成分については最適解が求まった今後は Σ の非対角成分についてのみの最適化を考えればよい 14

非対角成分は閉じた形で求まりませんが実は L 1 正則化回帰 ( の繰り返し ) に帰着されます分散共分散行列 Σ の対角成分以外の成分の最適解を求める精度行列の最適解は = Σ -1 の関係によって自動的に定まるしかし対角成分全てについての最適化は難しいそこで分散共分散行列のある行 ( 対称なのである列としても同じ ) のみについての最適化を行いこれを選ぶ行を変えながら繰り返すという戦略をとることにするこれから示すように実は分散共分散行列のある行 ( 列 ) についての最適化は回帰問題のときに紹介した L 1 正則化回帰に帰着されることがわかる 15

分散共分散行列を部分的に最適化するため各行列の分割を考えます分散共分散行列を部分的に最適化するため分散共分散行列の分割を考える : は (D-1) (D-1) の行列は長さD-1のベクトル ¾ D はスカラー Σ の最後の行 ( 列 ) について最適化するとすればは定数であり ¾ D は対角成分なので既に最適解が求まっており定数とみなせる従ってここでパラメータはとなる Σと同様に精度行列と標本分散共分散行列の分割をそれぞれ : 16

分散共分散行列と精度行列の関係式がブロックごとに導かれます Σ = I であることから分割した行列の各ブロックについて : 特に右上のブロックから : すなわち : 17

分散共分散行列の現在注目しているブロックが最適解になる条件を導きます先の微分の ( 精度行列の現在注目しているブロック ) に関連する部分だけを取り出すと : となっているのでここからを ( 前頁 ) を用いて消去すれば : 結果微分が ( と D) によって表されるこれが =0 になるのが最適解の条件しかしこのままでは場合分けの条件式がややこしい 18

パラメータを置き換えて最適解の条件を簡単に書きますこの微分を簡単にしたい : 新たなパラメータを導入する : つまり : であることまた精度行列は正定であるのでその対角成分である D は正であることに注意すると微分の式は : のみを使って書くことができる場合分けの丌等式の向きが変わったことに注意する 19

同じ微分をもつ別の最適化問題に書き換えます最終的に得られた微分 : これは以下の目的関数のについての微分と一致する : もともとの最大化問題の目的関数をの関数としてみたものとこの最小化問題の目的関数は同一連続で微分丌可能な点が同じでそれ以外の場所では微分が一致つまりもともとの目的関数のかわりに新たな目的関数を用いてを求めても差し支えないということを意味する 20

新しい目的関数を変数ごとに最適化することを考えますさらに目的関数 : をの第 k 成分 [ ] k についてのみ最適化することを考える目的関数を [ ] k についての関数だと思って整理すると : 21

ちょうどL 1 正則化回帰のときに出てきた目的関数と同じ形であることに気付きます結局 [ ] k の最適解 [ ] k* は以下の最適化問題を解くことで求まるこれはまさに L 1 正則化回帰の次元ごとの逐次解法のときに出てきた最適化問題と同じ形をしている 22

L 1 正則化回帰のときの解を利用して解を導きます L 1 正則化回帰の次元ごとの逐次解法のときに出てきた最適化問題 : この解は : これを利用するといま解きたい最適化問題 : の最適解 [ ] k* は : これを k を変えながら繰り返すことによってが求まる 23

L 1 正則化回帰を繰り返すことによってグラフィカルラッソの推定ができます一旦が得られるとを用いてを求めることができるこの一連の手続きによって Σ の最後の行 ( 列 ) を求めるのがグラフィカルラッソのアルゴリズムにおける 1 ステップであるこのステップを行 ( 列 ) の順番を入れ替えて最後にくるものを適当に変えながら繰り返し行い収束するまで繰り返すつまり L 1 正則化回帰問題を繰り返し解くグラフィカルラッソのアルゴリズムは : ブロック分割で最後にもってくる行 ( 列 ) を変えながら最後の行 ( 列 ) についての最適化を繰り返す外側のループ最後の行 ( 列 ) についての最適化を行うためにのある次元についての最適化を選ぶ次元を変えながら繰り返す内側のループの 2 つのループで構成されている 24

このアルゴリズムは逆行列の計算を必要としないため効率的ですこのアルゴリズムの効率的なところは Σ = -1 という関係をもつ 2 つの行列 Σ とを扱っていながら逆行列の計算がまったく出てこないところである Σ = I をブロック分割した式 ( 右上と右下 ) およびの連立方程式を解くことでからの最後の行 ( 列 ) が求まる : また得られた解は条件 Σ = I を満たすように作られるため得られる Σ とは正定であることが保証される 25