. カーネル法への招待 正定値カーネルによるデータ解析 - カーネル法の基礎と展開 - 福水健次統計数理研究所 / 総合研究大学院大学 統計数理研究所公開講座 0 年 月 34 日
概要 カーネル法の基本 線形データ解析と非線形データ解析 カーネル法の原理 カーネル法の つの例 カーネル主成分分析 : PCA の非線形拡張 リッジ回帰とそのカーネル化
概要 カーネル法の基本 線形データ解析と非線形データ解析 カーネル法の原理 カーネル法の つの例 カーネル主成分分析 : PCA の非線形拡張 リッジ回帰とそのカーネル化 3
データ解析とは? Anlyss of dt s process of nspectng clenng trnsformng nd modelng dt wth the gol of hghlghtng useful nformton suggestng conclusons nd supportng decson mkng. Wkped 4
線形データ解析 データは数値の テーブル として与えられることが多い. 行列表現 m m m m dmensonl dt データ解析には線形代数が主な数学的道具 相関 Correlton 線形回帰 Lner regresson nlyss 主成分分析 Prncpl component nlyss 正準相関分析 Cnoncl correlton nlyss etc. 5
Exmple : Prncpl component nlyss PCA... : m- 次元のデータ PCA: 分散が最大になるように d- 次元の部分空間へ射影する 6
第 主軸 Generl soluton: u... u : V の固有ベクトル 固有値の降順 第 p 主軸 u p の第 p 主成分 u p PCA 固有値分解 線形代数 7 ] rgmx Vr[ ] [ Vr. V V 標本 共分散行列
Exmple : Lner clssfcton 値識別線形識別関数による方法 : so tht Exmple: Fsher 線形判別分析 線形 サポートベクターマシン etc. 8 m m m Input dt } { ± Clss lel x x h + sgn h for ll or most.
線形で十分か? lnerly nseprle lnerly seprle 6 4 5 0 5 x 0 - trnsform z 3 0-5 -0-5 0 5 0-4 x -6-6 -4-0 4 6 z 0 5 0 0 5 0 z 5 z z z3 x x xx Uncler? Wtch the followng move! http://p.youtue.com/wtch?v3lcrzprza 9
Another exmple: correlton ρ Cov[ ] E[ E[ ] E[ ]] Vr[ ] Vr[ ] E E[ ] E E[ [ ] [ ] ] 3 ρ 0.94 0 - - -3-3 - - 0 3 0
.5.5.5 ρ 0.5 0.7.5 0.5 ρ 0.96 0 0-0.5 -.5 - -0.5 0 0.5.5-0.5 0 0.5.5.5 trnsform データの非線形変換によって高次モーメントを抽出するアプローチが有効そうである.
データの非線形変換 Anlyss of dt s process of nspectng clenng trnsformng nd modelng dt wth the gol of hghlghtng useful nformton suggestng conclusons nd supportng decson mkng. Wkped. カーネル法 データの非線形性あるいは高次の情報を扱うための非線形変換の系統的方法論.
概要 カーネル法の基本 線形データ解析と非線形データ解析 カーネル法の原理 カーネル法の つの例 カーネル主成分分析 : PCA の非線形拡張 リッジ回帰とそのカーネル化 3
カーネル法の概観 Ω x x データの空間 特徴写像 φ x φ x H k 特徴空間 特徴空間で線形のデータ解析を行う! e.g. SVM どのような変換 特徴写像 がよいか? 元のデータのさまざまな非線形性が抽出できる. 特徴空間で 内積が計算しやすい. 多くの線形データ解析手法は 内積計算に拠っている. 4
計算論的な問題 もちろん高次項を並べてもよいが Z Z Z Z Z 元のデータが高次元だと計算量爆発! e.g. 元のデータが 00 次元のとき 3 次まで取ると 特徴ベクトルの次元は 00C + 00 C + 00 C 3 66750. 現在の計算機を持ってしても 行列演算は困難. より効率的な方法 カーネル法. 5
正定値カーネルによる内積計算 特徴写像 : : Ω H 特徴写像をうまく選択すると 特徴空間での内積が正定値カーネル kx y により与えられる k kernel trck. 多くの線形データ解析手法では 内積の値のみが必要で 特徴ベクトル の形は知らなくてもよい. e.g. PCA. 後述 6
概要 カーネル法の基本 線形データ解析と非線形データ解析 カーネル法の原理 カーネル法の つの例 カーネル主成分分析 : PCA の非線形拡張 リッジ回帰とそのカーネル化 7
PCA: 線形の次元削減法. PCA から Kernel PCA へ Kernel PCA: 非線形な次元削減法 Schölkopf et l. 998. Revew of PCA mx : Vr[ ] PCA の計算 方向ベクトル とデータの内積 目的関数の最適化 固有値問題に還元される 8
特徴空間での PCA 特徴ベクトル : 仮定 : 特徴空間 H は内積 を持ち 特徴ベクトルの内積が k kernel trck により計算可能 目的関数 : mx f : Vr[ f ] f: 特徴空間 H 内での方向ベクトル ただし { } f 9
解は次の形で十分 f c... 空間 H を特徴ベクトルの張る部分空間 H 0 と その直交補空間 H 0 に直交分解 : H H H 0 0. 方向ベクトル f を f g + h g H0 h H0 と表わすと 目的関数は mx { } f f mx { } g g + h h 0 の時が最適. 0
内積計算 : ノルム 分散 目的関数 Kc c f k k K + k k 中心化グラム行列 centered Grm mtrx c K c c f c K c mx suect to* c Kc Kernel PCA: c f * suect to は 最適化問題で制約条件を書くときの慣用句.
Kernel PCA も固有値問題に還元される Kernel PCA アルゴリズム 行列 K K の計算 の固有値分解 K λ u u λ λ λ 0 egenvlues u u u unt egenvectors 第 p 主軸 f p の第 p 主成分 f p c p c λ u p p p λ p u p
内積計算のチェック : for 3 Kc c f c K c f c c c c f. : K を展開せよ. c f K + + k k k k 上と同様に計算できる [Exercse]
4 リッジ回帰 線形回帰 復習 問題データ行列最適解最適な関数 m m m R R m w f mn を達成する線形関数 f w x w x w ˆ x x f w ˆ
リッジ回帰 Rdge regresson 問題 mn f w w + λ を達成する線形関数 fwx w x 最適解は 最適な関数は wˆ + λi fw ˆ x + λi x リッジ回帰は が特異また特異に近いときによく使われる. Byes 的な解釈もできる 正則化 : 後述 5
リッジ回帰のカーネル化 Dt: : 任意の集合 Ω に値を持つ. R 特徴写像 仮定 : 特徴空間 H は内積を持ち 特徴ベクトルの内積が k により計算可能 kernel trck 特徴空間 H におけるリッジ回帰 mn f H f + λ f H 6
最適解 : は以下の形を持つ f c データ { } の張る H の部分空間を H 0 直交補空間を H とするとき f h 0 + h の分解で 目的関数の第 項は h 0 のみに依存. 第 項は f h 0 + h により h 0 のときが最適. 内積計算 乗ノルム : 線形関数 : f c Kc K k グラム行列 f c Kc カーネルリッジ回帰 最適解 mn c R Kc f x K + λi [Exercse] 導出を確認せよ. + λc Kc k x k x k x k x 7
カーネル法の原理 特徴写像によって 内積 を持つ特徴空間 Hにデータを写像する. { } 特徴ベクトルに H 上で線形の解析手法を適用する. 多くの場合 最適解 H の元 は次の形を持つことがわかる. f c 問題は 内積 を用いて表現される. カーネル法では 上の内積が k kernel trck によって効率的に計算される. 基底による展開や表示は必要ない. 8
Queston: カーネルトリック x y k x y を満たすような 特徴写像 と k はどのようなものか? 正定値カーネル 9