Microsoft PowerPoint - OsakaU_2methods.pptx

Similar documents
PowerPoint Presentation

Microsoft PowerPoint - IBIS2012_open.pptx

カーネル法による 非線形データ解析法

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

目次 ガウス過程 (Gaussian Process; GP) 序論 GPによる回帰 GPによる識別 GP 状態空間モデル 概括 GP 状態空間モデルによる音楽ムードの推定

カーネル法

…p…^†[…fiflF”¯ Pattern Recognition

Microsoft PowerPoint - 資料04 重回帰分析.ppt

(MIRU2008) HOG Histograms of Oriented Gradients (HOG)

24 SPAM Performance Comparison of Machine Learning Algorithms for SPAM Discrimination

HOG HOG LBP LBP 4) LBP LBP Wang LBP HOG LBP 5) LBP LBP 1 r n 1 n, 1

高次元データ スパース正則化学習法 最適化手法 proximal point algorithm 確率最適化手法 2

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

untitled

AI技術の紹介とセンサーデータ解析への応用

Microsoft PowerPoint - H21生物計算化学2.ppt

[1] SBS [2] SBS Random Forests[3] Random Forests ii

Microsoft PowerPoint - 10.pptx

kut-paper-template.dvi

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

カイ二乗フィット検定、パラメータの誤差


memo

Probit , Mixed logit

Microsoft PowerPoint - SSII_harada pptx

Convolutional Neural Network A Graduation Thesis of College of Engineering, Chubu University Investigation of feature extraction by Convolution

SAP11_03

FEM原理講座 (サンプルテキスト)

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

航空機の運動方程式

PowerPoint Presentation

09.pptx

..,,,, , ( ) 3.,., 3.,., 500, 233.,, 3,,.,, i

航空機の運動方程式

Vol.-CVIM-7 No.7 /3/8 NLPCA kernel PCA KPCA 4),) NLPCA KPCA NLPCA KPCA principle curve principle surface KPCA ) ),),6),8),),3) ) Jacobian KPCA PCA ) P

横浜市環境科学研究所

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

様々なミクロ計量モデル†

<4D F736F F D E4F8E9F82C982A882AF82E98D7397F1>

統計的データ解析

Presentation Title

Microsoft PowerPoint - H22制御工学I-2回.ppt

PowerPoint プレゼンテーション

Microsoft PowerPoint - mp11-06.pptx

& 3 3 ' ' (., (Pixel), (Light Intensity) (Random Variable). (Joint Probability). V., V = {,,, V }. i x i x = (x, x,, x V ) T. x i i (State Variable),

集中理論談話会 #9 Bhat, C.R., Sidharthan, R.: A simulation evaluation of the maximum approximate composite marginal likelihood (MACML) estimator for mixed mu

講義「○○○○」

(a) (b) (c) Canny (d) 1 ( x α, y α ) 3 (x α, y α ) (a) A 2 + B 2 + C 2 + D 2 + E 2 + F 2 = 1 (3) u ξ α u (A, B, C, D, E, F ) (4) ξ α (x 2 α, 2x α y α,

第6章 実験モード解析

Microsoft Word - 補論3.2

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

平成○○年度知能システム科学専攻修士論文

ベイズ統計入門

PowerPoint プレゼンテーション

Microsoft Word doc

Microsoft PowerPoint - mp11-02.pptx

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft PowerPoint - CSA_B3_EX2.pptx

Transcription:

カーネル法入門 2. さまざまなカーネル法 福水健次 統計数理研究所 / 総合研究大学院大学 大阪大学大学院基礎工学研究科 集中講義 2014 September 1

カーネル法のいくつかの例を通して, カーネル法の考え方を理解する, カーネル PCA カーネル CCA カーネルリッジ回帰 サポートベクターマシンの初歩 2

カーネル PCA 3

再掲 : カーネル PCA のアルゴリズム 中心化 Gram 行列 の計算 の固有分解 第 p 主成分方向 Φ Φ X (i) の第 p 主成分 4 N i T i i i X u u K 1 ~ 0 2 1 N 固有値単位固有ベクトル u N u u,, 2, 1 N b b i j i ij X X X k N X X k K 1 ) ( ) ( ) ( ) ( ), ( 1 ), ( ~ N b a b a N a j a X X k N X X k N 1, ) ( ) ( 2 1 ) ( ) ( ), ( 1 ), ( 1

カーネル PCA の例 Wine データ (UCI repository) 3 種類のイタリアワインに関する,13 次元の化学測定値 178 データ. クラスの情報はカーネルPCAには用いていない 4 3 Linear PCA 0.6 0.4 Kernel PCA (Gaussian kernel) ( = 3) 2 0.2 1 0 0-1 -0.2-2 -0.4-3 -0.6-4 -5 0 5-0.8-0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 5

Kernel PCA (Gaussian) 0.5 0.4 0.3 = 2 0.6 0.4 = 4 0.2 0.2 0.1 0 0-0.1-0.2-0.2-0.4-0.3-0.4-0.6-0.5-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4-0.8-0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 0.6 0.4 = 5 0.2 0 k G 2 ( x, y) exp x y 2-0.2-0.4-0.6-0.8-0.8-0.6-0.4-0.2 0 0.2 0.4 0.6 6

応用 : ノイズ削減 カーネルPCA をノイズ削減に応用 : 主成分 = 有益な情報, その他の方向 = ノイズ Surface of clean images 7

カーネル PCA の適用 : d 個の主成分方向が張る d 次元部分空間 G x : x の V d への正射影 = ノイズ除去された特徴ベクトル. 原像問題 : を近似する特徴ベクトル Φ を与える原像 を求める. xˆ arg min ( x) G x x 2 10 8 6 4 2 (x) G x 0 G x は の像に入っているとは限らない. -2-4 -6-8 -10-25 -20-15 -10-5 0 5 10 15 20 20 0-20 8

USPS データ Original data (NOT used for PCA) Noisy images Noise reduced images(linear PCA) Noise reduced images (kernel PCA, Gaussian kernel) (Generated by Matlab stprtool by V. Franc) 9

カーネル PCA の特徴 非線形な次元削減 : 非線形特徴を捉えることが可能. 識別などさらなる解析の前処理として用いることも多い ( 次元削減 / 特徴抽出 ) 結果はカーネル ( あるいはパラメータ ) に大きく依存する. 線形 PCA のように, 軸に対する解釈を与えることは容易ではない. カーネル / パラメータをどのように決めるか? Cross-validationの適用はそのままではうまくいかない. 前処理として用いる場合は, 最終的な結果のよさをcross- vaildationなどで測れる場合がある. 10

カーネル正準相関分析 11

正準相関分析 正準相関分析 Canonical correlation analysis (CCA, Hotelling 1936) 2つの多次元の変数の線形相関を見る方法. Data,,,, : m- 次元, : l- 次元 と の相関が最大になるように, ベクトル, を求める. max Corr[ a T X, b T Y ] max Cov[ a Var[ a X, b Y ] X ] Var[ b a, b a, b T T Y T T ], X a a T X b T Y b Y 12

CCA の解法 max, subject to 1. 一般化固有問題に還元される : [ 演習問題 : これを導出せよ. ( ヒント. Lagrange 乗数法を用いよ.)] 解 : / /, ( ) は / / の最大特異値に対する左 ( 右 ) 単位固有ベクトル. 13

カーネル正準相関分析 カーネル CCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) 線形相関だけでなく, 依存性 / 関連性が調べられる. データ :,,,, 任意の確率変数 ( とは限らない ) カーネル, を決め, 特徴ベクトルに CCA を施す.,, Φ,,,Φ,,, Φ,,Φ. max, Cov, Var Var, Φ Φ, max,, Φ, Φ X x f x (X) f (X ) g(y ) g y (Y) y Y II-14

Φ, Φ としてよい. max, (kernel PCA と同じ ), : 中心化 Gram 行列 正則化が必要 : 自明な解,, Φ Φ, max,, Φ, Φ ( 推定量は一致性を持つ. Fukumizu et al JMLR 2007) 解 : 一般化固有値問題 15

KCCA の応用 テキストからの画像検索の問題 (Hardoon, et al. 2004). X i : 画像, Y i : 対応するテキスト ( 同じウエブページから採取 ). KCCAによって,d 個のベクトル f 1,,f d と g 1,,g d を取る. これらは,X と Y が最も依存するような特徴空間の部分空間を張る. 新しい単語 に対し, 最も内積の値が大きくなる画像を結果として返す. X i x x (X i ) f f f 1, d x, ( X x i ( X i ) ) g1, g d, y y ( Y ) ( Y) g y (Y) y Y at phoenix sky harbor on july 6, 1997. 757-2s7, n907wa,... 16

例 : 画像 : ガウスカーネル テキスト : Bag-of-words カーネル ( 単語の頻度 ). Text -- height: 6-11, weight: 235 lbs, position: forward, born: september 18, 1968, split, croatia college: none 検索された画像の結果 ( トップ5) 17

脳信号への応用 18

カーネルリッジ回帰 19

リッジ回帰,,,, : (, ) リッジ回帰 : 線形回帰 2ノルムによる正則化 min ( 定数項は簡単のため省略して書く ) 解 (2 次関数の最適化 ): ここで,, リッジ回帰は, が特異な ( または特異に近い ) 場合によく用いられる. -- 共線性への対処 20

カーネルリッジ回帰,,,, : 任意の変数,. リッジ回帰のカーネル化 : に対するカーネル を用いる equivalently, min, Φ min Ridge regression on Nonlinear ridge regr. 21

解は特徴ベクトルの線形和の形 Φ とおく. ( Φ, : 直交補空間の成分 ) このとき, 目的関数 =,Φ c j ( X j ),,Φ ) 第 1 項は に依存しない. 第 2 項は 0 のとき最小. f n j1 目的関数 : 解 :,, 22

正則化 最小化問題 min は, 誤差 0が可能. しかし, 無数に解を持ち得る. 正則化 min 関数が滑らかになりやすい罰則項がよく用いられる. 滑らかさとRKHSノルムとの関係は Chapter 3 を参照. 23

比較実験 カーネルリッジ回帰 vs 局所線形回帰 1/1.5, ~ 0,, ~ 0, 0.1 = 100, 500 runs カーネルリッジ回帰 Gaussカーネル局所線形回帰 Epanechnikovカーネル * (R locfit ) Mean square errors 0.012 0.01 0.008 0.006 0.004 Kernel method Local linear バンド幅はともに Cross-vaildation で選択. 0.002 0 1 10 100 Dimension of X *Epanechnikov カーネル = 1 24

局所線形回帰 (e.g., Fan and Gijbels 1996) : 平滑化カーネル / Parzen ウィンドー ( 0, 1, 正定値性は仮定しない ) 局所線形回帰 is estimated by min, 各 に対して最適化問題を解く. 最適化は重み付最小 2 乗誤差問題として陽に解ける. 推定量の統計的性質は詳しく調べられている. が1 次元の時, 局所線形回帰はよい結果を与える. 一般に局所多項式回帰は理論的な最適性を有している. しかし, 高次元データ (5,6 次元以上 ) に弱いことが知られている. 25

Epanechnikov カーネル 3 4 1, 26

Nonparametric regression: theoretical comparison Kernel ridge regression Convergence rate (Eberts & Steinwart 2011) If is Gaussian, and, (under some technical assumptions) for any > 0, Note: (Stone 1982). is the optimal rate for a linear estimator. * : Sobolev space of order. Local polynomial fitting attains this rate if the degree of polynomial is sufficient. 27

Support Vector Machine 28

2 値識別問題 訓練データ 線形識別線形関数目的関数 29 ) ( ) ( 1 (2) (2) 1 (1) (1) 1 N m N m m X X X X X X X Input data N N Y Y Y Y } 1 { ) ( (2) (1) Class label ) sgn( ) (, b x w x h T b w ) ( ) (, ) ( i i b w Y X h for all (or most) i.

マージン最大化 仮定 : 線形識別可能. ある, があって sgn. 一般に解は一意ではなく無数にある ( 連続濃度 ). どのように決めるか? マージン最大化規準 : マージンを最大にする線形識別関数を選択する. マージン = 方向で測った時の2つのクラスの距離. 識別境界は,2つのクラスまでの距離の中間. 30

Hyperplane with small margin 8 6 4 support vectors 2 0-2 -4 w Hyperplane with largest margin -6-8 -8-6 -4-2 0 2 4 6 8 31

マージンの測り方スケールを固定するため以下のように正規化する min 1 for the closest point with 1, min 1 for the closest point with 1. このとき, マージン 1 8 6 4 w 2 [ 演習問題 : これを示せ ] 0-2 -4-6 1-8 -8-6 -4-2 0 2 4 6 8 32

マージン最大化識別器 : max subject to 1 1 1 1 以下と同値 min, subject to 1. 線形サポートベクターマシン ( ハードマージン ) 2 次計画 (QP): 線形不等式制約のもとでの2 次関数の最小化. 凸最適化. 局所解がない! QP ソルバーは多くのソフトウエアパッケージで提供されている. 33

global minimum local minimum Non-convex function Quadratic Program (convex program) 34

ソフトマージン SVM 線形識別可能という仮定は非現実的 緩和ハードな制約 : 1 ソフトな制約 : 1, 0. マージン最大化線形識別器 ( ソフトマージン ) min,, subj. to 1, 0. 最適化はやはりQP. はハイパーパラメータ. ユーザが決定する必要がある. 35

8 1 6 1 4 2 0-2 -4-6 -8-8 -6-4 -2 0 2 4 6 8 36

SVM のカーネル化 線形 SVM のカーネル化,,,, : 訓練データ : 集合 の元.( 任意の型, ベクトルでなくてもよい ) 1, 1 :2 値 : 上の正定値カーネル. : の定めるRKHS. Φ, : 特徴ベクトル. 特徴空間上の線形識別器 : sgn, Φ c.f. f T ( x) sgn( w x b) 37

SVM の目的関数 min,, subj. to 1 0. Representer 定理 ( 後述 ) 最適な は以下の形で探せば十分, Note:,,,. 38

SVM ( カーネル版 ) min,,, subj. to 0., 1 最適化はやはりQP. 双対問題のほうが容易に解ける (Chap. 5). ハイパーパラメータ とカーネルのパラメータは,cross-validationで選択する場合が多い. 39

SVM と正則化 ソフトマージン SVM は次の正則化問題と同値 ( 1/): where min, 1 max, 0. max(z,0) 0 z 40

証明 SVMの最適化問題 min, min, subj. to 1, 0. subj. to max1,0. min, 1 min 1 ( 1/) 41

正則化 不良設定問題 : min が広い関数クラスから選ばれると多くの が誤差 0を与える, 正則化 min 解が一意になる. 滑らかな関数のノルムが小さくなるように正則化することが多い. 42

SVM のデモ 多くのソフトウエアが公開されている. LibSVM etc JavaScriptの例 http://mine-weblog.blogspot.jp/2012/09/svm-demo.html 43

応用 : 手書き数字認識 MNIST: 手書き数字データベース 28 x 28 ピクセルの2 値画像. 60000 訓練データ 10000 テストデータ Methods Error rates K-NN 5.0 10PCA + Quad 3.3 RBF network 3.6 LeNet 4 1.1 LeNet 5 0.95 SVM Poly 4 1.1 RS-SVM Poly 5 1.0 Y. LeCun et al. (2001) in Intelligent Signal Processing. 44

交差検証法 Cross-validation クロスバリデーション (CV): 未知データに対する識別 / 予測の誤差を推定する手法. K-fold CV データを ( ランダムに ) 個に分割する. For 1,, 第 グループをテストデータに残し, 他のデータで学習. 第 グループに対するテスト誤差を測る. 個の誤差を平均. Leave-one-out CV (LOOCV). 1,, に対し, 第 データ以外で学習し, 第 データに対する誤差を測る. 個の誤差を平均. 45

46

SVM のまとめ マージン最大化 ベイズ最適ではないが, 他のよい点を持っている. カーネル法 非線形識別器への発展が容易. 2 次計画 : 最適化問題は標準的な QP. ソフトウエアパッケージが利用可. スパース表現 : 識別器は, 少数のサポートベクターにより表現される (Chap.4 で説明 ) 正則化 ソフトマージン SVM の目的関数は正則化として表現できる. 47

Representer 定理 48

Representer 定理 カーネル法での最適化問題 カーネルリッジ回帰 SVM min min 1 カーネルPCA min Ω 解は の形をとることをすでに見た Ω 0, if 0,1, if 1, 49

一般的定式化,, Ω ;,, Ω : データ :Ω 上の正定値カーネル, : の定めるRKHS,, : 固定の関数 ( 定数部分など ) Ψ :0, : 正則化のための単調増加関数一般的最適化問題 min, ;, Ψ 定理 2.1 (Representer 定理 ) 上の仮定のもと, 最小化問題の解は, の形で十分である. さらに Ψ が狭義の増加関数の場合, この形に限られる. Representer 定理により, 関数空間での最適化が有限次元 ( データ数 ) の最適化に還元される. 50

証明 : Span,,,,, をその直交補空間として, と直交分解する. この分解にしたがって, を と分解すると,,, 0により, 目的関数 の値は を に置き換えても変化しない. 一方, より, Ψ Ψ が成り立つ. したがって, の元によって解が与えられる. 51

カーネルの選択 カーネル法の結果の良否は, 用いるカーネルに強く依存する. カーネルの選択 : ガウス, ラプラス, 多項式? パラメータの選択 : e.g. exp のバンド幅 問題の性質に適したカーネルを用いる周波数特性, 構造化データ,etc 教師あり学習 (SVM, カーネルリッジ回帰, etc) Cross-validationが有効 ( 計算量が許せば ) 教師なし学習 ( カーネルPCAなど ) 標準的方法はない. 関連する教師あり学習を作成すれば,cross-validationが使える. 52

カーネルの学習 Multiple Kernel Learning 複数のカーネルの凸結合 ( 線形結合 ) を考え, その係数も最適化する,,, 53

まとめ 54

カーネル法の一般的性質 効率的計算による非線形特徴の抽出元の空間が高次元でも, 計算量が増大しない特別な特徴写像を用いる カーネルトリック正定値カーネルを特徴写像に用いることより, 特徴ベクトルの内積が容易に計算できる. Representer 定理殆どのカーネル法は, 解が特徴ベクトルの線形和の形で表現可能. 従って, データ数の個数のパラメータ最適化問題に変換される. グラム行列による計算カーネルトリックとRepresenter 定理により, 必要な計算はグラム行列の処理に還元される. 従って, データ数に依存する計算量となる. 非ベクトルデータカーネル法は, 正定値カーネルが定義されれば, 任意の集合に対して適用できる. 構造化データ解析 (Chap. 5) 55

その他のカーネル法 カーネルK-means クラスタリング特徴空間でK-meansクラスタリングを行う. カーネル Partial Least Square 非線形回帰であるPLSのカーネル化 カーネルロジスティック回帰ロジスティック回帰のカーネル化 サポートベクター回帰回帰問題へのSVMの拡張 1-クラスサポートベクターマシン密度関数のレベル集合の推定へのSVMの拡張 etc. 56

References 福水 カーネル法入門 3 章朝倉書店 2010 Schölkopf, B., A. Smola, and K-R. Müller. (1998) Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 10:1299 1319. Akaho. (2000) Kernel Canonical Correlation Analysis. Proc. 3rd Workshop on Inductionbased Information Sciences (IBIS2000). (in Japanese) Bach, F.R. and M.I. Jordan. (2002) Kernel independent component analysis. Journal of Machine Learning Research, 3:1 48. Melzer, T., M. Reiter, and H. Bischof. (2001) Nonlinear feature extraction using generalized canonical correlation analysis. Proc. Intern. Conf..Artificial Neural Networks (ICANN 2001), 353 360. Fukumizu, K., F. R. Bach and A. Gretton (2007). Statistical Consistency of Kernel Canonical Correlation Analysis. Journal of Machine Learning Research 8, 361-383. Hardoon, D.R., S. Szedmak, and J. Shawe-Taylor. (2004) Canonical correlation analysis: An overview with application to learning methods. Neural Computation, 16:2639 2664. Fan, J. and I. Gijbels. Local Polynomial Modelling and Its Applications. Chapman Hall/CRC, 1996. 57

Boser, B.E., I.M. Guyon, and V.N. Vapnik. A training algorithm for optimal margin classifiers. In D. Haussler, editor, Fifth Annual ACM Workshop on Computational Learning Theory, pages 144 152, Pittsburgh, PA, 1992. ACM Press. Boser, B.E., I.M. Guyon, and V.N. Vapnik. A training algorithm for optimal margin classifiers. In D. Haussler, editor, Fifth Annual ACM Workshop on Computational Learning Theory, pages 144 152, Pittsburgh, PA, 1992. ACM Press. Vapnik, V.N. The Nature of Statistical Learning Theory. Springer 1995. Cristianini, N., J. Shawe-Taylor. An Introduction to Support Vector Machines. Cambridge Univ. Press. 2000 Dhillon, I. S., Y. Guan, and B. Kulis. (2004) Kernel k-means, spectral clustering and normalized cuts. Proc. 10th ACM SIGKDD Intern. Conf. Knowledge Discovery and Data Mining (KDD), 551 556. Mika, S., G. Rätsch, J. Weston, B. Schölkopf, and K.-R. Müller. (1999) Fisher discriminant analysis with kernels. In Y.-H. Hu, J. Larsen, E. Wilson, and S. Douglas, edits, Neural Networks for Signal Processing, volume IX, 41 48. IEEE. Rosipal, R. and L.J. Trejo. (2001) Kernel partial least squares regression in reproducing kernel Hilbert space. Journal of Machine Learning Research, 2: 97 123. 58

Roth, V. (2001) Probabilistic discriminative kernel classifiers for multi-class problems. In Pattern Recognition: Proc. 23rd DAGM Symposium, 246 253. Springer. Crammer, K. and Y. Singer. On the algorithmic implementation of multiclass kernelbased vector machines. Journal of Machine Learning Research, 2:265 292, 2001. Schölkopf, B., J.C. Platt, J. Shawe-Taylor, R.C. Williamson, and A.J.Smola. (2001) Estimating the support of a high-dimensional distribution. Neural Computation, 13(7):1443 1471. 59