0 部分的最小二乗回帰 Parial Leas Squares Regressio PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌
部分的最小二乗回帰 (PLS) とは? 部分的最小二乗回帰 (Parial Leas Squares Regressio, PLS) 線形の回帰分析手法の つ 説明変数 ( 記述 ) の数がサンプルの数より多くても計算可能 回帰式を作るときにノイズの影響を受けにくい 説明変数の間の相関が高くても対応可能 主成分分析をしたあとの主成分と目的変数との間で最小二乗法を うのは主成分回帰 (PCR) であり PLS とは異なるので注意 PLS 回帰とか PLSR とも呼ばれているが ここでは PLS
どうして PLS を使うの? 多重共線性 多重共線性の問題 説明変数の間に強い相関がある場合 回帰係数が不安定になる わずかなデータの変化 ( 追加 削除 ) で回帰係数が大きく変わってしまう 赤い線を中心に回帰平面が回りやすい 回帰係数が変わりやすい x x
多重共線性への対策 3 事前に共線性のある変数 ( 記述 ) を削除 変数選択 必要な変数 ( 記述 ) を取り除いてしまう危険もある X を無相関化 ( 相関係数 0 に ) してから重回帰分析 X の情報の一部のみを使用して重回帰分析 主成分分析 (Pricipal Compoe Aalsis, PCA) + 重回帰分析 主成分回帰 (Pricipal Compoe Regressio, PCR) 重回帰分析についてはこちら PCA についてはこちら
主成分回帰 (PCR) 4 主成分回帰 (Pricipal Compoe Regressio, PCR) 説明変数のデータ X のみを用いて主成分分析を い主成分 を得る の成分 ( 変数 ) の間は無相関 と目的変数 との間で最小二乗法による重回帰分析 説明変数 ( 記述 ) 目的変数 ( 物性 活性 ) 通常の重回帰分析 サンプル X 最小二乗法 PCR X 成分抽出 (PCA) 主成分 最小二乗法
PCR と PLS との違い 5 PCA 主成分 の分散 ( ) が最大になるように主成分を抽出 PLS 主成分 と目的変数 との共分散 ( ) が最大になるように主成分を抽出 共分散大きい 共分散小さい 0 0 - - - - 0 - - 0
PLS の概要 6 PCA 主成分 の分散 ( ) が最大になるように主成分を抽出 PLS 主成分 と目的変数 との共分散 ( ) が最大になるように主成分を抽出 説明変数 ( 記述 ) 主成分 サンプル X 成分抽出 最小二乗法 の情報
PLS の基本式 ( は 変数 ) 7 X はオートスケーリング後 ( 平均 0 標準偏差 ) オートスケーリングについてはこちら A X p + E P + a a a E A a aq a + f q + f A : PLS の成分数 a : a 番目の主成分 p a : a 番目のローディング E : X の残差 q a : a 番目の係数 f : の残差 列の表し やローディングについてはこちら
成分の PLS モデル 8 PLS モデル式 X p + E + f q は X の線形結合で表わされると仮定 Xw w a : a 番目の重みベクトル大きさ ( ノルム ) は とする w
の計算 との共分散の最大化 9 との関連性が大きい を抽出したい と の共分散 を最大化するよう を求める オートスケーリングしているため X と は平均 0 ただし w ( 制約条件 )
の計算 Lagrage の未定乗数法 0 制約条件がある中での最大化 Lagrage の未定乗数法 μ を未知の定数として 下の G を最大化 G Xw µ ( ) w ( ) µ w
の計算 G の最大化 : データ数 d : 説明変数の数 ( ) G,,, d i d i i w w x µ µ w Xw G は w の関数 0 G,,, i i i w x w µ : 変数番号 G が最大値のとき G を w の要素ごとに偏微分した値は 0
の計算式変形 i x µ w 0 より ixi, µ w, i i,, i w, を両辺に掛けると i x w µ w i i,,, について から d まで和を取る ( 制約条件を使って w が消える ) i d i x i, w, µ よって µ
の計算 w の計算 3 i ixi w,, µ より w, i i µ x i, μ は の値 w の大きさ ( ノルム ) は より w X X w が得られた後 も計算 Xw
p と q の計算 4 p は X の残差 E の要素の二乗和が最小になるように求める ( 最小二乗法 ) p X q は の残差 f の要素の二乗和が最小になるように求める ( 最小二乗法 ) q
成分の PLS モデル 5 PLS モデル式 p + p E q + q + f X + X X p q X : X の中で 成分のPLSモデルでは説明できない部分 : の中で 成分のPLSモデルでは説明できない部分 X は X の線形結合 w ただし w の大きさ ( ノルム ) は w
w p q の計算 6 との関連性が大きい を抽出したい と の共分散 を最大化するよう を計算する 成分の時と同様にして w X X Xw p X q 3 成分以降も同様に計算する
何成分まで用いるか? 7 多くの成分を用いるとモデルの 由度が大きく ( モデルが複雑に ) なり 過学習の恐れがある 過学習 : モデル構築用データには回帰式 ( 回帰モデル ) がよく当てはまるが 新しいデータに対する予測誤差が大きくなってしまうこと 予測性の高いモデルが得られる適切な成分数を選択 クロスバリデーション
クロスバリデーション 8 例 ) 3-fold クロスバリデーション 変数 X p サンプル X X X3 3 3 p 3 p 比較 3 X X 3 X3 3 X X3 3 X X3 モデル 3 p X モデル p X モデル 3 p
r CV ( 予測的説明分散 ) 9 クロスバリデーションによる予測値を用いた説明分散 r Leave-oe-ou クロスバリデーション N-fold クロスバリデーションなど モデルの予測性を表す指標 に近いほど良い (i) :i 番目のサンプルにおける目的変数の値 r i CV i ( ( i) ( i) ) CV ( ( i) ) A CV (i) :i 番目のサンプルにおけるクロスバリデーションによる目的変数の推定値 A : 目的変数の平均値 : サンプル数
成分数の決め 0 例 ) r CV 値を指標にして判断 r CV 値が最大値を取る成分数 r CV 値が最初の極大値を取る成分数 r CV 値の上昇が最初に 0.03 以下となる成分数 r ( ) r CV( 赤 ) モデル構築用データに対する性能は高くなっているが 予測性能は低下 過学習が起きている 成分数
Roo Mea Squared Error (RMSE) : 誤差の指標 RMSE C (RMSE of Calibraio) の計算値 RMSE C ( ( i ) ˆ ( i ) ) i r i ( ( i) ˆ ( i) ) ( ( i) ) i RMSE CV (RMSE wih Cross-Validaio) クロスバリデーションによる の予測値 RMSE CV ( ( i ) ˆ ( i ) ) CV i r i CV ( ( i) ˆ ( i) ) CV ( ( i) ) i データが同じであれば r, r CV が大きい RMSE C, RMSE CV が小さい