0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理学部応用化学科データ化学学研究室弘昌

0 部分的最小二乗回帰 Parial Leas Squares Regressio PLS 明治大学理学部応用化学科データ化学学研究室弘昌

部分的最小二乗回帰 (PLS) とは? 部分的最小二乗回帰 (Parial Leas Squares Regressio, PLS) 線形の回帰分析手法のつ説明変数 ( 記述 ) の数がサンプルの数より多くても計算可能回帰式を作るときにノイズの影響を受けにくい説明変数の間の相関が高くても対応可能主成分分析をしたあとの主成分と目的変数との間で最小二乗法をうのは主成分回帰 (PCR) であり PLS とは異なるので注意 PLS 回帰とか PLSR とも呼ばれているがここでは PLS

どうして PLS を使うの? 多重共線性多重共線性の問題説明変数の間に強い相関がある場合回帰係数が不安定になるわずかなデータの変化 ( 追加削除 ) で回帰係数が大きく変わってしまう赤い線を中心に回帰平面が回りやすい回帰係数が変わりやすい x x

多重共線性への対策 3 事前に共線性のある変数 ( 記述 ) を削除変数選択必要な変数 ( 記述 ) を取り除いてしまう危険もある X を無相関化 ( 相関係数 0 に ) してから重回帰分析 X の情報の一部のみを使用して重回帰分析主成分分析 (Pricipal Compoe Aalsis, PCA) + 重回帰分析主成分回帰 (Pricipal Compoe Regressio, PCR) 重回帰分析についてはこちら PCA についてはこちら

主成分回帰 (PCR) 4 主成分回帰 (Pricipal Compoe Regressio, PCR) 説明変数のデータ X のみを用いて主成分分析をい主成分を得るの成分 ( 変数 ) の間は無相関と目的変数との間で最小二乗法による重回帰分析説明変数 ( 記述 ) 目的変数 ( 物性活性 ) 通常の重回帰分析サンプル X 最小二乗法 PCR X 成分抽出 (PCA) 主成分最小二乗法

PCR と PLS との違い 5 PCA 主成分の分散 ( ) が最大になるように主成分を抽出 PLS 主成分と目的変数との共分散 ( ) が最大になるように主成分を抽出共分散大きい共分散小さい 0 0 - - - - 0 - - 0

PLS の概要 6 PCA 主成分の分散 ( ) が最大になるように主成分を抽出 PLS 主成分と目的変数との共分散 ( ) が最大になるように主成分を抽出説明変数 ( 記述 ) 主成分サンプル X 成分抽出最小二乗法の情報

PLS の基本式 ( は変数 ) 7 X はオートスケーリング後 ( 平均 0 標準偏差 ) オートスケーリングについてはこちら A X p + E P + a a a E A a aq a + f q + f A : PLS の成分数 a : a 番目の主成分 p a : a 番目のローディング E : X の残差 q a : a 番目の係数 f : の残差列の表しやローディングについてはこちら

成分の PLS モデル 8 PLS モデル式 X p + E + f q は X の線形結合で表わされると仮定 Xw w a : a 番目の重みベクトル大きさ ( ノルム ) はとする w

の計算との共分散の最大化 9 との関連性が大きいを抽出したいとの共分散を最大化するようを求めるオートスケーリングしているため X とは平均 0 ただし w ( 制約条件 )

の計算 Lagrage の未定乗数法 0 制約条件がある中での最大化 Lagrage の未定乗数法 μ を未知の定数として下の G を最大化 G Xw µ ( ) w ( ) µ w

の計算 G の最大化 : データ数 d : 説明変数の数 ( ) G,,, d i d i i w w x µ µ w Xw G は w の関数 0 G,,, i i i w x w µ : 変数番号 G が最大値のとき G を w の要素ごとに偏微分した値は 0

の計算式変形 i x µ w 0 より ixi, µ w, i i,, i w, を両辺に掛けると i x w µ w i i,,, についてから d まで和を取る ( 制約条件を使って w が消える ) i d i x i, w, µ よって µ

の計算 w の計算 3 i ixi w,, µ より w, i i µ x i, μ はの値 w の大きさ ( ノルム ) はより w X X w が得られた後も計算 Xw

p と q の計算 4 p は X の残差 E の要素の二乗和が最小になるように求める ( 最小二乗法 ) p X q はの残差 f の要素の二乗和が最小になるように求める ( 最小二乗法 ) q

成分の PLS モデル 5 PLS モデル式 p + p E q + q + f X + X X p q X : X の中で成分のPLSモデルでは説明できない部分 : の中で成分のPLSモデルでは説明できない部分 X は X の線形結合 w ただし w の大きさ ( ノルム ) は w

w p q の計算 6 との関連性が大きいを抽出したいとの共分散を最大化するようを計算する成分の時と同様にして w X X Xw p X q 3 成分以降も同様に計算する

何成分まで用いるか? 7 多くの成分を用いるとモデルの由度が大きく ( モデルが複雑に ) なり過学習の恐れがある過学習 : モデル構築用データには回帰式 ( 回帰モデル ) がよく当てはまるが新しいデータに対する予測誤差が大きくなってしまうこと予測性の高いモデルが得られる適切な成分数を選択クロスバリデーション

クロスバリデーション 8 例 ) 3-fold クロスバリデーション変数 X p サンプル X X X3 3 3 p 3 p 比較 3 X X 3 X3 3 X X3 3 X X3 モデル 3 p X モデル p X モデル 3 p

r CV ( 予測的説明分散 ) 9 クロスバリデーションによる予測値を用いた説明分散 r Leave-oe-ou クロスバリデーション N-fold クロスバリデーションなどモデルの予測性を表す指標に近いほど良い (i) :i 番目のサンプルにおける目的変数の値 r i CV i ( ( i) ( i) ) CV ( ( i) ) A CV (i) :i 番目のサンプルにおけるクロスバリデーションによる目的変数の推定値 A : 目的変数の平均値 : サンプル数

成分数の決め 0 例 ) r CV 値を指標にして判断 r CV 値が最大値を取る成分数 r CV 値が最初の極大値を取る成分数 r CV 値の上昇が最初に 0.03 以下となる成分数 r ( ) r CV( 赤 ) モデル構築用データに対する性能は高くなっているが予測性能は低下過学習が起きている成分数

Roo Mea Squared Error (RMSE) : 誤差の指標 RMSE C (RMSE of Calibraio) の計算値 RMSE C ( ( i ) ˆ ( i ) ) i r i ( ( i) ˆ ( i) ) ( ( i) ) i RMSE CV (RMSE wih Cross-Validaio) クロスバリデーションによるの予測値 RMSE CV ( ( i ) ˆ ( i ) ) CV i r i CV ( ( i) ˆ ( i) ) CV ( ( i) ) i データが同じであれば r, r CV が大きい RMSE C, RMSE CV が小さい

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理学部応用化学科データ化学学研究室弘昌