0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Similar documents
Microsoft PowerPoint - 資料04 重回帰分析.ppt

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

スライド 1

13章 回帰分析

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

スライド 1

スライド 1

1.民営化

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

Microsoft PowerPoint - e-stat(OLS).pptx

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - å“Ÿåłžå¸°173.docx

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

Microsoft PowerPoint - Econometrics pptx

Microsoft Word - reg2.doc

横浜市環境科学研究所

Microsoft Word - reg.doc

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

統計的データ解析

Microsoft PowerPoint - 三次元座標測定 ppt

Microsoft PowerPoint - Econometrics

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft PowerPoint - Econometrics

Microsoft Word - mstattext02.docx

Microsoft Word - SDA2012kadai07.doc

Microsoft Word - 補論3.2

13章 回帰分析

Microsoft PowerPoint - ch03j

景気指標の新しい動向

PowerPoint プレゼンテーション

経済統計分析1 イントロダクション

Microsoft Word - M4_9(N.K.).docx

モジュール1のまとめ

Microsoft Word - lec_student-chp3_1-representative

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

PowerPoint Presentation

Microsoft Word - Time Series Basic - Modeling.doc

Excelによるデータ分析

6. 消費関数と 乗数効果 経済統計分析 (2017 年度秋学期 )

Probit , Mixed logit

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

構造方程式モデリング Structural Equation Modeling (SEM)

Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

様々なミクロ計量モデル†

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

untitled

狭山デポ様IBM移設予定機器 _ppt [Compatibility Mode]

参考1中酪(H23.11)

パソコンシミュレータの現状

日心TWS

スライド 1

untitled

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

主成分分析 -因子分析との比較-

経営統計学

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

4.統計解析.indd

基礎統計

Microsoft PowerPoint - データ解析発表2用パワポ

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

情報工学概論

6. 消費関数と乗数効果 経済統計分析 (2014 年度秋学期 ) 消費関数 ( 統計分析手法 ) 回帰分析 ( 単回帰 重回帰 ) 最小二乗法 回帰分析の推定結果の読み取り方 回帰係数の意味 実績値 推定値 残差 決定係数 自由度修正済決定係数 説明変数の選択 外れ値 ( 異常値 ) の影響 推定

講義「○○○○」

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

ベイズ統計入門

Microsoft Word - SPSS2007s5.doc

PLS/PCR/OLS 回帰 1 つまたは複数の量的説明変数および / または質的説明変数の線形組み合わせを用いて,1 つまた は複数の量的従属変数の値をモデルして予測するには, このモジュールを使用します. 説明 このモジュールで利用可能な 3 つの回帰手法は, 説明変数の線形組み合わせによるモデ

0506

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft Word - econome4.docx

回帰分析 単回帰

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

Microsoft PowerPoint - ch04j

数値計算法

スライド 1

Microsoft Word - 教育経済学:課題1.docx

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

画像類似度測定の初歩的な手法の検証


【補足資料】確率・統計の基礎知識

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

重回帰式 y= x x 2 重症度 5 TC TC 重症度

Microsoft Word - econome5.docx

カイ二乗フィット検定、パラメータの誤差

スライド 1

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

データ解析

<4D F736F F F696E74202D E738A5889BB8BE688E68A4F82CC926E89BF908492E882C98AD682B782E98CA48B862E707074>

Transcription:

0 部分的最小二乗回帰 Parial Leas Squares Regressio PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

部分的最小二乗回帰 (PLS) とは? 部分的最小二乗回帰 (Parial Leas Squares Regressio, PLS) 線形の回帰分析手法の つ 説明変数 ( 記述 ) の数がサンプルの数より多くても計算可能 回帰式を作るときにノイズの影響を受けにくい 説明変数の間の相関が高くても対応可能 主成分分析をしたあとの主成分と目的変数との間で最小二乗法を うのは主成分回帰 (PCR) であり PLS とは異なるので注意 PLS 回帰とか PLSR とも呼ばれているが ここでは PLS

どうして PLS を使うの? 多重共線性 多重共線性の問題 説明変数の間に強い相関がある場合 回帰係数が不安定になる わずかなデータの変化 ( 追加 削除 ) で回帰係数が大きく変わってしまう 赤い線を中心に回帰平面が回りやすい 回帰係数が変わりやすい x x

多重共線性への対策 3 事前に共線性のある変数 ( 記述 ) を削除 変数選択 必要な変数 ( 記述 ) を取り除いてしまう危険もある X を無相関化 ( 相関係数 0 に ) してから重回帰分析 X の情報の一部のみを使用して重回帰分析 主成分分析 (Pricipal Compoe Aalsis, PCA) + 重回帰分析 主成分回帰 (Pricipal Compoe Regressio, PCR) 重回帰分析についてはこちら PCA についてはこちら

主成分回帰 (PCR) 4 主成分回帰 (Pricipal Compoe Regressio, PCR) 説明変数のデータ X のみを用いて主成分分析を い主成分 を得る の成分 ( 変数 ) の間は無相関 と目的変数 との間で最小二乗法による重回帰分析 説明変数 ( 記述 ) 目的変数 ( 物性 活性 ) 通常の重回帰分析 サンプル X 最小二乗法 PCR X 成分抽出 (PCA) 主成分 最小二乗法

PCR と PLS との違い 5 PCA 主成分 の分散 ( ) が最大になるように主成分を抽出 PLS 主成分 と目的変数 との共分散 ( ) が最大になるように主成分を抽出 共分散大きい 共分散小さい 0 0 - - - - 0 - - 0

PLS の概要 6 PCA 主成分 の分散 ( ) が最大になるように主成分を抽出 PLS 主成分 と目的変数 との共分散 ( ) が最大になるように主成分を抽出 説明変数 ( 記述 ) 主成分 サンプル X 成分抽出 最小二乗法 の情報

PLS の基本式 ( は 変数 ) 7 X はオートスケーリング後 ( 平均 0 標準偏差 ) オートスケーリングについてはこちら A X p + E P + a a a E A a aq a + f q + f A : PLS の成分数 a : a 番目の主成分 p a : a 番目のローディング E : X の残差 q a : a 番目の係数 f : の残差 列の表し やローディングについてはこちら

成分の PLS モデル 8 PLS モデル式 X p + E + f q は X の線形結合で表わされると仮定 Xw w a : a 番目の重みベクトル大きさ ( ノルム ) は とする w

の計算 との共分散の最大化 9 との関連性が大きい を抽出したい と の共分散 を最大化するよう を求める オートスケーリングしているため X と は平均 0 ただし w ( 制約条件 )

の計算 Lagrage の未定乗数法 0 制約条件がある中での最大化 Lagrage の未定乗数法 μ を未知の定数として 下の G を最大化 G Xw µ ( ) w ( ) µ w

の計算 G の最大化 : データ数 d : 説明変数の数 ( ) G,,, d i d i i w w x µ µ w Xw G は w の関数 0 G,,, i i i w x w µ : 変数番号 G が最大値のとき G を w の要素ごとに偏微分した値は 0

の計算式変形 i x µ w 0 より ixi, µ w, i i,, i w, を両辺に掛けると i x w µ w i i,,, について から d まで和を取る ( 制約条件を使って w が消える ) i d i x i, w, µ よって µ

の計算 w の計算 3 i ixi w,, µ より w, i i µ x i, μ は の値 w の大きさ ( ノルム ) は より w X X w が得られた後 も計算 Xw

p と q の計算 4 p は X の残差 E の要素の二乗和が最小になるように求める ( 最小二乗法 ) p X q は の残差 f の要素の二乗和が最小になるように求める ( 最小二乗法 ) q

成分の PLS モデル 5 PLS モデル式 p + p E q + q + f X + X X p q X : X の中で 成分のPLSモデルでは説明できない部分 : の中で 成分のPLSモデルでは説明できない部分 X は X の線形結合 w ただし w の大きさ ( ノルム ) は w

w p q の計算 6 との関連性が大きい を抽出したい と の共分散 を最大化するよう を計算する 成分の時と同様にして w X X Xw p X q 3 成分以降も同様に計算する

何成分まで用いるか? 7 多くの成分を用いるとモデルの 由度が大きく ( モデルが複雑に ) なり 過学習の恐れがある 過学習 : モデル構築用データには回帰式 ( 回帰モデル ) がよく当てはまるが 新しいデータに対する予測誤差が大きくなってしまうこと 予測性の高いモデルが得られる適切な成分数を選択 クロスバリデーション

クロスバリデーション 8 例 ) 3-fold クロスバリデーション 変数 X p サンプル X X X3 3 3 p 3 p 比較 3 X X 3 X3 3 X X3 3 X X3 モデル 3 p X モデル p X モデル 3 p

r CV ( 予測的説明分散 ) 9 クロスバリデーションによる予測値を用いた説明分散 r Leave-oe-ou クロスバリデーション N-fold クロスバリデーションなど モデルの予測性を表す指標 に近いほど良い (i) :i 番目のサンプルにおける目的変数の値 r i CV i ( ( i) ( i) ) CV ( ( i) ) A CV (i) :i 番目のサンプルにおけるクロスバリデーションによる目的変数の推定値 A : 目的変数の平均値 : サンプル数

成分数の決め 0 例 ) r CV 値を指標にして判断 r CV 値が最大値を取る成分数 r CV 値が最初の極大値を取る成分数 r CV 値の上昇が最初に 0.03 以下となる成分数 r ( ) r CV( 赤 ) モデル構築用データに対する性能は高くなっているが 予測性能は低下 過学習が起きている 成分数

Roo Mea Squared Error (RMSE) : 誤差の指標 RMSE C (RMSE of Calibraio) の計算値 RMSE C ( ( i ) ˆ ( i ) ) i r i ( ( i) ˆ ( i) ) ( ( i) ) i RMSE CV (RMSE wih Cross-Validaio) クロスバリデーションによる の予測値 RMSE CV ( ( i ) ˆ ( i ) ) CV i r i CV ( ( i) ˆ ( i) ) CV ( ( i) ) i データが同じであれば r, r CV が大きい RMSE C, RMSE CV が小さい