Microsoft PowerPoint - 資料04 重回帰分析.ppt

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

スライド 1

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

1.民営化

Microsoft Word - mstattext02.docx

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

13章 回帰分析

Microsoft Word - reg2.doc

ビジネス統計 統計基礎とエクセル分析 正誤表

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - 三次元座標測定 ppt

Microsoft Word - 補論3.2

重回帰式 y= x x 2 重症度 5 TC TC 重症度

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft Word - econome5.docx

PowerPoint プレゼンテーション

Excelにおける回帰分析(最小二乗法)の手順と出力

8 A B B B B B B B B B 175

講義「○○○○」

Microsoft Word - SDA2012kadai07.doc

カイ二乗フィット検定、パラメータの誤差

統計的データ解析

Microsoft PowerPoint - ch04j

Microsoft Word - reg.doc

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

ベイズ統計入門

Microsoft Word - SPSS2007s5.doc

スライド 1

13章 回帰分析

Microsoft Word - Time Series Basic - Modeling.doc

Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Probit , Mixed logit

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

Microsoft PowerPoint - ch03j

基礎統計

Microsoft PowerPoint - Econometrics

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

様々なミクロ計量モデル†

経済統計分析1 イントロダクション

0506

PowerPoint プレゼンテーション

PowerPoint Presentation

PowerPoint プレゼンテーション

Microsoft PowerPoint - 6.PID制御.pptx


【補足資料】確率・統計の基礎知識

V T n n = A r n A n r n U V m m n n UT U = I V T V = I : A = A = UΣV T A T AV = VΣ T Σ : AB T = B T A T V A T A V A V T V = I 3 V A V T V = I : A AK =


Microsoft PowerPoint - Econometrics pptx

Microsoft Word - econome4.docx

景気指標の新しい動向

PowerPoint プレゼンテーション

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

第7章

ii 3.,. 4. F. (), ,,. 8.,. 1. (75%) (25%) =7 20, =7 21 (. ). 1.,, (). 3.,. 1. ().,.,.,.,.,. () (12 )., (), 0. 2., 1., 0,.

構造方程式モデリング Structural Equation Modeling (SEM)

回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデー

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

PowerPoint Presentation

Microsoft Word doc

回帰分析 単回帰

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

横浜市環境科学研究所

memo

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

<4D F736F F F696E74202D2091E63989F1837D815B F A B836093C1985F D816A2E >

6. 消費関数と 乗数効果 経済統計分析 (2017 年度秋学期 )

スライド タイトルなし

スライド 1

因子分析

Microsoft PowerPoint - statistics pptx


消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

航空機の運動方程式

確率・統計の基礎知識

日心TWS

博士学位請求論文審査報告書 申請者 : 植松良公 論文題目 :Statistical Analysis of Nonlinear Time Series 1. 論文の主題と構成経済時系列分析においては, 基礎となる理論は定常性や線形性を仮定して構築されるが, 実際の経済データにおいては, 非定常性や

Excelによるデータ分析

Microsoft PowerPoint - 10.pptx

回帰分析 重回帰(3)

スライド 1

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

スライド 1

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

モジュール1のまとめ

, ( ξ/) ξ(x), ( ξ/) x = x 1,. ξ ξ ( ξ, u) = 0. M LS ξ ξ (6) u,, u M LS 3).,.. ξ x ξ = ξ(x),, 1. J = (ξ ξ, V [ξ ] 1 (ξ ξ )) (7) ( ξ, u) = 0, = 1,..., N

EBNと疫学

4.統計解析.indd

Microsoft PowerPoint - H21生物計算化学2.ppt

Transcription:

04. 重回帰分析 京都大学 加納学 Division of Process Control & Process Sstems Engineering Department of Chemical Engineering, Koto Universit manabu@cheme.koto-u.ac.jp http://www-pse.cheme.koto-u.ac.jp/~kano/

Outline 重回帰式の導出 幾何学的解釈 重回帰式の評価 具体例 多重共線性 リッジ回帰

身近な例 3 身長 体重から身長を推定できる? 身長 定数 体重 + 定数 + 誤差 b x e b 0 体重 n n ei ( i bx i b0) i i を最小にする係数 b を求める.

因果関係を探る 4 重回帰分析結果である目的変数 と原因である説明変数の関係を重回帰式で表現する手法 ( 標本 ) 偏回帰係数 現実には, 目的変数は説明変数以外の要因にも影響されるため, それらの n 番目の標本 ( 測定値 ) が単回帰モデルによって表現されると考える. 母偏回帰係数 誤差項 ε n は互いに独立に N(0, σ ) に従うと仮定する.

目的変数の予測 5 目的変数の予測値 各変数の平均を 0 とすれば 誤差項 ε n の期待値は 0 残差目的変数の測定値と予測値の差

回帰分析における誤差の考え方 6 目的変数 に影響を与える説明変数 x 以外の要因をまとめて誤差とみなすため, のみに誤差がある, つまり, x は正確に指定できると考える.

最小二乗法 7 最小二乗法残差平方和 ( 目的変数の測定値と推定値の差の二乗和 ) が最小となるように, 偏回帰係数を決定する. 予測値 残差平方和

正規方程式の導出 8 残差平方和 必要条件 Q 極値であること! 正規方程式 b

偏回帰係数の推定 9 正規方程式 偏回帰係数の推定値行列 X T X が正則である ( 逆行列を持つ ) 場合 共分散行列

標準化 0 各変数を平均 0, 分散 の変数に変換する. x nm x σ * nm m x m 変数 m サンプル n 平均 x N * m x nm N n 分散 σ m N N n ( x * nm x m )

重回帰分析 : 重回帰式 標準化後の変数による表現 ˆ P bpx p p b p 標準偏回帰係数 標準化前の変数による表現 * ˆ σ P b p p x * p σ p x p σ σ p b p 偏回帰係数 P b P * pσ b * pσ ˆ xp + x p σ p p σ p p

Outline 重回帰式の導出 幾何学的解釈 重回帰式の評価 具体例 多重共線性 リッジ回帰

重回帰分析の幾何学的解釈 3 誤差が最小となるためには, 誤差と予測値が直交すればよい. ˆ, ˆ Xb, Y Xb T T T b ( X Y X Xb) 0 正規方程式 N 次元線形空間 x 測定値 誤差 予測値 ˆ ŷ bx + b x x M 次元部分空間

重相関係数の最大化 4 誤差が最小となるためには, 誤差と予測値が直交すればよい. 誤差が最小となるためには, 測定値と予測値がなす角 θ が最小になればよい. 誤差が最小となるためには, 測定値と予測値の相関係数が最大になればよい. 重相関係数 r ˆ T sˆ ˆ ss ˆ ˆ cosθ

重回帰式の評価 5 重相関係数 目的変数 とその推定値 の相関係数 寄与率 ( 決定係数 ) 目的変数の分散に対する推定値の分散の比

寄与率に関する式 6

Outline 7 重回帰式の導出 幾何学的解釈 重回帰式の評価 具体例 多重共線性 リッジ回帰

分散分析 8 変動要因 平方和 自由度 不偏分散 分散比 全変動 SS N - - 回帰による変動 残差の変動 SS r SS e N P P V e V r N SS P SS r e P F V V r e 分散比 F は自由度 P, N-P- の F 分布に従う. F > F( P, N P ; α ) であれば, 重回帰式は無意味ではない. 自由度 P, N-P- の F 分布, 危険率 α

分散分析の心 9 分散比 F は自由度 P, N-P- の F 分布に従う. F > F( P, N P ; α ) であれば, 重回帰式は無意味ではない. 自由度 P, N-P- の F 分布, 危険率 α でたらめに重回帰式を作ったとしよう. そのとき, 分散比 F はある F 分布に従う. もし,F が普通でないほど大きかったら, つまり, 回帰による変動が残差の変動を凌駕していれば, その重回帰式は無意味ではない! 普通はこの範囲に入る α0.05 普通でない!

0 重要な式 N i i SS * ) ( N i i r SS * ) ˆ ( N i i i e SS * ) ˆ ( e r SS SS SS + * * ( ) P p p p p b x x ) ) /( ( / p N R p R V V F e r

F 分布表 (α0.05).50.577.66.773.98 3.60 3.555 4.44 8.548.64.699.80.965 3.97 3.59 4.45 7.59.657.74.85 3.007 3.39 3.634 4.494 6.64.707.790.90 3.056 3.87 3.68 4.543 5 3.07 3.35 3.7 3.36 3.478 3.708 4.03 4.965 0 3.30 3.93 3.374 3.48 3.633 3.863 4.56 5.7 9 3.438 3.500 3.58 3.687 3.838 4.066 4.459 5.38 8 3.76 3.787 3.866 3.97 4.0 4.347 4.737 5.59 7 4.47 4.07 4.84 4.387 4.534 4.757 5.43 5.987 6 4.88 4.876 4.950 5.050 5.9 5.409 5.786 6.608 5 6.04 6.094 6.63 6.56 6.388 6.59 6.944 7.709 4 8 7 6 5 4 3 自由度 自由度

Outline 重回帰式の導出 幾何学的解釈 重回帰式の評価 具体例 多重共線性 リッジ回帰

例 : 対象データ 3 身長 () 胸囲 (x) 体重 (x) 67.0 84.0 6.0 67.5 87.0 55.5 3 68.4 86.0 57.0 4 7.0 85.0 57.0 5 55.3 8.0 50.0 6 5.4 87.0 50.0 7 63.0 9.0 66.5 8 74.0 94.0 65.0 9 68.0 88.0 60.5 0 60.4 84.9 49.5

例 : 重回帰分析 4 身長 () 胸囲 (x) 体重 (x) 平均 64.7 87.0 57. 標準偏差 7.8 3.63 6.3 偏回帰係数 - -0.47 0.969 標準偏回帰係数 - -0.6 0.88 重相関係数 (R) 0.687 - - 決定係数 (R) 0.47 - -

例 : 分散分析 5 変動要因 平方和 自由度 不偏分散 分散比 全変動 464. 9 - - 回帰による変動 残差の変動 9.0 45. 7 09.5 35.0 3.3 FPN (, P ; α) 自由度 P, N-P- の F 分布, 危険率 α F(,7;0.05) 4.737 > 3.3 重回帰式に意味なし!

Outline 6 重回帰式の導出 幾何学的解釈 重回帰式の評価 具体例 多重共線性 リッジ回帰

重回帰分析の問題点 7 偏回帰係数 ( T T b X X) X Y X T X が逆行列を持たない場合, 最小二乗法は使えない. 入力変数が線形従属である場合 サンプル数が入力変数の数より少ない場合もダメ. 以下では, サンプル数は十分にあるとする.

多重共線性 8 Data A Data B x x x3 x x x3 4 3 8 56 5.9 37.0 6. 86.0 34.6 6. 83.0 65.9 64.8 7. 8.6 33.9 6. 36.9 60.6 85.9 34.7 6.3 8.8 65.9 65. 7.0 8.9 34. 係数.36-0.80 5.0-4.8-8.9-6.0 入力変数が厳密に線形従属でなくても, 入力変数間に強い相関関係が存在する場合には, 係数推定値の分散が大きくなり, 推定結果の信頼性が低下してしまう.

何が問題なのか? 9 推定値の分散が大きくなると, 何が問題なのか? 推定ができれば良いのではないか? < 重回帰分析で酷い目に遭う例 > + 測定データ Model Model Model 3 x x ax ax ˆ x ˆ 0.5x + ˆ.00, x.0, x 0. 5 x 00x 99x 0.99.00.99 0.99 係数が大きいほど, 測定ノイズの影響を受けやすい.

最小二乗法の拡張 30 Ordinar Least Squares (OLS) a ( X X ) T X T Y min Y Xa Minimum Norm Solution a X + Y X + : 一般化逆行列 Ridge Regression (RR) a ( X X + λi) T X T Y min Y Xa + λ a Principal Component Regression (PCR) Partial Least Squares (PLS) いずれの手法も係数を小さく抑えようとする.

Outline 3 重回帰式の導出 幾何学的解釈 重回帰式の評価 具体例 多重共線性 リッジ回帰

リッジ回帰 3 評価関数の違い 重回帰 min Y Xa リッジ回帰 min Y Xa + λ a 必要条件 ( 評価が最小となるための ) 回帰係数に対する懲罰 J T T ( X Xa X Y + λa) a a ( X X + λi) T X T Y 0

33 例題 : リッジ回帰ーーーーーー偏回帰係数 -6.0-8.9-4.8 5.0-0.80.36 重回帰 34. 65.9 85.9 33.9 65.9 86.0 56 4.34 -.38 0.87.36 -.34 0.86 リッジ回帰 8.9 8.8 60.6 8.6 83.0 6. 8 3 7.0 6.3 36.9 7. 6. 37.0 3 65. 34.7 6. 64.8 34.6 5.9 4 x3 x x x3 x x Data Set: B Data Set: A