多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Similar documents
Microsoft PowerPoint - 資料04 重回帰分析.ppt

スライド 1

スライド 1

Microsoft Word - mstattext02.docx

Microsoft PowerPoint - e-stat(OLS).pptx

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

1.民営化

重回帰式 y= x x 2 重症度 5 TC TC 重症度

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

ビジネス統計 統計基礎とエクセル分析 正誤表

Microsoft Word - SDA2012kadai07.doc

13章 回帰分析

Microsoft Word - å“Ÿåłžå¸°173.docx

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft Word - econome4.docx

8 A B B B B B B B B B 175

Microsoft Word - econome5.docx

Microsoft PowerPoint - ch04j

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

統計的データ解析

Excelによるデータ分析

Microsoft Word - reg2.doc

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

情報工学概論

PowerPoint プレゼンテーション

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

スライド タイトルなし

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

0506

EBNと疫学

スライド 1

講義「○○○○」

横浜市環境科学研究所

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

Microsoft Word - reg.doc

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - SPSS2007s5.doc

PowerPoint プレゼンテーション

Microsoft PowerPoint - Econometrics

日心TWS

13章 回帰分析

様々なミクロ計量モデル†

memo

Microsoft Word - appendix_b

目次 はじめに P.02 マクロの種類 ---

学習指導要領

Microsoft Word - 補論3.2

カイ二乗フィット検定、パラメータの誤差

スライド 1

データ解析

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

参考1中酪(H23.11)

Microsoft PowerPoint - 三次元座標測定 ppt

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

基礎統計

不偏推定量

学習指導要領

Microsoft PowerPoint - Econometrics

Microsoft PowerPoint - 価格関数R3.pptx

パソコンシミュレータの現状

要旨 1. 始めに PCA 2. 不偏分散, 分散, 共分散 N N 49

構造方程式モデリング Structural Equation Modeling (SEM)

Microsoft PowerPoint - A1.ppt [互換モード]

経営戦略研究_1.indb

経営統計学

Microsoft PowerPoint - 10.pptx

Chapter 1 Epidemiological Terminology

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

経済統計分析1 イントロダクション

学習指導要領

Microsoft Word - Stattext13.doc

Microsoft PowerPoint - Statistics[B]

ベイズ統計入門

卒業研究論文 微分方程式を用いた携帯端末市場の成長モデル 学籍番号 12D K 山本悠貴 中央大学理工学部情報工学科田口研究室 2016 年 3 月

Microsoft PowerPoint - sc7.ppt [互換モード]

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

第7章

回帰分析 単回帰

Microsoft Word - mstattext03.docx

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

景気指標の新しい動向

Microsoft PowerPoint - Econometrics pptx

測量試補 重要事項

<4D F736F F D E4F8E9F82C982A882AF82E98D7397F1>

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

学習指導要領


SAP11_03

Excelを用いた行列演算

Microsoft PowerPoint - statistics pptx

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Probit , Mixed logit

回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデー

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Transcription:

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測 評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断する これを重回帰分析という つまり どんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め 得られた回帰式の性能を評価する 3 説明変数の選択 ( 変数選択 ) を行い 有用な変数を選択する 4 残差とテコ比の検討を行い 得られた回帰式の妥当性を検討 5 将来得られるデータ値を予測

重回帰分析の具体例表は東京のある駅の徒歩圏内の中古マンションに関するデータである サンプルNO. 広さ x1 築年数 x2 価格 y 1 51 16 3.0 2 38 4 3.2 3 57 16 3.3 4 51 11 3.9 5 53 4 4.4 6 77 22 4.5 7 63 5 4.5 8 69 5 5.4 9 72 2 5.4 10 73 1 6.0 このデータに基づいて知りたいことは次の通りである (1) 価格は広さと築年数とによって予測できるだろうか (2) 予測できるとすればその精度はどのくらいか (3) 同じ地区でを掲示された 価格は妥当か x 1 =70, x 2 =10, y=5.8 などを重回帰分析で検討する

説明変数が 2 個の場合の解析方法 最小 2 乗法による回帰式の推定 表 1 のデータに関して次の重回帰モデル ( 回帰モデル ) を想定する y i ~ N 0, 2 i = 0 1 2 i i 番目の予測値 i 番目の残差 y i = 0 1 2 e i = y i y i 最小 2 乗法 実測値と予測値の残差平方和を最小にする 0, 1, 2,, p を求める方法 残差平方和 S e S e = e 2 i = {y i 0 1 } 2 これを最小にする 0, 1, 2 を求める

S e を 0, 正規方程式 1, 2 のそれぞれで偏微分して 0 とおくと S e = 2 y i 0 1 2 = 0 0 S e = 2 y i 0 1 2 = 0 1 S e = 2 y i 0 1 2 = 0 2 (1) (2) (3) (1) (2) (3) 式を整理すれば 0 1 = y i 0 1 x 2 i1 = y i 2 0 1 = y i 0 = y i 1 2 と変形して 下の 2 つに代入していく これらは 0, 1, 2 に関する連立方程式であり 正規方程式と呼ぶ

偏回帰係数を求める 正規方程式を変形して 以下の連立方程式を得る 1 S 11 1 S 22 = S 1y = S 2y ただし 各変数の平方和と偏差積和を次のように定義する S 11 = S yy = x 1 2 y i y 2 行列で表現すると S 22 = x 2 2 S 1y = [ S 11 S 22][ 1 2] = [ S 1y S 2y] x 1 y i y = x 1 x 2 S 2y = x 2 y i y この連立方程式を解けば 偏回帰係数 0, 1, 2 が求まる

多重共線性に注意する (1) 多重共線性が存在するとは 行列の逆行列が存在しない状況をいう 実際に 偏回帰係数の解を求めていくと [ 1 2] = [ S 11 S 22] 1[ S 1y S 2y] = 1 [ S 22 S 1y S 2 S 11 S 22 S 1y S 11 S 2y] すなわち 2 S 11 S 22 が 0 であると 解は無数に存在するか まったく存在しない 例 ) S 11 =1, S 22 =4, =2 である場合 1 2 2 = S 1y 2 1 4 2 = S 2y

多重共線性に注意する (2) 2 S 11 S 22 = 0 2 r x 1 x 2 2 S 11 S 22 r x 1 x 2 = ±1 = 1 = { S 11 S 22}2 = 1 すなわち x 1 と x 2 の相関係数が 1 または -1 の時に多重共線性が存在する 相関係数が ±1 となるのは点 x 1,,2,, の全てが 1 直線上に並んでいる場合 であり x 1 と x 2 が共通の直線状にある ( 共線 ) この場合 他方の情報は不要である 予測を行う という観点から偏回帰係数が定められるので, 重回帰式に含まれた変数相互間の関連で符号が決められるためである 多重共線性の存在の有無を考慮することが必要

寄与率と自由度調整済み寄与率 (1) まず 残差平方和を整理しておく S e = = {y i 0 1 } 2 {y i y 1 x 1 2 x 2 } 2 = S yy 1 2 S 11 2 S 22 2 1 S 1y 2 2 S 2y 2 1 2 ~ 回帰式の評価 ~ = S yy 1 1 S 11 1 S 22 2 1 S 1y 2 2 S 2y = S yy 1 S 1y S 2y 重回帰モデルの誤差 の母分散 2 を次のように推定することができる 2 = V e = S e e = S e 3

ちょっとした準備 ~ 平方和の分解 ~ 偏差平方和 = 残差平方和 + 回帰平方和 S yy = y i y 2 = {y i 0 1 0 1 y} 2 = {y i 0 1 } 2 { 0 1 y} 2 2 {y i 0 1 }{ 0 1 y} = {y i 0 1 } 2 { 0 1 y} 2 (4)

補足スライド ~ ここはいんじゃない?~ {y i 0 1 }{ 0 1 y} = e i { 0 1 y} = 0 y e i 1 e i e i = 0 = x 1 e i e = e i x 1 e i = 0 e i = 0 e = 0

寄与率と自由度調整済寄与率 (2) S R = 1 S 1y S 2y とおくと S yy = 1 S 1y S 2y S e = S R S e (5) (4) 式と (5) 式を見比べることにより 回帰平方和は S R = { 0 1 y} 2 = 1 S 1y S 2y 各平方和には 各自由度が対応している S yy T = 1 S R R = 2 S e e = 3

寄与率と自由度調整済寄与率 (3) 実測値と理論値の相関係数 y i y y i y R = y i y 2 y i y 2 これを重相関係数という 実測値と理論値がどれだけ一致しているかを求めている R 2 = S R S yy = S yy S e S yy = 1 S e S yy これを寄与率 ( または決定係数 ) と呼ぶ これは y の変動のうちの回帰による変動の割合を表している 決定係数が大きければよいわけではなく どんなに意味のない説明変数を加えてもこの値は上昇してしまう よって自由度を用いて調整して R * 2 = 1 S e / e S yy / T このような決定係数を自由度調整済寄与率という

説明変数の選択 ( 変数選択 ) できるだけ説明変数は目的変数に効いている説明変数だけをモデルに含めたい 意味のない説明変数を加えていっても 多重共線性の原因を招いてしまったり 分析の精度が低くなる 説明変数の選択が重要になる 説明変数の選択基準 目的変数と相関の高い変数を説明変数にする 単相関係数を用い 相関が 0.7 以上のものを説明変数にするのが一般的 説明変数の相互間で相関係数が 1 に近い場合 どちらか解釈しやすいものを選択する R * 2 が増加する限り, 追加された独立変数は有効であることを意味する

変数の選択方法 変数減少法 すべての変数を取り込んだ段階から不要な変数を消去していく 変数増加法 定数項だけのモデルから有用な変数を追加していく 変数増減法 それら両方を取り入れた方法 変数増加法 S yy T = 1 y の平方和 ( 自由度 ) と残差平方和 ( 自由度 ) を用いて 不偏分散比の大きさを目安にしていく 不偏分散比が 有意水準 α( 一般的には 0.01or0.05) における F 分布の値より大きければ有意 この値が大きい方の説明変数をモデルに取り込む S e e = p 1 F 0 = S yy S e M1 / T e M1 S yy / T 寄与率 自由度調整済寄与率を求め そのモデルが妥当か評価する

変数増加法による変数選択 次に変数を追加するかどうかは 残差平方和 (M1) と加えたときの残差平方和 (M2) の不偏分散比の F 値を比較する F 0 = S e M1 S e M2 / e M1 e M2 S e M2 / e M2 F 値が大きければ (2 以上 ) であれば その変数を取り込む 式の分子は MODEL1 から MODEL2 に変更することにより残差平方和がどれくらい減少するのかを測る量を示している 例 ) 変数が 2 つの場合 MODEL1 y i = 0 1 i MODEL2 y i = 0 1 2 i S yy S R M1 S e M1 S R M2 S e M2 S e M1 S e M2 MODEL1 MODEL2

残差とテコ比の検討 ~ 重回帰式の妥当性の評価 ~ 残差 e k を標準化したもの また残差の t 値について求める e' k = e k V e t k = e k 1 h kk V e 各値の絶対値が 3.0 以上または 2.5 以上である場合はサンプルが異常でないか検討 できれば各説明変数を横軸にとり 標準化残差また t を縦軸にとって散布図を描く 曲線的な傾向や 説明変数が大きくなるに従って残差のばらつきが系統的に変化していないかなどを検討する

h kk = 1 D 2 k 1 テコ比? 予測値の第 k サンプルを表すテコ比を使って表すと y k = h k1 y 1 h k2 y 2 h kk y k h k y y k の係数 h kk をテコ比 ( レベレッジ ) と呼び 但し D 2 k をマハラノビスの距離の2 乗と呼ばれ 判別分析で重要な役割を果たす D k 2 = 1 { x k1 x 1 2 S 11 2 x k1 x 1 x k2 x 2 x k2 x 2 2 S 22 } [ 11 S 22] S = [ S 11 S 但し 12 S 22] 1 このテコ比が大きすぎると y k の値が y k の値の変動によって強く影響を受けるので望ましくない 2.5{( 説明変数の個数 )+1}/ = 2.5 ( テコ比の平均 ) データ取得時に調整できるなら テコ比がこれより小さくなるように工夫する

得られた回帰式の利用 回帰式の 0 1 x 1 x 2 推定量の確率分布 0 1 x 1 x 2 ~ N 0 1 x 1 2 x 2, { 1 D 2 1} 2 x 01 x 02 これを用いて とを任意の値, に設定して 母回帰の区間推定や予測区間を構成することができる 母回帰の信頼率 95% の信頼区間は次のように構成する 0 1 x 01 x 02 ± t e, 0.05 { 1 D 2 0 1} V e と設定した場合に回帰直線上の縦座標の信頼区間である 信頼率 95% の予測区間は次のように計算する 0 1 x 01 2 x 02 ± t e, 0.05 { 1 1 D } 0 1 V e 2