データ解析特論第 10 回 ( 全 15 回 ) 2012 年 12 月 11 日 ( 火 ) 情報エレクトロニクス専攻横田孝義 1
終了 11/13 11/20 重回帰分析をしばらくやります 12/4 12/11 12/18 2
前回から回帰分析について学習しています 3
( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小 2 乗法によって求める モデルの当てはまりのよさは決定係数 (R 2 : 相関係数の 2 乗 ) で表される また 分散分析で検定ができる 切片と傾きは t 検定によって検定 ( ゼロでないかどうかの検定 ) できる y y = a + bx a 0 x 4
重回帰分析 重回帰分析では一つの目的変数を 複数の説明変数で予測する事を考える これによってどの説明変数が どの程度目的変数に影響を与えているかを知る事ができる たとえば 3 つの独立変数がある場合 重回帰式は y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 となる それぞれの独立変数にかかっている係数を 偏回帰係数 と呼ぶ 単回帰分析と同様に モデルの当てはまりの良さは決定係数で表され 分散分析で検定できる また 切片と偏回帰係数については t 検定で検定できる y x 2 y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 a x 1 5
重回帰分析 回帰係数の決定 最小化する a,b を求める 6
重回帰分析 回帰係数の決定 (1) (2) (1 ) (2 ) (1 ) (2 ) 7
重回帰分析 回帰係数の決定 (1 ) (2 ) 8
重回帰分析 回帰係数の決定 一方 (3) 9
重回帰分析 回帰係数の決定 (3) 代入 (1 ) 10
重回帰分析 回帰係数の決定 11
重回帰分析 回帰係数の決定 ここまでミスなく導出するのはかなり大変 12
重回帰分析 回帰係数の決定 変数を平均値から測ると最小ニ乗法はずっとシンプルになる 0 0 テキストの 17.15 式 テキストの 17.16 式 13
モデル係数の統計的性質 母集団 最小二乗係数 代入 (17-15) (17-16) 14
モデル係数の統計的性質 (17-5) 母回帰方程式代入 (17-16) 0 15
モデル係数の統計的性質 モデル係数の期待値は? であるので すなわち 最小二乗法で求めたモデル係数の期待値は母回帰方程式の係数に一致する 不偏推定量 (unbiased estimates) である 16
モデル係数の統計的性質 これらの分散は? 17
モデル係数の統計的性質 18
モデル係数の統計的性質 最小ニ乗法によって求めたモデル係数 (17-15) (17-16) 一方 N(0,σ 2 ) に従う正規性雑音 の線形な関数 以下のように分布する 21
モデル係数の統計的性質 回帰分析において最小ニ乗法で求めた切片と傾き自体も確率変数であることが直感的に理解できただろうか? 22
モデル係数の統計的性質 (17-15) (17-16) N(0,σ 2 ) に従う正規性雑音 の線形な関数 以下のように分布する 23
回帰分析 総変動 最小ニ乗法によって求めたモデル係数 (17-15) (17-16) これによる予測値 ( 回帰直線 ) を とおく 被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares n-1 で割れば Y i の標本分散となる 24
回帰分析 総変動 被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares y a 0 x 25
回帰分析 回帰変動 予測値と平均とのかい離の二乗和は RSS: residual sum of squares 総変動のうちの回帰モデルで説明力が発揮できる部分 y ^ ^ Y= a + bx a 0 x 26
回帰分析 残差変動 予測値と標本とのかい離の二乗和は ESS: Error sum of squares すなわち 回帰モデルで を予測した際の予測誤差 のばらつきの 総和 27
回帰分析 残差変動 残差変動 ESS: Error sum of squares 総変動のうちの回帰モデルで説明できない部分 y ^ ^ Y= a + bx a 0 x 28
回帰分析 各変動の関係 総変動 被説明変数 の個体差を評価 回帰変動 総変動のうちの回帰モデルで説明力が発揮できる部分 残差変動 総変動のうちの回帰モデルで説明できない部分 TSS RSS ESS 29
回帰分析 各変動の関係 総変動 y a 0 x TSS RSS ESS 回帰変動 残差変動 y Y= ^ a ^ + bx y Y= ^ a ^ + bx a 0 x a 0 x 30
回帰分析 決定係数 R 2 値 例 : Y i の個体差が100% 回帰モデルで説明できる R 2 =1 Y i の個体差が全く説明できない R 2 =0 の値は 1 に近いほど回帰モデルが当てはまっていると解釈できる 31
回帰係数の仮説検定 回帰モデル を最少二乗法によってあてはめ 回帰係数が求まる 例えば 推定値が となったとする この結果から 説明変数 X i は被説明変数 Y i に関係している と結論づけて良いか? 統計的検定をしないと何とも言えない 32
回帰係数の仮説検定 統計的検定をしないと何とも言えない 真の係数 b が 0( すなわち X i と Y i は無関係 ) であったとしても 0 でない推定値が得られてしまう可能性がある 回帰係数 b に関する t 統計量 : の最少二乗推定値従う に関する以下の変数 t b は自由度 n-2 の t 分布に は 係数 b の標準偏差の不偏推定値 残差の標本分散 33
回帰係数の仮説検定 回帰係数 b に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t b は自由度 n-2 の t 分布に従う は 係数 b の標準偏差の不偏推定値 残差の標本分散 回帰係数 a に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t a も自由度 n-2 の t 分布に従う 34
回帰係数の仮説検定 例題 ある地域でマグニチュード 7 以上の大地震発生の周期性を検討するために 1600 年以降に発生した ( 累積 ) 回数と年代の関係を調べ 以下のデータを得た 35
回帰係数の仮説検定 回帰係数 b に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t b は自由度 n-2 の t 分布に従う は 係数 b の標準偏差の不偏推定値 残差の標本分散 36
回帰係数の仮説検定 回帰係数 a に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t a も自由度 n-2 の t 分布に従う 37
回帰係数の仮説検定 データ数 n=5 なので自由度は n-2=3 の t 分布に従う 95% 信頼区間に相当する t の値は 3.18245 95% 信頼区間 十分に有意と言える EXECL の関数 tinv( 確率 自由度 ) を利用 38
回帰分析のモデル係数の検定方法の手順を学んだ 39
正規分布 (Normal Distribution) 確率密度関数で自然界でよく表れる分布として正規分布がある f x = 1 e (x m)2 2σ 2 2πσ m: 平均値 σ: 標準偏差 40
測定値がある値の範囲に入る確率 測定値がある値の範囲に入る確率を求める 確率密度関数を f(x) とすれば この確率は p x 1 < x < x 2 = x 2 f x dx x 1 で与えられる σ=0.75 P(m-σ<x<m+σ)=68.3% P(m-2σ<x<m+2σ)=95.5% P(m-3σ<x<m+3σ)=99.7% P(m-1.96σ<x<m+1.96σ)=95% 41
正規分布から派生する重要な分布について カイ自乗分布 分布 正規確率変数の和はやはり正規分布を持つ 互いに独立な n 個の標準正規分布変数の 2 乗の和を とすると Z は自由度 n の 分布をもつ 確率密度変数は ところで ガンマ関数とは? 42
正規分布から派生する重要な分布について F 分布 正規分布に関連するもう一つの重要な分布が F 分布 確率変数 X 1,X 2 が互いに独立で X 1 が自由度 m の χ 2 分布をもち X 2 が自由度 n の χ 2 分布を持つとき それらの比 は 自由度 (m,n) の F 分布を持つ 確率密度変数は 43
正規分布から派生する重要な分布について カイ自乗分布 分布 正規確率変数の和はやはり正規分布を持つ 互いに独立な n 個の標準正規分布変数の 2 乗の和を とすると Z は自由度 n の 分布をもつ 確率密度変数は ところで ガンマ関数とは? 44
正規分布から派生する重要な分布について F 分布 正規分布に関連するもう一つの重要な分布が F 分布 確率変数 X 1,X 2 が互いに独立で X 1 が自由度 m の χ 2 分布をもち X 2 が自由度 n の χ 2 分布を持つとき それらの比 は 自由度 (m,n) の F 分布を持つ 確率密度変数は 45
正規分布から派生する重要な分布について t 分布 自由度 (1,n) の F 分布をもつ確率変数 Z を考え T 2 =Z という変数変換を施して得られる T の分布を自由度 n の t 分布と呼ぶ 46
正規分布から派生する重要な分布について ところで B 関数とは ベータ関数 のような性質がある 47