スライド 1

Similar documents
スライド 1

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

1.民営化

Microsoft Word - å“Ÿåłžå¸°173.docx

統計的データ解析

Microsoft Word - mstattext02.docx

13章 回帰分析

ビジネス統計 統計基礎とエクセル分析 正誤表

スライド 1

Microsoft PowerPoint - ch04j

Microsoft Word - econome5.docx

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

PowerPoint プレゼンテーション

Microsoft Word - econome4.docx

Excelにおける回帰分析(最小二乗法)の手順と出力

回帰分析 単回帰

カイ二乗フィット検定、パラメータの誤差

情報工学概論

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft Word - reg2.doc

横浜市環境科学研究所

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

6. 消費関数と 乗数効果 経済統計分析 (2017 年度秋学期 )

データ解析

回帰分析 重回帰(1)

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

経済統計分析1 イントロダクション

基礎統計

8 A B B B B B B B B B 175

講義「○○○○」

不偏推定量

Medical3

Microsoft Word - SDA2012kadai07.doc

基礎統計

6. 消費関数と乗数効果 経済統計分析 (2014 年度秋学期 ) 消費関数 ( 統計分析手法 ) 回帰分析 ( 単回帰 重回帰 ) 最小二乗法 回帰分析の推定結果の読み取り方 回帰係数の意味 実績値 推定値 残差 決定係数 自由度修正済決定係数 説明変数の選択 外れ値 ( 異常値 ) の影響 推定

経済統計分析1 イントロダクション

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Microsoft Word - reg.doc

EBNと疫学

Microsoft PowerPoint - Econometrics pptx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

スライド タイトルなし

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

Microsoft PowerPoint - 測量学.ppt [互換モード]

数値計算法

Microsoft Word - appendix_b

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

モジュール1のまとめ

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

Microsoft Word - SPSS2007s5.doc

13章 回帰分析

第7章

7. フィリップス曲線 経済統計分析 (2014 年度秋学期 ) フィリップス曲線の推定 ( 経済理論との関連 ) フィリップス曲線とは何か? 物価と失業の関係 トレード オフ 政策運営 ( 財政 金融政策 ) への含意 ( 計量分析の手法 ) 関数形の選択 ( 関係が直線的でない場合の推定 ) 推

Medical3

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft PowerPoint - ch03j

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft PowerPoint - Econometrics

Microsoft PowerPoint - sc7.ppt [互換モード]

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

tshaifu423

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

日心TWS

様々なミクロ計量モデル†

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

Microsoft Word - Stattext13.doc

Microsoft PowerPoint - statistics pptx

回帰分析の重要な手続きは 次の 3 点にまとめられる 順に説明しよう ( 1) もっともよい線を引く ( 2) その線はどのくらいよい線であるかを評価する ( 3) 母集団についても同様の線を引く価値があるかどうかを判断する 概要をスライドで確認 テキスト p.99 の図が回帰分析の本質 実際のデー

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

Microsoft PowerPoint - S11_1 2010Econometrics [互換モード]

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft Word - Time Series Basic - Modeling.doc

PowerPoint プレゼンテーション

0415

Microsoft Word - Stattext12.doc

重回帰式 y= x x 2 重症度 5 TC TC 重症度

Microsoft PowerPoint - Statistics[B]

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

【補足資料】確率・統計の基礎知識

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Excelによるデータ分析

Microsoft Word - apstattext04.docx

一般化線型モデルとは? R 従属変数群が独立変数群の一次結合と誤差で表されるという形のモデルを線型モデルという ( 回帰分析はデータへの線型モデルの当てはめである ) 式で書けば Y = β 0 + βx + ε R では glm( ) という関数で実行する glm( ) は量的なデータが正規分布に

最小二乗フィット、カイ二乗フィット、gnuplot

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft Word - 訋é⁄‘組渋å�¦H29æœ�末試é¨fi解ç�fl仟㆓.docx

統計学 Ⅱ( 章 ( 区間推定のシミュレーション 母平均 μ の区間推定 X ~ N, のとき X T ~ 自由度 1の t分布 1 自由度 -1のt 分布の97.5% 点 :t.975 P t T t この式に T を代入する t.975 母集団

統計学の基礎から学ぶ実験計画法ー1

Transcription:

データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1

( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小 2 乗法によって求める モデルの当てはまりのよさは決定係数 (R 2 : 相関係数の 2 乗 ) で表される また 分散分析で検定ができる 切片と傾きは t 検定によって検定 ( ゼロでないかどうかの検定 ) できる y y = a + bx a 0 x 2

重回帰分析 重回帰分析では一つの目的変数を 複数の説明変数で予測する事を考える これによってどの説明変数が どの程度目的変数に影響を与えているかを知る事ができる たとえば 3 つの独立変数がある場合 重回帰式は y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 となる それぞれの独立変数にかかっている係数を 偏回帰係数 と呼ぶ 単回帰分析と同様に モデルの当てはまりの良さは決定係数で表され 分散分析で検定できる また 切片と偏回帰係数については t 検定で検定できる y x 2 y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 a x 1 3

重回帰分析 回帰係数の決定 最小化する a,b を求める 4

重回帰分析 回帰係数の決定 (1) (2) (1 ) (2 ) (1 ) (2 ) 5

重回帰分析 回帰係数の決定 (1 ) (2 ) 6

重回帰分析 回帰係数の決定 一方 (3) 7

重回帰分析 回帰係数の決定 (3) 代入 (1 ) 8

重回帰分析 回帰係数の決定 9

重回帰分析 回帰係数の決定 ここまでミスなく導出するのはかなり大変 10

重回帰分析 回帰係数の決定 変数を平均値から測ると最小ニ乗法はずっとシンプルになる 0 0 テキストの 17.15 式 テキストの 17.16 式 11

モデル係数の統計的性質 母集団 最小二乗係数 代入 (17-15) (17-16) 12

モデル係数の統計的性質 (17-5) 母回帰方程式代入 (17-16) 0 13

モデル係数の統計的性質 モデル係数の期待値は? であるので すなわち 最小二乗法で求めたモデル係数の期待値は母回帰方程式の係数に一致する 不偏推定量 (unbiased estimates) である 14

モデル係数の統計的性質 これらの分散は? 15

モデル係数の統計的性質 16

モデル係数の統計的性質 最小ニ乗法によって求めたモデル係数 (17-15) (17-16) 一方 N(0,σ 2 ) に従う正規性雑音 の線形な関数 以下のように分布する 19

モデル係数の統計的性質 回帰分析において最小ニ乗法で求めた切片と傾き自体も確率変数であることが直感的に理解できただろうか? 20

モデル係数の統計的性質 (17-15) (17-16) N(0,σ 2 ) に従う正規性雑音 の線形な関数 以下のように分布する 21

回帰分析 総変動 最小ニ乗法によって求めたモデル係数 (17-15) (17-16) これによる予測値 ( 回帰直線 ) を とおく 被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares n-1 で割れば Y i の標本分散となる 22

回帰分析 総変動 被説明変数 Yi の総変動 : の平均からの乖離の二乗和は TSS: total sum of squares y a 0 x 23

回帰分析 回帰変動 予測値と平均とのかい離の二乗和は RSS: residual sum of squares 総変動のうちの回帰モデルで説明力が発揮できる部分 y ^ ^ Y= a + bx a 0 x 24

回帰分析 残差変動 予測値と標本とのかい離の二乗和は ESS: Error sum of squares すなわち 回帰モデルで を予測した際の予測誤差 のばらつきの 総和 25

回帰分析 残差変動 残差変動 ESS: Error sum of squares 総変動のうちの回帰モデルで説明できない部分 y ^ ^ Y= a + bx a 0 x 26

回帰分析 各変動の関係 総変動 被説明変数 の個体差を評価 回帰変動 総変動のうちの回帰モデルで説明力が発揮できる部分 残差変動 総変動のうちの回帰モデルで説明できない部分 TSS RSS ESS 27

回帰分析 各変動の関係 総変動 y a 0 x TSS RSS ESS 回帰変動 残差変動 y Y= ^ a ^ + bx y Y= ^ a ^ + bx a 0 x a 0 x 28

回帰分析 決定係数 R 2 値 例 : Y i の個体差が100% 回帰モデルで説明できる R 2 =1 Y i の個体差が全く説明できない R 2 =0 の値は 1 に近いほど回帰モデルが当てはまっていると解釈できる 29

回帰係数の仮説検定 回帰モデル を最少二乗法によってあてはめ 回帰係数が求まる 例えば 推定値が となったとする この結果から 説明変数 X i は被説明変数 Y i に関係している と結論づけて良いか? 統計的検定をしないと何とも言えない 30

回帰係数の仮説検定 統計的検定をしないと何とも言えない 真の係数 b が 0( すなわち X i と Y i は無関係 ) であったとしても 0 でない推定値が得られてしまう可能性がある 回帰係数 b に関する t 統計量 : の最少二乗推定値従う に関する以下の変数 t b は自由度 n-2 の t 分布に は 係数 b の標準偏差の不偏推定値 残差の標本分散 31

回帰係数の仮説検定 回帰係数 b に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t b は自由度 n-2 の t 分布に従う は 係数 b の標準偏差の不偏推定値 残差の標本分散 回帰係数 a に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t a も自由度 n-2 の t 分布に従う 32

回帰係数の仮説検定 例題 ある地域でマグニチュード 7 以上の大地震発生の周期性を検討するために 1600 年以降に発生した ( 累積 ) 回数と年代の関係を調べ 以下のデータを得た 33

回帰係数の仮説検定 回帰係数 b に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t b は自由度 n-2 の t 分布に従う は 係数 b の標準偏差の不偏推定値 残差の標本分散 34

回帰係数の仮説検定 回帰係数 a に関する t 統計量 : の最少二乗推定値 に関する以下の変数 t a も自由度 n-2 の t 分布に従う 35

回帰係数の仮説検定 データ数 n=5 なので自由度は n-2=3 の t 分布に従う 95% 信頼区間に相当する t の値は 3.18245 95% 信頼区間 t 値 28.90 t 値 186.20 十分に有意と言える EXECL の関数 tinv( 確率 自由度 ) を利用 36

回帰係数の仮説検定 回帰分析のモデル係数の検定方法の手順を学んだ 37

回帰係数の仮説検定 12 月 18 日 ( 火 ) 体重データの分析をしてみたら何かわかるか? 38

回帰係数の仮説検定 身長 VS 体重 回帰モデル 39

回帰係数の仮説検定 各種統計量を計算 40

回帰係数の仮説検定 すなわち 3.47 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って 各回帰係数の 95% 信頼区間は 2.34 となり 符号が曖昧になる程ではなく 有意である ( 回帰係数の真値は 95% の確率でこの範囲に入る ) 41

回帰係数の仮説検定 試しに 体重と睡眠時間とに有意な相関があるかを調べる 42

回帰係数の仮説検定 試しに 体重と睡眠時間とに有意な相関があるかを調べる 回帰モデル 43

回帰係数の仮説検定 各種統計量を計算 44

回帰係数の仮説検定 すなわち 1.70 <2.048 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って 各回帰係数の 95% 信頼区間は 5.34 の t 値が低すぎて 相関があるとは言えない 45

回帰係数の仮説検定 試しに 体重と運動時間とに有意な相関があるかを調べる 46

回帰係数の仮説検定 回帰モデル 47

回帰係数の仮説検定 各種統計量を計算 48

回帰係数の仮説検定 すなわち 3.622 自由度 28 の t 分布表から 95% 信頼区間に相当する t の値は 2.04841 従って 各回帰係数の 95% 信頼区間は 14.37 やや幅が広い 負の相関があることがわかる 運動時間が長いほど体重が軽い?? 49

重回帰分析と回帰係数の有意性の検定 説明変数 で回帰の 2 乗誤差を最少にするように回帰係数の推定を行う 評価関数は 被説明変数 従属変数 で最小化する 50

重回帰分析と回帰係数の有意性の検定 評価関数は で最小化する 51

重回帰分析と回帰係数の有意性の検定 52

重回帰分析と回帰係数の有意性の検定 53