Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Similar documents
多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

「統 計 数 学 3」

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

スライド 1

Microsoft Word - mstattext02.docx

1.民営化

スライド 1

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

Microsoft PowerPoint - 資料04 重回帰分析.ppt

13章 回帰分析

<4D F736F F F696E74202D BD95CF97CA89F090CD F6489F18B4195AA90CD816A>

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft PowerPoint - e-stat(OLS).pptx

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

スライド 1

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

目次 はじめに P.02 マクロの種類 ---

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

Excelによるデータ分析

Microsoft PowerPoint - 価格関数R3.pptx

統計的データ解析

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - Econometrics pptx

横浜市環境科学研究所

プログラミング基礎

重回帰式 y= x x 2 重症度 5 TC TC 重症度

相関分析・偏相関分析

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

講義「○○○○」

スライド タイトルなし

Microsoft Word - SDA2012kadai07.doc

因子分析


. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft Word - apstattext01b.docx

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

日心TWS

ビジネス統計 統計基礎とエクセル分析 正誤表

タイトルを修正 軸ラベルを挿入グラフツール デザイン グラフ要素を追加 軸ラベル 第 1 横 ( 縦 ) 軸 凡例は削除 横軸は, 軸の目盛範囲の最小値 最 大値を手動で設定して調整 図 2 散布図の仕上げ見本 相関係数の計算 散布図を見ると, 因果関係はともかく, 人口と輸送量の間には相関関係があ

Chapter 1 Epidemiological Terminology

データ解析

画像類似度測定の初歩的な手法の検証

8 A B B B B B B B B B 175

経営統計学

スライド 1

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

今回用いる例データ lh( 小文字のエル ) ある女性の血液中の黄体ホルモンを 10 分間隔で測定した時系列データ UKgas 1960 年 ~1986 年のイギリスのガス消費量を四半期ごとに観測した時系列データ ldeaths 1974 年 ~1979 年のイギリスで喘息 気管支炎 肺気腫による死

PowerPoint プレゼンテーション

スライド 1

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

回帰分析 重回帰(1)

Medical3

Microsoft Word - SPSS2007s5.doc

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft PowerPoint - データ解析演習 0520 廣橋

Microsoft PowerPoint - ch04j

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

経済統計分析1 イントロダクション

消費 統計学基礎実習資料 2017/11/27 < 回帰分析 > 1. 準備 今回の実習では あらかじめ河田が作成した所得と消費のファイルを用いる 課題 19 統計学基礎の講義用 HP から 所得と消費のファイルをダウンロードしてみよう 手順 1 検索エンジンで 河田研究室 と入力し検索すると 河田

Microsoft PowerPoint - 測量学.ppt [互換モード]

MedicalStatisticsForAll.indd

1 R Windows R 1.1 R The R project web R web Download [CRAN] CRAN Mirrors Japan Download and Install R [Windows 9

テンプレート

正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 正常 220

Microsoft Word - 補論3.2

Microsoft Word - econome4.docx

Microsoft PowerPoint - 三次元座標測定 ppt

回帰分析 単回帰

13章 回帰分析

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

基礎統計

Microsoft Word - appendix_b

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Microsoft PowerPoint - R-intro-02.ppt

JUSE-StatWorks/V5 ユーザーズマニュアル

コレスポンデンス分Ⅵコレスポンデンス分析とは コレスポンデンス分析は, 多変量解析の 数量化 Ⅲ 類 と同様の手法です 行の要素と列の要素を使って数量化するとするという点で, 数量化 Ⅲ 類と基本的に同じなのですが, 数量化理論の場合は集計前のオリジナルデータから処理していくのに対し, コレスポンデ

Microsoft Word - reg2.doc

数値計算法


Rの基本操作

C3 データ可視化とツール

参考1中酪(H23.11)

Microsoft PowerPoint - データ解析発表2用パワポ

Microsoft Word - econome5.docx

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

散布度

PowerPoint プレゼンテーション

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Microsoft Word - lec_student-chp3_1-representative

3. みせかけの相関単位根系列が注目されるのは これを持つ変数同士の回帰には意味がないためだ 単位根系列で代表的なドリフト付きランダムウォークを発生させてそれを確かめてみよう yと xという変数名の系列をを作成する yt=0.5+yt-1+et xt=0.1+xt-1+et 初期値を y は 10

Microsoft PowerPoint - Econometrics

カイ二乗フィット検定、パラメータの誤差

Microsoft PowerPoint ppt

Transcription:

重回帰分析 残差分析 変数選択 1

内容 重回帰分析 残差分析 歯の咬耗度データの分析 R で変数選択 ~ step 関数 ~ 2

重回帰分析と単回帰分析 体重を予測する問題 分析 1 身長 のみから体重を予測 分析 2 身長 と ウエスト の両方を用いて体重を予測 分析 1 と比べて大きな改善 体重 に関する推測では 身長 だけでは不十分 重回帰分析における問題 ~ モデルの構築 ~ 適切なモデルで分析しているか? 適切な変数をモデルに組み込んでいるか? モデル選択 変数選択の問題 3

残差分析 4

残差における仮定 回帰分析における残差 モデルに組み込んだ変数では説明しれない 偶然誤差 適切なモデルのもとでの残差に関する仮定 残差に正規分布を仮定する 残差の期待値は0 残差の分散は等しい それぞれの残差は互いに独立である モデルチェック 5

モデルチェック : 例 右の図のデータに対する適切なモデルとは? 1 次式によるモデル 2 次式によるモデル データの構造 6

1 次式によるモデル 1 次式を仮定して分析を行うと 次の結果を得る 仮定したモデルは適切か? 残差分析 残差の仮定を満たしているか? 回帰診断プロット 7

残差分析 :1 次式 回帰診断プロット 1 残差 (y) と予測値 (x) 2 正規 Q-Qプロット 3 規準化残差と予測値 4 Cookの距離 用途 1 残差のふるまい 2 正規性の検証 3 残差の大きさ 4 外れ値の探索 1 3 2 4 8

1 残差のふるまい 横軸 : 予測値 縦軸 : 残差 残差の全体像の把握 相対的に大きい残差には番号がふられる (1, 29, 30) 残差の独立性と系列相関の有無 系列相関に関する検定ダービン ワトソン統計量 杉山髙一著 多変量データ解析入門 9

2 正規 Q-Q プロット 名称 : 正規 Q-Q プロット 横軸 : 正規分布の 縦軸 : 規準化残差の 経験分布関数による 残差が正規分布に従っている 点が直線上に並べられる 残差が正規分布からずれている 点が直線からはずれる 残差の仮定 : 標準正規分布 相対的に 直線から外れているデータには番号がふられる (1, 29, 30) 10

3 残差の大きさ 縦軸 : 規準化した残差の絶対値の平方根 横軸 : 予測値 残差の変動の考察 相対的に大きい残差には番号がふられる (1, 29, 30) 11

4 Cook の距離 Cook の距離 個々のデータが回帰式の推定に 及ぼす影響を表した距離 Cookの距離が大きいデータ 回帰式の推定に大きく影響 外れ値の可能性 R では Cookの距離 0.5 ならば大きいとしている ( 絶対的なものではない ) Cookの距離が相対的に大きいデータには番号がふられる (1, 29, 30) 12

2 次式によるモデル モデルに 2 次式を仮定すると 次の結果を得る 回帰診断プロットによる 残差の検討 13

0 に散布期待値 残差分析 :2 次式残差は適当にばらついている直線状独立性 14

パラメータ推定 モデルチェック実データにおけるモデル構築 主に変数を追加する場合 切な変数をモデルに組み込む それぞれの残差は互いに独立適モデル構築 残差分析 残差の正規性 残差の期待値は 0 残差の分散は等しい 15

プログラム : 参考 1 1 次式のあてはめで用いたプログラム x <- seq(from=0, to=2, length.out=30) e <- rnorm(30, 0, 0.1) y <- (x-1)^2+2+e result <- lm(y~x) plot(x, y, pch=19, col="black") abline(result, col="red", lwd=3) par(mfrow=c(2,2)) for(i in 1:4){ plot(result, which=i, add.smooth=f, pch=21, bg="blue", col="blue", lwd=2) } 16

プログラム : 参考 2 2 次式のあてはめで用いたプログラム x2 <- x^2 result <- lm(y ~ x+x2) plot(x, y, xlim=c(0,2), ylim=c(1.8,3.2), pch=19) par(new=t) plot(x, fitted(result), type= l, xlim=c(0,2), ylim=c(1.8,3.2), ann=f, col="blue", lwd=3) par(mfrow=c(2,2)) for(i in 1:4){ plot(result, which=i, add.smooth=f, pch=21, bg="blue", col="blue", lwd=2) } 17

プログラムの説明 ( 回帰診断 ) par(mfrow=c(2,2)) for(i in 1:4){ plot(result, which=i, add.smooth=f, pch=21, bg="blue", col="blue", lwd=2) } R では for 文も使うことができます par(mfrow=c(2,2)) 次に描く図やグラフを描くスペースを2 行 2 列に分割 plot(lm.obj) : 回帰診断プロットの出力 その他の引数については R-Tips をご覧下さい 18

歯の咬耗度データの分析 ~ 変数選択 ~ 日本大学名誉教授 ( 松戸歯学部 ) 尾崎公教授 による 歯の咬耗度 のデータです このデータを用いて分析の説明をいたします 19

歯のデータの分析 歯の咬耗度による年齢推定 データ 189 人 28 本の歯の咬耗度を測定 歯の摩耗の度合いは5 段階 各分類に どのような数値を割りふるか すなわち数量化が重要な問題に欠如なる 分類 1 分類 2 分類 3 分類 4 分類 5 弱 強 20

歯のデータの分析 数量化について ここでは 数量化分析等を用いたりして検討した結果 分類 1 には 1.0 分類 2 には 2.0 分類 3 には 3.0 分 類 4 には 4.0 欠如した歯の分類 5 に は 4.0 を与えた 詳しい変数の分類 分析法杉山髙一著 多変量データ解析入門 欠如 分類 1 分類 2 分類 3 分類 4 分類 5 弱 強 21

変数名の定義 歯の変数名と対応関係 上 下 左 右 左 右 22

歯の咬耗度データ 23

データ加工 : 不要なデータの削除 削除 24

データ加工 : 特定のデータの置換 1 置換する範囲を選択 2 編集 置換 3 検索する文字列 5 置換後の文字列 4 全て置換 25

プログラム ディレクトリの変更 を忘れずにしましょう koumoudo <- read.csv( ha-koumoudo.csv", header=t) result1 <- lm(age~., data=koumoudo) result2 <- step(result1) summary(result1) summary(result2) 26

プログラムの説明 result1 <- lm(age~., data=koumoudo) result2 <- step(result1) lm( 目的変数 ~., data= データ ) 目的変数 ~. とすると 目的変数以外の全ての変数を説明変数として分析を行う step(lm.obj) lm 関数により得たモデルに対して AIC 基準で変数選択を行う関数 27

変数選択基準 変数選択基準 残差平方和 決定係数 自由度調整済み決定係数 各変数に対する有意性検定 ( t 検定 F 検定 ) AIC 基準 参考文献 AIC 最小のモデルを最適なモデルとする 杉山髙一著 : 多変量データ解析入門 小西貞則著 : 情報量規準 早川毅著 : 回帰分析の基礎 28

step 関数 全ての変数を含んだモデルと その AIC 上にある変数ほど除いたときに AIC が減少する 各変数を除いた場合の AIC 29

step 関数 最後に選ばれた変数と AIC AIC 最小のモデルとなった 30

分析結果 : 変数選択前 1 31

分析結果 : 変数選択前 2 自由度調整済み決定係数 32

分析結果 : 変数選択後 変数選択により改善 33

解析結果の比較 変数選択 適切に変数を選択することにより モデルが改善された 変数が減ることにより 意味づけや解釈が容易になる データを収集する側にもメリット ( コストや時間 ) 34

参考 URL 統計科学研究所のウェブサイト http://www.statistics.co.jp/index.htm R-Tips http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.html JIN S PAGE http://www1.doshisha.ac.jp/~mjin/r/ 35