Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Similar documents
Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - R-stat-intro_13.ppt [互換モード]

1.民営化

スライド 1

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

スライド 1

13章 回帰分析

相関分析・偏相関分析

Microsoft Word - mstattext02.docx

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

横浜市環境科学研究所

Microsoft PowerPoint - e-stat(OLS).pptx

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

経済学 第1回 2010年4月7日

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

発表の流れ 1. 回帰分析とは? 2. 単回帰分析単回帰分析とは? / 単回帰式の算出 / 単回帰式の予測精度 <R による演習 1> 3. 重回帰分析重回帰分析とは? / 重回帰式の算出 / 重回帰式の予測精度 質的変数を含む場合の回帰分析 / 多重共線性の問題 変数選択の基準と方法 <R による

Microsoft Word - lec_student-chp3_1-representative

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Excelによるデータ分析

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

プログラミング基礎

MedicalStatisticsForAll.indd

Microsoft Word - 保健医療統計学112817完成版.docx

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft Word - 微分入門.doc

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - データ解析演習 0520 廣橋

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

因子分析

青焼 1章[15-52].indd

Microsoft Word - ミクロ経済学02-01費用関数.doc

Microsoft Word - 操作マニュアル-Excel-2.doc

Chapter 1 Epidemiological Terminology

Microsoft PowerPoint ppt

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft Word - apstattext04.docx

Rの基本操作


PowerPoint プレゼンテーション

JMP によるオッズ比 リスク比 ( ハザード比 ) の算出方法と注意点 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月改定 1. はじめに本文書は JMP でオッズ比 リスク比 それぞれに対する信頼区間を求める算出方法と注意点を述べたものです この後

314 図 10.1 分析ツールの起動 図 10.2 データ分析ウィンドウ [ データ ] タブに [ 分析 ] がないときは 以下の手順で表示させる 1. Office ボタン をクリックし Excel のオプション をクリックする ( 図 10.3) 図 10.3 Excel のオプション

散布度

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

計量経済学の第一歩 田中隆一 ( 著 ) gretl で例題と実証分析問題を 再現する方法 発行所株式会社有斐閣 2015 年 12 月 20 日初版第 1 刷発行 ISBN , Ryuichi Tanaka, Printed in Japan

このデータは ダイアモンドの価格 ( 価格 ) に対する 評価の影響を調べるために収集されたものです 影響と考えられるものは カラット重量 カラー クラリティー 深さ テーブル径 カット 鑑定機関 の 7 つになります 特に カラット重量 カラー クラリティー カット は 4C と呼ばれ ダイヤモン

Microsoft Word 東山琴美「トクマは当選するのか」目次・論文.docx

共同研究目次.indd

FX ) 2

FX自己アフリエイトマニュアル

画像類似度測定の初歩的な手法の検証

EBNと疫学

医用工学概論  Medical Engineering (ME)   3年前期の医用工学概論実習と 合わせ、 医療の現場で使用されている 医用機器を正しく安全に使用するために必要な医用工学(ME)の 基礎知識を習得する。

4名連記 P1-21

1.中山&内田 P1-9

学習指導要領

Microsoft PowerPoint - GLMMexample_ver pptx

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

4STEP 数学 Ⅲ( 新課程 ) を解いてみた関数 1 微分法 1 微分係数と導関数微分法 2 導関数の計算 272 ポイント微分法の公式を利用 (1) ( )( )( ) { } ( ) ( )( ) ( )( ) ( ) ( )( )

今日の話のメインターゲット R を ( 入れてみたが ) 使い方が分からない人 そもそも使ったことが無い人 R の存在を知らなかった人 2

untitled

橡07第1章1_H160203_.PDF

ムーアの法則に関するレポート


人事行政の運営状況等の公表(平成19年12月)(PDF)


0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Transcription:

R で統計解析入門 (4) 散布図と回帰直線と相関係数

準備 : データ DEP の読み込み 1. データ DEP を以下からダウンロードする http://www.cwk.zaq.ne.jp/fkhud708/files/dep.csv 2. ダウンロードした場所を把握する ここでは c:/temp とする 3. R を起動し,2. の場所に移動し, データを読み込む 4. データ DEP から薬剤 A のデータのみ抽出 2

準備 : 架空のデータ DEP の変数 GROUP: 薬剤の種類 (A,B,C) A のみ QOL:QOL の点数 ( 数値 ) 点数が大きい方が良い EVENT: 改善の有無 ( 1: 改善あり,2: 改善なし ) QOL の点数が 5 点以上である場合を 改善あり とする DAY: 観察期間 ( 数値, 単位は日 ) PREDRUG: 前治療薬の有無 (YES: 他の治療薬を投与したことあり, NO: 投与したことなし ) DURATION: 罹病期間 ( 数値, 単位は年 ) 3

準備 : 架空のデータ DEP ( 一部 )

本日のメニュー 1. 散布図と相関係数 2. 回帰直線 3. 相関係数と回帰直線 5

2 つの連続変数の関係 罹病期間 (DURATION) と QOL がどんな関係かを調べる 手っ取り早い方法は散布図を描く ( y = f(x) のような感じで QOL ~ DURATION とする ) 6

2 つの連続変数の関係 散布図より 罹病期間 (DURATION) が増えると QOL が下がる ような感じだが, はっきりしない 2 つの連続変数の関係を定量的に表す方法が相関係数 7

2 つの連続変数の関係 ピアソンの相関係数 :-0.76, スピアマンの相関係数 :-0.80 8

2 つの連続変数の関係 ピアソンの相関係数 : 良く使われるが, 外れ値の影響を受けやすい スピアマンの相関係数 : データを順位データに変換して相関係数を算出 ( 外れ値の影響を受けにくい ) -0.76 とか -0.8 がどうなのかが分からない 次頁で判断基準を示す 9

正の相関 ( 横軸が増えると縦軸も増える傾向 ) 関連なし 弱い関連 関連あり 強い関連 10 > library(teachingdemos) > run.old.cor.examp(n = 100)

負の相関 ( 横軸が増えると縦軸は減る傾向 ) 関連なし 弱い関連 関連あり 強い関連 11 > library(teachingdemos) > run.old.cor.examp(n = 100)

2 つの連続変数の関係 ピアソンの相関係数 :-0.76, スピアマンの相関係数 :-0.80 強い負の相関あり 罹病期間 (DURATION) が増えると QOL が下がる 12

本日のメニュー 1. 散布図と相関係数 2. 回帰直線 3. 相関係数と回帰直線 13

2 つの連続変数の関係 罹病期間 (DURATION) と QOL がどんな関係かを調べる 散布図にはいろんな点があるせいでどの点を見れば良いか分からない 相関係数から関係の度合いは分かるが, 罹病期間 (DURATION) がどうなったら QOL がどうなるか, までは分からない 14

回帰分析 : 回帰直線 単回帰分析 回帰直線を描くことで 2 つの連続変数の平均的な推移を直線で表す ことが出来る パッと傾向をつかむことが出来る ( 単回帰分析 ) 15

回帰分析 : 回帰式 回帰式 :QOL = 11.7-1.04 罹病期間 (DURATION) 16

回帰分析 : 回帰式の性質 (1) 回帰式 :QOL = 11.7-1.04 罹病期間 (DURATION) 罹病期間が 1 年増えた時に QOL がどう変わるかが予測できる 罹病期間が 0 年 :QOL = 11.7-1.04 0 = 11.7 104 1.04 だけ減少 罹病期間が 1 年 :QOL = 11.7-1.04 1 = 10.66 17

回帰分析 : 回帰式の性質 (2) 回帰式 :QOL = 11.7-1.04 罹病期間 (DURATION) ある罹病期間の値を入れれば QOL の値が予測できる 罹病期間が 0 年のときの QOL = 11.7-1.04 0 = 11.7 罹病期間が 5 年のときの QOL = 11.7-1.04 5 = 6.5 18

寄り道 データ A の要約統計量 データ A の要約統計量をパッと出したい場合は関数 summary() を使う QOL の平均 :65 :6.5 罹病期間 (DURATION) の平均 :5 19

回帰分析 : 回帰式の性質 (3) 回帰式 :QOL = 11.7-1.04 罹病期間 (DURATION) 回帰式の罹病期間に 罹病期間の平均 を入れれば QOL の平均値 が得られる 罹病期間が 5 年 ( 平均 ):QOL = 11.7-1.04 5 = 6.5 ( 平均 ) QOL の平均と一致 20

本日のメニュー 1. 散布図と相関係数 2. 回帰直線 3. 相関係数と回帰直線 21

相関係数と回帰直線 相関係数と回帰直線はどちらも 2 つの連続データの関係を見る道具 相関係数 :2 つの連続変数の関連の度合いを -1 ~ 1 の範囲で表したもの 回帰直線 :2 つの連続変数の平均的な推移を直線で表したもの 注意 : 相関係数が 1 や -1 に近い場合は 関連の度合いが強い ことを 表すが, 必ずしも回帰直線の傾きが急であることを表さない! 相関係数が 1 や -1 に近い : データが回帰直線からほとんど離れていない 相関係数が 0 に近い : データが回帰直線から離れている 22

例 1: 相関係数の大きさと回帰直線の傾き データ ( 散布図の点 ) が回帰直線の上にピタッと乗っている データが回帰直線からほとんど離れていない ため相関係数が 1 しかし, 回帰直線の傾きは必ずしも急ではない点に注意! ( 以下, 直線 : 回帰直線,r: ピアソンの相関係数の値 ) 23

前頁のグラフを描くプログラム 24

例 2:2 変数の関係を表すが 回帰直線 : 関係を直線で表す ため 曲線的な関係 はつかめない 相関係数 : 関連の度合いを表す が 曲線的な関係 はつかめない 以下の図では, 円形や y =-x 2 という関係があるが, 相関係数は 0 ( 関連なし 曲線的な関係はとらえられず ) 25

前頁のグラフを描くプログラム 26

例 3: 点 (9, 9) という外れ値の影響 例 2 の右の図に点 (9, 9) を追加する回帰直線は大きく傾く, ピアソンの相関係数が 0 0.9 になる 回帰直線やピアソンの相関係数は 外れ値 があると 2 変数間の関係を上手くとらえることが出来なくなる数値の算出の前にグラフ ( 散布図など ) を描くことが重要 27

前頁のグラフを描くプログラム 28

参考 例 3 の相関係数 ( 2 種類 ) ピアソンの相関係数は外れ値 ( 点 (9,9) ) の影響を大きく受けた スピアマンの相関係数は外れ値 ( 点 (9,9) ) の影響をあまり受けない 0 付近の値となっている 29

本日のメニュー 1. 散布図と相関係数 2. 回帰直線 3. 相関係数と回帰直線 30

参考文献 統計学 ( 白旗慎吾著, ミネルヴァ書房 ) The R Tips 第 2 版 ( オーム社 ) R 流! イメージで理解する統計処理入門 ( カットシステム ) 31

R で統計解析入門 終