Rによる統計処理 (中島)      2010/04/30

Similar documents
Microsoft Word - apstattext04.docx

Microsoft Word - Stattext12.doc

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Medical3

EBNと疫学

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

PowerPoint プレゼンテーション

Microsoft Word - 保健医療統計学112817完成版.docx

スライド 1

Microsoft PowerPoint - e-stat(OLS).pptx

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint - Statistics[B]

基礎統計

ビジネス統計 統計基礎とエクセル分析 正誤表

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Medical3

統計的データ解析

スライド 1

Microsoft PowerPoint ppt

Microsoft PowerPoint - statistics pptx

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

PowerPoint プレゼンテーション

相関分析・偏相関分析

青焼 1章[15-52].indd

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

不偏推定量

13章 回帰分析

経営統計学

Microsoft PowerPoint - 基礎・経済統計6.ppt

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

. 測定方法 7 尺度化 ( 数値化 ) 8 絶対判断 評点法採点法カテゴリー尺度法 図示法 / 線分法 心理物理学的測定法 相対判断 分類法 格付け分類法 順位法 一対比較法 リッカート法 カテゴリー尺度法 / 評定尺度法 あなたは ですか? 9 SD(Semantic Differential)

Microsoft PowerPoint - A1.ppt [互換モード]

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft Word - å“Ÿåłžå¸°173.docx

Microsoft PowerPoint - 医学統計のつぼ.ppt

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

モジュール1のまとめ

Microsoft PowerPoint - ch04j

Microsoft Word - mstattext02.docx

EBNと疫学

講義「○○○○」

第1回

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - GLMMexample_ver pptx

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

MedicalStatisticsForAll.indd

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

1.民営化

第4回

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

ANOVA

九州大学学術情報リポジトリ Kyushu University Institutional Repository 使える! 統計検定 機械学習 : I : 2 群間の有意差検定 高木, 英行九州大学大学院芸術工学研究院 出版情報

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

仮説検定の手順

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

Microsoft Word - 操作マニュアル-Excel-2.doc

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

PowerPoint プレゼンテーション

データ科学2.pptx

C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Microsoft PowerPoint - Econometrics pptx

Transcription:

習うより 慣れよう! (R による統計処理 ) はじめに 私は Rによる統計処理の仕方について話したいと思います 多くの4 年生は統計処理をしたことがないと思うので まずは統計の話から始めていきたいと思います それから R におけるデータの扱い方 検定のかけ方 検定結果の見方等について説明していきます R は優れたフリーソフトウェゕなので これから研究活動を進める上で R を使えると非常に便利だと思います まだ R を使ったことのない人にとっては 難しく感じるかもしれませんが 今日の講習会を通して 少しでも多くの人が これから R を使ってみようかな と思ってくれたらな と思います 内容なぜ検定をかけるのか? Example 1. 北海道の人と沖縄の人では どっちが高身長? Example 2. ダエット薬の違いが体重に与える影響は? Example 3. 標高から気温を求めるには? 実際に検定をかけてみよう! Case 1. カミキリムシの幼虫とゾウムシの幼虫では どっちが重い? Case 2. 寄主の違いが寄生蜂の生存率に及ぼす影響は? Case 3. 寄主生重から寄生蜂の長翅の長さ ( 体サズ ) を求めるには? 1

なぜ検定をかけるのか? Example 1. 北海道の人と沖縄の人では どっちが高身長? 北海道の 20 代の男性 100 人と沖縄の 20 代の男性 100 人に協力してもらい 身長を記録した 北海道の人 :166cm 158cm 172cm 177cm 沖縄の人 :172cm 168cm 180cm 155cm どっちの背が高い? ここで 北海道の 100 人の平均身長が 170cm で 沖縄の 100 人の平均身長が 160cm だったと しよう! じゃあ 北海道の人の方が沖縄の人より背が高いんだねぇ! 果たして本当にそうだろうか? もう一度 100 人選んでそれぞれの平均身長を出したら 北海道が 150cm で 沖縄が 190cm にな る可能性もあるのでは? どっちの平均身長が高いかは 北海道と沖縄の 20 代の男性の全員の身長を記録し 比較する必要がある しかし それは 大変だぁ だから統計処理を行うのさ! 統計処理とは 本当にその結果 ( 北海道の人の方が沖縄の人より背が高いという結果 ) が確率的に 正しいか否かを決定 付ける処理である ここで 2 群間の関係を明らかにする検定として t 検定や Mann Whitney の U 検定 (Wilcoxon の順位 和検定 ) が挙げられる どっちを使ったらいいの? t 検定 パラメトリック検定 Mann Whitney の U 検定 ノンパラメトリック検定 母集団が正規分布を仮定できる場合は パラメトリック検定を行うことができる 母集団の分布型を一切仮定しない場合は ノンパラメトリック検定を行う 2

Example 2. ダエット薬の違いが体重に与える影響は? ダエット薬 A と B があるとする どちらか片方を 1 カ月間使い続けた人について以下のような結果を得 られたとしよう! : 薬を使って痩せた人 78 人 痩せなかった人 56 人 ; 薬を使って痩せた人 55 人 痩せなかった人 14 人 分割表 ( クロス集計表 ) 痩せた 痩せなかった : 薬 78 56 ; 薬 55 14 どっちが効果的かをどのように判断する? う ~ ん A 薬で痩せた人が 78 人で一番多いから A 薬が良く効くのかなぁ? おいおいおい! 確かに痩せた人は B 薬より A 薬を使った人の方が多いけど 痩せなかった人を A 薬と B 薬 で比べると B 薬の方が断然少なくね? どうやって比べようか??? こんな時は 比率を比べるのだ!!! A 薬を使った人の合計は 78 + 56 = 134 B 薬を使った人の合計は 55 + 14 = 69 A 薬で痩せた人の割合は 78 134 100 = 58.2% B 薬で痩せた人の割合は 55 69 100 = 79.7% B 薬の方が効きそうだ! ほんとにそう言える? ほんとにそうだと言いきるために検定をかけるのさ! 比率の差の検定 ( 比率に差があるかどうかの検定 ) χ 2 検定がよく用いられる 3

Example 3. 標高から気温を求めるには? 中島くんは富士山の頂上の気温を知りたいと思い 富士山を登り始めましたが 1000m 登ったところで力尽きてしまいました どうしても山頂の気温を知りたい中島くんは 1000m 地点からおよそ標高 50m 降りては気温を記録し この結果から山頂の気温を知ることができないだろうか? と考えました 標高 50m 100m 150m 1000m 気温 27 25 24 20 なんとかこのデータから富士山の頂上の気温を知ることができないかな~? よし! まずグラフを書いてみよう! 標高が高くなると気温は下がっているなぁ 良い感じに相関がありそうだぁ ここに回帰直線を引けば頂上の気温を求められそうだ!!! よし回帰分析をしよう! う ~ ん でも相関分析ってのもあったような う ~ ん う ~ ん 標高と気温は相関があるから相関分析??? < 相関分析と回帰分析について > 相関分析と回帰分析は同じ? 違う?? どっちだろう??? 結論から言うと 相関分析と回帰分析は全く別物なんだ! 相関分析は 2 変数の間に線形関係があるかどうか およびその強さについての分析 xとyが同等の関係 (x-y) 回帰分析は 独立変数 ( 説明変数 ) から従属変数 ( 目的変数 ) を求めるもの xが決まればyが決まるという関係 (x y) Example 3. について言えば 方向性を考えずに 標高と気温の間に関係があるかどうかを調べるのが相 関であり x を標高 y を気温としたとき 標高から気温を推定できないかと考える ( 気温から標高を推 定することは考えない ) のが回帰です すなわち 2 変数の関係を知りたいだけなら相関分析を行えばよくて 一方の変数 (x) の値から他方の変 数 (y) の値を予測したいのなら回帰分析を行う! 4

実際に検定をかけてみよう! まずは下準備をしよう! 拡張子の表示 Windows XP: フォルダ > ツール > フォルダオプション > 表示 > 詳細設定の 登録されている拡張子は表示しない のチェックを外す Windows Vista: コントロールパネル > フォルダオプション > 表示 > 詳細設定の 登録されている拡張子は表示しない のチェックを外す Mac OS X: Finder 環境設定 > 詳細の すべての拡張子を表示 をチェック データの保存 Rへの読み込み R 講習会のフォルダの中にある data.xls を開く フゔル > 名前を付けて保存 > その他の形式 > フゔルの種類を選択 > テキスト ( タブ区切り ) (*.txt) の形式で保存 フォルダの中に data.txt というフゔルが出てきたか確認する setwd( 場所 ) # 本日用いるデータを R に取り込む d <- read.table( data.txt, header = T) # d という名前にデータを入れる d # 時間が余った人はいろいろ試して下さい str(d) names(d) summary(d) plot(d) 5

Case 1. カミキリムシの幼虫とゾウムシの幼虫では どっちが重い? Case 1. は Example 1.~3. のどれに近いだろう? 言わずもがな Example 1. ですね ほんとにそう? データを見て確認しましょう d1 <- d[,4:5] # まず解析に用いる部分を抜き出す d1 データからも Example 1. に近いことがわかりますね 2 群間の関係を明らかにする検定をかけよう! では t 検定と Mann Whitney のU 検定 どっちを使ったらいいの??? 本データの母集団が正規分布を仮定できるかどうか ( パラ or ノンパラ ) を調べる必要がある 本データが正規分布するかどうか調べる必要がある Kolmogorov Smirnov ( コロモゴロフ スミノフ ) 検定正規性の検定である Rでは 頭文字をとって ks.test() という名前の関数が用意されている この検定の帰無仮説は あるデータが 正規分布をなす である p 値が有意水準より大きければ正規分布 パラメトリック t 検定を行うことができる! p 値が有意水準以下なら非正規分布 ノンパラメトリック Mann Whitney のU 検定を行う! d1 にはカミキリムシとゾウムシのデータが合わさっているので分けましょう! kamikiri <- d1[d1$host.species == "kamikiri", ] kamikiri zou <- d1[d1$host.species == "zou", ] zou 正規分布か否かを視覚的にとらえるためにヒストグラムを書きましょう! par(mfrow = c(2,1)) #1 つのグラフゖックデバスを上下 2 つに分割 hist(kamikiri$host.weight) hist(zou$host.weight) 6

正規性の検定をかけよう! ks.test(kamikiri$host.weight, "pnorm", mean = mean(kamikiri$host.weight), sd = sd(kamikiri$host.weight)) ks.test(zou$host.weight, "pnorm", mean = mean(zou$host.weight), sd = sd(zou$host.weight)) タがあるため 正しい p 値を計算することができません 上の警告メッセージは正確ではない 正確な p 値を計算できない ということであって 誤った p 値を計算しているわけではない! 正規性はあったかな? なければ ここで Mann Whitney の U 検定 (Wilcoxon の順位和検定 ) を行う! 正規性があったら次のステップだぁ! 正規性が確認できれば パラメトリック検定 すなわち この場合はt 検定を行うことができる! ただ t 検定には Studentのt 検定とWelchのt 検定の2 種類がある! どちらにしたらいいのかは 等分散性の検定を行う必要があり 等分散であれば Studentのt 検定 不等分散であれば Welchのt 検定を行う F 検定等分散性の検定である R では var.test() という関数が用意されている 帰無仮説は 2 群の母分散は等しい である p 値が有意水準より大きければ2 群は等分散 Student のt 検定 p 値が有意水準以下なら 2 群は不等分散 Welch の t 検定 等分散性の確認 var.test(kamikiri$host.weight, zou$host.weight) 等分散性はあっただろうか??? あれば Student の t 検定 なければ Welch の t 検定! これでどの検定を行えばよいか決定です!!! 今回は Welch の t 検定でした! 7

t 検定 平均値の差の検定である ( 平均値に差があるかどうか ) R では t.test() という関数が用意されている 帰無仮説は 二群の母平均は等しい である t.test(kamikiri$host.weight, zou$host.weight, var.equal = F) # 等分散の場合は F を T に変える みなさん検定結果はでましたか??? Wilcoxon の順位和検定 (Mann Whitney の U 検定 ) 正規性が仮定できなかった場合の 2 群比較の検定として R では wilcox.test() (Wilcoxon の順位和検定 ) が用意されている 帰無仮説は 2 群が同じ母集団から抽出された である まとめ正規性 等分散性の検定を行ったうえで 適切な検定方法を使用する 1 正規性の検定 :ks.test(, pnorm, mean = mean(), sd = sd()) # 平均値 mean( ), 標準偏差 sd() の正規分布か? ks.test(scale(), pnorm ) 2 正規性がある 等分散性の検定 :var.test() 3 正規性があり 等分散である Student のt 検定 :t.test(, var.equal = T) 4 正規性があり 等分散でない Welch のt 検定 :t.test(, var.equal = F) 5 正規性がない Wilcoxon の順位和検定 (Mann Whitney のU 検定 ):wilcox.test() 8

Case 2. 寄主の違いが寄生蜂の生存率に及ぼす影響は? Case 2. は Example 1.~3. のどれに近いだろう? う ~ ん Example 2. かな ~ d2 <- d[,c(4, 6)] # まず解析に用いる部分を抜き出す d2 (d2 <- na.omit(d2) # NA ( 欠損値 ) の入った行を除く ) このままのデータだと分かりづらいな ~ データを分割表の形にしよう! table(d2) t(table(d2)) # 縦横を入れ替える ( やってもやらなくてもどっちでもよい ) やっぱり Example 2. だぁ! このような表の形にしないと χ 2 検定を実行することができないので上記の table() は重要な作業である! χ 2 検定 比率の差の検定である R では chisq.test() という関数が用意されている 帰無仮説は 比率に差がな い である chisq.test(table(d2), correct = FALSE) # または chisq.test(t(table(d2)), correct = FALSE) # データに10 以下の数があるときは 少数例のためにェーツ補正を行う (correct = TURE) みなさん検定結果はでましたか??? フゖッシャーの正確確率検定 fisher.test() 2 2 分割表の2 変数の間に統計学的に有意な関係があるかどうかを検討するのに用いられる 1 2 分割表の場合もある 同じ状況でサンプルサズが大きい場合には 統計量の標本分布が近似的にχ 2 分布に等しくなるのでχ 2 検定が用いられるが サンプルサズが小さい ( 分割表のセルの期待値に10 未満のものがある ) 場合や 表中の数値の偏りが大きい場合にはこの近似は不正確である この場合には正確確率検定が文字通りに正確である 9

Case 3. 寄主生重から寄生蜂の長翅の長さ ( 体サズ ) を求めるには? 最後は もうお分かりですね そう Example 3. の実践編です plot(d) # 最初にこの命令で全データの散布図を見ておくとよいでしょう! d3 <- d[,c(5, 8)] # まず解析に用いる部分を抜き出す d3 (d3 <- na.omit(d3) # NA ( 欠損値 ) の入った行を除く ) d3 plot(d3) # 散布図を描いてみる plot(d3$host.weight, d3$wasp.head) # x 軸を host.weight y 軸を wasp.head に指定 うん! この 2 変数には正の相関がありそうだ! 回帰分析を行うことで寄主生重 ( 餌の量 ) から寄生蜂の長翅の長さ ( 体サズ ) を推定できる! 回帰分析 R では lm() という関数が用意されている 帰無仮説は 回帰直線の傾きが 0 ( つまり y は x に依存しな い ) である model <- lm(d3$wasp.wing ~ d3$host.weight) model summary(model) abline(model) # 回帰係数を求める # 回帰分析の結果の詳細 # 回帰直線を引く みなさん検定結果はでましたか??? 相関分析 cor.test(x, y, method = pearson ) cor.test(x, y, method = kendall ) cor.test(x, y, method = spearman ) パラメトリック ノンパラメトリック ノンパラメトリック 相関係数 :2 変数の散らばりの程度 ( 相関係数の絶対値が 1 に近いほど散らばりが少ない ) p 値 : 相関があるか否か ( 帰無仮説 相関係数が 0 ) 10

最後に 今日 私が紹介した検定方法以外にも まだまだたくさんの検定方法が存在します みなさん忙しいとは思いますが 各自データ解析する際に最も適した検定方法を行えるよう統計学の勉強に取り組んでもらいたいです また R に関しては 習うより 慣れましょう! 今日 R を使ったのが初めてで 難しいから嫌だ! とか 意外と簡単じゃん! とか 様々な感想を持たれたかと思います 嫌な人に無理に R を使い続けなさいとは言いませんが R は 今難しくても 使い続けることで必ず慣れることができるソフトだと思うので 余力があったらもう少し頑張って使ってみてはどうでしょう? 以上で 私の話は終わります 今日はありがとうございました R を使う人にオススメのサト http://www.okada.jp.org/rwiki/ (RjpWiki) http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html (R-Tips) 11