第1回(全5回) Rの基礎と仮説検定

Similar documents
情報工学概論

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

EBNと疫学

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

統計的データ解析

ビジネス統計 統計基礎とエクセル分析 正誤表

Medical3

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft Word - Stattext12.doc

Microsoft Word - apstattext04.docx

基礎統計

Medical3

1 R Windows R 1.1 R The R project web R web Download [CRAN] CRAN Mirrors Japan Download and Install R [Windows 9

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Microsoft PowerPoint - sc7.ppt [互換モード]

データ科学2.pptx

Microsoft Word - 18環設演付録0508.doc

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

Microsoft Word - appendix_b

Microsoft Word - å“Ÿåłžå¸°173.docx

カイ二乗フィット検定、パラメータの誤差

PowerPoint プレゼンテーション

経済統計分析1 イントロダクション

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

青焼 1章[15-52].indd

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Microsoft PowerPoint - statistics pptx

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

スライド 1

PowerPoint プレゼンテーション

第4回

「統 計 数 学 3」

Microsoft Word - Stattext13.doc

講義「○○○○」

Microsoft PowerPoint - A1.ppt [互換モード]

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Microsoft PowerPoint ppt

Microsoft Word - apstattext03.docx

win版8日目

PowerPoint プレゼンテーション

Microsoft Word - apstattext05.docx

3章 度数分布とヒストグラム

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

モジュール1のまとめ

現代日本論演習/比較現代日本論研究演習I「統計分析の基礎」

Microsoft Word - Stattext11.doc

ANOVA

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

Microsoft Word - 補論3.2

Dependent Variable: LOG(GDP00/(E*HOUR)) Date: 02/27/06 Time: 16:39 Sample (adjusted): 1994Q1 2005Q3 Included observations: 47 after adjustments C -1.5

学習指導要領

講義「○○○○」

Microsoft PowerPoint - Econometrics pptx

統計学の基礎から学ぶ実験計画法ー1

際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

不偏推定量

異文化言語教育評価論 ⅠA 教育 心理系研究のためのデータ分析入門 第 3 章 t 検定 (2 変数間の平均の差を分析 ) 平成 26 年 5 月 7 日 報告者 :M.S. I.N. 3-1 統計的検定 統計的検定 : 設定した仮説にもとづいて集めた標本を確率論の観点から分析し 仮説検証を行うこと

スライド 1

図 1 アドインに登録する メニューバーに [BAYONET] が追加されます 登録 : Excel 2007, 2010, 2013 の場合 1 Excel ブックを開きます Excel2007 の場合 左上の Office マークをクリックします 図 2 Office マーク (Excel 20

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

3章 度数分布とヒストグラム

第7章

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

第1回

はじめに IPA/SEC では ソフトウェア開発における定量的管理の普及促進の一環として 国内の多様なソフトウェア開発のプロジェクトデータを整理 分析した ソフトウェア開発データ白書 を 2004 年より定期的に発行しています その最新版である ソフトウェア開発データ白書 を 2

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

スライド 1

解答のポイント 第 1 章問 1 ポイント仮に1 年生全員の数が 100 人であったとする.100 人全員に数学の試験を課して, それらの 100 人の個人個人の点数が母集団となる. 問 2 ポイント仮に10 人を抽出するとする. 学生に1から 100 までの番号を割り当てたとする. 箱の中に番号札

linguistics

スライド 1

Microsoft PowerPoint - ch04j

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft PowerPoint - 資料04 重回帰分析.ppt

Microsoft PowerPoint - Lecture 10.ppt [互換モード]

MT2-Slides-13.pptx

Probit , Mixed logit

散布度

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

仮説検定の手順

Microsoft PowerPoint - Econometrics

R分散分析06.indd

図表貼り付けの原則 Excel などで処理した図表を Word に貼り付ける際に注意したい事項は以下のようになります Excel グラフ の場合 1. Excel 内で, あらかじめ, グラフエリアの大きさ フォント タイトル 軸ラベルなどを十分調整しておきます 2. タイトルはグラフ内にも入れてお

数値計算法

<4D F736F F D F4390B394C5816A8C B835E C835A AA90CD82A982E78CA982E990B68A888F4B8AB595618AC7979D312D332E646F63>

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

PrimerArray® Analysis Tool Ver.2.2

統計研修R分散分析(追加).indd

Microsoft Word - Stattext07.doc

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

初めてのプログラミング

Microsoft PowerPoint - 基礎・経済統計6.ppt

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

相関係数と偏差ベクトル

Microsoft PowerPoint ppt

MedicalStatisticsForAll.indd

R-introduction.R

Transcription:

1 環境統計学ぷらす 第 1 回 ( 全 5 回?) R の基礎と仮説検定 高木俊 shun.takagi@sci.toho-u.ac.jp 2013/10/24

2 今回やること R の基礎 仮説検定 Fisher の正確確率検定 2 群の平均値の差の検定 (t 検定 ) 結果の表し方 図と表 文章中の表現 * 今後 Win 版を前提に話を進めます * 次回以降も R の操作練習 統計の解説 論文での表現の 3 つを軸に話を進めようかと思います

R の基礎 3

4 統計解析環境 R R とは 統計計算とグラフィックスのための言語 環境 Rの特徴フリーソフトオープンソース ( だれでも開発できる ) のソフトウェア豊富な拡張パッケージ R を使うには R 言語を覚える必要がある *R Commander(R cmdr) を使えば基本機能を GUI で使うこともできます

5 R の導入 省略します 現在の最新版 ( 多分 ) はR 3.0.2 (2013/09/25リリース) バージョン間で操作はそれほど変わらないはず ( 某 fficeと違って ) 使ってみましょう!

6 基本演算 入力コマンド 出力結果 +, -, *, / 加減乗除 (1+2*5)/2-0.5 5 ^ 累乗 3^2 9 sqrt() 二乗根 sqrt(9) 3 abs() 絶対値 abs(-8) 8 exp() 自然対数の累乗 exp(1) 2.7182 log() 自然対数 log(2.718282) 1 sin() 正弦関数 sin(pi/2) 1 asin() 逆正弦関数 asin(1) 1.5707 (=pi/2)

7 オブジェクトと代入 a<- 2; b<- 3 a b a+b^2 A+b^2 a<- enveco a 2 3 11 エラー : オブジェクト A がありません enveco # ; は同一行内にコマンドを続けて書く場合使う # オブジェクト同士の計算 # 大文字と小文字は区別される # オブジェクトには文字列も代入可 # オブジェクトは上書きされる a<- 2; b<- 3 a<- a^b a で何と出力されるか?

8 ベクトル c(1,2,3,4,5) c(1:5) c(8:3) rep(2,3) #2 を 3 回繰り返し seq(2,8,3) #2 から 8 まで 3 おき 1 2 3 4 5 1 2 3 4 5 8 7 6 5 4 3 2 2 2 2 5 8 ベクトル要素へのアクセス a<- c(7,6,4,0) a[2] #a の 2 番目 a[c(4,2)] #a の 4 番目と 2 番目 6 0 6 a[a[3]] は何と出力されるか?

9 ベクトル用の関数 a<- c(7,6,4,0,2,7,4) sum(a) # 和 mean(a) # 平均 sd(a) # 標準偏差 length(a) # 要素の数 max(a);min(a) # 最大 最小 median(a) # 中央値 quantile(a) # 四分位数 30 4.285714 2.627691 7 7 ; 0 4 0% 25% 50% 75% 100% 0.0 3.0 4.0 6.5 7.0 標準誤差 SD n はどのように表すか?

10 行列 # 行列の生成 ( 左の列から順に埋められる ) mat<- matrix(1:6,nrow=2,ncol=3) # 足りない要素は繰り返し matrix(1:3,nrow=2,ncol=3) #byrow=t で行優先で生成 matrix(1:6,nrow=2,ncol=3,byrow=t) [,1][,2][,3] [1,] 1 3 5 [2,] 2 4 6 1 3 2 2 1 3 1 2 3 4 5 6 # 要素へのアクセス mat[,3] mat[1,] mat[2,3] 5 6 1 3 5 6 mat[2,2:1] は何と出力されるか? # その他行列用関数 nrow(), ncol() など

11 困ったときには R の help help( 関数名 ) または? 関数名で呼び出せる?mean と入力するとmean 関数の説明がhtmlファイルで読める ( 英語 ) その関数の使い方や使い方の例が書かれている 役立つホームページ R-Tips http://cse.naro.affrc.go.jp/takezawa/r-tips/r.html RjpWiki http://www.okada.jp.org/rwiki/

12 仮説 検定

13 仮説検定 Hypothetical test とは 設定した仮説が正しいと入ってよいかどうかを統計学的 確率論的に判断するための方法 仮説検定の手順 1. 対立仮説 H 1 および帰無仮説 H 0 を設定する 2. 検定統計量を設定し データから検定統計量を計算する ( もしくは 事象の生起確率を直接計算する ) 3. 計算した統計量の値よりも極端な値が 帰無仮説が正しいと仮定したときに得られる確率 (P 値 ) を求める 4. P 値が有意水準よりも小さければ 帰無仮説を棄却する ( 大きければ棄却しない )

14 2 2 分割表の検定 (Fisher s exact test フィッシャーの正確確率検定 ) カテゴリー 1 1 2 計 カテゴリー 2 X a b a+b Y c d c+d 計 a+c b+d a+b+c+d 2 x 2 分割表 ( 上記のような表 各セルには観察数が入る ) において カテゴリー間の関係性を見たい場合に用いる 例 ) 男女間で喫煙する / しないに差があるか種 Aと種 Bで生 / 死に差があるか

15 実例 鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 研究室名 男 女 計 鏡味研 7 1 8 西廣研 3 2 5 計 10 3 13 1. 対立仮説 H 1 および帰無仮説 H 0 を設定する 対立仮説 H1 帰無仮説 H0 男女比は異なる 男女比は異ならない ( 鏡味研も西廣研も 10:3)

鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 16 2. 検定統計量を設定し データから検定統計量を計算する ( もしくは事象の生起確率を直接計算する ) 研究室名男女計 鏡味研 7 1 8 西廣研 3 2 5 計 10 3 13 グレーの部分 ( 周辺度数 ) を固定した時 上記の比率の男女比が得られる確率 (8 人から男性 7 人 女性 1 人 ) (5 人から男性 3 人 女性 2 人 ) 13 人から男性 10 人 女性 3 人が選ばれる場合の数 = 8 C 1 5 C 2 13C 3 = 0.28 R で下の式を入れれば計算されます choose(8,1)*choose(5,2)/choose(13,3)

鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 3. 計算した統計量の値よりも極端な値が 帰無仮説が正しいと仮定したときに得られる確率 (P 値 ) を求める 17 男女計 すべての組み合わせを考える 鏡味研 8 0 8 西廣研 2 3 5 計 10 3 13 8C 0 5 C 2 13C 3 = 0.035 より男女比かたよる 男 女 計 鏡味研 7 1 8 西廣研 3 2 5 計 10 3 13 男 女 計 鏡味研 6 2 8 西廣研 4 1 5 計 10 3 13 8C 1 5 C 2 13C 3 = 0.28 8C 2 5 C 1 13C 3 = 0.49 観察事象 より均等 観察事象よりも男女比がかたよる確率 (P 値 ) 0.28 + 0.035 + 0.196 = 0.511 男女計 鏡味研 5 3 8 西廣研 5 0 5 計 10 3 13 8C 3 5 C 0 13C 3 = 0.196 より男女比かたよる

鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 18 4. P 値が有意水準よりも小さければ 帰無仮説を棄却する ( 大きければ棄却しない ) 有意水準 α=0.05 < P 値 =0.511 なので 帰無仮説を棄却できない 対立仮説 ( 男女比が異なる ) は採用できない 結論 : 男女比は異なるとはいえない ( 男女比は異ならない )

鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 19 R では下記の 2 行で実行 mat<- matrix(c(7,3,1,2),ncol=2) fisher.test(mat) Fisher の正確確率検定を行う関数 Fisher's Exact Test for Count Data data: mat p-value = 0.5105 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.1564982 312.8805051 sample estimates: odds ratio 4.091145

20 練習問題 :Fisher の正確確率検定 表 1. 地点 A Bにおけるオニビシとヒシの発芽および未発芽種子数 オニビシ ヒシ 地点 A 地点 B 地点 B 発芽 169 129 101 未発芽 222 158 2 1. オニビシの発芽率は地点 A と地点 B で異なるか? 2. 地点 B におけるオニビシとヒシの発芽率は異なるか?

21 2 群の平均値の差の検定 (Student s t test スチューデントの t 検定 ) 2 群のサンプルが同じ正規母集団から得られたかどうか ( 平均値が同じ集団から得られたか ) を検定例 ) 処理 A と処理 B で成長率に差があるか場所 A と場所 B で栄養塩濃度に差があるか 母集団の値の分布 A 群のサンプル B 群のサンプル

22 t 検定を用いることのできる前提条件 正規性 等分散性 独立性 データ ( の母集団 ) が正規分布に従うこと 2 群のデータ ( の母集団 ) の分散が等しいこと 個々のデータは互いに独立であること 正規性が満たされない場合 データを変換して正規分布にする 変換 正規分布を仮定しない解析 (U 検定などノンパラメトリック検定 ) を行う 等分散性が満たされない場合 Welch の t 検定を行う R では wilcox.test() で実行

アルコール摂取量 (l/week) 0 2 4 6 23 実例 研究室間で学生のアルコール消費量は異なるか 二つの研究室 ( 研究室 k と研究室 n) で 1 週間あたりの学生のアルコールの摂取量 ( リットル / 週 ) を比較した ( 架空のデータ ) k<- c(4.3, 3.6, 5.7, 2.1, 5.9, 5.8, 7.4, 4.9) n<- c(1.2, 0.2, 1.3, 3.2, 0.9) k n 1. 対立仮説 H 1 および帰無仮説 H 0 を設定する 対立仮説 研究室間でアルコール摂取量は異なる 帰無仮説 研究室間でアルコール摂取量は異ならない

24 研究室間で学生のアルコール消費量は異なるか t 検定の前に 前提条件のチェック 正規性 Shapiro-Wilk 検定 帰無仮説 : 標本は正規母集団からサンプリングされた > shapiro.test(k) Shapiro-Wilk normality test data: k W = 0.9697, p-value = 0.8955 P>0.05 正規分布でないとは言えない 正規性 OK > shapiro.test(n) Shapiro-Wilk normality test data: n W = 0.8789, p-value = 0.3045 等分散性 F 検定 帰無仮説 :2 標本群は分散の等しい母集団からサンプリングされた > var.test(k,n) F test to compare two variances data: k and n F = 2.1329, num df = 7, denom df = 4, p-value = 0.4841 alternative hypothesis: true ratio of variances is not equal to 1 ( 略 ) P>0.05 等分散でないとは言えない 等分散性 OK

25 研究室間で学生のアルコール消費量は異なるか 2. 検定統計量を設定し データから検定統計量を計算する 統計量 t の計算 t = 平均の差 差の標準誤差 = y a y b s. e. diff データの数と分散から計算 s. e. diff = n A 1 s 2 A + n B 1 s 2 B n A + n B 2 1 + 1 n A n B この架空データの場合 Welch の t 検定の場合 s. e. diff = s2 A n A + s2 B n B t = 4.320567 R で下の式を入れれば計算されます (mean(k)-mean(n))*sqrt(length(k)+length(n)-2)/ (sqrt((length(k)-1)*var(k)+(length(n)-1)*var(n))*sqrt(1/length(k)+1/length(n))) 帰無仮説が正しい時 t 値は自由度 n A + n B 2 の t 分布に従うこの t 値が極端な値であれば 帰無仮説は正しくないといえる

確率密度 0.0 0.1 0.2 0.3 0.4 26 研究室間で学生のアルコール消費量は異なるか 3. 計算した統計量の値よりも極端な値が 帰無仮説が正しいと仮定したときに得られる確率 (P 値 ) を求める 4. P 値が有意水準よりも小さければ 帰無仮説を棄却する 自由度 11 の t 分布 t>4.32 の領域 拡大 3.0 4.0 5.0 6.0-6 -4-2 0 2 4 6 t >4.320567 となる確率 P=0.001213521 < 0.05 R で下の式を入れれば計算されます (1-pt(4.320567,11))*2 帰無仮説は棄却 研究室間でアルコール消費量は等しいとは言えない ( 研究室 k の学生は研究室 n の学生よりよく飲む )

27 R で t 検定 k<- c(4.3, 3.6, 5.7, 2.1, 5.9, 5.8, 7.4, 4.9) # データk n<- c(1.2, 0.2, 1.3, 3.2, 0.9) # データ t.test(k,n, var.equal=t) #var.equal=tで等分散仮定 Two Sample t-test data: k and n t = 4.3206, df = 11, p-value = 0.001214 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 1.767313 5.437687 sample estimates: mean of x mean of y 4.9625 1.3600

28 t.test のオプション 1 t.test(, var.equal=t) Two Sample t-test #Student の t 検定 2 t.test(, var.equal=f) #Welchのt 検定 ( デフォルト ) Welch Two Sample t-test 等分散でない場合 3 t.test(, paired=t) Paired t-test # 対応のある t 検定 対応があるデータを比較する場合例 ) 同じ人の反応を処理前後で比較同じ地点での表層と低層の比較 1 2 3 A B A B A B

1000 2000 3000 4000 5000 Chl-a 蛍光値 29 練習問題 :t 検定 表 2. 各調査地点における 7 月と 9 月の Chl-a 蛍光値 Site id 7 月 9 月 1 5307 1205 2 3932 1340 3 4875 2179 4 3051 1217 5 3552 1902 6 607 1535 7 2098 1388 8 1376 2001 9 522 2733 10 4687 1871 ( データ改変しています ) 7 月 9 月 図 1. 7 月と 9 月の Chl-a 蛍光値 7 月と 9 月の Chl-a 蛍光値の比較を行いたい 1. どのタイプの t 検定が良いか 2. Student の t 検定 Welch の t 検定 対応のある t 検定それぞれの結果は?

30 結果の 表現

31 図と表 表のことを図と呼ばないこと! 図 表 脚注は下に書く 脚注は上に書く

32 図を使うか表を使うか 図と表のどちらが分かりやすいかで判断 図にも表にもできる情報 直感的に理解しやすい図 州 ( 大陸 ) 別の人口密度 州 ( 大陸 ) 人口密度 ( 人 /Km 2 ) アジア 105.5 ヨーロッパ 31.6 アフリカ 22.7 ラテンアメリカ 22.6 北アメリカ 13.3 オセアニア 3.3 人口密度 ( 人 /Km 2 ) 120.0 100.0 80.0 60.0 40.0 20.0 0.0 州 ( 大陸 ) 別人口密度 アジアヨーロッパアフリカラテンアメリカ北アメリカオセアニア 具体的な数値が分かる 直感的に理解しやすい

33 表の表し方 ( 悪い例 ) ( 良い例 ) Site id 7 月 9 月 1 5307 1205 2 3932 1340 3 4875 2179 4 3051 1217 5 3552 1902 6 607 1535 7 2098 1388 8 1376 2001 9 522 2733 10 4687 1871 Site id 7 月 9 月 1 5307 1205 2 3932 1340 3 4875 2179 4 3051 1217 5 3552 1902 6 607 1535 7 2098 1388 8 1376 2001 9 522 2733 10 4687 1871 基本的に デフォルトの表は NG 表ツールの 罫線を引く などで整える 縦の線は基本的に不要 ( ただし プレゼンでは見やすさに応じて加える事も )

Chl-a 蛍光値 34 図の表し方 (Excel) ( 悪い例 ) ( 良い例 ) Chl-a 蛍光値 4000 4000 3500 3500 3000 3000 2500 2500 2000 2000 1500 1500 1000 1000 500 500 0 7 月 9 月 0 7 月 9 月 文字は大きく 線は太く 余計な情報は省く

35 図の表し方 (R) ( 悪い例 ) ( 良い例 ) julsep Chl-a 蛍光値 1000 2000 3000 4000 5000 jul as.factor(month) sep 0 1000 2000 3000 4000 4000 3000 2000 1000 0 7 月 9 月 t 検定など母集団の正規分布を仮定するような場合は 箱ひげ図は普通使わない 逆に比率など正規分布していないようなデータを平均 +SE で表現するのも不適 * ただし R で棒グラフの描画は若干めんどいです ( 次回やるかも )

36 図の編集 ( 一例 ) 図はエクセルや R で頑張るよりも パワーポイントなどで編集する方が楽 1. ウィンドウズメタファイル形式 (.wmf) で貼り付ける 2. 図を右クリック グループ解除で各要素を分解して再編集

37 文章表現 ( 方法 ) ( 悪い例 ) 7 月と9 月に有意差があるかt 検定した ~でt.testを行った ( 改善例 ) 7 月と 9 月の蛍光値に差が見られるか t 検定を行った 7 月と 9 月の蛍光値の比較は t 検定により行った 蛍光値に対する月の影響を見るために t 検定を行った ~ は t 検定によって検定した でも可 ~ と ~ では分散が異なっていたため (F=, P= ) Welch の t 検定を行った

38 文章表現 ( 結果 ) ( 悪い例 ) 7 月と 9 月では有意差が見られた (P<0.05) 4 月と 5 月ではあまり有意でなかったが (P<0.1) 5 月の方が若干高かった ( 改善例 ) 7 月に比べ 9 月では有意に高い値を示した (t=3.3, 自由度 =10, P=0.038) 7 月に比べ 9 月の値はおよそ 1.2 倍に上昇した (t 11 =3.3, P=0.038) 4 月と 5 月ではばらつきが大きく有意な差は見られなかったが ( t 10 =2.56 P=0.058 ) 最大値で見ると ~

39 次回予告 R の操作 データの読み込み 加工 統計解析 回帰 分散分析 論文表現 散布図 エラーバー付き棒グラフ 分散分析表 データ募集中!

40

41 ベクトル c(1,2,3,4,5) c(1:5) c(8:3) rep(2,3) #2を3 回繰り返し seq(1,9,by=2) #1から9まで2おき seq(0,10,length=5) #0 から 10 まで 5 分割 # 応用編 rep(1:3,2) rep(1:3,1:3) rep(1:3,rep(2,3)) 1 2 3 4 5 1 2 3 4 5 8 7 6 5 4 3 2 2 2 1 3 5 7 9 0.0 2.5 5.0 10.0 1 2 3 1 2 3 1 2 2 3 3 3 1 1 2 2 3 3

42 論理演算 a<- c(7,6,4,0) a==4 # 等号 a!=4 # 不等号 ( ) a>=3 # 以上 (<= 以下 ) a<3 # 未満 a!=3&a>2 #& かつ a!=3 a>4 # または T=TRUE; F=FALSE F F T F T T F T T T T F F F F T T T T F T T T T

43 ベクトル要素へのアクセス a<- c(7,6,4,0) a[2] #aの2 番目 a[c(4,2)] #aの4 番目と2 番目 a[-2] #aの2 番目以外 a[a>5&a!=6] # 条件式に合うもの a[2]<- 9 # 要素への代入 a 6 0 6 7 4 0 7 7 9 4 0 a<- c(7,6,4,0) b<- c(2,7,8,4) a[b>5] で何と出力されるか

44 ベクトル計算 # 基本的に各要素に対し計算される a<- c(7, 6, 4, 0) b<- c(2, 7, 8, 4) a+b a-3 a*(b-2) #T/F は数値的には 1/0 として扱われる (a>5)+b 9 13 12 4 4 3 1-3 0 30 24 0 3 8 8 4

45 ベクトル用の関数 ( その 2) a<- c(7,6,4,0,3,8,5) sort(a) order(a) rank(a) # 昇順整列 # 整列した時の元の順番 # 整列した時の順位 0 3 4 5 6 7 8 4 5 3 7 2 1 6 6 5 3 1 2 7 4 a<- c(7,6,4,0) b<- c(2,7,8,4) a[order(b)] で何と出力されるか?

46 実例 1: 分割表の検定 (Chi-squared test カイ 2 乗検定 ) 鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 男 女 計 鏡味研 7 1 8 西廣研 3 2 5 計 10 3 13 1. 対立仮説 H 1 および帰無仮説 H 0 を設定する 対立仮説 H1 帰無仮説 H0 男女比は異なる 男女比は異ならない ( 鏡味研も西廣研も 10:3) 注 :2 2 分割表で少サンプルの場合は近似を用いる χ 2 検定よりも Fisher の正確確率検定のほうが良いとされています

鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 観察値男女計 鏡味研 7 1 8 西廣研 3 2 5 計 10 3 13 2. 検定統計量を設定し データから検定統計量を計算する n o e 2 統計量 χ 2 = e χ 2 = 6.154 7 2 6.154 i=1 o: 観察値 observed e: 期待値 expected 期待値男女計 鏡味研 8*(10/13)=6.154 8*(3/13)=1.846 8 西廣研 5*(10/13)=3.846 5*(3/13)=1.154 5 計 10 3 13 + 1.846 1 2 1.846 + 3.846 3 2 3.846 + 1.154 2 2 47 1.154 = 1.31

0.0 0.2 0.4 0.6 0.8 1.0 1.2 鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 48 3. 計算した統計量の値よりも極端な値が 帰無仮説が正しいと仮定したときに得られる確率 (P 値 ) を求める n m 行列の分割表において 帰無仮説が正しい時のχ 2 値の分布は自由度 n 1 m 1 のχ 2 分布に従う 自由度 1 の χ 2 分布の確率密度 χ 2 1.31 の面積 :0.25 P=0.25 0 1 2 3 4 5 χ 2 = 1.31

鏡味研究室と西廣研究室の卒研生の男女比は異なるか? 4. P 値が有意水準よりも小さければ 帰無仮説を棄却する ( 大きければ棄却しない ) 49 有意水準 α=0.05 の場合 P 値 =0.25 なので 帰無仮説を棄却できない 対立仮説 ( 男女比が異なる ) は採用できない 結論 : 男女比は異なるとはいえない ( 男女比は異ならない ) R では下記の 2 行で実行 mat<- matrix(c(7,3,1,2),ncol=2) chisq.test(mat, correct=f)