Microsoft PowerPoint - A1.ppt [互換モード]

011/4/13 付録 A1( 推測統計学の基礎 ) 付録 A1 推測統計学の基礎 1. 統計学. カイ乗検定 3. 分散分析 4. 相関係数 5. 多変量解析 1. 統計学 3 統計ソフト 4 記述統計学推測統計学検定ノンパラメトリック検定名義 / 分類尺度順序 / 順位尺度パラメトリック検定間隔 / 距離尺度比例 / 比率尺度 SAS SPSS R R-Tps (http://cse.aro.affrc.go.jp/takezawa/r-tps/r.html) R による統計処理 (http://aok.s.guma-u.ac.jp/r/) ANOVA 君基本統計量 ( 要約統計量 ) 5 基本統計量 ( 要約統計量 ) 6 分布の中心をあらわす平均中央値最頻値分布のちらばりをあらわすレンジ四分位数パーセンタイル標本分散不偏分散標準偏差 (SD) 分布の形をあらわす歪度尖度 1

011/4/13 7 母集団と標本 8 確率変数確率分布期待値 (E): 確率変数の分布の平均例 )1 回 40 円でサイコロの目の10 倍のお金がもらえる得? 6 1 E (10 ) 35 6 1 母集団 N 個母数 ( パラメタ ) 母平均 μ 母分散 σ 個を無作為抽出標本 1,, 標本誤差推定する標本平均不偏分散 u, v, ˆ 標本統計量標本平均標本分散 s 不偏 : 標本統計量によって推定した値 ( 推定値 ) が母数に一致標本分布 9 標本分布 10 標本 1,, X 1 母集団に関係なく X の標本分布の平均 X 母集団母数 ( パラメタ ) 母平均 μ 母分散 σ 標本 1,, 標本 1,, X 標本統計量の分布標本分布 Xの標本分布の標準偏差標準誤差 SE 平均値の推定精度 X : サンプルサイズ ( 標本の大きさ ) X 3 母数の推定にはサンプルサイズを大きくする SD SE 11 帰無仮説 (H 0 ) 仮説検定 a = b 1SD 1SE 対立仮説 (H 1 ) 有意水準 (α) a = b a> b 5% 1% Mea±SD 生データのちらばり Mea±SE =10 平均値の推定精度標準化検定統計量臨界値棄却域に入る H 0 を棄却する X% 水準で有意 ( 例 )p<.05 入らない H 0 を棄却しない有意差なし.s.

011/4/13 大数の法則標準正規分布 N(0,1) N(μ, σ ) 14 dorm () 0.0 0.1 0. 0.3 0.4 標準化 z f ( z) 0.341 0.136 0.0 1 1 ep[ z ] -4-0 4 両側検定と片側検定 16 0.0 0.1 0. 0.3 0.4 両側検定 0.0 0.1 0. 0.3 0.4 片側検定 plot(dorm, -4, 4) vals <- seq(, 4, legth=10) dvals <- dorm(vals) polygo(c(vals,rev(vals)),c(rep(0,10),rev(dvals)), col= gray ) -4-0 4 下側確率上側確率 -4-0 4 棄却域検出力 / 検定力母集団に存在する差や相関を正しく検出できる能力 H 0 が真 18 α H 0 を棄却する H 0 を採択する H 0 が真第一種の誤り α( 危険率 ) 1-α H 1 が真 1-β( 検定力 ) 第二種の誤り β 1-β β 3

011/4/13 必要なサンプル数 19 平均 10 分散 4 の正規分布からの乱数 0 α β SD : 検出したい差必要なNはSD に比例する必要なNはに反比例する αを厳しくすると多くのnが必要となる Mea 0 5 10 15 β を小さくすると多くの N が必要となる 0 0 40 60 80 100 Sample Sze 平均 10 分散 4 の正規分布からの乱数 Varace 0 5 10 15 0 0 40 60 80 100 Sample Sze plot (c(0,10),c(0,15), type="", lab="sample Sze", ylab= Mea") for (df seq(3,101,)){ for ( 1:30) { <- rorm(df, mea=10, sd=) pots(df,mea()) } } plot (c(0,10),c(0,15), type="", lab="sample Sze", ylab="varace") for (df seq(3,101,)){ for ( 1:30) { <- rorm(df, mea=10, sd=) pots(df,var()) } } 多重検定の問題 3 4 有意水準 α で k 回の検定をおこなうと 1 (1 ) α=0.05 k k 全体の有意水準 1 0.050 0.097 3 0.143 15 0.537 パラメトリックな手法ノンパラメトリックな手法尺度水準間隔尺度比例尺度不問母集団の分布型の仮定正規分布等分散性不問標本サイズ小さすぎてはいけない 0~30 程度以上 10 程度以上対象とする統計量中央値平均値最頻値分散散布度 ( 積率 ) 相関係数連関計数順位相関係数度数検定力高い低い 4

011/4/13 ノンパラメトリック 5 検定目的パラメトリック順序尺度名義尺度母比率二項検定対応のない比率の χ 検定差対応のある比率の差 McNemar 検定 ( ) CochraQ 検定 (3 条件以上 ) 適合度 1 標本 Kolmogorov Smrov 検定 χ 検定独立性相関係数の検定順位相関係数の検定 χ 検定連関係数の検定対応のない標本の代表値の差対応のある標本の代表値の差対応のない 3 標本以上の代表値の差対応のある 3 標本以上の代表値の差 t 検定 (Welch の方法 ) Wlcoo の順位和検定 (Ma Whtey の U 検定 ) χ 検定対応のある t 検定 Wlcoo の符号付順位和検定 McNemar 検定 1 要因分散分析 ( 完全無作為化法 ) 1 要因分散分析 ( 乱塊法 ) Kruskal Walls 検定 Fredma 検定 χ 検定 CochraQ 検定検定目的多重比較パラメトリック Bofero 法 Tukey 法 Duet 法ノンパラメトリック順序尺度 Steel Dwass 法 Steel 法名義尺度 6. カイ二乗検定カイ二乗分布互いに独立な確率変数 X が標準正規分布にしたがうとき以下で与えられる確率変数 χ は χ 分布にしたがう X 1 ~ ( 1) 分布観測度数 (O 1 O O ) が期待度数 (E 1 E E ) とどの程度食い違っているか ( O E ) E 1 ~ ( 1) 分布自由度 (-p) 標本数 p 推定された母数の数 Ch-squared dstrbutos 9 30 0.0 0. 0.4 0.6 0.8 1.0 df= 1 df= df= 3 df= 4 df= 5 df= 6 df= 7 df= 8 df= 9 どれかの E が10 以下の時分割表の時イェーツの連続性の修正 ( O E 0.5) E 1 0 4 6 8 5

011/4/13 χ 検定 ( 適合度の検定 ) 31 3 カテゴリの度数が理論値と合っているかどうか chsq.test(c(40, 15, 1, 5), p=c(9, 3, 3, 1)/16) 例 ) メンデルの遺伝法則表現形質 AA Ab ab ab 理論値 9 3 3 1 観測度数 40 15 1 5 χ 検定 ( 独立性の検定 ) 33 34 質的変数が独立であるかどうか ( 連関があるかどうか ) 例 ) 男女間で差があるか? はいいいえ男子 3 6 女子 1 19 dat <- matr(c(3,6,1,19),col=, byrow=t) chsq.test(dat,correct=f) chsq.test(dat) 3. 分散分析 (ANOVA) 35 群間に差があり 36 Aalyss of Varace a 1 a パラメトリック検定帰無仮説 : 各群の平均値はすべて等しい群間の平均値の違いを群内のデータのばらつき具合 (= 分散 ) と比較し十分に大きいかどうかを判断する群間に差がない a 1 a 6

011/4/13 群間の平均値の違い 37 ばらつきの指標 : 不偏分散 38 母分散の ( 不偏 ) 推定量 a 1 a 不偏分散 u 偏差平方和 1 自由度 1 1 ( ) 群間の不偏分散と群内の不偏分散の比を F 分布を使って比較 a 1 群のばらつき a 群のばらつき 39 データ = 群平均 ( 群本来の値の推定値 )+ 群内のばらつき生データ群平均群内のばらつき 40 0 a 1 a a 1 a 7 8 7 10 6 10 = a 1 a 7 9 7 9 7 9 7 9 + a 1 a 0-1 0 1 1-1 データ = 全体平均 + 群による違い + 群内のばらつき生データ全体平均群による違い = 群間のばらつき群内のばらつき 0 a 1 a a 1 a 7 8 7 10 6 10 = a 1 a + a 1 a + a 1 a 0-1 0 1 1-1 群間のばらつき ( 群平均と全体平均の偏差平方和 : 群間平方和 S b ) (-1) + (-1) + (-1) + (-1) +1 + 1 + 1 + 1 = 8 群内のばらつき ( 生データと群平均の偏差平方和 : 群内平方和 S w ) 0 + 0 + 1 +(-1) +(-1) + 1 + (-1) + 1 = 6 41 群間のばらつきの不偏分散 ( 群間平均平方 V b ) 群間平方和 / 自由度 = 8 / 1 = 8 群内のばらつきの不偏分散 ( 群内平均平方 V w ) 群内平方和 / 自由度 = 6 / 6 = 1 4 群間のばらつき ( 群間平方和 ) の自由度 (df b ) 群数 ()- 全体平均の数 (1) = 1 群内のばらつき ( 群内平方和 ) の自由度 (df w ) データ数 (8)- 群数 () = 6 F 比群間平均平方 F 群内平均平方 F ~ F (df b, df w ) 分布 7

011/4/13 F dstrbutos ( df= 15 ) F dstrbutos ( df= 50 ) F dstrbutos ( df= 50 ) 44 probablty 0.0 0. 0.4 0.6 0.8 1.0 1. df1= 1 df1= df1= 3 df1= 4 df1= 6 df1= 10 probablty 0.0 0. 0.4 0.6 0.8 1.0 1. df1= 1 df1= df1= 3 df1= 4 df1= 6 df1= 10 probablty 0.0 0. 0.4 0.6 0.8 1.0 1. df1= 1 df1= df1= 3 df1= 4 df1= 6 df1= 10 0.0 0.5 1.0 1.5.0.5 3.0 3.5 0.0 0.5 1.0 1.5.0.5 3.0 3.5 0.0 0.5 1.0 1.5.0.5 3.0 3.5 F F F 分散分析表 45 4. 相関係数 46 要因平方和自由度平均平方 F 値 p 群間 S b df b V b =S b /df b F=V b /V w ( )( y y) 群内 S w df w V w =S w /df w 全体 S T df T Source SS df MS F p Factor 8 1 0.03 * Error 6 6 1 Total 14 7 + p <.10, * p <.05, ** p <.01, *** p<.005, **** p<.001 平均を原点として右上と左下は正右下と左上は負共分散 s y 1 N N 1 ( )( y y) (Pearso の積率 ) 相関係数 r 47 48 完全な正の相関があるような場合 s s s y y 完全な負の相関があるような場合 s s s y 共分散の取りうる範囲 ss y s s y y s y で割ると sy 1 1 s s y s s y. 7 r 1. 強い相関あり. 4 r.7. r.4 弱い相関あり 0 r. 比較的強い相関ありほとんど相関なし 8

011/4/13 相関係数の留意点外れ値の影響切断効果分割相関 ( 層別相関 ) 曲線相関疑似相関 49 外れ値の影響 r = -.3 r =.844 50 51 5 切断効果全体で r =.765 分割相関 ( 送別相関 ) 横軸で 6 以上で切ると r =.39 53 54 曲線相関疑似相関 9

011/4/13 5. 多変量解析 55 目的変数量的説明変数質的あり量的重回帰分析数量化 Ⅰ 類質的判別分析数量化 Ⅱ 類なし主成分分析因子分析多次元尺度構成法数量化 Ⅲ 類数量化 Ⅳ 類その他クラスタ分析共分散構造分析 10