011/4/13 付録 A1( 推測統計学の基礎 ) 付録 A1 推測統計学の基礎 1. 統計学. カイ 乗検定 3. 分散分析 4. 相関係数 5. 多変量解析 1. 統計学 3 統計ソフト 4 記述統計学 推測統計学 検定 ノンパラメトリック検定名義 / 分類尺度順序 / 順位尺度パラメトリック検定間隔 / 距離尺度比例 / 比率尺度 SAS SPSS R R-Tps (http://cse.aro.affrc.go.jp/takezawa/r-tps/r.html) R による統計処理 (http://aok.s.guma-u.ac.jp/r/) ANOVA 君 基本統計量 ( 要約統計量 ) 5 基本統計量 ( 要約統計量 ) 6 分布の中心をあらわす 平均 中央値 最頻値 分布のちらばりをあらわす レンジ 四分位数 パーセンタイル 標本分散 不偏分散 標準偏差 (SD) 分布の形をあらわす 歪度 尖度 1
011/4/13 7 母集団と標本 8 確率変数確率分布期待値 (E): 確率変数の分布の平均例 )1 回 40 円で サイコロの目の10 倍のお金がもらえる 得? 6 1 E (10 ) 35 6 1 母集団 N 個 母数 ( パラメタ ) 母平均 μ 母分散 σ 個を無作為抽出 標本 1,, 標本誤差 推定する 標本平均 不偏分散 u, v, ˆ 標本統計量 標本平均 標本分散 s 不偏 : 標本統計量によって推定した値 ( 推定値 ) が母数に一致 標本分布 9 標本分布 10 標本 1,, X 1 母集団に関係なく X の標本分布の平均 X 母集団 母数 ( パラメタ ) 母平均 μ 母分散 σ 標本 1,, 標本 1,, X 標本統計量の分布 標本分布 Xの標本分布の標準偏差 標準誤差 SE 平均値の推定精度 X : サンプルサイズ ( 標本の大きさ ) X 3 母数の推定にはサンプルサイズを大きくする SD SE 11 帰無仮説 (H 0 ) 仮説検定 a = b 1SD 1SE 対立仮説 (H 1 ) 有意水準 (α) a = b a> b 5% 1% Mea±SD 生データのちらばり Mea±SE =10 平均値の推定精度 標準化 検定統計量 臨界値 棄却域に入る H 0 を棄却する X% 水準で有意 ( 例 )p<.05 入らない H 0 を棄却しない 有意差なし.s.
011/4/13 大数の法則 標準正規分布 N(0,1) N(μ, σ ) 14 dorm () 0.0 0.1 0. 0.3 0.4 標準化 z f ( z) 0.341 0.136 0.0 1 1 ep[ z ] -4-0 4 両側検定と片側検定 16 0.0 0.1 0. 0.3 0.4 両側検定 0.0 0.1 0. 0.3 0.4 片側検定 plot(dorm, -4, 4) vals <- seq(, 4, legth=10) dvals <- dorm(vals) polygo(c(vals,rev(vals)),c(rep(0,10),rev(dvals)), col= gray ) -4-0 4 下側確率 上側確率 -4-0 4 棄却域 検出力 / 検定力 母集団に存在する差や相関を正しく検出できる能力 H 0 が真 18 α H 0 を棄却する H 0 を採択する H 0 が真第一種の誤り α( 危険率 ) 1-α H 1 が真 1-β( 検定力 ) 第二種の誤り β 1-β β 3
011/4/13 必要なサンプル数 19 平均 10 分散 4 の正規分布からの乱数 0 α β SD : 検出したい差 必要なNはSD に比例する 必要なNは に反比例する αを厳しくすると多くのnが必要となる Mea 0 5 10 15 β を小さくすると多くの N が必要となる 0 0 40 60 80 100 Sample Sze 平均 10 分散 4 の正規分布からの乱数 Varace 0 5 10 15 0 0 40 60 80 100 Sample Sze plot (c(0,10),c(0,15), type="", lab="sample Sze", ylab= Mea") for (df seq(3,101,)){ for ( 1:30) { <- rorm(df, mea=10, sd=) pots(df,mea()) } } plot (c(0,10),c(0,15), type="", lab="sample Sze", ylab="varace") for (df seq(3,101,)){ for ( 1:30) { <- rorm(df, mea=10, sd=) pots(df,var()) } } 多重検定の問題 3 4 有意水準 α で k 回の検定をおこなうと 1 (1 ) α=0.05 k k 全体の有意水準 1 0.050 0.097 3 0.143 15 0.537 パラメトリックな手法 ノンパラメトリックな手法 尺度水準 間隔尺度 比例尺度 不問 母集団の分布型の仮定 正規分布等分散性 不問 標本サイズ 小さすぎてはいけない 0~30 程度以上 10 程度以上 対象とする統計量中央値平均値最頻値 分散 散布度 ( 積率 ) 相関係数 連関計数順位相関係数 度数 検定力 高い 低い 4
011/4/13 ノンパラメトリック 5 検定目的 パラメトリック 順序尺度 名義尺度 母比率 二項検定 対応のない比率の χ 検定 差 対応のある比率の差 McNemar 検定 ( ) CochraQ 検定 (3 条件以上 ) 適合度 1 標本 Kolmogorov Smrov 検定 χ 検定 独立性 相関係数の検定 順位相関係数の検定 χ 検定連関係数の検定 対応のない 標本の代表値の差対応のある 標本の代表値の差 対応のない 3 標本以上の代表値の差 対応のある 3 標本以上の代表値の差 t 検定 (Welch の方法 ) Wlcoo の順位和検定 (Ma Whtey の U 検定 ) χ 検定 対応のある t 検定 Wlcoo の符号付順位和検定 McNemar 検定 1 要因分散分析 ( 完全無作為化法 ) 1 要因分散分析 ( 乱塊法 ) Kruskal Walls 検定 Fredma 検定 χ 検定 CochraQ 検定 検定目的 多重比較 パラメトリック Bofero 法 Tukey 法 Duet 法 ノンパラメトリック順序尺度 Steel Dwass 法 Steel 法 名義尺度 6. カイ二乗検定 カイ二乗分布 互いに独立な確率変数 X が標準正規分布にしたがうとき 以下で与えられる確率変数 χ は χ 分布にしたがう X 1 ~ ( 1) 分布 観測度数 (O 1 O O ) が期待度数 (E 1 E E ) とどの程度食い違っているか ( O E ) E 1 ~ ( 1) 分布 自由度 (-p) 標本数 p 推定された母数の数 Ch-squared dstrbutos 9 30 0.0 0. 0.4 0.6 0.8 1.0 df= 1 df= df= 3 df= 4 df= 5 df= 6 df= 7 df= 8 df= 9 どれかの E が10 以下の時 分割表の時 イェーツの連続性の修正 ( O E 0.5) E 1 0 4 6 8 5
011/4/13 χ 検定 ( 適合度の検定 ) 31 3 カテゴリの度数が理論値と合っているかどうか chsq.test(c(40, 15, 1, 5), p=c(9, 3, 3, 1)/16) 例 ) メンデルの遺伝法則 表現形質 AA Ab ab ab 理論値 9 3 3 1 観測度数 40 15 1 5 χ 検定 ( 独立性の検定 ) 33 34 質的変数が独立であるかどうか ( 連関があるかどうか ) 例 ) 男女間で差があるか? はい いいえ 男子 3 6 女子 1 19 dat <- matr(c(3,6,1,19),col=, byrow=t) chsq.test(dat,correct=f) chsq.test(dat) 3. 分散分析 (ANOVA) 35 群間に差があり 36 Aalyss of Varace a 1 a パラメトリック検定 帰無仮説 : 各群の平均値はすべて等しい群間の平均値の違いを群内のデータのばらつき具合 (= 分散 ) と比較し 十分に大きいかどうかを判断する 群間に差がない a 1 a 6
011/4/13 群間の平均値の違い 37 ばらつきの指標 : 不偏分散 38 母分散の ( 不偏 ) 推定量 a 1 a 不偏分散 u 偏差平方和 1 自由度 1 1 ( ) 群間の不偏分散と群内の不偏分散の比を F 分布を使って比較 a 1 群のばらつき a 群のばらつき 39 データ = 群平均 ( 群本来の値の推定値 )+ 群内のばらつき 生データ 群平均 群内のばらつき 40 0 a 1 a a 1 a 7 8 7 10 6 10 = a 1 a 7 9 7 9 7 9 7 9 + a 1 a 0-1 0 1 1-1 データ = 全体平均 + 群による違い + 群内のばらつき 生データ 全体平均 群による違い = 群間のばらつき 群内のばらつき 0 a 1 a a 1 a 7 8 7 10 6 10 = a 1 a + a 1 a + a 1 a 0-1 0 1 1-1 群間のばらつき ( 群平均と全体平均の偏差平方和 : 群間平方和 S b ) (-1) + (-1) + (-1) + (-1) +1 + 1 + 1 + 1 = 8 群内のばらつき ( 生データと群平均の偏差平方和 : 群内平方和 S w ) 0 + 0 + 1 +(-1) +(-1) + 1 + (-1) + 1 = 6 41 群間のばらつきの不偏分散 ( 群間平均平方 V b ) 群間平方和 / 自由度 = 8 / 1 = 8 群内のばらつきの不偏分散 ( 群内平均平方 V w ) 群内平方和 / 自由度 = 6 / 6 = 1 4 群間のばらつき ( 群間平方和 ) の自由度 (df b ) 群数 ()- 全体平均の数 (1) = 1 群内のばらつき ( 群内平方和 ) の自由度 (df w ) データ数 (8)- 群数 () = 6 F 比 群間平均平方 F 群内平均平方 F ~ F (df b, df w ) 分布 7
011/4/13 F dstrbutos ( df= 15 ) F dstrbutos ( df= 50 ) F dstrbutos ( df= 50 ) 44 probablty 0.0 0. 0.4 0.6 0.8 1.0 1. df1= 1 df1= df1= 3 df1= 4 df1= 6 df1= 10 probablty 0.0 0. 0.4 0.6 0.8 1.0 1. df1= 1 df1= df1= 3 df1= 4 df1= 6 df1= 10 probablty 0.0 0. 0.4 0.6 0.8 1.0 1. df1= 1 df1= df1= 3 df1= 4 df1= 6 df1= 10 0.0 0.5 1.0 1.5.0.5 3.0 3.5 0.0 0.5 1.0 1.5.0.5 3.0 3.5 0.0 0.5 1.0 1.5.0.5 3.0 3.5 F F F 分散分析表 45 4. 相関係数 46 要因 平方和 自由度 平均平方 F 値 p 群間 S b df b V b =S b /df b F=V b /V w ( )( y y) 群内 S w df w V w =S w /df w 全体 S T df T Source SS df MS F p Factor 8 1 0.03 * Error 6 6 1 Total 14 7 + p <.10, * p <.05, ** p <.01, *** p<.005, **** p<.001 平均を原点として 右上と左下は正右下と左上は負共分散 s y 1 N N 1 ( )( y y) (Pearso の積率 ) 相関係数 r 47 48 完全な正の相関があるような場合 s s s y y 完全な負の相関があるような場合 s s s y 共分散の取りうる範囲 ss y s s y y s y で割ると sy 1 1 s s y s s y. 7 r 1. 強い相関あり. 4 r.7. r.4 弱い相関あり 0 r. 比較的強い相関あり ほとんど相関なし 8
011/4/13 相関係数の留意点 外れ値の影響 切断効果 分割相関 ( 層別相関 ) 曲線相関 疑似相関 49 外れ値の影響 r = -.3 r =.844 50 51 5 切断効果 全体で r =.765 分割相関 ( 送別相関 ) 横軸で 6 以上で切ると r =.39 53 54 曲線相関 疑似相関 9
011/4/13 5. 多変量解析 55 目的変数 量的 説明変数 質的 あり量的 重回帰分析 数量化 Ⅰ 類 質的 判別分析 数量化 Ⅱ 類 なし 主成分分析因子分析多次元尺度構成法 数量化 Ⅲ 類数量化 Ⅳ 類 その他 クラスタ分析共分散構造分析 10