章対応のない 群間の量的データの検定. 検定手順 この章ではデータ間に 対 の対応のないつの標本から推定される母集団間の平均値や中央値の比較を行ないます 検定手法は 図. のようにまず正規に従うかどうかを調べます 但し この場合はつの群が共に正規に従うことを調べる必要があります 次に 群とも正規ならば F 検定を用いて等分散であるかどうかを調べます 等分散の場合は t 検定 等分散でない場合はウェルチ (Welch) の t 検定を行ないます 正規でなければノンパラメトリック検定のつウィルコクソン (Wilcoxon) の順位和検定を行ないます 正規に従うかどうかの判定方法は前章で学びましたので ここでは等分散の検定から話を始めます 正規性の検定 Yes F 検定 No Wilcoxon の順位和検定 Yes t 検定 No Welch の t 検定 図. 対応のない 群間の量的データの検定手法. 群間の等分散の検定 ( 対応なし 正規性あり ) ここではデータの正規性を認めて等分散性の検定について説明します まずつの群の不偏分散が求まっているものとして例を見ていきましょう 例 A 機を導入した会社 8 社 ( 群 ) と B 機を導入した会社 9 社 ( 群 ) について 機械 0 台当りの 年間の故障発生件数を調べ 不偏分散を求めたら以下の結果を得た 群 0.68 群.7 は正規であると仮定して 分散に差があるといえるか有意水準 5% で判定せよ 理論 F 検定正規する母集団から抽出した標本 と標本 について それぞれの母分散, を比較し 差があるかどうか有意水準 α 00% で検定を行う -
データ数 不偏分散 但し > とする ) とする 帰無仮説 H 0 : 分散に差がない 対立仮説 H : > 分散に差がある H 0 のもとで F ~ F n, n (.) ( F, n, p fdist n ) として p < α ならば H 0 を棄却して H を採択する 注 ) p fdist x, d, d ) 片側検定 ( > とするため 8 9 0. 68,. 7 のように選びます これから検定統計量 F を計算します 0.68 F 4.9659.7 自由度は 8-7 と 9-8 で 検定確率値は以下となります p fdist( 4.9659, 7, 8) 0.03776 0.04 p < 0.05 より 分散に差があるといえると判定されます 解説この検定は計算が非常に簡単です 但し 分散の比 が より大きくなるよう に標本 と標本 を選ぶ必要がありますので注意して下さい その際自由度を求めるデータ数も間違えないようにして下さい 検定結果として分散に差があると判定された場合は問題ありませんが 差があるといえないと判定された場合 正確には このデータでは差があるといえない ですから 積極的に等分散性を示しているわけではありません しかし 一般には不本意ながらこれで等分散性が示されたことにしています 検定確率値が有意水準に近い場合は t 検定と Welch の t 検定と両方試してみることをお勧めします 数学的解説この理論を簡単に調べてみましょう 各変量 X i( i, L, n ), X j ( j, L, n ) について それぞれ独立で以下の正規に従うとします X i ~ N( μ, ), ~ N( μ, ) これから χ ( n ) ( X ) x X j n i ~ χ n i -
χ ( X x n ( n ) j ~ χ n j ) となります ここに x α ( α, ) は標本平均です 自由度で割ったこれらつの変量の比をとると 以下のようになります χ ( n ) F ~ F n, n χ ( n ) 問題以下の標本データの母分散には差があるといえるか 有意水準 5% で検定せよ 標本, 06, 0,, 0, 98, 08, 95, 0, 90, 0, 97, 95, 05, 0, 3, 4, 9 標本 98, 88, 05, 99, 96, 93, 09, 06, 03, 87, 07, 0, 97, 9 データ数不偏分散標本 8 57.976 標本 4 50.0934 57.976 F.56076 50.0934 p fdist(.56, 7, 3) 0.40544 0.40 p > 0.05 より 分散に差があるといえない.3 群間の等平均の検定 ( 対応なし 正規性あり 等分散性あり ) 群のデータに対応がなく 正規性が認められ 等分散性が示された場合 等平均の t 検定を行ないます ここではその方法を学びましょう 例 ある地域の同性 同年齢の児童について ある要因の有無によるつの集団の体重 を調べたところ以下のデータを得た つの集団の平均値に差はあるといえるか 正 規性 等分散性を仮定して 有意水準 5% で判定せよ データ数 平均 不偏分散 要因なし 0 40.5.5 要因あり 0 36.4 6.0 理論 (stdent の )t 検定正規する等分散の標本 と標本 について それぞれの母平均 μ, μ を比較し 差があるかどうか有意水準 α 00% で検定を行う データ数 n, n, 標本平均 x, x, 不偏分散, とする -3
帰無仮説 H 0 : μ μ 平均に差がない 対立仮説 H : μ μ 平均に差がある ( 両側検定 ) H 0 のもとで t nn x x ~ t n + n n + n ( n ) + ( n ) (.) n + n p tdist( t, n + n, ) として p < α ならば H 0 を棄却して H を採択する 注 ) p tdist( t, d,) 検定値 片側確率 p tdist( t, d, ) 検定値 両側確率 t tinv( p, d) 両側確率 検定値 n 0 5. 5, 6. 0 として t 統計量 を求めます t 0 0 40. 36.4.637999 40 9 5.5 + 9 6.0 38 自由度は 0+0-38 として 検定確率値は以下のようになります p tdist(.637999, 38, ) 0.00 0.0 p < 0.05 ですから 平均に差があるといえると判定します 数学的解説ここでは検定統計量 t が自由度 n + n の t に従うことを調べてみましょう まず データが群 α 及び個体 i に独立に ~ N( μ, ) であるとします そのと き 平均値は以下のに従います x N(, ) x ~ n Xα i μ, N( μ, ) ~ n これから 平均を引き標準偏差で割ると x μ N(0, n x μ ), N(0, n ) ~ ~ となり これらを引いて次のようなを作ります x x x μ x μ + ~ 0, n n N nn 正規化して まず以下の統計量を与えます nn x x ~ N(0,) n + n -4
一方 分散には次の関係があることと ( n ) ( n ) ~ χ, n ~ χ n χ の性質を用いて 以下のような統計量を作ります ( n ) + ( n ) ( n ) ( n + ) これらを用いて t の定義より 検定統計量を得ます nn x x n + n ( n ) + ( n ) n + n nn n + n x x ( n ) ( n + ( n ) + n ) ~ χ ~ n + n t n + n 問題 前節問題の標本データの平均には差があると言えるか 等分散性を認めて 有意水 準 5% で判定せよ 標本, 06, 0,, 0, 98, 08, 95, 0, 90, 0, 97, 95, 05, 0, 3, 4, 9 標本 98, 88, 05, 99, 96, 93, 09, 06, 03, 87, 07, 0, 97, 9 データ数 平均 不偏分散 群 8 0.8333 57.976 群 4 98.6486 50.0934 t 8 4 0.833 98.643.59559 3 7 57.9 + 3 50.093 30 p tdist(.59559, 30, ) 0.743 0. p > 0.05 より 平均に差があるといえない.4 群間の等平均の検定 ( 対応なし 正規性あり 等分散性なし ) 群のデータに対応がなく 正規性が認められ 等分散性が見られない場合は Welch の t 検定と呼ばれる検定方法を利用します この方法は自由度を求める際に少し面倒な計算が必要です 実際に例を見てみましょう -5
例 ほぼ規模の揃った A 機を導入した会社 8 社 ( 群 ) とB 機を導入した会社 9 社 ( 群 ) について 機械 0 台当りの 年間の故障発生件数を調べ 平均と不偏分散を求め たところ以下の結果を得た 正規性があり 異分散であるとして 群間の平均に差 があるかどうか有意水準 5% で判定せよ 平均 不偏分散 群 0.56 0.68 群 8..7 理論ウェルチ (Welch) の t 検定 正規する分散の異なる標本 と標本 について 母平均 あるかどうか有意水準 α 00% で検定を行う データ数 n, n 標本平均 不偏分散, とする 帰無仮説 H 0 : μ μ 平均に差がない 対立仮説 H : μ μ 平均に差がある ( 両側検定 ) n c として 自由度を n + n c ( c) + n n H 0 のもとで t x x n + n ~ td p tdist( t, d,) として p < α ならば H 0 を棄却して H を採択する まず 自由度を求めます 0.68 8 c 0.705, d 4. 8897 0.68 8 +.7 9 となるので 自由度を 4 とします また検定統計量は以下となります 0.56 8. t.56634 0.68 8 +.7 9 これらを用いると検定確率値は以下となります p tdist(.56634, 4, ) 0.073 0.07 p < 0.05 より 平均に差があるといえると判定します 解説この検定では一般に d の値は整数にはなりません そこで自由度の値は d の小数点以下を切り捨てにします 例えば上の例で 小数点以下を切り捨てにした場合と切り -6
上げにした場合とで検定確率値の値は以下のように異なります p tdist(.56634, 4, ) 0.073 p tdist(.56634, 5, ) 0.0683 一般に自由度の大きい場合と小さい場合を比べて 小さい方が検定確率値は大きくなり 差があることを厳しく評価したいなら 小数点以下を切り捨てる方がよいと思われます 問題 以下の標本データの平均には差があるとみなせるか 正規性 異分散性を認めて 有意水準 5% で判定せよ 標本 358, 469, 397, 350, 39, 446, 393, 379, 443, 348, 455, 33, 3, 44, 40, 354, 353, 390, 434, 430 標本 335, 387, 385, 343, 394, 35, 404, 39, 330, 363, 39, 334, 348, 396, 408, 403, 45, 353, 377, 399 標本 標本 データ数 0 0 平均 390.75 37.75 不偏分散 39.46 94.934 c 0.709949 d 3.3047 3 t.590 p tdist(.590,3, ) 0.409 0.40 p > 0.05 より 平均に差があるといえない.5 群間の中央値の検定 ( 対応なし 正規性なし ) ここでは 群のデータに正規性が認められない場合について 中央値の差を検定します 中央値は平均値と並びの中心を表わす統計量のつです この方法はデータを順位データとして扱うことから 差を調べるものは平均ではなく 中央値になりますが 違いをあまり強く意識しないでも良いように思います また この検定は型によらない検定ですので 正規する場合にも適用可能です 但し 差の出易さは前 節で述べたパラメトリック検定に劣ります それでは実際の例を見てみましょう 例 -7
あるソフトウェアの販売において 支店の売上伸び率をつの販売戦略グループで比較したところ 以下の結果が得られた 群の増加は 群のそれに比べて大きいと言えるか 有意水準 5% で判定せよ 群 :6., 5.8, 9. 群 :3.5, 6.,.3, 8., 6.8 理論ウィルコクソン (Wilcoxon) の順位和検定正規するとは限らない標本 ( データ数 n ) と標本 ( データ数 n ) について 母集団の中央値 ( m, m ) を比較し 差があるかどうか有意水準 α 00% で検定する 帰無仮説 H 0 : m m 中央値に差がない対立仮説 H : m m 中央値に差がある ( 両側検定 ) 両群のデータを合せて小さい順に順位を付ける ただし 同じ値にはそれらが異なると考えた場合の順位の平均値を付ける 但し n n とする 群 ( データ数が少ない方 ) についてこの順位の合計を取り W とする n 0 の場合 W 確率 p α ( 両側検定 ) として補遺 4 の数表を参照する データ数 ( n, n ) の組で ( U /U ) の値を求め W U またはW U であれば H 0 を棄却して H を採択する n > 0 の場合 W n ( n + n + ) / / H 0 のもとで Z ~ N(0,) ( 正の部分 ) nn ( n + n + ) / (.4) p ( normsdist( Z)) < α であれば H 0 を棄却して H を採択する まず データから順位と順位和を求めます 群 データ 順位 群 群 群順位 群順位 6. 6. 3.5 5 5.8 5.8 6. 6 9. 4 9..3 4 8 3.5 5 8. 3 6. 6 6.8 7.3 8 順位和 7 9 8. 3 実際の Excel への入力は右表のように全部をつの列に入力すると順位付けなどが簡単になります 6.8 7 データ数は 3, 5 ですから データ数の少ない 群の順位和を求めます -8
W 7 データ数が 0 以下なので補遺 4 の数表を利用します 数表より n, n 5 の場合 3 両側確率 5% で U, U となります 順位合計は 7 で 6<7< ですので 群 6 と群 の中央値に差があるといえないという判定になります 問題ある商品の売上増加 ( 万円 ) を 条件を変えたつのグループで測定したところ 以下の結果が得られた 群の売上増加に差は認められるか 有意水準 5% で判定せよ 群 :7., 8.3, 5.4, 6.0, 7.3,.7, 0.5, 8.0, 9. 群 :0., 3., 7.4, 9., 6., 4.5, 6.3,.,.4, 7.4,.5, 9., 7.0 群 データ 群 データ 順位 訂正順位 7. 5.4 8.3 6 5.4 6.3 3 3 6 7. 4 4 7.3 7.3 5 5.7 7.4 6 6.5 0.5 7.4 6 6.5 8 8 8 8 9. 8.3 9 9 0. 9. 0 3. 9. 0 7.4 9. 0 9. 0. 3 3 6. 0.5 4 4 4.5. 5 5 6.3.7 6 6..4 7 7.4.5 8 8 7.4 3. 9 9.5 4.5 0 0 9. 6. 7 7 ) 群に番号を付け 群別にデータを入力する ) データの大きさ順に並べ替える [ データ- 並べ替え ] 3) データに順位を付ける rank( 数値, 範囲, 順序 ) 関数を利用する ( 順序 :0 または省略で降順,0 以外で昇順 ) -9
4) 同順位のものに訂正を加える 例 6, 6 6.5, 6.5 [(6+7)/] 0, 0, 0,, [(0++)/3] 5) 群別に順位合計をとる smif( 範囲, 検索条件, 合計範囲 ) 関数を利用する 例 smif(c:c3,, F:F3) または 再度群別に並べ直し 各群の順位合計をとる データ数順位合計 群 9 70 群 3 83 6) Wilcoxon の順位和検定数値表により 検定する n A 9, nb 3 表よりα 0. 05 のとき U 73, U 34 両側検定データ数の少ない 群の順位合計は 70 であるから 上記の範囲に入らない よって 有意水準 5% で差があるといえる 問題 正規しない 群のデータで順位和を求めたところ 以下の結果を得た それら の中央値に差があるかどうか 有意水準 5% で判定せよ データ数順位合計 群 30 65 群 40 0 W n ( n + n + ) / / 65 30 7/ / Z n n ( n + n + ) / 30 40 7/ p ( normsdist(.36769)) 0.0790 0.08 p < 0.05 より 群の中央値に差があるといえる.36769-0