Microsoft Word - Stattext12.doc

章対応のない群間の量的データの検定. 検定手順この章ではデータ間に対の対応のないつの標本から推定される母集団間の平均値や中央値の比較を行ないます検定手法は図. のようにまず正規に従うかどうかを調べます但しこの場合はつの群が共に正規に従うことを調べる必要があります次に群とも正規ならば F 検定を用いて等分散であるかどうかを調べます等分散の場合は t 検定等分散でない場合はウェルチ (Welch) の t 検定を行ないます正規でなければノンパラメトリック検定のつウィルコクソン (Wilcoxon) の順位和検定を行ないます正規に従うかどうかの判定方法は前章で学びましたのでここでは等分散の検定から話を始めます正規性の検定 Yes F 検定 No Wilcoxon の順位和検定 Yes t 検定 No Welch の t 検定図. 対応のない群間の量的データの検定手法. 群間の等分散の検定 ( 対応なし正規性あり ) ここではデータの正規性を認めて等分散性の検定について説明しますまずつの群の不偏分散が求まっているものとして例を見ていきましょう例 A 機を導入した会社 8 社 ( 群 ) と B 機を導入した会社 9 社 ( 群 ) について機械 0 台当りの年間の故障発生件数を調べ不偏分散を求めたら以下の結果を得た群 0.68 群.7 は正規であると仮定して分散に差があるといえるか有意水準 5% で判定せよ理論 F 検定正規する母集団から抽出した標本と標本についてそれぞれの母分散, を比較し差があるかどうか有意水準 α 00% で検定を行う -

データ数不偏分散但し > とする ) とする帰無仮説 H 0 : 分散に差がない対立仮説 H : > 分散に差がある H 0 のもとで F ~ F n, n (.) ( F, n, p fdist n ) として p < α ならば H 0 を棄却して H を採択する注 ) p fdist x, d, d ) 片側検定 ( > とするため 8 9 0. 68,. 7 のように選びますこれから検定統計量 F を計算します 0.68 F 4.9659.7 自由度は 8-7 と 9-8 で検定確率値は以下となります p fdist( 4.9659, 7, 8) 0.03776 0.04 p < 0.05 より分散に差があるといえると判定されます解説この検定は計算が非常に簡単です但し分散の比がより大きくなるように標本と標本を選ぶ必要がありますので注意して下さいその際自由度を求めるデータ数も間違えないようにして下さい検定結果として分散に差があると判定された場合は問題ありませんが差があるといえないと判定された場合正確にはこのデータでは差があるといえないですから積極的に等分散性を示しているわけではありませんしかし一般には不本意ながらこれで等分散性が示されたことにしています検定確率値が有意水準に近い場合は t 検定と Welch の t 検定と両方試してみることをお勧めします数学的解説この理論を簡単に調べてみましょう各変量 X i( i, L, n ), X j ( j, L, n ) についてそれぞれ独立で以下の正規に従うとします X i ~ N( μ, ), ~ N( μ, ) これから χ ( n ) ( X ) x X j n i ~ χ n i -

χ ( X x n ( n ) j ~ χ n j ) となりますここに x α ( α, ) は標本平均です自由度で割ったこれらつの変量の比をとると以下のようになります χ ( n ) F ~ F n, n χ ( n ) 問題以下の標本データの母分散には差があるといえるか有意水準 5% で検定せよ標本, 06, 0,, 0, 98, 08, 95, 0, 90, 0, 97, 95, 05, 0, 3, 4, 9 標本 98, 88, 05, 99, 96, 93, 09, 06, 03, 87, 07, 0, 97, 9 データ数不偏分散標本 8 57.976 標本 4 50.0934 57.976 F.56076 50.0934 p fdist(.56, 7, 3) 0.40544 0.40 p > 0.05 より分散に差があるといえない.3 群間の等平均の検定 ( 対応なし正規性あり等分散性あり ) 群のデータに対応がなく正規性が認められ等分散性が示された場合等平均の t 検定を行ないますここではその方法を学びましょう例ある地域の同性同年齢の児童についてある要因の有無によるつの集団の体重を調べたところ以下のデータを得たつの集団の平均値に差はあるといえるか正規性等分散性を仮定して有意水準 5% で判定せよデータ数平均不偏分散要因なし 0 40.5.5 要因あり 0 36.4 6.0 理論 (stdent の )t 検定正規する等分散の標本と標本についてそれぞれの母平均 μ, μ を比較し差があるかどうか有意水準 α 00% で検定を行うデータ数 n, n, 標本平均 x, x, 不偏分散, とする -3

帰無仮説 H 0 : μ μ 平均に差がない対立仮説 H : μ μ 平均に差がある ( 両側検定 ) H 0 のもとで t nn x x ~ t n + n n + n ( n ) + ( n ) (.) n + n p tdist( t, n + n, ) として p < α ならば H 0 を棄却して H を採択する注 ) p tdist( t, d,) 検定値片側確率 p tdist( t, d, ) 検定値両側確率 t tinv( p, d) 両側確率検定値 n 0 5. 5, 6. 0 として t 統計量を求めます t 0 0 40. 36.4.637999 40 9 5.5 + 9 6.0 38 自由度は 0+0-38 として検定確率値は以下のようになります p tdist(.637999, 38, ) 0.00 0.0 p < 0.05 ですから平均に差があるといえると判定します数学的解説ここでは検定統計量 t が自由度 n + n の t に従うことを調べてみましょうまずデータが群 α 及び個体 i に独立に ~ N( μ, ) であるとしますそのとき平均値は以下のに従います x N(, ) x ~ n Xα i μ, N( μ, ) ~ n これから平均を引き標準偏差で割ると x μ N(0, n x μ ), N(0, n ) ~ ~ となりこれらを引いて次のようなを作ります x x x μ x μ + ~ 0, n n N nn 正規化してまず以下の統計量を与えます nn x x ~ N(0,) n + n -4

一方分散には次の関係があることと ( n ) ( n ) ~ χ, n ~ χ n χ の性質を用いて以下のような統計量を作ります ( n ) + ( n ) ( n ) ( n + ) これらを用いて t の定義より検定統計量を得ます nn x x n + n ( n ) + ( n ) n + n nn n + n x x ( n ) ( n + ( n ) + n ) ~ χ ~ n + n t n + n 問題前節問題の標本データの平均には差があると言えるか等分散性を認めて有意水準 5% で判定せよ標本, 06, 0,, 0, 98, 08, 95, 0, 90, 0, 97, 95, 05, 0, 3, 4, 9 標本 98, 88, 05, 99, 96, 93, 09, 06, 03, 87, 07, 0, 97, 9 データ数平均不偏分散群 8 0.8333 57.976 群 4 98.6486 50.0934 t 8 4 0.833 98.643.59559 3 7 57.9 + 3 50.093 30 p tdist(.59559, 30, ) 0.743 0. p > 0.05 より平均に差があるといえない.4 群間の等平均の検定 ( 対応なし正規性あり等分散性なし ) 群のデータに対応がなく正規性が認められ等分散性が見られない場合は Welch の t 検定と呼ばれる検定方法を利用しますこの方法は自由度を求める際に少し面倒な計算が必要です実際に例を見てみましょう -5

例ほぼ規模の揃った A 機を導入した会社 8 社 ( 群 ) とB 機を導入した会社 9 社 ( 群 ) について機械 0 台当りの年間の故障発生件数を調べ平均と不偏分散を求めたところ以下の結果を得た正規性があり異分散であるとして群間の平均に差があるかどうか有意水準 5% で判定せよ平均不偏分散群 0.56 0.68 群 8..7 理論ウェルチ (Welch) の t 検定正規する分散の異なる標本と標本について母平均あるかどうか有意水準 α 00% で検定を行うデータ数 n, n 標本平均不偏分散, とする帰無仮説 H 0 : μ μ 平均に差がない対立仮説 H : μ μ 平均に差がある ( 両側検定 ) n c として自由度を n + n c ( c) + n n H 0 のもとで t x x n + n ~ td p tdist( t, d,) として p < α ならば H 0 を棄却して H を採択するまず自由度を求めます 0.68 8 c 0.705, d 4. 8897 0.68 8 +.7 9 となるので自由度を 4 としますまた検定統計量は以下となります 0.56 8. t.56634 0.68 8 +.7 9 これらを用いると検定確率値は以下となります p tdist(.56634, 4, ) 0.073 0.07 p < 0.05 より平均に差があるといえると判定します解説この検定では一般に d の値は整数にはなりませんそこで自由度の値は d の小数点以下を切り捨てにします例えば上の例で小数点以下を切り捨てにした場合と切り -6

上げにした場合とで検定確率値の値は以下のように異なります p tdist(.56634, 4, ) 0.073 p tdist(.56634, 5, ) 0.0683 一般に自由度の大きい場合と小さい場合を比べて小さい方が検定確率値は大きくなり差があることを厳しく評価したいなら小数点以下を切り捨てる方がよいと思われます問題以下の標本データの平均には差があるとみなせるか正規性異分散性を認めて有意水準 5% で判定せよ標本 358, 469, 397, 350, 39, 446, 393, 379, 443, 348, 455, 33, 3, 44, 40, 354, 353, 390, 434, 430 標本 335, 387, 385, 343, 394, 35, 404, 39, 330, 363, 39, 334, 348, 396, 408, 403, 45, 353, 377, 399 標本標本データ数 0 0 平均 390.75 37.75 不偏分散 39.46 94.934 c 0.709949 d 3.3047 3 t.590 p tdist(.590,3, ) 0.409 0.40 p > 0.05 より平均に差があるといえない.5 群間の中央値の検定 ( 対応なし正規性なし ) ここでは群のデータに正規性が認められない場合について中央値の差を検定します中央値は平均値と並びの中心を表わす統計量のつですこの方法はデータを順位データとして扱うことから差を調べるものは平均ではなく中央値になりますが違いをあまり強く意識しないでも良いように思いますまたこの検定は型によらない検定ですので正規する場合にも適用可能です但し差の出易さは前節で述べたパラメトリック検定に劣りますそれでは実際の例を見てみましょう例 -7

あるソフトウェアの販売において支店の売上伸び率をつの販売戦略グループで比較したところ以下の結果が得られた群の増加は群のそれに比べて大きいと言えるか有意水準 5% で判定せよ群 :6., 5.8, 9. 群 :3.5, 6.,.3, 8., 6.8 理論ウィルコクソン (Wilcoxon) の順位和検定正規するとは限らない標本 ( データ数 n ) と標本 ( データ数 n ) について母集団の中央値 ( m, m ) を比較し差があるかどうか有意水準 α 00% で検定する帰無仮説 H 0 : m m 中央値に差がない対立仮説 H : m m 中央値に差がある ( 両側検定 ) 両群のデータを合せて小さい順に順位を付けるただし同じ値にはそれらが異なると考えた場合の順位の平均値を付ける但し n n とする群 ( データ数が少ない方 ) についてこの順位の合計を取り W とする n 0 の場合 W 確率 p α ( 両側検定 ) として補遺 4 の数表を参照するデータ数 ( n, n ) の組で ( U /U ) の値を求め W U またはW U であれば H 0 を棄却して H を採択する n > 0 の場合 W n ( n + n + ) / / H 0 のもとで Z ~ N(0,) ( 正の部分 ) nn ( n + n + ) / (.4) p ( normsdist( Z)) < α であれば H 0 を棄却して H を採択するまずデータから順位と順位和を求めます群データ順位群群群順位群順位 6. 6. 3.5 5 5.8 5.8 6. 6 9. 4 9..3 4 8 3.5 5 8. 3 6. 6 6.8 7.3 8 順位和 7 9 8. 3 実際の Excel への入力は右表のように全部をつの列に入力すると順位付けなどが簡単になります 6.8 7 データ数は 3, 5 ですからデータ数の少ない群の順位和を求めます -8

W 7 データ数が 0 以下なので補遺 4 の数表を利用します数表より n, n 5 の場合 3 両側確率 5% で U, U となります順位合計は 7 で 6<7< ですので群 6 と群の中央値に差があるといえないという判定になります問題ある商品の売上増加 ( 万円 ) を条件を変えたつのグループで測定したところ以下の結果が得られた群の売上増加に差は認められるか有意水準 5% で判定せよ群 :7., 8.3, 5.4, 6.0, 7.3,.7, 0.5, 8.0, 9. 群 :0., 3., 7.4, 9., 6., 4.5, 6.3,.,.4, 7.4,.5, 9., 7.0 群データ群データ順位訂正順位 7. 5.4 8.3 6 5.4 6.3 3 3 6 7. 4 4 7.3 7.3 5 5.7 7.4 6 6.5 0.5 7.4 6 6.5 8 8 8 8 9. 8.3 9 9 0. 9. 0 3. 9. 0 7.4 9. 0 9. 0. 3 3 6. 0.5 4 4 4.5. 5 5 6.3.7 6 6..4 7 7.4.5 8 8 7.4 3. 9 9.5 4.5 0 0 9. 6. 7 7 ) 群に番号を付け群別にデータを入力する ) データの大きさ順に並べ替える [ データ- 並べ替え ] 3) データに順位を付ける rank( 数値, 範囲, 順序 ) 関数を利用する ( 順序 :0 または省略で降順,0 以外で昇順 ) -9

4) 同順位のものに訂正を加える例 6, 6 6.5, 6.5 [(6+7)/] 0, 0, 0,, [(0++)/3] 5) 群別に順位合計をとる smif( 範囲, 検索条件, 合計範囲 ) 関数を利用する例 smif(c:c3,, F:F3) または再度群別に並べ直し各群の順位合計をとるデータ数順位合計群 9 70 群 3 83 6) Wilcoxon の順位和検定数値表により検定する n A 9, nb 3 表よりα 0. 05 のとき U 73, U 34 両側検定データ数の少ない群の順位合計は 70 であるから上記の範囲に入らないよって有意水準 5% で差があるといえる問題正規しない群のデータで順位和を求めたところ以下の結果を得たそれらの中央値に差があるかどうか有意水準 5% で判定せよデータ数順位合計群 30 65 群 40 0 W n ( n + n + ) / / 65 30 7/ / Z n n ( n + n + ) / 30 40 7/ p ( normsdist(.36769)) 0.0790 0.08 p < 0.05 より群の中央値に差があるといえる.36769-0