Microsoft Word - Stattext11.doc

章母集団と指定値との量的データの検定. 検定手順前章で質的データの検定手法について説明しましたのでここからは量的データの検定について話します量的データの検定は少し分量が多くなりますので母集団と指定値との検定対応のない群間の検定対応のある群間の検定と 3つに章を分けて話を進めることにしますここでは母集団と指定値との検定について説明します例えば全国平均が分かっている場合である地域の標本と全国平均を比較するような場合や理論的に与えた結果を実験結果と比較する場合等がこれに当たりますこの検定方法は分布に正規性があるかどうかによって図 - のようにつに分かれます正規性の検定 Yes 母平均の t 検定 No Wlcoxon の符号付順位和検定図 - 母集団と指定値との量的データの検定手法そのためにまず得られたデータが正規分布に従うかどうか調べてみる必要がありますそこでこの章では最初にこの正規性の調べ方について説明しますその後これらの検定手法について解説しますまた最後に母平均と指定値との比較の問題で有意差を得るために必要なデータ数の求め方について簡単に触れてみます. 正規性の検定データが正規分布しているかどうか調べる方法として 4. 節でヒストグラムを描く方法を学びましたがこれはある程度データ数が多くないと使えませんそれではデータ数が少ない場合はどうするのでしょうかこの場合には統計処理用に作られた正規確率紙というものを利用する方法がありますしかしこの正規確率紙を手に入れるのは少々厄介ですのでこれに変わる方法を Excel で考えてみます原理は正規確率紙と同じですでは具体的に例を用いて説明します例 -

以下のデータの正規性を調べよ.5,., 3.4,.8, 4.6, 3., 3.8, 4.8, 4.0 解答 Excel を用いた視覚的方法について順を追って説明します ) データを入力する ( データ数を n とする ) ) データを小さい順に並べ替えるこれは範囲を指定しメニュー [ データ- 並べ替え ] で昇順に並べ替えます 3) データにから番号を振るデータの左側にから順番にデータの末尾まで数字を振ります 4) 累積比率を求める p = は番号 n + 先ほど入力した番号を使って累積比率を計算しデータの横に入力します 5) 関数 z = normsnv( p ) を用いて座標値 z を求める累積比率 p を用いてこれに相当する正規分布の座標値 z を求めますここで座標値 z と下側確率 p の関係は以下の図のようになります p -p 図 - 正規分布と確率 p = normsdst z ), z = normsnv( p ) z ( 6) データと座標値を用いて散布図を描くデータ x ( 横軸 ) と上の座標値 z ( 縦軸 ) を用いて次元の散布図を描きます 7) グラフに近似直線を加えるグラフにメニュー [ グラフ- 近似曲線の追加 ] を用いて近似直線を加えます 8) 直線に近く並んでいるようなら正規分布この直線の近傍に点が散らばっているようなら正規分布とみなされます x -

表 - 正規確率紙の方法番号データ累積比率 x 値. 0. -.855.5 0. -0.846 3.8 0.3-0.5440 4 3. 0.4-0.5335 5 3.4 0.5 0.00000 6 3.8 0.6 0.5335 7 4.0 0.7 0.5440 8 4.6 0.8 0.846 9 4.8 0.9.855 この例題の場合データが直線状に並んでいると認められるので正規分布とみなせます解説ここではなぜこのようなやり方で正規性が示されるのか考えてみます今確率変数 X が N ( μ, ) 分布であるとしますつのデータ値を x として X x である確率 p は p = normsdst( ( x μ) ) のように表されますここに変数 ( X μ) は標準正規分布に従い normsdst( ) は標準正規分布の下側確率を求める Excel 関数でしたこの確率は近似的にデータ数で見た累積比率に等しいと考えてみます x μ p = normsdst n + ここに n はデータの個数は小さいほうから数えたデータ x の番号です右辺の近似式から逆に標準正規分布の座標値を求めて z = normsnv( ( n + )) とすると以下のように z は近似的に x の次関数となります = x μ μ z normsnv = n + x このようにデータが正規分布に従うならば上の z を y 軸に x を x 軸にして散布図を描くとデータは直線状に並ぶはずですもしこの直線から外れるような場合があればこれはデータの正規性に問題があるということですしかし確率を ( n +) で近似していますので完全に直線状に並ぶという訳にもいきません大体直線に並ぶという微妙な基準しかありません上の方法は直線に並んでいるという直感的な感覚が頼りでしたから当然人によって判断基準も変わってきますそこでこれをはっきりさせるために数値的な方法も考案されています代表的な方法にはコルモゴロフ-スミルノフ (Kolmogorov-Smrnov).5 0.5-0.5 - -.5 0.5 3 3.5 4 4.5 5 図 - 正規確率紙の方法 -3

の正規性の検定やシャピロ-ウィルク (Shapro-Wlk) の W 統計量を用いた方法等があります後者の方法で例題について正規分布と考えられる確率を求めてみると p < 0.947( 統計ソフト statstca による ) となりますまた以下の問題にも参考のためにこの確率の値を付記しておきますグラフを見た場合の基準にしてもらえればと思います問題以下のデータの正規性を調べよ 507, 49, 4, 493, 45, 640, 464, 60, 530, 395 解答表 - 正規確率紙の方法番号データ累積比率 x 値 395 0.090909 -.3358.5 45 0.888-0.90846 3 4 0.777-0.60458 0.5 4 464 0.363636-0.34876 0 5 49 0.454545-0.48-0.5 6 493 0.545455 0.49-7 507 0.636364 0.34876 -.5 8 530 0.7773 0.60458 9 60 0.888 0.90846 図 -3 正規確率紙の方法 0 640 0.90909.3358 この場合ほぼ正規分布とみなせる ( p < 0.555 ) 問題以下のデータの正規性を調べよ 0.9, 6., 57., 5.0, 46.6, 4.,.0, 56.3, 49.5, 49.3,.4, 3.5 解答表 -3 正規確率紙の方法番号データ累積比率 x 値.5 0.9 0.07693 -.4608.0 0.53846 -.0008 0.5 3.4 0.30769-0.7363 0 4 3.5 0.30769-0.5040-0.5 5 4. 0.38465-0.9338-6 46.6 0.46538-0.09656 -.5 7 49.3 0.53846 0.09656-8 49.5 0.65385 0.9338 図 -4 正規確率紙の方法 -4 350 400 450 500 550 600 650 0 5 30 35 40 45 50 55 60 65

9 5.0 0.69308 0.5040 0 56.3 0.7693 0.7363 57. 0.84654.0008 6. 0.93077.4608 直線状に並んでいると言えないので正規分布とは言えない ( p < 0.039 ).3 母平均と指定値との比較 ( 正規性あり ) 前節で述べた方法は視覚的に正規性を調べる方法ですからその結果になかなか自信が持てないと思いますそこでよく使われるのが名前だけ紹介した数値的方法です統計ソフト等でこの方法を用いるとデータの分布が正規分布と異なることは容易に示せますしかしその逆はこのデータでは正規分布と異なるといえないというだけで積極的に正規性を支持するものではありませんただ通常この正規分布と異なるといえないということで不本意ながら正規性が示されたと解釈することが多いようですこの場合正規性に少しでも怪しいところがあれば次の節で述べる Wlcoxon の符号付き順位和検定と併用すればよいと思いますこれは分布型を問わない検定方法ですので正規分布でもそうでなくても利用できますここでは正規性を認めて検定手法の説明をしましょう例ある会社 0 社のある商品の従業員人当り売上高のデータを集めたら平均 4( 万円 ) 不偏分散から求めた標準偏差 4( 万円 ) であったこれらの会社の売上高は 6 ( 万円 ) に比べて差があるといえるか正規分布を仮定し有意水準 5% で判定せよ理論母平均の t 検定正規分布する標本について標本の母平均 μ と指定値 μ とを比較し差があるかどうか有意水準 α 00% で判定する但しデータ数 n 標本平均 x 不偏分散 u とする帰無仮説 H 0 : μ = μ ( 平均に差がない ) 対立仮説 H : μ μ ( 平均に差がある, 両側検定 ) x μ) H 0 のもとで t = ~ tn 分布 (.) u p = tdst( t, n,) として p < α のとき H 0 を棄却して H を採択する解答 n = 0, x = 4, μ = 6, u = 4 として統計量 t を求めると以下のようになります -5

0(4 6) t = = 4.79574 4 自由度は 0 = 9 より検定確率値は tdst () 関数を用いて以下のようになります p = tdst( 4.79574, 8, ) = 0.0007 0.000 p < 0.05 より人当りの売上高に差があるといえると判定されます解説 t 分布の座標値から確率を求める Excel 関数は座標値 t, 確率 p, 自由度 d として以下のように与えられています確率値を求める場合最後のパラメータで両側確率か片側確率かを指定します p = tdst( t, d, ) 両側検定 p = tdst( t, d,) 片側検定 t = tnv( p, d) 両側検定量的なデータの指定値との比較の問題はデータが正規分布する場合とそうでない場合とで取り扱い方が違うことは以前説明しましたではなぜ正規分布する場合だけ特別に t 検定を利用するのでしょうか一般的な方法があればどちらの場合もそれを用いればよいはずですその理由は正規分布するデータでは一般的な方法に比べて t 検定がより差を見出し易いからです但し t 検定は正規分布からずれると全く意味のないものになってしまいますので十分注意して使用する必要がありますさてデータの範囲が広く小さい方に多く集まっているような場合データの対数を取ると正規分布に近い分布を得ることがあります図.a はデータをそのまま利用したヒストグラムですが図.b は自然対数 ( 底が e の対数 ) を取ったデータを用いたヒストグラムです前者は正規分布から相当外れていますが後者は正規分布に近い形をしていますこの場合一般の検定を利用することも考えられますが対数を取って正規分布にして検定を行った方が良い結果が得られますこのように対数を取ったデータが正規分布するような分布を対数正規分布といいます 40 40 30 30 0 0 0 0 0 0 0 30 40 50 60 70 80 90 図.a 度数分布.0.4.8 3. 3.6 4.0 4.4 4.8 図.b 自然対数を取った度数分布 -6

数学的解説ここでは統計量 t が t 分布に従うことを簡単に示しておきましょう確率変数 X が独立で ~ N( μ, ) 分布とすると平均は X X = ( X + X + L + X n ) ~ N( μ, n) 分布 n X μ となることを 7.3.4 節の問題で示しましたがこれを用いると ~ N(0,) 分布と n なることが分かりますここでは指定値 μ の値は分かっていますがの値は分かりませんそこでこれを不偏分散 u から求めた標準偏差 u で代替します不偏分散には 8.4 節で述べたように以下の関係があることが知られています n ( n ) u ( X ) = X ~ χ 分布 = そこで 8.3 節で述べた t 分布の定義から以下のような関係が分かります X μ X μ) = u n u n n ~ n t n 分布この式ではの値が u に置き換わり左辺はすべてデータから求まります問題以下のデータの正規性が認められているとき平均は 5.5 と比べて差があるといえるか有意水準 5% で判定せよ 8.4, 4.6, 5., 6.3, 7., 5.8, 6.0, 5.4, 4.9, 6.9 解答 n =0, μ = 5. 5, x = 6.07, u =.679 0(6.07 5.5) t = =.544305.679 p = tdst(.544305, 9) = 0.569 0.57 p > 0.05 より差があるとは言えない -7

.4 母集団の中央値と指定値との比較 ( 正規性なし ) データに正規性が見られないとき上記の t 検定は使えずデータの分布によらない検定手法を利用しますこのような検定を総称してノンパラメトリック検定といいますこれに対して前節の t 検定のように正規性を利用する検定をパラメトリック検定と呼びますデータの正規性に少しでも不安がある場合我々は両方の手法を併用することをお勧めします正規性がある場合ノンパラメトリック検定は使えないのではなくパラメトリック検定の方がより明確に差が出るというだけですしかし逆に正規性が認められない場合パラメトリック検定の結果は何の意味も持ちませんノンパラメトリック検定では何らかの形でデータに順位を付けその順位和を用いて検定を行う場合が多く見られますこの教科書で登場するものとしてはこの節と 3. 節で説明する Wlcoxon の符号付き順位和検定.4 節で学ぶ Wlcoxon の順位和検定及び 5. 節の Spearman の順位相関係数等が代表的なノンパラメトリックな手法ですこれらの理論についてはかなり深い数学的背景がありこの教科書の範囲外ですので利用法のみをまとめて解説します例ある会社のある商品の人当り売上高 ( 万円 ) は以下の通りであるこれらの会社の売上高は 6( 万円 ) に比べて差があるといえるか有意水準 5% で判定せよ 06, 35, 55, 7, 80, 99, 5, 7, 9, 8, 60 理論 Wlcoxon の符号付き順位和検定標本データ x の中央値 m と指定値 m を比較し差があるかどうか有意水準 α 00% で判定する帰無仮説 H 0 : m = m 中央値に差がない対立仮説 H : m m ( 両側検定 ) 中央値に差がある新しい変数 z = X m を考える z の小さい順に 0 を除いて順位 r を付け z = 0 の場合を除いて z の正負で群に分ける但し同数値の場合は順位平均を取る例えば 5 位がつの場合は両方 (5+6)/=5.5 とする各群のデータ数を r, s( n = r + s ) 順位和を R r, Rs とし小さい方の順位和を R とするデータ数が少ない ( n 50 ) とき補遺 3の数表を参照し両側確率をα として R R のとき H 0 を棄却して H を採択する -8

データ数が多い ( n > 50 ) とき R n + ) 4 / H 0 のもとで z = ~ N (0,) 分布 ( 正の部分 ) n + )(n + ) / 4 (.) p = ( normsdst( z)) として p < α のとき H 0 を棄却して H を採択する解答まず以下のような表を作ります順位は Excel の rank( 数値, 範囲,) 関数を用いて昇順に付けますこのとき同順位は同じ数字ですからこれを平均順位に置き換えて訂正順位とします同じ順位を見つけるにはメニュー [ データ- 並べ替え ] を用いると便利ですデータ差差順位訂正順位 06-0 0 35 9 9 55-7 7 0 0 7-54 54 7 7.5 80-46 46 6 6 99-7 7 3 3 5-75 75 7-54 54 7 7.5 9 65 65 9 9 8-44 44 5 5 60 34 34 4 4 この表からデータと指定値との差が正のものと負のものに分けて順位和を求めます訂正順位で四角で囲んだものは差が正になるものですこの順位合計を求める際にも並べ替えを用いると簡単です結果は差が正になる群が 4 負になる群が 5 となりますつの順位和から小さい方を選んで R = 4 とします補遺 3の数表から n = でα = 0. 05 の値 R 0 を求めて以下のような結論になり = ます R > R より中央値に差があるとはいえない解説 Wlcoxon の符号付き順位和検定には種類の方法がありますつはここで述べたようにデータの値から指定値を引いて絶対値をとり順位を付ける方法もうつはつの対応するデータ間で引き算を行なって絶対値をとり順位を付ける方法ですこれらつの方法とも求めた差の正負で群を分けて順位和を求める方法は同じです後者については対応のあるデータに対する Wlcoxon の符号付き順位和検定として 3.3 節で学びます -9

手順をまとめておくとまず個々のデータから指定値を引きその絶対値をとります絶対値の小さい順に順位を付けデータから指定値を引いた差の値が正のものと負のものとでつの群に分けそれぞれの順位の合計を取ります例えば 4 位がつあるような同順位のものについてはつを (4+5)/=4.5 位としますまたデータから中央値を引いた差が 0 のデータは除外しますつの群のうち順位合計の小さいものを選びその値によって検定しますがデータ数が少ない場合は表によってデータ数が多い場合は検定量 z を求めそれが標準正規分布に従うことを利用して検定を行ないますもう少し分り易く言い換えるとこの検定方法は指定値に近いデータから順に順位を付け指定値より小さい側と大きい側で順位合計を取るものです分布が指定値より大きい側に偏っていればいるほど大きい側の順位合計は大きくなりますこのとき指定値に近いところから順位を付けていますのでこの傾向はより顕著に効いてきますこれがこの検定のうまいところです.5 母平均推定のためのデータ数の決定最後に少し本筋から離れて調査等をするときにデータ数をどのように決めるのかという問題について考えてみようと思います 0.4 節で母比率と指定比率の比較の場合について述べましたがここでは正規分布するデータで指定値との比較の問題に絞ってその考え方を学びます例母集団の標準偏差が 5cm であるとき標本平均 69cm として指定値 70cm と異なることを有意水準 5% で示すためにはいくらのデータ数が必要か理論指定値が μ 母分散の場合有意水準 α 00% で標本平均 x から推測される母平均が指定値と等しくないことを判定するために必要なデータ数を求める但し検定は両側検定とする x μ) Z = ~ N(0,) 分布を用いて Z( α ) normsnv( α ) n > = (.3) ( x μ) ( x μ) 注 ) Z(α ) は標準正規分布上側確率 α / の座標値である Excel でこれは normsnv( α ) と表示される -0

解答 normsnv(0.975) 5 n > = 96.0369 より標本は 97 以上必要である解説.3 節ではデータ数と指定値標本平均不偏分散から観測値の出現確率を求めましたが今回は指定値標本平均母分散の値と観測値の出現確率 ( 有意水準の値 ) からデータ数を求めています検定の場合とデータ数の決定の場合とで分散が不偏分散と母分散で異なっていますが母分散が分からない場合は近似的に不偏分散で代用しても大きな問題はありません検定で有意差が出るためには統計値が Z(α ) より大きいことが条件です ( α ) < x μ) Z を変えて Z( α ) n > x μ 両辺の乗をとって以下の式を得ます Z( α ) n > ( x μ) x μ) ここで不偏分散ではなく母分散を使った理由は ~ t n 分布の関係から u (.3) に相当する式が tnv( α, n ) u n > ( x μ) となり座標値を求める際に自由度としてこれから求めようとしているデータ数を使わなければならなくなるからです -