Power Analysis using G*Power Version 1.0 013 年 3 月 03 日 評価学博士 佐々木亮
サンプルサイズの検討方法 1. 最低のサンプルサイズサンプルサイズに関する考え方 統計分析を用いた調査報告書では サンプルサイズとして 30 あるいは 5 を用いている場合が頻繁に見られる 事前 事後比較のための 1 群の t 検定では まさに 30 あるいは 5 が必要ということになり 群の t 検定の場合には 30x=60 あるいは 5x=50 が必要ということになる それくらいのサンプルサイズがあれば母集団の特徴を代表させるのに十分に大きいと言えるという経験則に基づいている i あとは 予算と時間の制約が許す範囲で最大限のサンプルサイズを選択するようにする. Power Analysis の利用 1990 年以降 Power Analysis を用いて事前にサンプルサイズを検討したり 事後に Power( 検出力 ) を計算して報告書に記載すべきだという主張が見られるようになった ただし統計分析の実務家の間でも未だに Power Analysis は一般的ではなく また哲学的な根本的な問題を抱えているという指摘もある ( 大垣 005) しかしその計算方法を知り 実際に計算してサンプルサイズの決定の参考とすることは重要である 最初に 専用の計算ソフトである G*Power の操作方法を説明し 次に手計算の方法を説明する -1. G*Power の操作方法 (1) 次のサイトから G*Power をダウンロードしてインストール () ソフトを立ち上げると次のようなする 画面が現れる http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gp ower3/download-and-register 1
ケース 1: 群の t 検定の場合 (Independent two-sample t-testt 入力が出来たら Calculate を押す すると次の結果を得る 1 Statistical test ( 統計検定の種類 ) Means: Difference between two independent means (two groups) を選択する Type of power analysis( パワーアナリシスの種類 ) A priori: Compute required sample size - given, power, and effect size を選ぶ 3 Tails Two を選ぶ ( One の選択もあり得るが 相当の確信がない限り Two を選ぶのが無難 ) 4 Effect size d ( 効果サイズ d) 次のいずれかから選ぶ Large( 大 ) ---0.8 Medium( 中 ) --- 0.5 Small( 小 ) ---0. ここでは練習のために 0.8 を選ぶ 5 error probability ( 有意水準 ) 通常の t 検定で用いる有意水準を用いる 0.05 が一般的 ( ただしサンプルサイズが大きくなりすぎた場合には 0.1 に緩めたりもする ) 6 Power (1- error probability)( パワー ( 検出力 ) 合意はないが 0.8 を用いることが提案されている (Cohen, 1988) ( ただしサンプルサイズが大きくなりすぎた場合には 0.8 以下に緩めたりもする ) 必要なサンプルサイズは 1 グループあたり 6 と計算された ( グループで 5 ) 1
ケース : 事前 事後比較の 1 群の t 検定の場合 (Paired one-sample t-testt 入力が出来たら Calculate を押す すると次の結果を得る Statistical test ( 統計検定の種類 ) Means: Difference between two dependent means (matched pairs) を選択する Type of power analysis( パワーアナリシスの種類 ) A priori: Compute required sample size - given, power, and effect size を選ぶ 3 Tails Two を選ぶ ( One の選択もあり得るが 相当の確信がない限り Two を選ぶのが無難 ) 4 Effect size d ( 効果サイズ d) 次のいずれかから選ぶ Large( 大 ) ---0.8 Medium( 中 ) --- 0.5 Small( 小 ) ---0. ここでは練習のために 0.8 を選ぶ 5 error probability ( 有意水準 ) 通常の t 検定で用いる有意水準を用いる 0.05 が一般的 ( ただしサンプルサイズが大きくなりすぎた場合には 0.1 に緩めたりもする ) 6 Power (1- error probability)( パワー ( 検出力 )) 合意はないが 0.8 を用いることが提案されている (Cohen, 1988) ( ただしサンプルサイズが大きくなりすぎた場合には 0.8 以下に緩めたりもする ) 必要なサンプルサイズは 15 と計算された
-.. 手計算 G*Power の計算結果に近い値を手計算で得ることができる 計算に必要な情報は d( 効果サイズ ), ( 有 意水準 ) Power(1-)( 検出力 ) である まずそれぞれの意味を解説する 記号読み方 和訳 意味の説明 d ディー 効果サイズ グループの平均値の差が 標準偏差 ii の何割にあたるかの値 0.8= 大 0.5= 中 0.= 小と判断される (Cohen, 1986) アルファ有意水準 差がないのが母集団の本当の状態である という前提で 差がある と判断してしまう確率 (Type1 誤差とも言う ) この ( 有意水準 ) を 0.05(5%) としたとき 計算された t 値に対応する確率値 (p 値 ) がその水準より小さければ 差がある と判断してもいいことになる Power パワー 検出力 差があるのが母集団の本当の状態である という前提で そのとおり (1-) に 差がある と判断する確率 検出力が0.8 ということは 有意差があることを80% の確率で検出できることを示す (をType II 誤差の確率とも言う ) ケース 1: 群の t 検定の場合 (Independent two-sample t-testt (1) エクセルを開いて下のようなテーブルを作る d 1 / 1 / Z () データを手計算する d 1 / 1 / 0.8 0.05 0.975 1.960 0. -0.84 Z 0.8 と手入力する 0.05 と手入力する =1-(0.05/) =NORMINV(0.975,0,1) と手入力する ( 式中の 0 は平均値 1 は標準偏差を示している ) 0. と手入力する =NORMINV(0.,0,1) と手入力する 式中の 0 は平均値 1 は標準偏差を示している (3) 群の t 検定のためのサンプルサイズの計算公式にしたがって サンプルサイズを計算する n *( Z 1 / d Z ) = *(1.960 ( 0.84)) 0.8 = 4.5 (4) 手計算の結果と G*Power の結果を比べると次のとおり G*Power の結果と比べて手計算の結果がわずかに小さくなっている iii 手計算の結果 G*Powerの結果 4.5 6 3
ケース : 事前 事後比較の 1 群の t 検定の場合 (Paired one-sample t-testt (1) エクセルを開いて下のようなテーブルを作る ( ケース 1 と全く同じ ) d 1 / 1 / Z () データを手計算する ( ケース 1 と全く同じ ) d 1 / 1 / 0.8 0.05 0.975 1.960 0. -0.84 Z 0.8 と手入力する 0.05 と手入力する =1-(0.05/) =NORMINV(0.975,0,1) と手入力する ( 式中の 0 は平均値 1 は標準偏差を示している ) 0. と手入力する =NORMINV(0.,0,1) と手入力する 式中の 0 は平均値 1 は標準偏差を示している (3) 事前 事後比較の1 群のt 検定のためのサンプルサイズの計算公式にしたがって サンプルサイズを計算する ( Z n 1 / d Z ) (1.960 ( 0.84)) = 0.8 = 1.3 (4) 手計算の結果と G*Power の結果を比べると次のとおり G*Power の結果と比べて手計算の結果がわずかに小さくなっている iv 手計算の結果 G*Powerの結果 1.3 15 4
参考文献 Cohen, J. (1988). Statistical Power Analysis for the Behavioral Science ( nd ed.). Lawrence Erlbaum Associates, Publisheres. Dallal, G.E., (008). What Underlies Sample Size Calculations. http://www.jerrydallal.com/lhsp/sizenotes.htm Kuramoto,L. (Year unknown). Power and Sample Size. Centre for Clinical Epidemiology and Evaluation, Vancouver Coastal Health Research Institute. http://www.vchri.ca/i/pdf/powerandsamplesize.pdf 大垣俊一 (005) Type II error とPower Analysis Argonauta 11:3-16(006) http://www.mus-nh.city.osaka.jp/iso/argo/nl11/nl11-3-16.pdf 涌井良幸 涌井貞美 (003) Excel で学ぶ統計解析 ナツメ社 ( 参考 ) 設定別のサンプルサイズの計算結果 d Independent t-test paird t-test 1 / Z1 Z / 手計算の結果 G*Powerの結果手計算の結果 G*Powerの結果 0.8 0.05 0.975.009 0. -0.84 5.4 6 1.7 15 0.5 0.05 0.975 1.959964 0.1-1.8155 84.1 86 4.0 44 0.8 0.05 0.975 1.959964 0.1-1.8155 3.8 34 16.4 18 0.5 0.1 0.95 1.644854 0. -0.8416 49.5 51 4.7 6 0.8 0.1 0.95 1.644854 0. -0.8416 19.3 1 9.7 1 0.5 0.1 0.95 1.644854 0.1-1.8155 68.5 70 34.3 36 0.8 0.1 0.95 1.644854 0.1-1.8155 6.8 8 13.4 15 i アメリカの大学院で広く使われているテキストに次の記述がある.We assume that the sample is large (n>30). (p31). If σ is unknown and if the sample size is large (n>30), the sample standard deviation s can be substituted for the population standard deviationσ in the decision rules given above.(p31). Mansfield, E. (1986). BASIC STATISTICS with Applications, W.W.Norton & Company, Inc, 1986 なお サンプルサイズが極めて少ないからと言って そのサンプルからインパクトの有無を述べることができないわけではない 要は誤差のレベルの問題である という当然の意見もある (Marija J.SPSS6.1 Guide to Data Analysis, p.187) ii 群の標準偏差を合成した標準偏差を用いる なお Glass.V は 単純に比較グループの標準偏差を用いるべきと提案している iii 手計算と G*Power の計算結果のずれは 手計算が z 分布を使用しているのに対して G*Power が t 分布を使用していることに起因する 我々は理想的なサンプルサイズを計算しようとしているわけであるが その計算の一部として使用する t 値の算出式自体にサンプルサイズ n が入っており コンピューターによる無制限のトライ & エラーが可能である場合を除き t 分布を使った計算は手計算では膨大な時間を要することになりほぼ困難である そのため t 分布の式のかわりに z 分布の式で代用しているわけである (Dallal. (008)) iv iii と同じ 5