際正規分布に従わない観測値に対して通常の t 検定を適用した場合どのような不都合が生じるかを考える一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

連載第 2 回医学データの統計解析の基本 2 つの平均の比較 * 朝倉こう子濱﨑俊光 Fundamentals of statistical analysis in biomedical research:two-sample tests for comparing means 1 基礎研究や臨床研究を問わず医学研究において新しい化合物や治療法を発見しその性能を特徴づける場合何らかの対照 ( 例えば標準治療 ) と比較し評価することが最も単純でしかも直裁的に理解しやすいそして多くの目的については2つの処理の平均の比較によれば大抵の場合に明瞭な回答が得られる 2つの群の比較で最も汎用される代表的な統計手法としては Student の t 検定 ( 以下通常の t 検定 ) があげられる t 検定は必ずしも高価で専門的な知識を使用者に要求するような統計計算ソフトウェアを用いずとも身近な Microsoft Excel でも容易に実行できる t 検定にかかわる計算は容易でむしろ t 検定の計算機能を備えてない統計計算ソフトウェアは稀であるこのように t 検定は日常的に利用されるが実際のデータ解析での t 検定の利用について観測値数が極端に少ない場合 t 検定は適用可能か ( 観測値数がどの程度あれば t 検定が適用可能か ) 観測値の正規性の検定をしたところ正規分布に従わないとの結果が得られたから t 検定の代用として Wilcoxon の順位和検定 ( あるいは Mann-Whitney の U 検定 ) を用いたがこの判断に間違いないか統計手法の手順書には 2つの群でデータの分散の大きさが異なる場合には t 検定の代用として Welch の t 検定を適用すべきとの記載があったが 2つの群の分散が異ならない場合にも Welch の t 検定は適用可能かといった疑問をよく耳にする本稿では2つの処理の平均の比較についてデータの分布として正規分布を仮定する t 検定データに特定の分布を仮定しない Wilcoxon の順位和検定 ( 以下 Wilcoxon 検定 ) をとりあげそれらの適用上の留意点や代表的な統計計算ソフトウェアでの実行について実例を例解しつつ解説する 2 いまある2つの処理の効果に差があるか否かに関心があり観測値が連続尺度で得られているとするこのとき解析者はデータの様相を観察し通常の t 検定 Wilcoxon 検定あるいは Welch の t 検定のいずれの手法を用いるかを判断せねばならない一般に統計学のテキストには2つの処理効果の平均を比較する場合観測値の分布が ( 近似的に ) 正規分布であり 2つの処理で分散が等しければ通常の t 検定を適用する観測値が正規分布に従わないと判断されるようであれば Wilcoxon 検定に代表されるノンパラメトリック検定を適用するといった記載がみられるここで実 * Koko Asakura, Toshimitsu Hamasaki Office of Biostatistics and Data Management Department of Advanced Medical Technology Development National Cerebral and Cardiovascular Center 国立循環器病研究センター先進医療治験推進部 DM/ 統計室 565 8565 吹田市藤白台 5-7-1 E-mail: toshi.hamasaki@ncvc.go.jp Drug Delivery System 30 2, 2015 149

際正規分布に従わない観測値に対して通常の t 検定を適用した場合どのような不都合が生じるかを考える一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理の間に差があることが真実であるにもかかわらずその差を見逃し差がないと主張する過誤確率 ( 第 2 種の過誤確率 ) が実際どの程度であったかに注意せねばならない 2つの処理の観測値数が等しく観測値が対数正規分布などに代表される右に裾を引く分布に従う場合通常の t 検定を適用すれば差がないにもかかわらず差があると結論づける第 1 種の過誤確率は名目上の値例えば有意水準を0.05とすればそれより小さくなることが知られている ( 柴田 1981)( つまり p 値は大きく得られ有意になりにくい ) この傾向は両側仮説よりも片側仮説で顕著であるが観測値数が大きくなるに伴い無視できるほどに小さくなることが知られている一方で差があることが真実であり先と同様に観測値が右に裾を引く分布に従う場合その差を検出できる可能性いわゆる検出力は極端に低下する他方 Wilcoxon 検定は観測値そのものではなく順位を用いるため分布の非対称性や外れ値の影響を受けにくい検出力の観点からも観測値が正規分布に従わない場合に多くの場面で Wilcoxon 検定は t 検定に比べ検出力が高くなることまた正規分布に従う場合でも Wilcoxon 検定の検出力は t 検定に比べさほど落ちないことが知られている (Mood, 1954; Hodges, Lehmann, 1956) このことから正規分布が仮定できない場合には Wilcoxon 検定を適用することでよりよい判断が下せそうであるただし第 1 回で述べたように Wilcoxon の順位和検定は観測値の分布の中心的位置の差を検出する検出力が高いことからこの検定の結果が有意であれば一般に母中央値に差があると解釈されるが上記の帰無仮説が棄却されるのは必ずしも中央値に差がある場合だけでないことに注意がいる ( 河合他, 2003) しかし 2つの処理で観測値数が異なり観測値の分散の大きさが異なるような状況では Wilcoxon 検定を用いることに注意がいる図 1から Wilcoxon 検定を用いたとしても第 1 種の過誤確率が事前に定めた水準より大きくなるつまり差がないにも差があるといい過ぎてしまうこのとき第 1 種の過誤確率を適切に制御するという観点から Welch の t 検定を用いるのがよさそうであるなお 2つの処理で観測値数が等しければ観測値の分散の大きさが異なったとしても通常の t 検定を用いても第 1 種の過誤確率が名目水準を上回ったりあるいは下回ったりすることはなく図 1 不等分散のもとでの第 1 種の過誤確率 ( 両側検定, 有意水準 5%) 150 Drug Delivery System 30 2, 2015

また検出力も低下することはないことが知られている以上のようにどのような場面にも通用する 2つの処理の平均の比較の方法は存在しないデータに直面したときにどのような統計的方法を用いて解析するかデータの様相をよく観察し判断せねばならない参考として典型的な解析手法で一般的な場面で用いられる正規分布を基礎分布として仮定する方法 ( パラメトリック法 ) とそれに対応する特定の分布を仮定しない方法 ( ノンパラメトリック方法 ) を表 1に示す表 1 典型的な解析手法で一般的な場面で用いられる正規分布を基礎分布として仮定する方法 ( パラメトリック法 ) とそれに対応する特定の分布を仮定しない方法 ( ノンパラメトリック方法 ) 場面パラメトリック法ノンパラメトリック方法代表値算術平均中央値バラツキ標準偏差四分位範囲差の推定値平均の差 Hodges-Lehmann 推定量信頼区間 t 統計量の利用順序統計量の利用独立な 2 つの処理の比較 Student の t 検定 (Welch の t 検定 ) Wilcoxon の順位和検定対応のある観測値の比較対応のある t 検定 Wilcoxon の符号付順位検定相関 Pearson の積率相関 Spearman の順位相関 * R ではデフォルトでインストールされるほかに, 分野別に関数やデータがまとめられたパッケージを用いることにより, 高度な統計処理が可能となるインストールの方法については, 例えば舟尾 (2009) を参照されたい 3 実例を通して統計計算ソフトウェアで t 検定と Wilcoxon 検定を実行する際の留意点と出力される結果について概説するここでは無償か比較的安価で一般的に利用可能なソフトウェアのうち SAS University Edition, R, エクセル統計 JMP をとりあげるなお本稿を執筆するにあたりそれぞれのソフトウェアについて SAS Studio 3.1 R version 3.1.2 エクセル統計 2012および JMP 10にて動作確認を行っている使用するデータは R の ISwR パッケージ * に組み込まれている vitcap2 というテストデータである ( 表 2) vitcap2 はカドミウム産業における雇用者の曝露状態と年齢および肺活量についてのデータである曝露状態は3つのカテゴリーからなる変数 group として得られておりいま 10 年以上曝露されている群 (group=1) と曝露されていない群 (group=3) との間で肺活量の母平均に差があるか否かに関心があるとするただしここでは肺活量を表す変数を vital としている( 元データでは vital.capacity ) 10 年以上曝露されている群と曝露されていない群の肺活量の母平均をそれぞれμ 1 とμ 3 とすれば t 検定で検討したい帰無仮説と対立仮説 ( 両側対立仮説 ) は H:μ 0 1 -μ 3 =0 対 H:μ 1 1 -μ 3 0と記述される Wilcoxon 検定では肺活量の値を x および 10 年以上曝露されている群と曝露されていない群での累積分布関数をそれぞれ F(x) 1 と F(x) 3 とすれば H: 0 すべての x について F(x)= 1 F(x), 3 H: 1 ある x について F(x) 1 F(x) 3 と記述される以降ではそれぞれのソフトウェアにおける検定の実行と出力される結果について個々に述べる 3-1 t 検定 1 SAS University Edition TTEST プロシジャを用い群を識別する変数 ( ここでは group) を CLASS ステー Drug Delivery System 30 2, 2015 151

表 2 テストデータ vitcap2 group age vital 1 1 39 4.62 2 1 40 5.29 3 1 41 5.52 4 1 41 3.71 5 1 45 4.02 6 1 49 5.09 7 1 52 2.7 8 1 47 4.31 9 1 61 2.7 10 1 65 3.03 11 1 58 2.73 12 1 59 3.67 13 3 27 5.29 14 3 25 3.67 15 3 24 5.82 16 3 32 4.77 17 3 23 5.71 18 3 25 4.47 19 3 32 4.55 20 3 18 4.61 21 3 19 5.86 22 3 26 5.2 23 3 33 4.44 24 3 27 5.52 25 3 33 4.97 26 3 25 4.99 27 3 42 4.89 28 3 35 4.09 29 3 35 4.24 30 3 41 3.88 31 3 38 4.85 32 3 41 4.79 33 3 36 4.36 34 3 36 4.02 35 3 41 3.77 36 3 41 4.22 37 3 37 4.94 38 3 42 4.04 39 3 39 4.51 40 3 41 4.06 41 3 43 4.02 42 3 41 4.99 43 3 48 3.86 44 3 47 4.68 45 3 53 4.74 46 3 49 3.76 47 3 54 3.98 48 3 48 5 49 3 49 3.31 50 3 47 3.11 51 3 52 4.76 52 3 58 3.95 53 3 62 4.6 54 3 65 4.83 55 3 62 3.18 56 3 59 3.03 152 Drug Delivery System 30 2, 2015

トメントで評価変数 ( ここでは vital) を VAR ステートメントで指定する実行すればデフォルトの結果は図 2のように出力される 3つ目の表から通常の t 検定と Welch の t 検定 ( それぞれ Pooled と Satterthwaite ) の p 値はそれぞれ0.0468 と0.1271と得られ 2つ目の表から95% 信頼区間は [-1.0182, -0.0075] と [-1.1914, 0.1657] と得られたこれより通常の t 検定では有意水準 5% のもとで帰無仮説 (H 0 ) が棄却され肺活量の母平均に差があると結論づけるのに対し Welch の t 検定の結果に基づけば帰無仮説を棄却することはできない図 2 TTEST プロシジャによる結果 (SAS University Edition) 2R t.test 関数を用い各群の評価変数のデータ x と y をベクトルで指定する R ではデフォルトで Welch の t 検定が実行され出力から p 値は0.1271 95% 信頼区間は [- 1.1914, 0.1657] と得られた ( 図 3) 通常の t 検定を実行する場合にはオプションで var.equal=true と指定するすると図 4のように結果が出力され p 値は0.0468 95% 信頼区間は [-1.0182, -0.0075] と得られた Drug Delivery System 30 2, 2015 153

図 3 t.test 関数による Welch の t 検定の結果 (R) 図 4 t.test 関数による t 検定の結果 (R) 3 エクセル統計平均の推定検定のなかの 2 群の母平均の差の検定を用いる出てくるウィンドウで各群の評価変数のデータを指定し公式として t 分布を選択すれば t 検定の結果が出力される ( 図 5) エクセル統計ではデフォルトで通常の t 検定と Welch の t 検定が実行され p 値はそれぞれ0.0468と0.1271 95% 信頼区間は [-1.018, -0.008] と [-1.191, 0.166] と得られた図 5 2 群の母平均の差の検定による結果 ( エクセル統計 ) 4 JMP 分析の二変量の関係を用いる X と Y に群を識別する変数 ( 名義変数として指定しておく ) と評価変数を指定する出てくるウィンドウで平均 /ANOVA/ プーリングした t 検定を選択すれば等分散を仮定した通常の t 検定の結果が個々の分散を用いた t 検定を選択すれば Welch の t 検定の結果が出力され p 値はそれぞれ 0.0468と0.1271 95% 信頼区間は [0.0075, 1.0182] と [-0.1657, 1.1914] と得られた ( 図 6 7) 154 Drug Delivery System 30 2, 2015

図 6 平均 /ANOVA/ プーリングした t 検定による結果 (JMP ) 図 7 個々の分散を用いた t 検定による結果 (JMP ) 3-2 Wilcoxon 検定 1 SAS University Edition NPAR1WAY プロシジャを用いる t 検定の TTEST プロシジャの場合と同様に群を識別する変数を CLASS ステートメントで評価変数を VAR ステートメントで指定する実行すればデフォルトの結果は図 8のように出力される 2つ目の表から正規分布で近似した場合の p 値は0.1079 t 分布で近似した場合の p 値は0.1136と得られた SAS では正規近似の際にデフォルトで連続補正が適用される連続補正を適用しないためにはオプションにて CORRECT=NO と指定するまた EXACT ステートメントで WILCOXON を指定すれば正確な p 値が算出されるここでの正確なとは近似を用いることなく直接的に p 値を算出することを意味する ( 他の方法に基づく p 値が正確でないという意味ではない ) ただしここでは同順位が存在するため正確な p 値は算出されない一般にデータ数がある程度多ければ正規近似は良好であることが知られているがデータ数が少ない ( いずれかの群が20 以下 ) 場合には正確な p 値を用いることが望ましい 2R wilcox.test 関数を用いる t 検定の t.test 関数の場合と同様に各群の評価変数のデータ x と y をベクトルで指定する R ではいずれかの群のデータ数が50 未満で同順位が存在しない場合にはデフォルトで正確な p 値が出力される正規近似の結果を出力するためにはオプションで exact=false と指定するまたデータ数が50 以上でも exact=true と指定すれば正確な p 値が算出されるここでは警告メッ Drug Delivery System 30 2, 2015 155

図 8 NPAR1 WAY プロシジャによる結果 (SAS University Edition) セージにあるとおり同順位が存在するため正規近似において連続補正を適用した場合の結果がデフォルトで出力され p 値が0.1079と得られた ( 図 9) 連続補正を適用しないためにはオプションで correct=false と指定するその場合の p 値は0.1057 であった ( 図 10) 図 9 wilcox.test 関数による連続修正ありの結果 (R) 156 Drug Delivery System 30 2, 2015

図 1 0 wilcox.test 関数による連続修正なしの結果 (R) 3 エクセル統計ノンパラメトリック検定のなかのマンホイットニーの U 検定を用い (Mann- Whitney の U 検定は本質的に Wilcoxon 検定と同じである ) 出てくるウィンドウでデータを指定するエクセル統計ではデフォルトで正規近似において連続補正を適用しない場合の p 値と正確な p 値に基づき有意か否かが出力され ( それぞれ正規化検定と統計数値表による検定 ) ここでは正規近似における p 値が0.1057と得られた ( 図 11) 正確な p 値に基づく結果はいずれかの群のデータ数が20を超える場合や同順位がある場合には出力されない図 1 1 マンホイットニーの U 検定による結果 ( エクセル統計 ) 4 JMP t 検定の場合と同様に分析の二変量の関係を用いる変数を指定し出てくるウィンドウでノンパラメトリックのなかの Wilcoxon 検定を選択すれば図 1 2 Wilcoxon 検定による結果 (JMP ) Drug Delivery System 30 2, 2015 157

Wilcoxon 検定の結果が出力される JMP ではデフォルトで正規近似において連続修正を適用した場合と適用しない場合の結果が出力され ( それぞれ 2 標本検定 ( 正規近似 ) と一元配置検定( カイ2 乗近似 ) ) p 値はそれぞれ0.1079と0.1057と得られた ( 図 12) なお正確な p 値は通常の JMP では算出できない (JMP PRO で算出可能 ) 4 本稿では2つの処理の平均の比較において t 検定と Wilcoxon 検定を適用する際の留意点を述べこれらの2つの方法を4 種類の統計計算ソフトウェアを用いて実際のデータに対して適用し解析を実行したなお紹介した以外にも t 検定や Wilcoxon 検定を実行できるプロシジャや関数は存在するが本稿では一般的によく用いられている例をとりあげているいずれのソフトウェアを用いても算出される p 値は同じであるが特に Wilcoxon 検定については既定値で適用される手法や近似が異なることを認識していなければ統計計算ソフトウェアにより異なる p 値が得られることが起こるどの統計計算ソフトウェアを利用する場合にも適用する方法を吟味し必要に応じてオプションなどにより適切に指定することが求められる文献 1)Hodges, J. L. & Lehmann, E. L. (1 9 5 6 ). The efficiency of some nonparametric competitors of the t-test. Annals of Mathematical Statistics 27(2 ), 324-335. 2 ) Mood, A. M. (1954). On the Asymptotic efficiency of certain nonparametric two-sample tests. Annals of Mathematical Statistics 25(3 ), 514-522. 3 ) 河合統介栗林和彦濱﨑俊光後藤昌司 (2003). 統計科学の足もと : p 値と信頼区間. 天理医学紀要 6, 71-79 4 ) 柴田義貞 (1981). 正規分布. 特性と応用. 東京大学出版社. 5 ) 舟尾暢男 (2009). The R Tips: データ解析環境 R の基本技グラフィック活用集. 第 2 版. オーム社. 158 Drug Delivery System 30 2, 2015