連載 第 2 回 医学データの統計解析の基本 2 つの平均の比較 * 朝倉こう子 濱﨑俊光 Fundamentals of statistical analysis in biomedical research:two-sample tests for comparing means 1 基礎研究や臨床研究を問わず医学研究において 新しい化合物や治療法を発見し その性能を特徴づける場合 何らかの対照 ( 例えば標準治療 ) と比較し評価することが最も単純でしかも直裁的に理解しやすい そして 多くの目的については2つの処理の平均の比較によれば大抵の場合に明瞭な回答が得られる 2つの群の比較で最も汎用される代表的な統計手法としては Student の t 検定 ( 以下 通常の t 検定 ) があげられる t 検定は 必ずしも高価で専門的な知識を使用者に要求するような統計計算ソフトウェアを用いずとも 身近な Microsoft Excel でも容易に実行できる t 検定にかかわる計算は容易で むしろ t 検定の計算機能を備えてない統計計算ソフトウェアは稀である このように t 検定は日常的に利用されるが 実際のデータ解析での t 検定の利用について 観測値数が極端に少ない場合 t 検定は適用可能か ( 観測値数がどの程度あれば t 検定が適用可能か ) 観測値の正規性の検定をしたところ 正規分布に従わないとの結果が得られたから t 検定の代用として Wilcoxon の順位和検定 ( あるいは Mann-Whitney の U 検定 ) を用いたが この判断に間違いないか 統計手法の手順書には 2つの群でデータの分散の大きさが異なる場合には t 検定の代用として Welch の t 検定を適用すべきとの記載があったが 2つの群の分散が異ならない場合にも Welch の t 検定は適用可能か といった疑問をよく耳にする 本稿では2つの処理の平均の比較についてデータの分布として正規分布を仮定する t 検定 データに特定の分布を仮定しない Wilcoxon の順位和検定 ( 以下 Wilcoxon 検定 ) をとりあげ それらの適用上の留意点や代表的な統計計算ソフトウェアでの実行について 実例を例解しつつ解説する 2 いま ある2つの処理の効果に差があるか否かに関心があり 観測値が連続尺度で得られているとする このとき 解析者は データの様相を観察し 通常の t 検定 Wilcoxon 検定あるいは Welch の t 検定のいずれの手法を用いるかを判断せねばならない 一般に統計学のテキストには2つの処理効果の平均を比較する場合 観測値の分布が ( 近似的に ) 正規分布であり 2つの処理で分散が等しければ通常の t 検定を適用する 観測値が正規分布に従わないと判断されるようであれば Wilcoxon 検定に代表されるノンパラメトリック検定を適用する といった記載がみられる ここで 実 * Koko Asakura, Toshimitsu Hamasaki Office of Biostatistics and Data Management Department of Advanced Medical Technology Development National Cerebral and Cardiovascular Center 国立循環器病研究センター先進医療治験推進部 DM/ 統計室 565 8565 吹田市藤白台 5-7-1 E-mail: toshi.hamasaki@ncvc.go.jp Drug Delivery System 30 2, 2015 149
際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理の間に差があることが真実であるにもかかわらず その差を見逃し差がないと主張する過誤確率 ( 第 2 種の過誤確率 ) が 実際どの程度であったかに注意せねばならない 2つの処理の観測値数が等しく 観測値が対数正規分布などに代表される右に裾を引く分布に従う場合 通常の t 検定を適用すれば 差がないにもかかわらず 差がある と結論づける第 1 種の過誤確率は名目上の値 例えば有意水準を0.05とすれば それより小さくなることが知られている ( 柴田 1981)( つまり p 値は大きく得られ有意になりにくい ) この傾向は両側仮説よりも片側仮説で顕著であるが 観測値数が大きくなるに伴い 無視できるほどに小さくなることが知られている 一方で 差があることが真実であり 先と同様に観測値が右に裾を引く分布に従う場合 その差を検出できる可能性 いわゆる検出力は極端に低下する 他方 Wilcoxon 検定は観測値そのものではなく順位を用いるため 分布の非対称性や外れ値の影響を受けにくい 検出力の観点からも 観測値が正規分布に従わない場合に 多くの場面で Wilcoxon 検定は t 検定に比べ検出力が高くなること また正規分布に従う場合でも Wilcoxon 検定の検出力は t 検定に比べさほど落ちないことが知られている (Mood, 1954; Hodges, Lehmann, 1956) このことから 正規分布が仮定できない場合には Wilcoxon 検定を適用することで よりよい判断が下せそうである ただし 第 1 回で述べたように Wilcoxon の順位和検定は観測値の分布の中心的位置の差を検出する検出力が高いことから この検定の結果が有意であれば 一般に 母中央値に差がある と解釈されるが 上記の帰無仮説が棄却されるのは 必ずしも中央値に差がある場合だけでないことに注意がいる ( 河合他, 2003) しかし 2つの処理で観測値数が異なり 観測値の分散の大きさが異なるような状況では Wilcoxon 検定を用いることに注意がいる 図 1から Wilcoxon 検定を用いたとしても第 1 種の過誤確率が事前に定めた水準より大きくなる つまり差がないにも差があるといい過ぎてしまう このとき 第 1 種の過誤確率を適切に制御するという観点から Welch の t 検定を用いるのがよさそうである なお 2つの処理で観測値数が等しければ 観測値の分散の大きさが異なったとしても 通常の t 検定を用いても第 1 種の過誤確率が名目水準を上回ったり あるいは下回ったりすることはなく 図 1 不等分散のもとでの第 1 種の過誤確率 ( 両側検定, 有意水準 5%) 150 Drug Delivery System 30 2, 2015
また検出力も低下することはないことが知られている 以上のように どのような場面にも通用する 2つの処理の平均の比較の方法は存在しない データに直面したときに どのような統計的方法を用いて解析するか データの様相をよく観察し判断せねばならない 参考として 典型的な解析手法で一般的な場面で用いられる 正規分布を基礎分布として仮定する方法 ( パラメトリック法 ) とそれに対応する特定の分布を仮定しない方法 ( ノンパラメトリック方法 ) を表 1に示す 表 1 典型的な解析手法で一般的な場面で用いられる 正規分布を基礎分布として仮定する方法 ( パラメトリック法 ) とそれに対応する特定の分布を仮定しない方法 ( ノンパラメトリック方法 ) 場面パラメトリック法ノンパラメトリック方法 代表値算術平均中央値 バラツキ標準偏差四分位範囲 差の推定値平均の差 Hodges-Lehmann 推定量 信頼区間 t 統計量の利用順序統計量の利用 独立な 2 つの処理の比較 Student の t 検定 (Welch の t 検定 ) Wilcoxon の順位和検定 対応のある観測値の比較対応のある t 検定 Wilcoxon の符号付順位検定 相関 Pearson の積率相関 Spearman の順位相関 * R ではデフォルトでインストールされるほかに, 分野別に関数やデータがまとめられた パッケージ を用いることにより, 高度な統計処理が可能となる インストールの方法については, 例えば舟尾 (2009) を参照されたい 3 実例を通して統計計算ソフトウェアで t 検定と Wilcoxon 検定を実行する際の留意点と出力される結果について概説する ここでは無償か比較的安価で一般的に利用可能なソフトウェアのうち SAS University Edition, R, エクセル統計 JMP をとりあげる なお本稿を執筆するにあたり それぞれのソフトウェアについて SAS Studio 3.1 R version 3.1.2 エクセル統計 2012および JMP 10にて動作確認を行っている 使用するデータは R の ISwR パッケージ * に組み込まれている vitcap2 というテストデータである ( 表 2) vitcap2 はカドミウム産業における雇用者の 曝露状態と年齢および肺活量についてのデータである 曝露状態は3つのカテゴリーからなる変数 group として得られており いま 10 年以上曝露されている群 (group=1) と 曝露されていない群 (group=3) との間で 肺活量の母平均に差があるか否かに関心があるとする ただしここでは 肺活量を表す変数を vital としている( 元データでは vital.capacity ) 10 年以上曝露されている群 と 曝露されていない群 の肺活量の母平均をそれぞれμ 1 とμ 3 とすれば t 検定で検討したい帰無仮説と対立仮説 ( 両側対立仮説 ) は H:μ 0 1 -μ 3 =0 対 H:μ 1 1 -μ 3 0と記述される Wilcoxon 検定では 肺活量の値を x および 10 年以上曝露されている群 と 曝露されていない群 での累積分布関数をそれぞれ F(x) 1 と F(x) 3 とすれば H: 0 すべての x について F(x)= 1 F(x), 3 H: 1 ある x について F(x) 1 F(x) 3 と記述される 以降では それぞれのソフトウェアにおける検定の実行と出力される結果について個々に述べる 3-1 t 検定 1 SAS University Edition TTEST プロシジャを用い 群を識別する変数 ( ここでは group) を CLASS ステー Drug Delivery System 30 2, 2015 151
表 2 テストデータ vitcap2 group age vital 1 1 39 4.62 2 1 40 5.29 3 1 41 5.52 4 1 41 3.71 5 1 45 4.02 6 1 49 5.09 7 1 52 2.7 8 1 47 4.31 9 1 61 2.7 10 1 65 3.03 11 1 58 2.73 12 1 59 3.67 13 3 27 5.29 14 3 25 3.67 15 3 24 5.82 16 3 32 4.77 17 3 23 5.71 18 3 25 4.47 19 3 32 4.55 20 3 18 4.61 21 3 19 5.86 22 3 26 5.2 23 3 33 4.44 24 3 27 5.52 25 3 33 4.97 26 3 25 4.99 27 3 42 4.89 28 3 35 4.09 29 3 35 4.24 30 3 41 3.88 31 3 38 4.85 32 3 41 4.79 33 3 36 4.36 34 3 36 4.02 35 3 41 3.77 36 3 41 4.22 37 3 37 4.94 38 3 42 4.04 39 3 39 4.51 40 3 41 4.06 41 3 43 4.02 42 3 41 4.99 43 3 48 3.86 44 3 47 4.68 45 3 53 4.74 46 3 49 3.76 47 3 54 3.98 48 3 48 5 49 3 49 3.31 50 3 47 3.11 51 3 52 4.76 52 3 58 3.95 53 3 62 4.6 54 3 65 4.83 55 3 62 3.18 56 3 59 3.03 152 Drug Delivery System 30 2, 2015
トメントで 評価変数 ( ここでは vital) を VAR ステートメントで指定する 実行すればデフォルトの結果は図 2のように出力される 3つ目の表から通常の t 検定と Welch の t 検定 ( それぞれ Pooled と Satterthwaite ) の p 値はそれぞれ0.0468 と0.1271と得られ 2つ目の表から95% 信頼区間は [-1.0182, -0.0075] と [-1.1914, 0.1657] と得られた これより 通常の t 検定では有意水準 5% のもとで帰無仮説 (H 0 ) が棄却され 肺活量の母平均に差がある と結論づけるのに対し Welch の t 検定の結果に基づけば帰無仮説を棄却することはできない 図 2 TTEST プロシジャによる結果 (SAS University Edition) 2R t.test 関数を用い 各群の評価変数のデータ x と y をベクトルで指定する R ではデフォルトで Welch の t 検定が実行され 出力から p 値は0.1271 95% 信頼区間は [- 1.1914, 0.1657] と得られた ( 図 3) 通常の t 検定を実行する場合には オプションで var.equal=true と指定する すると図 4のように結果が出力され p 値は0.0468 95% 信頼区間は [-1.0182, -0.0075] と得られた Drug Delivery System 30 2, 2015 153
図 3 t.test 関数による Welch の t 検定の結果 (R) 図 4 t.test 関数による t 検定の結果 (R) 3 エクセル統計 平均の推定 検定 のなかの 2 群の母平均の差の検定 を用いる 出てくるウィンドウで各群の評価変数のデータを指定し 公式 として t 分布 を選択すれば t 検定の結果が出力される ( 図 5) エクセル統計ではデフォルトで通常の t 検定と Welch の t 検定が実行され p 値はそれぞれ0.0468と0.1271 95% 信頼区間は [-1.018, -0.008] と [-1.191, 0.166] と得られた 図 5 2 群の母平均の差の検定 による結果 ( エクセル統計 ) 4 JMP 分析 の 二変量の関係 を用いる X と Y に群を識別する変数 ( 名義変数として指定しておく ) と評価変数を指定する 出てくるウィンドウで 平均 /ANOVA/ プーリングした t 検定 を選択すれば等分散を仮定した通常の t 検定の結果が 個々の分散を用いた t 検定 を選択すれば Welch の t 検定の結果が出力され p 値はそれぞれ 0.0468と0.1271 95% 信頼区間は [0.0075, 1.0182] と [-0.1657, 1.1914] と得られた ( 図 6 7) 154 Drug Delivery System 30 2, 2015
図 6 平均 /ANOVA/ プーリングした t 検定 による結果 (JMP ) 図 7 個々の分散を用いた t 検定 による結果 (JMP ) 3-2 Wilcoxon 検定 1 SAS University Edition NPAR1WAY プロシジャを用いる t 検定の TTEST プロシジャの場合と同様に 群を識別する変数を CLASS ステートメントで 評価変数を VAR ステートメントで指定する 実行すればデフォルトの結果は図 8のように出力される 2つ目の表から 正規分布で近似した場合の p 値は0.1079 t 分布で近似した場合の p 値は0.1136と得られた SAS では 正規近似の際にデフォルトで連続補正が適用される 連続補正を適用しないためにはオプションにて CORRECT=NO と指定する また EXACT ステートメントで WILCOXON を指定すれば 正確な p 値が算出される ここでの 正確な とは 近似を用いることなく直接的に p 値を算出することを意味する ( 他の方法に基づく p 値が 正確でない という意味ではない ) ただしここでは同順位が存在するため 正確な p 値は算出されない 一般にデータ数がある程度多ければ 正規近似は良好であることが知られているが データ数が少ない ( いずれかの群が20 以下 ) 場合には 正確な p 値を用いることが望ましい 2R wilcox.test 関数を用いる t 検定の t.test 関数の場合と同様に 各群の評価変数のデータ x と y をベクトルで指定する R では いずれかの群のデータ数が50 未満で同順位が存在しない場合には デフォルトで 正確な p 値が出力される 正規近似の結果を出力するためにはオプションで exact=false と指定する また データ数が50 以上でも exact=true と指定すれば 正確な p 値が算出される ここでは警告メッ Drug Delivery System 30 2, 2015 155
図 8 NPAR1 WAY プロシジャによる結果 (SAS University Edition) セージにあるとおり同順位が存在するため 正規近似において連続補正を適用した場合の結果がデフォルトで出力され p 値が0.1079と得られた ( 図 9) 連続補正を適用しないためにはオプションで correct=false と指定する その場合の p 値は0.1057 であった ( 図 10) 図 9 wilcox.test 関数による連続修正ありの結果 (R) 156 Drug Delivery System 30 2, 2015
図 1 0 wilcox.test 関数による連続修正なしの結果 (R) 3 エクセル統計 ノンパラメトリック検定 のなかの マン ホイットニーの U 検定 を用い (Mann- Whitney の U 検定は本質的に Wilcoxon 検定と同じである ) 出てくるウィンドウでデータを指定する エクセル統計では デフォルトで正規近似において連続補正を適用しない場合の p 値と 正確な p 値に基づき有意か否かが出力され ( それぞれ 正規化検定 と 統計数値表による検定 ) ここでは正規近似における p 値が0.1057と得られた ( 図 11) 正確な p 値に基づく結果は いずれかの群のデータ数が20を超える場合や同順位がある場合には出力されない 図 1 1 マン ホイットニーの U 検定 による結果 ( エクセル統計 ) 4 JMP t 検定の場合と同様に 分析 の 二変量の関係 を用いる 変数を指定し出て くるウィンドウで ノンパラメトリック のなかの Wilcoxon 検定 を選択すれば 図 1 2 Wilcoxon 検定 による結果 (JMP ) Drug Delivery System 30 2, 2015 157
Wilcoxon 検定の結果が出力される JMP では デフォルトで正規近似において連続修正を適用した場合と適用しない場合の結果が出力され ( それぞれ 2 標本検定 ( 正規近似 ) と 一元配置検定( カイ2 乗近似 ) ) p 値はそれぞれ0.1079と0.1057と得られた ( 図 12) なお 正確な p 値は通常の JMP では算出できない (JMP PRO で算出可能 ) 4 本稿では2つの処理の平均の比較において t 検定と Wilcoxon 検定を適用する際の留意点を述べ これらの2つの方法を4 種類の統計計算ソフトウェアを用いて実際のデータに対して適用し 解析を実行した なお 紹介した以外にも t 検定や Wilcoxon 検定を実行できるプロシジャや関数は存在するが 本稿では一般的によく用いられている例をとりあげている いずれのソフトウェアを用いても算出される p 値は同じであるが 特に Wilcoxon 検定については 既定値で適用される手法や近似が異なることを認識していなければ 統計計算ソフトウェアにより異なる p 値が得られる ことが起こる どの統計計算ソフトウェアを利用する場合にも適用する方法を吟味し 必要に応じてオプションなどにより適切に指定することが求められる 文献 1)Hodges, J. L. & Lehmann, E. L. (1 9 5 6 ). The efficiency of some nonparametric competitors of the t-test. Annals of Mathematical Statistics 27(2 ), 324-335. 2 ) Mood, A. M. (1954). On the Asymptotic efficiency of certain nonparametric two-sample tests. Annals of Mathematical Statistics 25(3 ), 514-522. 3 ) 河合統介 栗林和彦 濱﨑俊光 後藤昌司 (2003). 統計科学の足もと : p 値と信頼区間. 天理医学紀要 6, 71-79 4 ) 柴田義貞 (1981). 正規分布. 特性と応用. 東京大学出版社. 5 ) 舟尾暢男 (2009). The R Tips: データ解析環境 R の基本技 グラフィック活用集. 第 2 版. オーム社. 158 Drug Delivery System 30 2, 2015