2018 年 4 月 4 日 ( 東京 ) 仮説検定とその手順 基礎編 折笠秀樹 ( 富山大学 ) 折笠秀樹富山大学 で検索 折笠秀樹教室 前提 統計学には 記述統計 Descriptive statistics ( ナイチンゲール コレラ ) 推測統計 Inferential statistics (R.A. フィッシャー ) 仮説検定 (Hypothesis testing) 推定 信頼区間 (Estimation/ Confidence interval) 仮説検定とは 作業仮説の真偽を求める 作業仮説の例 高齢者の末期がんは手術しないほうが長生きできる 朝のほうが夜よりも血圧値は高い なぜ仮説検定するか 統計学を用いる理由 臨床研究は一部の人にしか実施できない 研究というのは普遍的結論を言いたい 一部 ( 標本 Sample) について研究し それを全員 ( 母集団 Population) に一般化したい 統計学を使うと 一部 ( 標本 Sample) を研究するだけでも その結果から全体 ( 母集団 Population) を推論 ( 帰納 ) することができる それが仮説検定という手法である 仮説検定ー 2 つの立場 Frequentist 頻度流 Neyman/Pearson 原理 ( 仮説検定 ) 帰無仮説 / 対立仮説 α 過誤 /β 過誤 帰無仮説の下でデータ出現の確率を算出 Bayesian ベイズ流 Thomas Bayes 創始 事前確率 ( 主観 ) から出発する 事前確率の下で データが入るたびに 作業仮説が正しい確率を算出 統計学上の仮説とは 通常の仮説 高齢者の末期がんは手術しないほうが 手術するよりも ) 長生きできる ( 差あり ) 統計学上の仮説 帰無仮説 (Null Hypothesis) H 0 否定したい仮説 手術してもしなくても延命には関係ない ( 差なし ) 対立仮説 (Alternative Hypothesis) H A 主張したい仮説 手術しないほうが長生きできる ( 差あり ) 1
Neyman-Pearson 原理 仮説検定の原理 仮説 ( 母集団 ) 帰無仮説は正しい ( 差はなし ) 帰無仮説は誤り ( 差はある ) テ ータ ( 標本 ) で仮説棄却 ( 非有意 ) テ ータ ( 標本 ) で仮説立証 ( 有意 ) (α 過誤 ) (β 過誤 ) 1. 帰無仮説 H 0 が正しいと仮定する 手術してもしなくても延命には関係ない ( 差なし ) 2. それに関するデータを入手する 1. 手術した場合 平均 2 年余命があった 2. 手術しなかった場合 平均 3 年余命があった 3. 帰無仮説が正しいと仮定して このようなデータ (2 年 vs3 年の差 ) が出る可能性 ( 確率 ) を求める それを P 値 (Probability-value) と呼ぶ あわてんぼうぼんやり α 過誤 <5% ( 有意水準 ) β 過誤 <20% P<0.05( 有意 ) このようなデータが帰無仮説の下で偶然出たとは思えない 帰無仮説が誤りだろう P 0.05( 非有意 ) このようなデータは帰無仮説の下で偶然出ることはありうる 帰無仮説は誤りではないだろう P 値の算出 どうして 5% 未満で有意? H 0 有効率 = 0.2 H A 有効率 0.2 作業仮説 : 有効率は20% より高い データ : 10 人中 8 人が有効だった ( 有効率 80%) P 値 (Probability-value) H 0 の下で 本データ (or H A 寄りのデータ ) が出現する確率 10C 8 (0.2) 8 (1 0.2) 2 =0.00074 10C 9 (0.2) 9 (1 0.2) 1 =0.00004 10C 10 (0.2) 10 (1 0.2) 0 =0.00000 合計 P=0.00078 (0.078%) 10 人中 8 人が有効 10 人中 9 人が有効 10 人中 10 人が有効 統計学的有意 H 0 は誤りだろう P<0.05 偶然には起こりえないこと すなわち統計学的有意 (statistically significant) と称する その根拠 特にはない コイン投げで 5 回続けて表が出るのは変だ! H 0 ( 公正なコイン ) では 偶然には起こりえないと感じる その確率 ( 1 2 )5 =0.03 ~0.05 有意水準 (significant level)5% という 有意水準を 1% とすることもある 過剰検出を防ぐ 有意水準の閾値 =0.005 にする提案 追加 P 値で判断する P<0.05 統計学的有意 (statistically significant) という ( 偶然には起こらない ) 帰無仮説を棄却 作業仮説が正しい ( 差あり ) と結論 私見〇閾値は状況によって変えるべきであろう POC 試験などの探索的試験では 0.2など甘くしてもよいだろう 遺伝子探索試験では 0.001など厳しいほうが間違いないだろう 〇正確な P 値を書けば 閾値など必要ないはずだ 〇 P 値よりは信頼区間のほうが現実的情報を提供してくれる P 0.05 非有意 (non-significant, NS) という ( 偶然に起こりうる ) 帰無仮説を棄却できない 作業仮説が正しいとは結論できない 両群の差が大きい P 値は小さくなる サンプルサイズが大きい P 値は小さくなる 2
統計学的有意と臨床的有意 血圧 2 mmhg の差 過大検出 血圧 5 mmhg の差 過小検出 P 値というのは 両群の差の大きさ サンプルサイズに影響を受ける 統計学的有意 (Statistically significant) P 値 ( 偶然か否か ) で判断する 臨床的有意 (Clinically significant) 両群の差の大きさも加味する P<0.05 であっても 差が臨床的に意味なければ それは過剰検出であり 臨床的には有意ではないと考える 折笠, Therapeutic Research 36(1): 913-918, 2015. 両側 vs 片側 作業仮説 高齢者の末期がんは手術しないほうが長生きできる 両側検定 (Two-sided test) H 0 : A = C H A : A C 片側検定 (One-sided test) H 0 : A = C H A : A > C 帰無仮説 高齢者の末期がんは手術してもしなくても延命には関係ない ( 差はない ) 対立仮説 片側 高齢者の末期がんは手術しないほうが長生きできる 両側 高齢者の末期がんは手術してもしなくても延命には関係ないことはない ( 手術の有無は延命の有無に関係する ) 統計学的有意 統計学的有意 統計学的有意 2.5% 2.5% 5% 0 0 A < C A > C A < C A > C 検定手法の選び方 応用編 目的変数 (Y 変数 ) 数値データ ( 血圧値など ) 二値データ ( 合併症有無など ) 順序データ ( 重症度など ) 難解なので省略 説明変数 (X 変数 ) 1 群 ( 単群 ) のみ ( 既存値との比較 ) 独立な 2 群 ( 男女比較など, 群間比較 ) 独立な 3 群以上 従属な 2 群 ( 前後比較など, 群内比較 ) 従属な 3 群以上 難解なので省略 順序のある群 3
数値データ :1 群のみ 例 本土の正常者の空腹時血糖値 =100mg/dL だった ある小島の住民の空腹時血糖値は 100 人の平均値で示すと 110mg/dL であった ある小島の住民は有意に高いだろうか? One-sample t-test(1 標本 t 検定 ) 別の例 これまで私の空腹時血糖値 =100mg/dL だった この 1 年間の血糖値は上がったような気がする ( 月に 1 回測定なので独立データと仮定 ) 12 回測定した平均値 =120mg/dL だった 私の空腹時血糖値は有意に上がったのだろうか? One-sample t-test(1 標本 t 検定 ) f(x) = 平均値の標本分布ー t 分布 平均値の標本分布 Student s t distribution with (n-1) degree of freedom (Student, 1908) 本名 William Gosset ~ x μ t = ~ t s/n n-1 自由度 z = N(0,1) 非正規 ( 歪み / 少数例 ) ノンパラメトリック検定 (Wilcoxon signed-rank test, Sign test) 数値データ : 独立 2 群 帰無仮説 (H 0 ):Group1 = Group 2 対立仮説 (H A ):Group1 Group 2 [ 平均 FPG に関して ] 肥満者と非肥満者で 平均 FPG は有意に異なるか? two-sample t-test(2 標本 t 検定 ) or Unpaired t-test( 対応のない t 検定 ) 非正規 ( 歪み / 少数例 ) ノンパラメトリック検定 (Wilcoxon rank-sum test) 不等分散 ノンパラメトリック検定, Aspin-Welch test 独立データであること 検定の仮定 パラメトリック検定の仮定 正規分布に従うこと 中心極限定理により 平均値の標本分布は漸近的に正規分布に従うので あまり気にしなくてよい (Robust) 2 群の分散は等しいこと ( 等分散性 ) 違反していると t 分布近似はよくない (Un-robust) 目の子 (SD が 2 倍以内 ) Levene s test or Bartlett s test で非有意を確認する ノンパラメトリック検定 数値データ : 独立 3 群 F test F 検定 In 1918 by R.A.Fisher ANOVA (Analysis of Variance) [F stands for Fisher] 分散分析 H 0 : 母集団において 3 群の平均値はすべて等しい H A : 必ずしもすべて等しいとは限らない 仮定 : 正規性, 等分散性 歪み / 少数例 / 不等分散 ノンパラメトリック検定 (Kruskal-Wallis test) 数値データ : 従属 2 群 前後変化 左右変化 症例対照での差 ほぼ対称型の数値データ ( 正規分布 ) Paired t-test 対応のある t 検定 非正規データ ( 歪み / 少数例 / 順序 回数で不明 ) Wilcoxon signed-rank test Wilcoxon 符号付順位検定 Sign test 符号検定 従属 3 群以上 ( 反復測定 ) Repeated ANOVA 反復測定分散分析 4
数値データ : 順序群 二値データ -1 群 例 糖質摂取量 ( 順序データ ) が増えるとともに FPG 平均値は高くなる傾向がある 傾向検定 (Test for trend) と言う Y=a + b X Y=FPG, X= 糖質摂取量の順序区分 (1,2,3,4,5; 各群の中央値など ) H 0 : b=0, H A : b 0 t = b SE(b) ~t n 2 例 従来の治療法では有効率 20% と言われていた ( 既存データ ) 新規治療法はそれよりも優れると期待される データ 10 人中 8 人が有効だった ( 有効率 80%) 仮説検定 H 0 : 有効率 =20%, H A : 有効率 20% Binomial exact test( 二項正確検定 ) P=0.0078 (0.78%) 統計学的有意 z test( 正規検定 )- 近似検定 (n が大きいこと ; n>10, etc) z = p 0.2 SE(p) ~N(0,1) 二値データ - 独立 2 群 Chi-square test カイ二乗検定 2 つ以上の Proportion 割合の比較 Test Present Disease Absent + a b a+b - c d c+d a+c b+d a+b+c+d χ 1 2 = Σ (O i E i ) 2 E 二値データ - 従属 2 群 前後比較鎮痛薬を飲んだら 有意に痛みは消えたか? Before 痛みなし痛みあり 痛みなし a c After 痛みあり b d 独立 3 群以上 (k 群 ) χ k 1 2 = Σ (O i E i ) 2 E 少数例 ( セル期待値 <5 がある ) Fisher exact test フィッシャー正確検定 ( 直接確率法 ) 少数例では Fisher exact test McNemar χ2 test = (b c)2 b+c ~ χ 1 2 (b+c>20) 少数例では (Binomial) Exact test 二値データ - 順序群 例 野菜をたくさん食べるほど悪性腫瘍の発現率は減るか 野菜を食べる量 Quintile or Quartile に分ける ( 順序変数 ) Cochran-Armitage trend test (p for trend= ) 傾向検定 Logistic regression with vegetable intakes (1,2,3,4,5; or 各群の中央値 ) 相関係数 関連性 相関係数 (Correlation coefficient) Pearson s correlation 直線関係の相関係数 Spearman s correlation( 順位相関 ) 非直線性 少数例 / 非正規のときの相関係数 一致性 ( 再現性 ) 級内相関係数 (Intra-class correlation, ICC) 5
Y=X ICC=0.77 H 0 : r=0, H A : r 0 相関係数の検定 検定統計量 t = r n 2 1 r 2 ~ t n 2 (n>150, etc) 仮定 : Y 変数 ~ 正規分布 r=0.73 少数例 exact test, permutation test, bootstrap r ICC 相関係数 ( 関連性 ) 級内相関係数 ( 一致性 ) 相関係数 程度 0~0.2 very weak 0.2 ~ 0.4 weak 0.4 ~ 0.6 moderate 0.6 ~ 0.8 strong 0.8 ~ 1 very strong 数値データ (Y) 群の数? 1 群対応ある 2 群対応ない 2 群 ほぼ正規分布 One-sample t-test ほぼ正規分布 Paired t-test ほぼ正規分布 ( 等分散 ) Unpaired t-test 3 群以上 ほぼ正規分布 ANOVA 歪み / 少数例 Wilcoxon signed-rank test Sign test 歪み / 少数例 Wilcoxon signed-rank test Sign test 対応ある 3 群以上 Repeated ANOVA ほぼ正規分布 ( 不等分散 ) Aspin-Welch test Wilcoxon rank-sum test 歪み / 少数例 Wilcoxon rank-sum test 不等分散 / 歪み / 少数例 Kruskal-Wallis test 順序ある 3 群以上 Test for trend using model 実践編 二値データ (Y) 群の数? 多数例 z-test 1 群対応ある 2 群対応ない 2 群 3 群以上 少数例 (Binomial) Exact test 多数例 McNemar test 少数例 (Binomial) Exact test 多数例 Chi-square test 少数例 Fisher exact test 多数例 Chi-square test 少数例 Fisher exact test 順序あり Cochran-Armitage trend test 追繁殖期のサルと非繁殖期のサル 加合わせて61 例のようです ( ドット数から ) もし同一サルの繁殖期 & 非繁殖期でデータを取っていたら Paired t-testになります 2 つの平均値の比較 Unpaired t-test Unpaired test Wilcoxon test( 非正規データ ) Medical Tribune. 2016-9-15,22. 35 Medical Tribune. 2017-5-04. 36 6
多くの平均値の比較 Analysis of variance Unpaired t-test の拡張 上昇 ( 減少 ) を主張 Paired t-test Medical Tribune. 2016-11-03. 37 Medical Tribune. 2016-11-10. 38 Paired t-test 正規性が疑わしい少数例のとき ノンパラメトリック Wilcoxon signed-rank test 0, 6, 12, 18, 24 週 ( 反復測定 ) Repeated ANOVA 反復測定分散分析 HAL Hybrid Assistive Limb ロボットスーツ Medical Tribune. 2016-9-08. 39 Medical Tribune. 2017-5-25. 40 割合分布の違い χ8 2 test データは零石町のみ z test A 町 + 零石町データ χ2 test Medical Tribune. 2017-11-23. 41 Medical Tribune. 2016-11-03. 42 7
Cochran-Armitage trend test, or Test for trend using logistic regression 相関係数 =0 の検定 Medical Tribune. 2018-1-28. 43 Medical Tribune. 2016-10-27. 44 8