仮説検定の手順 - PDF 無料ダウンロード

2018 年 4 月 4 日 ( 東京 ) 仮説検定とその手順基礎編折笠秀樹 ( 富山大学 ) 折笠秀樹富山大学で検索折笠秀樹教室前提統計学には記述統計 Descriptive statistics ( ナイチンゲールコレラ ) 推測統計 Inferential statistics (R.A. フィッシャー ) 仮説検定 (Hypothesis testing) 推定信頼区間 (Estimation/ Confidence interval) 仮説検定とは作業仮説の真偽を求める作業仮説の例高齢者の末期がんは手術しないほうが長生きできる朝のほうが夜よりも血圧値は高いなぜ仮説検定するか統計学を用いる理由臨床研究は一部の人にしか実施できない研究というのは普遍的結論を言いたい一部 ( 標本 Sample) について研究しそれを全員 ( 母集団 Population) に一般化したい統計学を使うと一部 ( 標本 Sample) を研究するだけでもその結果から全体 ( 母集団 Population) を推論 ( 帰納 ) することができるそれが仮説検定という手法である仮説検定ー 2 つの立場 Frequentist 頻度流 Neyman/Pearson 原理 ( 仮説検定 ) 帰無仮説 / 対立仮説 α 過誤 /β 過誤帰無仮説の下でデータ出現の確率を算出 Bayesian ベイズ流 Thomas Bayes 創始事前確率 ( 主観 ) から出発する事前確率の下でデータが入るたびに作業仮説が正しい確率を算出統計学上の仮説とは通常の仮説高齢者の末期がんは手術しないほうが手術するよりも ) 長生きできる ( 差あり ) 統計学上の仮説帰無仮説 (Null Hypothesis) H 0 否定したい仮説手術してもしなくても延命には関係ない ( 差なし ) 対立仮説 (Alternative Hypothesis) H A 主張したい仮説手術しないほうが長生きできる ( 差あり ) 1

Neyman-Pearson 原理仮説検定の原理仮説 ( 母集団 ) 帰無仮説は正しい ( 差はなし ) 帰無仮説は誤り ( 差はある ) テータ ( 標本 ) で仮説棄却 ( 非有意 ) テータ ( 標本 ) で仮説立証 ( 有意 ) (α 過誤 ) (β 過誤 ) 1. 帰無仮説 H 0 が正しいと仮定する手術してもしなくても延命には関係ない ( 差なし ) 2. それに関するデータを入手する 1. 手術した場合平均 2 年余命があった 2. 手術しなかった場合平均 3 年余命があった 3. 帰無仮説が正しいと仮定してこのようなデータ (2 年 vs3 年の差 ) が出る可能性 ( 確率 ) を求めるそれを P 値 (Probability-value) と呼ぶあわてんぼうぼんやり α 過誤 <5% ( 有意水準 ) β 過誤 <20% P<0.05( 有意 ) このようなデータが帰無仮説の下で偶然出たとは思えない帰無仮説が誤りだろう P 0.05( 非有意 ) このようなデータは帰無仮説の下で偶然出ることはありうる帰無仮説は誤りではないだろう P 値の算出どうして 5% 未満で有意? H 0 有効率 = 0.2 H A 有効率 0.2 作業仮説 : 有効率は20% より高いデータ : 10 人中 8 人が有効だった ( 有効率 80%) P 値 (Probability-value) H 0 の下で本データ (or H A 寄りのデータ ) が出現する確率 10C 8 (0.2) 8 (1 0.2) 2 =0.00074 10C 9 (0.2) 9 (1 0.2) 1 =0.00004 10C 10 (0.2) 10 (1 0.2) 0 =0.00000 合計 P=0.00078 (0.078%) 10 人中 8 人が有効 10 人中 9 人が有効 10 人中 10 人が有効統計学的有意 H 0 は誤りだろう P<0.05 偶然には起こりえないことすなわち統計学的有意 (statistically significant) と称するその根拠特にはないコイン投げで 5 回続けて表が出るのは変だ! H 0 ( 公正なコイン ) では偶然には起こりえないと感じるその確率 ( 1 2 )5 =0.03 ~0.05 有意水準 (significant level)5% という有意水準を 1% とすることもある過剰検出を防ぐ有意水準の閾値 =0.005 にする提案追加 P 値で判断する P<0.05 統計学的有意 (statistically significant) という ( 偶然には起こらない ) 帰無仮説を棄却作業仮説が正しい ( 差あり ) と結論私見〇閾値は状況によって変えるべきであろう POC 試験などの探索的試験では 0.2など甘くしてもよいだろう遺伝子探索試験では 0.001など厳しいほうが間違いないだろう〇正確な P 値を書けば閾値など必要ないはずだ〇 P 値よりは信頼区間のほうが現実的情報を提供してくれる P 0.05 非有意 (non-significant, NS) という ( 偶然に起こりうる ) 帰無仮説を棄却できない作業仮説が正しいとは結論できない両群の差が大きい P 値は小さくなるサンプルサイズが大きい P 値は小さくなる 2

統計学的有意と臨床的有意血圧 2 mmhg の差過大検出血圧 5 mmhg の差過小検出 P 値というのは両群の差の大きさサンプルサイズに影響を受ける統計学的有意 (Statistically significant) P 値 ( 偶然か否か ) で判断する臨床的有意 (Clinically significant) 両群の差の大きさも加味する P<0.05 であっても差が臨床的に意味なければそれは過剰検出であり臨床的には有意ではないと考える折笠, Therapeutic Research 36(1): 913-918, 2015. 両側 vs 片側作業仮説高齢者の末期がんは手術しないほうが長生きできる両側検定 (Two-sided test) H 0 : A = C H A : A C 片側検定 (One-sided test) H 0 : A = C H A : A > C 帰無仮説高齢者の末期がんは手術してもしなくても延命には関係ない ( 差はない ) 対立仮説片側高齢者の末期がんは手術しないほうが長生きできる両側高齢者の末期がんは手術してもしなくても延命には関係ないことはない ( 手術の有無は延命の有無に関係する ) 統計学的有意統計学的有意統計学的有意 2.5% 2.5% 5% 0 0 A < C A > C A < C A > C 検定手法の選び方応用編目的変数 (Y 変数 ) 数値データ ( 血圧値など ) 二値データ ( 合併症有無など ) 順序データ ( 重症度など ) 難解なので省略説明変数 (X 変数 ) 1 群 ( 単群 ) のみ ( 既存値との比較 ) 独立な 2 群 ( 男女比較など, 群間比較 ) 独立な 3 群以上従属な 2 群 ( 前後比較など, 群内比較 ) 従属な 3 群以上難解なので省略順序のある群 3

数値データ :1 群のみ例本土の正常者の空腹時血糖値 =100mg/dL だったある小島の住民の空腹時血糖値は 100 人の平均値で示すと 110mg/dL であったある小島の住民は有意に高いだろうか? One-sample t-test(1 標本 t 検定 ) 別の例これまで私の空腹時血糖値 =100mg/dL だったこの 1 年間の血糖値は上がったような気がする ( 月に 1 回測定なので独立データと仮定 ) 12 回測定した平均値 =120mg/dL だった私の空腹時血糖値は有意に上がったのだろうか? One-sample t-test(1 標本 t 検定 ) f(x) = 平均値の標本分布ー t 分布平均値の標本分布 Student s t distribution with (n-1) degree of freedom (Student, 1908) 本名 William Gosset ~ x μ t = ~ t s/n n-1 自由度 z = N(0,1) 非正規 ( 歪み / 少数例 ) ノンパラメトリック検定 (Wilcoxon signed-rank test, Sign test) 数値データ : 独立 2 群帰無仮説 (H 0 ):Group1 = Group 2 対立仮説 (H A ):Group1 Group 2 [ 平均 FPG に関して ] 肥満者と非肥満者で平均 FPG は有意に異なるか? two-sample t-test(2 標本 t 検定 ) or Unpaired t-test( 対応のない t 検定 ) 非正規 ( 歪み / 少数例 ) ノンパラメトリック検定 (Wilcoxon rank-sum test) 不等分散ノンパラメトリック検定, Aspin-Welch test 独立データであること検定の仮定パラメトリック検定の仮定正規分布に従うこと中心極限定理により平均値の標本分布は漸近的に正規分布に従うのであまり気にしなくてよい (Robust) 2 群の分散は等しいこと ( 等分散性 ) 違反していると t 分布近似はよくない (Un-robust) 目の子 (SD が 2 倍以内 ) Levene s test or Bartlett s test で非有意を確認するノンパラメトリック検定数値データ : 独立 3 群 F test F 検定 In 1918 by R.A.Fisher ANOVA (Analysis of Variance) [F stands for Fisher] 分散分析 H 0 : 母集団において 3 群の平均値はすべて等しい H A : 必ずしもすべて等しいとは限らない仮定 : 正規性, 等分散性歪み / 少数例 / 不等分散ノンパラメトリック検定 (Kruskal-Wallis test) 数値データ : 従属 2 群前後変化左右変化症例対照での差ほぼ対称型の数値データ ( 正規分布 ) Paired t-test 対応のある t 検定非正規データ ( 歪み / 少数例 / 順序回数で不明 ) Wilcoxon signed-rank test Wilcoxon 符号付順位検定 Sign test 符号検定従属 3 群以上 ( 反復測定 ) Repeated ANOVA 反復測定分散分析 4

数値データ : 順序群二値データ -1 群例糖質摂取量 ( 順序データ ) が増えるとともに FPG 平均値は高くなる傾向がある傾向検定 (Test for trend) と言う Y=a + b X Y=FPG, X= 糖質摂取量の順序区分 (1,2,3,4,5; 各群の中央値など ) H 0 : b=0, H A : b 0 t = b SE(b) ~t n 2 例従来の治療法では有効率 20% と言われていた ( 既存データ ) 新規治療法はそれよりも優れると期待されるデータ 10 人中 8 人が有効だった ( 有効率 80%) 仮説検定 H 0 : 有効率 =20%, H A : 有効率 20% Binomial exact test( 二項正確検定 ) P=0.0078 (0.78%) 統計学的有意 z test( 正規検定 )- 近似検定 (n が大きいこと ; n>10, etc) z = p 0.2 SE(p) ~N(0,1) 二値データ - 独立 2 群 Chi-square test カイ二乗検定 2 つ以上の Proportion 割合の比較 Test Present Disease Absent + a b a+b - c d c+d a+c b+d a+b+c+d χ 1 2 = Σ (O i E i ) 2 E 二値データ - 従属 2 群前後比較鎮痛薬を飲んだら有意に痛みは消えたか? Before 痛みなし痛みあり痛みなし a c After 痛みあり b d 独立 3 群以上 (k 群 ) χ k 1 2 = Σ (O i E i ) 2 E 少数例 ( セル期待値 <5 がある ) Fisher exact test フィッシャー正確検定 ( 直接確率法 ) 少数例では Fisher exact test McNemar χ2 test = (b c)2 b+c ~ χ 1 2 (b+c>20) 少数例では (Binomial) Exact test 二値データ - 順序群例野菜をたくさん食べるほど悪性腫瘍の発現率は減るか野菜を食べる量 Quintile or Quartile に分ける ( 順序変数 ) Cochran-Armitage trend test (p for trend= ) 傾向検定 Logistic regression with vegetable intakes (1,2,3,4,5; or 各群の中央値 ) 相関係数関連性相関係数 (Correlation coefficient) Pearson s correlation 直線関係の相関係数 Spearman s correlation( 順位相関 ) 非直線性少数例 / 非正規のときの相関係数一致性 ( 再現性 ) 級内相関係数 (Intra-class correlation, ICC) 5

Y=X ICC=0.77 H 0 : r=0, H A : r 0 相関係数の検定検定統計量 t = r n 2 1 r 2 ~ t n 2 (n>150, etc) 仮定 : Y 変数 ~ 正規分布 r=0.73 少数例 exact test, permutation test, bootstrap r ICC 相関係数 ( 関連性 ) 級内相関係数 ( 一致性 ) 相関係数程度 0~0.2 very weak 0.2 ~ 0.4 weak 0.4 ~ 0.6 moderate 0.6 ~ 0.8 strong 0.8 ~ 1 very strong 数値データ (Y) 群の数? 1 群対応ある 2 群対応ない 2 群ほぼ正規分布 One-sample t-test ほぼ正規分布 Paired t-test ほぼ正規分布 ( 等分散 ) Unpaired t-test 3 群以上ほぼ正規分布 ANOVA 歪み / 少数例 Wilcoxon signed-rank test Sign test 歪み / 少数例 Wilcoxon signed-rank test Sign test 対応ある 3 群以上 Repeated ANOVA ほぼ正規分布 ( 不等分散 ) Aspin-Welch test Wilcoxon rank-sum test 歪み / 少数例 Wilcoxon rank-sum test 不等分散 / 歪み / 少数例 Kruskal-Wallis test 順序ある 3 群以上 Test for trend using model 実践編二値データ (Y) 群の数? 多数例 z-test 1 群対応ある 2 群対応ない 2 群 3 群以上少数例 (Binomial) Exact test 多数例 McNemar test 少数例 (Binomial) Exact test 多数例 Chi-square test 少数例 Fisher exact test 多数例 Chi-square test 少数例 Fisher exact test 順序あり Cochran-Armitage trend test 追繁殖期のサルと非繁殖期のサル加合わせて61 例のようです ( ドット数から ) もし同一サルの繁殖期 & 非繁殖期でデータを取っていたら Paired t-testになります 2 つの平均値の比較 Unpaired t-test Unpaired test Wilcoxon test( 非正規データ ) Medical Tribune. 2016-9-15,22. 35 Medical Tribune. 2017-5-04. 36 6

多くの平均値の比較 Analysis of variance Unpaired t-test の拡張上昇 ( 減少 ) を主張 Paired t-test Medical Tribune. 2016-11-03. 37 Medical Tribune. 2016-11-10. 38 Paired t-test 正規性が疑わしい少数例のときノンパラメトリック Wilcoxon signed-rank test 0, 6, 12, 18, 24 週 ( 反復測定 ) Repeated ANOVA 反復測定分散分析 HAL Hybrid Assistive Limb ロボットスーツ Medical Tribune. 2016-9-08. 39 Medical Tribune. 2017-5-25. 40 割合分布の違い χ8 2 test データは零石町のみ z test A 町 + 零石町データ χ2 test Medical Tribune. 2017-11-23. 41 Medical Tribune. 2016-11-03. 42 7

Cochran-Armitage trend test, or Test for trend using logistic regression 相関係数 =0 の検定 Medical Tribune. 2018-1-28. 43 Medical Tribune. 2016-10-27. 44 8