学位論文作成のための疫学 統計解析の実際 徳島大学大学院 医歯薬学研究部 社会医学系 予防医学分野 有澤孝吉 (e-mail: karisawa@tokushima-u.ac.jp)
本日の講義の内容 (SPSS を用いて ) 記述統計 ( データのまとめ方 ) 代表値 ばらつき正規確率プロット 正規性の検定標準偏差 不偏標準偏差 標準誤差の区別中心極限定理母平均の区間推定 ( 母集団の標準偏差が既知の場合 ) 母平均の区間推定 ( 母集団の標準偏差が未知の場合 ) t- 分布平均値の差の検定 ( 独立 2 群 ) ( 分散が等しい場合 等しくない場合 ) 等分散のF 検定平均値の差の検定 ( 対応のある2 群 ) ノンパラメトリック法 (Wilcoxonの順位和検定 Wilcoxonの符号付き順位検定 ) 相関
データのまとめ方 1. 記述統計など ( 正規分布に従う場合 ) 平均値 分散 標準偏差 ( 正規分布に従わない場合 ) 中央値 中心とばらつきを示すこと 25パーセンンタイル 75パーセンンタイル値 範囲
正規確率プロット 154 153 期 待 値 152 151 150 149 148 147 148 149 150 151 152 153 154 正規分布 ~ 直線に乗る 正規性の検定 :Shapiro-Wilk test, Kolmogorov-Smirnov test
幹葉 表示 箱ひげ 図 25% 50% 75% IQR 1.5 IQR はずれ値 (Rosner 2010)
( 分散 ) ( 不偏分散 ) ( 不偏標準偏差 )
用語の使い分け 標準偏差 ( 分散の平方根 ) s 不偏標準偏差 ( 不偏分散の平方根 ) 母集団の標準偏差の推定値となる s 標準誤差 ( 推定量の標準偏差 ) 母集団の平均値の推定の場合は s / n 1/2 他の例 : 回帰係数の標準誤差
繰り返し無作為抽出 100 回 200 回 --- 平均 μ 標準偏差 σ 標本サンプルサイズ n 標本平均 x1 標準偏差 s1 標本平均 x2 標準偏差 s2 母集団 標本平均 x200 標準偏差 s200
25 20 標本平均 x の平均は母平均 μ に一致 15 母集団 1000 人 10 母集団の分布標本平均 (n=1) の分布標本平均 (n=10) の分布標本平均 (n=30) の分布 5 0-5 50 70 90 100 110 114 125 140 160 180 抽出は各 200 回 n が増えるとばらつきは小さくなる
標本平均 x の分布 95% μ -1.96σ/n 1/2 μ +1.96σ/n 1/2 標本平均の分布は正規分布に従う標本平均の平均は μ に一致標本平均の標準偏差は σ/n 1/2 μ (n が大きいとき 母集団の分布に関わらず ) ( 中心極限定理 )
母集団の平均値の区間推定 母集団の標準偏差 σ が既知の場合 母集団の平均 μ の 95% 信頼区間は (x 1.96 σ / n 1/2, x + 1.96 σ / n 1/2 ) で与えられる
母集団の平均値の区間推定 母集団の標準偏差 σ が未知の場合 母集団の平均 μ の 95% 信頼区間は (x - t n-1, 0.975 s / n 1/2, x + t n-1, 0.975 s / n 1/2 ) で与えられる 1 σ の推定値としての s を使用 2 1.96 が t n-1, 0.975 にかわる
t 分布 ( 統計の時間より )
母集団の平均値の区間推定 ( 例 ) 標本平均 151.02 不偏標準偏差 1.53 n=9 母平均の95% 信頼区間は次のように与え られる t 8, 0.975 = 2.306 (151.02 2.306 1.53 / 9 1/2, 151.02 + 2.306 1.523 / 9 1/2 ) = (149.84, 152.20)
t- 分布 表 0.975 d.f. t 8, 0.975 = 2.306 Rosner, 1994
t- 検定 2. 2 群の比較 (1) 独立な 2 群の平均値の差の検定 (a) 二つの集団の等分散性が仮定できる時 (two-sample t-test) (b) 二つの集団の等分散性が仮定できない時 (Satterthwaite s method, Welch t-test) (2) 対応のある 2 群の平均値の差の検定 (paired t-test)
0.45 0.4 等分散 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229 235 241 247 253 259 265 271 277 283 289 不等分散
Rosner 1994
独立 2 群の t- 検定 ( 等分散 ) における棄却域 (Rosner, 1994)
等分散の F 検定 帰無仮説 H 0 :σ 12 = σ 2 2 対立仮説 H 1 : σ 2 1 σ 2 2 F= s 2 / 1 s 2 2 が自由度 n 1-1 n 2-1の F 分布の下側 2.5% に対応する値 F n1-1, n2-1, 0.025 より小さいか 上側 2.5% に対応する値 F n1-1, n2-1, 0.975 より大きい場合 帰無仮説は棄却され 2 群の分散は等しくないと結論される
等分散の F 検定における棄却域 (Rosner 2010)
ノンパラメトリック法 ( 正規分布を仮定しない 測定値の順位を用いる ) Wilcoxonの順位和検定 Wilcoxon rank sum test ( 独立な2 群の比較 ) = マンホイットニーの検定
対応のある t 検定 2 群あるいは 2 回の測定値の差の平均を d 差の不偏標準偏差を s d とする また ペアの数を n とする 検定統計量 t= d/ (s d /n 1/2 ) であり この絶対値が t 分布表の自由度 n-1 の上側 2.5% に対応する値 t n-1, 0.975 より大きい場合 帰無仮説は棄却され 2 回の測定値の間に有意差があると結論される 1 標本の t- 検定と同じである
ノンパラメトリック法 ( 正規分布を仮定しない 測定値の順位を用いる ) Wilcoxon の符号付き順位検定 Wilcoxon signed rank test ( 対応のある 2 群の比較 )
3. 相関 相関 Pearson correlation coefficient 二つの連続変数の直線的な相関の程度を表す 順位相関 Spearman rank correlation ( ノンパラメトリック法 順位に基づく解析 正規分布を仮定しない ) 単回帰 y=ax+b y: 従属変数 x: 独立変数
相関係数 Correlation coefficient r =(x と y の共分散 ) /( x の標準偏差 y の標準偏差 )
強い正の相関 弱い正の相関 強い負の相関 弱い負の相関 (Rosner 2005)
母相関係数の検定 帰無仮説 H 0 :ρ=0 対立仮説 H 1 :ρ 0 検定統計量 t= (r-0)/{(1- r 2 )/(n-2)} 1/2 t の絶対値が t n-2, 0.975 より大きい場合 帰無仮説は棄却され 二つの変数の間に有意な相関があると結論される
本日の授業 3 群以上の平均値の差の検定 ( 一元配置分散分析法 ) 多重比較 (Bonferroni 法 Scheffe 法 ) ノンパラメトリック法 (Kruskal-Wallis test) 単回帰分析 ( 回帰係数の t 検定 F 検定 ) 重回帰分析 ( 回帰係数の t 検定 F 検定 ) 2 群の割合の検定独立 2 群カイ 2 乗検定対応のある 2 群マクネマー検定補足 2 項検定とマクネマー検定
4. 3 群以上の比較 分散分析法 3 群以上の平均値の差の検定 多重比較 いくつかの比較を行なう際に 有意水準 α の補正を行なうもの (3 群以上の平均値の差の検定に t- 検定を繰り返して行うことはできない ) Bonferroni Scheffe Tukey など
分散分析法 Analysis of variance, ANOVA 3 群以上の平均値の差の検定帰無仮説 H 0 : 各群の平均値がすべて等しい正規性等分散性を満たすことが必要 全体変動 = 群間変動 + 群内変動 = 要因による変動 + 誤差による変動
群間変動大 郡内変動小の場合 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229 235 241 247 253 259 265 271 277 283
群間変動小 郡内変動大の場合 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229 235 241 247 253 259 265 271 277 283
( 個々のデ-ター全体平均 ) = ( 個々のデ-ター個々の群平均 ) + ( 個々の群の平均ー全体平均 ) 全体変動 =( 個々のデ-ター全体平均 ) 2 の総和群内変動 =( 個々のデ-ター個々の群平均 ) 2 の総和 群間変動 =( 個々の群平均ー全体平均 ) 2 の総和 両辺を二乗して総和をとる SS B SS A
H 0 : 各群の平均値がすべて等しい A B SS, 平方和 ; MS, 平均平方 (Rosner 2005)
一元配置分散分析のための F 検定における棄却域 Rosner 2005
Bonferroni s method 1. 一回当たりの有意水準を調整する α * = 0.05/ n C 2 2. 込みにした分散として 群内平均平方を用いる 3. 自由度はn- 群の数となる
{(n 1-1)s 1 2 + (n 2-1)S 2 2 + (n 3-1)S 32 }/(n 1 + n 2 + n 3-3) 例 :0.05/3 SPSS では P- 値を 3 倍している (Rosner 2010)
(Rosner 2010)
(Rosner 2010)
ノンパラメトリック法 Kruskal-Wallis test(3 群以上の比較 ) 等分散性必要なし 正規性 必要なし ノンパラメトリック法による多重比較もある
5. 回帰 従属変数と独立変数の回帰式を推定し 従属変数が独立変数によってどのくらい説明 できるかを定量的に分析する 回帰係数 ~x が 1 単位の変化すると y がどの位変化することが期待されるかを示す 回帰直線を生のデータの散布図とともに示すことが望ましい 回帰直線は 実測点と予測点の誤差 ( 残差 ) の 2 乗の和が最小になるように求められる ( 最小 2 乗法 )
回帰直線 最小 2 乗法で求める 残差 残差の 2 乗の和が最小になるように Rosner 1994
回帰係数の有意性の検定 帰無仮説 H 0 :β=0 対立仮説 H 1 :β 0 回帰係数の推定値 bをその標準誤差 se (b) で割った値 tの絶対値が 自由度 n-2のt 分布表の上側 2.5% に対応する値 t n-2,0.975 より大きれば 帰無仮説は棄却され yとxとの間に有意な関連があると結論される
= b/s.e.(b) (Rosner 2010)
寄与率 決定係数 従属変数の変動のどの位の割合を独立変数 x で説明できるかを表す指標 相関係数の 2 乗となる Model SS/Total SS モデルのあてはまりのよさの指標
Error Sum of Squares Σ( y i y i ) 2 Total Sum of Squares Σ( y i y ) 2 Model Sum of Squares Σ( y i y ) 2
F- 検定による回帰係数の有意性の検定 帰無仮説 H 0 :β=0 対立仮説 H 1 :β 0 (y 実測値ー y 平均 ) = (y 期待値ー y 平均 )+(y 実測値ー y 期待値 ) 両辺を 2 乗して総和を求める Σ(y 実測値ー y 平均 ) 2 = Σ(y 期待値ー y 平均 ) 2 +Σ(y 実測値ー y 期待値 ) 2 Total SS = model SS + residual SS 帰無仮説のもとで F = model MS/residual MS が自由度 1 n-2 の F 分布に従うことを利用して 回帰係数の有意性の検定を行う F > F 1,n-2, 1-α ならば帰無仮説を棄却する F <= F 1,n-2, 1-α ならば帰無仮説を棄却しない
残差について確認すること 1. 残差の正規性の確認 (P-P プロット ) 2. 残差の分散均一性の確認 ( 従属変数の予測値あるいは独立変数と残差の散布図を描いてみる ) SPSS: *zresisのヒストグラム P-Pプロット *zresid vs. *zpred の散布図作成
6. 重回帰分析 y=β 0 + β 1 x 1 + β 2 x 2 + -----+β k x k + ε 従属変数は数量データ 独立変数はカテゴカルデータ (1,0) でもよい 偏回帰係数 β i は 実測値と予測値の誤差 ( 残差 ) の 2 乗の和が最少になるように求められる ( 最小 2 乗法 ) 他の独立変数の影響を調整した際 x i が 1 単位変化した場合の y の変化量を示す
回帰係数の有意性の検定 帰無仮説 H 0 :β i =0 対立仮説 H 1 :β i 0 回帰係数の推定値 b i をその標準誤差 se (b i ) で割った値 tの絶対値が 自由度 n-p-1のt 分布表の上側 2.5% に対応する値 t n-p-1,0.975 より大きれば 帰無仮説は棄却され yとx i との間に有意な関連があると結論される
標準化偏回帰係数 Standardized regression coefficient 標準化偏回帰係数 b s b s = b (s x /s y ) x i が 1 標準偏差増加した場合に y がどの位増加するかを示す ( 単位は y の標準偏差 ) ( 他のすべての独立変数の影響を調整した後で )
F- 検定による回帰係数の有意性の検定 (1) 帰無仮説 H 0 : すべての β i =0 対立仮説 H 1 : 少なくとも一つの β i 0 (y 実測値ー y 平均 ) = (y 期待値ー y 平均 )+(y 実測値ー y 期待値 ) 両辺を 2 乗して総和を求める Σ(y 実測値ー y 平均 ) 2 = Σ(y 期待値ー y 平均 ) 2 +Σ(y 実測値ー y 期待値 ) 2 Total SS = model SS + residual SS 帰無仮説のもとで F = model MS/residual MS が自由度 k n-k-1 の F 分布に従うことを利用して 回帰係数の有意性の検定を行う F > F k,n k-1, 1-α ならば帰無仮説を棄却する F <= F k,n k-1, 1-α ならば帰無仮説を棄却しない
Partial F-test による偏回帰係数の検定 (Rosner 2010)
共線性の検討 Variance Inflation Factor < 10 であることを確認
7. 質的データ ( カテゴリカルデータ ) の解析 分割表 (1) カイ 2 乗検定 分子に N( ad-bc - N/2) 2 を使う場合もある (Yates の補正 ) カイ 2 乗値 =N(ad-bc) 2 /{(a+b)(c+d)(a+c)(b+d)} を求め ( ただし N=a+b+c+d) これが 3.84 より大きければ疾患と曝露との関連は統計学的に有意であると判断される 曝露 + 曝露 - 合計 疾患群 a b a+b 非疾患群 c d c+d 合計 a+c b+d a+b+c+d=n
(Rosner 2005)
カイ 2 乗検定の例 牛乳抗体の有無別の死亡率を比較したところ 以下のような結果が得られた 死亡 + 死亡 - 合計 抗体 + 29 80 109 抗体 - 10 94 104 合計 39 174 213 抗体 +, 死亡 + の期待値 =39*109/213=19.96
χ 2 =(29 94-10 80) 2 213 /(39 174 109 104) =10.27 Yatesの補正有ありの場合 9.17 であり この値は自由度 1のχ 2 分布の上側 5% 点 3.84より大きい よって 2 群の間で発病率に有意差がある (p=0.0014) 牛乳抗体 + 群は 抗体 - 群より死亡率が有意に高い
カイ2 乗検定 (2) a のセルの期待度数は (a+c) (a+b)/n b のセルの期待度数は (b+d) (a+b)/n c のセルの期待度数は (a+c) (c+d)/n d のセルの期待度数は (b+d) (c+d)/n χ 2 = {( 期待度数ー実測度数 ) 2 / 期待度数 } を用いてもよい ( 2) Fisher の直接確率法 ( 帰無仮説のもとでの期待値の一つ以上が 5 より小さい場合 )
演習 7 式を書く =chidist(x,1) =chitest( 実測度数, 期待度数 )
割合の検定 2 要因 ( 帰無仮説のもとでの期待値の 1 つ以上が 5 未満の場合 ) 曝露 + 曝露 - 合計疾患群 a b n 1 非疾患群 c d n 2 合計 m 1 m 2 N Fisher の直接確率法を用いる 周辺度数が与えられているという条件のもとで 現在の度数とそれより偏った度数の組み合わせが起きる条件付き確率を求める p = m1 C a m2 C b / N C n1 = n 1!n 2!m 1!m 2!/(N!a!b!c!d!) 超幾何分布 Hypergeometric distribution ( 丹後 古川医学への統計学 )
壺の中に赤い玉が m 1 個 白い玉が m 2 個入っている (N = m 1 + m 2 ) いま 壺の中から n 1 個の玉を取り出し た時 赤い玉が a 個 白い玉が b 個とな る確率は p = m1 C a m2 C b / N C n1 で求められる
期待値 =5*19/28=3.39 <5 P 新薬と対照との間で 副作用ありの割合に有意差があるかどうかを検定したい 片側 P = 0.0013+0.0244 = 0.0257 両側 P = 0.0257 2 = 0.0514 有意差なし =hypgeom.dist(a,m1,n1,n,false) ( 丹後 古川医学への統計学 )