PowerPoint プレゼンテーション

学位論文作成のための疫学統計解析の実際徳島大学大学院医歯薬学研究部社会医学系予防医学分野有澤孝吉 (e-mail: karisawa@tokushima-u.ac.jp)

本日の講義の内容 (SPSS を用いて ) 記述統計 ( データのまとめ方 ) 代表値ばらつき正規確率プロット正規性の検定標準偏差不偏標準偏差標準誤差の区別中心極限定理母平均の区間推定 ( 母集団の標準偏差が既知の場合 ) 母平均の区間推定 ( 母集団の標準偏差が未知の場合 ) t- 分布平均値の差の検定 ( 独立 2 群 ) ( 分散が等しい場合等しくない場合 ) 等分散のF 検定平均値の差の検定 ( 対応のある2 群 ) ノンパラメトリック法 (Wilcoxonの順位和検定 Wilcoxonの符号付き順位検定 ) 相関

データのまとめ方 1. 記述統計など ( 正規分布に従う場合 ) 平均値分散標準偏差 ( 正規分布に従わない場合 ) 中央値中心とばらつきを示すこと 25パーセンンタイル 75パーセンンタイル値範囲

正規確率プロット 154 153 期待値 152 151 150 149 148 147 148 149 150 151 152 153 154 正規分布 ~ 直線に乗る正規性の検定 :Shapiro-Wilk test, Kolmogorov-Smirnov test

幹葉表示箱ひげ図 25% 50% 75% IQR 1.5 IQR はずれ値 (Rosner 2010)

( 分散 ) ( 不偏分散 ) ( 不偏標準偏差 )

用語の使い分け標準偏差 ( 分散の平方根 ) s 不偏標準偏差 ( 不偏分散の平方根 ) 母集団の標準偏差の推定値となる s 標準誤差 ( 推定量の標準偏差 ) 母集団の平均値の推定の場合は s / n 1/2 他の例 : 回帰係数の標準誤差

繰り返し無作為抽出 100 回 200 回 --- 平均 μ 標準偏差 σ 標本サンプルサイズ n 標本平均 x1 標準偏差 s1 標本平均 x2 標準偏差 s2 母集団標本平均 x200 標準偏差 s200

25 20 標本平均 x の平均は母平均 μ に一致 15 母集団 1000 人 10 母集団の分布標本平均 (n=1) の分布標本平均 (n=10) の分布標本平均 (n=30) の分布 5 0-5 50 70 90 100 110 114 125 140 160 180 抽出は各 200 回 n が増えるとばらつきは小さくなる

標本平均 x の分布 95% μ -1.96σ/n 1/2 μ +1.96σ/n 1/2 標本平均の分布は正規分布に従う標本平均の平均は μ に一致標本平均の標準偏差は σ/n 1/2 μ (n が大きいとき母集団の分布に関わらず ) ( 中心極限定理 )

母集団の平均値の区間推定母集団の標準偏差 σ が既知の場合母集団の平均 μ の 95% 信頼区間は (x 1.96 σ / n 1/2, x + 1.96 σ / n 1/2 ) で与えられる

母集団の平均値の区間推定母集団の標準偏差 σ が未知の場合母集団の平均 μ の 95% 信頼区間は (x - t n-1, 0.975 s / n 1/2, x + t n-1, 0.975 s / n 1/2 ) で与えられる 1 σ の推定値としての s を使用 2 1.96 が t n-1, 0.975 にかわる

t 分布 ( 統計の時間より )

母集団の平均値の区間推定 ( 例 ) 標本平均 151.02 不偏標準偏差 1.53 n=9 母平均の95% 信頼区間は次のように与えられる t 8, 0.975 = 2.306 (151.02 2.306 1.53 / 9 1/2, 151.02 + 2.306 1.523 / 9 1/2 ) = (149.84, 152.20)

t- 分布表 0.975 d.f. t 8, 0.975 = 2.306 Rosner, 1994

t- 検定 2. 2 群の比較 (1) 独立な 2 群の平均値の差の検定 (a) 二つの集団の等分散性が仮定できる時 (two-sample t-test) (b) 二つの集団の等分散性が仮定できない時 (Satterthwaite s method, Welch t-test) (2) 対応のある 2 群の平均値の差の検定 (paired t-test)

0.45 0.4 等分散 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229 235 241 247 253 259 265 271 277 283 289 不等分散

Rosner 1994

独立 2 群の t- 検定 ( 等分散 ) における棄却域 (Rosner, 1994)

等分散の F 検定帰無仮説 H 0 :σ 12 = σ 2 2 対立仮説 H 1 : σ 2 1 σ 2 2 F= s 2 / 1 s 2 2 が自由度 n 1-1 n 2-1の F 分布の下側 2.5% に対応する値 F n1-1, n2-1, 0.025 より小さいか上側 2.5% に対応する値 F n1-1, n2-1, 0.975 より大きい場合帰無仮説は棄却され 2 群の分散は等しくないと結論される

等分散の F 検定における棄却域 (Rosner 2010)

ノンパラメトリック法 ( 正規分布を仮定しない測定値の順位を用いる ) Wilcoxonの順位和検定 Wilcoxon rank sum test ( 独立な2 群の比較 ) = マンホイットニーの検定

対応のある t 検定 2 群あるいは 2 回の測定値の差の平均を d 差の不偏標準偏差を s d とするまたペアの数を n とする検定統計量 t= d/ (s d /n 1/2 ) でありこの絶対値が t 分布表の自由度 n-1 の上側 2.5% に対応する値 t n-1, 0.975 より大きい場合帰無仮説は棄却され 2 回の測定値の間に有意差があると結論される 1 標本の t- 検定と同じである

ノンパラメトリック法 ( 正規分布を仮定しない測定値の順位を用いる ) Wilcoxon の符号付き順位検定 Wilcoxon signed rank test ( 対応のある 2 群の比較 )

3. 相関相関 Pearson correlation coefficient 二つの連続変数の直線的な相関の程度を表す順位相関 Spearman rank correlation ( ノンパラメトリック法順位に基づく解析正規分布を仮定しない ) 単回帰 y=ax+b y: 従属変数 x: 独立変数

相関係数 Correlation coefficient r =(x と y の共分散 ) /( x の標準偏差 y の標準偏差 )

強い正の相関弱い正の相関強い負の相関弱い負の相関 (Rosner 2005)

母相関係数の検定帰無仮説 H 0 :ρ=0 対立仮説 H 1 :ρ 0 検定統計量 t= (r-0)/{(1- r 2 )/(n-2)} 1/2 t の絶対値が t n-2, 0.975 より大きい場合帰無仮説は棄却され二つの変数の間に有意な相関があると結論される

本日の授業 3 群以上の平均値の差の検定 ( 一元配置分散分析法 ) 多重比較 (Bonferroni 法 Scheffe 法 ) ノンパラメトリック法 (Kruskal-Wallis test) 単回帰分析 ( 回帰係数の t 検定 F 検定 ) 重回帰分析 ( 回帰係数の t 検定 F 検定 ) 2 群の割合の検定独立 2 群カイ 2 乗検定対応のある 2 群マクネマー検定補足 2 項検定とマクネマー検定

4. 3 群以上の比較分散分析法 3 群以上の平均値の差の検定多重比較いくつかの比較を行なう際に有意水準 α の補正を行なうもの (3 群以上の平均値の差の検定に t- 検定を繰り返して行うことはできない ) Bonferroni Scheffe Tukey など

分散分析法 Analysis of variance, ANOVA 3 群以上の平均値の差の検定帰無仮説 H 0 : 各群の平均値がすべて等しい正規性等分散性を満たすことが必要全体変動 = 群間変動 + 群内変動 = 要因による変動 + 誤差による変動

群間変動大郡内変動小の場合 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229 235 241 247 253 259 265 271 277 283

群間変動小郡内変動大の場合 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229 235 241 247 253 259 265 271 277 283

( 個々のデ-ター全体平均 ) = ( 個々のデ-ター個々の群平均 ) + ( 個々の群の平均ー全体平均 ) 全体変動 =( 個々のデ-ター全体平均 ) 2 の総和群内変動 =( 個々のデ-ター個々の群平均 ) 2 の総和群間変動 =( 個々の群平均ー全体平均 ) 2 の総和両辺を二乗して総和をとる SS B SS A

H 0 : 各群の平均値がすべて等しい A B SS, 平方和 ; MS, 平均平方 (Rosner 2005)

一元配置分散分析のための F 検定における棄却域 Rosner 2005

Bonferroni s method 1. 一回当たりの有意水準を調整する α * = 0.05/ n C 2 2. 込みにした分散として群内平均平方を用いる 3. 自由度はn- 群の数となる

{(n 1-1)s 1 2 + (n 2-1)S 2 2 + (n 3-1)S 32 }/(n 1 + n 2 + n 3-3) 例 :0.05/3 SPSS では P- 値を 3 倍している (Rosner 2010)

(Rosner 2010)

ノンパラメトリック法 Kruskal-Wallis test(3 群以上の比較 ) 等分散性必要なし正規性必要なしノンパラメトリック法による多重比較もある

5. 回帰従属変数と独立変数の回帰式を推定し従属変数が独立変数によってどのくらい説明できるかを定量的に分析する回帰係数 ~x が 1 単位の変化すると y がどの位変化することが期待されるかを示す回帰直線を生のデータの散布図とともに示すことが望ましい回帰直線は実測点と予測点の誤差 ( 残差 ) の 2 乗の和が最小になるように求められる ( 最小 2 乗法 )

回帰直線最小 2 乗法で求める残差残差の 2 乗の和が最小になるように Rosner 1994

回帰係数の有意性の検定帰無仮説 H 0 :β=0 対立仮説 H 1 :β 0 回帰係数の推定値 bをその標準誤差 se (b) で割った値 tの絶対値が自由度 n-2のt 分布表の上側 2.5% に対応する値 t n-2,0.975 より大きれば帰無仮説は棄却され yとxとの間に有意な関連があると結論される

= b/s.e.(b) (Rosner 2010)

寄与率決定係数従属変数の変動のどの位の割合を独立変数 x で説明できるかを表す指標相関係数の 2 乗となる Model SS/Total SS モデルのあてはまりのよさの指標

Error Sum of Squares Σ( y i y i ) 2 Total Sum of Squares Σ( y i y ) 2 Model Sum of Squares Σ( y i y ) 2

F- 検定による回帰係数の有意性の検定帰無仮説 H 0 :β=0 対立仮説 H 1 :β 0 (y 実測値ー y 平均 ) = (y 期待値ー y 平均 )+(y 実測値ー y 期待値 ) 両辺を 2 乗して総和を求める Σ(y 実測値ー y 平均 ) 2 = Σ(y 期待値ー y 平均 ) 2 +Σ(y 実測値ー y 期待値 ) 2 Total SS = model SS + residual SS 帰無仮説のもとで F = model MS/residual MS が自由度 1 n-2 の F 分布に従うことを利用して回帰係数の有意性の検定を行う F > F 1,n-2, 1-α ならば帰無仮説を棄却する F <= F 1,n-2, 1-α ならば帰無仮説を棄却しない

残差について確認すること 1. 残差の正規性の確認 (P-P プロット ) 2. 残差の分散均一性の確認 ( 従属変数の予測値あるいは独立変数と残差の散布図を描いてみる ) SPSS: *zresisのヒストグラム P-Pプロット *zresid vs. *zpred の散布図作成

6. 重回帰分析 y=β 0 + β 1 x 1 + β 2 x 2 + -----+β k x k + ε 従属変数は数量データ独立変数はカテゴカルデータ (1,0) でもよい偏回帰係数 β i は実測値と予測値の誤差 ( 残差 ) の 2 乗の和が最少になるように求められる ( 最小 2 乗法 ) 他の独立変数の影響を調整した際 x i が 1 単位変化した場合の y の変化量を示す

回帰係数の有意性の検定帰無仮説 H 0 :β i =0 対立仮説 H 1 :β i 0 回帰係数の推定値 b i をその標準誤差 se (b i ) で割った値 tの絶対値が自由度 n-p-1のt 分布表の上側 2.5% に対応する値 t n-p-1,0.975 より大きれば帰無仮説は棄却され yとx i との間に有意な関連があると結論される

標準化偏回帰係数 Standardized regression coefficient 標準化偏回帰係数 b s b s = b (s x /s y ) x i が 1 標準偏差増加した場合に y がどの位増加するかを示す ( 単位は y の標準偏差 ) ( 他のすべての独立変数の影響を調整した後で )

F- 検定による回帰係数の有意性の検定 (1) 帰無仮説 H 0 : すべての β i =0 対立仮説 H 1 : 少なくとも一つの β i 0 (y 実測値ー y 平均 ) = (y 期待値ー y 平均 )+(y 実測値ー y 期待値 ) 両辺を 2 乗して総和を求める Σ(y 実測値ー y 平均 ) 2 = Σ(y 期待値ー y 平均 ) 2 +Σ(y 実測値ー y 期待値 ) 2 Total SS = model SS + residual SS 帰無仮説のもとで F = model MS/residual MS が自由度 k n-k-1 の F 分布に従うことを利用して回帰係数の有意性の検定を行う F > F k,n k-1, 1-α ならば帰無仮説を棄却する F <= F k,n k-1, 1-α ならば帰無仮説を棄却しない

Partial F-test による偏回帰係数の検定 (Rosner 2010)

共線性の検討 Variance Inflation Factor < 10 であることを確認

7. 質的データ ( カテゴリカルデータ ) の解析分割表 (1) カイ 2 乗検定分子に N( ad-bc - N/2) 2 を使う場合もある (Yates の補正 ) カイ 2 乗値 =N(ad-bc) 2 /{(a+b)(c+d)(a+c)(b+d)} を求め ( ただし N=a+b+c+d) これが 3.84 より大きければ疾患と曝露との関連は統計学的に有意であると判断される曝露 + 曝露 - 合計疾患群 a b a+b 非疾患群 c d c+d 合計 a+c b+d a+b+c+d=n

(Rosner 2005)

カイ 2 乗検定の例牛乳抗体の有無別の死亡率を比較したところ以下のような結果が得られた死亡 + 死亡 - 合計抗体 + 29 80 109 抗体 - 10 94 104 合計 39 174 213 抗体 +, 死亡 + の期待値 =39*109/213=19.96

χ 2 =(29 94-10 80) 2 213 /(39 174 109 104) =10.27 Yatesの補正有ありの場合 9.17 でありこの値は自由度 1のχ 2 分布の上側 5% 点 3.84より大きいよって 2 群の間で発病率に有意差がある (p=0.0014) 牛乳抗体 + 群は抗体 - 群より死亡率が有意に高い

カイ2 乗検定 (2) a のセルの期待度数は (a+c) (a+b)/n b のセルの期待度数は (b+d) (a+b)/n c のセルの期待度数は (a+c) (c+d)/n d のセルの期待度数は (b+d) (c+d)/n χ 2 = {( 期待度数ー実測度数 ) 2 / 期待度数 } を用いてもよい ( 2) Fisher の直接確率法 ( 帰無仮説のもとでの期待値の一つ以上が 5 より小さい場合 )

演習 7 式を書く =chidist(x,1) =chitest( 実測度数, 期待度数 )

割合の検定 2 要因 ( 帰無仮説のもとでの期待値の 1 つ以上が 5 未満の場合 ) 曝露 + 曝露 - 合計疾患群 a b n 1 非疾患群 c d n 2 合計 m 1 m 2 N Fisher の直接確率法を用いる周辺度数が与えられているという条件のもとで現在の度数とそれより偏った度数の組み合わせが起きる条件付き確率を求める p = m1 C a m2 C b / N C n1 = n 1!n 2!m 1!m 2!/(N!a!b!c!d!) 超幾何分布 Hypergeometric distribution ( 丹後古川医学への統計学 )

壺の中に赤い玉が m 1 個白い玉が m 2 個入っている (N = m 1 + m 2 ) いま壺の中から n 1 個の玉を取り出した時赤い玉が a 個白い玉が b 個となる確率は p = m1 C a m2 C b / N C n1 で求められる

期待値 =5*19/28=3.39 <5 P 新薬と対照との間で副作用ありの割合に有意差があるかどうかを検定したい片側 P = 0.0013+0.0244 = 0.0257 両側 P = 0.0257 2 = 0.0514 有意差なし =hypgeom.dist(a,m1,n1,n,false) ( 丹後古川医学への統計学 )