PowerPoint プレゼンテーション

Size: px

Start display at page:

Download "PowerPoint プレゼンテーション"

みそらさかど
5 years ago
Views:

1 統計処理の基本 1. データとブラウジング 2. 平均の差の検定 3. 相関と回帰 4. その他の重要な知識

2 1. データとブラウジング

3 有効数字について表現方法例えば,1200mg/L で,00 が有効数字でないのなら 1.2g/L と表現する ( 一般に, 有効数字 10 3n の指数形式が適切 ) 計算加減乗除結果を絶対値の大きい方の有効桁数に合わせる例 ) 最大有効桁位が小数点下第 1 位の場合 = ( 小数点第 2 位まで丸めて計算 ) ( 結果を小数点第 1 位に丸める ) 結果を有効桁の少ない方に合わせる例 ) 最小有効桁数が 2 桁の場合 = ( 有効桁数 s3 まで丸めて計算 ) ( 結果を有効桁数 2 に丸める )

4 数値と誤差自然現象を測定した数値にはすべて誤差があるしたがってすべて統計的に評価する必要がある正規分布 ( 平均と分散で形が決まる ) モデルを使用 f x = 1 2πσ 2 e * 平均値 μはデータを全部足して例数で割ったもの x μ 2 2σ 2 * 分散 σ 2 は偏差平方和 ( データと平均値の差の二乗の総計,Σ(x i x) 2 = S xx ) を例数で割ったもの ( S xx ) n * 分散の平方根をとると単位がデータと同じになりデータの分布を平均値からの距離 ( 標準偏差,σ ) で表現できる ( 平均 ± 標準偏差 ) < 標準偏差はその範囲に分布データの何 % が含まれるかを示す ±1σ は約 68% ±2σ は約 95%> * 平均値の分散はデータの分散を例数で割ったもの ( σ2 n ) * 平均値の分散の平方根をとると単位が同じになり平均値の分布を平均値からの距離 ( 標準誤差,SE) で表現できる

5 正規分布では分布の 95% を含む区間は σ の ±1.96 倍しかし実際の測定は標本に対して行われるので誤差 ( 偏り ) のある標本平均値 xを用いて分散を計算することになるしたがって分散の推定値には平均値の誤差分を加えなければならない σ 2 = S xx n + σ2 n = S xx n 1 ( 不偏分散 ) 分散の式が異なるので正規分布ではなく自由度 (n p p は誤差をもつパラメーターの数になる ) によって変化する t 分布となる ( 95% を含む区間が異なる ) 例えば自由度 60 の時約 ±2.00 倍となる (t 値 )

6 信頼区間誤差を含めた数値の評価数値の信頼区間を求める測定法の性能指標 CV( 変動係数 :coefficient of variance) を使う CV = SD data 測定値 100 の CV が 5%(0.05) の場合 SD = CV data = = 5 2SD が 10 となるので約 95% の信頼区間 (data ± 2SD) は 90~110 となる例えば臨床検査でよく使う項目の CV は最近では 1% 以下であるが免疫学的測定法の低値域では CV 10% まで上がることがあるの要注意測定値 100 が 4 重測定の平均値であれば信頼区間は data ± 2SE となるので 95~105 となる ( SE = SD n = 2.5)

7 データの集計データの分類 * 一意コード (ID 連番など重複がない) * 一次データ ( 未編集の生データ ) * 二次データ ( 変換や計算後の値 ) * 補足データ ( 単位やコメントなど ) 変数のタイプ * 質的変数 ( 名義尺度, 分類 ) * 量的変数 ( 連続量, 離散量, 順位数 ) 一次データでは, 元の精度を保持すること ( 四捨五入測定感度以下を 0 にするなどをしない ) 欠損値の情報では理由を区別する ( 測定せず検出されず測定範囲外無効値など ) 統計処理前にはデータ浄化 ( エラーチェック, 表現単位の統一, データの圧縮, など )

8 一意コード質的変数量的変数一次データ :TP, ALB, ZTT, CRP, WBC, St, Seg, Lym 二次データ :GLB, T.Neu, T.Lym 離散量 : 年齢

9 データのブラウジング : 分布を見る正規分布対数正規分布正規分布を前提とした統計処理の場合正規分布に適合可能な分布は前処理としてデータ変換を行う Box-Cox 変換 x = (xλ 1) λ 0 λ x = log x λ = 0 べき変換分布

10 データのブラウジング : 箱ヒゲ図で見る 4 分位偏差による表現 95% 点など % 点 50 中央値 25% 点 0 AST(U/L) 5% 点など

11 正規分布化 ( 対数変換 )

12 データの関連性のブラウジング : 相関散布図

13 2. 平均の差の検定

14 プロローグそもそも2 群の平均の差は明白 ( ある男女対抗の競技大会で, 平均点の高いチームの勝ちにする, というような場合 ) 知りたいのは, 普遍的な事実 - 母集団での差 ( この競技における平均点は男女どちらが高いのか, という一般的な問題を解く場合 ) 部分的な事実を用いて普遍的な事実を知るためには, 確率論に基づく統計学を利用するこの場合部分的な事実は母集団から無作為に取り出した標本であるとの前提 ( 標本理論 ) が必要さらに標本は, 比較したいもの以外の因子がすべてランダム化されているかマッチングされていることが前提 ( 例えば若い男性と高齢の女性との間で性差は論じられない ) ランダム化 < 保証がない > よりはマッチングのほうが現実的?

15 平均の差の検定方法の原理標本の平均値間には差があるが, 母集団でも差があるとは限らない ( 大小が逆かもしれないそもそも分からない ) ので確率的に差がないという可能性を否定することによって逆に観察されている差は一般化できると主張する差がない可能性を完全に否定することはできないが一定の基準 ( 危険率 ) を設定してそれより小さい場合には, 差があるということを受け入れそれ以上では, 差がないという可能性は捨てないでおこう ( 有意差なし ) とします危険率をどう決めるかは自由で研究方法で明記すればいいが多くの場合 5% 以下とすれば受け入れられるでしょう ( 内容次第ですが ) 注意すべきは有意差なしが差がないということではない! ということ

16 平均の差の検定具体的な方法平均値の差がその誤差の 95% を含む区間よりも大きければ, 5% 未満の危険率で差があると判定差の誤差はそれぞれの平均値の分散を加算し (SE A 2 + SE B 2 ) その平方根をとって求める有意差 = 平均値の差が誤差の 95% を含む区間 ( 誤差の 1.96 倍 ) よりも大有意差が成立する不等式 μ A μ B > SE A 2 + SE B 標本を用いる場合は誤差のある標本平均値 xを2つ用いているので自由度 n 2の t 分布となる有意差が成立する不等式 x A x B > SE A 2 + SE B 2 t

17 平均の差の検定具体的な方法 ( つづき ) 実際の t 検定対応なしで母分散が等しい ( 分散比で判定これは怪しい ) とき不偏分散は S xxa +S xxb n A +n B 2 有意差の式は x A x B > 自由度は n A + n B 2 Sxx A +Sxx B Sxx A +Sxx B n A +n B 2 n + A +n B 2 n A n B t 対応なしで母分散が等しくない ( 不明の ) とき (Welch 法 ) 式は x A x B > 自由度を近似 (SE A 2 +SE B 2 ) 2 (SE 2 A ) 2 n A 1 +(SE B 2 ) 2 n B 1 SE A 2 + SE B 2 t ( 有効自由度 ) 対応のある場合式は x (A B) > 自由度は n 1 SE (A B) 2 t

18 平均の差の検定 - 解釈 S 分散 xx は例数が増えてもあまり変わらないが, 平均値の分散は分散を n さらにnで割っているため例数を増やしていけばどんどん減っていくつまり例数を増やせば p 値もどんどん小さくなっていく差がないという可能性もどんどん減っていく Sxx n n 逆に例数が少なすぎても ( 偶然に ) 有意差は出やすくなる有意差が得られただけでは単に差があるとは言えても意味のある差があるとまでは言えていないしたがって意味のある差があることを言いたいのであれば * どの程度の差を意味あるものと考えるのか * そのためにはどれだけのサンプル数が適当なのかということを予め考えておくことが必要

19 平均の差の検定有意かつ意味のある差どの程度の差を意味あるもの ( 医学的な有意性 ) とするのかを決める効果量 d = 意味ある平均の差 / 標準偏差の平均を設定し α = 0.05 ( 第一種過誤確率 ) β = 0.2 ( 第二種過誤確率 )< 検出力 1 β = 0.8 >の時適当なサンプル数は, n 1 = (1 + n 1 ) ( α 2 のときのz 値 + βのときのz 値 ) 2 n 2 d 2 (n 2 n 1, 片側検定では α 2 α にする ) たとえばコレステロル20mg/dLの差を意味あるものとし, 標準偏差が30mg/dLと 50mg/dLの集団を同数用いる場合,d = 20 = ,n 1 = 1 n 2 ここで,α = 0.05 の場合の例数は, n = (1 + 1) ( ) 2 / = / 0.25 = 62.7 したがって63 人ずつがよいということになるこの場合有意差がなければ差がない ( 同等 ) と判断してよい検出力の設定は研究の目的によって変わるが 0.8( 効果重視 = 通常はこれ ), 0.5( 中 ), 0.2( 低 = 僅かな差でも重視 )

20 群分けによる変動補足 : 分散分析データ全体を複数の群に分けた時に群分けによる変動がそれ以外の誤差による変動よりも大きいかどうかを検定する方法方法 : 分散比の検定 (F 検定 ) 分母は誤差の分散 ( 群ごとに平均偏差平方和を求めてすべて加え全データ数 - 群の数 = 自由度で割ったもの ) 分子は群分けの分散 ( 各群の平均値を用いて偏差平方和を求め群の数 -1= 自由度で割ったもの ) 平均値に差がなければ分散は等しくなる

21 3. 相関と回帰

22 複数の数値をセットでもつものをベクトルというベクトルは固有の方向を持つベクトル間の方向の関係を相関性という正相関 ( 同方向 ) 逆相関 ( 逆方向 ) 無相関 ( 直交 ) 通常は相関する成分と無相関の成分に分けられる相関する成分が多いほどベクトルどうしの関連性は強い

23 相関まずひとつの数値だけを含む数 ( ふつうの数 ) どうしで考えるとかけ合わせたものが + になれば同方向 - になれば逆方向 0 になれば直交それぞれ正相関負相関無相関に対応する複数の数値の集まりではベクトルどうしのかけ合せで結果の意味は同じなのでベクトル間の掛け算 ( 内積 ) で相関性を評価できる x = [x 1, x 2, x 3,, x n ] y = [y 1, y 2, y 3,, y n ] x y = x 1 y 1 + x 2 y 2 + x 3 y 3 + +x n y n = x y cos θ ベクトルの方向が同じとき内積は+となる正相関 ( 全く同じときは cosθ = 1) ベクトルの方向が逆のとき内積は-となる負相関 ( 完全に逆向きは cosθ = 1 ) ベクトルが直交していると内積は0となる無相関 (cosθ = 0 ) 内積を絶対値の積で標準化したもの ( ベクトル間の余弦 ) x y x y = cos θ は要素が偏差値の場合に相関係数を表す x = [(x 1 x), (x 2 x), (x 3 x),, (x n x)] y = [(y 1 y), (y 2 y), (y 3 y),, (y n y)]

24 相関分析について - 方法と検定母集団のモデルを正規分布とする標本の分布も正規性が必要標本相関係数は r = S xy S xx S yy = Σ(x i x)(y i y) Σ(x i x) 2 Σ(y i y) 2 <r = xとyの共分散 > xの標準偏差 yの標準偏差分母と分子で n が消えています相関係数検定方法の例 : 無相関 0 の信頼限界より外に r があるかどうかを調べる有意差となる不等式 r > (1 r2 ) n 2 t 標本平均値が x と y に計 2 つあるので自由度は n 2 となる

25 相関分析について - 回帰式 y = ax + b (a = S xy, b = y a x) S xx 一次線形回帰式とは,x に対応する y が,x の変化に対して直線的に変化するというモデルで, 説明変数 x と応答変数 y ( 因果関係 ) が区別されていなければならない年齢と体重の回帰式をつくる場合, 年齢を応答変数にすることはできないのは自明一方, 学力試験で国語と数学の成績の関係をみるような場合は, 相関関係はあってもどちらが説明変数でどちらが応答変数ということは言えない応答変数を変動させる成分の中で説明変数が寄与する割合は, 決定係数 = r 2 で表現される (r=0.5 なら 0.25 が寄与率で x は y の変動の 25% に寄与していることとなる )

26 回帰式注意点 1 回帰式を一般化する場合の注意 * 回帰式に代入されて得た値 y の信頼区間は平均値前後で最小となり, 平均値をはずれるほど広がっていく y ± t (1 + 1 n + (x i S xx x) 2 ) Ve ( 信頼区間 95% では t は自由度 n-1,α=0.05 の時の値,Ve: 残差の不偏分散 ) * 回帰式の作成に用いたデータ域をはずれた部分にまで回帰式が有効であるとは限らない ( 定義域内でのみ使用すべき ) * 回帰式の作成に用いたデータに対する過剰適合が生じている回帰式で逆推定する場合の注意例えば, 濃度別の吸光度を測定した回帰式 ( 検量線 ) では, 吸光度 yから濃度 xを求める ( 逆推定 ) 作業が予定される * x = y i b として求めるのは,r = 1.0の時以外は正しくない a * 正確にはy の信頼区間についての下式をxについて解いてxの区間推定を行う y i ax b t (1 + 1 n + (x i S xx x) 2 ) Ve

27 体重 ( kg) 散布図と回帰直線 95% 信頼区間信頼区間は周辺で広がる身長 ( cm) 誤差は y 軸方向のみ (x と y に互換性はない ) 切片は最大化される ( 過剰適合 )

28 回帰式多変量解析への発展 2 つ以上の説明変数がある場合応答変数のベクトルは, 互いに独立な ( 軸上にある ) ベクトルの一次結合で表現できる重回帰式 y = a 1 x 1 + a 2 x 2 + a 3 x 3 + a 4 ただし x 1 x 2 = 0 x 2 x 3 = 0 x 1 x 3 = 0 例えば赤血球数, フィブリノゲン,γ-globulin の変動が互いに独立とすると血沈 = -0.2 赤血球数フィブリノゲン + 20 γ-globulin+ 40 赤血球フィブリノゲン血沈 γ-globulin

29 多変量解析のいろいろ supervised 学習系重回帰分析複数の説明変数の組み合わせによって応答変数を説明 < 応答変数は量的変数 > 判別分析複数の説明変数を組み合わせて判別分類のための式を作成する < 応答変数はカテゴリーなどの質的変数 > unsupervised 探索系主成分分析既知の変数を用いて ( 隠された ) 未知の応答変数を求める因子分析既知の変数に対して未知の説明変数 ( 因子 ) による回帰を求める因子分析 ( 斜交解パターン行列 ) 因子 1 因子 2 因子 3 Albumin Globulin ZTT CRP Neutrophil Lymphocyte クラスター分析複数の変数を関連性の強さ ( 距離など ) によってカテゴリーに分類する < データセットに分類結果は未知で与えられていない >

30 回帰式関数線形回帰変数関数線形基底関数モデル y i = i=0 ω i φ i (x) φ i (x): 基底関数 ( 多項式ガウシアン三角関数 Wavelet など ) 多項基底の場合 φ i x = x i y i = ω 0 + ω 1 x + ω 2 x 2 + 係数の設定法 : 最小二乗法最尤推定法過剰適合の防止 : 正則化項 ( ペナルティ項 ) の追加 Lasso 回帰など

31 一般化線形モデル (GLM) 正規分布以外の分布も扱える線形回帰モデル ( ロジスティック回帰ポアソン回帰など ) 多重ロジスティック回帰線形回帰を確率 (0~1 の値域 ) で表現する p = e β 0+β 1 x 1 +β 2 x 2 + +β n x n 多項ロジスティック回帰応答変数が多群 (3 値以上 ) の場合量的変数質的変数交差変数 (x 1 x 2 など ) が混在できる! 一般化線形混合モデルサンプルごとに異なる値をとるランダム効果の関数 γ を加えたモデル β 0 + β 1 x 1 + β 2 x 2 + +β n x n + γ 1 + γ 2 +

32 4. その他の知識

33 1 正規分布モデルが利用できない時データが少なくて分布が不明データが離散的で分布を当てはめ難いなどの場合ノンパラメトリック法を用いるデータの数値をそのまま使用せず順位をつけて順位数を用いた擬似的な正規分布により検定する方法比率の差の χ2 検定 t 検定の代わりに Wilcoxson の順位和検定 U 検定分散分析 (ANOVA) の代わりに Kruskal-Wallis 順位和検定 Pearson 相関係数の代わりに Spearman または Kendall の順位相関係数パラメーター ( 平均分散 ) で処理できるものをパラメトリック法として区別するブートストラップ法とジャックナイフ法について標本から再サンプリングし分布のパラメーターを推定する方法ブートストラップ法は重複を許した同じケース数の復元サンプリングを繰り返すジャックナイフ法はケースを除きながらサンプリングを繰り返す

34 2 モデルの最適化 ( 最尤推定法と情報量基準 ) 尤度 : 観測されたデータの確率モデルへの適合度各観測データの確率モデルにおける確率の積で計算最尤推定 : 尤度を最大にするようなモデル ( 確率分布 ) とそのパラメーターを求めること尤度関数 L θ = f x i θ を最大にする θ を求めること ( データ x i は定数扱い ) 実際の計算では両辺の自然対数をとって ln L θ = ln f(x i θ) 最尤推定は対数尤度関数を最大 ( 0) にする θ を求めることと等価解析的には対数尤度関数を偏微分した式を 0 とおいて θ を求めるモデルが正規分布の場合 (θ は 2 つ ) 最尤推定値は観測データの平均と分散になる数値計算的には Newton-Raphson 法 EM アルゴリズム MCMC 法など参考 ) ベイズ推定は事前確率を尤度で補正して事後確率を求める最適モデルの選択 : 赤池の情報量基準 AIC = 2 (ln L p) ln L は最大対数尤度 p は自由パラメーターの数 ( 平均対数尤度の近似値尤度とパラメーター数のトレードオフで最適なモデルを評価 ) AIC が小さい値を示すほうのモデルを選ぶ応用例重回帰式の変数選択統計モデルの比較など

35 3 ベイズ推論による臨床診断 Bayesの公式の確率 pをオッズ o = p 1 p にして式を書きかえると例 1: 胸痛患者が心筋梗塞である確率事前確率 0.1( 胸痛患者における心筋梗塞の確率 ) の時 Odds 0.11 < 事前確率の情報がなければ主観的確率でもよい> 所見 LR+ LR- 男性あり才以上 50 才 0.8 刺すような痛みなし 1.3 胸壁の圧痛なし 1.3 ニトログリセン効果なし 1.1 発汗なし 0.7 頸動脈の怒張なし 0.9 第 III 音聴取なし 0.9 ECG:ST 上昇なし 0.6 ECG:ST 低下あり 4.5 ECG: 非特異的 ST 変化なし 1.5 ECG:T 波の逆転あり 2.2 < 各 LR 値はMcGee, Evidence-Based Physical Diagnosisによる> 事前 Odds(=0.11) LR(=9.77) = ( 事後オッズ ) 事後確率は Odds/(1+Odds) = となる例 2: 意識障害が脳病変によるものかそれ以外 ( 代謝性など ) か事前確率 0.5 とし血圧が 120 以下の場合 LR- は 0.2 なので事後確率は 0.17 で脳病変は否定的

36 4 傾向スコアランダムな割り当てができない状況で関心ある変数の差を検討する場合 ( 観察研究 ) に複数の共変量 ( 交絡因子 ) を 1 変数に集約しこの変数を用いてマッチング層化重みづけを行う Ex. ある薬の投与群と非投与群において差を検討する場合割り当て変数 z( 投与群 =1と非投与群 =0) 年齢性別体重などの複数の共変量 xiでzを説明するモデルを作成し例ごとの傾向スコアを得るロジスティック回帰がよく用いられるマッチング 2 つの群で傾向スコアの等しいまたは近いペアで差を求めその平均を検定する ( 傾向スコアの差の合計を最小化するように設定する例数の少ない方は重複使用する ) 層化傾向スコアを複数の層 (5 など ) に分類しそのクラス間で平均の差を検定する重みづけ傾向スコアの逆数で補正する

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断するこれを重回帰分析というつまりどんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め