医学統計セミナーアドバンスコース多群 経時データの解析と多重比較 下川敏雄 和歌 県 医科 学臨床研究センター 2016 年度医学統計セミナー ベーシック コース 基礎統計学 (6 15 住 棟 5F 研修室 ) 量的データの解析 (7 27 住 棟 5F 研修室 ) 質的データの解析 (8 24 住 棟 5F 研修室 ) 共変量調整を伴う解析 (11 2 病院棟 4F 臨床講堂 1) 存時間 臨床検査データの解析 (11 16 住 棟 5F 研修室 ) アドバンス コース 多群 経時データの解析と多重 (11 30 病院棟 4F 臨床講堂 1) 臨床試験における症例数設定とガイドライン (12 28 住 棟 5F 研修室 ) アンケート調査データの解析 (2 1 病院棟 4F 臨床講堂 1) 統計的因果推論と傾向スコア (2 22 住 棟 5F 研修室 ) メタアナリシス (3 22 病院棟 4F 臨床講堂 1) 本講義の概要 多群データの解析 分散分析とは? 多重とは? 経時データの解析 経時対応に対する統計分析 法 経時対応データに対する分散分析 混合効果モデル 多群データの解析
分散分析の基本 : 元配置の分散分析 分散分析表 2 標本 t 検定 1 x 1 元配置分散分析 (1way NOV) 1 x 1 NOV モデルの模式図 個 のバラツキ 個 のバラツキ 個 のバラツキ 2 差を x 2 2 3 4 x 2 x 3 x 4 分散を評価する 総平均 総平均 総平均 薬の効果 = 薬の種類による影響 総平均 = 薬の種類に関係ない効果 分散分析では, 帰無仮説 H 0 : 平均はすべて等しい と定義する. これは, 平均の分散( バラツキ ) が0である と定義することと同じ意味である. ちなみに, 群数が2の場合の分散分析は,2 標本 t 検定に 致する. ( 薬 ( 因 ) の効果 [ 処理平均のバラツキ ]) と個 ( 誤差 ) のバラツキの が評価される評価するための表を分散分析表という 分散分析表 (1/2) 分散分析表 (2/2) 供の脳機能をタッピングスコアで計量化し, それを鉛の曝露の度合いで群別した 3 群でする ( 新, 2016). MXFWT: 右 と左 で別々に図ったタッピングスコアの きいほうの値 lead_typ: グループ変数 No Exposure( 暴露無し ) Past Exposure( 過去に曝露あり ) urrent Exposure ( 現在も曝露 ) JMP による実行 STEP.1: 分析 2 変数の関係 X, 説明変数 : lead_typ, Y, 目的変数 : MXFWT STEP.2: から 平均 /NOV を選択 因 (lead_typ) の 由度 = 準の数 1 誤差の 由度 = 標本サイズ 準の数 全体の 由度 = 標本サイズ 1 因 (lead_typ) の平 和 =Σ( 準の平均 全体平均 ) 2 当てはまりの良さ 誤差の 由度 =Σ( データ 準の平均 ) 2 当てはまりの悪さ 全体の 由度 =Σ( データ 全体平均 ) 2 平 和 由度 因 平均平 和誤差平均平 和 分散分析とは, 当てはまりの良さと当てはまりの悪さによって評価される
元配置の分散分析に対するノンパラメトリック検定 :Kruskal Wallis 検定 JMP による実 でない状況 さい順に並べると 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 3 種類の がほぼ交互に出てくる 3 群それぞれの順位の平均値がほぼ同じになるはず JMP による実行 STEP.1: 分析 2 変数の関係 X, 説明変数 : lead_typ, Y, 目的変数 : MXFWT STEP.2: から ノンパラメトリック Wilcoxon 検定 を選択 である状況 さい順に並べると 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 3 種類の に偏りが じる 3 群それぞれの順位の平均値に違いが出るはず Kruskal Wallis 検定は, 順位の平均値に違いがあるか否かを評価することで, ノンパラメトリック ( 正規分布に依らず ) にしている. データが正規分布に従わない, あるいは等分散性 ( すべての群 ( 準 ) で分散が同じでない ) 場合に適 することができる 多重とは何か? 下 な鉄砲も数打てば当たる では評価にならない 3 種類のコレステロール治療の vs., vs., vs. (3 回の ) 準 α=0.05とは, 違いがないのに (H 0 が正しい ) のに, 違いがある (H 1 が正しい ) と誤ってしまう確率を表している. つまり, コレステロール治療の効果に違いがないのに,20 回検定すると,1 回は差が出てしまう (H 1 と判断してしまう ). 3 回するということは, その可能性が増しているといえる. これを多重性という 多重性を少し数理的に考える いま,3 種類の薬剤の有効性を考える. 準とは 差がないのに差があると誤る確率 ( 第 1 種の過誤 ) をあらわす VS VS VS 検定 検定 検定 準 α 準 α 準 α 差がないことを正しく判断できる確率 :Pr 1 Pr 1 = 1-α 差がないことを正しく判断できる確率 :Pr 2 Pr 2 = 1-α 差がないことを正しく判断できる確率 :Pr 3 Pr 3 = 1-α 3 回ののすべてで, 差がないことを正しく差がないと判断できる確率 :Pr 0 Pr 0 = Pr 1 Pr 2 Pr 0 = (1-α) 3 3 回ののなかで 1 度でも, 差がないのに差があると誤る確率 1 - Pr 0 = 1-(1-α) 3 1 回の検定の 準 α を α=0.05(1 回の検定において差がないのに差があると誤る確率を 0.05 とする ) とし,3 回の検定を繰り返した場合,3 回の検定の中で 1 度でも差がないのに差があると誤る確率は, 1-(1-α) 3 = 1-(1-0.05) 3 = 1-(1-0.05) 3 = 0.142 となり, 誤りの確率が増 してしまう.
多重はどのような場 で いるか? 3 群以上でのの場 における対 全て試験薬 対照群 (ontrolとの) ontrol 多重はどのような場 で いるか? 臨床試験における中間解析 試験開始 中間解析 中間解析 標症例到達 経時測定データにおいて, 時点ごとに群間をする ( 下図なら 5 回 ) 中間解析とは, 無作為化試験において, 標登録症例に到達する前に, 中間評価を い, 早期に試験を中 するか否かを検討する. 上図では,2 回の中間解析を実施するため, 合計 3 回のを う. 1 例が終了する毎に中間解析を ってしまうと, 下 な鉄砲も数打てば当たる 状況となるため, 多重を わなければならない. Time 多重の 法 onfferoni の 法 (JMP にはないが 計算できる ) 群, 群, 群の対の場合で全体での 準 がαの場合には 群対 群 準 α/3と (or p 値を3 倍 ) 群対 群 準 α/3と (or p 値を3 倍 ) 群対 群 準 α/3と (or p 値を3 倍 ) 準 α を回数で割る (or p 値を回数で掛ける ) 法が onfferoni の 法である. 多重が簡単なため, 最も いられる 法の つである. 多重の 法 Holmの 法 (JMPにはないが 計算できる) 最 のp 値から並べ替え, シーケンシャルにする 法. いま,6 回ののp 値が次のように与えられているとする. 0.001 0.006 0.011 0.012 0.032 0.045 djusted p value 0.06 0.05 0.04 0.03 0.02 0.01 onfferoni Holm 0 1 2 3 4 5 6 回数 順位 p 値 1 0.001 2 0.006 3 0.011 4 0.012 5 0.032 6 0.045 onfferoni 法 Holm 法 α 判定 α 判定 0.05/5= 0.010 0.05/4= 0.013 0.05/3= 0.017 0.05/2= 0.025 0.05/1= 0.050 以降はすべてでない
多重の 法 Tukey の 法 多重の 法 Dunnett の 法 データのバラツキ ( 各群同じと仮定 ) データのバラツキ ( 各群同じと仮定 ) データのバラツキ ( 各群同じと仮定 ) データのバラツキよりも, ペアの平均値の差が きいか否かを評価 ontrol ctive ontrolとののみを実施する多重がdunnettの 法である. 元配置分散分析においてだった場合には,Tukey の 法でもいずれかの対においてになっている. Dunnett の 法では, 正規分布に従うこと すべてのグループ ( 群 ) のあいだで, 分散が等しいことが仮定される. JMP による実 JMP による実行 STEP.1: 分析 2 変数の関係 X, 説明変数 : lead_typ, Y, 目的変数 : MXFWT STEP.2: から 平均の比較 ( 手法 ) を選択 JMP には, 以下のが 意されている. 各ペア,Student の t 検定 多重を実施せずに t 検定を う (onfferoni の多重, Holm の多重はこれをもとに 計算 ). JMP の結果 Tukeyの HSD 検定の結果 No exposureとurrent Exposureで差あり (No Exposureのほうがタッピングスコアが い ) Dunnettの多重 (No Exposureとの ) すべてのペア,Tukeyの HSD 検定 Tukeyの 法を う (NOVの実施が必須). 最適値との (HsuのM) 閾値に対する ( 単アーム試験と同様の ) コントロール群との (Dunnett) Dunnett の多重で実施 ( コントロール群を設定する必要あり ) urrent Exposure との間で差あり ontrol とのである Dunnett の多重のほうが回数が少ない分,p 値が さいことがわかる.
JMP の結果 onfferoni の多重,Holm の多重 各ペア,Student の t 検定 を実施 経時データの解析 p 値 onferoni Holm No Exposure - urrent Exposure 7 7 3 = 0.0261 7 3 = 0.0261 No Exposure - Past Exposure 0.0563 0.0563 3 = 0.1689 0.0563 2 = 0.1126 ( でないので終了 ) Past Exposure - urrent Exposure 0.6191 0.6191 3 = 1.8573 (1を超えたので1.000) - いずれの多重においても,No Exposure urrent Exposure で差が認められる. JMP による実 :2 元配置の分散分析の場合 11 の の の脳下垂体と翼突上顎裂の距離を 8 歳,10 歳,12 歳,14 歳の時点でする研究である. JMP による実 : 多変量分散分析の場合 JMP による実行 : 多変量分散分析を用いる場合 ID: 被験者番号 ge: 年齢 (8,10,12,14 歳 ) gt8,gt10,gt12,gt14 Distance: 距離 JMP では 2 種類の 法で繰り返し測定の分散分析を実 できる (1) 2 元配置の分散分析 いる場合 (ge は順序尺度にすること ) (2) 多変量分散分析 (MNOV) を いる場合 JMP による実行 :2 元配置の分散分析を用いる場合 STEP.1: 分析 モデルのあてはめ Y:Distance, モデル効果の構成 :ge, ID STEP.1: 分析 モデルのあてはめ Y:gt8,gt10,gt12,gt14 を入れる STEP.2: 手法 を MNOV にする STEP.3: 応答の指定 を 反復測定 にして 時間 を選択する. ( 一変量検定も行うにチェックする ) STEP.2: から 平均の比較 ( 手法 ) を選択
つの結果 2 元配置の分散分析 経時データに対する : 例 列矯正の成 データ (Potthoff & Roy, 1964) 同じ 多変量分散分析 Greenhouse Geiser 法 Huynh Feldt 法 ( 上の改良版 ) 球 性の仮定 : 多変量分散分析では被験者 iのデータが左下のような形をしている. i 各時点では相関構造をもつことは明らかである. このとき, すべての時 Time.1 点での分散 共分散が等しい ( つまり, 互いの相関がすべて等しい ) と仮定することを複合対称性という. Time.2 経時データでは, この過程を満たすことがなく, それを弱めた仮定 ( 相関があると考えられるすべての 準対の 差 の分散が等しい ) を球 性とい Time.3 う. Time.4 G-G 調整およびH-F 調整は球 性の仮定が崩れた場合における調整された値である. これは, 正常 列者の脳下垂体と翼突上顎裂までの距離 [ 以下,distance](mm) を 児 27 名 ( 男 16 名, 11 名 ) に対して測定した経時データである ( 測定は8 歳,10 歳,12 歳,14 歳に測定されている ). distance 20 25 30 8 9 10 11 12 13 14 男 とも年齢とともに distance が上昇しており, 男性のほうが 性に べて いことが 唆される. age 経時データに対する 時点毎にする 介 前後での( アーム毎で ) - 対応のあるt 検定 or Wilcoxon 符号付順位検定 + 多重 ( 時点 1 回の ) データをそのままする - 2 標本 t 検定 or Wilcoxon 符号付順位検定 + 多重 ( 時点 1 回の ) - 共分散分析 NOV ( 介 前のデータで調整 ) 変化量 or 変化率をする - 2 標本 t 検定 or Wilcoxon 符号付順位検定 + 多重 ( 時点 1 回の ) - 共分散分析 NOV ( 介 前のデータで調整 ) 経時的な変動をする 介 前後での( アーム毎で ) - 反復測定の分散分析 or Friedman 検定 経時的な変化を群間でする - 混合効果モデル 時点毎での Distance 変化量 20 25 30-5 0 5 10 pvalue=0.047 4 0.141 原データでの pvalue=0.083 4 0.332 8 9 10 11 12 13 14 年齢減少量での pvalue=0.655 4 1.000 8 9 10 11 12 13 14 年齢 pvalue=0.014 4 0.057 pvalue=0.411 4 1.000 pvalue=0.002 4 ** 時点毎にする場合には, 多重が必要になる.Wilcoxn 検定に対して onfferoni の多重調整を実施した場合,14 歳のみ. pvalue=0.056 4 0.168 時点毎にする場合には, 多重が必要になる.Wilcoxn 検定に対して onfferoni の多重調整を実施した場合, いずれの時点もでない.
経時繰り返しデータでの分散分析 : データを る 群間を想定しない場合 : 先ほどの繰り返し測定の分散分析 さん 8 歳 10 歳 12 歳 14 歳 a さん 8 歳 10 歳 12 歳 14 歳 さん 8 歳 10 歳 12 歳 14 歳 男 因 2 a さん 因 2 8 歳 10 歳 12 歳 14 歳 男 さん Z さん b さん z さん 因 1 さん Z さん 因 1 b さん z さん 経過繰り返しデータでは, 男 のなかの さん のなかの a さん のようになっている. このようなデータのことを巣篭もり型あるいは れ 型 (nested) という. このとき, 各年齢での個々の観測値には相関構造があり ( つまり, さんの加齢による変化には相関がある ), 通常の分散分析で解析することは誤りである. 因 2 においてになれば, 介 によって測定値 (distance) が変動したことを意味する. ただし, 性差を評価できない 経時繰り返し測定の分散分析 : 多変量分散分析 群 j に割り付けられた個体 i の測定値 :X ji 群 j i さん 時点 1 時点 2 時点 T X ji1 X ji2 繰り返し測定の分散分析モデル : X jik j k jk jik 個体間変動 個体内変動 時間 t に関係ない ( 全時間にわたっての ) 平均的な薬剤効果 ( 薬剤効果の差とは い切れない ) 真値 薬剤 k に関係ない ( すべての薬剤に ) 平均的な時間効果 ( 時間によって被験者の outcome はどのように推移するか ) 薬剤 k によって時間 t の変化に対して平均的にどのような変動を表すか ( 変動プロファイル ) を評価している. 薬剤効果 時点効果 薬剤 時点 X jit X ji 治療 jに対する個 の時間 kによる変動をモデル化誤差に群毎の時間に対する個体内変動 ( 被験者個々がもつ時間 tに対する変動 ) は, 多変量正規分布で表現される. もう少しモデルを詳しく る : 多変量分散分析 X jik j k jk jik 時間 t k 真値 薬剤効果 1 薬剤効果 2 時点効果 k 交互作 1k 交互作 2 k 11k 12k 1nk 1 21k 22k 2n 2 k
z 経時繰り返し測定の分散分析における誤差構造 より 般的な場合 : 線形混合効果モデル いま,3 名の患者に対して, ある薬剤を投与したときの効果を経時的に評価した結果を以下に す. 繰り返し測定の分散分析モデル : X jik j k jk jik T 誤差は多変量正規分布 : ji ( ji1, ji 2,, jik ), ~ MVN(0, Σ ) ji k x1 x2 時点効果 k この時点効果は, 任意の時点 t k における平均的な効果を表している. 実際には, 個々の時点には相関があるが, このことは考えられていない. Pre t 1 t 2 t 3 その結果, 各被験者の変化は, 介 前の値 (pre), すなわち切 に違いがあるものの, 変化を表す直線 ( 傾き ) に違いがないように える. つまり, 時間 t そのため, 経時繰り返し測定の分散分析では, 誤差構造を多変量にすることで, 時点間の相関構造を含めるようにしている. i 番 の患者の i 番 の患者の切 傾き時間誤差 で表される. ただし,( 被験者数分の切 )+( 傾き ) を考えると, パラメータが被験者数を上回ってしまう. そこで, 切 を平均 μ( 全体平均 ) の確率変数とみなすことを考える. こうすれることで, パラメータ数を削減できる ( 具体的には, 被験者数分の切 を平均 μ, 分散 τ 2 で表すことができる ). これが, 線形混合効果モデルの動機である. 混合効果モデル : ランダム切 モデル 混合効果モデル : ランダム傾き - 切 モデル NOV モデル : X jik j k jk jik NOV モデル : X j ik j k jk jik 回帰で書き換え 全体平均 治療効果 時間効果 治療 時間 回帰で書き換え 全体平均 治療効果 時間効果 治療 時間 混合効果モデル : ( ランダム切 モデル ) y jik 0 1x1i 0, 女性 x1i 1, 男性 3 k 1 2k z jik 3 3k xz 1i jik k 1 10 歳 :β 21 12 歳 :β 22 14 歳 :β 23 固定効果 男性で 10 歳 :β 21 男性で 12 歳 :β 22 男性で 14 歳 :β 23 このモデルでは, 個 によって ベースラインが異なること ( 個 差によるベースラインのバラツキ ) をモデルのなかに組み込んでいる. これをランダム切 モデルという. b 0i ji 個体間差 変量効果 2 b0i ~N(0, 0) 2 ~N(0, ) ji 誤差 E 混合効果モデル : ( ランダム傾き - 切 モデル ) y jik 0 固定効果 1x1i 固定効果 3 ( 2k bik ) z jik 3 3 1 k 1 固定効果 変量効果 k 1 xz k i jik 固定効果 T b i ( b0i, b1i, b2i, b3i) ~ MVN(0, ), このモデルでは, 個 によって ベースラインが異なること ( 個 差によるベースラインのバラツキ ) 時間 t k における経時変化に対する個 差をモデルのなかに組み込んでいる. これをランダム切 モデルという. b 0i ji 変量効果 2 ji ~N(0, E)
ランダム切 モデル vs. ランダム切 傾きモデル ervation 混合効果モデル ( ランダム切 モデル ) Time ctive onntrol. ervation 混合効果モデル ( ランダム傾き - 切 モデル ) Qestion: どちらのモデルが適切なのか? nswer: 池の情報量基準 (I), 尤度 検定を いれば選択できる ランダム切 モデル I = 440.64 Time ctive onntrol ランダム傾き - 切 モデル I = 443.81 尤度 検定 ( ランダム傾き - 切 モデル / ランダム切 モデルの尤度 検定の結果 :0.659) ランダム切 モデルが選択される 成 データでの結果 distance 20 22 24 26 28. 8 10 12 14 age Male Female 年齢の主効果が優位 ( 年齢によりに上昇 ) 性別 年齢で : 成 するほど性差が出てくる. 経時測定データでの分散分析 性別 p 値 = 0.518 年齢 p 値 <0.001*** 性別 年齢 p 値 =0.024* 混合効果モデルでの結果 ( ランダム切 モデル ) 性別 p 値 = 0.502 年齢 p 値 <0.001*** 性別 年齢 p 値 <0.012* の場 での解析 MNOV の結果を詳しく てみる JMP のサンプルデータ Dogs は, に対して,morphine( モルヒネ ) が投与された群と trimeth( トリメタファン ) が投与したときの, 投与後 1 分後, 投与後 3 分後, 投与後 5 分後に計測されたヒスタミンの 中濃度を表している. ここでは, これらの対数値をとった下表の 部のデータのなかの log( ヒスタミン 1) log( ヒスタミン 3) log( ヒスタミン 5) を いる. 球 性に対する,Mauchly の検定結果 ( ならば球 性を満たさないとして, MNOV の結果あるいは G G 調整,H F 調整の結果を いる ) JMP による実行 : 多変量分散分析 (rmnov) を用いる場合 STEP.1: 分析 モデルのあてはめ Y: log( ヒスタミン1),log( ヒスタミン3), log( ヒスタミン5) モデル効果の構成 : 薬剤 STEP.2: 手法 を MNOV にする STEP.3: 応答の指定 を 反復測定 にして 時間 を選択する. ( 一変量検定も行うにチェックする ) 時間による違いはみられるものの, 薬剤効果及び交互作 は認められなかった.
JMP による線形混合効果モデルの略説 JMP による線形混合効果モデルの略説 : 相関構造を考えた場合 テーブル 積み重ね で log( ヒスタミン 1),log( ヒスタミン 3),log( ヒスタミン 5) を 積み重ねる列 に選択し, 積み重ねたデータ列 に log( ヒスタミン ), 元の列のラベル に 時間 を して OK ボタンを押す. 時間は量的尺度とする [STEP.1] 法 を 混合モデル にする. [STEP.1] 列の選択 の 薬剤 ID を モデル効果の構成 に移動, log( ヒスタミン ) を Y に移動 ( 選択して 追加 ボタンを押す ). [STEP.2] モデル効果の構成 のなかの ID を選択, 列の選択 の 薬剤 を選択し, 枝分かれ ボタンを押す ( ID[ 薬剤 ] に変わる ). [STEP.2] 固定効果 に 薬剤 時間 を選択して 交差 ボタンを押す. [STEP.3] 反復構造 タブの 構造 に R(1) を選択, 反復に 時間 を選択, 個体に ID を選択する. [STEP.3] ID[ 薬剤 ] を選択し, 属性右の から 変量効果 を選択 ( ID[ 薬剤 ]& 変量効果 に変わる ). [STEP.4] 列の選択 の 時間 を選択し追加, 時間 薬剤 を同時に選択し, 交差. ご清聴ありがとうございました