TF● ：テーマ名 - PDF Free Download

日本製薬工業協会シンポジウム臨床試験の欠測データの取り扱いに関する最近の展開と今後の課題について - 統計手法 estimandと架空の事例に対する流れの整理 - (7) 架空の事例 2 ( 主解析の選択例数設計データの発生方法 ) 医薬品評価委員会データサイエンス部会タスクフォース4 欠測のあるデータに対する解析方法論 SASプログラム検討チーム持田製薬株式会社横山雄一大正製薬株式会社横溝孝明日本イーライリリー株式会社大浦智紀株式会社大塚製薬工場大江基貴 1

発表構成 1. 主解析の選択のシミュレーション 2. MMRMに基づく例数設計 3. シミュレーションデータの発生方法 4. シミュレーションにおける留意点 2

1. 主解析の選択のシミュレーション 3

想定した試験慢性疼痛データ平均慢性疼痛の第 Ⅲ 相試験応答変数 : 疼痛スコア(0~10) 群 :2 群 ( 実薬群,プラセボ群 ) 主要評価時点は時点 4 測定値の平均 (SD) ベースライン時点 1 時点 2 時点 3 時点 4 実薬群 7.00 (1.40) 6.00 (1.60) 5.00 (1.80) 5.00 (2.00) 5.00 (2.00) プラセボ群 7.00 (1.40) 6.75 (1.60) 6.50 (1.80) 6.25 (2.00) 6.00 (2.00) 時点毎の累積欠測確率群ベースライン時点 1 時点 2 時点 3 時点 4 実薬群 0 % 20 % 26 % 30 % 34 % プラセボ群 0 % 18 % 30 % 40 % 48 % 4

主解析の選択想定した試験に対して Estimand : Estimand 3(Efficacy) 欠測メカニズム : MAR ( 共変量 : Restrictive) を仮定図はMallinckrodt (2013)におけるAnalytic Road Mapを加工したもの上図に従い,MMRM,MI,wGEEを主解析の候補として考えた. これら3 手法のうち,いずれを主解析に用いるか検討するため, 3 手法の性能比較をシミュレーションに基づき行う(αエラー, 検出力等の比較 ). 参考として,LOCF ANCOVAとOC ANCOVAの性能も合わせて検討する. 5

シミュレーションの設定 (1/4) 完全データ平均慢性疼痛の第 Ⅲ 相試験応答変数 : 疼痛スコア(0~10) 群 :2 群 ( 実薬群,プラセボ群 ) 主要評価時点は時点 4 被験者数 :100 例 / 群完全データの平均構造各時点の測定値の平均 (SD) 測定値の平均 (SD) ベースライン時点 1 時点 2 時点 3 時点 4 実薬群 7.00 (1.40) 6.00 (1.60) 5.00 (1.80) 5.00 (2.00) 5.00 (2.00) プラセボ群 7.00 (1.40) 6.75 (1.60) 6.50 (1.80) 6.25 (2.00) 6.00 (2.00) 6

シミュレーションの設定 (2/4) ベースラインと各時点の測定値の相関ベースラインベースライン時点 1 時点 2 時点 3 時点 4 1.00 0.60 0.50 0.40 0.30 時点 1-1.00 0.60 0.50 0.40 時点 2 - - 1.00 0.60 0.50 時点 3 - - - 1.00 0.60 時点 4 - - - - 1.00 7

シミュレーションの設定 (3/4) 欠測のあるデータ時点毎の累積欠測確率の目標値群ベースライン時点 1 時点 2 時点 3 時点 4 実薬群 0 % 20 % 26 % 30 % 34 % プラセボ群 0 % 18 % 30 % 40 % 48 % 欠測は単調な欠測を仮定した完全データと上記の目標値より, 以下に示す2 通りの欠測メカニズムに基づくデータをそれぞれ10,000 組ずつ作成した. 1MCARとMARの欠測メカニズムを混合 (MCAR+MAR) 2MCARとMNARの欠測メカニズムを混合 (MCAR+MNAR) なお, 欠測メカニズムを混合する際の割合は1:1とした. 欠測メカニズムを混合した理由は, 欠測理由が複数あることを考慮したためである. 8

シミュレーションの設定 (4/4) αエラー算出の際の平均構造平均平均検出力算出の際の平均構造 αエラー算出の際の平均構造 αエラー算出の際の測定値の平均測定値の平均ベースライン時点 1 時点 2 時点 3 時点 4 実薬群 7.00 6.00 5.00 5.00 5.00 プラセボ群 7.00 6.50 6.00 5.50 5.00 αエラー算出の際は,SD, 相関, 欠測確率の目標値は不変とし, 平均構造のみ上記の通り変更した. 9

解析方法とその詳細 (1/2) 前述の2 通りのデータ(1MCAR+MAR と2MCAR+MNAR それぞれ 10,000 組 )に対して, 以下の表に示す手法を適用し, 時点 4におけるαエラー, 検出力等の算出を行った. なお, 応答変数はベースラインからの変化量, 有意水準は両側 5%とした. 解析手法 MMRM MI wgee 解析方法解析モデル説明変数 :ベースライン, 投与群, 時点, 投与群と時点の交互作用変量効果 : 被験者の影響を誤差と合わせてモデル化するため, 明示的には特定せず相関構造 :Unstructured 推定方法 :REML 自由度調整方法 :Kenward Roger 補完モデル( 投与群ごとの単調回帰モデル) 説明変数 :ベースライン, 各時点の変化量補完回数 :100 回解析モデル( 時点 4に対するANCOVA) 説明変数 : 投与群,ベースライン発表時にあった誤植を修正しております赤字部分脱落モデル(logisticモデル) 説明変数 : 各時点の変化量,ベースライン, 投与群, 投与群と各時点の変化量の交互作用解析モデル説明変数 :ベースライン, 投与群, 時点, 投与群と時点の交互作用相関構造 :EXCH 10

解析方法とその詳細 (2/2) 前述の2 通りのデータ(1MCAR+MAR と2MCAR+MNAR それぞれ 10,000 組 )に対して, 以下の表に示す手法を適用し, 時点 4におけるαエラー, 検出力等の算出を行った. なお, 応答変数はベースラインからの変化量, 有意水準は両側 5%とした. 解析手法 LOCF ANCOVA OC ANCOVA 解析方法解析モデル(LOCFにより補完した時点 4に対するANCOVA) 説明変数 : 投与群,ベースライン解析モデル( 時点 4のデータが観測された症例に対する時点 4に対するANCOVA) 説明変数 : 投与群,ベースライン 11

結果 (1MCAR+MAR) 推定値は, 時点 4における群間差の推定値を意味する解析手法 αエラー(%) 検出力 (%) 1~5: 検出力の高い順 ()はαエラーが5% 以上のもの 10,000 個の推定値の平均 ( 真値 :-1.00) 10,000 個の推定値のSD MMRM 4.98 281.99-1.0168 0.3526 0.1246 MI 4.36 377.67-1.0032 0.3580 0.1282 wgee 7.29 5(69.61) -1.0159 0.4474 0.2004 LOCF ANCOVA 17.86 1(97.08) -1.1634 0.3010 0.1173 OC ANCOVA 4.90 474.00-0.9314 0.3532 0.1295 MSE 12

結果 (2MCAR+MNAR) 推定値は, 時点 4における群間差の推定値を意味する解析手法 αエラー(%) 検出力 (%) 1~5: 検出力の高い順 ()はαエラーが5% 以上のもの 10,000 個の推定値の平均 ( 真値 :-1.00) 10,000 個の推定値のSD MMRM 4.96 279.37-0.9696 0.3488 0.1226 MI 4.31 374.88-0.9536 0.3537 0.1273 wgee 6.76 5(69.19) -0.9601 0.4120 0.1713 LOCF ANCOVA 16.97 1(96.87) -1.1294 0.2929 0.1025 OC ANCOVA 5.25 4(71.92) -0.9031 0.3526 0.1337 MSE 13

結論 αエラー: MMRMとMIのみ5% 未満に制御できた.LOCF ANCOVAは高度に増大した. 検出力 : LOCF ANCOVA > MMRM > MI > OC ANCOVA > wgee の順で高かった. 推定精度 : MMRM,MI,wGEEの推定値は真値周りに分布したが,LOCF ANCOVAは真値から偏って分布し, 過大評価する傾向がみられた. また, 推定値のSDについても, 他の手法と比較して LOCF ANCOVAは小さく,wGEEは大きくなった. 以上より, 想定した試験の設定において, 各手法の性能を総合的に判断すると, 検討した5つの手法の中で MMRMが最も優れた手法であり, 主解析として選択されるべきと考えられた. 14

注意として本発表で提示した結果は,1つのシミュレーションに基づくものであり, 結果を一般化し過ぎないことに注意が必要である. 個別の試験ごとに設定を変更し, 最適な主解析の選択を行うことが重要である. 結果に影響を与える項目としては, 平均構造分散共分散構造 MIの補完回数欠測メカニズム, 脱落確率の関数 ( 欠測確率含む) 来院間隔, 来院回数などが考えられる. 15

2. MMRMに基づく例数設計 16

MMRMに基づく例数設計 (Lu et al., 2008) エンドポイント最終時点 ( 時点 4)の疼痛スコア各種パラメータ( 疼痛データのシミュレーション設定 ) 平均の差 : 1.0 標準偏差 ( 各群共通 ) : 2.0 誤差相関構造シミュレーションの設定と,それに類似させた構造 (ARMA(1,1))を検討被験者の残存率累積欠測確率の目標値から計算時点 0 時点 1 時点 2 時点 3 時点 4 実薬群 100% 80% 74% 70% 66% プラセボ群 100% 82% 70% 60% 52% 17

結果 ( 有意水準 0.05, 検出力 0.8) 方法相関構造 Inflation Factor 試験薬群プラセボ群最適割付比率等例数必要被験者数最適比率試験薬群プラセボ群 MMRM 1.421 1.705 0.913 100 95 104 1.416 1.700 0.913 99 95 104 (t 検定 ) 64(109) MMRM Inflation Factorを計算し, 通常の2 標本 t 検定で例数設計自由度は2 次ステップt 検定 (Lu et al., 2008)に基づき計算 (t 検定 : 参考 ) 欠測を考慮せず, 最終時点のパラメータのみを用いて例数設計括弧内の数値は, 最終時点での残存率 (2 群の平均 )の逆数を乗じることで, 脱落を考慮した例数設計 18

3. シミュレーションデータの発生方法 19

シミュレーションデータの発生の流れ評価時点の設定完全データの発生欠測データの特定欠測のあるデータの作成 20

評価時点の設定試験及び薬剤の特徴を捉えた必要最低限の時点を設定することが好ましい. シミュレーションデータの特徴実薬群 : 前半での薬効発揮, 有害事象での早期中止プラセボ群 : 緩やかなスコアの減少, 効果不十分での中止慢性疼痛の第 Ⅲ 相試験を想定応答変数 : 疼痛スコア(0~10) 群 :2 群 ( 実薬群,プラセボ群 ) 被験者数 :100 例 / 群完全データの平均構造 21

完全データの発生 (1/3) 1. 群時点毎に平均及びSDを設定する. 2. 被験者の影響を考慮する(2 種類の方法 ). (1) 変量効果 ( 変量切片 )を指定する. (2) 時点間の相関を指定する., 変量効果は1 変量 ( 被験者 )のみ誤差は時点間で独立と想定してデータを発生 Σ は, 誤差の分散共分散行列変量効果なし誤差の相関構造 ( 相関行列 )を指定してデータを発生 22

完全データの発生 (2/3) SDと相関行列から分散共分散行列を算出する. 各時点の測定値の平均 (SD) 測定値の平均 (SD) ベースライン時点 1 時点 2 時点 3 時点 4 実薬群 7.00 (1.40) 6.00 (1.60) 5.00 (1.80) 5.00 (2.00) 5.00 (2.00) プラセボ群 7.00 (1.40) 6.75 (1.60) 6.50 (1.80) 6.25 (2.00) 6.00 (2.00) r ij i ij j 誤差の相関構造 ( 相関行列 ) 分散共分散行列 R 1.00 0.60 0.50 0.40 0.30 0.60 1.00 0.60 0.50 0.40 0.50 0.60 1.00 0.60 0.50 0.40 0.50 0.60 1.00 0.60 0.30 0.40 0.50 0.60 1.00 1.96 1.34 1.26 1.12 0.84 1.34 2.56 1.73 1.60 1.28 1.26 1.73 3.24 2.16 1.80 1.12 1.60 2.16 4.00 2.40 0.84 1.28 1.80 2.40 4.00 23

完全データの発生 (3/3) 設定した平均ベクトル及び分散共分散行列をもとに, 多変量正規乱数を発生させる. PROC IML; mean1={7.0 6.0 5.0 5.0 5.0}; mean2={7.0 7.5 7.0 6.5 6.0}; 平均ベクトル Sample SAS code quit; cov={ 1.96 1.34 1.26 1.12 0.84, 1.34 2.56 1.73 1.60 1.28, 1.26 1.73 3.24 2.16 1.80, 1.12 1.60 2.16 4.00 2.40, 0.84 1.28 1.80 2.40 4.00 }; CALL RANDSEED(12345); rv1=randnormal(100, mean1, cov); rv2=randnormal(100, mean2, cov); 分散共分散行列 CREATE d1 FROM rv1[colname={ y0' y1' y2' y3' y4'}]; APPEND FROM rv1; APPEND FROM rv2; 多変量正規乱数の発生 SASデータセットの作成 24

欠測データの特定 (1/3) 1. 群時点毎に欠測確率の目標値を設定する. 2. 欠測メカニズムを設定する(2 種類の方法 ). (1) 1つの欠測メカニズムを仮定する. (2) 複数の欠測メカニズムの混合を仮定する. 1 MCARとMARの欠測メカニズムを混合 (MCAR+MAR) 2 MCARとMNARの欠測メカニズムを混合 (MCAR+MNAR) なお, 欠測メカニズムを混合する際の割合は1:1とした. 臨床試験における代表的な中止理由有害事象効果不十分被験者都合群被験者毎に欠測メカニズムが異なるかもしれない. 25

欠測データの特定 (2/3) 欠測メカニズム毎に対応する欠測確率の関数を設定する. MCAR 時点毎の欠測確率の目標値群時点 1 時点 2 時点 3 時点 4 実薬群 20% 5% 5% 5% プラセボ群 15% 15% 15% 15% MAR MNAR logit( p t ) 7.6 0.8Y t1 1 時点前の測定値が大きいほど欠測しやすい状況 logit( pt ) 7.6 0.42Yt 1 0. 42Y 1 時点前の測定値とその時点の測定値が大きいほど欠測しやすい状況 Y t p t : 時点 t の測定値 : 時点 t で欠測する( 条件付き) 確率 t 26

欠測データの特定 (3/3) data d2; set d1; call streaminit(123); array y{5} y0-y4; array p{4} p1-p4; array m{4} m1-m4; if TYPE="MCAR" then do; do t=1 to 4; if trt=1 and t eq 1 then p{t}=0.20; if trt=1 and t ne 1 then p{t}=0.05; if trt=2 then p{t}=0.15; m{t}=rand('bernoulli',p{t}); end; end; Sample SAS code y0 : ベースラインの測定値 y1-y4 : 時点 1~4の測定値 p1-p4 : 時点 1~4で欠測する( 条件付き) 確率 m1-m4 : 時点 1~4の欠測識別変数 (1: 欠測 ) run; if TYPE="MAR" then do; do t=1 to 4; p{t}=1 / ( 1 + exp( - (-7.60 + 0.8*y{t}))); m{t}=rand('bernoulli',p{t}); end; end; if TYPE="MNAR" then do; do t=1 to 4; p{t}=1 / ( 1 + exp( - (-7.60 + 0.42*y{t} + 0.42*y{t+1}))); m{t}=rand('bernoulli',p{i}); end; end; 27

4. シミュレーションにおける留意点 28

シミュレーションにおける留意点 (1/2) 参考データの結果を一般化し過ぎない. 1シナリオのシミュレーション結果が完全に再現されることは稀. 想定される複数のパターンのシミュレーションを実施する. 試験及び薬剤の特徴を考慮し,シンプルな設定とする. 要約データの特徴も考慮する.(e.g. LOCFバイアス) The Prevention and Treatment of Missing Data in Clinical Trials:An FDA Perspective on the Importance of Dealing With It(2012)より抜粋 29

シミュレーションにおける留意点 (2/2) 以下の点などを考慮して, 試験ごとに十分な検討が必要. 欠測メカニズム MARを仮定して本当に大丈夫か? MNARを仮定したシミュレーションも合わせて行うべき. データの分布外れ値がある場合欠測データが観測データと大きく異なる分布の場合ベースラインと時点の交互作用がある場合欠測確率の関数欠測が増えるのは, 応答変数が大きいとき? 小さいとき? 補助変数があるときは? 30

まとめ主解析の選択のためのシミュレーション MMRM,MI,wGEE,LOCF ANCOVA,OC ANCOVAの比較 αエラー, 検出力, 推定精度 MMRMに基づく例数設計理論値,t 検定の例数との比較シミュレーションデータの発生方法完全データの発生, 欠測データの特定シミュレーションにおける留意点計画段階ではシミュレーション等を通じて, 試験及び薬剤の特徴を踏まえた十分な検討をすることが必要. ただし, 結果の一般化には注意が必要. 31

参考文献 1. 馬場裕子ほか. (2007). MMRM 解析とLOCF 解析の比較. SASユーザー会学術総会. 2. 土居正明ほか. (2014). 欠測のあるデータに対する総合的な感度分析と主解析の選択. SASユーザー総会論文集. 3. Lu, K., Luo, X., and Chen, P.Y. (2008). Sample size estimation for repeated measures analysis in randomized clinical trials with missing data. International Journal of Biostatistics. 4(1), Article 9. 4. Mallinckrodt, C. H. (2013). Preventing and Treating Missing Data in Longitudinal Clinical Trials. Cambridge Press. 5. O'Neill, R. T., and Temple, R. (2012). The Prevention and Treatment of Missing Data in Clinical Trials: An FDA Perspective on the Importance of Dealing With It. Clinical Pharmacology & Therapeutics. 91(3), 550 554. 6. Siddiqui, O., Hung, H. M., and O'Neill, R. (2009). MMRM vs. LOCF: a comprehensive comparison based on simulation study and 25 NDA datasets. Journal of Biopharmaceutical Statistics. 19, 227 246. 7. Wicklin, R. (2013). Simulating Data with SAS. SAS Press. 8. Wicklin, R. (2010). Statistical Programming with SAS/ IML Software. SAS Press. 32