生存関数における信頼区間算出法の比較 佐藤聖士, 浜田知久馬東京理科大学工学研究科 Comparison of confidence intervals for survival rate Masashi Sato, Chikuma Hamada Graduate school of Engineering, Tokyo University of Science
要旨 : 生存割合の信頼区間算出の際に用いられる各変換関数の性能について被覆確率を評価指標として比較した. キーワード : 生存関数, 信頼区間, 被覆確率, LIFETEST procedure 2
生存時間解析 [1] ある基準の時刻からある目的の反応がおきるまでの時間の解析 打切りを考慮 患者 A B 生存時間 : 死亡 = イベント : 生存 C 0 観察終了時点 時間 A 通常のデータ B 脱落データ C 観察打切り 背景 3
生存関数 ハザード関数 [1] 生存関数 : S(t) 時点 t までイベントが起きない確率 ハザード関数 : h(t) 時点 t の瞬間でのイベントの発生率 S(t) 1 生存関数 ( 指数分布 ) h(t) ハザード関数 ( 指数分布 ) S ( t ) = exp( λ t ) h (t ) = λ λ = a b λ = b a 0 時間 (t) 0 時間 (t) 背景 4
カプラン マイヤー ( 積極限 ) 推定量 [1] 生存関数の推定量 生存関数 : Sˆ () t = ( 1 d n ) ( 1 d n ) = < ( 1 d n ) 1 1 2 2 L di : 時点 iにおけるイベント総数, ni : 時点 iにおける全リスク集合の大きさ t i t i i S () t 1 ( 1 d n ) 1 1 ( 1 d n ) ( d n ) 1 1 1 2 2 ( 1 d n ) ( 1 d n ) ( d n ) 1 1 2 2 1 3 3 : 打切り : イベント 0 時間 t 背景 5
信頼区間の算出 得られた生存割合 t を関数 g x で変換 ( 以下, g( x) を変換関数と 呼ぶ ) Sˆ ( ) Ŝ ( ) ( ) g ( x) t g S() t 変換後に区間を計算し, 逆変換 ( ˆ ) g [ ( )] n ( Sˆ () t ) ±1.96 var g Sˆ () t g -1 (x) g 1 [ ( )] n ( Sˆ () t ) 1.96 var g Sˆ () t g ± 背景 6
LIFETEST procedure で計算可能な 5 種類の変換 [2][3] 名称 変換無し ( 以下,NONTRANS) 対数変換 ( 以下,LOG) 二重対数変換 ( 以下,LOGLOG) 逆正弦変換 ( 以下,ASINSQRT) ロジット変換 ( 以下,LOGIT) g ( x) = x g g g g 変換関数 ( x) = log( x) ( x) = log( log( x) ) ( x) = sin 1 ( x ) ( x) = log( x ( 1 x) ) 背景 7
信頼区間の性能 被覆確率 : 信頼区間が真値を含む確率 n C C () t () ( ) x ( ) n x t = I x,π π 1 π I ( x,π ) x= 0 1, = 0, n x 信頼区間が真値を含む信頼区間が真値を含まない 背景 8
背景の整理と本研究の目的 背景の整理 複数ある被覆確率の定量的な評価は不十分 どの信頼区間を用いればよいか不明確 目的 被覆確率による, 各信頼区間の定量的な評価 どの変換関数が好ましいかの考察 目的 9
正確 (exact) な被覆確率の評価 生存時間データにおける生存割合の信頼区間について算出 条件 信頼区間 : 両側 95% 水準 症例数 :50, 100, 200, 400 例 生存割合の真値 :0.0 ~ 1.0 by 0.01 方法 10
1 生存割合正確な被覆確率の計算 生存関数 :S(t) 症例数 : n 打切りがない場合 ある時刻 t で生存している人数 x は成功確率 S(t) の二項分布に従う S(t) 0 t S(t) 時間 (t) Pr n x [ X = x] = S() t ( 1 S() t ) x = Bin ( n, S() t ) n x 方法 11
正確な被覆確率の計算例 x 二項分布の確率 p(x) 95% 信頼区間下側上側 I(x, S(t)) I(x, S(t)) p(x) 0 0.006 0 0 0 0 1 0.040 0 0.286 0 0 2 0.120 0 0.448 1 0.121 3 0.214 0.015 0.584 1 0.215 4 0.250 0.096 0.704 1 0.251 5 0.200 0.190 0.810 1 0.201 6 0.111 0.296 0.904 1 0.111 7 0.042 0.416 0.984 0 0 8 0.010 0.552 1 0 0 9 0.002 0.714 1 0 0 10 0.0001 1 1 0 0 方法 n = 10, S(t)=0.4 C(t) = 0.899 合計 12
プログラム data data; do n = 50 to 400 by 50; do trues = 0.0001 to 0.9999 by 0.0001; over=0; do x = 0.000001,1 to n-1,n-0.000001; prob = pdf('binomial',x,trues,n); se = sqrt(x*(n-x)/(n**3)); proc gplot data=data_detail uniform; plot (linear log loglog asinsqrt logit) * trues /vref=0.95; by n; symbol1 i=spline w=4 h=4 c=blue v=none; where 0.05<trues<0.95; run; l0 = (x/n)-1.96*se; u0 = (x/n)+1.96*se; if l0<trues<u0 then cover= linear+prob; end; output; end; end; run; 方法 13
正確な被覆確率の評価 各症例数,S(t) の真値で被覆確率を評価 被覆確率が 95% により近い場合に 性能が良い とする 被覆確率が 95% を上回る 被覆確率が 95% を下回る 信頼区間の幅が広い 信頼区間の幅が狭い 保守的な信頼区間 革新的な信頼区間 正確な信頼区間では打切りの考慮が困難 その為 打切りがある場合についてシミュレーションを行い, 評価する 方法 14
シミュレーションによる評価 シミュレーション目的 打切りを含む生存時間データにおけるシミュレーション実験による, 信頼区間算出法の評価 生存時間分布に指数分布を仮定 観察打切り, 脱落の発生 NONTRANS, LOG, LOGLOG, ASINSQRT, LOGIT の 95% 信頼区間を構成 各信頼区間の被覆確率から性能評価 方法 15
シミュレーション設定 条件 λ = 0.4, 指数分布のパラメータ : 症例数 :50, 100, 200, 400 例 観察期間 :5 年 シミュレーション回数 :10000 回 0.5, 0.6 方法 16
シミュレーション方法 データ生成 指数分布に従う生存時間データを発生 観察打切り, 脱落データを考慮 信頼区間の構成 S(t) = 0.1, 0.2,,0.5 において, 各信頼区間を構成 10000 回繰り返し, 被覆確率を算出 被覆の確認 構成された各信頼区間に生存割合の真値が含まれているかを調べる 被覆確率による信頼区間の評価 方法 正確な被覆確率に準ずる評価 17
正確な被覆確率 [n=50, NONTRANS] 平均 :93.37% 結果 18
正確な被覆確率 [n=50, LOG] 平均 :94.31% 結果 19
正確な被覆確率 [n=50, LOGLOG] 平均 :95.22% 結果 20
正確な被覆確率 [n=50, ASINSQRT] 平均 :94.61% 結果 21
正確な被覆確率 [n=50, LOGIT] 平均 :95.60% 結果 22
正確な被覆確率 区間 [0.05, 0.95] における平均値 100% NONTRANS LOG LOGLOG ASINSQRT LOGIT 被覆確率 95% 90% 症例数 [n] 50 100 200 400 結果 23
シミュレーション結果 [λ=0.5, n=50, 打切り割合 :9.6%] 100 NONTRANS LOG LOGLOG ASINSQRT LOGIT 被 95 覆 確 90 85 生存割合 0.1 0.2 0.3 0.4 0.5 結果 24
シミュレーション結果 [λ=0.5, n=50, 打切り割合 :30.6%] 100 NONTRANS LOG LOGLOG ASINSQRT LOGIT 被 95 覆 確 90 85 生存割合 0.1 0.2 0.3 0.4 0.5 結果 25
理論上での信頼区間 ( 正確な被覆確率 ) NONTRANS LOG 区間幅が左右対称な NONTRANS は被覆確率が低い LOG は上側の区間幅が大きい ASINSQRT 被覆確率が 95% に近い LOGLOG LOGIT 保守性がある 結果 26
シミュレーション結果 打切りデータによる影響 正確な被覆確率と同様の傾向 LOGIT, LOGLOGの性能が大きく低下するといったことはない 結果 27
各信頼区間の評価 変換方法 NONTRANS あ LOG LOGLOG ASINSQRT LOGIT 評価 どの条件においても, 被覆確率が低い 生存割合が大きな時に被覆確率が低下 被覆確率は 95% に近い値となる 保守的な結果が得られる 被覆確率は 95% より低い革新的な信頼区間 被覆確率は 95% に近い値となる 保守的な結果が得られる まとめ 28
まとめと今後の課題 使用が望ましいと示唆された信頼区間 LOGLOG,LOGIT 今後の課題 打切りのある場合における, 正確な被覆確率の算出 まとめ 29
参考文献 [1] 大橋靖雄, 浜田知久馬, 生存時間解析 SASによる生物統計, 東京 : 東京大学出版会, 2005. [2] Collett D., Modeling Survival Data in Medical Research, London: Chapman & Hall, 1994. [3] Lachin J. M., Biostatistical Methods: The Assessment of Relative Risks, New York: John Wiley & Sons, 2000. [4] SAS/STAT User's Guide the LIFETEST procedure http://www.sfu.ca/sasdoc/sashtml/stat/chap37/index.htm ( 参照 :2010-09-03) 30