クロスオーバー実験のデザインと解析 - テレメトリー法によ る QT/QTc 試験の実データを用いた検討 - II. クロスオーバー実験の統計解析 4) 有意差検定と信頼区間方式の解析の比較 平田篤由 薬理統計グループ安全性薬理チーム 要約 : ヒトの QT/QTc 評価試験における判断基準は,QTc 間隔の 95% 信頼区間の上限が 10ms を越えるかどうかである. 一方, 非臨床試験のイヌを用いたテレメトリー QT/QTc 試験では有意差検定で判断されている. 検定方式には, 必ずしも医学的に問題になる変化の大きさと一致しない, 用いる手法により p 値が異なるため試験の内容に合致した手法を選択する必要がある, 変化の大きさによる基準値が規定される場合に統計学的に有意であるか見るだけでは基準値に対しての判断ができない, 例数が少ない場合やデータのばらつきが大きい場合に有意になりにくく過小評価となる, といった問題点がある. 信頼区間方式には, 基準値との比較という定量的な評価ができ, ヒトでの評価手順と同様に判断できる, ばらつきが大きい場合に信頼区間が広くなるため, 質の悪い試験では厳しく評価されるという特徴がある. 今後のイヌを用いたテレメトリー QT/QTc 試験の目標は, 信頼区間方式での具体的な基準値を明確にすること, および実際に試験を行う場合に試験の結果に影響を与える因子を特定し, それぞれについての許容範囲が明確にすることであると考えられる. キーワード : ICH E14,QT/QTc, テレメトリー試験, 信頼区間, 有意差検定 目次 1.ICH E14 ------------------------------------------------------------------ 3 2. 信頼区間法による評価手順 ------------------------------------------- 7 3. 有意差検定の問題点 ------------------------------------------------- 11 4. 信頼区間方式の利点と現状の問題点 ----------------------------- 12 5. イヌを用いたテレメトリー QT/QTc 試験での目標 ------------------ 13 1
クロスオーバー実験の統計解析 4) 有意差検定と信頼区間方式の解析の比較 薬理統計グループ安全性薬理チーム平田篤由 2014/6/7 第 14 回医薬安全性研究会定例会 1 アウトライン ICH E14 非抗不整脈薬におけるQT/QTc 間隔の延長と催不整脈作用の潜在的可能性に関する臨床的評価について 信頼区間法による評価手順 有意差検定による方法 信頼区間方式の利点と現状の問題点 今後のイヌを用いたテレメトリー QT/QTc 試験の目標 2014/6/7 第 14 回医薬安全性研究会定例会 2 本資料のアウトラインを示す. 最初に, 臨床において QT/QTc 間隔延長を評価するためのガイドライン (ICH E14) の内容を解説する. ついで, 信頼区間法による評価手順と有意差検定による方法について説明し, 信頼区間方式の利点と現状の問題点にふれる. 最後に, イヌを用いたテレメトリー QT/QTc 試験での目標についてのべる. 2
ICH E14 非抗不整脈薬における QT/QTc 間隔の延長と 催不整脈作用の潜在的可能性に関する臨床的評価について 2.2 QT/QTc 評価試験 QT/QTc 評価試験の目的は 被験薬に心室再分極に対する一定の大きさ以上の薬理作用があるか否かを決定することであり その値はQT/QTc 間隔の延長として検出される 規制当局が関心をもつ基準値レベルについては後述するが QTc 間隔への作用の平均値としておよそ5msであり 95% 信頼区間の上限を10msとするもので ある この試験は通常 健康な志願者 ( 不整脈の危険性が高い集団ではなく ) を対象に実施され 医薬品開発の後期に 目標とする患者集団において当該薬剤の QT/QTc 延長作用を入念に調べる必要性があるか否かを決定するために用いられる この試験は 薬剤に催不整脈性があることを示すことを目的とはしていない 民族差についてのデータは限られているが 民族的要因はQT/QTc 評価試験の成績に影響することはないと考えられている 2014/6/7 第 14 回医薬安全性研究会定例会 3 ICH E14 は, 非抗不整脈薬における QT/QTc 間隔の延長と催不整脈作用の潜在的可能性に関する臨床評価について定めている.2.2 QT/QTc 評価試験に, 被験薬の心室再分極に対して規制当局が興味を持つ判断基準が記載されており,QTc 間隔への作用の平均値としておよそ 5ms,95% 信頼区間の上限として 10ms となっている. なお, この試験は, 開発後期における目標とする患者集団での QT/QTc 延長作用検討の必要性を確認するため, 通常 健康志願者で実施される. 3
2.2.1 QT/QTc 評価試験のデザイン QT/QTc 評価試験は 無作為化 適切な盲検化 プラセボ対照群の同時設定といった潜在的なバイアスに対処するための方策が取られ 適切かつよく管理された試験でなければならない この試験は その後の医薬品の開発段階におけるデータ収集の程度を決定する上で決定的な役割があるため 臨床的に意味のある差を検出し得る高い信頼性を有することが重要である 分析感度 (assay sensitivity) を確立するための陽性対照群 ( 薬理学的 もしくは非薬理学的 ) を同時に用いることにより 試験におけるQT/QTc 延長の検出能力の信頼性を大いに高めることができる 陽性対照はQT/QTc 間隔の平均値をおよそ5ms 変化させる効果を示す必要がある ( 即ち 規制当局が関心をもつ基準値であるQT/QTc 間隔を5ms 程度変化させる作用に近い作用 ) 陽性対照の作用が検出できれば 被験薬についてもその試験で同様の作用を検出する能力が証明されることになる 陽性対照を用いない場合には その妥当性を明らかにし 分析感度 (assay sensitivity) を確立する別の方法を示す必要がある 2014/6/7 第 14 回医薬安全性研究会定例会 4 QT/QTc 評価試験のデザインで重要なのは, 陽性対照において QT/QTc 間隔の平均値をおおよ そ 5ms 変化させる効果を示す必要があることで, この条件が満たすことで被験薬についてもその試験で同様の作用を検出する能力が証明されることになる. 4
2.2.4 QT/QTc 評価試験の解釈 薬剤のQT/QTc 間隔の平均値に対する作用がどの程度小さいと影響がないかを判断するのは困難である しかし QT/QTc 間隔の平均値を延長する作用が約 5msまたはそれ以下である薬剤は TdPを引き起こしていないようである そうした前提の上で 陽性対照 ( 薬理学的 もしくは非薬理学的 ) には その特徴が明らかにされており 規制当局が関心をもつ基準値 (5ms 第 2.2 節参照 ) 付近のQT/QTc 間隔の変化を常に示すものを使用するべきである 同様の考え方に基づき QT/QTc 評価試験が陰性とは その薬剤のQTc 間隔への時間を一致させた平均効果の最大値に対する95% 片側信頼区間の上限が10msを下回る場合を指す この定義は 被験薬のQT/QTc 間隔への作用の平均がおよそ 5msを超えないことを合理的に保証するために選択されている 時間を一致させた差の最大値がこの基準値を超える場合 試験結果は陽性とされる 試験結果が陽性であれば その後の医薬品の開発段階における評価方法には影響を与えるが この試験結果はその薬剤が催不整脈性であることを意味するものではない 2014/6/7 第 14 回医薬安全性研究会定例会 5 QT/QTc 評価試験の結果, 被験薬の QTc 間隔への時間を一致させた平均効果の最大値に対する 95% 片側信頼区間の上限が 10ms を下回る場合, 陰性と判断される.10ms を越える場合は陽性として, その後の開発段階で心臓への影響を注意深く確認する必要があるが, 必ずしも催不整脈性を有することを意味するものではない. 5
5.1 QT/QTc 間隔延長作用と承認プロセスとの関連性 QT/QTc 間隔の平均値への作用が小さい場合に その影響が重要でないかどうかを判断するのは困難であるが 不整脈のリスクは QT/QTc 延長の程度とともに増大するようである 平均 QT/QTc 間隔の延長が 5ms 前後 ある いはそれ未満の薬剤は TdPを引き起こさないようである それは薬物のリスクが増大しないためなのか あるいはリスクは増大するが非常に小さくて検出できないためなのかは不明である QT/QTc 間隔の平均への延長作用が5ms 程度から20ms 未満までの薬剤については結論は出ていないが 中には催不整脈リスクとの関連を示しているものもある QT/QTc 間隔の平均値への延長作用が20msを超える薬剤は 催不整脈リスクがある可能性が 実質的に高く 医薬品開発期間中に不整脈の事象が臨床的に認められる 可能性がある 2014/6/7 第 14 回医薬安全性研究会定例会 6 平均 QT/QTc 間隔の延長が 5ms 前後, あるいはそれ未満の場合, トルサデポアン型心室頻拍 (Torsa de Pointes:TdP) を引き起こさないようだが,5ms から 20ms 未満までの場合, 催不整脈リスクとの関連を示す薬剤もある.20ms を越える場合, 開発期間中に臨床的に不整脈の発現が認められる可能性がある. 2014/6/7 第 14 回医薬安全性研究会定例会 7 6
クロスオ - バ - 法の解析 :JMP の例 2014/6/7 第 14 回医薬安全性研究会定例会 8 クロスオーバー試験で実施した場合の実際の解析手順について,JMP の出力画面を元に解説する.0mg/kg,3mg/kg,10mg/kg,30mg/kg の 4 群 4 期で, 各群当たり 1 例使用した場合の結果を示す. 上から順に, 分散分析でモデルとして意味があるか, 効果の検定で投与量 (Dose), 投与時期 (Period), 動物 (Animal) の各要因に効果があるか, そして Dose に関して, 各投与量の最小 2 乗平均, 標準偏差 ( 共通 ), 信頼区間及び単純平均が表示される. 7
差の信頼区間 2014/6/7 第 14 回医薬安全性研究会定例会 9 群間の違いを見るために,Dose の赤下三角をクリックし, 最小 2 乗平均の Student の t 検定にチェックを入れると, 対照群との差と 95% 信頼区間が一覧表で表示される. 8
Student の t 検定の結果 2014/6/7 第 14 回医薬安全性研究会定例会 10 Student の t 検定の場合, 対照群との差の上側 95% 信頼区間の値は 3,10,30mg/kg 群でそれぞれ 12.451,19.2510,36.2510,p 値はそれぞれ 0.2050,0.0123,0.0001 で,10mg/kg 群以上で統計学的に有意になる. 9
Dunnett 検定の場合 Student の t 検定よりも広い = より 10ms との差が広がる 陰性と判断しにくくなる 2014/6/7 第 14 回医薬安全性研究会定例会 11 次に Dose の赤下三角をクリックし, 最小 2 乗平均の Dunnett 検定にチェックを入れ,Dunnett 検定の結果を求める.Dunnett 検定では多重性が考慮されるため,95% 上側信頼限界はそれぞれ 14.55083 21.35083 38.35083 と Student の t 検定よりも広くなり, 判定基準の 10ms を超える可能性が高くなる. 一方,p 値はそれぞれ 0.4156,0.0296,0.0003 と 10mg/kg 群以上で有意になり,Student の t 検定と同じ結果だが, 数値としてはより大きくなるため有意になりにくい. すなわち, 精度の悪い試験の場合, 検定では有意になりにくいので甘く評価されるが, 信頼区間方式では逆に厳しく評価されることが解る. 10
検定方式の問題点 結果は 統計学的有意差の有無で判断されるが それが医学的に問題になる変化の大きさによる判断基準を示すものではない 用いる手法によりp 値が変わるため, 試験の内容に合致した手法を選択する必要がある 変化の大きさによる基準値が規定される場合, 検定で判断するのは面倒である 有意でなければ良いは, 安全性を考える場合, 過小評価になる 2014/6/7 第 14 回医薬安全性研究会定例会 12 検定方式の問題点として以下の 4 点が上げられる. 結果は統計学的有意差の有無で判断されるが, 必ずしも医学的に問題になる変化の大きさと一致しない. 試験に用いた例数やデータのばらつきに左右される. 検定では, 用いる手法により p 値が異なるため, 試験の内容に合致した手法を選択する必要がある. 変化の大きさによる基準値が規定される場合, 単純に群間で検定して統計学的に有意であるか見るだけでは, 基準値に対しての判断ができない. 統計学的に有意でなければ差がないと判断すると, 例数が少ない場合やデータのばらつきが大きい場合に生物学的な差を見逃すことになり, 安全性を判断する際は過小評価となる. 11
信頼区間方式の利点と現状の問題点 信頼区間方式の利点 ばらつきが考慮されており, 質の悪い試験では厳しく評価される 定量的評価ができる ヒトでの評価 (ICH E14) と同じ考え方になる 現状の問題点 同じ哺乳類の臓器とは言え, ヒトの基準値の適用が可能?? 大動物での TdP と QT/QTc 間隔の平均値を延長する作用の関係が検証されていない 基準値が不明 評価に影響する因子と制御範囲が不明 2014/6/7 第 14 回医薬安全性研究会定例会 13 一方, 信頼区間方式では, ばらつきが大きい場合は信頼区間上限が広くなり, 基準値を超えやすくなるため, 見過ごす危険性が低くなるという点で, 質の悪い試験では厳しく評価されることになる. また, 有意差の有無でなく基準値との比較という定量的な評価ができ, ヒトでの評価 (ICH E14) 手順と同じにできるという利点がある. 現状での問題点としては, ヒトの ICH E14 の基準値に対応する大動物での TdP と QT/QTc 間隔の平均値の延長する作用との関係が検証されていないことで, そのため ICH E14 に規定されるような基準値が明確になっていない. また, 実際に試験を実施する際に制御する必要のある評価に影響する因子が特定されていない点も問題で, そのためどのような因子をどの範囲に制御する必要があるかが不明である. 12
今後のイヌを用いたテレメトリー QT/QTc 試験の目標 ICH E14で提示されているQT/QTc 間隔を 5ms 程度変化させる作用に対応する基準値 ( 平均効果の最大値に対する95% 片側信頼区間の上限が10msを下回る?) を明らかにする その基準値に影響を与える因子と許容範囲を明確にする 2014/6/7 第 14 回医薬安全性研究会定例会 14 ICH E14 では, ヒトでの QT/QTc 評価試験の判断基準について,QT/QTc 間隔を 5 ms 程度変化させる作用があるかとなっている. 大動物を用いたテレメトリー QT/QTc 試験は, この基準 ( 平均効果の最大値に対する 95% 信頼区間の上限が 10ms を下回るか?) に該当する薬剤を, 非臨床段階で検出する性能を有することが求められる. しかしながら, 現在のイヌを用いたテレメトリー QT/QTc 試験では, このような具体的な指標が明らかにされておらず, 検定を用いて判定している. そのため, 試験ごとに様々な因子の影響を受けて, 判断が一定していない可能性がある. すでにヒトで QT/QTc に影響を与えることが知られている陽性対照薬を用い, 血中濃度などヒトとブリッジできる指標を使った検討を行い, イヌを用いたテレメトリー QT/QTc 試験における上記の基準に対応する明確な数値が明確にすること, および実際に試験を行う場合に試験の結果に影響を与える因子を特定し, それぞれについての許容範囲が明確にすることが今後の目標である. 13