ゲノムワイド SN-SN 相互作用解析 東北大学東北メディカル メガバンク植木優夫
Contents Gene-Gene interaction Models for Gene-Gene interaction Allelic interaction model Further topics
Gene-Gene interaction SN-GWAS により同定された疾患感受性 SN のほとんどは効果サイズが小さい オッズ比は.-.5 (ark et al. 0 NAS) 検出には多くのサンプルが必要 独立サンプルでの再現性の問題 説明できない遺伝率 CDCV (Common Disease Common Variant) 仮説に基づく SN (common variant) は集団頻度 5% 以上の高頻度バリアントを指す 3
4
Gene-Gene interaction 失われた遺伝率 (Manolio et al. 009 Nature) は以下の成分によって隠されている?. 遺伝子 x 遺伝子相互作用. 遺伝子 x 環境相互作用 3. レアバリアント (MAF<0.5%) [ またはMAF<0.5-5% の低頻度バリアント ] 5
Risch (990 AJHG) はありふれた疾患への相互作用の寄与を示唆する : 血縁度の減少に伴う再発リスク比の減少はよりも急激 データに適合 6
エピスタシスの進化的挙動 自然選択により有害アリルは直ちに集団から取り除かれる (Kimura & Crow 979) Hemani et al. (03 LoS Genet) は, エピスタシス相互作用の自然選択を仮定した進化シミュレーションを行い, 加法的遺伝分散が低レベルで維持されることを示した これまでに得られた相加的遺伝分散は, 実際には非相加的遺伝分散による寄与であった可能性がある 多くの研究者は遺伝子 - 遺伝子相互作用の重要性を認めている
Gene-Gene interaction 相互作用効果のモデル ( つの SNs,loci and ) Marchini et al. (005 Nat Genet) 8
GWAS で発見された相互作用 乾癬における ERA と HLA-C (Strange et al. 00 Nat Genet) 主効果 : OR = ~.3 (ERA, <e-9), ~4.7 (HLA-C, <e-3) 交互作用 値 = 7e-6 強直性脊椎炎における ERA と HLA-B7 (Evans et al. 0 Nat Genet) 主効果 : OR = ~.3 (ERA, <e-), ~40.8 (HLA-B7, <e-00) 交互作用 値 = 7e-6 一型糖尿病における HLA 領域内の非相加的効果 (Barrett et al. 009 Nat Genet, OR=5.5) いずれも強い主効果 9
Interaction between ERA and HLA-C (Strange et al. 00 Nat Genet) 0
標準的な SN-SN 相互作用モデル つのカテゴリ変数 ( 各 3 カテゴリ ) 間の交互作用項を含む分散分析モデル 通常の交互作用項の有意性検定 自由度 4 の尤度比検定 Cordell (009 Nat Rev Genet)
標準的な SN-SN 相互作用モデル 飽和モデルの利用は検出力を低下させる 加法 - 加法モデルが最もよく用いられる 優性 - 優性モデル, 劣性 - 劣性モデルという可能性も モデルの選定誤りは偽陽性を招く Cordell (009 Nat Rev Genet)
ロジスティック回帰での交互作用の検定 L 個の SN があるとき, 合計のペア数は L(L-)/ 例えば L=350,000 であれば,6,49,85,000 個のペアができる 網羅的に検索 値形質 ( 罹患の有無等 ) を対象にしたロジスティック回帰モデルは, 前向き研究だけでなくケース コントロール研究にも利用可能 (Anderson 97 Biometrika, rentice & yke 979 Biometrika) だが 数値最適化に伴う高い計算コスト 結果を格納するデータストレージ 3
フィルタリング ゲノムワイド関連解析で得られた p 値が小さい SN についてのみ相互作用を検討 検定数の削減 => 計算速度の向上, 有意水準の緩和 Use only 主効果をもたない相互作用を見落とす危険性 => 全探索 4
BOOST (Wan et al. 00 AJHG) 飽和モデルでのロジスティック回帰 尤度比検定統計量 (L f - L 0 ) を全探索 L f は数値最適化が不要, 陽に書ける L 0 は数値最適化が必要, 陽に書けない L 0 に必要な最尤推定量を Kirkwood Superposition Approximation (KSA) を用いて陽に書ける量で近似 => L 0 >L KSA ある閾値 t を超える (L f - L 0 ) を見つけるため,(L f - L KSA ) が t を超えるかどうか調べる t<(l f - L 0 )< (L f - L KSA ) より (L f - L KSA )>t となったペアについてだけ (L f - L 0 )>t を調べて, 計算コストとデータストレージの問題を解決 5
BOOST (Wan et al. 00 AJHG) (L f - L 0 )>t の閾値 t は自由度 4 のカイ 乗分布の分位点 多数の仮説を相手にするため, 多重検定補正が必要 L 個の SN があると, 合計のペア数は L(L-)/ 例えば L=350,000 であれば,6,49,85,000 個のペア 多重検定をボンフェローニ補正で行う場合,5% 有意水準での検定は, 各検定の有意水準を <8 x 0-3 におくことになる 6
BOOST (Wan et al. 00 AJHG) BOOST ではひとまず (L f - L KSA )>30 を用いてフィルタリングを行う [ 閾値 30 に対応する有意水準は 4.9 x 0-6 ] BOOST は全探索を可能とした最初の論文 問題 : 相互作用モデルによっては自由度 4 の検定は検出力が低下する可能性 相互作用検定間の独立性は成立しそうにない 分割表がスパースになるケースも多い 7
分割表はしばしばスパースとなる つの SN は連鎖不平衡になく, さらに Hardy- Weinberg 平衡を仮定し, 各 MAF を p,q とおけば, 一般集団での遺伝子型の頻度は bb bb BB aa p q p (-q)q p (-q) aa (-p)pq 4(-p)p(-q)q (-p)p(-q) AA (-p) q (-p) (-q)q (-p) (-q) 例えば p=q=0% とすれば 遺伝子型 aa/bb をもつ人の割合は 0.0%, つまり平均一人観察するのに 万サンプル必要 8
BOOST (Wan et al. 00 AJHG) 欠測データもしばしばある (BOOST の作者に問い合わせると,BOOST は欠測データを扱えず, メジャーホモ接合で impute せよということ ) まだ BOOST を使い novel な相互作用を発見できた結果はないようである 9
相互作用モデルの変更 SN-GWAS と同様, リスクアリル数によって罹患リスクが増加するモデルが自然 Han et al. (0 JASA) は係数に単調制約を入れた isotonic 回帰を用いた検定を提案した 0
アリル間の相互作用モデル 遺伝学の対象は, ヒト単位よりもむしろアリル単位 ヒトは 倍体生物であり, つのアリルをもつ 座位の SN がそれぞれ a/a,b/b アリルからなるときの回帰モデル ( アリルが与えられたもとでの条件付 ) (Wu et al. 00 LoS Genet) a b B A i
アリル間の相互作用モデル ケースコントロール研究デザインでは i AB, ab, log log Ab, ab, ここで は以下の期待頻度 AB, conrol Ab, ab, ab, a b B b B ab, ab, ab, ab, A Ab, AB, Ab, AB,
アリル間の相互作用モデル Wu et al. (00 LoS Genet) は期待頻度 を推定 ( 疑似 ) ハプロタイプ頻度で置き換え, 帰無仮説 i=0 を検定する以下の統計量 T を提案した rabhu & e er (0 Genome Res) はこの統計量を用いて高速な相互作用探索法を提案した n ˆ i T, vˆ ˆ iˆ log ˆ vˆ n AB, Ab, ˆ ˆ ˆ ab, ab, AB, ˆ log ˆ ˆ ab, n ˆ ˆ AB, :#of individuals, n ab AB, conrol Ab, ˆ ˆ ab, ab, ˆ ˆ Ab, ab,, ˆ ˆ, Ab, ab, :#of individuals,, 3
アリル間の相互作用モデル Wu et al. は T の分散項 ( 分母 ) に, 帰無仮説 i=0 の下で計算される漸近分散を用いている 倍体標本が得られている場合にのみ成立 ヒトのような 倍体標本では不成立 T iˆ vˆ iˆ, vˆ ˆ log ˆ n n AB, Ab, ˆ ˆ ˆ ab, ab, AB, ˆ AB, ˆ log ˆ ab, ˆ AB, conrol Ab, ˆ ˆ ab, ˆ ˆ Ab, ˆ ab, ab, ˆ, ab, Ab, ˆ ab, 4
アリル間の相互作用モデル 倍体においては, 最尤推定等 (EMアルゴリズム) を用いて ( 疑似 ) ハプロタイプ頻度を得る必要がある Wu et al. (00 LoS Genet) の漸近分散はこのバラツキを考慮していない iˆ T, vˆ ˆ iˆ log ˆ vˆ n n AB, Ab, ˆ ˆ ˆ ab, ab, AB, ˆ AB, ˆ log ˆ ˆ ab, ˆ AB, conrol Ab, ˆ ab, Ab, ˆ ˆ ab, ab, ˆ ˆ, ab, Ab, ˆ ab, 5
アリル間の相互作用モデル Ueki & Cordell (0 LoS Genet) では Brown (975 Theor op Biol) の結果を援用し, 頻度 を最尤推定した場合の漸近分散を導き,Wu et al. の T を修正した修正の効果 LD( 連鎖不平衡 ) の無い場合, 最尤推定することにより漸近分散は 倍に上昇 Wu et al. の T を使うと偽陽性 ( つまり相互作用がないのにあると判定される ) が生じる 6
アリル間の相互作用モデル アリルの相互作用モデルを考慮することは遺伝学の文脈からは自然 LINK fast-epistasis (urcell et al. 007 AJHG) が計算する統計量は, アリルをカウントした 分割表に対する Wu et al. 統計量と同じ形 しかし分割表の頻度は多項分布でないため,--fastepistasis の漸近分散に修正が必要 Ueki & Cordell (0 LoS Genet) は分散項を修正した 7
アリル間の相互作用モデル 倍体 ( 父系 母系 ) での Wu et al. 検定は, 以下のモデルにおけるパラメータ i に関する検定と解釈できる ab ab ab Ab AB i ab ( ) i Ab ( ) i AB i i i ( i)
アリル間の相互作用モデル Wu et al. モデルの遺伝子型が与えられたもとでの条件付分布 bb aa aa AA ( ) bb logit ( affected AaBb ) i BB ( ) i ( i) ( affected AaBb ) HWE logit - ( affected ( i) ab AB, ab) ( AB, ab) ( AB, ab) ab AB logit AB Ab ab - ( affected ( Ab, ab) ( ) Ab, ab) ( Ab, ab) Ab ab
Joint Effects 統計量 (Ueki & Cordell 0) Wu et al. のアリル間相互作用モデルにおける主効果は加法的にパラメトライズされている 遺伝子型の主効果には様々な形式が考えられる 主効果が優性, 劣性の場合に偽陽性 ( 偽相互作用 ) Ueki & Cordell (0) で新たに提案した Joint Effects 統計量 後ろ向きサンプリングに伴う主効果の影響を除去 ひとつのパラメータで相互作用効果をパラメトライズし,Wu et al. 統計量と互換性を持たせた オッズ比のキャンセリング特性を利用 30
aa 4 つのオッズ比の重みつき平均 aa AA bb a b c bb d e f BB g h i Joint Effects 統計量 (Ueki & Cordell 0) ˆ ai log cg ah af ae w w log bg w3 log cd w4 log( bd ) 重みは漸近分散を最小化するように決定 ef hi のときは以下の量で代替する e log ケース, コントロールの観測頻度 3
Ueki & Cordell の相互作用モデル 主効果パラメータを一般化して導入 bb aa aa AA bb logit ( affected AaBb ) i BB i i ( affected AaBb ) HWE logit ( affected ( AB, ab) ( AB, ab) ( AB, ab) i)ab ab AB logit AB Ab ab ( affected ( Ab, ab) ( ) Ab, ab) ( Ab, ab) Ab ab
ケース群の遺伝子型分布 ( ロジスティック回帰モデルを乗法的モデルにより近似 ) ai cg ah bg af cd ae bd ab Ab AB ab bb bb BB d aa aa AA a f / ab K f 0 h 0 ab ab / g f h / ab K 0 b f 0 ab Ab / K K e ( AaBb affected g h f 0 g h ab AB / K ) f c f g / Ab K f 0 g 0 h Ab AB / K i f g h / AB K 0 ( affected AB, ab) ( AB, ab) ( affected ( AaBb affected ) ( affected ) HWE f K ( affected ) 0 g h ab AB K Ab ab, Ab, ab) ( Ab, ab)
コントロール群の遺伝子型分布 ( 一般集団分布に近似可 ) ai cg ah bg af cd ae bd ab Ab AB ab bb aa aa AA a ab b ab Ab c Ab bb BB d ab ab g ab e ab AB Ab h ab AB ab f Ab AB i AB 以上のケース群, コントロール群の近似を用いたものが Ueki & Cordell (0) の Joint Effects 検定 相互作用がなければ (ω=), ケースとコントロールでそれぞれ計算した λ の値に差は生じない 相互作用があれば (ω ) 差が生じる 任意の主効果の形状を許す
ソフトウェア 35
その他の手法 Ma et al. (03 LoS Genet) は SN を遺伝子単位でグループ化し, 遺伝子間の相互作用を調べる手法を提案した SN 単位の関連解析を遺伝子単位に集約する手法 GATES(Li et al. 0 AJHG) を応用したもの Lewinger et al. (03 Genet Epidemiol) は 段階の検定を用いて, 厳しい有意水準を緩和しようと試みた SN 間の相関でスクリーニング 検定間の独立性を利用 (Dai et al. 0 Biomerika) 36
その他の手法 Ritchie et al. (00 AJHG) は, 遺伝子型データの高次の相互作用の分割表を高低リスクカテゴリにまとめる Multifactor Dimensionality Reduction 法 (MDR) を提案 クロスバリデーションを用いて効果の真偽を確認する 最近まで, 相互作用の検出に用いられてきた手法であるが, 計算量が高くゲノムワイドの適用は困難 Ueki & Tamiya (0 BMC Bioinf) は変数選択を利用する MDR と同種の手法を提案 Van Lishout et al. (03 BMC Bioinf) は値をパーミュテーションテストから有効に求める方法を提案 37
おわりに 遺伝子 - 遺伝子相互作用解析では, これまで再現性のあった結果はほとんど得られていない 遺伝子 - 環境相互作用も同様 今後さらなる研究が必要 38
Acknowledgements My special thanks to rof. Heather Cordell (Newcastle University, UK) rof. Gen Tamiya (Tohoku University, Japan) 39