遺伝子パスウェイを用いた疾患関連遺伝子群の同定 愛知医大公衆衛生学 西山毅 ( たけし ) nishiyama@minos.ocn.ne.jp
CNV とは 今までは 1 塩基単位の多型 (SNP) を用いるのが主流 巨大塩基配列数 (= コピー数 ) を通常よりも多く持つ人と, 少なく持つ人がいるので, コピー数多型 Copy Number Variation (CNV) と呼ぶ
従来の解析法 : 遺伝子セット法 CNV の頻度は低いので CNV ごとの χ2 乗検定は不可能 case control CNVあり 0.5% 0.1% CNVなし 99.5% 99.9% ある生物学的機能をもつ遺伝子セットを考え, その遺伝子セット内の遺伝子に生じた CNV 数に注目する 遺伝子セット A CNV 数 = 3 遺伝子セット A 以外 CNV 数 = 4
従来の解析法 : 遺伝子セット法 ( 続 ) 遺伝子セット内の遺伝子に生じた CNV 数と, それ以外の遺伝子に生じた CNV 数とを case/ control で比較する case control 遺伝子セット A 3 2 それ以外の遺伝子 4 6 検定は Fisher s exact test で行う (Pinto D, 2010)
遺伝子セット法の欠点 遺伝子セットの定義が恣意的 遺伝子セット間に重複があるので, 解釈が困難 たくさんの遺伝子セットについて検定する多重性の問題 遺伝子パスウェイ中で疾患関連遺伝子の集積場所を同定
遺伝子パスウェイ 統合遺伝子パスウェイ Pathway Commons を使用 以下の 9 つの遺伝子パスウェイデータベースを統合 http://www.pathwaycommons.org/pc 遺伝子数 :13682 個, 遺伝子間相互作用数 :538610 本
遺伝子間の距離 隣接する遺伝子間の距離を 1 とする. 複数の経路がある場合は最短距離をとる. 遺伝子 B 距離 1 距離 1 遺伝子 A 距離 1 遺伝子 C 距離 1 遺伝子 D 距離 2
全遺伝子間距離の分布 全遺伝子ペアの 9 割以上は距離 4 以内でつながる 最大半径 = 4 に設定
ウインドウを Z と記す 提案法の概略 Case Control この場合, 以下の 2 2 表より χ2 乗検定を行う Case Control affected genes in Z 3 2 affected genes outside Z 2 1 all affected genes 5 3
提案法の概略 ( 続 ) すべての遺伝子を中心にして, 半径 0~4 のウインドウ Z について,χ2 乗統計量を計算. 遺伝子数 5 通り 統計量が最大になるウインドウ Z を, もっとも疾患と関連の強いウインドウ =most likely cluster (MLC) とする.
提案法 Case Control affected genes in Z Σx i (Z) Σy i (Z) affected genes outside Z n 1 Σx i (Z) n 0 Σy i (Z) all affected genes n 1 n 0 n 1 :CNV が生じた症例群中の全遺伝子数 n 0 :CNV が生じた対照群中の全遺伝子数 x i (Z):i 番目の症例が,Z 内でCNVを生じた遺伝子数 y i (Z):i 番目の対照が,Z 内でCNVを生じた遺伝子数 ˆ φ ( Z) ˆ case = φ = ˆ( φ Z) = ( x ( Z) / n1, ( Z) y ( Z) / i i control i i x ( Z) y ( Z)) /( n 1 n 0 ) i i + i i + CNV を起こした遺伝子の割合 n 0
提案法 ( 続 ) H 0 :φ case (Z) = φ control (Z) for any Z Z H 1 :φ case (Z) > φ control (Z) for some Z Z 検定量 (Z: a set of windows Z) 遺伝子数の割合の差の検定統計量
たとえば Case Control この場合だと これをすべての Z について計算し最大値をとる
他にも考えられます subjects with at least one affected gene in Z subjects without any affected genes in Z Case Control ΣI(x i (Z)) ΣI(y i (Z)) m 1 ΣI(x i (Z)) m 0 ΣI(y i (Z)) all subjects m 1 m 0 m 1 : 少なくとも 1 つ CNV を生じた遺伝子を有する症例数 m 0 : 少なくとも 1 つ CNV を生じた遺伝子を有する対照数 CNV を起こした人の割合 遺伝子の割合 より検出力が低いことがわかっている Morris AP, Zeggini E. Genet Epidemiol 2010, 34:188-193
並べ替え検定で P 値を求めます Status CNVを生じた遺伝子 被検者 1 case gene1, gene2 被検者 2 case gene1, gene3, gene4 被検者 3 control なし 被検者 4 case gene2 被検者 5 control なし case / control status を並べ替え 999 Permutations of case-control status
サンプルデータ Pinto D. Nature 2010;466:368-72 996 cases ( 広義の自閉症 ) vs. 1287 controls CNV を生じた遺伝子数 case では 4275 個 遺伝子パスウェイ内に限れば 1963 個 control では 4628 個 遺伝子パスウェイ内に限れば 2119 個 control 1963 遺伝子パスウェイ control 2119 遺伝子パスウェイ
解析結果 CNV 全体についての most likely cluster(mlc) P 値 = 5.5% 半径 = 2 クラスターサイズ ( 遺伝子数 )= 745 コピー数減少 (deletion) についての MLC P 値 = 2.5% 半径 = 2 クラスターサイズ = 776 先行研究に一致
AAK1 AASDHPPT ABL2 ACACA ACAT1 ACAT2 ACOT13 ACOX3 ACP1 ACTB ACTN4 ACTR1A ACTR2 ACTR3 ACVR1 ACVR1B ACVR2B ADAM28 ADAR ADCK1 ADCY5 ADK ADRM1 ADSS AFF4 AFP AHCY AHNAK AHSA1 AIFM1 AIMP1 AIMP2 AK2 AKAP9 AKR1B1 AKR7A2 ALDH9A1 ALDOA ALPK3 ANAPC5 ANAPC7 ANP32A ANXA2 AP2A1 AP2B1 AP2M1 APEH APEX1 APRT ARAF ARF6 ARL1 ARPC2 ARPC4 ATAD3B ATF2 ATF7IP ATP5A1 ATP5B ATP5C1 ATP5D ATP5L ATP5O ATP6V1A AURKA AURKB AXIN2 AZI1 AZI2 B2M BANF1 BCAP31 BCAS2 BMP2K BMPR1A BRAF BRD3 BTF3 BTK BTRC BUB3 C12orf23 C1QBP C4orf43 CABC1 CACYBP CAD CALM1 CALR CAMK2B CAMK2D CAMK2G CAMKK2 CAPRIN1 CAPZA1 CAPZB CBR1 CCNA1 CCNH CD3EAP CD81 CD8A CDC37 CDK1 CDK12 CDK13 CDK2 CDK4 CDK5 CDK7 CDK9 CDKN2A CHUK CISD2 CKMT1A CLIC1 CLIC4 CLK1 CLPP CLTC CLU CMPK1 CNBP CNKSR2 CNPY2 COMT COPB2 COPG COPS3 COPS6 COPZ1 CPS1 CPSF6 CRY1 CRY2 CRYZ CS CSDE1 CSF1 CSK CSNK1A1 CSNK1D Csnk1e CSNK1E CSNK1G3 CSNK2A1 CSNK2A2 CSNK2B CSTB CTNNB1 CTPS CUL1 CUL2 CUTA CYB5B CYCS DAD1 DCK DCTPP1 DCUN1D1 DDOST DDT DDX21 DDX3Y DDX5 DFFA DHCR7 DHX36 DHX9 DIABLO DISC1 Dlg4 DLST DNAJA1 DNAJB6 DNAJC8 DNM2 DOK1 DOK2 DRG1 DSG1 DSP DSTN DUSP3 DUT DYNLL1 DYNLRB1 DYRK1A ECH1 ECHS1 EEF1B2 EEF1D EEF1E1 EIF1AX EIF1B EIF2AK1 EIF2AK4 EIF2B1 EIF2S1 EIF2S3 EIF3A EIF3D EIF3E EIF3F EIF3G EIF3H EIF3I EIF3J EIF3K EIF3L EIF3M EIF4G1 EIF4H EIF6 EPHB1 EPHB2 EPHB4 EPRS ERH ERLEC1 ERP29 ESD ETFA EWSR1 EXOSC4 EZR F8 FABP5 FAM110A FAM110B FAM40A FAM83A FAM83H FBLN1 FBXW11 FER FGFR1 FHL1 FKBP3 FRYL FSCN1 FTSJ1 FYN G3BP1 G3BP2 GAK GANAB GAPDH GAPVD1 GARS GCLM GDI1 GDI2 GFPT1 GH1 GHR
MLC と遺伝子セットとの重複による解釈 提案法による MLC の 性格 を, 各遺伝子セットとの重複割合で評価する. 多重性と遺伝子セット間の重複問題を完全に回避 遺伝子セットとして,MSigDB (Molecular Signatures Database) の C2 遺伝子セット (v2.5) を用いた. 遺伝子セット数 : 3272 http://www.broadinstitute.org/gsea/msigdb/index.jsp
Gene Sets Overlapping with MLC at 50% Gene Set Name Overlap Proportion Gene Set Size BIOCARTA_PROTEASOME_PATHWAY 0.63 19 REACTOME_SCF_BETA_TRCP_MEDIATED_DEGRADATION_OF_EMI1 0.58 48 REACTOME_P53_INDEPENDENT_DNA_DAMAGE_RESPONSE 0.58 43 NGO_MALIGNANT_GLIOMA_1P_LOH 0.57 7 REACTOME_CYCLIN_E_ASSOCIATED_EVENTS_DURING_G1_S_TRA 0.57 NSITION 58 REACTOME_SIGNALING_BY_WNT 0.57 58 REACTOME_CYTOSOLIC_TRNA_AMINOACYLATION 0.57 23 REACTOME_SCF_SKP2_MEDIATED_DEGRADATION_OF_P27_P21 0.56 52 REACTOME_VIF_MEDIATED_DEGRADATION_OF_APOBEC3G 0.55 47 BIOCARTA_SRCRPTP_PATHWAY 0.55 11 BIOCARTA_SET_PATHWAY 0.55 11 REACTOME_STABILIZATION_OF_P53 0.54 46 IIZUKA_LIVER_CANCER_PROGRESSION_L0_L1_DN 0.54 13 REACTOME_REGULATION_OF_ORNITHINE_DECARBOXYLASE 0.53 47 KEGG_PROTEASOME 0.52 48 REACTOME_ORC1_REMOVAL_FROM_CHROMATIN 0.51 63 GILMORE_CORE_NFKB_PATHWAY 0.50 10 FIRESTEIN_CTNNB1_PATHWAY_AND_PROLIFERATION 0.50 8 KUROKAWA_LIVER_CANCER_EARLY_RECURRENCE_DN 0.50 6 BIOCARTA_CDMAC_PATHWAY 0.50 16 REACTOME_SHC_MEDIATED_SIGNALLING 0.50 12
Gene Sets Overlapping with MLC at 50%
遺伝子セット法との比較 The 10 most significant gene sets from the ASD dataset for deletions Gene Set Name nominal FDR Holm s p-value q-value p-value NIKOLSKY_BREAST_CANCER_8Q23_Q24_AMPLICON 1.876E-05 0.061 0.061 PEREZ_TP53_TARGETS 9.768E-05 0.078 0.319 REACTOME_RNA_POLYMERASE_I_III_AND_MITOCHONDRIAL 1.026E-04 0.078 0.336 _TRANSCRIPTION ONKEN_UVEAL_MELANOMA_UP 1.065E-04 0.078 0.348 BROWNE_HCMV_INFECTION_24HR_DN 1.187E-04 0.078 0.388 REACTOME_RNA_POLYMERASE_I_PROMOTER_CLEARANCE 1.490E-04 0.081 0.487 BLALOCK_ALZHEIMERS_DISEASE_INCIPIENT_UP 1.937E-04 0.091 0.633 STARK_HYPPOCAMPUS_22Q11_DELETION_DN 0.001 0.218 1.000 KEGG_GAP_JUNCTION 0.001 0.218 1.000 DAIRKEE_TERT_TARGETS_UP 0.001 0.218 1.000 多重比較を補正すれば有意性は消失
シミュレーション設定 病因サブパスウェイ内の遺伝子に1つでもCNVが生じたら, 疾患が生じると想定 病因サブパスウェイ内の複合遺伝子型 g={g 1,g 2,,g M } CNVが生じればg j =1, 生じなければg j =0 g 0 ={0,0,,0} を参照遺伝子型とする g g 0 の場合, RR(g)=P(D=1 g)/p(d=1 g 0 )=γ
γ γ γ + = = ) ( ) (1 ) ( 1) ( g 0 g g P P D P 1) ( 1 1) ( 1) ( ) ( 0) ( = = = = = D P D P D P P D P g g g RR(g) = constant as the risk model in our simulation; say, γ for g g 0 and RR(g)=1 for g = g 0. Thus, for g g 0 RR(g) = constant (γ) for g g 0 and RR(g)=1 for g = g 0. For g g 0 P(D=1) と P(g) が決まれば左辺が定まるシミュレーション設定 ( 続 )
RR(g) = constant as the risk model in our simulation; say, γ for g g 0 and RR(g)=1 for g = g 0. Thus, for g g 0 シミュレーション設定 ( 続 ) 各遺伝子は独立で一定の確率 p で CNV を生じる 生じる CNV 数は 2 項分布に従う P(g i ) M i p p i = (1 ) M i M は病因遺伝子群中の遺伝子数 gi は i 個の遺伝子に CNV が生じた遺伝子型 有病率 P(D = 1) = 0.01 CNV の発生割合 p =1.0 10-4 リスク比 γ = 1.0, 2.0, 3.0, 4.0, 5.0 先の解析で有意であった MLC を true と設定
結果の評価指標 通常の検出力では病因遺伝子群を同定できたか不明 Standard Power = P(H 0 is rejected H 1 ) 帰無仮説を棄却 病因遺伝子群を同定を表す指標 Joint Power = P(H 0 is rejected true gene cluster is detected H 1 )
結果の評価指標 ( 続 ) Joint power は, 真の病因遺伝子群と ぴったり一致 しないと 正解 にカウントされないので, より緩やかな感度と特異度を以下のように定める Sensitivity = P(detected gene cluster true cluster true cluster) Specificity = P(detected gene cluster true cluster true cluster)
シミュレーション結果 Standard/Joint Power, 感度は RR = 3 を超えると頭打ちに 特異度はどのリスク比でも高いまま
結語 病因遺伝子群は遺伝子パスウェイ内で近接していると想定 スキャン統計量を使った解析法を提案 RR=3 以上なら十分な検出力をもつ 提案法により同定した MLC を, 各遺伝子セットとの重複割合で解釈 遺伝子セット法の 遺伝子セット間の重複による解釈の困難と, 複数の遺伝子セットを検定することによる多重性の問題を回避できる
提案法の問題点 1 遺伝子間の距離の定義が恣意的 2 円形のウインドウのみ考慮したが, フレキシブルな形のウインドウを用いる場合は, より効率的なアルゴリズムが必要 3 遺伝子パスウェイの不完全さが, 検定結果にどれくらい影響を及ぼすか不明 BMC Bioinformatics.12: 205 (2011)