スライド 1

Similar documents
Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

機能ゲノム学(第6回)

NGSデータ解析入門Webセミナー

untitled

Medical3

データ科学2.pptx

GWB

Slide 1

kubostat2018d p.2 :? bod size x and fertilization f change seed number? : a statistical model for this example? i response variable seed number : { i

Microsoft PowerPoint - sc7.ppt [互換モード]

情報工学概論

ChIP-seq

学会誌カラー(目次)/目次13‐1月

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Medical3

経験ベイズ検定による 偽陽性制御の方法 大羽成征 (( おおばしげゆき 京大数理デザイン道場 年 0077 月 2244 日 1155:: :: u.ac.jp

バイオインフォマティクスⅠ

統合失調症発症に強い影響を及ぼす遺伝子変異を,神経発達関連遺伝子のNDE1内に同定した

Microsoft Word - å“Ÿåłžå¸°173.docx

7 1213

経済統計分析1 イントロダクション

スライド 1

基礎統計

統計的データ解析

MedicalStatisticsForAll.indd

211 ‚æ2fiúŒÚ

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

QuickScout Screening Assist Kits from Carna Biosciences, Inc. Tyrosine Kinases ABL(ABL1) ABL(ABL1) [E255K] ABL(ABL1) [T315I] ACK(TNK2) ALK ALK [C1156Y

仮説検定を伴う方法では 検定の仮定が満たされ 検定に適切な検出力があり データの分析に使用される近似で有効な結果が得られることを確認することを推奨します カイ二乗検定の場合 仮定はデータ収集に固有であるためデータチェックでは対応しません Minitab は近似法の検出力と妥当性に焦点を絞っています

浜松医科大学紀要

Untitled

ABN”Ð…J…^…“…OP01-24.indd

橡stat3.PDF

様々なミクロ計量モデル†

機能ゲノム学(第6回)

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313791E63589F194E497A682C695AA8A84955C2E >

CBRC CBRC DNA

untitled

<4D F736F F F696E74202D2088E38A77939D8C7695D78BAD89EF313691E63589F194E497A682C695AA8A84955C2E >

カイ二乗フィット検定、パラメータの誤差

ビジネス統計 統計基礎とエクセル分析 正誤表

1. 背景 NAFLD は非飲酒者 ( エタノール換算で男性一日 30g 女性で 20g 以下 ) で肝炎ウイルス感染など他の要因がなく 肝臓に脂肪が蓄積する病気の総称であり 国内に約 1,000~1,500 万人の患者が存在すると推定されています NAFLD には良性の経過をたどる単純性脂肪肝と

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

RNA-seq

kubostat2017b p.1 agenda I 2017 (b) probability distribution and maximum likelihood estimation :

講義内容 連鎖解析 パラメトリックな方法 ( ロッド値法 ) ノンパラメトリックな方法 (Affected sib pair method:asp) ケース コントロール関連分析 伝達不平衡試験 (transmission disequilibrium test:tdt)

Mantel-Haenszelの方法

日本生態学会誌59巻3号

論文の内容の要旨 日本人サンプルを用いた 15 番染色体長腕領域における 自閉症感性候補遺伝子の検討 指導教員 笠井清登教授 東京大学大学院医学系研究科 平成 13 年 4 月入学 医学博士課程 脳神経医学専攻 加藤千枝子 はじめに 自閉症は (1 ) 社会的な相互交渉の質的な障害 (2 ) コミュ

スライド 1

Vol. 29, No. 2, (2008) FDR Introduction of FDR and Comparisons of Multiple Testing Procedures that Control It Shin-ichi Matsuda Department of

Page 1 of 6 B (The World of Mathematics) November 20, 2006 Final Exam 2006 Division: ID#: Name: 1. p, q, r (Let p, q, r are propositions. ) (10pts) (a


青焼 1章[15-52].indd

50%

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

P1〜14/稲 〃

刺激 反応マトリクスから求まる指標 入力 : 刺激実際のクラス negative positive 出力 : 反応観察者が判断したクラス positive negative TP ( ) FP ( ) FN ( ) TN ( ) ü Sensitivity( 感度 ) ü Specificity(

第11回:線形回帰モデルのOLS推定

untitled

H8000操作編

統合失調症の発症に関与するゲノムコピー数変異の同定と病態メカニズムの解明 ポイント 統合失調症の発症に関与するゲノムコピー数変異 (CNV) が 患者全体の約 9% で同定され 難病として医療費助成の対象になっている疾患も含まれることが分かった 発症に関連した CNV を持つ患者では その 40%

KEGG.ppt

< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B>

Progress report

FleXScan User Guide

Z7000操作編_本文.indb

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

t Z

Microsoft PowerPoint - 6_TS-0891(TS-0835(Custom TaqMan Assay Design Tool利用方法修正5.pptx

U50068.indd

スライド 1

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (



R で QTL 解析 以下で R への入力コマンドはゴシック赤字で表記しています # より右はコメントなの で入力の必要はありません 操作を再現する際 タイプミスに注意しましょう データの読み込み qtl ライブラリーを起動し ファイル IN-RIL.csv を読み込みます library(qtl)

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

DSP工法.pdf


広報うちなだ2002年6月号

13

1 2

01-02.{.....o.E.N..


平成28年度第1回高等学校卒業程度認定試験問題(科学と人間生活)

S _次世代冊子All_非アウトライン

サービス付き高齢者向け住宅賠償責任保険.indd

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

汎発性膿庖性乾癬の解明

布に従う しかし サイコロが均質でなく偏っていて の出る確率がひとつひとつ異なっているならば 二項分布でなくなる そこで このような場合に の出る確率が同じであるサイコロをもっている対象者をひとつのグループにまとめてしまえば このグループの中では回数分布は二項分布になる 全グループの合計の分布を求め

研究シリーズ第40号


pg1

文書1

Microsoft PowerPoint - 資料04 重回帰分析.ppt

ESD

Transcription:

遺伝子パスウェイを用いた疾患関連遺伝子群の同定 愛知医大公衆衛生学 西山毅 ( たけし ) nishiyama@minos.ocn.ne.jp

CNV とは 今までは 1 塩基単位の多型 (SNP) を用いるのが主流 巨大塩基配列数 (= コピー数 ) を通常よりも多く持つ人と, 少なく持つ人がいるので, コピー数多型 Copy Number Variation (CNV) と呼ぶ

従来の解析法 : 遺伝子セット法 CNV の頻度は低いので CNV ごとの χ2 乗検定は不可能 case control CNVあり 0.5% 0.1% CNVなし 99.5% 99.9% ある生物学的機能をもつ遺伝子セットを考え, その遺伝子セット内の遺伝子に生じた CNV 数に注目する 遺伝子セット A CNV 数 = 3 遺伝子セット A 以外 CNV 数 = 4

従来の解析法 : 遺伝子セット法 ( 続 ) 遺伝子セット内の遺伝子に生じた CNV 数と, それ以外の遺伝子に生じた CNV 数とを case/ control で比較する case control 遺伝子セット A 3 2 それ以外の遺伝子 4 6 検定は Fisher s exact test で行う (Pinto D, 2010)

遺伝子セット法の欠点 遺伝子セットの定義が恣意的 遺伝子セット間に重複があるので, 解釈が困難 たくさんの遺伝子セットについて検定する多重性の問題 遺伝子パスウェイ中で疾患関連遺伝子の集積場所を同定

遺伝子パスウェイ 統合遺伝子パスウェイ Pathway Commons を使用 以下の 9 つの遺伝子パスウェイデータベースを統合 http://www.pathwaycommons.org/pc 遺伝子数 :13682 個, 遺伝子間相互作用数 :538610 本

遺伝子間の距離 隣接する遺伝子間の距離を 1 とする. 複数の経路がある場合は最短距離をとる. 遺伝子 B 距離 1 距離 1 遺伝子 A 距離 1 遺伝子 C 距離 1 遺伝子 D 距離 2

全遺伝子間距離の分布 全遺伝子ペアの 9 割以上は距離 4 以内でつながる 最大半径 = 4 に設定

ウインドウを Z と記す 提案法の概略 Case Control この場合, 以下の 2 2 表より χ2 乗検定を行う Case Control affected genes in Z 3 2 affected genes outside Z 2 1 all affected genes 5 3

提案法の概略 ( 続 ) すべての遺伝子を中心にして, 半径 0~4 のウインドウ Z について,χ2 乗統計量を計算. 遺伝子数 5 通り 統計量が最大になるウインドウ Z を, もっとも疾患と関連の強いウインドウ =most likely cluster (MLC) とする.

提案法 Case Control affected genes in Z Σx i (Z) Σy i (Z) affected genes outside Z n 1 Σx i (Z) n 0 Σy i (Z) all affected genes n 1 n 0 n 1 :CNV が生じた症例群中の全遺伝子数 n 0 :CNV が生じた対照群中の全遺伝子数 x i (Z):i 番目の症例が,Z 内でCNVを生じた遺伝子数 y i (Z):i 番目の対照が,Z 内でCNVを生じた遺伝子数 ˆ φ ( Z) ˆ case = φ = ˆ( φ Z) = ( x ( Z) / n1, ( Z) y ( Z) / i i control i i x ( Z) y ( Z)) /( n 1 n 0 ) i i + i i + CNV を起こした遺伝子の割合 n 0

提案法 ( 続 ) H 0 :φ case (Z) = φ control (Z) for any Z Z H 1 :φ case (Z) > φ control (Z) for some Z Z 検定量 (Z: a set of windows Z) 遺伝子数の割合の差の検定統計量

たとえば Case Control この場合だと これをすべての Z について計算し最大値をとる

他にも考えられます subjects with at least one affected gene in Z subjects without any affected genes in Z Case Control ΣI(x i (Z)) ΣI(y i (Z)) m 1 ΣI(x i (Z)) m 0 ΣI(y i (Z)) all subjects m 1 m 0 m 1 : 少なくとも 1 つ CNV を生じた遺伝子を有する症例数 m 0 : 少なくとも 1 つ CNV を生じた遺伝子を有する対照数 CNV を起こした人の割合 遺伝子の割合 より検出力が低いことがわかっている Morris AP, Zeggini E. Genet Epidemiol 2010, 34:188-193

並べ替え検定で P 値を求めます Status CNVを生じた遺伝子 被検者 1 case gene1, gene2 被検者 2 case gene1, gene3, gene4 被検者 3 control なし 被検者 4 case gene2 被検者 5 control なし case / control status を並べ替え 999 Permutations of case-control status

サンプルデータ Pinto D. Nature 2010;466:368-72 996 cases ( 広義の自閉症 ) vs. 1287 controls CNV を生じた遺伝子数 case では 4275 個 遺伝子パスウェイ内に限れば 1963 個 control では 4628 個 遺伝子パスウェイ内に限れば 2119 個 control 1963 遺伝子パスウェイ control 2119 遺伝子パスウェイ

解析結果 CNV 全体についての most likely cluster(mlc) P 値 = 5.5% 半径 = 2 クラスターサイズ ( 遺伝子数 )= 745 コピー数減少 (deletion) についての MLC P 値 = 2.5% 半径 = 2 クラスターサイズ = 776 先行研究に一致

AAK1 AASDHPPT ABL2 ACACA ACAT1 ACAT2 ACOT13 ACOX3 ACP1 ACTB ACTN4 ACTR1A ACTR2 ACTR3 ACVR1 ACVR1B ACVR2B ADAM28 ADAR ADCK1 ADCY5 ADK ADRM1 ADSS AFF4 AFP AHCY AHNAK AHSA1 AIFM1 AIMP1 AIMP2 AK2 AKAP9 AKR1B1 AKR7A2 ALDH9A1 ALDOA ALPK3 ANAPC5 ANAPC7 ANP32A ANXA2 AP2A1 AP2B1 AP2M1 APEH APEX1 APRT ARAF ARF6 ARL1 ARPC2 ARPC4 ATAD3B ATF2 ATF7IP ATP5A1 ATP5B ATP5C1 ATP5D ATP5L ATP5O ATP6V1A AURKA AURKB AXIN2 AZI1 AZI2 B2M BANF1 BCAP31 BCAS2 BMP2K BMPR1A BRAF BRD3 BTF3 BTK BTRC BUB3 C12orf23 C1QBP C4orf43 CABC1 CACYBP CAD CALM1 CALR CAMK2B CAMK2D CAMK2G CAMKK2 CAPRIN1 CAPZA1 CAPZB CBR1 CCNA1 CCNH CD3EAP CD81 CD8A CDC37 CDK1 CDK12 CDK13 CDK2 CDK4 CDK5 CDK7 CDK9 CDKN2A CHUK CISD2 CKMT1A CLIC1 CLIC4 CLK1 CLPP CLTC CLU CMPK1 CNBP CNKSR2 CNPY2 COMT COPB2 COPG COPS3 COPS6 COPZ1 CPS1 CPSF6 CRY1 CRY2 CRYZ CS CSDE1 CSF1 CSK CSNK1A1 CSNK1D Csnk1e CSNK1E CSNK1G3 CSNK2A1 CSNK2A2 CSNK2B CSTB CTNNB1 CTPS CUL1 CUL2 CUTA CYB5B CYCS DAD1 DCK DCTPP1 DCUN1D1 DDOST DDT DDX21 DDX3Y DDX5 DFFA DHCR7 DHX36 DHX9 DIABLO DISC1 Dlg4 DLST DNAJA1 DNAJB6 DNAJC8 DNM2 DOK1 DOK2 DRG1 DSG1 DSP DSTN DUSP3 DUT DYNLL1 DYNLRB1 DYRK1A ECH1 ECHS1 EEF1B2 EEF1D EEF1E1 EIF1AX EIF1B EIF2AK1 EIF2AK4 EIF2B1 EIF2S1 EIF2S3 EIF3A EIF3D EIF3E EIF3F EIF3G EIF3H EIF3I EIF3J EIF3K EIF3L EIF3M EIF4G1 EIF4H EIF6 EPHB1 EPHB2 EPHB4 EPRS ERH ERLEC1 ERP29 ESD ETFA EWSR1 EXOSC4 EZR F8 FABP5 FAM110A FAM110B FAM40A FAM83A FAM83H FBLN1 FBXW11 FER FGFR1 FHL1 FKBP3 FRYL FSCN1 FTSJ1 FYN G3BP1 G3BP2 GAK GANAB GAPDH GAPVD1 GARS GCLM GDI1 GDI2 GFPT1 GH1 GHR

MLC と遺伝子セットとの重複による解釈 提案法による MLC の 性格 を, 各遺伝子セットとの重複割合で評価する. 多重性と遺伝子セット間の重複問題を完全に回避 遺伝子セットとして,MSigDB (Molecular Signatures Database) の C2 遺伝子セット (v2.5) を用いた. 遺伝子セット数 : 3272 http://www.broadinstitute.org/gsea/msigdb/index.jsp

Gene Sets Overlapping with MLC at 50% Gene Set Name Overlap Proportion Gene Set Size BIOCARTA_PROTEASOME_PATHWAY 0.63 19 REACTOME_SCF_BETA_TRCP_MEDIATED_DEGRADATION_OF_EMI1 0.58 48 REACTOME_P53_INDEPENDENT_DNA_DAMAGE_RESPONSE 0.58 43 NGO_MALIGNANT_GLIOMA_1P_LOH 0.57 7 REACTOME_CYCLIN_E_ASSOCIATED_EVENTS_DURING_G1_S_TRA 0.57 NSITION 58 REACTOME_SIGNALING_BY_WNT 0.57 58 REACTOME_CYTOSOLIC_TRNA_AMINOACYLATION 0.57 23 REACTOME_SCF_SKP2_MEDIATED_DEGRADATION_OF_P27_P21 0.56 52 REACTOME_VIF_MEDIATED_DEGRADATION_OF_APOBEC3G 0.55 47 BIOCARTA_SRCRPTP_PATHWAY 0.55 11 BIOCARTA_SET_PATHWAY 0.55 11 REACTOME_STABILIZATION_OF_P53 0.54 46 IIZUKA_LIVER_CANCER_PROGRESSION_L0_L1_DN 0.54 13 REACTOME_REGULATION_OF_ORNITHINE_DECARBOXYLASE 0.53 47 KEGG_PROTEASOME 0.52 48 REACTOME_ORC1_REMOVAL_FROM_CHROMATIN 0.51 63 GILMORE_CORE_NFKB_PATHWAY 0.50 10 FIRESTEIN_CTNNB1_PATHWAY_AND_PROLIFERATION 0.50 8 KUROKAWA_LIVER_CANCER_EARLY_RECURRENCE_DN 0.50 6 BIOCARTA_CDMAC_PATHWAY 0.50 16 REACTOME_SHC_MEDIATED_SIGNALLING 0.50 12

Gene Sets Overlapping with MLC at 50%

遺伝子セット法との比較 The 10 most significant gene sets from the ASD dataset for deletions Gene Set Name nominal FDR Holm s p-value q-value p-value NIKOLSKY_BREAST_CANCER_8Q23_Q24_AMPLICON 1.876E-05 0.061 0.061 PEREZ_TP53_TARGETS 9.768E-05 0.078 0.319 REACTOME_RNA_POLYMERASE_I_III_AND_MITOCHONDRIAL 1.026E-04 0.078 0.336 _TRANSCRIPTION ONKEN_UVEAL_MELANOMA_UP 1.065E-04 0.078 0.348 BROWNE_HCMV_INFECTION_24HR_DN 1.187E-04 0.078 0.388 REACTOME_RNA_POLYMERASE_I_PROMOTER_CLEARANCE 1.490E-04 0.081 0.487 BLALOCK_ALZHEIMERS_DISEASE_INCIPIENT_UP 1.937E-04 0.091 0.633 STARK_HYPPOCAMPUS_22Q11_DELETION_DN 0.001 0.218 1.000 KEGG_GAP_JUNCTION 0.001 0.218 1.000 DAIRKEE_TERT_TARGETS_UP 0.001 0.218 1.000 多重比較を補正すれば有意性は消失

シミュレーション設定 病因サブパスウェイ内の遺伝子に1つでもCNVが生じたら, 疾患が生じると想定 病因サブパスウェイ内の複合遺伝子型 g={g 1,g 2,,g M } CNVが生じればg j =1, 生じなければg j =0 g 0 ={0,0,,0} を参照遺伝子型とする g g 0 の場合, RR(g)=P(D=1 g)/p(d=1 g 0 )=γ

γ γ γ + = = ) ( ) (1 ) ( 1) ( g 0 g g P P D P 1) ( 1 1) ( 1) ( ) ( 0) ( = = = = = D P D P D P P D P g g g RR(g) = constant as the risk model in our simulation; say, γ for g g 0 and RR(g)=1 for g = g 0. Thus, for g g 0 RR(g) = constant (γ) for g g 0 and RR(g)=1 for g = g 0. For g g 0 P(D=1) と P(g) が決まれば左辺が定まるシミュレーション設定 ( 続 )

RR(g) = constant as the risk model in our simulation; say, γ for g g 0 and RR(g)=1 for g = g 0. Thus, for g g 0 シミュレーション設定 ( 続 ) 各遺伝子は独立で一定の確率 p で CNV を生じる 生じる CNV 数は 2 項分布に従う P(g i ) M i p p i = (1 ) M i M は病因遺伝子群中の遺伝子数 gi は i 個の遺伝子に CNV が生じた遺伝子型 有病率 P(D = 1) = 0.01 CNV の発生割合 p =1.0 10-4 リスク比 γ = 1.0, 2.0, 3.0, 4.0, 5.0 先の解析で有意であった MLC を true と設定

結果の評価指標 通常の検出力では病因遺伝子群を同定できたか不明 Standard Power = P(H 0 is rejected H 1 ) 帰無仮説を棄却 病因遺伝子群を同定を表す指標 Joint Power = P(H 0 is rejected true gene cluster is detected H 1 )

結果の評価指標 ( 続 ) Joint power は, 真の病因遺伝子群と ぴったり一致 しないと 正解 にカウントされないので, より緩やかな感度と特異度を以下のように定める Sensitivity = P(detected gene cluster true cluster true cluster) Specificity = P(detected gene cluster true cluster true cluster)

シミュレーション結果 Standard/Joint Power, 感度は RR = 3 を超えると頭打ちに 特異度はどのリスク比でも高いまま

結語 病因遺伝子群は遺伝子パスウェイ内で近接していると想定 スキャン統計量を使った解析法を提案 RR=3 以上なら十分な検出力をもつ 提案法により同定した MLC を, 各遺伝子セットとの重複割合で解釈 遺伝子セット法の 遺伝子セット間の重複による解釈の困難と, 複数の遺伝子セットを検定することによる多重性の問題を回避できる

提案法の問題点 1 遺伝子間の距離の定義が恣意的 2 円形のウインドウのみ考慮したが, フレキシブルな形のウインドウを用いる場合は, より効率的なアルゴリズムが必要 3 遺伝子パスウェイの不完全さが, 検定結果にどれくらい影響を及ぼすか不明 BMC Bioinformatics.12: 205 (2011)