SNP & Variation Suite 8 ~ GWAS 解析編 ~ フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp)
Golden Helix 企業概要 アメリカのモンタナ州にて1998 年に設立遺伝子解析のリーダー的企業遺伝子解析ソフトウェアおよび解析サービスを提供世界中に数百の大学 政府研究機関などのクライアントを保有 戦略的パートナー Harvard School of Public Health Affymetrix Gene Chip Compatible Illumina iconnect Charter Partner Agilent Glaxo Smith Kline GeneGo
SNP & Variation Suite (SVS) SVS: マイクロアレイや次世代シークエンス (NGS) データから遺伝学的解析をするソフトウェア Core Features パワフルなデータマネジメント 豊富なビジュアライゼーション機能 強力な統計解析機能 柔軟性 操作性 Applications Genotype Analysis DNA sequence analysis CNV Analysis RNA-seq differential expression Family Based Association GenomeBrowse
SNP & Variation Suite (SVS) 研究 Human genome Plant DNA Animal DNA 医療 疾患の診断や最適な治療オプションの決定における ゲノム情報の利用 教育 遺伝学的解析に要する コンピューターサイエンス 知識の負担を軽減
SNP & Variation Suite 使用例 1 ベーチェット症候群に関連する遺伝子の統計解析に SVS が利用されている Kirino, Y et al. (2013) Targeted resequencing implicates the familial Mediterranean fever gene MEFV and the toll-like receptor 4 gene TLR4 in Behçet disease. PNAS, doi:10.1073/pnas.1306352110.
SNP & Variation Suite 使用例 2 Vitis vinifera L. における遺伝子関連解析に SVS が使用されている Emanuelli, F et al. (2010) A candidate gene association study on muscat flavor in grapevine (Vitis vinifera L.). BMC Plant Biology, 10:241, doi:10.1186/1471-2229-10-241.
SVS はこれまでに 800 件以上の論文で引用されている
SNP & Variation Suite 8 - 基本機能 -
SVS 起動画面 : Welcome Screen A) プロジェクトやチュートリアルへのリンク D) Golden Helix 社テクニカルサポートの連絡先 B) アノテーションやマーカーマップの管理 Helpメニューへのアクセス E) 使用しているライセンス情報 C) 最新のアップデートやバグなどのサポート情報 F) 利用できる機能情報
Project 画面 : Project Navigator A B C A) Project Navigator Window: インポートデータや解析データが表示 B) Node Change Log: 実行した操作のログ情報 C) User Notes: プロジェクトやデータに関するメモを入力
データのインポート 各データフォーマットに最適化されたインポートウィザードを搭載 Affyetrix (CHP, CEL, CNT, CNCHP, CYCHP, etc) Illumina (DSF, Final Report, Matrix Text File, etc) Family Pedigree (FBAT Pedigree/ Phenotype, etc) Agilent Files NimbleGen Data Summary Files Variant Call Format (VCF) Files Complete Genomics Var Files PED/TPED/BED Text Third Party Public Data HapMap Impute2 GWAS Files MACH Output Golden Helix DSF and more
データ画面 : Spread Sheet データは Spreadsheet 形式で表示 Marker Map 情報は緑色のタブで表示
Spread Sheet の編集 柔軟性のあるデータ編集機能 エクセル形式で編集可能 カテゴリーデータのバイナリデータへの変換 行 列の複製や追加 入れ替え 数値や名前の編集 変更点は赤色で表示
その他データ編集機能例 複数の Spreadsheet を統合 : Joining or Merging Spreadsheets Appending Spreadsheets
ゲノムアセンブリ / リファレンス / アノテーショントラック 各生物種のゲノムアセンブリ ( ゲノミックビルド ) の取得や管理をおこなう専用のツールを搭載 リストから任意のデータを選択してダウンロード
ゲノムアセンブリ / リファレンス / アノテーショントラック 各生物種のリファレンスデータやアノテーショントラックの取得や管理をおこなう専用のツールを搭載 リストから任意のデータを選択してダウンロード Information から生物種やデータタイプ 取得するリンク先などを確認できる
ゲノムアセンブリ / リファレンス / アノテーショントラック 対応生物種一覧 Anopheles gambiea PEST Heterocephalus glaber Anopheles S Pimperena Homo Sapiens Arabidopsis thaliana Leishmania infantum JPCMS Bos taurus Macaca mulatta Brassica rapa Mus musculus Caenorhabitis elegans Mycobacterium tuberculosis H37Rv Canis familiaris Nomascus leucogenys Capra hircus Oncorhynchus mykiss Capsicum annuum Oryza sativa Carica papaya Prunus persica Citrullus lanatus Rattus norvegicus Cricetulus griseus Setaria italica Danio rerio Solanum lycopersicum Drosophila melanogaster Solanum tuberosum Equus caballus Sorghum bicolor Eucalyptus grandis Staphylococcus aureus N315 Felis catus Staphylococcus aureus USA 300 FPR3757 Glycine max Sus scrofa Gossypium raimondii Vicugna pacos Gullus gullus Zea mays 上記リスト以外にも パブリックデータベースから取得した生物種のカスタムアノテーションを作成することも可能
クオリティコントロール クオリティコントロール Call rateやmaf, Hardy Weinberg 平衡 (HWE) によるフィルタリング Identity by Descent (IBD) の検証 Population StratificationやBatch effectの検証 Read Depth (DP) やGenotype Quality (GQ), Allelic Depth (AD) によるフィルタリング 多重検定の補正 (Bonferoni, FDR) 外れ値の検証... など
解析アプリケーション : SNP 関連解析 複数の遺伝学モデル 統計検定法 多重比較法に対応し PCA 補正も可能 マンハッタンプロットを簡単に作成可能 インタラクティブなビジュアライゼーション機能により 多面的なデータ検証が可能
解析アプリケーション : CNV 解析 サンプル間での CNV の比較や統計解析が可能 CNV 領域を高精度に検出する CNAM Optimal Segmenting を搭載
解析アプリケーション : LD 解析, Haplotype 解析 複数の連鎖不平衡解析ツールを搭載 ハプロタイプ頻度の推定や関連解析 ハプロタイプブロックの検出が可能 複数の検定法 多重比較法に対応
解析アプリケーション : 遺伝子発現差解析 (DESeq) RNA-seq などのハイスループットシークエンスデータからの遺伝子発現解析が可能 遺伝子発現の統計解析には DESeq を採用 Volcano plot などのプロット作成
解析アプリケーション : Variant のアノテーション付 フィルタリング Variantのアノテーション付 フィルタリング機能 遺伝子のexon 内 / 外にあるバリアントのフィルタリング パブリックデータベース (dbsnpなど) に登録されているバリアントのフィルタリング SIFTやPolyphen2, Mutation tasterなどによるスコアリング フィルタリング PhastConsやPhlyop2などのスコアリング フィルタリング NS Functional Prediction (dbnsfp) によるアノテーション付 フィルタリング パブリックデータベースに未登録のバリアントの検証 アノテーション付 フィルタリング マイクロアレイデータや NGS データでは数十万 ~ 数百万単位の変異データが取得可能 SVS は膨大な変異データにアノテーション付やフィルタリングを実行するツールを多数搭載
解析アプリケーション : Rare variant 関連解析 SVS のレアバリアント関連解析では Combined Multivariate and Collapsing Method (CMC method) や Kernel-Based Adaptive Collapsing Method (KBAC method) によるアプローチが可能 複数の検定法 多重比較法に対応
解析アプリケーション一覧 1 Genotype menu: Genotype Statistics by Marker Genotype Filtering by Marker Genotype Statistics by Sample Quality Assurance Menu: Identity by Descent Estimation Fixation Index Fst Fixation Index Fst (by Marker) GBLUP Genomic Relation Matrix Filter Sample by Call Rates LD Pruning SNP Density Mendelian Error Check Inbreeding Coefficients LD Reports Menu Genotype Principal Component Analysis PBAT Family-Based QA PBAT Genotype Analysis Genotype Association Tests Haplotype Association Tests Haplotype Block Detection Runs of Homozygosity Compute Genomic BLUP (GBLUP) Mixed Linear Model Analysis DNA-Seq menu: Set Genotypes to No-Call based on Additional Spreadsheets Filter based on VCF Quality Metrics Calculate Alt Read Ratio Annotate and Filter Variants Activate Variants by Sample Genotypes Filter Variants in Reference Sample Spreadsheet Subset Informative Genotype by Category Variant Binning by Frequency source Variant Classification Classify by Inheritance Pattern Find de Novo Candidate Variants Score Variants by Recessive Model Score Compound Heterozygous Regions Score Variants by dominant Model Collapsing Methods: Count Variants per Gene CMC with Hotelling T Squared Tests CMC with Regression KBAC with Permutation Testing KBAC with Regression
解析アプリケーション一覧 2 Numeric menu: Numeric Principal Component Analysis Numeric Association Tests Numeric Regression Analysis CNV QA Menu: RNA-Seq menu: Activate Genes by Minimum Read Threshold Normalization and Log Transformation DESeq Analysis Dendrograms and Heatmaps Derivative Log Ratio Spread Percentile Based Winsorizing Wave Detection/ Correction CNAM Optimal Segmenting CNAM Output Analysis Statistics (per Column) Statistics (per Row) Multidimensional Outlier Detection Fishers Exact Test for Binary Predictors 解析アプリケーション要約 Genotype menu: SNPやハプロタイプの関連解析 DNA-Seq menu: バリアントの評価やレアバリアント解析 Numeric menu: CNV 関連解析や回帰分析 主成分分析など各種数値的統計解析 RNA-Seq menu: RNA-seqデータによる遺伝子発現変動解析
ビジュアライゼーション and more 最新の SVS は GenomeBrowse を内蔵し 強力なビジュアライゼーションを実現 SVS のプロットは各種パブリックデータベースとリンクし 詳細な情報を得ることが出来る
プロット作成例 ハプロタイプブロックやボルケノプロット ヒストグラム スキャタープロット ヒートマップなど多数プロット可能
Demonstration - アレイデータを用いた SNP-GWAS 解析 -
Genome Wide Association Study ゲノム上の SNPs を網羅的に検証し 特定の形質と関連性のある SNP を探索する これまでに盛んに研究がなされ 多数の疾患感受性遺伝子が同定されている 図. GWAS 論文件数の推移 * *The National Human Genome Research Institute, Published GWA Reportsより一部改編
Genome Wide Association Study 課題 データの前処理 ( クオリティコントロール ) が多段階からなる : 数十万 数百万単位のマーカーを扱うことから 僅かなエラーでもバイアスとなり得る 多重比較や集団の構造化の問題 : 解析が多段階の検定からなるため 偽陽性が生じてしまう 民族性などに相関する多型が 特定の形質と相関していると誤って解釈されてしまう
SNP-GWAS 解析例 使用するデータ (GEO* に登録されている Affymetrix 500K array データ, 565 例 ) ADS( 自閉症スペクトラム ) 患者 : 282 例 健常者 : 283 例 解析対象 SNP 数 : 499,264 *GEO: Gene Expression Omnibus マイクロアレイや次世代シークエンスデータなどによるゲノム情報を登録したパブリックデータベース SVS によるシームレスな解析 1. クオリティコントロール SNP Call Rate の検証 IBD の検証 集団階層化の検証 SNP の検証 (Call rate, MAF, HWE) 2. SNP 関連解析 遺伝学モデル 統計検定 多重検定の補正 PCA 補正
クオリティコントロール : SNP call rate の検証 Genotype Statistics by Sample: SNP の Call Rate が低いサンプルは DNA の品質および濃度に問題があると考えられる Genotype Statistics Sample で各サンプルの SNP Call Rate を計算して検証する
クオリティコントロール : 各サンプルの SNP call rate 検証 Genotype Statistics Sample で Call Rate の他にもコールされたジェノタイプや Heterozygosity Rate などを算出 SNP Call Rate が 93%~97% 未満が一般的な指標として用いられ 未満だったサンプルは解析から除外される Activate by Threshold により閾値に基づくフィルタリングが可能 : フィルタリングされたサンプルは灰色に表示される フィルタリングしたサンプルのサブセットを作成可能 Heterozygosity Rate を基に レポート上の性別情報と染色体情報から推定される性別情報の一致 不一致も検証し フィルタリングをおこなうことも可能
クオリティコントロール : IBD の検証 Identity by Descent Estimation: ジェノタイプ関連解析では各サンプルが独立であることが基本とされている ( サンプル間に血縁関係などがあるとバイアスの原因となる可能性がある ) 検証の指標として Identity by descent(ibd) が推定される IBD 推定値によりサンプル間のコンタミやサンプルのデュプリケーションも検証される
クオリティコントロール : IBD の検証 サンプル間のコンタミや血縁関係にあることが疑われる IBD 推定値は 0~1 の数字で表される 一般的に推定値が 0.1875 よりも大きい値を示すペアのうち 一方が除外される 図は IBD 推定値をプロットしたグラフ (IBD 推定値が 1 に近い程 赤色に表示されるように設定 ) 同一サンプルの組合せは 1 になるが それ以外で 1 に近い値を示す場合 サンプル間のコンタミや家族関係にあることが示唆される
クオリティコントロール : 集団階層化の検証 Genotype Principal Component Analysis: 集団間の相違に起因する SNP の有意差が, ある形質の有無との関連性に起因していると誤って解釈されることがある ( 集団階層化の問題 ) 集団の階層化の問題の検証に主成分分析 (PCA) が利用される 計算する主成分数や標準化法などを設定可能
クオリティコントロール : 集団階層化の検証 サンプル 白人 アジア人 アフリカ人 PCA で算出した固有値をプロットすることで 視覚的に集団の階層化を検証できる 図ではリファレンスとして HapMap データ ( 白人 アジア人 アフリカ人 ) を含めた PCA をプロットしている サンプル集団は白人種やアジア系およびアフリカ系の 3 集団から構成されていることを示唆している
クオリティコントロール : SNP の検証 (Call rate, MAF, HWE) Genotype Filtering by Marker: ジェノタイピングの不十分もしくはエラーの疑われる SNP を検証する 標準的な操作として, Call Rate, MAF, HWE が評価され Call Rate や MAF の低い SNP, HWE から大きく逸脱する SNP を除外する 一般的には以下の閾値が設定される Call Rate < 0.95, MAF < 0.01 ~ 0.05, HWE < 0.001 ~ 5.7 x 10-7
SNP 関連解析 : 集団間で有意差のある SNP の同定 Full Data 図. 関連解析の遺伝学モデルおよび検定手法例 (D: メジャーアレル, d: マイナーアレル, a~f: ジェノタイプ数 ) 遺伝学モデルにはAdditive, Dominant, Recessive Modelがある Additive Model では DD, Dd, dd を分けて取り扱うのに対し, Dominant および Recessive Model では Dd を DD や dd と一緒にし, 2 グループとして取り扱う 計算方法として Additive Model でトレンドテスト, Dominant や Recessive Model ではカイ二乗検定が用いられる Additive Model (Cochran- Armitage trend test) Dominant Model ((Pearson) Chi-Squared test)) Recessive Model ((Pearson) Chi-Sqared test) ジェノタイプ関連解析に用いられる遺伝学モデル 計算方法
SNP 関連解析 : Genotype Association Test Genotype Association Test により SNP 関連解析を実行 SVS では各種遺伝学モデル 検定手法に対応 遺伝学モデル テスト Additive model Dominant model Recessive model Basic allelic test Genotypic test 検定手法 Correlation/ Trend test Cochran-Armitage Trend test (Pearson) Chi-Squared P-P/ Q-Q plot 用データの作成 and more PCA による補正の設定
SNP 関連解析 : Genotype Association Test 結果 Genotype Association Test: 選択した遺伝学モデル 検定方法に基づいて p-value が計算される P-P/ Q-Q plot オプションを設定しておくと それらのプロットも作成可能
SNP 関連解析 : ビジュアライゼーション (GenomeBrowse) Plot Variable in GenomeBrowse により Manhattan plot を作成できる 図では 6 番染色体上に有意な SNP が多くみられる テーブルアイコン ( 図中赤丸 ) をクリックするとテーブルデータが表示される ( 図中緑枠 )
SNP 関連解析 : ビジュアライゼーション (GenomeBrowse) Plot 中の任意の領域を拡大し リファレンス遺伝子上のどの位置に SNP があるかを確認できる 任意の SNP を選択すると Console にその情報とパブリックデータベースとのリンクが表示される ( 図中青枠 ) テーブル中の任意のデータをクリックしてプロット上の当該箇所にジャンプすることも可能
SVS 機能拡張用アドオン : PBAT PBAT: 家系データに基づく各種解析を可能にするアドオン 各種家系データフォーマットのインポート (PED, TPED, BED, FBAT, Pedigree, and FBAT Phenotype files) Family-based association tests (FBAT) の実行 Family-based SNP Association Family-based CNV Association
SVS は今回ご紹介した以外にも多数の機能を搭載しています ご興味のある方は以下のウェブサイトをご覧ください Filgen: http://www.filgen.jp /Product/Bioscience4/goldenhelix/index.html Golden Helix: http://www.goldenhelix.com /index.html SVS にはデモ版 (14 日間 ) があります ご興味のある方は弊社までご連絡ください Email: biosupport@filgen.jp TEL: 052-624-4388