2019 年 2 月 14 日臨床ゲノム情報解析ハンズオントレーニング SNP & Variation Suite (GWAS 編 ) フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1
SVS 起動画面の確認 SVS を起動した際に 上の図のように表示されていることをご確認ください 下の図のように ログイン画面や Viewer と表示されている状態では ソフトウェアを使用できません 2
本日使用するデータ GWAS_10samples - データインポートの練習に使用するファイルが格納されている 実際の解析には使用しない Other_files - データインポートの際に必要となるライブラリーファイルなどが収められている SNP_GWAS_Tutorial - 本日解析に使用する あらかじめデータインポート済みの GWAS データが納められている USB メモリで配布した SVS フォルダを PC 上の任意の場所 ( デスクトップなど ) にコピーしてください SVS フォルダ内に 上記 3 つのフォルダが入っていることを確認してください 3
本日使用するデータ SVS 上より Tools -> Open Folder -> AppData Folder をクリックし フォルダを開きます Other_files 内の Mapping250K_Nsp.cdf を AffyLibraryFiles フォルダに Affy 500K Marker Map - na32 2011_07_15.dsm を MarkerMaps フォルダにコピーしてください 4
ゲノムワイド関連解析について A. Observed GWAS SNP B. Untyped Causal SNP C. Disease Outcome ゲノムワイド関連解析 (Genome Wide Association Study: GWAS) では サンプルの表現型 ( 疾患の有無など ) の原因となるマーカー (SNP など ) を見つけることを目的とする SNP マイクロアレイに搭載されていない SNP が疾患の原因となっているような場合は その SNP と連鎖不平衡 (Linkage Disequilibrium: LD) の状態にある SNP により 間接的な関連を調べることもできる 一般的に多数サンプルのゲノムデータを解析に用いるため 解析前のデータのクオリティチェックや複雑な統計学的アルゴリズム 解析結果の精査やビジュアライゼーションが重要となる 5
ゲノムワイド関連解析ワークフロー Import Microarray Data Phenotype Data QC Sample QC Marker QC Test Genotype Association Test Review Manhattan Plot 6
データインポート Import 本事例では Golden Helix 社の提供する SNP GWAS Tutorial 用の下記サンプルデータを使用します 使用するデータ (GEO に登録されている Affymetrix 500K array データ, 565 例 ) QC ADS( 自閉症スペクトラム ) 患者 : 282 例健常者 : 283 例解析対象 SNP 数 : 499,264 Test 上記データをそのままソフトウェアにインポートすると時間がかかるため すでにインポート済みの SNP_GWAS_Tutorial のデータを使用します そのためインポートについては データ量を減らした 10 サンプルのみを使って説明いたします Review 7
プロジェクトの作成 1. メイン画面の Create New Project をクリック 2. 任意のプロジェクト名を入力し またGenome Assemblyが Homo sapiens (Human), GRCh37 (hg19) (2 2009) となっていることを確認したら OK をクリックして プロジェクト画面を開く 8
Genotype データのインポート 1. プロジェクト画面より Import -> Affymetrix -> CHPをクリック 2. CHPファイルのインポート画面で Add Files をクリックし GWAS_10samplesフォルダ内の10 個のCHPファイ ルを選択 3. インポート画面に10 個のファイルが表示されたら OK をクリック 9
Genotype データのインポート 4. Genotypeデータをまとめたシートがプロジェクトに作成される 5. シート右上に シートの行数と列数が表示されるので サンプル数とマーカー数の確認を行う 10
Marker Map の付加 1. Genotypeデータより File -> Apply Genetic Marker Mapをクリック 2. Maker Map 選択画面で Affy 500K Marker Map na32 2011_07_15 を選択して OK をクリック 3. Marker Map Fields 選択画面で 全フィールドが選択されていることを確認して OK をクリック 11
Marker Map の付加 4. Marker Mapが付加されたシートが新たに作成される 5. シート左上の 緑色の Map をクリックすると 各マーカーの詳細情報を確認できる 12
Genotype データの再コード 1. Marker Mapを付加したGenotypeシートを開き Edit -> Recode -> Recode Genotypesをクリック 2. Recode Genotype 画面より Marker Mapに含まれる Reference Alleles A/B フィールドのデータを使用し て再コードを実行するように選択し 現シートの下に新しいシートが作成されるように設定して OK をクリック 13
Genotype データの再コード 3. Genotype データを再コードしたシートが新たに作成される 14
Phenotype データのインポート 1. プロジェクト画面より Import -> Third Partyをクリック 2. Third Partyファイルのインポート画面で Browse をクリックし GWAS_10samplesフォルダ内の Phenotype_data.xlsxファイルを選択 3. Read Genotypic Data のチェックを外し Next をクリック 4. 続くSelect Row Labelsで label columnとして Sample を選択して OK をクリック 15
Phenotype データのインポート 5. Phenotype データをまとめたシートがプロジェクトに作成される 16
この後の解析について この後の説明は すでにインポート済みの SNP_GWAS_Tutorial のデータを使用します メイン画面に戻り Open Existing Project より SNP_GWAS_Tutorial フォルダ内の SNP_GWAS_Tutorial.ghp を選択し プロジェクトデータを開いてください このプロジェクトデータには サンプルの Phenotype データと Genotype データおよび クオリティーチェックに用いる HapMap プロジェクトの Phenotype データと Genotype データが含まれています 17
Quality Control SNP & Variation Suite で使用可能なクオリティコントロール Import QC Test SNP or Sample Call Rate の検証 Hardy Weinberg 平衡 (HWE) の計算 Minor Allele Frequency (MAF) に基づくフィルタリング 連鎖不平衡を示す SNP の除去 集団の階層化 (Population stratification) 性別誤認 (Gender misidentification) の検出 メンデルエラーの検証 ヘテロ接合性の割合の計算 Principal Component Analysis(PCA) Identity by Descent (IBD) の計算 多次元解析による異常値検出 染色体異常スクリーニング... など Review 18
Sample QC Sample QC - Call Rate / Het Rate - Gender Checks - IBD Testing - Principle Component Analysis - Mendelian Error 本トレーニングでは サンプルのフィルターには Call Rate と Gender Checks のみを使用します IBD Testing と Principle Component Analysis は 値の計算とグラフ表示のみを行い データのフィルターには使用しません 19
Genotype Statistics by Sample 1. 500K Geno Training Data を開き Genotype -> Genotype Statistics by Sampleをクリック 2. Gender inference にチェックを入れ Select chromosome to use for gender inference に X で選択 3. Output count and variant statistics for each autosomal chromosome にチェックを入れ Run をクリック 20
Genotype Statistics by Sample 4. サンプルごとの各種クオリティ データをまとめたシートと 各常染色体ごとのデータをまとめたシートがプロジェクトに作成される 21
Call Rate によるサンプルフィルター 1. Statistics by Sample を開き Call Rate (Autosomes) 列のヘッダーを右クリックして メニューより Activate By Threshold をクリック 2. Threshold Value を >= 0.95 と指定し OK をクリック 3. Call Rate (Autosomes) 列の値が 0.95 未満のサンプルが Inactivate されるので 続いて Select -> Row -> Row Subset Spreadsheet より Activate されているサンプルのみのシートを作成 ( シート名 : Sample with Call Rate >= 0.95) 22
シートの結合 1. Sample with Call Rate >= 0.95 を開き File -> Join or Merge Spreadsheetをクリック 2. Navigator Window Chooser で Phenotype - Sheet 1 を選択し OK をクリック 3. Join or Merge Spreadsheets において Spread as Child of の Current spreadsheet が選択さ れていることを確認した後 OK をクリック 23
ヒストグラム表示 1. Samples with Call Rate >= 0.95 + Phenotype - Sheet 1 を開き Het Rate from All columns (Chr. X) 列のヘッダーを右クリックして メニューより Plot Histogram をクリック 2. Het Rate from All columns (Chr. X) 列のデータのヒストグラムが表示される 24
ヒストグラム表示 + 3. データのグループ分けのサイズや Phenotype データに含まれるカテゴリーの色分け表示などの設定を行う 25
性別誤認サンプルのフィルター 1. Samples with Call Rate >= 0.95 + Phenotype - Sheet 1 を開き Select -> Compare and Activate by Column Agreementをクリック 2. Compare Columns にて Add Columns をクリックし Inferred Gender と Gender を選択し OK をクリック 3. Compare Columns にて Row with matching data values と Row with differing data values にチェックを入れ OK をクリック 26
性別誤認サンプルのフィルター 4. 性別データが一致するサンプルと 一致しないサンプルのそれぞれのリストが出力される 27
性別誤認サンプルのフィルター 5. Rows with matching values in columns Inferred Gender and Gender を開き Select -> Apply Current Selection to Second Spreadsheet をクリック 6. Apply Filter to Spreadsheet にて Apply filtered を rows と選択し Select Sheet をクリックして 500K Geno Training Data - Sheet 1 を指定し OK をクリック 7. 新たに作成された 500K Geno Training Data - Sheet 2 を開き Select -> Row -> Row Subset Spreadsheet をクリックして Activate されているサンプルのみのシートを作成 ( シート名 : Subset - Samples with Call Rate >= 0.95 and Matched Gender) 28
Cryptic Relatedness 今回使用しているサンプルデータは すべて血縁関係のないものを用いていますが 隠れた血縁関係を検出するために アレルを同じ祖先から受け継いでいることを示す Identity by Descent (IBD) の計算を行います IBD の計算を行うと サンプル間の血縁関係や サンプルの重複またはコンタミネーションなどを検出することができます IBD の計算は 一般的にはゲノム上の全 SNP を使用するのではなく 連鎖不平衡 (Linkage Disequilibrium: LD) の状態にある SNP を除外し SNP 数を削減してから行います 29
LD Pruning 1. Subset - Samples with Call Rate >= 0.95 and Matched Gender を開き Genotype -> Quality Assurance and Utilities -> LD Pruningをクリック 2. LD Pruning にて Window Size を 100 と指定し OK をクリック 3. 計算が終了したら Select -> Column -> Column Subset Spreadsheetより ActivateされているSNPのみのシートを作成 4. ActivateされているSNPのみのシートより さらにSelect -> Activate by Chromosomesをクリックし X のみ選択を外して OK をクリック ( シート名 : LD Pruned SNP Subset) 30
IBD の計算 1. LD Pruned SNP Subset を開き Genotype -> Quality Assurance and Utilities -> Identity by Descent Estimationをクリック 2. Estimate Identity by Descent にて Output IBS distances ((IBS 2 + 0.5*IBS 1)/# non-missing markers) と Output untransformed estimates of P(Z=0), P(Z=1), and P(Z=2) のチェックを外し Output PI = P(Z=1)/2 + P(Z=2) と Output all pairs where PI >= にチェックを入れ 値を 0 に指定してから Run をクリック 31
IBD の計算 3. ヒートマップ表示に用いる ( サンプル数 )X( サンプル数 ) テーブルの IBD Estimate: Estimated PI シートと 全サンプルにおいてサンプルペアごとの IBD 統計データをまとめた Pairwise IBD Estimates (PI >=0) シートが出力される 32
IBD プロットの表示 1. IBD Estimate: Estimated PI を開き Plot -> Heat Map (Uniform) をクリック 2. ヒートマップが表示される 33
IBD プロットの表示 3. 色彩の表示などの設定を行う 34
Population Stratification GWAS では サンプルの人種 民族などの違いなどを評価するために 主成分分析 (Principal Component Analysis: PCA) が用いられます 本トレーニングでは より人種 民族の違いを分かりやすくするために 解析サンプルのデータに加え HapMap プロジェクトのヨーロッパ アジア アフリカ人のサンプルデータとともに主成分分析を行います 35
シートの統合 1. Pruned SNP Subset を開き File -> Append Spreadsheetsをクリック 2. Navigator Window Chooser で 500K Geno HapMap Data - Sheet 1 を選択し OK をクリック 3. Append Spreadsheets において New Dataset Name に Pruned SNPs + HapMap と入力し た後 OK をクリック 36
Genotype Principal Component Analysis 1. Pruned SNPs + HapMap を開き Genotype -> Genotype Principal Component Analysisをクリック 2. Genotype Principal Component Analysis にて Find up to top の値を 5 に指定してから Run をク リック 37
Genotype Principal Component Analysis 3. 主成分プロット表示に用いる サンプルごとの主成分データをまとめた Principal Components (Additive Model) シートと 各主成分の固有値をまとめた PC Eigenvalues (Additive Model) シートが出力される 38
シートの結合 1. Population - Sheet 1 を開き File -> Join or Merge Spreadsheets をクリック 2. Navigator Window Chooser で Principal Components (Additive Model) を選択し OK をクリック 3. Join or Merge Spreadsheets において Spreadsheet as Child of に Current spreadsheet を選択した後 OK をクリック 39
PCA プロットの表示 1. Population + Principal Components (Additive Model) を開き Plot -> XY Scatter Plotsをクリック 2. XY Scatter Parameters で 左側のX 軸に EV = 35.8391 右側のY 軸に EV = 15.5366 を選択 して Plot をクリック 3. スキャッタープロットが表示される 40
PCA プロットの表示 4. Phenotype データに含まれるカテゴリーの色分け表示などの設定を行う 41
Marker QC Marker QC /Filtering - Call Rate / HWE - Minor Allele Frequency - LD Pruning - Genomic Annotations ここからは Sample QC を行った 500K Geno Training Data - Sheet 2 シートを使用し 引き続き Marker QC を実施します 42
シートの結合 1. Phenotype - Sheet 1 を開き File -> Join or Merge Spreadsheetsをクリック 2. Navigator Window Chooser で 500K Geno Training Data - Sheet 2 を選択し OK をクリック 3. Join or Merge Spreadsheets において デフォルト設定のまま OK をクリック 43
シートの結合 4. PhenotypeデータとGenotypeデータが統合されたシートが作成される 5. その後 新たに作成されたシートより さらにSelect -> Activate by Chromosomesをクリックし X のみ 選択を外して OK をクリック 44
独立変数の選択 1. Phenotype + 500K Geno Training Data - Sheet 1 を開き Phenotype 列のヘッダーをクリック 2. Phenotype 列のデータが赤紫色に着色される 45
Genotype Filtering by Marker 1. Phenotype - 500K Geno Training Data - Sheet 1 を開き Genotype -> Genotype Filtering by Marker をクリック 2. Genotype Filtering by Marker にて Drop if call rate < 0.9 Drop if Minor Allele Frequency (MAF) < 0.01 Perform HWE filtering based on: Controls Drop if Fisher s exact test for HWE P-Value < 0.0001 と指定し Run をクリック 3. Activate されている SNP のみのシートより さらに Select -> Subset Active Data をクリック ( シート名 :Filtered Data for Association Testing) 46
ゲノムワイド関連解析の実行 Import QC Test Review Genomic Model - Basic Allelic Tests - Genotypic Tests - Additive Model - Dominant Model - Recessive Model Test Statistics - Correlation/Trend Test - Armitage Trend Test - Exact Form of Armitage Test - Chi-Squared Test - Fisher s Exact Test - Odds Ratio - Analysis of Deviance - F-test - Logistic Regression - Linear Regression 47
Genetic Model Full Data DD Dd dd Case a b c (D: マイナーアリル d: メジャーアリル a~f: 遺伝型数 ) 頻度の低いアリル ( マイナーアリル ) 数の 疾患への影響に合わせて 遺伝学モデルを選択する Control d e f Additive Model (dd -> Dd -> DD) Dominant Model ((DD + Dd) vs (dd)) Recessive Model ((DD) vs (Dd + dd)) DD Dd dd DD + Dd dd DD Dd + dd Case a b c Control d e f Case a + b c Control d + e f Case a b + c Control d e + f 48
Test Statistics Case/Control, Additive model Case/Control, Dominant model Quantitative, Additive model 本トレーニングでは Case/Control 表現型データを用いた Additive model で計算を実行します 49
Genotype Association Tests 1. Filtered Data for Association Testing を開き Genotype -> Genotype Association Tests をクリック 50
Genotype Association Tests 2. Association Test Parameters タブにて Genetic Model or Tests に Additive model (dd) -> (Dd) -> (DD) Test Statistic or Method に Correlation/Trend test と Exact form of Cochran- Armitage test Multiple Testing Correction に Bonferroni adjustment (on N SNPs) Additional Outputs に Output data for P-P/Q-Q plots とを選択 3. 続いて Overall Marker Statistics タブにて Count Tables の Genotype counts にチェックを入れ Run をクリック 51
Genotype Association Tests 4. 選択したパラメータや解析手法で計算されたデータが 各 SNP ごとにまとめたテーブルとして出力される 52
Q-Q プロットの表示 1. Association Tests (Additive Model) を開き Plot -> XY Scatter Plotsをクリック 2. XY Scatter Parameters で 左側のX 軸に Corr/Trend expected X^2 右側のY 軸に Corr/Trend X^2 を選択して Plot をクリック 3. スキャッタープロットが表示される 53
Q-Q プロットの表示 4. グラフ上の直線の表示などの設定を行う 54
解析データのグラフ表示 Import QC Test Review 本トレーニングでは Genotype Association Tests で計算した SNP ごとの有意確率を ゲノム上にプロットしたマンハッタンプロットを作成します 55
マンハッタンプロットの表示 1. Association Tests (Additive Model) を開き Corr/Trend log10 P 列のヘッダーを右クリックして メニューより Plot Variable in Genome Browse をクリック 2. Corr/Trend log10 P 列のデータをゲノム上にプロットしたグラフが表示される 56
マンハッタンプロットの表示 3. 染色体ごとの色分け表示などの設定を行う 57
お問い合わせ先 : フィルジェン株式会社 TEL: 052-624-4388 (9:00~18:00) FAX: 052-624-4389 E-mail: biosupport@filgen.jp 58