SVS_training_slide_ - PDF Free Download

2019 年 2 月 14 日臨床ゲノム情報解析ハンズオントレーニング SNP & Variation Suite (GWAS 編 ) フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1

SVS 起動画面の確認 SVS を起動した際に上の図のように表示されていることをご確認ください下の図のようにログイン画面や Viewer と表示されている状態ではソフトウェアを使用できません 2

本日使用するデータ GWAS_10samples - データインポートの練習に使用するファイルが格納されている実際の解析には使用しない Other_files - データインポートの際に必要となるライブラリーファイルなどが収められている SNP_GWAS_Tutorial - 本日解析に使用するあらかじめデータインポート済みの GWAS データが納められている USB メモリで配布した SVS フォルダを PC 上の任意の場所 ( デスクトップなど ) にコピーしてください SVS フォルダ内に上記 3 つのフォルダが入っていることを確認してください 3

本日使用するデータ SVS 上より Tools -> Open Folder -> AppData Folder をクリックしフォルダを開きます Other_files 内の Mapping250K_Nsp.cdf を AffyLibraryFiles フォルダに Affy 500K Marker Map - na32 2011_07_15.dsm を MarkerMaps フォルダにコピーしてください 4

ゲノムワイド関連解析について A. Observed GWAS SNP B. Untyped Causal SNP C. Disease Outcome ゲノムワイド関連解析 (Genome Wide Association Study: GWAS) ではサンプルの表現型 ( 疾患の有無など ) の原因となるマーカー (SNP など ) を見つけることを目的とする SNP マイクロアレイに搭載されていない SNP が疾患の原因となっているような場合はその SNP と連鎖不平衡 (Linkage Disequilibrium: LD) の状態にある SNP により間接的な関連を調べることもできる一般的に多数サンプルのゲノムデータを解析に用いるため解析前のデータのクオリティチェックや複雑な統計学的アルゴリズム解析結果の精査やビジュアライゼーションが重要となる 5

ゲノムワイド関連解析ワークフロー Import Microarray Data Phenotype Data QC Sample QC Marker QC Test Genotype Association Test Review Manhattan Plot 6

データインポート Import 本事例では Golden Helix 社の提供する SNP GWAS Tutorial 用の下記サンプルデータを使用します使用するデータ (GEO に登録されている Affymetrix 500K array データ, 565 例 ) QC ADS( 自閉症スペクトラム ) 患者 : 282 例健常者 : 283 例解析対象 SNP 数 : 499,264 Test 上記データをそのままソフトウェアにインポートすると時間がかかるためすでにインポート済みの SNP_GWAS_Tutorial のデータを使用しますそのためインポートについてはデータ量を減らした 10 サンプルのみを使って説明いたします Review 7

プロジェクトの作成 1. メイン画面の Create New Project をクリック 2. 任意のプロジェクト名を入力しまたGenome Assemblyが Homo sapiens (Human), GRCh37 (hg19) (2 2009) となっていることを確認したら OK をクリックしてプロジェクト画面を開く 8

Genotype データのインポート 1. プロジェクト画面より Import -> Affymetrix -> CHPをクリック 2. CHPファイルのインポート画面で Add Files をクリックし GWAS_10samplesフォルダ内の10 個のCHPファイルを選択 3. インポート画面に10 個のファイルが表示されたら OK をクリック 9

Genotype データのインポート 4. Genotypeデータをまとめたシートがプロジェクトに作成される 5. シート右上にシートの行数と列数が表示されるのでサンプル数とマーカー数の確認を行う 10

Marker Map の付加 1. Genotypeデータより File -> Apply Genetic Marker Mapをクリック 2. Maker Map 選択画面で Affy 500K Marker Map na32 2011_07_15 を選択して OK をクリック 3. Marker Map Fields 選択画面で全フィールドが選択されていることを確認して OK をクリック 11

Marker Map の付加 4. Marker Mapが付加されたシートが新たに作成される 5. シート左上の緑色の Map をクリックすると各マーカーの詳細情報を確認できる 12

Genotype データの再コード 1. Marker Mapを付加したGenotypeシートを開き Edit -> Recode -> Recode Genotypesをクリック 2. Recode Genotype 画面より Marker Mapに含まれる Reference Alleles A/B フィールドのデータを使用して再コードを実行するように選択し現シートの下に新しいシートが作成されるように設定して OK をクリック 13

Genotype データの再コード 3. Genotype データを再コードしたシートが新たに作成される 14

Phenotype データのインポート 1. プロジェクト画面より Import -> Third Partyをクリック 2. Third Partyファイルのインポート画面で Browse をクリックし GWAS_10samplesフォルダ内の Phenotype_data.xlsxファイルを選択 3. Read Genotypic Data のチェックを外し Next をクリック 4. 続くSelect Row Labelsで label columnとして Sample を選択して OK をクリック 15

Phenotype データのインポート 5. Phenotype データをまとめたシートがプロジェクトに作成される 16

この後の解析についてこの後の説明はすでにインポート済みの SNP_GWAS_Tutorial のデータを使用しますメイン画面に戻り Open Existing Project より SNP_GWAS_Tutorial フォルダ内の SNP_GWAS_Tutorial.ghp を選択しプロジェクトデータを開いてくださいこのプロジェクトデータにはサンプルの Phenotype データと Genotype データおよびクオリティーチェックに用いる HapMap プロジェクトの Phenotype データと Genotype データが含まれています 17

Quality Control SNP & Variation Suite で使用可能なクオリティコントロール Import QC Test SNP or Sample Call Rate の検証 Hardy Weinberg 平衡 (HWE) の計算 Minor Allele Frequency (MAF) に基づくフィルタリング連鎖不平衡を示す SNP の除去集団の階層化 (Population stratification) 性別誤認 (Gender misidentification) の検出メンデルエラーの検証ヘテロ接合性の割合の計算 Principal Component Analysis(PCA) Identity by Descent (IBD) の計算多次元解析による異常値検出染色体異常スクリーニング... など Review 18

Sample QC Sample QC - Call Rate / Het Rate - Gender Checks - IBD Testing - Principle Component Analysis - Mendelian Error 本トレーニングではサンプルのフィルターには Call Rate と Gender Checks のみを使用します IBD Testing と Principle Component Analysis は値の計算とグラフ表示のみを行いデータのフィルターには使用しません 19

Genotype Statistics by Sample 1. 500K Geno Training Data を開き Genotype -> Genotype Statistics by Sampleをクリック 2. Gender inference にチェックを入れ Select chromosome to use for gender inference に X で選択 3. Output count and variant statistics for each autosomal chromosome にチェックを入れ Run をクリック 20

Genotype Statistics by Sample 4. サンプルごとの各種クオリティデータをまとめたシートと各常染色体ごとのデータをまとめたシートがプロジェクトに作成される 21

Call Rate によるサンプルフィルター 1. Statistics by Sample を開き Call Rate (Autosomes) 列のヘッダーを右クリックしてメニューより Activate By Threshold をクリック 2. Threshold Value を >= 0.95 と指定し OK をクリック 3. Call Rate (Autosomes) 列の値が 0.95 未満のサンプルが Inactivate されるので続いて Select -> Row -> Row Subset Spreadsheet より Activate されているサンプルのみのシートを作成 ( シート名 : Sample with Call Rate >= 0.95) 22

シートの結合 1. Sample with Call Rate >= 0.95 を開き File -> Join or Merge Spreadsheetをクリック 2. Navigator Window Chooser で Phenotype - Sheet 1 を選択し OK をクリック 3. Join or Merge Spreadsheets において Spread as Child of の Current spreadsheet が選択されていることを確認した後 OK をクリック 23

ヒストグラム表示 1. Samples with Call Rate >= 0.95 + Phenotype - Sheet 1 を開き Het Rate from All columns (Chr. X) 列のヘッダーを右クリックしてメニューより Plot Histogram をクリック 2. Het Rate from All columns (Chr. X) 列のデータのヒストグラムが表示される 24

ヒストグラム表示 + 3. データのグループ分けのサイズや Phenotype データに含まれるカテゴリーの色分け表示などの設定を行う 25

性別誤認サンプルのフィルター 1. Samples with Call Rate >= 0.95 + Phenotype - Sheet 1 を開き Select -> Compare and Activate by Column Agreementをクリック 2. Compare Columns にて Add Columns をクリックし Inferred Gender と Gender を選択し OK をクリック 3. Compare Columns にて Row with matching data values と Row with differing data values にチェックを入れ OK をクリック 26

性別誤認サンプルのフィルター 4. 性別データが一致するサンプルと一致しないサンプルのそれぞれのリストが出力される 27

性別誤認サンプルのフィルター 5. Rows with matching values in columns Inferred Gender and Gender を開き Select -> Apply Current Selection to Second Spreadsheet をクリック 6. Apply Filter to Spreadsheet にて Apply filtered を rows と選択し Select Sheet をクリックして 500K Geno Training Data - Sheet 1 を指定し OK をクリック 7. 新たに作成された 500K Geno Training Data - Sheet 2 を開き Select -> Row -> Row Subset Spreadsheet をクリックして Activate されているサンプルのみのシートを作成 ( シート名 : Subset - Samples with Call Rate >= 0.95 and Matched Gender) 28

Cryptic Relatedness 今回使用しているサンプルデータはすべて血縁関係のないものを用いていますが隠れた血縁関係を検出するためにアレルを同じ祖先から受け継いでいることを示す Identity by Descent (IBD) の計算を行います IBD の計算を行うとサンプル間の血縁関係やサンプルの重複またはコンタミネーションなどを検出することができます IBD の計算は一般的にはゲノム上の全 SNP を使用するのではなく連鎖不平衡 (Linkage Disequilibrium: LD) の状態にある SNP を除外し SNP 数を削減してから行います 29

LD Pruning 1. Subset - Samples with Call Rate >= 0.95 and Matched Gender を開き Genotype -> Quality Assurance and Utilities -> LD Pruningをクリック 2. LD Pruning にて Window Size を 100 と指定し OK をクリック 3. 計算が終了したら Select -> Column -> Column Subset Spreadsheetより ActivateされているSNPのみのシートを作成 4. ActivateされているSNPのみのシートよりさらにSelect -> Activate by Chromosomesをクリックし X のみ選択を外して OK をクリック ( シート名 : LD Pruned SNP Subset) 30

IBD の計算 1. LD Pruned SNP Subset を開き Genotype -> Quality Assurance and Utilities -> Identity by Descent Estimationをクリック 2. Estimate Identity by Descent にて Output IBS distances ((IBS 2 + 0.5*IBS 1)/# non-missing markers) と Output untransformed estimates of P(Z=0), P(Z=1), and P(Z=2) のチェックを外し Output PI = P(Z=1)/2 + P(Z=2) と Output all pairs where PI >= にチェックを入れ値を 0 に指定してから Run をクリック 31

IBD の計算 3. ヒートマップ表示に用いる ( サンプル数 )X( サンプル数 ) テーブルの IBD Estimate: Estimated PI シートと全サンプルにおいてサンプルペアごとの IBD 統計データをまとめた Pairwise IBD Estimates (PI >=0) シートが出力される 32

IBD プロットの表示 1. IBD Estimate: Estimated PI を開き Plot -> Heat Map (Uniform) をクリック 2. ヒートマップが表示される 33

IBD プロットの表示 3. 色彩の表示などの設定を行う 34

Population Stratification GWAS ではサンプルの人種民族などの違いなどを評価するために主成分分析 (Principal Component Analysis: PCA) が用いられます本トレーニングではより人種民族の違いを分かりやすくするために解析サンプルのデータに加え HapMap プロジェクトのヨーロッパアジアアフリカ人のサンプルデータとともに主成分分析を行います 35

シートの統合 1. Pruned SNP Subset を開き File -> Append Spreadsheetsをクリック 2. Navigator Window Chooser で 500K Geno HapMap Data - Sheet 1 を選択し OK をクリック 3. Append Spreadsheets において New Dataset Name に Pruned SNPs + HapMap と入力した後 OK をクリック 36

Genotype Principal Component Analysis 1. Pruned SNPs + HapMap を開き Genotype -> Genotype Principal Component Analysisをクリック 2. Genotype Principal Component Analysis にて Find up to top の値を 5 に指定してから Run をクリック 37

Genotype Principal Component Analysis 3. 主成分プロット表示に用いるサンプルごとの主成分データをまとめた Principal Components (Additive Model) シートと各主成分の固有値をまとめた PC Eigenvalues (Additive Model) シートが出力される 38

シートの結合 1. Population - Sheet 1 を開き File -> Join or Merge Spreadsheets をクリック 2. Navigator Window Chooser で Principal Components (Additive Model) を選択し OK をクリック 3. Join or Merge Spreadsheets において Spreadsheet as Child of に Current spreadsheet を選択した後 OK をクリック 39

PCA プロットの表示 1. Population + Principal Components (Additive Model) を開き Plot -> XY Scatter Plotsをクリック 2. XY Scatter Parameters で左側のX 軸に EV = 35.8391 右側のY 軸に EV = 15.5366 を選択して Plot をクリック 3. スキャッタープロットが表示される 40

PCA プロットの表示 4. Phenotype データに含まれるカテゴリーの色分け表示などの設定を行う 41

Marker QC Marker QC /Filtering - Call Rate / HWE - Minor Allele Frequency - LD Pruning - Genomic Annotations ここからは Sample QC を行った 500K Geno Training Data - Sheet 2 シートを使用し引き続き Marker QC を実施します 42

シートの結合 1. Phenotype - Sheet 1 を開き File -> Join or Merge Spreadsheetsをクリック 2. Navigator Window Chooser で 500K Geno Training Data - Sheet 2 を選択し OK をクリック 3. Join or Merge Spreadsheets においてデフォルト設定のまま OK をクリック 43

シートの結合 4. PhenotypeデータとGenotypeデータが統合されたシートが作成される 5. その後新たに作成されたシートよりさらにSelect -> Activate by Chromosomesをクリックし X のみ選択を外して OK をクリック 44

独立変数の選択 1. Phenotype + 500K Geno Training Data - Sheet 1 を開き Phenotype 列のヘッダーをクリック 2. Phenotype 列のデータが赤紫色に着色される 45

Genotype Filtering by Marker 1. Phenotype - 500K Geno Training Data - Sheet 1 を開き Genotype -> Genotype Filtering by Marker をクリック 2. Genotype Filtering by Marker にて Drop if call rate < 0.9 Drop if Minor Allele Frequency (MAF) < 0.01 Perform HWE filtering based on: Controls Drop if Fisher s exact test for HWE P-Value < 0.0001 と指定し Run をクリック 3. Activate されている SNP のみのシートよりさらに Select -> Subset Active Data をクリック ( シート名 :Filtered Data for Association Testing) 46

ゲノムワイド関連解析の実行 Import QC Test Review Genomic Model - Basic Allelic Tests - Genotypic Tests - Additive Model - Dominant Model - Recessive Model Test Statistics - Correlation/Trend Test - Armitage Trend Test - Exact Form of Armitage Test - Chi-Squared Test - Fisher s Exact Test - Odds Ratio - Analysis of Deviance - F-test - Logistic Regression - Linear Regression 47

Genetic Model Full Data DD Dd dd Case a b c (D: マイナーアリル d: メジャーアリル a~f: 遺伝型数 ) 頻度の低いアリル ( マイナーアリル ) 数の疾患への影響に合わせて遺伝学モデルを選択する Control d e f Additive Model (dd -> Dd -> DD) Dominant Model ((DD + Dd) vs (dd)) Recessive Model ((DD) vs (Dd + dd)) DD Dd dd DD + Dd dd DD Dd + dd Case a b c Control d e f Case a + b c Control d + e f Case a b + c Control d e + f 48

Test Statistics Case/Control, Additive model Case/Control, Dominant model Quantitative, Additive model 本トレーニングでは Case/Control 表現型データを用いた Additive model で計算を実行します 49

Genotype Association Tests 1. Filtered Data for Association Testing を開き Genotype -> Genotype Association Tests をクリック 50

Genotype Association Tests 2. Association Test Parameters タブにて Genetic Model or Tests に Additive model (dd) -> (Dd) -> (DD) Test Statistic or Method に Correlation/Trend test と Exact form of Cochran- Armitage test Multiple Testing Correction に Bonferroni adjustment (on N SNPs) Additional Outputs に Output data for P-P/Q-Q plots とを選択 3. 続いて Overall Marker Statistics タブにて Count Tables の Genotype counts にチェックを入れ Run をクリック 51

Genotype Association Tests 4. 選択したパラメータや解析手法で計算されたデータが各 SNP ごとにまとめたテーブルとして出力される 52

Q-Q プロットの表示 1. Association Tests (Additive Model) を開き Plot -> XY Scatter Plotsをクリック 2. XY Scatter Parameters で左側のX 軸に Corr/Trend expected X^2 右側のY 軸に Corr/Trend X^2 を選択して Plot をクリック 3. スキャッタープロットが表示される 53

Q-Q プロットの表示 4. グラフ上の直線の表示などの設定を行う 54

解析データのグラフ表示 Import QC Test Review 本トレーニングでは Genotype Association Tests で計算した SNP ごとの有意確率をゲノム上にプロットしたマンハッタンプロットを作成します 55

マンハッタンプロットの表示 1. Association Tests (Additive Model) を開き Corr/Trend log10 P 列のヘッダーを右クリックしてメニューより Plot Variable in Genome Browse をクリック 2. Corr/Trend log10 P 列のデータをゲノム上にプロットしたグラフが表示される 56

マンハッタンプロットの表示 3. 染色体ごとの色分け表示などの設定を行う 57

お問い合わせ先 : フィルジェン株式会社 TEL: 052-624-4388 (9:00~18:00) FAX: 052-624-4389 E-mail: biosupport@filgen.jp 58