CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

Similar documents
GWB

GWB

PowerPoint Presentation

リード・ゲノム・アノテーションインポート

NGSデータ解析入門Webセミナー

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

GWB

GWB_RNA-Seq_

PowerPoint プレゼンテーション

RNA-seq

PowerPoint Presentation

RNA-seq

使いこなそう!CLC Genomics Workbench パート1 QCからトリミング

ChIP-seq

次世代シークエンサーを用いたがんクリニカルシークエンス解析

nagasaki_GMT2015_key09

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

AJACS18_ ppt

PowerPoint プレゼンテーション

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

Easy Sep

Maser - User Operation Manual

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

PowerPoint Presentation

スライド 1

PowerPoint プレゼンテーション


Eschartマニュアル

PowerPoint プレゼンテーション

Oracle ESB - レッスン02: CustomerDataバッチCSVファイル・アダプタ

AmpliSeqDataAnalysis

PowerPoint プレゼンテーション

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

PowerPoint プレゼンテーション

eService

Agilent 1色法 2条件比較 繰り返し実験なし

2. 設定画面から 下記の項目について入力を行って下さい Report Type - 閲覧したい利用統計の種類を選択 Database Usage Report: ご契約データベース毎の利用統計 Interface Usage Report: 使用しているインターフェイス * 毎の利用統計 * 専用

バクテリアゲノム解析

スライド 1

Microsoft PowerPoint - Tutorial_6.ppt

2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < Enrichment アプリ > イルミナ株式会社バイオインフォマティクスサ

ThermoFisher

Qlucore_seminar_slide_180604

カスタムアレイ作成の流れ Probe x Probe D Probes Probe Groups Microarray Designs Probe 4 Probe 1 Probe C Probe A Probe w Probe 2 アップロード Probe 3 Probe y Probe B プロー

PrimerArray® Analysis Tool Ver.2.2

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

目次 Ion Reporter 概要とメタゲノム解析 Ion16S Metagenome Kit データ解析概略 解析実行手順 解析実行結果 カスタムプライマー利用時のWorkflow 作成 サポート情報 p.3 p.9 p.14 p.19 p.26 p.35 2

ProQuest PPT Styles

Microsoft Word - CBSNet-It連携ガイドver8.2.doc

(Microsoft PowerPoint -

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

Slide 1

Data Explorerの使い方|国立教育政策研究所 National Institute for Educational Policy Research

Microsoft PowerPoint - Tutorial_2_upd.ppt

<4D F736F F F696E74202D D D E C815B836A F B83582E >

Microsoft Word - SSI_Smart-Trading_QA_ja_ doc

QNAP TurboNAS Container Station 設定手順書

PowerPoint プレゼンテーション

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

MiniTool Partition Wizard Free Edition の使い方 起動画面の右側にある Launch Application のボタンをクリックする Unallocated パーティションの拡張 1. E:(NTFS) のパーティションを選択し ツールバー

ProQuest PPT Styles

目次 ページ 1. 本マニュアルについて 3 2. 動作環境 4 3. ( 前準備 ) ライブラリの解凍と保存 5 4. モデルのインポート 6 5. インポートしたモデルのインピーダンス計算例 8 6. 補足 単シリーズ 単モデルのインポート お問い合わせ先 21 2

PowerPoint プレゼンテーション

141025mishima

Microsoft PowerPoint - 6_TS-0891(TS-0835(Custom TaqMan Assay Design Tool利用方法修正5.pptx

エンドポイント濁度測定装置 LT-16 取扱説明書

機能ゲノム学(第6回)

intra-mart Accel Platform — ViewCreator ユーザ操作ガイド   第6版  

農学生命情報科学特論I

レポートでのデータのフィルタ

Slide 1

ProQuest PPT Styles

FA/LAインストールガイド(トライアル版)

MiSeqのランのセットアップ時・開始時 に起こるトラブルの対処方法

サンプルシート作成ツール: Illumina Experimental Manager(IEM)の使用方法 -最新バージョンIEMv1.15のご紹介-

Microsoft PowerPoint _Spotfire Installation from Scistore.pptx

直接 Reports & Statistics タブへの移動も可能です A. Publication Finder の統計を取得する Publication Finder Reports 1 Publication Finder タブが選択されていることをご確認下さい 2 下記項目を入力して下さい

MSDM_User_Manual_v0.2.1-B-1

図 1 アドインに登録する メニューバーに [BAYONET] が追加されます 登録 : Excel 2007, 2010, 2013 の場合 1 Excel ブックを開きます Excel2007 の場合 左上の Office マークをクリックします 図 2 Office マーク (Excel 20

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

基本設計書

Microsoft Word - NanoPhotometer用PCソフトウエア操作説明書 Rev 1.00.doc

thermofisher.com mirVana miRNA mimics/inhibitors 検索マニュアル

NGS_KAPA RNA HyperPrep Kit

Quick guide_GeneArt Primer and Construct Design Tool_v1(Japanese)

Acrobat Reader DCのインストール・操作方法―Windows 10/8.1/7

Dahua アプリかんたん手順(2) SmartPlayer操作手順書

Microsoft Word - CBESNet-It連携ガイドver8.1.doc

Bioinformatics2


Slide 1


Microsoft PowerPoint - EndNoteWeb-BrainShark_2006Dec07_JPN.ppt

ACD/1D NMR Processor:基本トレーニング

. 起動 目次 P.. ログイン 画面 P.. メニュー 画面 P.. POS 開示 _ 指定店舗 アイテム別 期間合計 画面 ( レポート A) P. 5. POS 開示 _ 店舗別 指定アイテム 期間合計 画面 ( レポート B) ----

MENU 키를 누르면 아래의 화면이 나타납니다

1. はじめに 本書は スプリット演算器 MFS2 用コンフィギュレータソフトウェア の取扱方法 操作手順 注意事項などを説明したものです Windows の操作や用語を理解している方を前提にしています Windows の操作や用語については それぞれのマニュアルを参照してください 1.1. MFS

Transcription:

CLC Genomics Workbench ウェブトレーニングセミナー : 変異解析編 22 nd Dec., 2015 フィルジェン株式会社バイオサイエンス部 biosupport@filgen.jp Dec., 2015_V1 1

本日の内容 データのインポート 3 リファレンスデータの取得 10 データフォーマット 21 解析ワークフロー 22 変異のフィルタリング 77 変異データのエクスポート 79 マニュアルダウンロード 81 セミナー案内 82 Dec., 2015_V1 2

データのインポート 本 workbench は各フォーマットに適したインポーターを用意しています Toolbar の Import アイコンから表示されるインポーターから選択して インポートを実行します 次世代シークエンス以外のデータ アノテーションファイル SAM/BAM ファイル 次世代シークエンスデータ Sanger シークエンスデータ PacBio インポーターは CLC Genome Finishing Module プラグイン ( 有償 ) をインストールすることで 利用できるようになります 同プラグインでは 他にも PacBio シークエンスデータのアセンブルや Genome Finishng 支援ツールが利用できるようになります Dec., 2015_V1 3

データのインポート : illumina Paired reads: ペアリードの場合はチェックする Discard read names: インポート時にリード名を削除 Discard quality scores: インポート時にクオリティスコアを削除 ペアリードの場合 forward と reverse の fastq ファイルを選択 ペアエンドであれば Paired-end メイトペアであれば Mate-pair を選択 Distance に DNA フラグメントのサイズを入力 古いバージョンの illumina ソフトで処理されたデータの場合 該当するバージョンを指定 Dec., 2015_V1 4

データのインポート : Ion Torrent リードファイルを選択 Paired reads: ペアリードの場合はチェックする Discard read names: インポート時にリード名を削除 Discard quality scores: インポート時にクオリティスコアを削除 ペアエンドであれば Paired-end メイトペアであれば Mate-pair を選択 Distance に DNA フラグメントのサイズを入力 sff ファイルのインポートの場合 clipping された情報を使用するか選択可能 Dec., 2015_V1 5

データのインポート : Ion Torrent リードデータインポート : Ion Torrent (Unmapped BAM ファイル ) ご注意 Ion Torrent のシークエンサーデータを処理する Torrent Suit では バージョン 3.0 以降 デフォルトでは fastq ファイルや sff ファイルではなく Unmapped BAM ファイルが作成されます Unmapped BAM ファイルは Import > Standard Import より fastq ファイルと同じようにインポートすることが可能です リードデータとしてインポート マッピングデータとしてインポート Dec., 2015_V1 6

データのインポート リード名 リード配列 クオリティスコア Dec., 2015_V1 7

データのインポート アノテーションファイル 全エクソームやターゲットアンプリコンのサンプル調製キットには キャプチャー領域を指定するアノテーションファイルが各メーカーから ホームページや専用のポータルなどで 提供されています こうしたアノテーションファイルは BED ファイルや GVF ファイルなどのフォーマットとなっており インポートすることが可能です 他にも様々なファイルをインポートすることが可能ですが 対象となるゲノムトラックが必要となります VCF GFF/GTF/GVF BED Wiggle Complete Genomics Var file UCSC Variation table damp Dec., 2015_V1 8

データのインポート アノテーションは Import > Tracks... からインポートします ファイルタイプを選択 (.bed なら BED.gff なら GFF/GTF/GVF を選択 ) インポートするファイルを選択 対象とするリファレンスゲノム配列を選択 Dec., 2015_V1 9

リファレンスデータの取得 Download 機能を使用する方法 or パブリックデータベースなどからダウンロードしたファイルをインポートする方法 Dec., 2015_V1 10

リファレンスデータの取得 : Download 機能の使用 メジャーなモデル生物の各種リファレンスデータは Download Reference Genome Data よりインポートできます Dec., 2015_V1 11

リファレンスデータの取得 : Download 機能の使用 新規にゲノムをダウンロードする場合に選択 アノテーションデータのみを取得する場合に選択 ゲノムデータが予め取得されていることが前提 ドロップダウンリストから生物種を選択 Use existing genome... の場合 ゲノムトラックを設定 Dec., 2015_V1 12

リファレンスデータの取得 : Download 機能の使用 取得するデータにチェック 任意のアノテーションのボックスにチェックを入れます 選択した生物種により 表示されるアノテーションの種類は異なります ; 上図ではヒトを例示しています Dec., 2015_V1 13

リファレンスデータの取得 : Download 機能の使用 NCBI に登録されているデータは Search for Sequences at NCBI... から検索してインポートできます Dec., 2015_V1 14

リファレンスデータの取得 : Download 機能の使用 1. 検索キーワードを入力し Start search をクリック 2. 検索結果から目的の配列を選択し Download and Save で配列をダウンロード 本機能でダウンロードされるデータはスタンドアローン形式なため トラック形式に変換する必要があります ( 後述 ) Dec., 2015_V1 15

リファレンスデータの取得 : Ensembl データのインポート ゲノム配列ファイルへのリンク アノテーションファイルへのリンク Ensembl のダウンロードページ ( http://asia.ensembl.org/info/data/ftp/index.html ) にアクセスし 目的とする生物種の項目から ゲノム配列とアノテーションファイルへのリンクをクリックします リストには最新版が表示されます 古いデータを利用する場合 FTP サイト (ftp://ftp.ensembl.org/pub/) にアクセスし 目的とするバージョンのデータを取得します Dec., 2015_V1 16

リファレンスデータの取得 : Ensembl データのインポート ゲノム配列ファイルは染色体ごとに分割されているため 全てダウンロードする ( 画面右下に X 染色体 Y 染色体 ミトコンドリアの配列データもあります ) ダウンロードしたファイルは Import メニューの Tracks... からインポートする Dec., 2015_V1 17

リファレンスデータの取得 : Ensembl データのインポート 全染色体のデータを選択 一つのゲノムトラックとしてインポートされる 1. Import メニューから Tracks... をクリック 2. Set parameters 画面でファイルタイプを FASTA に指定し インポートするデータを選択 Dec., 2015_V1 18

リファレンスデータの取得 : Ensembl データのインポート アノテーションファイルをダウンロードする 通常 1 つのファイルに全染色体分のデータを含んでいる ダウンロードしたファイルは Import メニューの Tracks... からインポートする Dec., 2015_V1 19

リファレンスデータの取得 : Ensembl データのインポート 各アノテーショントラックが作成される 1. Import メニューから Tracks... をクリック 2. Set parameters 画面でファイルタイプを GFF/GTF/GVF に Reference Track にゲノムトラックを設定してインポートするデータを選択 Dec., 2015_V1 20

データフォーマット データフォーマットはスタンドアローンとトラックの 2 形式があり 基本的にはトラックを使用します 各データフォーマットを変換するツール (Convert To/From Tracks) が用意されています スタンドアローンフォーマット 染色体のセットやリード配列など配列のセット 染色体一本など 1 つの配列 リードマッピング トラックフォーマット 青いヒストグラムが目印 ゲノムトラック アノテーショントラック 変異トラック リード ( マッピング ) トラック Dec., 2015_V1 21

解析ワークフロー : 使用するツール Trim Sequences リードから低クオリティ領域の除去 ( トリミング ) Map Reads to Reference リードのリファレンス配列へのマッピング Local Realignment マッピングリードの補正 Variant Detectors 変異の検出 Annotate with Overlap Information 変異とオーバーラップする遺伝子情報のアノテーション Amino Acid Changes 変異によるアミノ酸置換情報のアノテーション Annotate from Known Variants 既知変異 (dbsnp) 情報のアノテーション Dec., 2015_V1 22

Trim Sequences: 概要 クオリティトリミング Phred Score を基に クオリティの低い領域を除去 正確にコールされなかった塩基を許容する数の設定 アダプタートリミング アダプター配列の除去 ( アダプターリストが必要 ) アダプターリストは Trim Adapter List ツールで作成 シークエンスフィルタリング 指定した塩基数を 5 / 3 末端から削除 クオリティトリミングなどで短くなりすぎた配列の除去 Dec., 2015_V1 23

Trim Sequences: クオリティトリミング原理 クオリティスコア : シークエンサーから取得されるリードの各塩基には エラー確率の値が含まれています このエラー確率の値は Genomics Workbench にインポートされた時点で 以下の式に従って Phred Score に変換されるようになっています PhredScore = 10 log 10 P err Phred Score の値が大きい程 精度が高いことを表しています Phred Score Error の確率 Base call の精度 10 1/10 90% 20 1/100 99% 30 1/1,000 99.9% 40 1/10,000 99.99% 50 1/100,000 99.999% 60 1/1,000,000 99.9999% Dec., 2015_V1 24

Trim Sequences: クオリティトリミング原理 クオリティトリミングでは 累積のクオリティスコアがある一定の値より連続して小さかった場合 その領域を取り除きます 具体的には以下 : 1.Phred Score を p 値へ変換 P err = 10 PhredScore 10 2. トリミング中に設定するパラメーター (Limit) と p 値の差を計算 3. 差の累積和を計算 ; このとき 0 以下の値は 0 となります 4. トリミング後のリード開始点は累積和がはじめて 0 以上になった点 リード終了点は累積和が最大値を示す点になります Dec., 2015_V1 25

Trim Sequences: クオリティトリミング原理 リード配列 G C C C A T G T T C G A T G C Phred score 4 8 15 30 32 23 10 31 31 20 15 11 10 10 9 p 値 0.40 0.16 0.03 0.00 0.00 0.01 0.10 0.00 0.00 0.01 0.03 0.08 0.10 0.10 0.13 Limit - p 値 (D) -0.35-0.11 0.02 0.05 0.05 0.04-0.05 0.05 0.05 0.04 0.02-0.03-0.05-0.05-0.08 (D) の累積和 0.00 0.00 0.02 0.07 0.12 0.16 0.11 0.16 0.21 0.25 0.27 0.24 0.19 0.14 0.06 Limit = 0.05 の場合 スタート点 : 累積和が 0 より大きくなった塩基 終了点 : 累積和が最大を示す塩基 Phred score の棒グラフ 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 グラフにおいて ある程度クオリティが高くなった箇所からリードを使い 連続して悪くなる箇所からリードをトリムしていることが確認できます 途中 1 塩基のみクオリティが低いような場合は 必ずしもトリムされません これにより なるべくリードが長く保たれるようになります Dec., 2015_V1 26

Trim Sequences 1. Toolbox から NGS Core Tools > Trim Sequences を選択 ダブルクリック 2. Select sequence data において リードデータを選択して Next をクリック Dec., 2015_V1 27

Trim Sequences Quality trim: チェックを入れるとQuality trimを実行 ( デフォルトではチェック ) Quality limit: Quality trimにおける閾値を設定 ( デフォルトでは0.05) Ambiguous trim: チェックを入れるとAmbiguous trimを実行 ( デフォルトではチェック ) Ambiguous limit: 許容するambiguous baseの数を設定 ( デフォルトでは2) 3. Quality trimming の各オプションを任意で設定し Next をクリック Dec., 2015_V1 28

Trim Sequences 特定のアダプター配列を除外する場合 アダプターリストを指定 逆相補鎖もアダプター配列の有無を検証する場合はチェック アダプターリストを指定した場合 一致するリード数が表示 4. Adapter trimming において アダプターリストがある場合 Trim adapter list に設定し Next をクリック Dec., 2015_V1 29

Trim Sequences Trim bases: チェックすると 指定した塩基数をリードの 5 / 3 末端から削除 Filter on length: チェックすると 指定した長さより長い / 短いリードを除外 デフォルトではいずれもチェックされていません 5. Sequence filtering の各オプションを任意で設定し Next をクリック Dec., 2015_V1 30

Trim Sequences Save discarded sequences: トリミングにより除去された配列リストの作成 Save broken pairs: ペアリードの一方のリードが削除されたリード配列リストの作成 Create report: トリミング結果をまとめたレポートの作成 ( デフォルトではチェック ) 6. Result handling において データを保存するために Save を選択し Next をクリック 7. Save location for new elements において データの保存先を指定して Finish をクリック Dec., 2015_V1 31

Trim Sequences 低クオリティ領域をカット リードのクオリティが向上 トリミング後のデータは オリジナルとは別のファイルとして出力されます トリミングされたリードには サンプル名の後ろに trimmed と付されます Dec., 2015_V1 32

Map Reads to Reference: 原理 CLC Genomics Workbench において マッピングは 2 つのステップを経ます 1. ローカルアライメント : リファレンス配列と似ている場所を探す Reference Reads 2. フィルタリング : 参照配列との類似性から 維持するリードを決定する Dec., 2015_V1 33

Map Reads to Reference: 原理 ( アライメント ) アライメントにおいて リードはリファレンスとの一致 不一致 (match/mismatch) や挿入 欠失 (insertion/deletion) の数に基づいてスコ アリングされ 最も高いスコアを示す箇所にマップされます リファレンスと一致する塩基につき 1 点が加算され mismatch や insertion/deletion の数だけ そのペナルティコストが引かれていきます マッピングのオプションには Linear gap と Affine gap とがあり それぞれスコアリングが異なります ローカルアライメントのスコアリング例 (Linear gap) リード配列 (20 bp) が全て一致した場合 : 1x20 = 20 Mismatch cost Insertion cost Deletion cost : 2 : 3 : 3 1 塩基ミスマッチがあった場合 : 1x19 2x1 = 17 2 塩基 Insertion があった場合 : 1x20 3x2 = 14 Dec., 2015_V1 34

Map Reads to Reference: 原理 ( アライメント ) Affine gap オプションでは gap を開くときのコスト (open cost) と延長する時のコスト (extend cost) が別々に設定されています Linear gap オプションと比較してより細かくコントロールが可能になり 変異検出において InDel の検出精度が向上する場合があります ローカルアライメントのスコアリング例 (Affine gap) リード配列 (20 bp) が全て一致した場合 : 1x20 = 20 1 塩基ミスマッチがあった場合 : 1x19 2x1 = 17 Mismatch cost Insertion open cost Insertion extend cost Deletion open cost Deletion extend cost : 2 : 6 : 1 : 6 : 1 2 塩基 Insertion があった場合 : 1x20 6x1 1x1 = 13 Dec., 2015_V1 35

Map Reads to Reference: 原理 ( アライメント ) Linear gap と Affine gap Linear gap cost の場合 : Deletion cost = 3 Genome A B Read 50 match AATTCGCGCGGCATTCGCGCC AAATCG----GCATTCGCGCC 50 +6 +4 x(-3) +11 =55 AATTCGCGCGGCATTCGCGCC AAATCG----GCATTCGCGCC 50 +6 =56 Affine gap cost の場合 : Open cost = 6, Extend cost = 1 B AATTCGCGCGGCATTCGCGCC AAATCG----GCATTCGCGCC 50 +6 +(-6) +4 x(-1) +11 =57 Linear gap によるマッピングでは A のようにマッピングすべきような場合でも リードの末端部分をアライメントしない (B のブルーの箇所 ) ほうが ア ライメントスコアが高くなるため 大きな挿入や欠失がうまくマップできていないことがあります Affine gap によるマッピングでは こうした問題を防ぐ ことができます Dec., 2015_V1 36

Map Reads to Reference: 原理 ( フィルタリング ) フィルタリングにより アライメントされたリードの内 いずれを後の解析のために残すかが決定されます フィルタリングには Length と Similarity の 2 つの Fraction が影響します Length Fraction ではフィルタリング時に考慮する長さに関係し Similarity Fraction では Length Fraction で指定した長さにおける類似性の程度に関与します フィルタリング例 リード長 : 100 bp Length Fraction が 0.5( デフォルト値 ): 100 bp x 0.5 = 50 bp Similarity Fraction が 0.8( デフォルト値 ): 50 bp x 0.8 = 40 bp リード長が 100bp の時 デフォルト設定では 40 塩基がリファレンスと完全に一致していればリードは維持される Dec., 2015_V1 37

Map Reads to Reference 1. Toolbox から NGS Core Tools > Map Reads to Reference を選択 ダブルクリック 2. Select sequencing reads 画面でリードデータ ( トリミング済 ) を選択し Next をクリック Dec., 2015_V1 38

Map Reads to Reference リファレンス配列を指定 No masking: マスキングを実施しません ( デフォルト ) Exclude annotated: 特定のアノテーション領域外に対してマッピング Include annotated only: 特定のアノテーション領域に対してのみマッピング Masking track: 特定のアノテーションの指定 3. References にリファレンス配列を設定し Next をクリック 特定のアノテーション領域のみマッピングするような場合 ( マスキングする場合 ) Reference masking オプションを設定します Dec., 2015_V1 39

Map Reads to Reference Mismatch cost: リードの塩基がリファレンスと一致しない場合のペナルティコスト デフォルトでは 2 に設定 Insertion cost: リード配列に insertion があった場合のペナルティコスト デフォルトでは 3 に設定 Deletion cost: リード配列に deletion があった場合のペナルティコスト デフォルトでは 3 に設定 Length fraction: フィルタリング時に考慮する長さの割合 デフォルトでは 0.5 に設定 Similarity fraction: フィルタリング時に考慮される長さの範囲における 類似性 デフォルトでは 0.8 に設定 4. Mapping options で Linear か Affine を選択し その他オプションを任意で設定して Next をクリック Dec., 2015_V1 40

Map Reads to Reference Mismatch cost: リードの塩基がリファレンスと一致しない場合のペナルティコスト デフォルトでは 2 に設定 Insertion open cost: リード配列で insertion が開始される場合のペナルティコスト デフォルトでは 6 に設定 Insertion extended cost: Insertion が伸長される場合のペナルティコスト デフォルトでは 1 に設定 Deletion open cost: リード配列で deletion が開始される場合のペナルティコスト デフォルトでは 6 に設定 Deletion extended cost: Deletion が伸長される場合のペナルティコスト デフォルトでは 1 に設定 Length fraction: フィルタリング時に考慮する長さの割合 デフォルトでは 0.5 に設定 Similarity fraction: フィルタリング時に考慮される長さの範囲における 類似性 デフォルトでは 0.8 に設定 4. Mapping options で Linear か Affine を選択し その他オプションを任意で設定して Next をクリック Dec., 2015_V1 41

Map Reads to Reference Global alignment: チェックが外れている場合 Local alignment を実行 デフォルトでは未チェック Color space alignment: カラースペースによるエラー補正をする場合にチェック デフォルトではチェック済み Color error cost: カラーのエラーコスト デフォルトでは 3 に設定 Auto-detect paired distances: チェックが入っている場合 自動でペアの距離を決定 デフォルトではチェック済み Non-specific match handling: 同一スコアでマップされる個所が複数ある場合のリードの取扱 Map randomly では一箇所に無作為にマップ Ignore ではそうしたリードを無視 ( 除外 ) デフォルトでは Map randomly が選択 4. Mapping options で Linear か Affine を選択し その他オプションを任意で設定して Next をクリック Dec., 2015_V1 42

Map Reads to Reference Create reads track: Track 形式のマッピングデータを作成 デフォルトではチェック済み 基本的には Track 形式を使用 Create stand-alone and mapping: Stand-alone 形式のマッピングデータを作成 Create summary report: 解析結果をまとめたレポートを作成 デフォルトでは未チェック Create list of un-mapped reads: マッピングされなかったリード配列リストを作成 デフォルトでは未チェック 配列リストは De novo など別の解析で利用可能 5. Result handling において データを保存するために Save を選択し Next をクリック 6. Save location for new elements において データの保存先を指定して Finish をクリック Dec., 2015_V1 43

Map Reads to Reference マッピングリードトラック ( サンプル名の後ろに Reads が付されます ) トラック ズームバー ツールバー 縮小して全体を表示 塩基配列が表示されるまで拡大 Dec., 2015_V1 44

Map Reads to Reference 背景に色がついている箇所 : リファレンス配列と異なる箇所 色が薄い箇所 : マッピングされていない領域 (unaligned ends) こうした領域は カバレッジの計算にも考慮されません リードの色は以下を表しています : 緑 : リファレンスのセンス鎖にマップされたリード 赤 : リファレンスのアンチセンス鎖にマップされたリード 青 : ペアとして認識されているリード 黄 : 非特異的にマッピングされたリード Dec., 2015_V1 45

Local Realignment: 原理 マッピングにおいて 各リードは最も高いアライメントスコアを示す場所にマップされます しかし 近傍のマッピング状況から そうした最も高いスコアでアライメントされたマッピングよりも よりもっともらしいマッピングが考えられる場合があります ローカルリアライメントでは よりもっともらしいマッピングを得るように それを部分的に補正します Reference Mapped reads 例えば Aに示すマッピングデータにおいて 上から第 1 2および5 番目のリードは 残りのリードがinsertionしている4 塩基 (GCCG) の領域を支持していません しかし Bのように これら第 1 2および5 番目のリードの4 塩基 (GCCG) を左にずらすと 他のリードと一致し よりもっともらしいマッピングになると考えられます このように ローカルリアライメントでは部分的にマッピングデータを部分的に補正します Dec., 2015_V1 46

Local Realignment 1. Toolbox から NGS Core Tools > Local Realignment を選択 ダブルクリック 2. Select read mapping 画面でマッピングデータを選択し Next をクリック Dec., 2015_V1 47

Local Realignment Realign unaligned ends: チェックした場合 Multi-pass realignment の回数分 unaligned ends の再アライメントを実施 デフォルトではチェックされ Multi-pass realignment に 2 が入力されています Guidance track track: 再アライメント時に 参照データとする変異データトラックを指定可能 dbsnp や InDels and Structural Variant ツールで取得した同一サンプルの SV データ Force realignment to guidance-variants: チェックした場合 再アライメントを 参照データと合致するよう強制的に実施 デフォルトでは未チェック 3. Realignment settings の各オプションを任意で設定し Next をクリック Dec., 2015_V1 48

Local Realignment Create reads track: トラック形式のマッピングデータを作成 デフォルトではこちらが選択 Create stand-alone read mappings: Stand-alone 形式のマッピングデータを作成 Output track of realigned regions: 再アライメント箇所を示すトラックデータを作成 デフォルトでチェック済み 4. Result handling において データを保存するために Save を選択し Next をクリック 5. Save location for new elements において データの保存先を指定して Finish をクリック Dec., 2015_V1 49

Local Realignment ローカルリアライメントされたマッピングトラック ( マッピングトラック名に locally realigned が付されます ) ローカルリアライメントされた領域を示すトラックデータ ローカルリアライメントの統計レポート リファレンスゲノムトラック ローカルリアライメントトラック マッピングリードトラック ( ローカルリアライメント済 ) 上は各トラックを Track List でまとめて表示させたものになります ローカルリアライメントトラックでは 補正された領域が確認できます Track List は Create Track List ツールから作成できます ( 後述 ) Dec., 2015_V1 50

Variant Detectors 変異検出用ツール Basic Variant Detection: 特殊な統計モデルを使用せずに SNV, Small InDel を検出します 設定を調整することで 検出可能な変異に制限を設けずに解析が可能です Fixed Ploidy Variant Detection: 確率モデルを用いてSNV, Small Indelを検出します パラメータで指定したPloidy( 倍数体 ) の値以上のアリルの変異を検出しません カバレッジ中に低頻度 (15% 以下 ) で存在する変異を検出しません Low Frequency Variant Detection: 確率モデルを用いて SNV, Small Indel を検出します カバレッジ中に低頻度で存在する変異の検出が可能です Dec., 2015_V1 51

Variant Detectors Basic Variant Detection: サンプルの倍数性や変異の頻度など データに制限を設けずに変異を検出したい場合に使用 Fixed Ploidy Variant Detection: サンプルの倍数性が既知で シークエンスエラーやマッピングアーティファクトを除外して変異を検出し たい場合に使用 Low Frequency Variant Detection: サンプルの倍数性が未知 または複数のサンプルが混在しており シークエンスエラーを除外して変異 を検出したい場合に使用 Dec., 2015_V1 52

Variant Detectors 1. Toolbox から Resequencing Analysis> Variant Detectors から任意の変異検出ツールを選択 ダブルクリック 2. Select read mappings 画面でマッピングデータ ( ローカルリアライメント済 ) を選択し Next をクリック Dec., 2015_V1 53

Variant Detectors Basic Variant Ploidy: 参照配列の倍数性を設定 Fixed Ploidy Variant Ploidy: 参照配列の倍数性を設定 Required variant probability (%): 変異の事後確率を設定 Low Frequency Variant Required significance (%): 変異がシークエンスエラーによるものでは無いと評価する閾値を設定 3. Variant Parameters の数値を任意で調整し Next をクリック Dec., 2015_V1 54

Variant Detectors Ignore positions with coverage above: 指定した値以上のカバレッジをもつ位置では 変異を検出しません Restrict calling to target regions: 指定した領域内に対してのみ 変異検出を実施します Ignore broken pairs: 変異検出の際 ペアリードの内 一方が失われたリード (broken pair) を無視します Ignore non-specific matches: No: 変異検出の際 非特異的リードを無視しません Reads: 変異検出の際 非特異的リードを無視します Regions: 変異検出の際 Minimum read length で指定した値よりも長い非特異的リードがマップされた場合 その領域から変異をコールしません Minimum coverage: 変異をコールする際に必要となる 最小カバレッジ数を指定します ( デフォルトは 10) Minimum count: 変異をコールする際に必要となる 変異を有するリード数の最小値を指定します ( デフォルトは 2) Minimum frequency (%): 変異をコールする際に必要となる 最低頻度 (count/coverage で計算 デフォルトは 35) Low Frequency Variant Detection ではデフォルトは 1 4. General filters の各オプションを任意に設定し Next をクリック Dec., 2015_V1 55

Variant Detectors Quality filters: 塩基のクオリティに関するフィルターオプション Base quality filter: チェックすると 閾値に基づいてクオリティフィルタリングを実施 Neighborhood radius: 変異部位から検証する範囲 ( 塩基数 ) を指定 ( 必ず奇数 ) Minimum central quality: 変異が有すべき最小クオリティを指定 Minimum neighborhood quality: radius 内における 平均クオリティの最小値を指定 Direction and position filters: マップされたリードの方向 (Forward/ Reverse) に関するフィルターオプション Read direction filter: チェックすると 一方向のリードにのみ多数認められる変異を除外 Direction frequency (%) に 各方向のリードで変異が認められる最小頻度を設定 アンプリコンには適していません Relative read direction filter: チェックすると Read direction filter と同様のフィルタリングを統計的に実施 Significance (%) に閾値を設定 Read position filter: チェックすると リードの方向および変異の位置に基づいて 統計的にフィルタリングを実施 システマチックなエラーを除外することを目的とし ハイブリダイゼーションしたデータにおいて有効 各方向のリードを 5 つのセグメント ( 合計 10 セグメント ) に分割し 変異の分布が予測値とどの程度異なるかを検定 Significance (%) に閾値を設定 5. Noise filters の各オプションを任意に設定し Next をクリック Dec., 2015_V1 56

Variant Detectors Remove pyro-error variants: チェックすると Roche 454 や Ion Torrent などの パイロシークエンサー特有のエラーを除外 In homopolymer regions with minimum length: 除外するホモポリマー領域で検出された InDel の長さの最小値を設定 With frequency below: 除外するホモポリマー領域で検出された InDel のカバレッジ全体に対する最低頻度を設定 5. Noise filters の各オプションを任意に設定し Next をクリック Dec., 2015_V1 57

Variant Detectors Create track: トラック形式の変異データを作成 デフォルトではこちらが選択 Create stand-alone read mappings: Stand-alone 形式の変異データを作成 6. Result handling において データを保存するために Save を選択し Next をクリック 7. Save location for new elements において データの保存先を指定して Finish をクリック Dec., 2015_V1 58

Variant Detectors 変異トラック ( サンプル名の後ろに Variant が付されます ) テーブル表示に切り替え Dec., 2015_V1 59

Variant Detectors Type: 変異の種類 (SNV, Insertion, Deletion など ) Reference: リファレンスの塩基配列 Allele: 検出された塩基配列 Zygosity: 変異の接合性 (HeteroかHomoか) Count : マップされたリードのうち 変異を有するリードの数 Coverage : マップされたリード数 Frequency: 変異の頻度 Chromosome: 変異の検出された染色体番号 Region: 変異の位置 Count および Coverage について : Forward と Reverse リードがオーバーラップする場合 両者を合わせたフラグメントがカウントされます ; 2 リードで 1 フラグメントとなり 1 としてカウントされます Dec., 2015_V1 60

Annotation CLC Genomics Workbench では基本となる変異データに対して アノテーションツールを使用して様々なアノテーションをおこないます 遺伝子情報の付加 アミノ酸置換情報の付加 既知変異情報の付加 基本データ アノテーションデータ Dec., 2015_V1 61

Annotate with Overlap Information 1. Track Tools > Annotate and Filter から Annotate with Overlap Information を選択 ダブルクリック 2. Select a variant track or an annotation track 画面で変異トラックを選択し Next をクリック Dec., 2015_V1 62

Annotate with Overlap Information Gene トラック 3. Overlap track に Gene トラックを指定し Next をクリック Dec., 2015_V1 63

Annotate with Overlap Information 4. Result handling において データを保存するために Save を選択し Next をクリック 5. Save location for new elements において データの保存先を指定して Finish をクリック Dec., 2015_V1 64

Annotate with Overlap Information 変異トラック ( サンプル名に AO が付加されます ) 変異データに 変異とオーバーラップする遺伝子情報が追加されます 青字は外部データベースにリンクしており クリックすることでアクセスします 遺伝子情報 Dec., 2015_V1 65

Amino Acid Changes 1. Resequencing Analysis > Functional Consequences から Amino Acid Changes を選択 ダブルクリック 2. Select variant tracks 画面で変異トラックを選択し Next をクリック Dec., 2015_V1 66

Amino Acid Changes CDS トラックを指定 mrna トラックを指定 ゲノムトラックを指定 Filter synonymous variants: チェックすると 同義性置換の変異を除外 Filter CDS regions with no variants: チェックすると 変異の認められなかった CDS 領域をトラックから除外 Genetic code: 使用する翻訳テーブルの設定 3. CDS mrna ゲノムトラックを設定し その他オプションを任意で設定して Next をクリック Dec., 2015_V1 67

Amino Acid Changes 4. Result handling において データを保存するために Save を選択し Next をクリック 5. Save location for new elements において データの保存先を指定して Finish をクリック Dec., 2015_V1 68

Amino Acid Changes 変異トラック ( サンプル名に AAC が付加されます ) アミノ酸置換や非同義性置換情報が追加されます アミノ酸置換情報 Coding region change: 何番目の塩基が置換したか表示 ( 例. c.[1531t>c]; coding DNAの1531 塩基目がTからCに置換 ) Amino acid change: 何番目のアミノ酸が置換したか表示 ( 例. p.[ser511pro]; タンパク質の511 番アミノ酸がセリンからプロリンに置換 ) Non-synonymous: 非同義置換情報を表示 ( 変異が非同義置換であればYesと表示されます ) ~ in longest transcript: 転写産物が複数あるものの内 最も長い転写産物における置換情報が表示されます Dec., 2015_V1 69

Annotate from Known Variants 1. Resequencing Analysis > Annotate and Filter Variants から Annotate from Known Variants を選択 ダブルクリック 2. Select variant tracks 画面で変異トラックを選択し Next をクリック Dec., 2015_V1 70

Annotate from Known Variants 既知の変異データを指定 Automatically join adjacent MNVs and SNVs: チェックした場合 隣り合う SNV や MNV を一つの MNV とする 3. Known variants track に既知変異トラックを指定し その他オプションを任意に設定して Next をクリック 上の例では既知変異データとして dbsnp を利用しています Dec., 2015_V1 71

Annotate from Known Variants 4. Result handling において データを保存するために Save を選択し Next をクリック 5. Save location for new elements において データの保存先を指定して Finish をクリック Dec., 2015_V1 72

Annotate from Known Variants 変異トラック ( サンプル名に KNOWN が付加されます ) rsid など dbsnp に登録されている情報が追加されます dbsnp 情報 他のデータを指定することで 様々な変異情報を追加することが可能です (HapMap や ClinVar など ) Dec., 2015_V1 73

Create Track List 各解析で取得されるトラックデータをリスト形式にまとめて表示することができます トラックリストは Create Track List ツールを使用することで作成します リストに含めるトラックのゲノムのビルドは一致している必要があります 例えば Hg19 のトラックと Hg38 のトラックを一つのトラックリストにすることはできません Dec., 2015_V1 74

Create Track List 各トラックはドラッグ & ドロップで並び替えることができます Dec., 2015_V1 75

Create Track List 変異トラックをダブルクリックしてテーブルを表示させ 任意の変異をクリクすると グラフ上の当該箇所にジャンプします Dec., 2015_V1 76

変異のフィルタリング 変異テーブルに含まれるアノテーション情報を基に フィルタリングを掛けることが可能です フィルタリングには テーブルにあるフィルター機能を使用します 1 クリック 2 条件設定 + ボタンで条件を追加 ボタンで条件を削除 Filter ボタンでフィルタリングの実行 Dec., 2015_V1 77

変異のフィルタリング : 非同義置換性変異の抽出 条件に一致した変異の数 Non-synoymous を選択 = を選択 Yes を入力 Dec., 2015_V1 78

変異データのエクスポート : サブセットデータの作成 フィルタリング後にそのままデータをエクスポートしても エクスポートデータには全ての変異が含まれてしまいます フィルタリングした変異のみをエクスポートする場合 一度サブセットデータを作成します 以下の例では非同義置換性変異のみのサブセットデータ作成を示しています 1. フィルタリング条件に合致した全データを選択 2. Create Track from Selection をクリック 3. 作成したサブセットを Save アイコンから保存 Dec., 2015_V1 79

変異データのエクスポート ツールバーにある Export アイコンから 様々なファイル形式でデータをエクスポートします 変異データをエクセルファイルとしてエクスポートすることが可能です 1. Export をクリック 2. リストから Excel を選択して Select をクリック 3. ウィザードに従ってデータをエクスポート Dec., 2015_V1 80

マニュアルダウンロード CLC Genomics Workbenchは本セミナーで紹介した以外にも多くの機能を搭載しています マニュアルでは搭載されているツールの機能や詳細が記載されています マニュアルは以下のリンク先より取得できます http://www.clcbio.com/products/clc-genomics-workbench/#download Dec., 2015_V1 81

セミナー案内 Filgen WEB セミナー 2016 年 1 月 29 日 ( 金 ), 16:00~16:40 Protein Lounge Pathway Database 操作ガイド WEB セミナー 2016 年 2 月初旬 CLC Genomics Workbench ウェブトレーニングセミナー : 遺伝子発現解析編 QIAGEN ハンズオントレーニング 2016 年 1 月 20 日 ( 水 ), 東京変異解析 &RNA-Seq 編 詳細の閲覧および参加申し込みは以下のウェブサイトよりおこなってください : http://www.clcbio.co.jp/index.php?id=274 Dec., 2015_V1 82