PowerPoint Presentation

Similar documents
Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx

Slide 1

2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < Enrichment アプリ > イルミナ株式会社バイオインフォマティクスサ

Slide 1

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx

Slide 1

Infinium BeadChip COGS BeadChip 4 * iselect 3 SNP 25 1 SNP NGS Sequencing by Synthesis SBS HiSeq MiSeq WGS 1 RNA-Seq ChIP-Seq 1 1 * icogs BCAC OCAC PR

Slide 1

Microsoft PowerPoint TANAKA Optimizing Clusters passing filter2

Troubleshooting Nextera Sample Preparation

Microsoft PowerPoint - kobayashi-SAV webinar

Slide 1

MiSeq Reporter Software Overview

Slide 1

Microsoft PowerPoint - Final _LibraryQC_andTroubleshooting_August2013

Introduction to Illumina Next Generation Sequencing (NGS)

My Document

Design 1 – Title Slide

サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響

MiSeq Reporter Software Overview

GWAS GWAS GWAS 2 GWAS

BaseSpace

Microsoft PowerPoint _webinar_NextSeq500_bcl2fastq2_Use - コピー.pptx

PowerPoint プレゼンテーション

本日の内容 イントロダクション アダプタートリミング smallrna 例含 クオリティトリミングダウンサンプリングリードの結合手元のFASTQをトリミングするには 2

MiSeqのランのセットアップ時・開始時 に起こるトラブルの対処方法

Microsoft PowerPoint - Webinar_April10_b.pptx

GWB

DNA DNA DNA DNA 0.1 1µg 2 2 PCR

: Genome Analyzer.99 1 SNP Genome Analyzer 1 RNA ID mrna mrna mrna-seq 3 mrna-seqpcr mrna-seq mrna-seq 3: mrna-seq mrna-seq RNA 1 poly-a RNA RNA cdna

PowerPoint プレゼンテーション

Microsoft PowerPoint - LongRangePCR+Nextera webinar (with cover) RevC (本番)

予算申請ウェビナー ウイルス、微生物編

Slide 1

GWB

Slide 1

mRNA-Seq_SamplePrep.book

次世代シークエンサーを用いたがんクリニカルシークエンス解析

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

Slide 1

NGSデータ解析入門Webセミナー

Microsoft PowerPoint - Takafumi-webinar_Illuminas_16S_r2

機能ゲノム学(第6回)

機能ゲノム学(第6回)

Xpand! Plug-In Guide

X-Form Plug-in Guide

特論I

NGS_KAPA RNA HyperPrep Kit

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

Adobe Acrobat DC 製品比較表

111031_Sure Selectカタログ_改訂_最終.indd

GWB

nagasaki_GMT2015_key09

PowerPoint プレゼンテーション

リード・ゲノム・アノテーションインポート

ChIP-seq

Microsoft PowerPoint - Focus error webinar 本番 RevC

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

360_h1_4.ai

Microsoft PowerPoint - 6_TS-0891(TS-0835(Custom TaqMan Assay Design Tool利用方法修正5.pptx

PowerPoint プレゼンテーション

Slide 1

PowerPoint Presentation

BaseSpaceで達成するSmall RNA発現解析

IonTorrentPGM_appnote_0319.indd

Presentation Title Arial 28pt Bold Agilent Blue

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

■リアルタイムPCR実践編

RNA-seq


東京医科歯科大学医歯学研究支援センター illumina Genome Analyzer IIx 利用基準 平成 23 年 10 月 1 日医歯学研究支援センター長制定 ( 趣旨 ) 第 1 条次世代型シークエンサーはヒトを含むあらゆる生物種の全ゲノム配列の決定 全エキソンの変異解析 トランスクリプ

GWB_RNA-Seq_

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

サンプルシート作成ツール: Illumina Experimental Manager(IEM)の使用方法 -最新バージョンIEMv1.15のご紹介-

機能ゲノム学(第6回)

AJACS18_ ppt

Microsoft PowerPoint _illumina_techsupport_session02_公開用_RevB [互換モード]

AWS Client VPN - ユーザーガイド

thermofisher.com mirVana miRNA mimics/inhibitors 検索マニュアル

機能ゲノム学(第6回)

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

PowerPoint Presentation

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

プリント

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

Axygen_16p.indd

初めての方でも大丈夫、クラウドを用いた簡単クリック情報解析

JBOD_2000_3000_series_PRN_PDS_v3.0-JP

Agilent Microarray Total Solution 5 5 RNA-Seq 60 mer DNA in situ DNA 5 2 QC 4200 TapeStation 2100 / mirna CGHCGH+SNP ChIP-on-chip 2 mirna QC


PowerPoint プレゼンテーション

untitled

PrimerArray® Analysis Tool Ver.2.2

Parallels Desktop 7 クイックスタートガイド

Microsoft PowerPoint - 平成22年度第一回_武田.pptx

170508_Falcon16p日本語版【5校】.indd

steponeplus_bro_f-0912.indd

機能ゲノム学(第6回)

農学生命情報科学特論I

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

Transcription:

Introduction to key concepts in Illumina sequencing data analysis イルミナシーケンスデータ解析入門その前に 癸生川絵里 (Eri Kibukawa) Bioinformatics Support Scientist 2012 Illumina, Inc. All rights reserved. Illumina, illuminadx, BaseSpace, BeadArray, BeadXpress, cbot, CSPro, DASL, DesignStudio, Eco, GAIIx, 遺伝子 tic Energy, ゲノム Analyzer, ゲノム Studio, GoldenGate, HiScan, HiSeq, Infinium, iselect, MiSeq, Nextera, Sentrix, SeqMonitor, Solexa, TruSeq, VeraCode, the pumpkin orange color, and the 遺伝子 tic Energy streaming bases design are trademarks or registered trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners.

Agenda イルミナシーケンシング計画 検討事項 データ解析時の背景コンセプト 主要な解析タイプ目的と前提

シーケンスデータ : リード FASTQ 形式ファイルとしてまとめられる FASTQ: 配列とクオリティースコアが含まれるファイル 500 万 ~ 30 億リードの情報が1 回のシーケンシングランで得られる FASTQファイルの例 ; @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13501:2240 1:N:0:CTTGTA TGAAACCAGTGTTCTTAATTGGCATTTTACACACACACACACAGAATTTAAAAAAAAAATCAAAGGAAATCATTCTAAATGTACTATGATAGCATGTTAAA + =55>7;?::BDADDD@EE88DCD?DFFEFFECBE6666BB=B;<;<-34:;<CB51>=BBEE>EE?3D@??CB->:=:AA8DDDDDDBBE9;,=?:/89<E @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13660:2247 1:N:0:CTTGTA CCAAACATTAAGTAACTCTTAAAATGGCACACAGGTTTTAAAGCTATTGGTTTTTCCTTCCTAACTCTCTGAATTTTTCCCCTGGCCTTTGTAGATCAACT + FFEDFBGEGGGGDFGEFFFFGGDF=FBFFFGGGE7CEEDEFBFBFGEEGF@FCDDFDFFEGFEAGFGGGGD.;DDGG@FGE.EBEFGFGFCEFEBEFDEF8 @HWI-BRUNOP20X:994:B809UWABXX:1:1101:13966:2183 1:N:0:CTTGTA TTGGGTAACTTGAATATAACATGGCTCCCTTGCTGTAAGCAAATGTTTTAGAGCTGAATTTTTCCTTTTTTTTTTTTTTTTTTTAAGCCAAGAAGTTCACC + HHHHHEHHHHHHFHHHHHHHHHHHHHHHHHHHGGFHHHHHHHHHHFHHHFHEHHFHEHHHHFHHHFHHHEHEHHHHHHHHHHH@?################

シーケンシング計画 リード数? ペアード (PE) かシングル (SR) か? リード長? これらはあくまでガイドラインが存在するのみ その時々の科学コミュニティーにより基準 標準が提示され るといえる

どの程度のデータ量を設定するのか? 実施したいアプリケーション 必要な検出感度 ゲノムサイズ等 により異なる fewer 総リード数 more ゲノムサイズ 小 大 アプリケーション RNA 発現解析 Whole genome Resequencing De Novo アセンブリ 検出感度 低 高

どの程度のデータ量を設定するのか? ( 例 ) アプリケーション生物種ゲノムサイズカバレッジ必要データ量 リシーケンシング Human 3.4 Gbp 20x 68 Gbp De Novo アセンブル Human 3.4 Gbp 70x 240 Gbp リシーケンシング Arabidopsis 0.125 Gbp 20x 2.5 Gbp De Novo アセンブル RNA-Seq ( 遺伝子発現 ) Arabidopsis 0.125 Gbp 60x 7.5 Gbp Human N/A 必要検出感度 による 5-100 M リード / サンプル

ペアードで実施するかシングルで実施するか? ペアエンド (PE) やシングルリード (SR) シングルリード ペアードエンド 100bp 100bp 100bp library insert library insert ライブラリのインサートサイズから アライメント後の PE のリード間距離がどの程度であるか予め分かり マップ結果と比較し変異検出等に利用することができる 7

ペアードで実施するかシングルで実施するか? ペアエンドはアライメント結果にさらなる情報を加えることができる 100bp ライブラリインサート長 :400 bp 100bp インサートライブラリ + strand アライメント - strand アライメント リファレンスゲノム 400 bp の距離 200 bp gap 8

ペアードで実施するかシングルで実施するか? Application PE or SR? Note SNP 検出 ( リシーケンシング ) SR または PE coverage depth がキー Indel, 構造変異検出 ( リシーケンシング ) PE PE を前提とした検出解析方法のため De Novo ゲノム or トランスクリプトームアセンブル PE アセンブルの際に PE 情報が利用される RNA-Seq ( 発現 ) PE ( あるいはSR) 新規転写産物 遺伝子構造 を決めるためにPE 情報が必 要

リード長はどのように考えたらいいか? 36bp 50bp 100bp 150bp small RNA RNA RNA Indel と 構造変異検出 リシーケンシング De Novo アセンブル ( ゲノムあるいはトランスクリプトーム ) 遺伝子構造決定 ( ゲノムアノテーション ) 10

Coverage depth ゲノム上の位置あたりにマップされたリード数の平均 この図のカバレッジは?

Coverage depth 計算 ゲノム上の位置あたりにマップされたリード数の平均 この図のカバレッジは? - 4.5x ( 例 ) サイズ 0.1 Gbp のゲノムで考えたとき カバレッジ 30x を得るには リード長 100 bp で何リード必要と試算できるか?

Coverage depth 計算 ( 問 ) サイズ 0.1 Gbp のゲノムで考えたとき カバレッジ 30x を得るには リード長 100 bp で何リード必要と試算できるか? ( 解 ) 30 x 0.1Gbp = 3Gbp のデータ量 ( 塩基数 ) が必要 3G bp / 100 bp reads = 30K リード = 3 万リード * 弊社サイト MyIllumina にて Coverage Calculation Tech Note で検索していただきますと より詳細な説明が記載された テクニカルノートをダウンロードいただけます

Coverage depth について考える カバレッジが大きければシーケンスされたサンプル配列の信頼性はあがる例えばカバレッジ = 1 のとき ; これはSNPなのか? シーケンシングエラーなのか? リードが本来の位置でないところにマップされてしまっているのか? ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG

Coverage depth について考える カバレッジが大きければシーケンスされたサンプル配列の信頼性はあがる ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG

例えば SNP 検出 ほとんどの SNP 検出器はこのような違いを SNP としては検出しない しかしながらもしこれらのリードサンプルが癌組織由来である場合は SNP である可能性は増加 ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG

例えば SNP 検出 一般的な SNP 検出器の前提 ; 全てのサンプルはディプロイド ( 二倍体 ) であると仮定 サンプルは最高でも 2 アリルまでであると仮定 allelic ratio は 50-50 程度であると仮定 データ解析に使用するソフトが当該のサンプルタイプと実験タイプに適したものを選ぶ必要がある ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG ACGTTGACGATAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTCAG

18 Key concepts in bioinformatic analysis

イルミナデータ解析の主要 2 タイプ リファレンスシーケンスを使用 リードをつなげてできるだけ正確に長くする ( ゲノム or トランスクリプトーム ) アライメント ( マッピング ) カウンティング De Novo アセンブリ 19

アライメントやリシーケンシングアプリケーション 通常 genomic DNA サンプル ( full genome, enriched, amplicon etc. ) リードをリファレンスゲノム配列に対してアライメント ( マップ ) リファレンスとリードで異なる箇所を検出

ショートリードマッピングには多くのコンピュータ資源が必要 もともとリードがあった ゲノムなど長配列上の位置を探し出す処理 最もリード配列にマッチしたリファレンス配列上の位置にアラインすることになる アライメントプログラムは以下を扱わねばならない 多数のリード配列に対し1つの長いリファレンス ( ターゲット ) 配列マルチプルヒットリードとゲノムとのミスマッチ

ショートリードマッピングには多くのコンピュータ資源が必要 An illustration Aligners_might_place_a_short_sequence_in_many_places_in_the_genome_sequence in en (2) (3) リードが短いと多くの位置にヒットしてしまい位置決めが難しい

ショートリードマッピングには多くのコンピュータ資源が必要 An illustration Aligners_might_place_a_short_sequence_in_many_places_in_the_genome_sequence in (2) in_the (1) en (3) enom (1) リードが短いと多くの位置にヒットしてしまい位置決めが難しい 長くすると多少よくなるが

ショートリードマッピングには多くのコンピュータ資源が必要 An illustration Aligners_might_place_a_short_sequence_in_many_places_in_the_genome_sequence in (2) in_the (1) place (2) en (3) enom (1) sequence (2) リードが短いと多くの位置にヒットしてしまい位置決めが難しい 長くすると多少よくなるが 変わらない場合もある

ショートリードマッピングには多くのコンピュータ資源が必要 An illustration Aligners_might_place_a_short_sequence_in_many_places_in_the_genome_sequence in (2) in_the (1) place (2) placed (0, 2) en (3) enom (1) sequence (2) リードが短いと多くの位置にヒットしてしまい位置決めが難しい 長くすると多少よくなるが 変わらない場合もある ミスマッチの考慮も重要で必要 (SNP 検出などに使われる )

ショートリードマッピングには多くのコンピュータ資源が必要 An illustration Aligners_might_place_a_short_sequence_in_many_places_in_the_genome_sequence in (2) in_the (1) place (2) placed (0, 2) en (3) enom (1) sequence (2) リードが短いと多くの位置にヒットしてしまい位置決めが難しい 長くすると多少よくなるが 変わらない場合もある ミスマッチの考慮も重要で必要 (SNP 検出などに使われる ) in place (1) PE 情報があると助かる

RNA-Seq RNA-Seq 遺伝子発現解析等に使われる 特定の遺伝子領域のリードの存在量が遺伝子転写産物の存在量を示していると考える リード発生量を測定 = カウンティングアプリケーション <RNA-Seq 図 > AAAAA AAAAA AAAAA AAAAA biological sample RNA pool convert to cdna Illumina sample prep sequencing

RNA-Seq RNA-Seq アプリケーションは アライメントから始まる RNA-Seqリードはエクソン領域にアラインされる エクソン領域内 ( エクソンボディー ) にアラインするイントロンをまたいだエクソンスプライスジャンクションにアラインする PE では複数のエクソンやスプライスジャンクションにわたるものにも対応 エクソン リファレンスゲノム リードカウント数が RNA 転写産物量に対応すると考える

RNA Seq 遺伝子発現レベルを比較するための正規化 発現量の計算はそのサンプルがマップされたリード数 総リード数 (coverage depth) に影響される サンプル A depth = 5 (50 Million 総リード ) サンプル B ( コントロール ) depth = 2 25 リード (10 Million 総リード ) サンプルはコントロールに対し 1/2 の遺伝子発現量 10 リード

RNA Seq 遺伝子発現レベルを比較するための正規化 リードカウント数は遺伝子の長さ ( 全 exon の長さ ) にも影響される 長ければ長いほどリードがマップされる数が多くなり易い < 異なる 3 つの遺伝子を想定 > 2 Kb 1 Kb 3 Kb Raw リードカウント 4 4 3 転写産物の長さで正規化後のリード数 2 4 1

De Novo アセンブリ リファレンスゲノムを使わず いちからリード配列をつなぎ合わせて元のゲノムを再構築することがゴール大量のリードを使う (Millions ~ Billions ) リード配列のオーバラップを利用しコンティグを作成する非常に計算リソースを消費する TGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCT ACGTTGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGAT GACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTC GCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCTC De Novo アセンブリはアライメントのアプローチとは全く異なる 参考 : M Baker (2012) De Novo genome assembly: what every biologist should know., Nature Methods 9:333-337 http://www.nature.com/nmeth/journal/v9/n4/full/nmeth.1935.html

De Novo アセンブリ (de Brujin graph) De Novo アセンブリでは全リードを k-mer に分解する ( 特定の長さのサブシーケンス に分解 ) kmer = 10 を適用した場合のイメージ ; TGACGCTAGCGTCTCAGTCTGATCATACAGTACGTTGACGATAGCGTCT TGACGCTAGC GACGCTAGCG ACGCTAGCGT CGCTAGCGTC etc. リード全長にわたり行われる全リードに対して繰り返し行われる 各 kmer の出現は頻度とともに記録される これを全リードに対して行う事で 存在する全ての k-mer とその頻度の詳述を作成 これらの情報を使って de Brujin グラフを構築する

De Novo アセンブリ (de Brujin graph) リード中にある全ての k-mer 間を通る路をみつけることで ゲノム配列をその路として 再構築 小ゲノムサイズの リピートの少ないゲノムで上手くいきやすい概ね50x 以上のカバレッジは必要 de novoアセンブルはアライメントよりずっと多くの計算リソースを消費する ( 計算がクラッシュすることなどは良くある ) de Brujinグラフについては論文 Wikipedia blogなどweb 上に多数の情報あり McComish, Hill, Biggs and Penny. Genome Biol Evol 2010: 2

まとめ イルミナシーケンシング計画 リード数 / リード長 / ペアード (PE) かシングル (SR) か カバレッジ アプリケーション毎の Scientific community 標準と 装置や試薬の対応範囲を参考 データ解析の目的と前提 2つの解析タイプ ( アライメント De Novo アセンブリ ) サンプルタイプにその解析ソフト選択があっているか 解析により得られる結果と意味 バイオインフォマティクスによる結果は仮説に対する 計算上の実験結果であり これを踏まえた上での解釈が必要

Appendix 弊社英語ホームページ www.illumina.com Coverage Calculator Tech Note online コンテンツ : Illumina Technology online コンテンツ : CASAVA 1.8 文献 Bentley et al (2008) Accurate whole human genome sequencing using reversible terminator chemistry. Nature 456: 53-59 弊社日本語ホームページ www.illuminakk.co.jp webinar series 日本語版 Tech Note (* 全ての日本語版があるわけではありません ) 35

ご清聴ありがとうございました ご質問は techsupport@illumina.com でも承ります