MiSeq を使用した研究計画のご提案 小林孝史 (Takafumi KOBAYASHI, PhD) イルミナ株式会社テクニカルサポート Email:techsupport@illumina.com 2012 Illumina, Inc. All rights reserved. Illumina, illuminadx, BaseSpace, BeadArray, BeadXpress, cbot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium, iselect, MiSeq, Nextera, Sentrix, SeqMonitor, Solexa, TruSeq, VeraCode, the pumpkin orange color, and the Genetic Energy streaming bases design are trademarks or registered trademarks of Illumina, Inc. All other brands and names contained herein are the property of their respective owners.
MiSeq とは? 1 ng~1 µg の DNA(RNA) サンプルから調製したライブラリ イルミナ社のデスクトップ型の次世代シーケンサー (NGS) 2 最大 8Gbases(8,000,000,000bases) の塩基が解析可能! 2012 年 11 月時点 ( 予定 ) 来年にはさらに大きなアウトプット
MiSeq を使用した実験 DNA サンプルの準備と 解析する DNA ライブラリーの作製 Illumina Experiment Manager (IEM) を用いたサンプルシートの作成 MiSeq によるデータ取得 MiSeq Reporter によるデータ解析 3
今回のセミナーの内容 MiSeq 解析の技術的な手法について今回はご説明しません : Sequence-By-Synthesis 法 (SBS) を用います 過去のウェビナーをご参考ください http://www.illuminakk.co.jp/events/webinar_japan.ilmn 今回のセミナーでは Illumina Experiment Manager (IEM) のそれぞれのワークフローに沿って 1) MiSeq による解析でどのような実験が可能なのか? 2) 解析により得られるデータはなにか? 3) 解析の際の注意点は? の 3 つについてご説明します! 4
Illumina Experiment Manager (IEM) とは? IEM: Illumina が開発いたしました MiSeq を用いた実験のデザインを作成できるソフトウェア それぞれの実験デザインに従ってサンプルシートを作成する 過去のウェビナーをご参考ください http://www.illuminakk.co.jp/events/webinar_japan.ilmn 5
MiSeq で検討いただけるさまざまな実験のワークフロー MiSeq と Illumina Experimental Manager と MiSeq Reporter を使えばこんなにたくさんの実験が可能に! 6
MiSeq で可能な実験のワークフロー : DNA RNA 7
MiSeq で可能な実験のワークフロー Small Genome Sequencing DNA RNA 8
ゲノムサイズの大きさ DNA のシーケンス解析の例 スモールゲノムシーケンシング De novo アッセンブリー リシーケンシング 多サンプル解析が可能 ターゲットリシーケンシング TruSeq/Nextera Enrichment TruSeq Amplicon Nextera XT 9
MiSeq で可能な実験のワークフロー Assembly DNA RNA 10
スモールゲノムシーケンス De novo アッセンブリ De novo アッセンブリ とは? 参照配列を使用せずにデータをつなぎ合わせて配列を解析すること 小さいゲノム (<10 Mb) を持つ生物種に有効 大腸菌 (Esherichia coli) ウイルス 応用例 微生物やウイルスの全配列を決定する 微生物やウイルスのエキソーム解析 全配列が明らかにされていない生物の配列 BAC/YAC スクリーニング 相同性組み替え 挿入配列 欠失配列などの解析 スモールゲノムシーケンシング De novo アッセンブリー リシーケンシング 11
スモールゲノムシーケンス De novo アッセンブリ 実験から得られる生データ データをつなぎ合わせた微生物の全ゲノム配列のファイル (contigのfastaファイル) 同定された配列と既知の生物のゲノム配列との比較 Protocol サンプル調製キット必要な DNA 量解析モード TruSeq DNA sample prep 1 µg ゲノム DNA Nextera DNA sample prep 50 ng ゲノム DNA De novo Nextera XT sample prep 1 ng ゲノム DNA 12
スモールゲノムシーケンス De novo アッセンブリ 注意点 サイズの大きい生物種に関しては検討が必要 (MiSeq 解析のデータ量は8Gbases) 線虫 (Ceanorhabditis elegans) の全ゲノム配列の決定 (100 Mbases): 大きすぎ 出芽酵母 (Saccharomyces cerevisiae) の全ゲノム配列の決定 (12.1 Mbases): やや大きい 大腸菌 (Esherichia coli) の全ゲノム配列の決定 (4.6 Mbases): 解析可能 データベースなどから取得する参照配列は ( 基本的に ) 不必要 参照先に指定することも可能 長い挿入配列や欠失の解析が容易になる MiSeqに付設のMiSeq Reporter (MSR) でつなげあわせた配列を作成 他のデータ解析ツールを使用する前に大まかにデータ解析ができる ただし 複数のRunのデータをMSRで使用することはできない 13
MiSeq で可能な実験のワークフロー Resequencing/Plasmids DNA RNA 14
リシーケンシング 全ゲノム配列のシーケンシング (WGS) リシーケンシングとは? データベースなどの既知の配列情報をもとに解析 小さいゲノムサイズの生物種 ( 250 Mbases) に最適 応用例 ショウジョウバエ (Drosophila melanogaster) : ~120 Mbases シロイヌナズナ (Arabidopsis thaliana): ~115 Mbases 線虫 (Caenorhabditis elegans): ~100 Mbases 菌類 : ~ 30 Mbases 酵母 : ~ 12 Mbases バクテリア : 0.5-10 Mbases ウイルス : 3 kbases-1.3 Mbases SNP 解析 De novo アセンブリデータの確認 (contig の FASTA 配列の確認 ) 網羅的な挿入 欠失配列の同定 スモールゲノムシーケンシング De novo アッセンブリー リシーケンシング 15
リシーケンシング 全ゲノム配列のシーケンシング (WGS) 実験から得られる生データ bam ファイルと vcf ファイル SNP の解析と 挿入 欠失配列の解析 Protocol サンプル調製キット必要な DNA 量解析モード TruSeq DNA sample prep 1 µg ゲノム DNA Nextera DNA sample prep 50 ng ゲノム DNA Resequencing Nextera XT sample prep kit 1 ng ゲノム DNA 16
リシーケンシング 全ゲノム配列のシーケンシング (WGS) 注意点 参照する配列のデータ が必要 サンプルの生物種のゲノムサイズを確認する 同じ配列を何回読めばよいか ( カバレッジ )? MiSeqで取得できる最大のデータ量は8 Gbases! 265Mbasesのゲノムサイズを ~30xのカバレッジで解析できる ヒトゲノムを2.4xのカバレッジで解析できる http://www.illumina.com/documents/products/technotes/technote_coverage_calculation.pdf 17
MiSeq で可能な実験のワークフロー Targeted Sequencing DNA RNA 18
ゲノムサイズの大きさ ターゲット Reseq ターゲット配列の大きさとカバレッジ スモールゲノムシーケンシング De novo アッセンブリー リシーケンシング 多サンプル解析が可能 ターゲットリシーケンシング TruSeq/Nextera Enrichment TruSeq Amplicon Nextera XT 19
ターゲット配列の大きさ ターゲット Reseq ターゲット配列の大きさとカバレッジ TruSeq/Nextera Enrichment TruSeq Amplicon Nextera XT カバレッジ数 20
MiSeq で可能な実験のワークフロー Targeted Sequencing DNA RNA 21
ターゲットリシーケンス TruSeq Exome/Custom Enrichment ( 数千ターゲットに適応 ) TruSeq Enrichment に適した実験とは? ヒトゲノムの目的の一部の配列を解析する TruSeq DNA kit で作製されたライブラリを解析する (TruSeq DNA kit が必要 ) ビーズ精製により目的の領域を回収する プローブに結合するビーズは TruSeq Exome kit あるいは TruSeq Custom Enrichment kits に含まれる 応用例 変異解析 バリデーション スクリーニング Design Studioで作成したプローブを用いる TruSeq Exome Enrichment = Illuminaで設計済み TruSeq Custom Enrichment = ご自身で設計 22
ターゲットリシーケンシング TruSeq Exome/Custom Enrichment ( 数千ターゲットに適応 ) 実験から得られる生データ SNP 情報 小さい挿入 欠失配列 ゲノムの一部に集中した配列情報 62 Mb (exome enrichment) 700 Kb 15 Mb (custom enrichment) 参照するゲノム配列が必要 ( ヒトゲノム ) Protocol 使用する kit 必要な DNA 量解析モード TruSeq DNA sample prep + TruSeq Exome Enrichment TruSeq DNA sample prep + TruSeq Custom Enrichment 1µg ゲノム DNA/ サンプル Enrichment 23
ターゲットリシーケンシング Nextera Exome/Custom Enrichment ( 数千ターゲットに適応 ) Nextera Exome / Custom Enrichment に適した実験とは? ヒトゲノムの一部の配列を解析する Nextera kitで作製したライブラリを解析する ビーズ精製により目的の領域を回収 Nextera Exome / Custom Enrichment kitsだけあれば解析可能! 応用例 変異解析 バリデーション スクリーニング Design Studioで作成したプローブを使用 Nextera Exome Enrichment = Illuminaで設計済み Nextera Custom Enrichment = ご自身で設計 24
ターゲットリシーケンシング Nextera Exome/Custom Enrichment ( 数千ターゲットに適応 ) 実験から得られる生データ SNP 情報 小さい挿入 欠失配列 ゲノム中の目的の配列情報のみ解析 62 Mb (exome enrichment) 500 Kb 25 Mb (custom enrichment) 参照配列が必要 ( ヒトゲノム ) Protocol 使用する kit 必要な DNA 量解析モード Nextera Exome Enrichment Nextera Custom Enrichment 50 ng DNA/ サンプル Enrichment 25
ターゲットリシーケンシング TruSeq/Nextera Exome or Custom Enrichment ( 数千ターゲットに適応 ) 注意点 現在はヒトゲノム由来のサンプルにのみ対応 カバレッジ 何回同じ配列を解析するか? 62 Mbases をexome enrichmentで解析 = 130xカバレッジ 25 Mbases 500 Kbases をcustom enrichmentで解析 = 320x 16,000xカバレッジ FASTQ 配列のみ得られる 付属のMiSeq Reporterにより配列比較が可能 参照配列かNextera 用のマニフェスト配列が必要 http://www.illumina.com/documents//products/technotes/technote_optimizing_coverage _for_targeted_resequencing.pdf 26
MiSeq で可能な実験のワークフロー TruSeq Amplicon DNA RNA 27
ターゲットリシーケンシング TruSeq Amplicon ( 数十 百ターゲットに適応 ) TruSeq Amplicon とは? Extension-ligationを介して目的のターゲット領域を解析 Design Studioを使用してプローブ領域を設計する TruSeq Custom Amplicon (TSCA): ご自身で設計 TruSeq Amplicon Cancer Panel (TSACP) :Illuminaが設計 ターゲット領域のみ配列比較が可能 ( 全ゲノム領域ではない ) Design Studioでマニフェストファイルを作成 応用例 変異解析 バリデーション スクリーニング ターゲットとなる目的の小さい領域へのアプローチが可能 28
ターゲットリシーケンシング TruSeq Amplicon ( 数十 百ターゲットに適応 ) 実験から得られる生データ SNP 情報 小さい挿入 欠失配列 ゲノム中の小領域 (12 650 Kbases) にターゲットを絞る (48 1536アンプリコン ) 96サンプル中にそれぞれ48アンプリコン ~ 平均 7000xカバレッジ 24サンプル中にそれぞれ1536アンプリコン ~ 平均 500xカバレッジ 96サンプル中にそれぞれ1536アンプリコン ~ 平均 130xカバレッジ Protocol 使用するキット必要な DNA 量解析モード TruSeq Custom Amplicon (TSCA) TruSeq Amplicon Cancer Panel (TSACP) 150-250 ng DNA / サンプル Custom Amplicon 29
ターゲットリシーケンシング TruSeq Amplicon ( 数十 百ターゲットに適応 ) 考察 PCRアンプリコンのシーケンス方法とは異なる 現在はヒト ラット マウス ウシに対応 ターゲット配列は150bp, 175bp, 250bp or 425bp Design Studioを用いたサンプル調製を想定 配列比較と変異解析にはMiSeq Reporter (MSR) でマニフェストファイルが必要 データはAmplicon Viewerにてご自身のPCで参照可能 30
MiSeq で可能な実験のワークフロー PCR Amplicon DNA RNA 31
ターゲットリシーケンシング Nextera XT ( 複数のターゲットに対応 ) Nextera XT とは? PCRアンプリコン特異的な方法 Small genomeとプラスミドに適応可能 超微量サンプル (1 ng) から解析可能 応用例 集団遺伝学解析 血清中のウイルスの量や種類の同定 高スループットの薬剤スクリーニング ノックアウトスクリーニング FFPEサンプルや凍結した癌組織の解析 大きな容量のサンプルからのジェノタイピング 32
ターゲットリシーケンシング Nextera XT ( 複数のターゲットに対応 ) 実験から得られる生データ SNPや小さい挿入 欠失配列の同定 全ゲノム配列ではなく 目的の配列のみと配列比較 マニフェストファイル Illumina Experiment Manager (IEM) で設計 Protocol サンプル調製キット必要な DNA 量解析モード Nextera XT sample prep 1 ng PCR Amplicon 33
ターゲットリシーケンシング Nextera XT ( 複数のターゲットに対応 ) 考察 PCR アンプリコンを使用する際には 300 bp 以上の長さが必要 最適な PCR amplicon の長さは >2000 bp Bulletin を参照 : How to use Nextera XT with PCR Amplicons https://icom.illumina.com/myillumina/bulletin/kttc2xxykk6ju9z4jcb2rw/how-to-usenextera-xt-with-pcr-amplicons Nextera XT ライブラリは Read のはじめに配列の多様性の高い塩基を含む必要 下記リンクを参照 : https://icom.illumina.com/myillumina/bulletin/cc6za4-hlempi09-iubi_w/how-can-iimprove-the-data-quality-of-my-pcr-ampli 34
MiSeq で可能な実験のワークフロー Clone Checking DNA RNA 35
ターゲットリシーケンシング Clone Checking Clone Checking とは? プラスミドやベクターの配列を解析する PCR 産物やプラスミド DNA の調製が必要 応用例 変異解析 プラスミドやベクターのインサート配列の解析 形質転換や導入効率のチェック 36
ターゲットリシーケンシング Clone Checking 実験から得られる生データ 標的サンプルのFASTQ 配列 MiSeq Reporter (MSR) で参照配列との比較と変異解析 bamファイルとvcfファイル Protocol 使用する kit 必要な DNA 量 Nextera XT sample prep 1 ng DNA MiSeq reporter のモード Clone checking (FASTQ) 37
ターゲットリシーケンシング Clone Checking 注意点 配列比較や変異解析のためにはデータベースなどから参照配列 (FASTA ファイル ) が必要 どれほどのカバレッジが必要か? 多サンプル解析での解析が可能か? 38
MiSeq で可能な実験のワークフロー Metagenomics 16S rrna DNA RNA 39
ターゲットリシーケンシング 16S Metagenomics 16S メタゲノミクスとは? 環境サンプルから直接 DNA を回収して微生物の解析を行う 16S rrna 配列から多様性のプロファイルを解析 応用例 環境試験 動物の検査 プラスミド http://www.illuminakk.co.jp/document/pdf/ publication_metagenome-j.pdf 40
ターゲットリシーケンシング 16S Metagenomics 実験から得られる生データ 解析された配列により下記の分類学的なクラスを同定できる 界 (Kingdom) 門 (Phylum) 綱 (Class) 目 (Order) 科 (Family) 属 (Genus) Protocol サンプル調製キット必要な DNA 量解析モード TruSeq DNA sample prep - 16S Nextera DNA sample prep - Metagenomics 41
ターゲットリシーケンシング 16S Metagenomics 注意点 サンプル調製の方法について Illumina 公式のプロトコールはございません 過去の論文データを参照ください ( 先ほど紹介いたしました冊子に掲載 ) Caporaso JG, Lauber CL, Walters WA, Berg-Lyons D, Lozupone CA,et al. (2011) Global patterns of 16S rrna diversity at a depth of millions of sequences per sample. Proc Natl Acad Sci USA 108:4516 4522. Caporaso JG, Lauber CL, Walters WA, Berg-Lyons D, Huntley J, et al. (2012) Ultra-high-throughput microbial community analysis on the Illumina HiSeq and MiSeq platforms. The ISME Journal 1-4 多様性のないサンプル データのクオリティーを上げるために PhiX( 目安として 30-50%) を加えることを検討 42
MiSeq で可能な実験のワークフロー Others DNA RNA 43
MiSeq で可能な実験のワークフロー ChiP Seq DNA RNA 44
ChIP DNA-Seq ChiP DNA シーケンシングとは? クロマチン共沈法 (ChiP) で回収された DNA をシーケンスする方法 応用例 タンパク質 -DNA 結合を解析する : 転写因子 ポリメラーゼ ヒストンなどの構造タンパク質 45
ChIP DNA-Seq 実験から得られる生データ FASTQ ファイル ( ほかのツールでの解析 ) Protocol サンプル調製キット必要な DNA 量解析モード TruSeq ChIP 5 10ng ChIP-Seq 46
ChIP DNA-Seq 注意点 以前 Illuminaで提供していたChIP-Seqサンプル調製プロトコールは MiSeqでサポートされていない 現在提供のTruSeq ChIP-Seqサンプル調製プロトコールはMiSeqをご使用可能 MiSeq Reporter (MSR) ChIP-SeqワークフローではFASTQファイルのみ取得 配列比較が不可能 変異体解析が不可能 上記の配列比較にはサードパーティーツールが必要 47
MiSeq で可能な実験のワークフロー Library QC DNA RNA 48
Library Quality Control (QC) ライブラリー QC とは? HiSeq などを用いて大規模解析を行う前にライブラリーの質をチェックする 応用例 お手持ちのライブラリの量 断片長, ミスマッチの割合 配列の多様性のチェック 大規模実験に移る前にサンプル調製の効率をチェックする ( 時間と材料の節約 効率化 ) クラスター形成効率をお手持ちのサンプルで確認する 49
Library Quality Control (QC) 実験から得られる生データ アライメントの割合 (%) ミスマッチの割合 (%) 重複するPCR 断片 (PCR duplicate) の割合 配列の多様性 断片長 多サンプル解析が可能なサンプルの割合 (%) インデックスの量 Protocol サンプル調製キット必要な DNA 量解析モード TruSeq kit あるいは Nextera kit 目的により異なります LibraryQC 50
MiSeq で可能な実験のワークフロー FASTQ Only DNA RNA 51
その他のモード DNA メチル化解析 ( バイサルファイトシーケンシング ) たとえば DNA のメチル化状態を調べる Whole Genome Bisulfite Sequencing [WGBS] Methylation-sensitive enzymatic digestion experiments (e.g. Reduced Representation Bisulfite Sequencing [RRBS]) Aza-labeled DNA 応用例 目的の DNA のメチル化状態について解析 ( 経時的変化なども ) MyIllumina 内の下記のリンクを参照ください https://icom.illumina.com/download/summary/3xkqcsk7kuane-ilxkvdxg 52
その他のモード DNA メチル化解析 ( バイサルファイトシーケンシング ) 実験から得られる生データ FASTQ ファイル : サードパーティーツールで解析可能 Protocol サンプル調製キット必要な DNA 量解析モード RRBS Paired End Sample Prep Kit * 2-5 µg DNA WGBS TruSeq DNA sample prep * 5 µg DNA FASTQ only * 追加のキットや試薬が必要です イルミナで MiSeq を用いて検証したプロトコールですが サポートは行っておりません ご理解の上 お試しください ( 先ほどご紹介いたしました資料を参照ください ) 53
その他のモード DNA メチル化解析 ( バイサルファイトシーケンシング ) 注意点 MiSeq Reporter (MSR) はバイサルファイト処理した DNA の解析に非対応 従って 得られた FASTQ ファイルをサードパーティーツールで解析 サンプルの多様性が低い場合は PhiX のスパイクインを試す MiSeq により得られる最大データ量が 8Gbases であることを考慮して カバレッジを計算する その他の情報は弊社 Website でもございます http://www.illuminakk.co.jp/applications/epigenetics/sequencing_based_methylation_analysis.ilmn 54
MiSeq で可能な実験のワークフロー RNA DNA RNA 55
MiSeq で可能な実験のワークフロー RNA DNA RNA 56
RNA Small RNA シーケンシング Small RNA シーケンシングとは? Dicer/Droshaで修飾されたmiRNA サンプル調製キットに用いるTotal RNAあるいは精製したSmall RNAが必要 全ての哺乳動物に適応可能 応用例 Small RNAの定量解析 同定 遺伝子制御 薬剤のスクリーニング Drosha/Dicer diagrams from: Barbara Weber, Carlo Stresemann, Bodo Brueckner, Frank Lyko*. Methylation of Human MicroRNA Genes in Normal and Neoplastic Cells. Cell Cycle 6:9, 1001-1005, 1 May 2007 57
RNA Small RNA シーケンシング 実験から得られる生データ FASTQファイル 既知のヒトmiRNAとの配列比較 ヒット数の高い配列情報 分解産物のコンタミネーションの割合 (small RNA mrna ゲノム配列 ミトコンドリアの配列の割合) Protocol サンプル調製キット必要な RNA 量解析モード TruSeq Small RNA 10-50 ng small RNA 1 µg total RNA Small RNA 58
RNA Small RNA シーケンシング 注意点 多サンプル解析が可能か? (1サンプルにどれだけのデータが必要か?) サンプルがヒト由来でない場合 FASTQファイルを解析するためのどのサードパーティーツールを使用するか? 哺乳動物以外のSmall RNAサンプルにも適応可能 TruSeq Small RNA kitがお手持ちのサンプルに使用可能か? MiSeq Reporter (MSR) だけでは解析を最後まで行うことが出来ない しかしFASTQファイルを作成することができる サードパーティーツールの使用 59
MiSeq で可能な実験のワークフロー RNA DNA RNA 60
RNA mrna シーケンシング mrna シーケンシングとは? 遺伝子の発現を解析するため mrna 配列 アレル特異的な発現を解析する 応用例 遺伝子発現解析 トランスクリプトーム解析 バイオマーカーの特定 腫瘍プロファイル 薬剤のスクリーニング 61
RNA mrna シーケンシング 実験から得られる生データ FASTQ ファイル : サードパーティーツールで解析可能 protocol サンプル調製キット必要な RNA 量解析モード TruSeq RNA sample prep 0.1-4 µg total RNA 10-400 ng mrna TruSeq Stranded mrna 0.1 4 µg total RNA RNA-Seq TruSeq Total RNA 0.1 1 µg total RNA (FFPE / degradation) 62
RNA mrna シーケンシング 注意点 MiSeq Reporter の RNA-Seq モードでは FASTQ ファイルのみ作成 MiSeq Reporter ではサンプルの種類を判別できない MiSeq Reporter での配列比較では exon と exon の境界配列に関しては 解析が不可能 FASTQ ファイルを解析するためにどのサードパーティーツールを使用するか? 実験にどれだけのデータ量 カバレッジが必要か? MiSeq のデータだけでは mrna や転写物の量の小さな変化を解析することが困難 どれだけのリード長が最適か? シングルエンド ペアドエンドのどちらを使用するか? 63
ご質問を受け付けます! DNA RNA 64
参考資料 ( 後に HP 上にアップします ) MyIllumina: https://icom.illumina.com/home/index サポートトレーニング : http://www.illuminakk.co.jp/support/training.ilmn ウェビナー : https://my.illumina.com/webinar/index( 英語 ) https://my.illumina.com/webinar/archives( 英語 : 過去のレコーディング ) http://www.illuminakk.co.jp/events/webinar_japan.ilmn( 日本語 ) 発表中に使用した資料 : カバレッジ関連 http://www.illumina.com/documents/products/technotes/technote_coverage_calculation.pdf http://www.illumina.com/documents//products/technotes/technote_optimizing_coverage_for_ta rgeted_resequencing.pdf Nextera XT for PCR Amplicons https://icom.illumina.com/myillumina/bulletin/cc6za4-hlempi09-iubi_w/how-can-i-improvethe-data-quality-of-my-pcr-ampli PCR Amplicon 関連 https://icom.illumina.com/myillumina/bulletin/cc6za4-hlempi09-iubi_w/how-can-i-improvethe-data-quality-of-my-pcr-ampli 16S rrna メタゲノム関連 http://www.illuminakk.co.jp/document/pdf/publication_metagenome-j.pdf DNA メチル化関連 http://www.illuminakk.co.jp/applications/epigenetics/sequencing_based_methylation_analysis.il mn 65