PowerPoint プレゼンテーション

Similar documents
PowerPoint プレゼンテーション

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

2016_RNAseq解析_修正版

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

機能ゲノム学(第6回)

NGSデータ解析入門Webセミナー

PowerPoint プレゼンテーション

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

PowerPoint プレゼンテーション

機能ゲノム学(第6回)

141025mishima

GWB_RNA-Seq_

RNA-seq

GWB

機能ゲノム学(第6回)

相続支払い対策ポイント

150423HC相続資産圧縮対策のポイント

ハピタス のコピー.pages

Copyright 2008 All Rights Reserved 2

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

PowerPoint プレゼンテーション

GWB

特論I

Copyright 2008 NIFTY Corporation All rights reserved. 2

nagasaki_GMT2015_key09

初心者にもできるアメブロカスタマイズ新2016.pages

- 2 Copyright (C) All Rights Reserved.

PowerPoint Presentation

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

GWB

RNA-seq

Copyright 2006 KDDI Corporation. All Rights Reserved page1

Copyright All Rights Reserved. -2 -!

ChIP-seq

PowerPoint Presentation

IPA:セキュアなインターネットサーバー構築に関する調査

機能ゲノム学(第6回)

Microsoft Word - 最終版 バックせどりismマニュアル .docx

特論I

dekiru_asa

Microsoft PowerPoint - 6_TS-0891(TS-0835(Custom TaqMan Assay Design Tool利用方法修正5.pptx

農学生命情報科学特論I

KDDI

PrimerArray® Analysis Tool Ver.2.2

untitled

リード・ゲノム・アノテーションインポート

目次 Ion Reporter 概要とメタゲノム解析 Ion16S Metagenome Kit データ解析概略 解析実行手順 解析実行結果 カスタムプライマー利用時のWorkflow 作成 サポート情報 p.3 p.9 p.14 p.19 p.26 p.35 2

健康保険組合のあゆみ_top

リバースマップ原稿2

Copyright 2010 Sumitomo Mitsui Banking Corporation. All Rights Reserved.

_unix_text_command.pptx

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

20 180pixel 180pixel Copyright 2014 Yahoo Japan Corporation. All Rights Reserved.

PowerPoint プレゼンテーション

thermofisher.com mirVana miRNA mimics/inhibitors 検索マニュアル

Slide 1


れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

% 11.1% +6.% 4, % %+12.2% 54,16 6.6% EV7, ,183 Copyright 216 JAPAN POST GROUP. All Rights Reserved. 1

機能ゲノム学

Microsoft Word - 2TXL実施要綱 doc

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx

やよいの顧客管理

弥生給与/やよいの給与計算

弥生 シリーズ

弥生会計 プロフェッショナル/スタンダード/やよいの青色申告

弥生会計/やよいの青色申告

弥生会計 ネットワーク/プロフェッショナル2ユーザー


Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

ネットワーク設定マニュアル(Windows Vista編)

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

Presentation Title Arial 28pt Bold Agilent Blue

Qlucore_seminar_slide_180604

PLQ-20 取扱説明書 詳細編

( 図 2). そ の FASTQ ファイルをもとに,データを 解 析 する 前 処 理 としてアダプター 配 列 やタグ 配 列 を 除 去 し 品 質 管 理 を 行 うが,その 目 的 には FASTQC というソフトウ ェ ア が よ く 用 い ら れ る (


次世代シークエンサーを用いたがんクリニカルシークエンス解析

解析法

2

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン


Partek 社の NGS データ解析ソリューションは次世代シーケンサーから出力されたファイルを読み込んで 参 照ゲノム配列へのアラインメント データの品質管理 統計解析 ゲノム統合解析 生物学的解釈 各種グラフ やゲノムビューアーでの表示など NGS のデータ解析をすべてサポートします ファイルの

1000 Copyright(C)2009 All Rights Reserved - 2 -

解 析 の 実 際 2 (Bismark) 1. Filtering poor quality reads, and reads with adapter sequences (TrimmomaWc) アダプターのトリミング コマンド 例 java - jar /root/bin/trimmomaw

! Copyright 2015 sapoyubi service All Rights Reserved. 2

LP-S8160 LP-S7160 LP-S6160

LP-M8040シリーズ

LP-M5300シリーズ

report03_amanai.pages

report05_sugano.pages

Rでゲノム・トランスクリプトーム解析


導入設定ガイド

サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響

Slide 1

Transcription:

V1 次世代シークエンサ実習 II

本講義の内容 Reseq 解析 RNA-seq 解析 公開データ取得 クオリティコントロール マッピング 変異検出 公開データ取得 クオリティコントロール マッピング 発現定量 FPKM を算出します 2

R N A - s e q とは メッセンジャー RNA(mRNA) をキャプチャして次世代シーケンサーでシーケンシングする手法 リファレンスがある生物種の場合 : 既知遺伝子にマッピングする リファレンスにマッピングして遺伝子構造を同定する 本日の内容 リファレンスがない生物種の場合 : アセンブリングして転写物構造を予測し それに対してマッピングする 近いゲノムのリファレンスにマッピングする Copyright Amelieff Corporation. All Rights Reserved. 3

R N A - s e q 解析 : パイプライン スプライスジャンクションを考慮したマッピングを行います 4

R N A - s e q 解析 : パイプライン 今日は一部のコマンドを実行します ヒートマップ GO 解析 パスウェイ解析など様々 5

R N A - s e q 解析でできること 発現量の定量 比較 新規転写物 新規スプライシングバリアントの探索 RNA-seq がマイクロアレイと比較して優れている点 新規転写物や融合遺伝子が検出可 SNV small Indel も検出可 プローブの設計を必要としない ( 非モデル生物にも対応可 ) Copyright Amelieff Corporation. All Rights Reserved. 6

R N A - s e q 解析 : データ 酵母のゲノムのリファレンス取得 リファレンス配列の fasta のみではなく マッピングソフトのインデックスファイルや遺伝子情報ファイルも一緒に圧縮されて公開しています 7

R N A - s e q 解析 : データ TRY! 酵母のゲノムのリファレンス配列を確認 $ cd /home/admin1409/genome/saccharomyces_cerevis iae/ncbi/build3.1 $ ll Sequence 8

R N A - s e q 解析 : データ TRY! 酵母のゲノムのリファレンス配列を確認 $ ll Sequence/Bowtie2Index 今回はこちらのインデックスを使用します 9

R N A - s e q 解析 : データ シーケンスデータ取得 http://trace.ddbj.nig.ac.jp/dra/index.html DDBJ の Sequence Read Archive Search 10

R N A - s e q 解析 : データ シーケンスデータ取得 Accession に SRR518891 と入力 Search 11

R N A - s e q 解析 : データ シーケンスデータ取得 今回は 1 サンプルで実行しますが 発現比較する場合には複数サンプル必要で replicate も多いほうが良いです ここからダウンロード 実験の詳細 Navigation エリアの Experiment SRX157933 をクリック 12

R N A - s e q 解析 : データ シーケンスデータ取得 他にも シーケンサのプラットフォームやリード長などの情報も記載されています 転写産物 13

R N A - s e q 解析 : データ シーケンスデータ取得 ( 実行済み ) ダウンロードします $ wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/sra055/sr A055683/SRX157933/SRR518891_1.fastq.bz2 $ wget ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/sra055/sr A055683/SRX157933/SRR518891_2.fastq.bz2 14

R N A - s e q 解析 : データ シーケンスデータ取得 ( 実行済み ) 解凍して 先頭 1000 リードを抽出します $ bunzip2 SRR518891_1.fastq.bz2 $ bunzip2 SRR518891_2.fastq.bz2 $ head -4000 SRR518891_1.fastq > 1K_SRR518891_1.fastq $ head -4000 SRR518891_2.fastq > 1K_SRR518891_2.fastq 15

R N A - s e q 解析 : データ TRY! シーケンスデータを確認 $ cd /home/admin1409/amelieff/ngs $ ll 16

TRY! R N A - s e q 解析 : クオリティコントロール シーケンスデータのクオリティを確認 FastQC を実行します $ mkdir rnaseq $ fastqc -o rnaseq -f fastq 1K_SRR518891_1.fastq 1K_SRR518891_2.fastq fastqc_report.html を ウェブブラウザで開きます $ firefox rnaseq/1k_srr518891_1_fastqc/fastqc_report.html $ firefox rnaseq/1k_srr518891_2_fastqc/fastqc_report.html 以降の解析は 片側のリードのみ使用します 17

TRY! R N A - s e q 解析 : クオリティコントロール PolyA/T tail が存在 最初の 1 塩基 18

応用 ) P o l y A /T t a i l の混入 RNA-seq(mRNA) では 3' 末端に PolyA/T tail がついている転写物をシーケンシングするため 19

TRY! R N A - s e q 解析 : クオリティコントロール 最初の 1 塩基を削除 fastx_trimmerの使用方法を確認する $ fastx_trimmer -h 20

TRY! R N A - s e q 解析 : クオリティコントロール 最初の 1 塩基を削除 1 塩基目を削除する $ cd rnaseq $ fastx_trimmer -f 2 -i../1k_srr518891_1.fastq -o 1K_SRR518891_1_s.fastq -Q33 21

TRY! R N A - s e q 解析 : クオリティコントロール PolyA/T tail を除去 3' 端にAを5 連続以上含むリード数がどのくらいあるか調べる $ grep "AAAAA$" 1K_SRR518891_1_s.fastq wc -l 39 fastx_clipperの使用方法を確認する $ fastx_clipper h 22

TRY! R N A - s e q 解析 : クオリティコントロール PolyA/T tail を除去 PolyA/T tail を除去する $ fastx_clipper -a AAAAA -i 1K_SRR518891_1_s.fastq -o 1K_SRR518891_1_s_notail.fastq -Q 33 Prinseq など 各シーケンスの PolyA/T の数に合わせて除去するソフトもあります 23

TRY! R N A - s e q 解析 : クオリティコントロール クオリティの低いリードを除外 3 末端からクオリティ 20 未満の塩基をトリミングし 長さが 30 塩基未満になったリードを破棄する さらに 80% 以上の塩基がクオリティー 20 以上のリードのみを抽出する $ fastq_quality_trimmer -t 20 -l 30 -Q 33 -i 1K_SRR518891_1_s_notail.fastq fastq_quality_filter -q 20 -p 80 -Q 33 -o 1K_SRR518891_1_clean.fastq 24

TRY! R N A - s e q 解析 : クオリティコントロール クリーニング結果の確認 FastQCを実行します $ fastqc -f fastq 1K_SRR518891_1_clean.fastq fastqc_report.html を ウェブブラウザで開きます $ firefox 1K_SRR518891_1_clean_fastqc/fastqc_report.html クリーニング前後のリード数と クオリティの変化を確認してください 25

TRY! R N A - s e q 解析 : クオリティコントロール クリーニング前 クリーニング後 サンプルや調整方法 シーケンサの特徴にあわせてクリーニング項目や条件を工夫しています 26

応用 ) アダプタ配列を除外するソフト 1 cutadapt 2 FastX-Toolkit(fastxclipper) 3 tagcleaner 指定した配列はどのソフトでも除ける fastx_clipper は 部分配列もかなり除けたが リード数も 1/10 以下に減るためアダプタ以外の配列も除いている可能性がある tagcleaner は 一度に 1 アダプタ配列しか指定できない $ cutadapt -b TCTCGTATGCCGTCTTC -b CTACAGTCCGACGA -m 10 -n 2 $FILE.fastq 1> $FILE_cutadapt.fastq オプション m n O e これより短くなったものは破棄同リードへのアダプタ出現回数マッチ領域の最少長 エラー塩基数/ マッチ領域長 の最大 27

R N A - s e q 解析 : マッピング TRY! TopHat の使い方を確認 $ tophat スプライシングを考慮して マッピングするため 既知の遺伝子情報を使用することもできます 28

R N A - s e q 解析 : マッピング TRY! マッピング 今回はリード数が少ないため マッピング基準を緩めています $ tophat -o 1K_SRR518891 -g 3 -N 10 --read-edit-dist 10 --read-gap-length 10 /home/admin1409/genome/saccharomyces_cerevisiae/ncbi /build3.1/sequence/bowtie2index/genome 1K_SRR518891_1_clean.fastq BAMとインデックス BEDなどが作成されます $ ls 1K_SRR518891 -N/--read-mismatches --read-edit-dist --read-gap-length Final read alignments having more than these many mismatches are discarded. Final read alignments having more than these many edit distance are discarded. Final read alignments having more than these many total length of gaps are discarded. 29

R N A - s e q 解析 : マッピング TRY! マッピング率 $ less 1K_SRR518891/align_summary.txt マッピング率 30

ポイント )T o p H a t のアルゴリズム 1. リードをペアエンドでリファレンスにマッピングする 2. マッピングできなかったリードを断片化して リファレンスにマッピングする 3. マッピング結果をもとに 転写構造をアセンブリングする http://en.wikipedia.org/wiki/file:rna-seq-alignment.png http://www.ncbi.nlm.nih.gov/pubmed/19289445 Copyright Amelieff Corporation. All Rights Reserved. 31

R N A - s e q 解析 : マッピング TRY! マッピング結果の可視化 $ samtools index accepted_hits.bam $ igv.sh accepted_hits.bam を IGV で表示してください 32

R N A - s e q 解析 : マッピング TRY! マッピング結果の可視化 Position の例 : III:177,350-177,500 33

ポイント ) 遺伝子の発現量 遺伝子上にマップされたリード数 長い遺伝子ほど マップされるリードは多くなる ( 遺伝子間のバイアス ) サンプル量の多いランほど マップされるリードは多くなる ( ラン間のバイアス ) これらのバイアスを補正してから発現量を比較する必要があります 発現量としてよく使われる指標 RPKM(Reads Per Kilobase per Million mapped reads) FPKM(Fragments Per Kilobase of exon per Million mapped fragments) どちらも 発現量をエクソン長と全マッピング数で補正した値 FPKM = raw counts 1,000,000 all reads 1,000 gene length 34

R N A - s e q 解析 : 発現定量 TRY! Cufflinks の使い方を確認 $ cufflinks アセンブルのガイドとして既知の遺伝子情報を使用することもできます 35

R N A - s e q 解析 : 発現定量 TRY! 発現量を計算 今回はリード数が少ないため 検出基準を緩めています $ cufflinks --min-frags-per-transfrag 2 -o 1K_SRR518891 1K_SRR518891/accepted_hits.bam $ ll h 1K_SRR518891 fpkm_tracking ファイルが作成されます --min-frags-per-transfrag minimum number of fragments needed for new transfrags 36

R N A - s e q 解析 : 発現定量 TRY! 発現量を計算 $ less 1K_SRR518891/genes.fpkm_tracking 4 列目が Gene ID 10 列目が FPKM です 37

応用 ) サンプル間比較 サンプルごとに発現量を計算したあと サンプルごとに発現している遺伝子が違うため 比較の基準とする遺伝子リストを作成します $ cuffmerge -o COMPARE -g Genes.gtf -s genome.fa transcript.gtf.txt Group1/S1/transcript.gtf Group1/S2/transcript.gtf Group2/S3/transcript.gtf Group2/S4/transcript.gtf transcript.gtf.txt 各サンプルの cufflinks 結果を羅列したファイル 発現量を比較します $ cuffdiff -o COMPARE -L Group1, Group2 Genes.gtf Group1/S1/accepted_hits.bam, Group1/S2/accepted_hits.bam Group2/S3/accepted_hits.bam, Group2/S4/accepted_hits.bam 38

本講義の内容 Reseq 解析 RNA-seq 解析 公開データ取得 クオリティコントロール マッピング 変異検出 公開データ取得 クオリティコントロール マッピング 発現定量 39

ご清聴ありがとうございました 40