シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

Similar documents
PowerPoint プレゼンテーション

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

PowerPoint プレゼンテーション

リード・ゲノム・アノテーションインポート

NGSデータ解析入門Webセミナー

GWB_RNA-Seq_

nagasaki_GMT2015_key09

141025mishima

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

AJACS18_ ppt

PowerPoint プレゼンテーション

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

NGS_KAPA RNA HyperPrep Kit

<4D F736F F F696E74202D D D E C815B836A F B83582E >

2016_RNAseq解析_修正版

機能ゲノム学(第6回)

GWB

機能ゲノム学(第6回)

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

機能ゲノム学(第6回)

農学生命情報科学特論I

RNA-seq

Slide 1

PowerPoint Presentation

RNA-seq

Slide 1

次世代シークエンサーを用いたがんクリニカルシークエンス解析

Slide 1

Agilent Microarray Total Solution 5 5 RNA-Seq 60 mer DNA in situ DNA 5 2 QC 4200 TapeStation 2100 / mirna CGHCGH+SNP ChIP-on-chip 2 mirna QC

特論I

Maeda140303

機能ゲノム学(第6回)

免疫形式文法

サンプルシート作成ツール: Illumina Experimental Manager(IEM)の使用方法 -最新バージョンIEMv1.15のご紹介-

ChIP-seq

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

PowerPoint Presentation

特論I

GWB

GenomeJack Browser Appendix

Slide 1

機能ゲノム学

GWB

サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx

My Document

111031_Sure Selectカタログ_改訂_最終.indd

Slide 1

2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < Enrichment アプリ > イルミナ株式会社バイオインフォマティクスサ

本日の内容 イントロダクション アダプタートリミング smallrna 例含 クオリティトリミングダウンサンプリングリードの結合手元のFASTQをトリミングするには 2

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン

スライド 1

Microsoft Word - 2TXL実施要綱 doc

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

Microsoft PowerPoint _SINET_cloud

Design 1 – Title Slide

広報さがみはら第1242号

自己紹介 : プロフィール 石井一夫 ( 東京農工大学特任教授 ) 専門分野 : ゲノム科学 バイオインフォマティクス データマイニング 計算機統計学 経歴 : 徳島大学大学院医学研究科博士課程修了後 東京大学医科学研究所ヒトゲノム解析センターリサーチアソシエート 理化学研究所ゲノム科学総合研究セン

Infinium BeadChip COGS BeadChip 4 * iselect 3 SNP 25 1 SNP NGS Sequencing by Synthesis SBS HiSeq MiSeq WGS 1 RNA-Seq ChIP-Seq 1 1 * icogs BCAC OCAC PR

459

平成26年度「統合化推進プログラム(統合データ解析トライアル)」 研究開発課題名: HLA遺伝子完全配列決定パイプラインの構築

MiSeqのランのセットアップ時・開始時 に起こるトラブルの対処方法

プレゼンテーション2.ppt

PowerPoint プレゼンテーション

NGS_anal_overview.v2.pptx

機能ゲノム学(第6回)

PowerPoint Presentation

AmpliSeqDataAnalysis

Microsoft PowerPoint - 平成22年度第一回_武田.pptx

プレゼント キャンペーン 1 ステップ 2 分で高効率にリボソーム RNA やグロビン mrna を除去できる製品を試してみませんか? QIAseq FastSelect RNA Removal Kits 今だけ QIAseq FastSelect RNA Removal Kit をご購入されたお客

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

PowerPoint Presentation

特論I

LinuxServerMori.pdf

KEGG.ppt

PowerPoint プレゼンテーション

解 析 の 実 際 2 (Bismark) 1. Filtering poor quality reads, and reads with adapter sequences (TrimmomaWc) アダプターのトリミング コマンド 例 java - jar /root/bin/trimmomaw

機能ゲノム学(第6回)

Presentation Title Arial 28pt Bold Agilent Blue

Introduction to Illumina Next Generation Sequencing (NGS)

Microsoft PowerPoint TANAKA Optimizing Clusters passing filter2

<4D F736F F F696E74202D2091E EF88E78EED8A7789EF8CA48B868F5789EF815196E593632E >

Qlucore_seminar_slide_180604

お家でできるMacBookでやる次世代シーケンスデータ解析 pdf

疾患関連遺伝子の long-range PCR Nextera解析2.pptx

Microsoft PowerPoint - kobayashi-SAV webinar

Easy Sep

Rでゲノム・トランスクリプトーム解析

Partek Flow リリースノート バージョン : Partek Flow バージョン は高速化と使い勝手の改善のための新機能やパフォーマンス向上を含んでいます このバージョンへアップグレードするためには Partek Flow インストールガイド


Rでゲノム・トランスクリプトーム解析

Partek 社の NGS データ解析ソリューションは次世代シーケンサーから出力されたファイルを読み込んで 参 照ゲノム配列へのアラインメント データの品質管理 統計解析 ゲノム統合解析 生物学的解釈 各種グラフ やゲノムビューアーでの表示など NGS のデータ解析をすべてサポートします ファイルの


PrimerArray® Analysis Tool Ver.2.2


予算申請ウェビナー ウイルス、微生物編

(タイトル未定)

Transcription:

シーケンサー利用技術講習会 第 10 回サンプル QC RNAseq ライブ ラリー作製 / データ解析実習講習会 理化学研究所ライフサイエンス技術基盤研究センターゲノムネットワーク解析支援施設田上道平

次世代シーケンサー Sequencer File Format Output(Max) Read length Illumina Hiseq2500 Fastq 600 Gb 100 bp Life tech SOLiD csfasta,qual 100 Gb 50 bp Roche FLX Sff 600 Mb 800 bp

Hiseq 2500/1500

Fastq data @HWI-ST1394:58:H0B70ADXX:2:1101:4041:2089 1:N:0: TAAATGGTAGGGAAAGAGTGTAGGGAAAGAGTGTAAGGAATAGCGTCGTGTTGGGTAAGAGTGAAAGGGGTGTGGCTTTTAGTCATAGCTGTTTCCTGCTG + CCCFFFFDHHHHBEIIBE3AAFHHDCCEHGH??CGHGIGHIGFGIDGF7@FFFHICCHHCE.=?E@CDFC99>@BBABCCCC@CDEECCCC+>>CCCCCCC @HWI-ST1394:58:H0B70ADXX:2:1101:4204:2099 1:N:0: ATTTTTTGTGGATGTATAGTTTATTTGTTGTGTTGGATTTGTTAGGATTTTAAGTTTTTTGAGTATAATAGAGTTTAAAGATAAAAAGATTATTTTTTGTA + CCCFFFFFFHHHHJGHIIIIIJGIJJJJJJHHHIJJGIIJJIJIJJGIJJJJJJHIJJJJJGHHHHHHFFFFFCDEEEEEEEDDDDDDDDDDDEEEDDD?4 @Header TAAATGG. ( シーケンスで読まれた配列 ) + CCCFFFF ( クオリティースコア )

Quality Check for fastq data ソフトウェア FastQC http://www.bioinformatics.babraham.ac.uk/projects/fa stqc/ FASTX http://hannonlab.cshl.edu/fastx_toolkit/commandline. html#fastx_barcode_splitter_usage

FastQC 1 枚の HTML に複数の結果が まとめられ出力される 豆知識 : --nogroup オプションで実行すると 1 ベース毎の結果が表示される

FASTX 各項目ごとに 解析を行う Galaxy に入っている場合が多い 豆知識 : CASAVA1.8 以降では Q33 オプションで実行する

ときどきある質問 Index やバーコードなどの 特徴的な配列のサイクルのクオリティーが 下がる事がある Illumina シーケンサーは 同じサイクルで 同じ塩基を多数読むと エラー率が高くなる

RNA-Seq 解析について アダプター Trimming ( 必要なら ) rrna filtering マッピング 定量化 比較解析 (De novo assembly)

rrna filtering について ライブラリー作成時に 取り除けなかった rrna のリードを除去する rrna 配列に対して Mapping を行い Unmapped のリードを取りだす samtools view f 4 *.bam Mouse rrna Reference : BK000964.1 http://www.ncbi.nlm.nih.gov/nuccore/bk000964 Human rrna Reference : U13369.1 http://www.ncbi.nlm.nih.gov/nuccore/u13369.1

rrna removal library kit

ライブラリー作成時に rrna が良く取り 除けた例と, 悪い結果の例 2 mapped reads unmapped reads rrna reads 1 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

悪い例の結果が出た場合 ライブラリー作成 マニュアル プロトコルを見直す ライブラリー再作成 再シーケンス

アダプター Trimming ソフトウェア FASTX fastx_clipper http://hannonlab.cshl.edu/fastx_toolkit/commandline. html#fastx_clipper_usage 豆知識 : CASAVA1.8 以降では Q33 オプションで実行する Cutadapt http://code.google.com/p/cutadapt/

アダプター Trimming ( 例 ) Trimming 前の, 50 サイクル Fastq データ Trimming 後の Fastq データの Length Distribution

Mapping for RNA-Seq TopHat2 http://tophat.cbcb.umd.edu/

Mapping の違い Bwa Tophat

Tophat による mapping ( 例 )

定量 ( マップされたリードの数から normalize して値を算出 ) Gene A Gene B Gene C Gene Mapped Read count exon size A 400 1000 Total mapped read count RPM (read per Million) 40 (=400*1,000,000/10,00 0,000) RPKM(RP M per kilo exon) B 200 500 10,000,000 20 40 C 200 400 20 50 40

cufflinks Cufflinks http://cufflinks.cbcb.umd.edu/ アノテーション情報とマッピング結果より FPKM を算出

定量 比較の問題 RPKM(FPKM) は 遺伝子 (exon size) の大きさや 高発現遺伝子の影響により 結果がばらつく TMM ( Trimmed Mean of M-values) による正規化

R による比較解析 DESeq edger

R による解析 良いところ Normalize 正規化 比較解析まで パッケージ化されている 正規化される事により バイアスの少ない結果が出る 少しめんどくさいところ R の使い方を覚える BAM から タグカウントの情報を作成する Samtools HTSeq などを使用する

RNA-Seq 解析例 登録データサンプル Library - Sequence SRR064437 SRR064286 正常ヒト胸腺由来 cdna の RNA-seq データ ヒト MCF-7 breast cancer cell line 由来の RNA-seq データ Non directional RNA-Seq Paired End Sequence Non directional RNA-Seq Paired End Sequence SRA : http://www.ncbi.nlm.nih.gov/traces/sra/ DRA : http://trace.ddbj.nig.ac.jp/dra/index.html

RNA-Seq 解析例 (workflow) Quality Check for fastq data Trimming low quality data rrna filtering Tophat mapping Tag counts DESeq

Mapping workflow with moirai

Summary for mapping SRR064286 mapped unmapped unmatch rrna SRR064437 0 5,000,000 10,000,000

Tag count (HTSeq) Mapping 結果の BAM を samtools で SAM ファイルに変換 samtools sort SRR064437.bam SRR064437_sorted samtools view SRR064437_sorted.bam > SRR064437_sorted.sam HTSeq により タグカウント htseq-count SRR064437_sorted.sam gencode.v18.annotation.gtf > SRR064437_tag-count.txt HTSeq http://www-huber.embl.de/users/anders/htseq/doc/index.html 使用したアノテーションファイル gencode.v18.annotation.gtf http://www.gencodegenes.org/

Tag count の結果 (HTSeq) 1 カラム目 : EnsID 2 カラム目 : 正常ヒトのタグカウント 3 カラム目 : MCF-7 breast cancer cell line タグカウント

DESeq output pvalue でソートして 正常ヒト に対して breast cancer で Up-regulated された遺伝子 Up-regulated TOP1 : DSCAM-AS1 TOP2 : TFF1 TOP3 : BRIP1

TFF1 Deficiency in trefoil factor 1 (TFF1) increases tumorigenicity of human breast cancer cells and mammary tumor development in TFF1-knockout mice

IGV genome viewer breast cancer~ の Mapping 結果 正常ヒト ~ の Mapping 結果

おまけ Moirai 面倒な作業を効率化 GUIでの操作 クラスターサーバへの対応 オリジナルワークフロー作成可能 Galaxyと ちがうの? もうそろそろ 公開されるはず

RNA-Seq Tools http://en.wikipedia.org/wiki/list_of_rna- Seq_bioinformatics_tools

ありがとうございました