機能ゲノム学(第6回)

Similar documents
機能ゲノム学(第6回)

機能ゲノム学(第6回)

NGSデータ解析入門Webセミナー

特論I

機能ゲノム学(第6回)

機能ゲノム学(第6回)

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

PowerPoint プレゼンテーション

機能ゲノム学(第6回)

GWB_RNA-Seq_

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

特論I

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

GWB

機能ゲノム学

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

RNA-seq

GWB

ChIP-seq

PowerPoint Presentation

Slide 1

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

Rでトランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析

機能ゲノム学(第6回)

GWB

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

RNA-seq

Design 1 – Title Slide

Quick guide_GeneArt Primer and Construct Design Tool_v1(Japanese)

バイオインフォマティクスⅠ

AJACS_komachi.key

Agilent Microarray Total Solution 5 5 RNA-Seq 60 mer DNA in situ DNA 5 2 QC 4200 TapeStation 2100 / mirna CGHCGH+SNP ChIP-on-chip 2 mirna QC

<4D F736F F F696E74202D E838A B83805F D B838093FC96E55F E707074>

解析法

PrimerArray® Analysis Tool Ver.2.2

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

リード・ゲノム・アノテーションインポート

: Genome Analyzer.99 1 SNP Genome Analyzer 1 RNA ID mrna mrna mrna-seq 3 mrna-seqpcr mrna-seq mrna-seq 3: mrna-seq mrna-seq RNA 1 poly-a RNA RNA cdna

表1.eps

NGS_KAPA RNA HyperPrep Kit

Qlucore_seminar_slide_180604

Microsoft PowerPoint - 4_河邊先生_改.ppt

nagasaki_GMT2015_key09

Untitled

PowerPoint Presentation

サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

111031_Sure Selectカタログ_改訂_最終.indd

KEGG.ppt

リアルタイムPCRの基礎知識

■リアルタイムPCR実践編

NGS速習コース

.i...j...[.X8-2


バイオインフォマティクスⅠ

るため RNA ウイルス遺伝子や mrna などの RNA を検出する場合には予め逆転写酵素 (RNA 依存性 DNA ポリメラーゼ ) により DNA に置換する逆転写反応を行う必要がある これを Reverse Transcription-PCR(RT-PCR) という PCR 法によれば 検査

NGSハンズオン講習会

るが AML 細胞における Notch シグナルの正確な役割はまだわかっていない mtor シグナル伝達系も白血病細胞の増殖に関与しており Palomero らのグループが Notch と mtor のクロストークについて報告している その報告によると 活性型 Notch が HES1 の発現を誘導

はじめてのリアルタイムPCR

141025mishima

Partek Flow リリースノート バージョン : Partek Flow バージョン は高速化と使い勝手の改善のための新機能やパフォーマンス向上を含んでいます このバージョンへアップグレードするためには Partek Flow インストールガイド

Presentation Title Arial 28pt Bold Agilent Blue

リアルタイムPCR実験のためのガイドライン

Infinium BeadChip COGS BeadChip 4 * iselect 3 SNP 25 1 SNP NGS Sequencing by Synthesis SBS HiSeq MiSeq WGS 1 RNA-Seq ChIP-Seq 1 1 * icogs BCAC OCAC PR

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

Rでゲノム・トランスクリプトーム解析

免疫形式文法


Microsoft PowerPoint - 6_TS-0891(TS-0835(Custom TaqMan Assay Design Tool利用方法修正5.pptx

Microsoft PowerPoint - 3_TS-705(TaqMan_GeneExpressionAssays_製品情報及び検索方法修整10.pptx

Microsoft PowerPoint - プレゼンテーション1

検体採取 患者の検査前準備 検体採取のタイミング 記号 添加物 ( キャップ色等 ) 採取材料 採取量 測定材料 P EDTA-2Na( 薄紫 ) 血液 7 ml RNA 検体ラベル ( 単項目オーダー時 ) ホンハ ンテスト 注 外 N60 氷 MINテイリョウ. 採取容器について 0

特論I

計算機生命科学の基礎II_

Slide 1


Agilent 1色法 2条件比較 繰り返し実験なし

結果 この CRE サイトには転写因子 c-jun, ATF2 が結合することが明らかになった また これら の転写因子は炎症性サイトカイン TNFα で刺激したヒト正常肝細胞でも活性化し YTHDC2 の転写 に寄与していることが示唆された ( 参考論文 (A), 1; Tanabe et al.

PowerPoint プレゼンテーション

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

MB-lecture12.pptx

核内受容体遺伝子の分子生物学

基本的な利用法

大学院博士課程共通科目ベーシックプログラム

<4D F736F F D F D F095AA89F082CC82B582AD82DD202E646F63>

Slide 1

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

Database Center for Life Science Online Service Vol.48 No.16 (2003)

PowerPoint プレゼンテーション

Untitled

GeneChip 遺伝子発現解析

機能ゲノム学(第6回)

農学生命情報科学特論I

PowerPoint プレゼンテーション

Microsoft PowerPoint - talk pptx

KEGG_PATHWAY.ppt

Transcription:

トランスクリプトーム解析の今昔 なぜマイクロアレイ? なぜRNA-Seq? 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1

Contents トランスクリプトーム解析の概要 各手法の長所 短所 マイクロアレイ RNA-Seq RT-PCR や SAGE 実データの比較 (RNA-Seq vs. マイクロアレイ ) RNA-Seq データの正規化 ( の基礎 ) マイクロアレイと異なる点 ( 遺伝子の配列長による結果の偏り ) 基本的な考え (RPKM) ねらい各種トランスクリプトーム解析手法の長所 短所を理解し その上でなぜ次世代シーケンサーによるトランスクリプトーム解析 (RNA-Seq) が有用かを理解する 2

トランスクリプトームとは ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 ヒト 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 転写物全体 ( トランスクリプトーム ) 遺伝子 1 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない 3

トランスクリプトームとは ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 光刺激 ヒト 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 転写物全体 ( トランスクリプトーム ) 遺伝子 2 は光刺激に応答して発現亢進 遺伝子 4 も光刺激に応答して発現亢進 4

トランスクリプトーム情報を得る手段 光刺激前 (T1) の目のトランスクリプトーム これがいわゆる 遺伝子発現行列 光刺激後 (T2) の目のトランスクリプトーム マイクロアレイ RNA-Seq SAGE 5

トランスクリプトーム取得 ( マイクロアレイ ) よく研究されている生き物は多数の遺伝子 ( の配列情報 ) がわかっている 光刺激前 (T1) の目のトランスクリプトーム 蛍光標識ハイブリダイゼーション ( 二本鎖形成 ) わかっている遺伝子 ( の配列の相補鎖 ) を搭載した チップ メーカーによって搭載されている遺伝子の種類が異なる 搭載されていない遺伝子 ( 未知遺伝子含む 例 : 遺伝子 4) の発現情報は測定不可 6

マイクロアレイデータ 遺伝子発現行列 光刺激前 (T1) の目のトランスクリプトーム 蛍光標識 光刺激後 (T2) の目のトランスクリプトーム ハイブリダイゼーション ( 二本鎖形成 ) 専用の検出器で各遺伝子に対応する領域の蛍光シグナル強度を測定 ハイブリダイゼーションとシグナル検出 正規化 7

トランスクリプトーム取得 (RNA-Seq) 次世代シーケンサー (Illumina 社の場合 ) 光刺激前 (T1) の目のトランスクリプトーム 配列決定 ペアードエンド法断片配列の両末端が数百塩基以内の対の二種類の配列が得られる 数百塩基程度に断片化 シングルエンド法 約 50-125 塩基 二種類のアダプター配列を両末端に付加 シングルエンド法の場合 アダプター 1 アダプター 2 数百塩基程度 8

RNA-Seq データ 遺伝子発現行列 RNA-seq 光刺激前 (T1) の目のトランスクリプトーム ゲノム配列にマッピング - イメージ - 50-125 塩基程度からなる配列が沢山ある - 実際 - 数百万個の配列があり どの遺伝子に対応するか不明 定量化 ( 例 : 生のリード数をカウント ) 正規化 ( 短い ) 配列を読んだものという意味で ( ショート ) リードなどと呼ばれる 9

RNA-Seq の長所 新規 X の同定 X =exon, 遺伝子, T1 T2 X =exon X = 遺伝子 10

RNA-Seq の長所 新規 X の同定 X = エクソン X = 遺伝子 T1 生リード数カウント 正規化 T1 生リード数カウント 正規化 トランスクリプトーム ( 転写物の全体像 ) の理解への一番の近道 よりよい遺伝子発現行列を得るための基礎情報充実に貢献 11

長所 短所 :( 発現解析用 ) マイクロアレイ 長所 すでに診断用マイクロアレイが市販されているなど長年の実績 お手軽 各種データ解析ツールが豊富 短所 ( プローブ搭載のために ) 解析対象の塩基配列情報を予め知っておく必要がある ( クローズドシステム ) プローブが搭載されていない遺伝子の発現レベルは測定不可能 ( 未知遺伝子も当然対象外 ) 主なユーザー 主な解析対象が ( アノテーション情報が豊富な ) モデル生物で 既知遺伝子のみでいい という研究者 12

長所 短所 :RNA-Seq 長所 ( 未知遺伝子を含む ) トランスクリプトームの全体像を理解することが原理的に可能 事前情報を必要としない ( オープンシステム ) ダイナミックレンジが広い 短所 データ解析が大変 解析手法が確立されていない 主なユーザー 無制限 ( モデル生物 非モデル生物を問わない ) ( お金持ち ) トランスクリプトーム 数百塩基程度に断片化 sequencing 13

長所 短所 :RT-PCR 長所?! このテクノロジーで得られた測定結果が 最も信頼性が高いはず!( ゴールドスタンダード ) と多くの biologist が思っている 短所 用いたプライマー次第で結果が変わる Low-throughput(RT-PCR でのトランスクリプトーム解析は事実上不可能 ) 主なユーザー ( 論文を通すために ) マイクロアレイ ( や RNA-Seq) 解析を行った結果得られた候補遺伝子群のうちのいくつかの発現を確認しておこうと思った研究者 14

Velculescu et al., Science, 270:484-487, 1995 SAGE Serial Analysis of Gene Expression の略 mrna の 3 末端に近い数十塩基を SAGE タグとして配列決定 様々な改良版 21bp 読めるLongSAGE (Saha et al., Nature Biotechnol., 2002) 26bp 読めるSuperSAGE (Matsumura et al., Proc. Natl. Acad. Sci. USA, 2003) 5 -end SAGE (Hashimoto et al., Nature Biotechnol., 2004) 約 37bp (ditagとして) 読めるDeepSAGE (Nielsen et al., Nucleic Acids Res., 2006) NGS 用 SuperSAGE (HT-SuperSAGE; Matsumura et al., PLoS One, 2010) 15

長所 短所 :SAGE(RNA-Seq との対比 ) 長所 ( 転写物の一部に特化しているので原理的に ) ダイナミックレンジが広い リード長がほぼ一定のため RNA-Seq で問題となる 解析結果の配列長依存性 (gene length-related bias) とは無縁 ( 後述 ) 短所 ( 転写物の一部に特化しているが故に原理的には ) トランスクリプトームの全体像の理解は不可能 ( 例 : 選択的スプライシング ) ( 制限酵素で切断しているので ) 制限酵素認識部位 (NlaIII など ) を持たない転写物の測定は困難 主なユーザー 上記の長所を重要視する研究者 16

実データの比較 (RNA-Seq vs. マイクロアレイ ) Human embryonic kidney (HEK) 293T cells( と B cells) マイクロアレイ :Illumina HumanRef8 V2.0 BeadChips RNA-Seq: Illumina 1G Genome Analyzer 27 bp 約 864 万リード Sultan et al., Science, 321:956-960, 2008 TCGGTAAGTGACAATGTTCCAGTCCAT chr1 chr2 縮小表示 約 464 万リードがゲノム配列上のどこか一ヵ所のみにマップされる (Reads with unique matches) 17

Sultan et al., Science, 321:956-960, 2008 実データの比較 (RNA-Seq vs. マイクロアレイ ) Human embryonic kidney (HEK) 293T cells( と B cells) マイクロアレイ :Illumina HumanRef8 V2.0 BeadChips RNA-Seq: Illumina 1G Genome Analyzer 27 bp 約 864 万リード TCGGTAAGTGACAATGTTCCAGTCCAT 縮小表示 ゲノムにマップされた約 464 万リード中 371 万リードが既知 exon 上にマップされる chr1 chr2 既知エクソン領域以外にマップされたものは新規 exonの可能性! 大抵のマイクロアレイとの比較はアレイ上に搭載されている既知遺伝子についてのみ! 18

実データの比較 (RNA-Seq vs. マイクロアレイ ) マイクロアレイ上に搭載されている 13,118 遺伝子について 発現している とされた遺伝子数の比較 閾値緩め ( 1 read) の場合 Sultan et al., Science, 321:956-960, 2008 の Fig. 2A 遺伝子 1 遺伝子 2 遺伝子 3 発現してるしてるしてる 閾値厳しめ ( 5 read) の場合 遺伝子 1 遺伝子 2 遺伝子 3 ( 発現してる ) ( してない ) ( してない ) RNA-seq でのみ発現している遺伝子数 >> マイクロアレイでのみ 19

実データの比較 (RNA-Seq vs. マイクロアレイ ) HEK cells versus B cells の log ratio 分布の比較 7,043 genes Sultan et al., Science, 321:956-960, 2008 の Fig. 2C 全体として高発現側の遺伝子群の発現レベルは似ている 20

他の比較結果 (RNA-Seq vs. マイクロアレイ ) log ratio 分布の比較 ( 横軸 :RNA-Seq, 縦軸 : マイクロアレイ ) Mane et al., BMC Genomics, 2009 の Suppl. Fig. の下半分 どの報告結果もだいたいこんな感じです Griffith et al., Nat Methods, 2010 の Suppl. Fig. 9b(A) 21

他の比較結果 (RNA-Seq vs. マイクロアレイ ) 発現量レベルの比較 Liver サンプルの RNA-Seq データ vs. マイクロアレイデータ Mortazavi et al., Nat Methods, 2008 の Fig. 3c RPKM? 22

マイクロアレイデータの正規化 各サンプルから測定されたシグナル強度の和は一定 と仮定 チップ上の遺伝子数が少ない場合は非現実的だが 数千 ~ 数万種類の遺伝子が搭載されているので妥当 ( だろう ) グローバル正規化 背景 : サンプル (or chip) ごとにシグナル強度の総和は異なる対策 : 総和が任意の値 ( 例では 100) になるような正規化係数を掛ける例 :sample1 の正規化係数 = 100 / 73.7 23

RNA-Seq データの正規化 ( の一部 ) 各サンプルから sequence された総リード数は一定 と仮定 T1 RPM 正規化 Reads Per Million mapped reads(rpm) 正規化後の総リード数が 100 万 (one million) になるように補正例 :T1 の正規化係数 = 1000000 / 67 24

Mortazavi et al., Nature Methods, 5: 621-628, 2008 配列長の補正 配列長が長い遺伝子ほど沢山 sequence される それらの遺伝子上にマップされる生のリード数が増加傾向 配列長が長い遺伝子ほど発現レベルが高い傾向になる 発現レベルが同じで長さの異なる二つの mrnas 断片化して sequence マップされたリード数をカウント 一つのサンプル内での異なる遺伝子間の発現レベルの高低を ( 配列長を考慮せずに ) 比較することはできない 25

配列長の補正 前提条件 : 配列長が既知 補正の基本戦略 : 配列長で割る Mortazavi et al., Nature Methods, 5: 621-628, 2008 1 / 配列長 を掛ける場合 塩基あたりの平均のリード数 を計算しているのと等価 1000 / 配列長 を掛ける場合 その遺伝子の配列長が1000bpだったときのリード数 と等価 Reads Per Kilobase (of exon) 26

RPKM Mortazavi et al., Nature Methods, 5: 621-628, 2008 RPM 正規化 ( マイクロアレイなどと同じところ ) Reads per million mapped reads サンプルごとにマップされた総リード ( 塩基配列 ) 数が異なる 各遺伝子のマップされたリード数を 総 read 数が100 万 (one million) だった場合 に補正 raw counts:all reads= RPM : 1,000,000 A1BGの場合は 744 : 5,087,097 = RPM : 1,000,000 1,000,000 1,000,000 RPM raw counts 744 146.3 all reads 5,087,097 RPKM 正規化 (RNA-Seq 特有 ) Reads per kilobase of exon per million mapped reads 遺伝子の配列長が長いほど配列決定 (sequence) される確率が上昇 各遺伝子の配列長を 1000 塩基 (one kilobase) の長さだった場合 に補正 RPKM 1,000,000 1,000 raw counts all reads gene length 1,000,000,000 raw counts gene length all reads RPM 27

解析結果が配列長依存という問題 二群間比較など発現変動遺伝子 (DEG) 検出が目的の場合 ( いわゆる発現比でランキングする方法以外の ) 統計的方法を用いると 配列長の長いものほど DEG と判定される確率が上昇してしまう Oshlack and Wakefield, Biology Direct, 4:14, 2009 の Fig 1 理由 : 長い遺伝子ほどバラツキが小さくなる傾向 28

正規化後の RNA-Seq データ マイクロアレイデータと同様の解析が可能 クラスタリング 似た発現パターンを持つ遺伝子やサンプルの同定 発現変動遺伝子 二群間比較 組織特異的遺伝子など GSEA 解析 ( どの遺伝子セットが動いているか ) Gene Ontology 解析 パスウェイ解析など 解析の基本的なイメージはマイクロアレイと同じです 29

なぜ RNA-Seq? マイクロアレイに搭載されていない転写物も解析可能 転写物全体の配列情報を取得可能 (RefSeqのようなmulti-fasta 形式のファイルをゲットできるイメージ ) 選択的スプライシングの全体像の理解 発現変動 exon の同定 モデル生物 : より詳細なレベルでの理解非モデル生物 :( まずは ) 全体像の把握 exon1 2 3 4 5 mrna1 mrna2 mrna3 pre-mrna 1 1 1 2 RNA-Seq 2 3 2 3 4 4 4 5 発現解析用アレイタイリングアレイ exon アレイ SAGE 30