機能ゲノム学

Similar documents
機能ゲノム学(第6回)

NGSデータ解析入門Webセミナー

特論I

基本的な利用法

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

GWB

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

GWB

NGS速習コース

機能ゲノム学(第6回)

Rでゲノム・トランスクリプトーム解析

Rインストール手順

PowerPoint プレゼンテーション

機能ゲノム学(第6回)

特論I

NGSハンズオン講習会

NGS速習コース

機能ゲノム学(第6回)

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

リード・ゲノム・アノテーションインポート

農学生命情報科学特論I

基本的な利用法

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

機能ゲノム学(第6回)

PrimerArray® Analysis Tool Ver.2.2

機能ゲノム学(第6回)

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

GWB_RNA-Seq_

RNA-seq

GWB

AJACS18_ ppt

PowerPoint プレゼンテーション

Rでゲノム・トランスクリプトーム解析

PowerPoint プレゼンテーション

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

Slide 1

Rでゲノム・トランスクリプトーム解析

特論I

次世代シークエンサーを用いたがんクリニカルシークエンス解析

Rでトランスクリプトーム解析

KEGG.ppt

PowerPoint Presentation

Qlucore_seminar_slide_180604

ChIP-seq

Agilent 1色法 2条件比較 繰り返し実験なし

Outlook2010 の メール 連絡先 に関連する内容を解説します 注意 :Outlook2007 と Outlook2010 では 基本操作 基本画面が違うため この資料では Outlook2010 のみで参考にしてください Outlook2010 の画面構成について... 2 メールについて

電子13-06 エネメータ専用ソフト SAVER CAST for EneMeter Ver3.00設定方法.ppt

Rでゲノム・トランスクリプトーム解析

免疫形式文法

RNA-seq

■リアルタイムPCR実践編

PowerPoint プレゼンテーション

解析法

PowerPoint プレゼンテーション

目次 1. 変換の対象 砂防指定地 XML 作成メニュー シェープファイルからXMLへ変換 砂防指定地 XMLとシェープファイルの対応.csv 変換処理 CSVファイルによる属性指定... 5

Microsoft PowerPoint ppt

NGSハンズオン講習会

農業・農村基盤図の大字小字コードXML作成 説明書

Microsoft Word - NaviPortalFAQ-master.doc

データ科学2.pptx

リンクされたイメージを表示できません ファイルが移動または削除されたか 名前が変更された可能性があります リンクに正しいファイル名と場所が指定されていることを確認してください ここでは昨年までにいただいたご質問で多かったものについて その回答をまとめてあります 各種調査書様式の操作 Q12 調査書様

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響

CubePDF ユーザーズマニュアル

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

内容 1 はじめに インストールの手順 起動の手順 Enterprise Architect のプロジェクトファイルを開く 内容を参照する プロジェクトブラウザを利用する ダイアグラムを開く 便利な機能.

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

Microsoft Word - HOBO雨量専用説明書_v1.1.doc

バイオインフォマティクスⅠ

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

Rational Roseモデルの移行 マニュアル

Microsoft PowerPoint - KanriManual.ppt

Transcription:

08.05.08 版 講義資料 PDF が講義のページからダウンロード可能です 講義資料の印刷物はありません 課題用の A4 一枚はあります 第 回出席予定の持込み PC の方は 当日までに Java のインストールをしておいてください 機能ゲノム学第 回 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム 微生物科学イノベーション連携研究機構門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/

prerequisite デスクトップ上に hoge フォルダを作成してください 本科目のウェブページにいき 今日の講義で用いるファイルを hoge フォルダ上にダウンロードしておいてください 3 講義資料 PDF をざっと眺めておきましょう 3

確認 デスクトップ上の hoge フォルダ内がこんな感じになっていれば最低限 OK 3

講義予定 第 回 (08 年 05 月 08 日 ) 原理 ( マイクロアレイとRNA-seq) データ解析の概要 トランスクリプトーム配列解析 公共データベース (DB) 第 回 (08 年 05 月 5 日 ) 公共 DB 関連のTips FASTQ ウェブブラウザに注意 クオリティコントロール (FastQCなど) 第 3 回 (08 年 05 月 日 ) 発現変動解析 ( 多重比較問題と FDR) 各種プロット (M-A plot) 参考書の 3. 節と 4. 節周辺 第 4 回 (08 年 05 月 9 日 ) 発現変動解析 ( デザイン行列や 3 群間比較 ) 機能解析 (Gene Ontology 解析やパスウェイ解析 ) 細胞中で発現している全転写物 ( トランスクリプトーム ) 解析手法について 特に発現データ解析部分を中心に解説します また R のスキルアップを目指します できるだけ RNAseq の内容を取り入れます 第 3 回以降は変更の可能性大 ナノポアシークエンサーを用いた RNA-seq もホットトピック! 4

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 5

イントロダクション トランスクリプトームとは ある特定の状態の組織や細胞中に存在する全 RNA( 転写物 transcripts) の総体 様々なトランスクリプトーム解析技術 マイクロアレイ ( 配列既知の生物種 ) Affymetrix GeneChip Illumina BeadArray など 配列決定に基づく方法 ( 配列未知でもよい ) EST SAGE CAGE RNA-seq など 調べたいサンプルでゲノム中のどの領域が どういう時期に どの程度転写されている ( 発現している ) かを調べるのがトランスクリプトーム解析 遺伝子発現解析や発現解析は トランスクリプトーム解析の一部 6

トランスクリプトーム解析 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 働いている RNA の種類や量を調べるのが目的 ヒト AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) mrna 遺伝子 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない 7

トランスクリプトーム解析 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 働いているRNAの種類や量を調べるのが目的光刺激 ヒト AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 光刺激に応答して発現亢進するのは遺伝子 と 4 mrna 8

参考書 p3 トランスクリプトーム解析 光刺激前 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 状態の異なる複数サンプルのデータを取得して解析するのが一般的 サンプル間比較 光刺激後 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 9

トランスクリプトーム解析 光刺激前 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 具体的な目的は や の発現変動遺伝子同定など これがいわゆる 遺伝子発現行列 光刺激後 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 0

マイクロアレイ 参考書 p4 搭載遺伝子数や種類はメーカー次第 遺伝子 4 など 搭載されていない遺伝子や未知遺伝子の発現情報は測定不可 よく研究されている生き物は多数の遺伝子 ( の配列情報 ) がわかっている 遺伝子 遺伝子 遺伝子 3 遺伝子 4 光刺激前 (T) の目のトランスクリプトーム 蛍光標識 ハイブリダイゼーション 既知遺伝子 ( の配列の相補鎖 ) のプローブを搭載した チップ mm mm 程度

マイクロアレイ 光刺激前 (T) の目のトランスクリプトーム 蛍光標識 光刺激前 (T) と光刺激後 (T) の状態の数値データを比較して サンプル ( 状態 ) 間で発現に差がある遺伝子 ( 発現変動遺伝子 ;DEG) を同定 光刺激後 (T) の目のトランスクリプトーム ハイブリダイゼーション 専用の検出器で各遺伝子に対応する領域の蛍光シグナル強度を測定 ハイブリダイゼーションとシグナル検出 データ解析

RNA-seq 入力 : 抽出された RNA 参考書 p9 断片化 入力 : サンプルの RNA 出力 : 大量塩基配列データ 出力 : 塩基配列 NGS で配列決定 アダプター付加 Togo picture gallery by DBCLS is Licensed under a Creative Commons 表示. 日本 (c) 3

RNA-seq 入力 : 抽出された RNA NGS の出力は リードと呼ばれる数百塩基程度の配列が延々と続く巨大なファイル 各矢印が つのリードに相当 この段階では まだどのリードがどの転写物由来かは不明 ( なので灰色一色 ) 断片化 出力 : 塩基配列 NGS で配列決定 アダプター付加 Togo picture gallery by DBCLS is Licensed under a Creative Commons 表示. 日本 (c) 4

RNA-seq Illumina の場合は 両側から読む paired-end と片側のみ読む single-end の つのやり方が存在する の出力イメージは single-end の場合 入力 : 抽出された RNA 断片化 出力 : 塩基配列 NGSで ペアードエンド配列決定 (paired-end) 断片配列の両末端が数百塩基以内の対の 種類の配列が得られる アダプター付加 約 50-50 塩基 シングルエンド (single-end) Togo picture gallery by DBCLS is Licensed under a Creative Commons 表示. 日本 (c) 5

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 6

遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 赤枠部分の表現は 本当は不正確 昔は実験機器の解像度が事実上遺伝子レベルだった 遺伝子発現解析という表現はその名残り ヒト AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない mrna 7

遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 ある遺伝子領域から転写 (transcription) されている転写物 (transcript) は 種類とは限らない ヒト 8

遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 例えば 遺伝子 の領域では 3 種類の真の転写物が存在し そのうち 種類は既知とする ヒト 遺伝子領域 exon exon exon3 既知転写物 既知転写物 未知転写物 真の転写物情報 9

遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 実際の細胞内 ( 例 : 目のサンプル ) での発現情報 ( 働いている度合い ) が のような感じだったとする ヒト 遺伝子領域 高発現 exon exon exon3 既知転写物 既知転写物 低発現 未知転写物 中発現 真の転写物情報 真の発現情報 0

遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 NGS 機器を用いて転写されている mrna 配列決定 (RNA-seq) をした結果のイメージ ヒト 遺伝子領域 高発現 exon exon exon3 既知転写物 既知転写物 低発現 中発現 未知転写物 真の転写物情報 真の発現情報 RNA-seqで得られるリード情報 ( 色は不明 )

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど

データ解析の出発点 トランスクリプトーム (RNA-seq) データ解析の出発点は RNA-seq データファイル RNA-seq データ 3

データ解析の出発点 トランスクリプトーム (RNA-seq) データ解析の出発点は RNA-seq データファイル ゲノム配列情報 本当はゲノム配列でなくてもよく リファレンス配列のほうが正確 RNA-seq データ 4

トランスクリプトーム (RNA-seq) データ解析の出発点は RNA-seqデータファイル ゲノム配列情報 3アノテーション情報 ( ゲノム上のどこにどんな遺伝子 exon 転 3 写物が存在するかという情報 ) 遺伝子 遺伝子 遺伝子 3 遺伝子 4 データ解析の出発点 遺伝子領域 exon exon exon3 既知転写物 既知転写物 RNA-seq データ 5

解析結果のイメージ RNA-seq データ ゲノム配列情報 3 アノテーション情報を利用して 4 未知転写物 ( 新規 isoform) の同定ができる 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子領域 exon exon exon3 既知転写物 既知転写物 未知転写物 4 RNA-seq データ 6

解析結果のイメージ 遺伝子 遺伝子 遺伝子 3 遺伝子 4 RNA-seq データ ゲノム配列情報 3 アノテーション情報を利用して 4 未知転写物 ( 新規 isoform) の同定ができる 5 転写物の発現量 ( 働いている度合い ) 推定も原理的に可能 遺伝子領域 5 高発現 exon exon exon3 既知転写物 既知転写物 低発現 未知転写物 中発現 RNA-seq データ 7

具体的な戦略は? RNA-seq データ ゲノム配列情報 3 アノテーション情報を利用して 4 未知転写物 ( 新規 isoform) の同定ができる 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子領域 exon exon exon3 既知転写物 既知転写物 未知転写物 4 RNA-seq データ 8

具体的な戦略 RNA-seq データ中の 本 本のリード ( 横棒 ) がゲノム上のどの領域から転写されたのかを調べる 文字列検索と本質的に同じであり これがマッピングという作業に相当する ゲノム RNA-seq データ 9

具体的な戦略 RNA-seq データ中の 本 本のリード ( 横棒 ) がゲノム上のどの領域から転写されたのかを調べる 文字列検索と本質的に同じであり これがマッピングという作業に相当する ゲノム RNA-seq データ 30

具体的な戦略 リードの長さが初期は 35 塩基程度だったが 現在は数百塩基程度まで伸びている そのおかげで リードを分割してマップすることもできる ゲノム RNA-seq データ 3

具体的な戦略 分割してマップされたリードは 大抵の場合複数のエクソン (exon) をまたぐリードであり ジャンクションリード (junction read) と呼ばれる ジャンクションリード ゲノム exon exon exon3 RNA-seq データ 3

具体的な戦略 既知遺伝子 ( 転写物 ) の座標情報と比較することで 答え合わせも可能 ジャンクションリード ゲノム exon exon exon3 既知転写物 既知転写物 アノテーション情報 ( 既知遺伝子座標情報 ) RNA-seq データ 33

具体的な戦略 同様にして 他のジャンクションリードも既知転写物と比較することで ジャンクションリード ゲノム exon exon exon3 既知転写物 既知転写物 アノテーション情報 ( 既知遺伝子座標情報 ) RNA-seq データ 34

具体的な戦略 参考書 p-5 未知転写物 ( 新規 isoform) の同定も原理的に可能 未知転写物?! ジャンクションリード ゲノム exon exon exon3 既知転写物 既知転写物 アノテーション情報 ( 既知遺伝子座標情報 ) RNA-seq データ 35

新規転写物同定の例 RNA-seq( トランスクリプトーム解析 ) は 癌でよくみられる融合遺伝子の検出などにも利用されます 理由 : そこそこ発現している転写物は原理的に検出可能だから 肺がんでみられる ALK 融合遺伝子 (fusion gene) は有名な例ですが それ以外の 新たな融合遺伝子の発見などに役立っています 主に トランスクリプトーム配列解析 の話 RNA-seq データ 36

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 37

様々な解析目的 トランスクリプトーム ( 転写物 ) 配列取得 RNA-seq を利用 ゲノム配列既知の場合 : 遺伝子構造推定 新規 isoform 同定など ゲノム配列未知の場合 : トランスクリプトーム用アセンブラを実行 遺伝子または転写物ごとの発現量の正確な推定 主に RNA-seq ヒトやマウスなどのモデル生物はマイクロアレイも利用可能 比較するサンプル間で発現変動している遺伝子または転写物の同定 マイクロアレイ アレイが提供されていない生物種の解析は不可能 RNA-seq 非モデル生物 (non-model organisms) を取扱う場合には 選択肢は RNA-seq のみ 基本的に生物種非依存 任意のリファレンス配列 ( ゲノムまたはトランスクリプトーム ) にリードをマップし カウントデータ取得 統計解析 ゲノム配列がなくてもトランスクリプトーム配列をアセンブリで取得すればリファレンスとして利用可能 38

様々な解析目的 トランスクリプトーム配列取得 ゲノム配列既知の場合 参考 新規転写物同定などに相当 がメインプログラム 多くのメインプログラム内部で や 3 のプログラムが使われている 3 39

様々な解析目的 トランスクリプトーム配列取得 ゲノム配列未知の場合 参考 トランスクリプトーム配列の de novo アセンブリに相当 多くのプログラムは発現量 (FPKM 値 ) も出力してくれます 40

様々な解析目的 トランスクリプトーム配列取得 ゲノム配列未知の場合 参考 ターゲットサンプル中でそれほど発現していない転写物は de novo( から 最初から の意味 ) アセンブリが原理的に困難 これは Illumina short-read データをイメージしたもの 入力 :RNA-seq ファイル 出力 :FASTA ファイル >contig ( 既知転写物 ) de novo transcriptome assembly >contig ( 未知転写物 ) 通常は paired-end 4

様々な解析目的 発現量の正確な推定 参考 転写物の発現量を推定するのが目的の場合 4

様々な解析目的 発現変動解析 ( 群間比較 ) 参考 群間比較で 反復あり ( 複製あり ) データの場合は edger 反復なしの場合は DESeq を内部的に用いて頑健な結果を返す TCC がおススメ 反復の有無に応じて 内部的に用いるパッケージを自動で切り替える 43

ロングリードも 旧世代シーケンサー (ABI3730 など ):~,000 塩基 800 塩基程度 第 3 世代の 分子シークエンサの代表格である PacBio RS II/Sequel System は ゲノム配列決定で評価を得ているが 転写物配列を得る戦略も存在する NGS (short-read; Illumina):~ 数百塩基 数百塩基程度 NGS (long-read; PacBio や MinION):~ 数万塩基 44

ロングリードも おそらくこれが PacBio システムを用いて転写物配列を取得するという代表的な論文 これを引用している文献を見るなどすれば 最近の傾向が把握できる 例えば など ERP0035 (Sharon et al., Nat Biotechnol., 3: 009-04, 03) 45

ポータブル NGS システム おそらくこれが MinION システムに関する原著論文 Oxford Nanopore 社が開発した 小さな穴 ( ナノポア ) を用いた原理を用いているので nanopore MinION システムを用いた RNA-seq は これから論文が出始めると思います 3 ナノポアを使ったシークエンスの最初の論文はこれのようです 3 Cherf et al., Nat Biotechnol., 30: 344-348, 0 46

Oxford Nanopore 青色で示されたタンパク質で作られた小さい穴 (nanopore) を 緑で示された DNA 分子が通過する際の 3 特徴的な電流の乱れを計測することでシークエンスするテクノロジー 3 May 08 de lannoy et al., F000Res., 6: 083, 07 47

Direct RNA-seq RNA-seq との関連でいえば cdna への変換変換 ( 逆転写 ) PCR 増幅 サイズ選択も不要であり 文字通り RNA そのものを直接シークエンス可能な点が注目を集めている 日本語の特集号もあります May 08 Daralde et al., Nat Methods, 5: 0-06, 08 48

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 49

とあるガイドライン系論文 RNA-seq データを入力として実行する包括的な解析パイプライン RNACocktail を提唱した論文 Sahraeian et al., Nat Commun., 8(): 59, 07 50

RNACocktail 論文の図 論文の図 を見ることで どのようなデータ ( ショートリード or ロングリード ) で どのような解析目的の場合に どのようなツールが用いられているかの概要がわかる Sahraeian et al., Nat Commun., 8(): 59, 07 5

RNACocktail 論文の図 例えば ショートリードの マッピングの場合は 3HISAT などが使われるとか 3 Sahraeian et al., Nat Commun., 8(): 59, 07 5

RNACocktail 論文の図 ( ゲノム配列既知の場合で ) トランスクリプトーム配列取得 ( 遺伝子構造推定 ) の場合は マッピング結果を入力として 3 Cufflinks や StringTie というツールを用いるとか そういった全体像がわかります 3 Sahraeian et al., Nat Commun., 8(): 59, 07 53

RNACocktail 論文の図 本科目 ( 機能ゲノム学 ) では 発現解析のトピックを中心に教えますが 一口に 発現解析とは言っても 遺伝子 / 転写物ごとの発現量を推定 (abundance estimation) するときは 3 がよく使われ 3 Sahraeian et al., Nat Commun., 8(): 59, 07 54

RNACocktail 論文の図 本科目 ( 機能ゲノム学 ) では 発現解析のトピックを中心に教えますが 一口に 発現解析とは言っても 発現変動解析の場合は 3 がよく使われているなど 場合分けがいろいろあることがわかります 3 Sahraeian et al., Nat Commun., 8(): 59, 07 55

RNACocktail 論文の図 融合遺伝子検出の場合は マッピング (or アラインメント ) 結果を入力として用います 情報として利用可能な場合は 3 既知のアイソフォーム (isoform) 情報を用いて比較 評価することもあろうかと思いますので 矢印の向きも妥当ですね 3 Sahraeian et al., Nat Commun., 8(): 59, 07 56

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 57

アノテーション アノテーションファイルの形式は GFF/GTF が有名 58

GFF/GTF 形式ファイルの例 GFF3 形式 ( シロイヌナズナ ; TAIR0_GFF3_genes.gff) 他に refflat 形式など様々なファイル形式が存在します GTF 形式 ( ゼブラフィッシュ ; Danio_rerio.Zv9.75.gtf) 59

GFF の読み込み 読み込み段階でコケる 読み込みはうまくいったが その後の解析段階でコケるなど Linux 上での解析同様 一筋縄ではいきません 過去の受講生など多方面からの情報提供のおかげでだいぶ分かってきました 尚 参考書執筆当時の TranscriptDb という記述は TxDb に変更されています (p9 あたり ) 60

GFF の読み込み 例題 7 ここで用いている GFF 形式の入力ファイルは 3 から取得しました 3 をクリックしたつもりで次のスライドを眺める デスクトップ上の hoge フォルダ内に の gff ファイルはあります 3 6

Ensembl 解説 GFF ファイルはここから取得 の gzip 圧縮ファイルをダウンロードして解凍したものが入力ファイル 3 のあたりがバージョン番号 概ね 数か月単位でバージョン番号が上がる 講義で利用するのは 06 年 5 月の release 30 のファイルになります 3 Ensembl: Zerbino et al., Nucleic Acids Res., 46: D754-76, 08 6

Ensembl 解説 このゲノムの全貌は である程度把握可能 3 原著論文の情報なども合わせることで 4 ゲノムサイズが約.4MB 5,344 coding genes などの情報がわかる 6 でゲノム配列をダウンロードできる 6 4 5 3Tanizawa et al., BMC Genomics, 6: 40, 05 63

Ensembl 解説 いろんなものがあって私はよくわかりませんが GFF ファイルと一緒に取り扱いたいときには GFF ファイルと似た名前の を採用します 正確には このゲノムは つの染色体と つのプラスミド (plooc60- と plooc60-) からなっています はそのうちの染色体配列のみになります 3 ファイルサイズ的に これが 3 つの配列がまとめられたものなのでしょう 3 64

GFF の読み込み 例題 7 が読み込みの基本形 GenomicFeatures というパッケージが提供する 3makeTxDbFromGFF 関数を用いて GFF ファイルを読み込んで TxDb という独特の形式で取り扱えるようにする 3 65

GFF の読み込み 読み込み後の txdb オブジェクトの中身を表示 66

矛盾?! このゲノムは つの染色体と つのプラスミド (plooc60- と plooc60-) からなっています の結果は染色体のみの数値です の Ensembl ウェブサイト上で見られる数値と一致していません 67

課題 このゲノムは つの染色体と つのプラスミド (plooc60- と plooc60-) からなっています の結果は染色体のみの数値です の Ensembl ウェブサイト上で見られる数値と一致していません プラスミドの gff ファイル (plasmid.gff3 と plasmid.gff3) をそれぞれ読み込んで transcript_nrow (Gene transcripts) と cds_nrow (Coding genes) の情報を得て 3Ensembl ウェブサイト上の数値と絡めて簡単に考察せよ 3 3 68

課題 プラスミドの gff ファイル ( plasmid.gff3 と plasmid.gff3) はこちら 69

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 70

転写物配列取得 multi-fasta ファイル ( ゲノム配列情報 ) と GFF ファイル ( アノテーション情報 ) を同時に読み込むことで トランスクリプトーム ( 転写物 ) 配列情報を一気に取得することも可能 例題 5 3 は hoge フォルダ中にあります 3 3 7

転写物配列取得 は GFF ファイル情報を保持した txdb オブジェクトから transcripts という関数を用いて抽出したい転写物の座標情報を取得した結果を hoge に保存している 7

転写物配列取得 GFF ファイルの見方がよくわかっていなくても GFF ファイル中の のあたりと hoge オブジェクト中の と比較することで うまく読み込めているらしいことはわかる 73

転写物配列取得 in_f で指定したゲノム配列情報は ここで登場 のゲノム配列から 3 の hoge で指定した座標の塩基配列を 4(Biostrings パッケージが提供する )getseq 関数を用いて取得 5(Rsamtools パッケージが提供する )FaFile 関数は getseq 関数利用時に必要 5 4 4 3 74

転写物配列取得 getseq 実行後の fasta オブジェクトが 欲しいトランスクリプトーム配列情報ではあるが 75

転写物配列取得 の fasta オブジェクトをそのまま FASTA 形式で保存すると で見えているがままの description 情報が書きだされる つまり すべて Chromosome になってしまう 76

転写物配列取得 赤枠部分で行っているのは description 部分の記述内容を Chromosome_start_end として どこの座標由来の塩基配列かがわかるようにしている paste は 文字列を sep オプションで指定した文字を間に挟んで連結する関数 3 の例をみれば挙動がわかると期待 3 77

転写物配列取得 description 部分が変わっていることがわかる これを眺めるだけで 出力ファイルをみなくてもうまくいっていると判断できる ( と油断していると時々落とし穴があるので注意 ) 78

課題 この fasta オブジェクトを入力として 転写物数 塩基長の最大 (max) 最小 (min) 平均 (mean) を示せ 79

RNACocktail 論文の図 課題の位置づけについて説明 課題 で作成するトランスクリプトーム配列のmulti-FASTA ファイルが のReference transcriptです Sahraeian et al., Nat Commun., 8(): 59, 07 80

RNACocktail 論文の図 のReference transcriptは Mapping 3 Transcript assembly 4Abundance estimation などでリファレンス配列として使われます 3 4 Sahraeian et al., Nat Commun., 8(): 59, 07 8

RNACocktail 論文の図 リファレンス は 参照 という意味 マッピングは RNA-seqリードをマップする側として用い リファレンス配列のどこにマップされるかを調べる作業です リファレンス配列は ゲノム配列でもよいしトランスクリプトーム配列でもよいのです Sahraeian et al., Nat Commun., 8(): 59, 07 8

マッピングのイメージ 基本的なマッピングプログラム (bowtie など ) を用いた場合 リファレンス配列 : ゲノム ( 遺伝子 = 転写物ではないので若干不正確ではあるが )ゲノム配列以外にトランスクリプトーム配列もリファレンスとして使える という感覚を掴んでもらうのがこのスライドで学んでもらいたいこと count あるサンプルの RNA-Seq データ mapping 遺伝子 遺伝子 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 遺伝子 遺伝子 3 遺伝子 4 83

トランスクリプトーム配列をリファレンスとして使うメリットは リファレンスのサイズ ( トータルの配列長と同義 ) がゲノムに比べて圧倒的に小さいので マッピングがサクッと終わります また で示したようなexon 間にまたがるジャンクションリードのマッピングも リファレンスがトランスクリプトーム配列の場合リファレンス配列 : ゲノムは 全く気にする必要がありません count マッピングのイメージ 基本的なマッピングプログラム (bowtie など ) を用いた場合 あるサンプルの RNA-Seq データ mapping 遺伝子 遺伝子 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 遺伝子 遺伝子 3 遺伝子 4 84

デメリットは トランスクリプトーム配列はこれだ! と決め打ちしているようなものなので 新規転写物探しには向きません それが目的の場合は 通常はゲノム配列をリファレンスとして用います トランスクリプトーム配列をリファレンスとしてマッピングを行って 新規アイソフォームを発見するという戦略も既に存在するかもリファレンス配列 : ゲノムしれませんが あったとしてもフォローしきれません count マッピングのイメージ 基本的なマッピングプログラム (bowtie など ) を用いた場合 あるサンプルの RNA-Seq データ mapping 遺伝子 遺伝子 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 遺伝子 遺伝子 3 遺伝子 4 85

RNACocktail 論文の図 それゆえ リファレンスとしてトランスクリプトーム配列を用いるのは 実質的にヒトやマウスの場合に限定されます 様々な臓器や組織で発現する転写物のほとんど ( 多く?!) が同定されているからです Sahraeian et al., Nat Commun., 8(): 59, 07 86

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 87

公共 DB 参考書 p0-7 の公共 DB からで示しているのは トランスクリプトームに限らず NGS 全体の話 FASTQ 形式ファイルは データ解析の事実上の出発点 88

公共 DB NGS データの公共 DB は 日本 ( の DDBJ という組織 ) 米国 (NCBI) そして欧州 (EMBL-EBI) の三極で運用されている 3 89

大元は SRA 形式ファイル 公共 DB にある生データの大元は SRA と呼ばれる形式のファイル ( 拡張子が.sra) 日 3 米 4 欧の三極ともに.sra をダウンロード可能 3 4 90

FASTQ ファイルは FASTQ 形式ファイル ( 拡張子が.fastqまたは.fq) を提供しているのは 日 (DRA) と3 欧 (ENA) のみ 3 9

.sra から.fastq を作成 DRA と ENA は 3 大元の SRA ファイルを入力として (Linux 上で使える fastq-dump というプログラムを実行して )4FASTQ ファイルを作成し それを提供しています それゆえ SRA ファイルは公開済みでも FASTQ ファイルの公開が場合によっては数か月後になることもあります ( 一個人の昔の経験であり 今はどうかは知りません ) 4 3 9

Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 93

DRA を概観 DRA をちょっと眺める ネットワークの調子が悪い場合は アクセスできたつもりで講義スライドを眺めていこう 94

DRA を概観 DRASearch というページに飛ばしています 95

DRA を概観 以前は DRA 単体のトップページがありましたが のリンク先が DDBJ 本体のトップページに飛ぶように最近?! 切り替わったようです 96

Organism での分類 生物種 (Organism) での分類 ヒトやマウスのデータが圧倒的に多いのが分かります 97

Study Type での分類 Study Type での分類 最も多いのはゲノム配列決定 3 トランスクリプトーム解析もそれなりにやられていることがわかります 3 をクリック 3 98

参考書 p4, 7 Transcriptome Analysis が Transcriptome Analysis になりました DDBJ への登録日順 ( 古 新 ) になっていることがわかります 必然的に 3ID のシリアル番号も一桁台の数字が見られます 例えば 4 の DRA0000 をクリック 3 3 4 99

DRA0000 参考書 p4, 7 DRA は Submission ID データ登録時に付与されるもので 3 データ登録者に関する情報が含まれる 3 00

DRP0000 参考書 p4, 7 DRP は Study ID この研究に関する情報であり のリンク先を次のスライドで示す 0

DRP0000 参考書 p4, 7 タイトル 3Abstract 4 description などの情報からなる 4 3 0

DRX0000 参考書 p4, 7 DRX は Experiment ID 実験情報が記載されており ヒトのデータであり 3cDNA であり 4 single-end データである (pairedend ではない ) ことがわかります 4 3 03

DRX0000 参考書 p4, 7 プラットフォーム情報 ( どのメーカーの 3 どの NGS 機器で取得されたか ) 4 どのような処理手順 ( プロトコル ) で行われたのか 5 リード長はどれくらいか などの情報が含まれる 4 3 5 04

DRX0000 参考書 p4, ちなみに 7 Genome Analyzerという機種は NGS 機器の中でも相当古いものであり データ登録時の009 年頃はまだ使われていた NGSが出始めの頃は 36 塩基程度しか読めなかった それが ショートリードと評されていた所以です 05

DRS0000 参考書 p4, 7 DRS は Sample ID このデータの場合は 情報量が少ないですね のリンク先にいけばわかりますが ヒトのサンプルだということしかわかりません 06

DRR00003 参考書 NGS p4, の場合は 実験の単位をラン 7 (Run) といいます これはNGS 分野で大きなシェアを占める Illumina( によって買収されたSolexa 社 ) のプロトコルの言い回しが最初だったと思います 同じサンプルでもランごとに独立のIDが付与されます 07

DRR00003 参考書 p4, 7 これがリードの実体 DRR00003 の場合は 総リード数が 34,653,053 個あることがわかる ( 約 465 万リード ) リード長は 36 bp なので 総塩基数が 4,653,053 36 = 67,509,908 bp となる 4 の Number of bases と完全に一致 3 4 08

クオリティ情報 参考書 p0- quality のところにチェックをいれると クオリティスコア情報も表示される ベースコールとは A,C,G,T からなる 4 文字の塩基のうち どれか つを選択すること クオリティスコアは そのベースコール結果がどれだけ確からしいかをスコア化したものであり 高いほどよい 09

クオリティ情報 参考書 p0- 例えば 一番最初のリード ( リード ID が DRR00003.) の 最後の塩基のクオリティスコアは 340 と読み解きます 3 0

クオリティ情報 参考書 p0- また 4 番目のリード (DRR00003.4 ) の 右から 5 番目の塩基のクオリティスコアは 35 と読み解きます 3

ベースコールエラー率 参考書 p0- クオリティスコアqの閾値は 0や30が目安 q = 0はベースコール結果が間違っている確率 ( エラー率 p) が% という意味である また q = 30はp = 0.% に相当する

数式で表すと q = 0 log 0 (p) 参考書 p0- クオリティスコアqとエラー率 pの関係は 式で表されます 一見ややこしいですが p = 0.% = 0-3 だと考えれば意外と簡単です 3エラー率が低いほどクオリティスコアq は上がります q = 0 log 0 (0-3 ) q = 0 ( 3)=30 q = 0 log 0 (0-5 ) q = 0 ( 5)=50 3 3

数式で表すと q = 0 log 0 (p) 参考書 p0- クオリティスコアqとエラー率 pの関係は 式で表されます 一見ややこしいですが p = 0.% = 0-3 だと考えれば意外と簡単です 3エラー率が低いほどクオリティスコアq は上がります 4エラー率が高いほどクオリティスコアqは下がります q = 0 log 0 (0-3 ) q = 0 ( 3)=30 q = 0 log 0 (0-5 ) q = 0 ( 5)=50 q = 0 log 0 (0 - ) q = 0 ( )=0 3 4 4

クオリティスコア q = 5 の場合 クオリティスコア q が 5 の場合は が -0.5 になるので 3 エラー率 p = 0-0.5 = 0.36 となる 4G というベースコール結果は正確性が低いと判断する 4 3 q = 0 log 0 (0-0.5 ) q = 0 ( 0.5)=5 5

Tips こういうことです 乗して 0 になるのが 3.678 くらいであることを思い出せれば なんとか理解できるでしょう q = 0 log 0 (0-0.5 ) q = 0 ( 0.5)=5 6

おさらい クオリティスコア q の閾値は キリがいいので 0 や 30 が目安 7

データのダウンロード 3 DRA の場合は FASTQ 形式 3SRA 形式ファイルのいずれでもダウンロード可能 同じ番号のところなら どちらをクリックしてもよい 4 このデータは 0 年以上前のものから存在するので FASTQ と SRA の両方がダウンロード可能になっている 4 3 8

最新のデータだと これまで見ていたのは のデータなので を押して最新のデータがあると思われる最終ページに飛ぶ 9

最新のデータだと 最後のページに飛んだところ SUBMITTED の日付もないが 数字も大きいのでかなり最近公開されたものなのでしょう 例えば 3 をクリックすると 3 0

最新のデータだと こんな感じになりました この場合は FASTQ どころか SRA もまだダウンロードできないようですね こういうこともあります

そこそこのデータだと 4 3 ここを 600 とかにして SRA35409 を見てみる 見る日によっても位置は異なるかもしれないので 3 で一旦 Search home に戻ってから 4 の Accession のところに SRA35409 と打ち込んでもいいかも

そこそこのデータだと 同じ Submission ID でも 一部の SRA 形式ファイルのみしかダウンロードできないようなものもあります 実は SRA35409 の場合 欧の EMBL-EBI ENA で FASTQ ファイルをダウンロード可能 3

公共 DB NGS データの公共 DB は DDBJ SRA NCBI SRA 3EMBL-EBI ENA の三極で運用されており データ共有がなされている とはいえ タイムラグは結構あるので注意してください 3 4