機能ゲノム学

Size: px
Start display at page:

Download "機能ゲノム学"

Transcription

1 版 講義資料 PDF が講義のページからダウンロード可能です 講義資料の印刷物はありません 課題用の A4 一枚はあります 第 回出席予定の持込み PC の方は 当日までに Java のインストールをしておいてください 機能ゲノム学第 回 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム 微生物科学イノベーション連携研究機構門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

2 prerequisite デスクトップ上に hoge フォルダを作成してください 本科目のウェブページにいき 今日の講義で用いるファイルを hoge フォルダ上にダウンロードしておいてください 3 講義資料 PDF をざっと眺めておきましょう 3

3 確認 デスクトップ上の hoge フォルダ内がこんな感じになっていれば最低限 OK 3

4 講義予定 第 回 (08 年 05 月 08 日 ) 原理 ( マイクロアレイとRNA-seq) データ解析の概要 トランスクリプトーム配列解析 公共データベース (DB) 第 回 (08 年 05 月 5 日 ) 公共 DB 関連のTips FASTQ ウェブブラウザに注意 クオリティコントロール (FastQCなど) 第 3 回 (08 年 05 月 日 ) 発現変動解析 ( 多重比較問題と FDR) 各種プロット (M-A plot) 参考書の 3. 節と 4. 節周辺 第 4 回 (08 年 05 月 9 日 ) 発現変動解析 ( デザイン行列や 3 群間比較 ) 機能解析 (Gene Ontology 解析やパスウェイ解析 ) 細胞中で発現している全転写物 ( トランスクリプトーム ) 解析手法について 特に発現データ解析部分を中心に解説します また R のスキルアップを目指します できるだけ RNAseq の内容を取り入れます 第 3 回以降は変更の可能性大 ナノポアシークエンサーを用いた RNA-seq もホットトピック! 4

5 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 5

6 イントロダクション トランスクリプトームとは ある特定の状態の組織や細胞中に存在する全 RNA( 転写物 transcripts) の総体 様々なトランスクリプトーム解析技術 マイクロアレイ ( 配列既知の生物種 ) Affymetrix GeneChip Illumina BeadArray など 配列決定に基づく方法 ( 配列未知でもよい ) EST SAGE CAGE RNA-seq など 調べたいサンプルでゲノム中のどの領域が どういう時期に どの程度転写されている ( 発現している ) かを調べるのがトランスクリプトーム解析 遺伝子発現解析や発現解析は トランスクリプトーム解析の一部 6

7 トランスクリプトーム解析 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 働いている RNA の種類や量を調べるのが目的 ヒト AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) mrna 遺伝子 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない 7

8 トランスクリプトーム解析 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 働いているRNAの種類や量を調べるのが目的光刺激 ヒト AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 光刺激に応答して発現亢進するのは遺伝子 と 4 mrna 8

9 参考書 p3 トランスクリプトーム解析 光刺激前 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 状態の異なる複数サンプルのデータを取得して解析するのが一般的 サンプル間比較 光刺激後 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 9

10 トランスクリプトーム解析 光刺激前 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 具体的な目的は や の発現変動遺伝子同定など これがいわゆる 遺伝子発現行列 光刺激後 (T) の目のトランスクリプトーム 遺伝子 遺伝子 遺伝子 3 遺伝子 4 0

11 マイクロアレイ 参考書 p4 搭載遺伝子数や種類はメーカー次第 遺伝子 4 など 搭載されていない遺伝子や未知遺伝子の発現情報は測定不可 よく研究されている生き物は多数の遺伝子 ( の配列情報 ) がわかっている 遺伝子 遺伝子 遺伝子 3 遺伝子 4 光刺激前 (T) の目のトランスクリプトーム 蛍光標識 ハイブリダイゼーション 既知遺伝子 ( の配列の相補鎖 ) のプローブを搭載した チップ mm mm 程度

12 マイクロアレイ 光刺激前 (T) の目のトランスクリプトーム 蛍光標識 光刺激前 (T) と光刺激後 (T) の状態の数値データを比較して サンプル ( 状態 ) 間で発現に差がある遺伝子 ( 発現変動遺伝子 ;DEG) を同定 光刺激後 (T) の目のトランスクリプトーム ハイブリダイゼーション 専用の検出器で各遺伝子に対応する領域の蛍光シグナル強度を測定 ハイブリダイゼーションとシグナル検出 データ解析

13 RNA-seq 入力 : 抽出された RNA 参考書 p9 断片化 入力 : サンプルの RNA 出力 : 大量塩基配列データ 出力 : 塩基配列 NGS で配列決定 アダプター付加 Togo picture gallery by DBCLS is Licensed under a Creative Commons 表示. 日本 (c) 3

14 RNA-seq 入力 : 抽出された RNA NGS の出力は リードと呼ばれる数百塩基程度の配列が延々と続く巨大なファイル 各矢印が つのリードに相当 この段階では まだどのリードがどの転写物由来かは不明 ( なので灰色一色 ) 断片化 出力 : 塩基配列 NGS で配列決定 アダプター付加 Togo picture gallery by DBCLS is Licensed under a Creative Commons 表示. 日本 (c) 4

15 RNA-seq Illumina の場合は 両側から読む paired-end と片側のみ読む single-end の つのやり方が存在する の出力イメージは single-end の場合 入力 : 抽出された RNA 断片化 出力 : 塩基配列 NGSで ペアードエンド配列決定 (paired-end) 断片配列の両末端が数百塩基以内の対の 種類の配列が得られる アダプター付加 約 塩基 シングルエンド (single-end) Togo picture gallery by DBCLS is Licensed under a Creative Commons 表示. 日本 (c) 5

16 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 6

17 遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) 赤枠部分の表現は 本当は不正確 昔は実験機器の解像度が事実上遺伝子レベルだった 遺伝子発現解析という表現はその名残り ヒト AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない mrna 7

18 遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 ある遺伝子領域から転写 (transcription) されている転写物 (transcript) は 種類とは限らない ヒト 8

19 遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 例えば 遺伝子 の領域では 3 種類の真の転写物が存在し そのうち 種類は既知とする ヒト 遺伝子領域 exon exon exon3 既知転写物 既知転写物 未知転写物 真の転写物情報 9

20 遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 実際の細胞内 ( 例 : 目のサンプル ) での発現情報 ( 働いている度合い ) が のような感じだったとする ヒト 遺伝子領域 高発現 exon exon exon3 既知転写物 既知転写物 低発現 未知転写物 中発現 真の転写物情報 真の発現情報 0

21 遺伝子 転写物 ある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域 遺伝子 遺伝子 遺伝子 3 遺伝子 4 NGS 機器を用いて転写されている mrna 配列決定 (RNA-seq) をした結果のイメージ ヒト 遺伝子領域 高発現 exon exon exon3 既知転写物 既知転写物 低発現 中発現 未知転写物 真の転写物情報 真の発現情報 RNA-seqで得られるリード情報 ( 色は不明 )

22 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど

23 データ解析の出発点 トランスクリプトーム (RNA-seq) データ解析の出発点は RNA-seq データファイル RNA-seq データ 3

24 データ解析の出発点 トランスクリプトーム (RNA-seq) データ解析の出発点は RNA-seq データファイル ゲノム配列情報 本当はゲノム配列でなくてもよく リファレンス配列のほうが正確 RNA-seq データ 4

25 トランスクリプトーム (RNA-seq) データ解析の出発点は RNA-seqデータファイル ゲノム配列情報 3アノテーション情報 ( ゲノム上のどこにどんな遺伝子 exon 転 3 写物が存在するかという情報 ) 遺伝子 遺伝子 遺伝子 3 遺伝子 4 データ解析の出発点 遺伝子領域 exon exon exon3 既知転写物 既知転写物 RNA-seq データ 5

26 解析結果のイメージ RNA-seq データ ゲノム配列情報 3 アノテーション情報を利用して 4 未知転写物 ( 新規 isoform) の同定ができる 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子領域 exon exon exon3 既知転写物 既知転写物 未知転写物 4 RNA-seq データ 6

27 解析結果のイメージ 遺伝子 遺伝子 遺伝子 3 遺伝子 4 RNA-seq データ ゲノム配列情報 3 アノテーション情報を利用して 4 未知転写物 ( 新規 isoform) の同定ができる 5 転写物の発現量 ( 働いている度合い ) 推定も原理的に可能 遺伝子領域 5 高発現 exon exon exon3 既知転写物 既知転写物 低発現 未知転写物 中発現 RNA-seq データ 7

28 具体的な戦略は? RNA-seq データ ゲノム配列情報 3 アノテーション情報を利用して 4 未知転写物 ( 新規 isoform) の同定ができる 遺伝子 遺伝子 遺伝子 3 遺伝子 4 遺伝子領域 exon exon exon3 既知転写物 既知転写物 未知転写物 4 RNA-seq データ 8

29 具体的な戦略 RNA-seq データ中の 本 本のリード ( 横棒 ) がゲノム上のどの領域から転写されたのかを調べる 文字列検索と本質的に同じであり これがマッピングという作業に相当する ゲノム RNA-seq データ 9

30 具体的な戦略 RNA-seq データ中の 本 本のリード ( 横棒 ) がゲノム上のどの領域から転写されたのかを調べる 文字列検索と本質的に同じであり これがマッピングという作業に相当する ゲノム RNA-seq データ 30

31 具体的な戦略 リードの長さが初期は 35 塩基程度だったが 現在は数百塩基程度まで伸びている そのおかげで リードを分割してマップすることもできる ゲノム RNA-seq データ 3

32 具体的な戦略 分割してマップされたリードは 大抵の場合複数のエクソン (exon) をまたぐリードであり ジャンクションリード (junction read) と呼ばれる ジャンクションリード ゲノム exon exon exon3 RNA-seq データ 3

33 具体的な戦略 既知遺伝子 ( 転写物 ) の座標情報と比較することで 答え合わせも可能 ジャンクションリード ゲノム exon exon exon3 既知転写物 既知転写物 アノテーション情報 ( 既知遺伝子座標情報 ) RNA-seq データ 33

34 具体的な戦略 同様にして 他のジャンクションリードも既知転写物と比較することで ジャンクションリード ゲノム exon exon exon3 既知転写物 既知転写物 アノテーション情報 ( 既知遺伝子座標情報 ) RNA-seq データ 34

35 具体的な戦略 参考書 p-5 未知転写物 ( 新規 isoform) の同定も原理的に可能 未知転写物?! ジャンクションリード ゲノム exon exon exon3 既知転写物 既知転写物 アノテーション情報 ( 既知遺伝子座標情報 ) RNA-seq データ 35

36 新規転写物同定の例 RNA-seq( トランスクリプトーム解析 ) は 癌でよくみられる融合遺伝子の検出などにも利用されます 理由 : そこそこ発現している転写物は原理的に検出可能だから 肺がんでみられる ALK 融合遺伝子 (fusion gene) は有名な例ですが それ以外の 新たな融合遺伝子の発見などに役立っています 主に トランスクリプトーム配列解析 の話 RNA-seq データ 36

37 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 37

38 様々な解析目的 トランスクリプトーム ( 転写物 ) 配列取得 RNA-seq を利用 ゲノム配列既知の場合 : 遺伝子構造推定 新規 isoform 同定など ゲノム配列未知の場合 : トランスクリプトーム用アセンブラを実行 遺伝子または転写物ごとの発現量の正確な推定 主に RNA-seq ヒトやマウスなどのモデル生物はマイクロアレイも利用可能 比較するサンプル間で発現変動している遺伝子または転写物の同定 マイクロアレイ アレイが提供されていない生物種の解析は不可能 RNA-seq 非モデル生物 (non-model organisms) を取扱う場合には 選択肢は RNA-seq のみ 基本的に生物種非依存 任意のリファレンス配列 ( ゲノムまたはトランスクリプトーム ) にリードをマップし カウントデータ取得 統計解析 ゲノム配列がなくてもトランスクリプトーム配列をアセンブリで取得すればリファレンスとして利用可能 38

39 様々な解析目的 トランスクリプトーム配列取得 ゲノム配列既知の場合 参考 新規転写物同定などに相当 がメインプログラム 多くのメインプログラム内部で や 3 のプログラムが使われている 3 39

40 様々な解析目的 トランスクリプトーム配列取得 ゲノム配列未知の場合 参考 トランスクリプトーム配列の de novo アセンブリに相当 多くのプログラムは発現量 (FPKM 値 ) も出力してくれます 40

41 様々な解析目的 トランスクリプトーム配列取得 ゲノム配列未知の場合 参考 ターゲットサンプル中でそれほど発現していない転写物は de novo( から 最初から の意味 ) アセンブリが原理的に困難 これは Illumina short-read データをイメージしたもの 入力 :RNA-seq ファイル 出力 :FASTA ファイル >contig ( 既知転写物 ) de novo transcriptome assembly >contig ( 未知転写物 ) 通常は paired-end 4

42 様々な解析目的 発現量の正確な推定 参考 転写物の発現量を推定するのが目的の場合 4

43 様々な解析目的 発現変動解析 ( 群間比較 ) 参考 群間比較で 反復あり ( 複製あり ) データの場合は edger 反復なしの場合は DESeq を内部的に用いて頑健な結果を返す TCC がおススメ 反復の有無に応じて 内部的に用いるパッケージを自動で切り替える 43

44 ロングリードも 旧世代シーケンサー (ABI3730 など ):~,000 塩基 800 塩基程度 第 3 世代の 分子シークエンサの代表格である PacBio RS II/Sequel System は ゲノム配列決定で評価を得ているが 転写物配列を得る戦略も存在する NGS (short-read; Illumina):~ 数百塩基 数百塩基程度 NGS (long-read; PacBio や MinION):~ 数万塩基 44

45 ロングリードも おそらくこれが PacBio システムを用いて転写物配列を取得するという代表的な論文 これを引用している文献を見るなどすれば 最近の傾向が把握できる 例えば など ERP0035 (Sharon et al., Nat Biotechnol., 3: , 03) 45

46 ポータブル NGS システム おそらくこれが MinION システムに関する原著論文 Oxford Nanopore 社が開発した 小さな穴 ( ナノポア ) を用いた原理を用いているので nanopore MinION システムを用いた RNA-seq は これから論文が出始めると思います 3 ナノポアを使ったシークエンスの最初の論文はこれのようです 3 Cherf et al., Nat Biotechnol., 30: , 0 46

47 Oxford Nanopore 青色で示されたタンパク質で作られた小さい穴 (nanopore) を 緑で示された DNA 分子が通過する際の 3 特徴的な電流の乱れを計測することでシークエンスするテクノロジー 3 May 08 de lannoy et al., F000Res., 6: 083, 07 47

48 Direct RNA-seq RNA-seq との関連でいえば cdna への変換変換 ( 逆転写 ) PCR 増幅 サイズ選択も不要であり 文字通り RNA そのものを直接シークエンス可能な点が注目を集めている 日本語の特集号もあります May 08 Daralde et al., Nat Methods, 5: 0-06, 08 48

49 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 49

50 とあるガイドライン系論文 RNA-seq データを入力として実行する包括的な解析パイプライン RNACocktail を提唱した論文 Sahraeian et al., Nat Commun., 8(): 59, 07 50

51 RNACocktail 論文の図 論文の図 を見ることで どのようなデータ ( ショートリード or ロングリード ) で どのような解析目的の場合に どのようなツールが用いられているかの概要がわかる Sahraeian et al., Nat Commun., 8(): 59, 07 5

52 RNACocktail 論文の図 例えば ショートリードの マッピングの場合は 3HISAT などが使われるとか 3 Sahraeian et al., Nat Commun., 8(): 59, 07 5

53 RNACocktail 論文の図 ( ゲノム配列既知の場合で ) トランスクリプトーム配列取得 ( 遺伝子構造推定 ) の場合は マッピング結果を入力として 3 Cufflinks や StringTie というツールを用いるとか そういった全体像がわかります 3 Sahraeian et al., Nat Commun., 8(): 59, 07 53

54 RNACocktail 論文の図 本科目 ( 機能ゲノム学 ) では 発現解析のトピックを中心に教えますが 一口に 発現解析とは言っても 遺伝子 / 転写物ごとの発現量を推定 (abundance estimation) するときは 3 がよく使われ 3 Sahraeian et al., Nat Commun., 8(): 59, 07 54

55 RNACocktail 論文の図 本科目 ( 機能ゲノム学 ) では 発現解析のトピックを中心に教えますが 一口に 発現解析とは言っても 発現変動解析の場合は 3 がよく使われているなど 場合分けがいろいろあることがわかります 3 Sahraeian et al., Nat Commun., 8(): 59, 07 55

56 RNACocktail 論文の図 融合遺伝子検出の場合は マッピング (or アラインメント ) 結果を入力として用います 情報として利用可能な場合は 3 既知のアイソフォーム (isoform) 情報を用いて比較 評価することもあろうかと思いますので 矢印の向きも妥当ですね 3 Sahraeian et al., Nat Commun., 8(): 59, 07 56

57 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 57

58 アノテーション アノテーションファイルの形式は GFF/GTF が有名 58

59 GFF/GTF 形式ファイルの例 GFF3 形式 ( シロイヌナズナ ; TAIR0_GFF3_genes.gff) 他に refflat 形式など様々なファイル形式が存在します GTF 形式 ( ゼブラフィッシュ ; Danio_rerio.Zv9.75.gtf) 59

60 GFF の読み込み 読み込み段階でコケる 読み込みはうまくいったが その後の解析段階でコケるなど Linux 上での解析同様 一筋縄ではいきません 過去の受講生など多方面からの情報提供のおかげでだいぶ分かってきました 尚 参考書執筆当時の TranscriptDb という記述は TxDb に変更されています (p9 あたり ) 60

61 GFF の読み込み 例題 7 ここで用いている GFF 形式の入力ファイルは 3 から取得しました 3 をクリックしたつもりで次のスライドを眺める デスクトップ上の hoge フォルダ内に の gff ファイルはあります 3 6

62 Ensembl 解説 GFF ファイルはここから取得 の gzip 圧縮ファイルをダウンロードして解凍したものが入力ファイル 3 のあたりがバージョン番号 概ね 数か月単位でバージョン番号が上がる 講義で利用するのは 06 年 5 月の release 30 のファイルになります 3 Ensembl: Zerbino et al., Nucleic Acids Res., 46: D754-76, 08 6

63 Ensembl 解説 このゲノムの全貌は である程度把握可能 3 原著論文の情報なども合わせることで 4 ゲノムサイズが約.4MB 5,344 coding genes などの情報がわかる 6 でゲノム配列をダウンロードできる Tanizawa et al., BMC Genomics, 6: 40, 05 63

64 Ensembl 解説 いろんなものがあって私はよくわかりませんが GFF ファイルと一緒に取り扱いたいときには GFF ファイルと似た名前の を採用します 正確には このゲノムは つの染色体と つのプラスミド (plooc60- と plooc60-) からなっています はそのうちの染色体配列のみになります 3 ファイルサイズ的に これが 3 つの配列がまとめられたものなのでしょう 3 64

65 GFF の読み込み 例題 7 が読み込みの基本形 GenomicFeatures というパッケージが提供する 3makeTxDbFromGFF 関数を用いて GFF ファイルを読み込んで TxDb という独特の形式で取り扱えるようにする 3 65

66 GFF の読み込み 読み込み後の txdb オブジェクトの中身を表示 66

67 矛盾?! このゲノムは つの染色体と つのプラスミド (plooc60- と plooc60-) からなっています の結果は染色体のみの数値です の Ensembl ウェブサイト上で見られる数値と一致していません 67

68 課題 このゲノムは つの染色体と つのプラスミド (plooc60- と plooc60-) からなっています の結果は染色体のみの数値です の Ensembl ウェブサイト上で見られる数値と一致していません プラスミドの gff ファイル (plasmid.gff3 と plasmid.gff3) をそれぞれ読み込んで transcript_nrow (Gene transcripts) と cds_nrow (Coding genes) の情報を得て 3Ensembl ウェブサイト上の数値と絡めて簡単に考察せよ

69 課題 プラスミドの gff ファイル ( plasmid.gff3 と plasmid.gff3) はこちら 69

70 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 70

71 転写物配列取得 multi-fasta ファイル ( ゲノム配列情報 ) と GFF ファイル ( アノテーション情報 ) を同時に読み込むことで トランスクリプトーム ( 転写物 ) 配列情報を一気に取得することも可能 例題 5 3 は hoge フォルダ中にあります 3 3 7

72 転写物配列取得 は GFF ファイル情報を保持した txdb オブジェクトから transcripts という関数を用いて抽出したい転写物の座標情報を取得した結果を hoge に保存している 7

73 転写物配列取得 GFF ファイルの見方がよくわかっていなくても GFF ファイル中の のあたりと hoge オブジェクト中の と比較することで うまく読み込めているらしいことはわかる 73

74 転写物配列取得 in_f で指定したゲノム配列情報は ここで登場 のゲノム配列から 3 の hoge で指定した座標の塩基配列を 4(Biostrings パッケージが提供する )getseq 関数を用いて取得 5(Rsamtools パッケージが提供する )FaFile 関数は getseq 関数利用時に必要

75 転写物配列取得 getseq 実行後の fasta オブジェクトが 欲しいトランスクリプトーム配列情報ではあるが 75

76 転写物配列取得 の fasta オブジェクトをそのまま FASTA 形式で保存すると で見えているがままの description 情報が書きだされる つまり すべて Chromosome になってしまう 76

77 転写物配列取得 赤枠部分で行っているのは description 部分の記述内容を Chromosome_start_end として どこの座標由来の塩基配列かがわかるようにしている paste は 文字列を sep オプションで指定した文字を間に挟んで連結する関数 3 の例をみれば挙動がわかると期待 3 77

78 転写物配列取得 description 部分が変わっていることがわかる これを眺めるだけで 出力ファイルをみなくてもうまくいっていると判断できる ( と油断していると時々落とし穴があるので注意 ) 78

79 課題 この fasta オブジェクトを入力として 転写物数 塩基長の最大 (max) 最小 (min) 平均 (mean) を示せ 79

80 RNACocktail 論文の図 課題の位置づけについて説明 課題 で作成するトランスクリプトーム配列のmulti-FASTA ファイルが のReference transcriptです Sahraeian et al., Nat Commun., 8(): 59, 07 80

81 RNACocktail 論文の図 のReference transcriptは Mapping 3 Transcript assembly 4Abundance estimation などでリファレンス配列として使われます 3 4 Sahraeian et al., Nat Commun., 8(): 59, 07 8

82 RNACocktail 論文の図 リファレンス は 参照 という意味 マッピングは RNA-seqリードをマップする側として用い リファレンス配列のどこにマップされるかを調べる作業です リファレンス配列は ゲノム配列でもよいしトランスクリプトーム配列でもよいのです Sahraeian et al., Nat Commun., 8(): 59, 07 8

83 マッピングのイメージ 基本的なマッピングプログラム (bowtie など ) を用いた場合 リファレンス配列 : ゲノム ( 遺伝子 = 転写物ではないので若干不正確ではあるが )ゲノム配列以外にトランスクリプトーム配列もリファレンスとして使える という感覚を掴んでもらうのがこのスライドで学んでもらいたいこと count あるサンプルの RNA-Seq データ mapping 遺伝子 遺伝子 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 遺伝子 遺伝子 3 遺伝子 4 83

84 トランスクリプトーム配列をリファレンスとして使うメリットは リファレンスのサイズ ( トータルの配列長と同義 ) がゲノムに比べて圧倒的に小さいので マッピングがサクッと終わります また で示したようなexon 間にまたがるジャンクションリードのマッピングも リファレンスがトランスクリプトーム配列の場合リファレンス配列 : ゲノムは 全く気にする必要がありません count マッピングのイメージ 基本的なマッピングプログラム (bowtie など ) を用いた場合 あるサンプルの RNA-Seq データ mapping 遺伝子 遺伝子 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 遺伝子 遺伝子 3 遺伝子 4 84

85 デメリットは トランスクリプトーム配列はこれだ! と決め打ちしているようなものなので 新規転写物探しには向きません それが目的の場合は 通常はゲノム配列をリファレンスとして用います トランスクリプトーム配列をリファレンスとしてマッピングを行って 新規アイソフォームを発見するという戦略も既に存在するかもリファレンス配列 : ゲノムしれませんが あったとしてもフォローしきれません count マッピングのイメージ 基本的なマッピングプログラム (bowtie など ) を用いた場合 あるサンプルの RNA-Seq データ mapping 遺伝子 遺伝子 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 遺伝子 遺伝子 3 遺伝子 4 85

86 RNACocktail 論文の図 それゆえ リファレンスとしてトランスクリプトーム配列を用いるのは 実質的にヒトやマウスの場合に限定されます 様々な臓器や組織で発現する転写物のほとんど ( 多く?!) が同定されているからです Sahraeian et al., Nat Commun., 8(): 59, 07 86

87 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 87

88 公共 DB 参考書 p0-7 の公共 DB からで示しているのは トランスクリプトームに限らず NGS 全体の話 FASTQ 形式ファイルは データ解析の事実上の出発点 88

89 公共 DB NGS データの公共 DB は 日本 ( の DDBJ という組織 ) 米国 (NCBI) そして欧州 (EMBL-EBI) の三極で運用されている 3 89

90 大元は SRA 形式ファイル 公共 DB にある生データの大元は SRA と呼ばれる形式のファイル ( 拡張子が.sra) 日 3 米 4 欧の三極ともに.sra をダウンロード可能

91 FASTQ ファイルは FASTQ 形式ファイル ( 拡張子が.fastqまたは.fq) を提供しているのは 日 (DRA) と3 欧 (ENA) のみ 3 9

92 .sra から.fastq を作成 DRA と ENA は 3 大元の SRA ファイルを入力として (Linux 上で使える fastq-dump というプログラムを実行して )4FASTQ ファイルを作成し それを提供しています それゆえ SRA ファイルは公開済みでも FASTQ ファイルの公開が場合によっては数か月後になることもあります ( 一個人の昔の経験であり 今はどうかは知りません ) 4 3 9

93 Contents トランスクリプトーム解析技術の原理や特徴 マイクロアレイと RNA-seq 遺伝子 転写物 RNA-seq データ解析のイメージ マッピング 新規転写物の同定 様々な解析目的 ショートリードの Illumina ロングリードの PacBio と MinION データ解析の全体像 ( 入出力の関係や代表的なツール ) アノテーションファイルの読み込みと課題 R で転写物配列取得のイントロ R で転写物配列取得と課題 アノテーションファイルとゲノム情報ファイルから 公共データベース NGS 全体 (NCBI SRA, EMBL-EBI ENA, DDBJ SRA) DRA の概要 クオリティスコアなど 93

94 DRA を概観 DRA をちょっと眺める ネットワークの調子が悪い場合は アクセスできたつもりで講義スライドを眺めていこう 94

95 DRA を概観 DRASearch というページに飛ばしています 95

96 DRA を概観 以前は DRA 単体のトップページがありましたが のリンク先が DDBJ 本体のトップページに飛ぶように最近?! 切り替わったようです 96

97 Organism での分類 生物種 (Organism) での分類 ヒトやマウスのデータが圧倒的に多いのが分かります 97

98 Study Type での分類 Study Type での分類 最も多いのはゲノム配列決定 3 トランスクリプトーム解析もそれなりにやられていることがわかります 3 をクリック 3 98

99 参考書 p4, 7 Transcriptome Analysis が Transcriptome Analysis になりました DDBJ への登録日順 ( 古 新 ) になっていることがわかります 必然的に 3ID のシリアル番号も一桁台の数字が見られます 例えば 4 の DRA0000 をクリック

100 DRA0000 参考書 p4, 7 DRA は Submission ID データ登録時に付与されるもので 3 データ登録者に関する情報が含まれる 3 00

101 DRP0000 参考書 p4, 7 DRP は Study ID この研究に関する情報であり のリンク先を次のスライドで示す 0

102 DRP0000 参考書 p4, 7 タイトル 3Abstract 4 description などの情報からなる 4 3 0

103 DRX0000 参考書 p4, 7 DRX は Experiment ID 実験情報が記載されており ヒトのデータであり 3cDNA であり 4 single-end データである (pairedend ではない ) ことがわかります

104 DRX0000 参考書 p4, 7 プラットフォーム情報 ( どのメーカーの 3 どの NGS 機器で取得されたか ) 4 どのような処理手順 ( プロトコル ) で行われたのか 5 リード長はどれくらいか などの情報が含まれる

105 DRX0000 参考書 p4, ちなみに 7 Genome Analyzerという機種は NGS 機器の中でも相当古いものであり データ登録時の009 年頃はまだ使われていた NGSが出始めの頃は 36 塩基程度しか読めなかった それが ショートリードと評されていた所以です 05

106 DRS0000 参考書 p4, 7 DRS は Sample ID このデータの場合は 情報量が少ないですね のリンク先にいけばわかりますが ヒトのサンプルだということしかわかりません 06

107 DRR00003 参考書 NGS p4, の場合は 実験の単位をラン 7 (Run) といいます これはNGS 分野で大きなシェアを占める Illumina( によって買収されたSolexa 社 ) のプロトコルの言い回しが最初だったと思います 同じサンプルでもランごとに独立のIDが付与されます 07

108 DRR00003 参考書 p4, 7 これがリードの実体 DRR00003 の場合は 総リード数が 34,653,053 個あることがわかる ( 約 465 万リード ) リード長は 36 bp なので 総塩基数が 4,653, = 67,509,908 bp となる 4 の Number of bases と完全に一致

109 クオリティ情報 参考書 p0- quality のところにチェックをいれると クオリティスコア情報も表示される ベースコールとは A,C,G,T からなる 4 文字の塩基のうち どれか つを選択すること クオリティスコアは そのベースコール結果がどれだけ確からしいかをスコア化したものであり 高いほどよい 09

110 クオリティ情報 参考書 p0- 例えば 一番最初のリード ( リード ID が DRR00003.) の 最後の塩基のクオリティスコアは 340 と読み解きます 3 0

111 クオリティ情報 参考書 p0- また 4 番目のリード (DRR ) の 右から 5 番目の塩基のクオリティスコアは 35 と読み解きます 3

112 ベースコールエラー率 参考書 p0- クオリティスコアqの閾値は 0や30が目安 q = 0はベースコール結果が間違っている確率 ( エラー率 p) が% という意味である また q = 30はp = 0.% に相当する

113 数式で表すと q = 0 log 0 (p) 参考書 p0- クオリティスコアqとエラー率 pの関係は 式で表されます 一見ややこしいですが p = 0.% = 0-3 だと考えれば意外と簡単です 3エラー率が低いほどクオリティスコアq は上がります q = 0 log 0 (0-3 ) q = 0 ( 3)=30 q = 0 log 0 (0-5 ) q = 0 ( 5)=50 3 3

114 数式で表すと q = 0 log 0 (p) 参考書 p0- クオリティスコアqとエラー率 pの関係は 式で表されます 一見ややこしいですが p = 0.% = 0-3 だと考えれば意外と簡単です 3エラー率が低いほどクオリティスコアq は上がります 4エラー率が高いほどクオリティスコアqは下がります q = 0 log 0 (0-3 ) q = 0 ( 3)=30 q = 0 log 0 (0-5 ) q = 0 ( 5)=50 q = 0 log 0 (0 - ) q = 0 ( )=

115 クオリティスコア q = 5 の場合 クオリティスコア q が 5 の場合は が -0.5 になるので 3 エラー率 p = = 0.36 となる 4G というベースコール結果は正確性が低いと判断する 4 3 q = 0 log 0 (0-0.5 ) q = 0 ( 0.5)=5 5

116 Tips こういうことです 乗して 0 になるのが くらいであることを思い出せれば なんとか理解できるでしょう q = 0 log 0 (0-0.5 ) q = 0 ( 0.5)=5 6

117 おさらい クオリティスコア q の閾値は キリがいいので 0 や 30 が目安 7

118 データのダウンロード 3 DRA の場合は FASTQ 形式 3SRA 形式ファイルのいずれでもダウンロード可能 同じ番号のところなら どちらをクリックしてもよい 4 このデータは 0 年以上前のものから存在するので FASTQ と SRA の両方がダウンロード可能になっている 4 3 8

119 最新のデータだと これまで見ていたのは のデータなので を押して最新のデータがあると思われる最終ページに飛ぶ 9

120 最新のデータだと 最後のページに飛んだところ SUBMITTED の日付もないが 数字も大きいのでかなり最近公開されたものなのでしょう 例えば 3 をクリックすると 3 0

121 最新のデータだと こんな感じになりました この場合は FASTQ どころか SRA もまだダウンロードできないようですね こういうこともあります

122 そこそこのデータだと 4 3 ここを 600 とかにして SRA35409 を見てみる 見る日によっても位置は異なるかもしれないので 3 で一旦 Search home に戻ってから 4 の Accession のところに SRA35409 と打ち込んでもいいかも

123 そこそこのデータだと 同じ Submission ID でも 一部の SRA 形式ファイルのみしかダウンロードできないようなものもあります 実は SRA35409 の場合 欧の EMBL-EBI ENA で FASTQ ファイルをダウンロード可能 3

124 公共 DB NGS データの公共 DB は DDBJ SRA NCBI SRA 3EMBL-EBI ENA の三極で運用されており データ共有がなされている とはいえ タイムラグは結構あるので注意してください 3 4

機能ゲノム学(第6回)

機能ゲノム学(第6回) トランスクリプトーム解析の今昔 なぜマイクロアレイ? なぜRNA-Seq? 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 Contents トランスクリプトーム解析の概要 各手法の長所 短所 マイクロアレイ

More information

NGSデータ解析入門Webセミナー

NGSデータ解析入門Webセミナー NGS データ解析入門 Web セミナー : RNA-Seq 解析編 1 RNA-Seq データ解析の手順 遺伝子発現量測定 シークエンス マッピング サンプル間比較 機能解析など 2 CLC Genomics Workbench 使用ツール シークエンスデータ メタデータのインポート NGS data import Import Metadata クオリティチェック Create Sequencing

More information

特論I

特論I 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 農学生命情報科学特論 I 第 2 回 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 kadota@iu.a.u-tokyo.ac.jp 1 講義予定 第 1 回 (2014 年 6 月 11 日 ) 西 :NSG 概論 現状や展望など 講義のみ 第 2 回 (2014

More information

基本的な利用法

基本的な利用法 (R で ) 塩基配列解析 基本的な利用法 Macintosh 版 到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける 1. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール 2. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握

More information

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~ ネット接続できないヒトも ダブルクリックでローカルに r_seq.html を起動可能です 実習は デスクトップ上にある hoge フォルダの中身が以下の状態を想定して行います (R で ) 塩基配列解析の利用法 : GC 含量計算から発現変動解析まで東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

GWB

GWB NGS データ解析入門 Web セミナー : De Novo シークエンス解析編 1 NGS 新規ゲノム配列解析の手順 シークエンス 遺伝子領域の検出 アセンブル データベース検索 2 解析ワークフローと使用ソフトウェア シークエンスデータのインポート クオリティチェック 前処理 コンティグ配列の作成 CLC Genomics Workbench 遺伝子領域の検出 Blast2GO PRO データベース検索

More information

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会 シーケンサー利用技術講習会 第 10 回サンプル QC RNAseq ライブ ラリー作製 / データ解析実習講習会 理化学研究所ライフサイエンス技術基盤研究センターゲノムネットワーク解析支援施設田上道平 次世代シーケンサー Sequencer File Format Output(Max) Read length Illumina Hiseq2500 Fastq 600 Gb 100 bp Life

More information

GWB

GWB NGS データ解析入門 Web セミナー : 変異解析編 1 NGS 変異データ解析の手順 シークエンス 変異検出 マッピング データの精査 解釈 2 CLC Genomics Workbench 使用ツール シークエンスデータのインポート NGS data import クオリティチェック QC for Sequencing Reads Trim Reads 参照ゲノム配列へのマッピング 再アライメント

More information

基本的な利用法

基本的な利用法 到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握 ) 4. ありがちなミス のところで示しているエラーメッセージとその原因をきっちり理解

More information

NGS速習コース

NGS速習コース バイオインフォマティクス人材育成カリキュラム ( 次世代シークエンサ ) 速習コース 3. データ解析基礎 3-3. R 各種パッケージ 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 1 Contents

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) RNA-Seq データ解析リテラシー 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 2009 年ごろの私 次世代シーケンサー (NGS) 解析についての認識 単に短い塩基配列が沢山あるだけでしょ 得られる配列データって

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 06.03.05 版 実習用 PC のデスクトップ上に hoge フォルダがあります この中に解析に必要な入力ファイルがあります ネットワーク不具合時は ローカル環境で html ファイルを起動して各自対応してください R で塩基配列解析 : ゲノム解析からトランスクリプトーム解析まで 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ )

More information

Rインストール手順

Rインストール手順 R 本体は最新のリリース版 R パッケージは 必要最小限プラスアルファ の推奨インストール手順を示します R 本体とパッケージのインストール Windows 版 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション V1 次世代シークエンサ実習 II 本講義の内容 Reseq 解析 RNA-seq 解析 公開データ取得 クオリティコントロール マッピング 変異検出 公開データ取得 クオリティコントロール マッピング 発現定量 FPKM を算出します 2 R N A - s e q とは メッセンジャー RNA(mRNA) をキャプチャして次世代シーケンサーでシーケンシングする手法 リファレンスがある生物種の場合

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) バイオインフォマティクス次世代シーケンサー (NGS) 編 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 バイオインフォマティクス人材育成講座 スタンダードコース 2 自己紹介 1995 年 3 月 高知工業高等専門学校

More information

特論I

特論I 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 農学生命情報科学特論 I 第 4 回 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 kadota@iu.a.u-tokyo.ac.jp 1 前回の課題と正答 アダプター配列除去前後の small RNA-seq データをカイコゲノムにマップし マップ率 ( マップされたリード数

More information

NGSハンズオン講習会

NGSハンズオン講習会 207.08.08 版 プラスアルファの内容です NGS 解析 ( 初 ~ 中級 ) ゲノムアセンブリ後の各種解析の補足資料 ( プラスアルファ ) 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム寺田朋子 門田幸二 Aug 29-30 207 Contents Gepard でドットプロット 連載第 8 回 W5-3 で最も長い sequence 同士のドットプロットを実行できなかったが

More information

NGS速習コース

NGS速習コース バイオインフォマティクス人材育成カリキュラム ( 次世代シークエンサ ) 速習コース 3. データ解析基礎 3-4. R Bioconductor I 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 1 Contents

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) RNA-Seqデータ解析における正規化法の選択 :RPKM 値でサンプル間比較は危険?! 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 よりよい正規化法とは? その正規化法によって得られたデータを用いて発現変動の度合いでランキングしたときに

More information

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science IonTorrent RNA-Seq 解析概要 2017-03 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science 資料概要 この資料は IonTorrent シーケンサーで RNA-Seq (WholeTranscriptome mrna ampliseqrna mirna) 解析を実施されるユーザー様向けの内容となっています

More information

リード・ゲノム・アノテーションインポート

リード・ゲノム・アノテーションインポート リード ゲノム アノテーションインポート 1 Location と Folder ロケーション フォルダ Genomics Workbenchではデータを以下のような階層構造で保存可能です フォルダの一番上位の階層を Location と呼び その下の階層を Folder と呼びます データの保存場所はロケーション毎に設定可能です たとえばあるデータは C ドライブに保存し あるデータは D ドライブに保存するといった事が可能です

More information

農学生命情報科学特論I

農学生命情報科学特論I 2015.07.01 版 USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 前回 (6/23) の hoge フォルダがデスクトップに残っているかもしれないのでご注意ください 農学生命情報科学 特論 I 第 3 回 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

基本的な利用法

基本的な利用法 到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握 ) 4. ありがちなミス のところで示しているエラーメッセージとその原因をきっちり理解

More information

nagasaki_GMT2015_key09

nagasaki_GMT2015_key09 Workflow Variant Calling 03 長崎は遺伝研 大量遺伝情報研究室の所属です 国立遺伝学研究所 生命情報研究センター 3F 2F 欧州EBIと米国NCBIと密接に協力しながら DDBJ/EMBL/GenBank国際塩基配列データ ベースを構築しています 私たちは 塩基配列登録を支援するシステムづくり 登録データを活用するシステムづくり 高速シーケンス配列の情報解析 を行なっています

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) トランスクリプトーム 解析手法の開発 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス人材養成ユニット門田幸二 2008/12/08 トランスクリプトーム (transcrptome) とは 細胞中に存在する転写物全体 (transcrpt + ome) トランスクリプトーム解析技術 DNA マイクロアレイ Affymetrx GeneChp, cdna アレイ, 電気泳動に基づく方法

More information

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc color 実験の Normalization color 実験で得られた複数のアレイデータを相互比較するためには Normalization( 正規化 ) が必要です 2 つのサンプルを異なる色素でラベル化し 競合ハイブリダイゼーションさせる 2color 実験では 基本的に Dye Normalization( 色素補正 ) が適用されますが color 実験では データの特徴と実験の目的 (

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) R でトランスクリプトーム解析 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自己紹介 2002 年 3 月 東京大学 大学院農学生命科学研究科博士課程修了 学位論文 : cdna マイクロアレイを用いた遺伝子発現解析手法の開発

More information

PrimerArray® Analysis Tool Ver.2.2

PrimerArray® Analysis Tool Ver.2.2 研究用 PrimerArray Analysis Tool Ver.2.2 説明書 v201801 PrimerArray Analysis Tool Ver.2.2 は PrimerArray( 製品コード PH001 ~ PH007 PH009 ~ PH015 PN001 ~ PN015) で得られたデータを解析するためのツールで コントロールサンプルと 1 種類の未知サンプル間の比較が可能です

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) RNAseqによる 定 量 的 解 析 とqPCR マイクロアレイなど との 比 較 東 京 大 学 大 学 院 農 学 生 命 科 学 研 究 科 アグリバイオインフォマティクス 教 育 研 究 ユニット 門 田 幸 二 (かどた こうじ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自 己 紹 介 1995

More information

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~ トランスクリプトーム解析の現況 ~ マイクロアレイ vs. RNA-seq~ 東京大学 大学院農学生命科学研究科 アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 1 スライド PDF はウェブから取得可能です 2 ステレオタイプなイメージ

More information

GWB_RNA-Seq_

GWB_RNA-Seq_ CLC Genomics Workbench ウェブトレーニングセミナー : RNA-Seq 編 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 Advanced RNA-Seq プラグイン CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0 以降で使用可能な無償プラグイン RNA-Seq

More information

ゲノム情報解析基礎

ゲノム情報解析基礎 講義資料 PDF が講義のページからダウンロード可能です 印刷物はありません ゲノム情報解析基礎 ~ R で塩基配列解析 ~ 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム 微生物科学イノベーション連携研究機構門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 講義予定

More information

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1 Sequence Read Archive 1 塩基配列列データベース アノテーション DDBJ アセンブリ DDBJ Center アライメント シークエンシングと サンプリング Sequence Read Archive 2 増 大する SRA データ 千兆塩基 目前 http://www.ncbi.nlm.nih.gov/traces/sra/ 3 SRA は INSDC の 一員 INSDC:

More information

RNA-seq

RNA-seq RNA-seq 1 RNA-seq 解析フロー RNA-seq インポート クオリティチェック RNA-seq 発現差解析 この資料では RNA-seq からの説明となりますが インポート クオリティチェックについては サポート資料のページより内容をご確認いただけます 2 データ 発現解析用デモデータは 以下よりダウンロードいただけます ES 細胞 (ESC) と神経前駆細胞 (NPC) の発現解析を小さなデモデータで行えます

More information

GWB

GWB NGS データ解析入門 Web セミナー : 変異解析編 1 NGS 変異データ解析の手順 シークエンス 変異検出 マッピング データの精査 解釈 2 解析ワークフローと使用ソフトウェア シークエンスデータのインポート クオリティチェック 参照ゲノム配列へのマッピング 再アライメント 変異検出 CLC Genomics Workbench または Biomedical Genomics Workbench

More information

GenBank クイックスタート GenBank は NLM/NCBI にて維持管理されている核酸配列データベースです また GenBank は EMBL, DDBJ と三極間で連携しながら国際核酸配列データベースを共同で構築しています これら三機関はデータを日々交換し続けており その規模は 160000 種にも及ぶ生物種の塩基配列から成り立つまでになっています この GenBank クイックスタートでは

More information

Rインストール手順

Rインストール手順 R 本体は最新のリリース版 R パッケージは 必要最小限プラスアルファ の推奨インストール手順を示します スライドは Windows0 環境でのスクリーンショットです ウェブブラウザによって挙動が多少異なるのでご注意ください 私は Chrome を使っています R 本体とパッケージのインストール Windows 版 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二

More information

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View(  でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー KaPPA-Average 1.0 マニュアル 第 1.0 版 制作者 : かずさ DNA 研究所櫻井望 制作日 : 2010 年 1 月 12 日 目次 1. はじめに 2 1-1. KaPPA-Average とは 2 1-2. 動作環境 3 1-3. インストールと起動 3 2. 操作説明 4 2-1. メイン機能 - Calc. Average 4 2-1-1. データの準備 4 2-1-2.

More information

1 開発ツールのインストール 最初に JDK をインストールし 次に IDE をインストールする という手順になります 1. JDK のインストール JDK のダウンロードとインストール JDK は次の URL でオラクル社のウェブページからダウンロードします

1 開発ツールのインストール 最初に JDK をインストールし 次に IDE をインストールする という手順になります 1. JDK のインストール JDK のダウンロードとインストール JDK は次の URL でオラクル社のウェブページからダウンロードします 1 開発ツールのインストール 最初に JDK をインストールし 次に IDE をインストールする という手順になります 1. JDK のインストール JDK のダウンロードとインストール JDK は次の URL でオラクル社のウェブページからダウンロードします http://www.oracle.com/technetwork/java/javase/downloads/index.html なお

More information

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved. V1 ゲノム R e s e q 変異解析 本講義にあたって 代表的な解析の流れを紹介します 論文でよく使用されているツールを使用します コマンドを沢山実行します スペルミスが心配な方は コマンド例がありますのでコピーし て実行してください マークのコマンドは実行してください 実行が遅れてもあせらずに 応用や課題の間に追い付いてくだ さい 2 本講義の内容 Reseq解析 RNA-seq解析 公開データ取得

More information

AJACS18_ ppt

AJACS18_ ppt 1, 1, 1, 1, 1, 1,2, 1,2, 1 1 DDBJ 2 AJACS3 2010 6 414:20-15:20 2231 DDBJ DDBJ DDBJ DDBJ NCBI (GenBank) DDBJ EBI (EMBL-Bank) GEO DDBJ Omics ARchive(DOR) ArrayExpress DTA (DDBJ Trace Archive) DRA (DDBJ

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション バイオインフォマティクス 講習会 V 事前準備 が完了されている方は コンテナの起動 ファイルのコピー (Windows) まで 進めておいてください メニュー 1. 環境構築の確認 2. 基本的なLinuxコマンド 3. ツールのインストール 4. NGSデータの基礎知識と前処理 5. トランスクリプトのアッセンブル 6. RNA-seqのリファレンスcDNAマッピングとFPKM 算出 7. RNA-seqのリファレンスゲノムマッピングとFPKM

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 06.07.06 版 第 3 部 :NGS 解析 ( 中 ~ 上級 ) ~ クラウド環境との連携 ロングリードデータの解析 ~ 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ Aug 03 06, NGS

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション V1 次世代シークエンサ実習 II 本講義にあたって 代表的な解析の流れを紹介します 論文でよく使用されているツールを使用します コマンドを沢山実行します スペルミスが心配な方は コマンド例がありますのでコピーして実行してください /home/admin1409/amelieff/ngs/reseq_command.txt マークのコマンドは実行してください 実行が遅れてもあせらずに 応用や課題の間に追い付いてください

More information

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編 CLC Genomics Workbench ウェブトレーニングセミナー : 遺伝子発現解析編 12 th Feb., 2016 フィルジェン株式会社バイオサイエンス部 biosupport@filgen.jp Feb., 2016_V2 1 遺伝子発現解析概要 本日のセミナーにおける解析の流れ及び使用するツール名 ( 図中赤枠部分 ) Case Control インポート インポート インポート

More information

Slide 1

Slide 1 NGS をはじめよう!RNA-Seq 入門 ( キットの選び方 実験デザイン ) April 18, 2014 米田瑞穂イルミナ株式会社テクニカルアプリケーションサイエンティスト 2012 Illumina, Inc. All rights reserved. Illumina, illuminadx, BaseSpace, BeadArray, BeadXpress, cbot, CSPro, DASL,

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 R でゲノム トランスクリプトーム解析 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自己紹介 1995 年 3 月 高知工業高等専門学校 工業化学科卒業 1997 年 3 月 東京農工大学 工学部 物質生物工学科卒業

More information

特論I

特論I 2016.02.01 版 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 農学生命情報科学特論 I 第 3 回 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 kadota@iu.a.u-tokyo.ac.jp Jun 25, 2014 1 講義予定 第 1 回 (2014 年 6 月 11 日 ) 西 :NSG

More information

次世代シークエンサーを用いたがんクリニカルシークエンス解析

次世代シークエンサーを用いたがんクリニカルシークエンス解析 次世代シークエンサーを用いた がんクリニカルシークエンス解析 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 がん遺伝子パネル がん関連遺伝子のターゲットシークエンス用のアッセイキット コストの低減や 研究プログラムの簡素化に有用 網羅的シークエンス解析の場合に比べて 1 遺伝子あたりのシークエンス量が増えるため より高感度な変異の検出が可能 2 変異データ解析パイプライン

More information

UCSC ゲノムブラウザチュートリアル UCSC ゲノムブラウザはゲノム解読がなされている真核生物を対象として自動アノテーションを行い その結果をデータベースとして公開している UCSC が進めているプロジェクトです NCBI MapViewer のようにゲノムベースでその上にアノテーションされている遺伝子などの情報を閲覧すると共に ホモロジー検索や必要なデータのダウンロードなどの機能を提供しています

More information

Rでトランスクリプトーム解析

Rでトランスクリプトーム解析 R でトランスクリプトーム解析 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自己紹介 1995 年 3 月 高知工業高等専門学校 工業化学科卒業 1997 年 3 月 東京農工大学 工学部 物質生物工学科卒業

More information

※ ポイント ※

※ ポイント ※ 4S-RO ロボティクス実験 参考資料 ファイル入出力 : ファイルの読み込み 1 周目に計測した生体情報データを読み込み プログラムにより信号処理を行うが その際にファイルの 入出力が必要となる 実験前半ですでに学習しているが必要に応じて本資料を参考にすること 以下のようにすると指定したファイルを読み込むことができる ( 詳細は後から記述 ) int i; double --------; char

More information

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ モンテカルロ法による分子進化の分岐図作成 のための最適化法 石井一夫 1 松田朋子 2 古崎利紀 1 後藤哲雄 2 1 東京農工大学 2 茨城大学 2013 9 9 2013 1 我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標

More information

ゲノム情報解析基礎

ゲノム情報解析基礎 ゲノム情報解析基礎 ~ R で塩基配列解析 ~ 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 多くのヒトが感想を述べられて 感想やコメント へのコメントいました ありがとうございます コピペではなく位置から自分が入力するのは無理そう

More information

win版8日目

win版8日目 8 日目 : 項目のチェック (2) 1 日 30 分くらい,30 日で何とか R をそこそこ使えるようになるための練習帳 :Win 版 昨日は, 平均値などの基礎統計量を計算する試行錯誤へご招待しましたが (?), 今日は簡 単にやってみます そのためには,psych というパッケージが必要となりますが, パッケー ジのインストール & 読み込みの詳しい方法は, 後で説明します 以下の説明は,psych

More information

KEGG.ppt

KEGG.ppt 1 2 3 4 KEGG: Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/kegg2.html http://www.genome.jp/kegg/kegg_ja.html 5 KEGG PATHWAY 生体内(外)の分子間ネットワーク図 代謝系 12カテゴリ 中間代謝 二次代謝 薬の 代謝 全体像 制御系 20カテゴリ

More information

PowerPoint Presentation

PowerPoint Presentation エピジェノミクス解析編 2016/08/10 Filgen ChIP-seq (Transfactor & Histone), Bisulfite webex seminar 株式会社キアゲンアプライドアドバンストゲノミクス宮本真理, PhD 1 アジェンダ ChIP-seq 解析 Transcription Factor ChIP-seq Histone ChIP-seq Bisulfite-seq

More information

Qlucore_seminar_slide_180604

Qlucore_seminar_slide_180604 シングルセル RNA-Seq のための 情報解析 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 シングルセル RNA-Seq シングルセル RNA-Seq のデータ解析では 通常の RNA-Seq データの解析手法に加え データセット内の各細胞の遺伝子発現プロファイルの違いを俯瞰できるような 強力な情報解析アルゴリズムと データのビジュアライズ機能を利用する必要がある

More information

ChIP-seq

ChIP-seq ChIP-seq 1 ChIP-seq 解析原理 ChIP サンプルのフラグメントでは タンパク質結合部位付近にそれぞれ Forward と Reverse のリードがマップされることが予想される ChIP のサンプルでは Forward と Reverse のリードを 3 側へシフトさせ ChIP のピークを算出する コントロールサンプルでは ChIP のサンプルとは異なり 特定の場所に多くマップされないため

More information

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを

れており 世界的にも重要課題とされています それらの中で 非常に高い完全長 cdna のカバー率を誇るマウスエンサイクロペディア計画は極めて重要です ゲノム科学総合研究センター (GSC) 遺伝子構造 機能研究グループでは これまでマウス完全長 cdna100 万クローン以上の末端塩基配列データを 報道発表資料 2002 年 12 月 5 日 独立行政法人理化学研究所 遺伝子の機能解析を飛躍的に進める世界最大規模の遺伝子情報を公開 - 遺伝子として認知されていなかった部分が転写されていることを実証 - 理化学研究所 ( 小林俊一理事長 ) は マウスの完全長 cdna 160,770 クローンの塩基配列および機能アノテーション ( 機能注釈 ) 情報を公開します これは 現在までに人類が収得している遺伝子の約

More information

Agilent 1色法 2条件比較 繰り返し実験なし

Agilent 1色法 2条件比較 繰り返し実験なし GeneSpring GX11.0.2 ビギナーズガイド Agilent 1 色法 2 条件の比較繰り返し実験あり 適用 薬剤非投与と投与の解析 Wild type と Knock out の解析 正常細胞と病態細胞の解析 など ビギナーズガイドは 様々なマイクロアレイの実験デザインがあるなかで 実験デザインの種類ごとに適切なデータ解析の流れを 実例とともに紹介するガイドブックです ご自分の実験デザインに適合したガイドをお使いください

More information

AJACS_komachi.key

AJACS_komachi.key Tweet OK 統合データベース講習会 AJACSこまち 塩基配列解析のための データベース ウェブツールと CRISPRガイドRNA設計 ライフサイエンス統合データベースセンター (DBCLS) 内藤雄樹 自己紹介 内藤 雄樹 ないとう ゆうき @meso_cacase ライフサイエンス統合データベース センター DBCLS 特任助教 過去に RNAi メカニズム等の研究 sirna設計サイト:

More information

Outlook2010 の メール 連絡先 に関連する内容を解説します 注意 :Outlook2007 と Outlook2010 では 基本操作 基本画面が違うため この資料では Outlook2010 のみで参考にしてください Outlook2010 の画面構成について... 2 メールについて

Outlook2010 の メール 連絡先 に関連する内容を解説します 注意 :Outlook2007 と Outlook2010 では 基本操作 基本画面が違うため この資料では Outlook2010 のみで参考にしてください Outlook2010 の画面構成について... 2 メールについて Outlook2010 - メール 連絡先など - Outlook2010 の メール 連絡先 に関連する内容を解説します 注意 :Outlook2007 と Outlook2010 では 基本操作 基本画面が違うため この資料では Outlook2010 のみで参考にしてください Outlook2010 の画面構成について... 2 メールについて... 3 画面構成と操作... 3 人物情報ウィンドウ...

More information

A Constructive Approach to Gene Expression Dynamics

A Constructive Approach to Gene Expression Dynamics 配列アラインメント (I): 大域アラインメント http://www.lab.tohou.ac.jp/sci/is/nacher/eaching/bioinformatics/ week.pdf 08/4/0 08/4/0 基本的な考え方 バイオインフォマティクスにはさまざまなアルゴリズムがありますが その多くにおいて基本的な考え方は 配列が類似していれば 機能も類似している というものである 例えば

More information

電子13-06 エネメータ専用ソフト SAVER CAST for EneMeter Ver3.00設定方法.ppt

電子13-06 エネメータ専用ソフト SAVER CAST for EneMeter Ver3.00設定方法.ppt 技術資料 お客様用 1/13 発行 電子 13-06 発行月 2013 年 10 月 エネメータ専用ソフト SAVER CAST for EneMeter Ver3.00 設定方法 1 PC アプリ SAVER CAST for EneMeter Ver3.00 ダウンロード 2 通信設定アプリ Config Tool Ver1.00 ダウンロード 3 パソコンへのセットアップ 4 設定方法について説明します

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 06.08. 版 スライド 8 までは自習 当日はスライド 9 から始める予定 スライド 3-86 は当日省略予定 講習会後に各自で復習してください 第 3 部 :NGS 解析 ( 中 ~ 上級 ) ~ トランスクリプトームアセンブリ 発現量推定 ~ 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

免疫形式文法

免疫形式文法 遺伝子発現解析入門 中岡慎治 目次 はじめに 遺伝子発現 ( トランスクリプトーム ) 解析とはマイクロアレイ (MA) の原理と応用途次世代シーケンサー (NGS) の原理と応用途 [ 補足 ] 次世代シーケンサーの活用事例 [metagenome/chip-seq] etc 遺伝子発現解析の統計手法 正規化の必要性と手法 [MA/NGS] 発現変動解析 (Differential Expressed

More information

Design 1 – Title Slide

Design 1 – Title Slide イルミナウェビナー NextSeq 500 シリーズ RNA Seq 時代到来 : NextSeq が実現する簡単 高速 安価なトランスクリプトーム解析 2014 年 9 月 16 日イルミナ株式会社シーケンシングスペシャリスト鈴木健介 2013 Illumina, Inc. All rights reserved. Illumina, IlluminaDx, BaseSpace, BeadArray,

More information

RNA-seq

RNA-seq CLC Genomics Workbench ハンズオントレーニング RNA-seq 株式会社 CLCバイオジャパンシニアフィールドバイオインフォマティクスサイエンティスト宮本真理 Ph.D. mmiyamoto@clcbio.co.jp 1 support@clcbio.co.jp 2 アジェンダ Genomics Workbench 概要 今日のデータ RNA-seq 解析 データインポート QC

More information

KEGG_PATHWAY.ppt

KEGG_PATHWAY.ppt KEGG: Kyoto Encyclopedia of Genes and Genomes KEGG: Kyoto Encyclopedia of Genes and Genomes 様々な種類のデータを 生命現象の総体 として再構築 ツールの提供 EGassembler KAAS GENIES ネットワークの知識 ツールの提供 e-zyme pathcomp 高次機能 機能の階層分類 相互参照用データ

More information

■リアルタイムPCR実践編

■リアルタイムPCR実践編 リアルタイム PCR 実践編 - SYBR Green I によるリアルタイム RT-PCR - 1. プライマー設計 (1)Perfect Real Time サポートシステムを利用し 設計済みのものを購入する ヒト マウス ラットの RefSeq 配列の大部分については Perfect Real Time サポートシステムが利用できます 目的の遺伝子を検索して購入してください (2) カスタム設計サービスを利用する

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション ブレインアトラスアイデアソン 2015 2015 年 7 月 16 日 Brain Transcriptome Database (BrainTx) - マウス脳の遺伝子発現アトラス - 東京理科大 BrainTx PF 委員会佐藤明 Brain Transcriptome Database (BrainTx) 2015 年 4 月よりデータベース名を変更 Cerebellar Development

More information

130712AJACS40

130712AJACS40 1 2 2013 Licensed Under CC 2.1 2013 Licensed Under CC 2.1 3 4 2013 Licensed Under CC 2.1 2013 Licensed Under CC 2.1 2013 Licensed Under CC 2.1 5 6 2013 Licensed Under CC 2.1 LOCUS AB091058 2109 bp DNA

More information

Microsoft PowerPoint - 4_河邊先生_改.ppt

Microsoft PowerPoint - 4_河邊先生_改.ppt 組換え酵素を用いた配列部位 特異的逐次遺伝子導入方法 Accumulative gene integration system using recombinase 工学研究院化学工学部門河邉佳典 2009 年 2 月 27 日 < 研究背景 > 1 染色体上での遺伝子増幅の有用性 動物細胞での場合 新鮮培地 空気 + 炭酸ガス 使用済み培地 医薬品タンパク質を生産する遺伝子を導入 目的遺伝子の多重化

More information

解析法

解析法 1.Ct 値の算出方法 Ct 値の算出方法には 閾値と増幅曲線の交点を Ct 値とする方法 (Crossing Point 法 ) の他に 増幅曲線の 2 次導関数を求めてそれが最大となる点を Ct 値とする方法がある (2nd Derivative Maximum 法 ) 前者では 閾値を指数関数的増幅域の任意の位置に設定して解析するが その位置により Ct 値が変化するので実験間の誤差が大きくなりやすい

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション CLC Genomics Workbench ~ アプリケーションおよびバージョン 8 新機能の紹介 ~ フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 本日の内容 1. CLC Genomics Workbench 概要 2. 基本機能 3. 解析アプリケーション 4. バージョン 8 新機能 : デモンストレーション ( 一部 ) 5. その他機能 6.

More information

目次 1. 変換の対象 砂防指定地 XML 作成メニュー シェープファイルからXMLへ変換 砂防指定地 XMLとシェープファイルの対応.csv 変換処理 CSVファイルによる属性指定... 5

目次 1. 変換の対象 砂防指定地 XML 作成メニュー シェープファイルからXMLへ変換 砂防指定地 XMLとシェープファイルの対応.csv 変換処理 CSVファイルによる属性指定... 5 砂防指定地 XML 作成説明書 2012/12/18 有限会社ジオ コーチ システムズ http://www.geocoach.co.jp/ info@geocoach.co.jp 砂防指定地 XML 作成 プログラムについての説明書です この説明書は次のバージョンに対応しています アプリケーション名バージョン日付 砂防指定地 XML 作成 7.0.5 2012/12/18 プログラムのインストールについては

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 情報科学第 07 回データ解析と統計代表値 平均 分散 度数分布表 1 本日の内容 データ解析とは 統計の基礎的な値 平均と分散 度数分布表とヒストグラム 講義のページ 第 7 回のその他の欄に 本日使用する教材があります 171025.xls というファイルがありますので ダウンロードして デスクトップに保存してください 2/45 はじめに データ解析とは この世の中には多くのデータが溢れています

More information

NGSハンズオン講習会

NGSハンズオン講習会 205.07.27 版 配布する USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください NGS ハンズオン 講習会 :R 基礎 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ Contents(

More information

農業・農村基盤図の大字小字コードXML作成 説明書

農業・農村基盤図の大字小字コードXML作成 説明書 農業 農村基盤図の大字小字コード XML 作成説明書 2007/06/06 有限会社ジオ コーチ システムズ http://www.geocoach.co.jp/ info@geocoach.co.jp 農業 農村基盤図の大字小字コード XML 作成 プログラムについての説明書です バージョン ビルド 1.01 2007/06/06 農業 農村基盤図の大字小字コード XML 作成 は 市区町村 大字

More information

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展 個別要素技術 2 疾患との関連情報の抽出 予測のための 技術開発 平成 20 年 11 月 18 日産業技術総合研究所バイオメディシナル情報研究センター分子システム情報統合チーム 今西規 1 個別要素技術 2 課題一覧 1 大量文献からの自動知識抽出と文献からの既知疾患原因遺伝子情報の網羅的収集 2 疾患遺伝子情報整備と新規疾患遺伝子候補の予測 3 遺伝子多型情報整備 1 大量文献からの自動知識抽出と

More information

Microsoft PowerPoint - prog03.ppt

Microsoft PowerPoint - prog03.ppt プログラミング言語 3 第 03 回 (2007 年 10 月 08 日 ) 1 今日の配布物 片面の用紙 1 枚 今日の課題が書かれています 本日の出欠を兼ねています 2/33 今日やること http://www.tnlab.ice.uec.ac.jp/~s-okubo/class/java06/ にアクセスすると 教材があります 2007 年 10 月 08 日分と書いてある部分が 本日の教材です

More information

Microsoft Word - NaviPortalFAQ-master.doc

Microsoft Word - NaviPortalFAQ-master.doc 2D/3D 設計情報 設備情報管理 NaviPortal ナビポータル FAQ 集 東電設計株式会社 (C)2008-2014 東電設計株式会社 Contents はじめに 1 第 1 章一般的な質問 2 第 2 章使い方に関する質問 3 (C)2008-2014 東電設計株式会社 Contents - iii はじめに 本書では NaviPortal のよくある質問についてまとめています ( 対応バージョン

More information

Microsoft Word - NanoPhotometer用PCソフトウエア操作説明書 Rev 1.00.doc

Microsoft Word - NanoPhotometer用PCソフトウエア操作説明書 Rev 1.00.doc NanoPhotometer 用 PC ソフトウエア操作説明書 < 目次 > 1. 概要... 1 2. 動作環境... 1 3. PC との接続... 1 4. ソフトウエアインストール... 1 5. PVC の起動と初期設定... 2 5.1. アクセスコード... 2 5.2. シリアルポート番号の設定... 2 5.3. プリンターの選択... 3 5.4. コンフィグレーション... 4

More information

データ科学2.pptx

データ科学2.pptx データ科学 多重検定 2 mul%ple test False Discovery Rate 藤博幸 前回の復習 1 多くの検定を繰り返す時には 単純に個々の検定を繰り返すだけでは不十分 5% 有意水準ということは, 1000 回検定を繰り返すと, 50 回くらいは帰無仮説が正しいのに 間違って棄却されてすまうじちがあるということ ex) 1 万個の遺伝子について 正常細胞とガン細胞で それぞれの遺伝子の発現に差があるかどうかを検定

More information

リンクされたイメージを表示できません ファイルが移動または削除されたか 名前が変更された可能性があります リンクに正しいファイル名と場所が指定されていることを確認してください ここでは昨年までにいただいたご質問で多かったものについて その回答をまとめてあります 各種調査書様式の操作 Q12 調査書様

リンクされたイメージを表示できません ファイルが移動または削除されたか 名前が変更された可能性があります リンクに正しいファイル名と場所が指定されていることを確認してください ここでは昨年までにいただいたご質問で多かったものについて その回答をまとめてあります 各種調査書様式の操作 Q12 調査書様 Q1 パソコン基本設定 Windows Vista 又は Windows 7 は利用できますかご利用できます ただし Windows 8 については動作の確認がされていないため ご利用になれません また 2014 年 4 月をもって Windows XP のサポート期間が終了しております なるべくご利用はお控えください 編 Q2 Q3 Excel 2007 2010 2013 2016 は利用できますかご利用できます

More information

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審 日立特許情報提供サービス Sharerese arch 01-76Ver. 機能のご紹介 2011,HitachiInformationSystems,LtdAllRigh tsrese rved 1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します

More information

サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響

サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響 サンプルのマルチプレックスおよび下流の解析におけるインデックスのミスアサインメントの影響 インデックスのミスアサインメントの原因と インデックスホッピングの影響を軽減するベストプラクティス はじめに 次世代シーケンス (NGS) 技術の改良により シーケンススピードが大幅に向上し データ出力が飛躍的に増加したことで 現在のシーケンスプラットフォームにおいて大規模なサンプルの解析が可能になりました 10

More information

今月の呼びかけ 添付資料 ファイル名に細工を施されたウイルスに注意! ~ 見た目でパソコン利用者をだます手口 ~ 2011 年 9 月 IPA に RLTrap というウイルスの大量の検出報告 ( 約 5 万件 ) が寄せられました このウイルスには パソコン利用者がファイルの見た目 ( 主に拡張子

今月の呼びかけ 添付資料 ファイル名に細工を施されたウイルスに注意! ~ 見た目でパソコン利用者をだます手口 ~ 2011 年 9 月 IPA に RLTrap というウイルスの大量の検出報告 ( 約 5 万件 ) が寄せられました このウイルスには パソコン利用者がファイルの見た目 ( 主に拡張子 今月の呼びかけ 添付資料 ファイル名に細工を施されたウイルスに注意! ~ 見た目でパソコン利用者をだます手口 ~ 2011 年 9 月 IPA に RLTrap というウイルスの大量の検出報告 ( 約 5 万件 ) が寄せられました このウイルスには パソコン利用者がファイルの見た目 ( 主に拡張子 ) を誤認し実行してしまうように ファイル名に細工が施されています このような手法は決して新しいものではなく

More information

CubePDF ユーザーズマニュアル

CubePDF ユーザーズマニュアル CubePDF ユーザーズマニュアル 2018.11.22 第 13 版 1 1. PDF への変換手順 CubePDF は仮想プリンターとしてインストールされます そのため Web ブラウザや Microsoft Word, Excel, PowerPoint など印刷ボタンのあるアプリケーションであればどれでも 次の 3 ステップで PDF へ変換することができます 1. PDF 化したいものを適当なアプリケーションで表示し

More information

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日 生物情報工学 BioInforma*cs 3 遺伝子データベース 16/06/09 1 国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日本 DNA データバンクが運営

More information

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析 論文題目 腸管分化に関わる microrna の探索とその発現制御解析 氏名日野公洋 1. 序論 microrna(mirna) とは細胞内在性の 21 塩基程度の機能性 RNA のことであり 部分的相補的な塩基認識を介して標的 RNA の翻訳抑制や不安定化を引き起こすことが知られている mirna は細胞分化や増殖 ガン化やアポトーシスなどに関与していることが報告されており これら以外にも様々な細胞諸現象に関与していると考えられている

More information

内容 1 はじめに インストールの手順 起動の手順 Enterprise Architect のプロジェクトファイルを開く 内容を参照する プロジェクトブラウザを利用する ダイアグラムを開く 便利な機能.

内容 1 はじめに インストールの手順 起動の手順 Enterprise Architect のプロジェクトファイルを開く 内容を参照する プロジェクトブラウザを利用する ダイアグラムを開く 便利な機能. Viewer manual by SparxSystems Japan Enterprise Architect 読み込み専用版 (Viewer) 利用マニュアル 内容 1 はじめに...3 2 インストールの手順...3 3 起動の手順...6 4 Enterprise Architect のプロジェクトファイルを開く...7 5 内容を参照する...8 5.1 プロジェクトブラウザを利用する...8

More information

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq NGS Maser 2013/10/17 Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

More information

Microsoft Word - HOBO雨量専用説明書_v1.1.doc

Microsoft Word - HOBO雨量専用説明書_v1.1.doc HOBOevent による雨量データの 回収と変換の方法 Rev 1.1 HOBO ペンダントシリーズ パルス入力 ベースステーション (USB) 雨量各種 HobowareLite 2007 年 9 月 http://www.weather.co.jp/ 目次 目次...1 はじめに...2 HOBOWARELITE の開始...2 ケーブル接続...2 HOBOwareLite の開始...2

More information

2007年度版

2007年度版 3 発表に向けて 1) アニメーションさせる ( 画面に動きをつける ) には アニメーション効果を設定するにはアニメーション効果とはスライドの中の文字や画像などに動きをつける表示方法です テキストや画像 図形を説明の順序に合わせ クリックしたタイミングで順番に表示させることができます クリックするごとに 箇条書きの項目がひとつずつ表示されてくるよう アニメーションを設定してみましょう! 1 [ アニメーション

More information

バイオインフォマティクスⅠ

バイオインフォマティクスⅠ バイオインフォマティクス ( 第 2 回 ) 慶應義塾大学生命情報学科 榊原康文 ( 朝日新聞 2003 年 4 月 15 日 ) ヒトゲノムの塩基配列 : 28 億 6 千万塩基 99% を解読精度は 99.99% 以上 ( 朝日新聞 2007 年 4 月 13 日 ) アカゲザルのゲノム配列 : 染色体 21 対 ( ヒト 23 対, チンプ 24 対 ) 遺伝子領域の違いヒトやチンパンジーと約

More information

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx Applied Biosystems TaqMan SNP Genotyping Assays インターネット検索方法 2010/04/23 目次 TaqMan SNP Genotyping Assays の概要 --------------- 3 検索方法の流れ --------------- 4 TaqMan SNP Genotyping Assays 検索方法 ---------------

More information

Rational Roseモデルの移行 マニュアル

Rational Roseモデルの移行 マニュアル Model conversion from Rational Rose by SparxSystems Japan Rational Rose モデルの移行マニュアル (2012/1/12 最終更新 ) 1. はじめに このガイドでは 既に Rational( 現 IBM) Rose ( 以下 Rose と表記します ) で作成された UML モデルを Enterprise Architect で利用するための作業ガイドです

More information

Microsoft PowerPoint - KanriManual.ppt

Microsoft PowerPoint - KanriManual.ppt 環境一般教育 マニュアル 管理者用 1 管理者機能一覧管理者が利用できる機能は以下の通りです 印がついている操作手順について後のページでご説明いたします (p.10) 受講者の学習状況に応じメールを送信することができますメール設定 (p.16) 登録されている受講者の削除が出来ます受講者の削除受講者に関する操作 (p.5) 個人を指定して学習進捗を確認できます学習進捗 (p.3) 受講者を一覧にした受講状況を確認します

More information