特論I

Size: px
Start display at page:

Download "特論I"

Transcription

1 版 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 農学生命情報科学特論 I 第 3 回 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 kadota@iu.a.u-tokyo.ac.jp Jun 25,

2 講義予定 第 1 回 (2014 年 6 月 11 日 ) 西 :NSG 概論 現状や展望など 講義のみ 第 2 回 (2014 年 6 月 18 日 ) 門田 : データベース データ取得 ファイル形式および変換 前処理 教科書の 1.3 節周辺 第 3 回 (2014 年 6 月 25 日 ) 門田 : アセンブル マッピング カウント情報取得 教科書の 2.3 節周辺 第 4 回 (2014 年 7 月 2 日 ) 門田 : クラスタリング データ正規化 実験デザイン 分布 ( モデル ) 発現変動解析 教科書の 3.3 節周辺 授業の目標 概要次世代シーケンサ (NGS) の普及により 以前は主にゲノム解析系で必要とされていた配列解析のためのスキルがトランスクリプトーム解析においても要求される時代になっています 本科目では 様々な局面で応用可能な配列解析系のスキルアップを目指し RNA シークエンス (RNA-Seq) に基づく ( 非モデル生物の ) トランスクリプトーム解析を題材とした実習を含む講義を行います 教科書 Jun 25,

3 エラーの具体例 (2014 年 6 月 13 日 ) 2013 年 11 月 1 日のセミナーで見せた結果 エラーの原因はメモリ不足だそうです by 孫堅強氏 (2014 年 6 月 19 日 ) Jun 25,

4 課題遂行時に何人か遭遇したエラーの解説 何人かの方が 作業ディレクトリの変更も正しく行い SRR fastq.gz ファイルも hoge フォルダ中に存在するにも関わらず 入力ファイル読み込み時にエラーに遭遇しました この理由は 2 つ考えられます 1 つめは USB メモリにコピーする際に正しくコピーできていなかった可能性 そして 2 つめは USB メモリ中の SRR fastq.gz ファイル段階では正しいものであったが 各自の PC にコピーする際に正しくコピーできなかった可能性です 講義中に述べた MD5 チェックサム (MD5 check sum) でファイルの同一性を確認するのは重要ですね Jun 25,

5 Contents( 第 3 回 ) アセンブル (Assembly) 2 つのアプローチ (two approaches) Comparative approach (reference-based assembly; resequencing): 同一生物種または近縁種のゲノム配列を利用 de novo approach: 過去に配列決定されたものの中に近縁種がない場合 アルゴリズム ( 計算手順 ) k-mer 解析 ゲノム用 トランスクリプトーム用 雑感 マッピング (QuasR パッケージを利用 ) シミュレーションデータを用いたマッピングの基礎 リアルデータのマッピング ( カイコ small RNA-seq データ ) 課題 カウント情報取得 Jun 25,

6 ゲノムアセンブル Comparative approach 同一生物種または近縁種のゲノム配列を利用する reference-based assembly Resequencing ともいう ヒトゲノム resequencing や SNP 解析系はこちら 一個人のヒトゲノム (Wheeler et al., Nature, 452: , 2008) 日本人ゲノム (Fujimoto et al., Nat. Genet., 42: , 2010) ENCODE project (ENCODE Project Consortium et al., Nature, 489: 57-74, 2012) de novo approach 過去に配列決定された生物種以外が主な対象 パンダ (Li et al., Nature, 463: , 2008) サンゴ (Shinzato et al., Nature, 476: , 2011) (NGS 由来の比較的短い ) 配列決定されたリードのみから 目的生物種のゲノム配列を決めること ( 組み立てること ) Jun 25,

7 Tips リード (read) Sequencer で読んだ塩基配列のこと コンティグ (contig) 異なる複数のリードが ACGT の切れ目なく連結されたもの 右図では A-D の四つのコンティグ Scaffold (supercontig) N50 コンティグ間の位置関係を表したもの A-D-B-C ではなく A-B-C-D という関係 得られた複数のコンティグを最も長いコンティグから順番に連結していったときに combined total length の 50% になったときのコンティグの長さ 断片化されたゲノム配列ペアードエンド解析アセンブル A B C D 参考 Jun 25,

8 Tips Coverage( カバレッジ ) ゲノム解読したいときなどに 解読するために必要とされる指標となる数値 ゲノムサイズ (X) に対する sequencer で読んだ塩基配列長の和のこと 一般に この数値が高いほどよい Sequence depth という表現と実質的に同じような指標 アセンブル時に用いる k の値はいくつがいいの? 複数の k の値を試すようです 2013 年ごろから自動的に決めてくれるものが増えたようです アセンブル結果の評価基準は? 参考 よくわかりません 平均コンティグ長や N50 が論文の表でよく記述されます このあたりの数値を大きくするだけなら k の値を大きめにすればいいです ただ ゲノムアセンブリの場合には実質的には長ければ長いほどよいという感じみたいです アセンブルプログラムを実行して得られる出力ファイルはどんな感じ? ( 基本的に )multi-fasta 形式のファイルです 赤字の部分 間違って 小さめ と書いてしまっていたことに 2016 年 2 月 1 日に気づいたので修正しました この種のミスはいけませんね 失礼しました m( )m Jun 25, 2014 >contig1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT >contig2 ACGATGCAGCCTTAACGA >contig3 8

9 ゲノムアセンブルの手順 1. 前処理 (pre-processing filtering) クオリティの低いリードやコンタミを除去するステップ 塩基置換 (substitution) やインデル (indels; insertion/deletion) を含むリードの除去や補正 (error correction) 4 つのアプローチ :k-mer, suffix tree/array, multiple sequence alignment, hybrid 2. グラフ構築 (graph construction) 前処理後のリードを用いて リード間のオーバーラップ (overlap) を頼りにつなげていくステップ シークエンスエラー (sequencing error) と多型 (polymorphism) の違いを見るべく グラフ構築時にエラー補正を行うものもある 4 つのアプローチ :OLC, de Bruijn graph (k-mer), greedy, hybrid 3. グラフ簡易化 (graph simplification) グラフ構築後に 複雑化したグラフをシンプルにしていくステップ 連続したノード (nodes; 頂点 ) やバブルのマージ作業に相当 4. 後処理 (post-processing) コンティグ (contigs) やスカッフォールド (scaffolds) を得るステップ ミスアセンブリの 同定も含む El-Metwally et al., PLoS Comput Biol., 9: e , 2013 大きく分けて 4 つの手順からなる Jun 25,

10 様々な戦略があります k-mer を利用する方法の基本を紹介します Jun 25,

11 1. 前処理 :k-mer k-mer 頻度解析 NGSデータを入力として リード長より短いk 連続塩基からなる部分文字列を発生させるのが最初のステップ 発生させたk-merの出現頻度情報をもとに カバレッジ ゲノムサイズ推定 コンタミリードの除去などを行う 例 1:20 塩基長のNGSリードをk=19で分割すると2 個のk-merを発生可能 CACCAGGACATGAAGACGCG CACCAGGACATGAAGACGC ACCAGGACATGAAGACGCG 例 2:20 塩基長の NGS リードを k=17 で分割すると 4 個の k-mer を発生可能 CACCAGGACATGAAGACGCG CACCAGGACATGAAGAC ACCAGGACATGAAGACG CCAGGACATGAAGACGC CAGGACATGAAGACGCG L 塩基長の NGS リードを k-mer に分割すると (L k + 1) 個の k-mer を発生可能 Jun 25,

12 項目名は変更する可能性あり k=19 として k-mer 頻度分布を作成 入力ファイルについて説明します Jun 25,

13 1. 前処理 :k-mer 大きく分けて 4 つの手順からなる sample32_ngs.fasta は 50 塩基からなるランダム塩基配列をリファレンスとしています 20 塩基からなる 10 個の部分配列を NGS リードとしています Jun 25,

14 1. 前処理 :k-mer 大きく分けて 4 つの手順からなる各リード中の description 部分の記述が部分配列の位置情報に相当 Jun 25,

15 k=19としてk-merの種類ごとに頻度情報を取得したのがkmerオブジェクト Jun 25,

16 1 回出現した k-mer が 12 個 2 回出現した k-mer が 3 個 という解釈をする Jun 25,

17 1 回出現した k-mer が 6 個 6 回出現した k-mer が 5 個 という解釈をする Jun 25,

18 入力ファイル中に AAGAC という部分文字列は 3 つ存在するということ リマインドです Jun 25,

19 1. 前処理 :k-mer sample32_ngs.fasta は 50 塩基からなるランダム塩基配列をリファレンスとしています 20 塩基からなる 10 個の部分配列をリードとしています 総塩基数は 200 なのでリファレンス配列の 4 倍の長さ つまり 4X coverage です Jun 25,

20 1. 前処理 :k-mer sample36_ngs.fastaは 10,000 塩基からなるランダム塩基配列をリファレンスとしています 80 塩基からなる5,000 個の部分配列をリードとしています 総塩基数は400,000なのでリファレンス配列の40 倍の長さ つまり40X coverageです Jun 25,

21 (k-mer の種類は問わずに )37 回出現した k-mer が 2 個あったということ 出現回数の median は 22 可能な k-mer の種類数は 4^21 個 実際の種類数は 9,978 個でゲノムサイズ (=10,000) と酷似 40X の分布 シークエンスエラーがない場合に相当 Jun 25,

22 (k-mer の種類は問わずに )31 回出現した k-mer が 97 個あったということ 出現回数の median は 22 可能な k-mer の種類数は 4^21 個 実際の種類数は 9,976 個でゲノムサイズ (=10,000) と酷似 40Xの分布 シークエンスエラーがない場合に相当 実行ごとに結果が多少異なりますが どこかで計算をさぼらないといけない現実的な理由があるためかも ( バグかも ) Jun 25,

23 (k-mer の種類は問わずに )59 回出現した k-mer が 19 個あったということ 出現回数の median は 48 可能な k-mer の種類数は 4^21 個 実際の種類数は 9,978 個でゲノムサイズ (=10,000) と酷似 100Xの分布 シークエンスエラーがない場合に相当 coverageの増加 (40X 100X) に伴い 出現頻度分布 x 軸方向で右側にシフトしていることがわかる Jun 25,

24 (k-mer の種類は問わずに )26 回出現した k-mer が 5 個あったということ 出現回数の median は 42 可能な k-mer の種類数は 4^31 個 実際の種類数は 9,968 個でゲノムサイズ (=10,000) と酷似 100Xの分布 シークエンスエラーがない場合に相当 k-merの値が変わっても (k=21 31) k-merの種類数はゲノムサイズとほぼ同じ Jun 25,

25 (k-mer の種類は問わずに )67 回出現した k-mer が 15 個あったということ 出現回数の median は 54 可能な k-mer の種類数は 4^11 個 実際の種類数は 9,965 個でゲノムサイズ (=10,000) と酷似 100Xの分布 シークエンスエラーがない場合に相当 k-merの値が変わっても (k=31 11) k-merの種類数はゲノムサイズとほぼ同じだが 実際にはエラーを多く含むので非現実的 Jun 25,

26 Chikhi and Medvedev, Bioinformatics, 30: 31-37, 2014 の Fig. 1 k-mer 解析は様々な場面で利用されます 1 大まかなゲノムサイズ推定 ( とカバレッジ ) 現実の NGS データはシークエンスエラーやリピート配列を含むため正規分布っぽくはならないが主要なピークの位置情報をもとにゲノムサイズを推定可能 ( らしい ) リード長とリード数から得られた NGS データ中の総塩基数情報はわかっているので 得られたゲノムサイズで割ることでカバレッジ (coverage) が分かる k = 41, 51, 61 k = 41, 51, 61 k = 41, 51, 61 S. aureus ゲノムサイズ :2.8 Mb Coverage: 167X リード数 :5,000,000 リード長 :101 bp H. sapiens chr 14 ゲノムサイズ :88 Mb Coverage: 70X リード数 :62,000,000 リード長 :101 bp B. impatiens ゲノムサイズ :250 Mb Coverage: 247X リード数 :497,000,000 リード長 :124 bp Jun 25,

27 Chikhi and Medvedev, Bioinformatics, 30: 31-37, 2014 の Fig. 1 k-mer 解析は様々な場面で利用されます 2 前処理 ( フィルタリング ) シークエンスエラーやリピート配列由来リードの除去 k = 41, 51, 61 ゲノム 4X 20X シークエンスエラーに由来する 数回しか出現しないk-mer 由来リードは除去対象 リピート配列に由来する 異常に多く出現するk-mer 由来リードも除去対象 Jun 25,

28 k-mer 解析は様々な場面で利用されます 3 前処理 ( エラー補正 ) ヘテロ接合度の高い 2 倍体ゲノム (highly heterozygous diploid genomes) 由来リード の補正 Kajitani et al., Genome Res., in press の Fig. 2 父親由来ゲノム CACCAGGACATGAAGACGCGTTCA CACCAGGACATCAAGACGCGTTCA 母親由来ゲノム シークエンスエラーに由来する 数回しか出現しない k-mer 由来リードは除去対象 リピート配列に由来する 異常に多く出現する k-mer 由来リードも除去対象 CACCAGGACAT ACCAGGACATG CCAGGACATGA 父親由来 k-mer GACATGAAGAC TGAAGACGCGT GAAGACGCGTC AAGACGCGTCA 両親間で配列の異なる領域を含むk- merの出現頻度は 配列が同じ領域由来 k-merの出現頻度 (c) の1/2となる アセンブルに悪影響を及ぼすため 母親由来ゲノム配列に揃えるなどして補正 Jun 25,

29 ゲノムアセンブルの手順 1. 前処理 (pre-processing filtering) クオリティの低いリードやコンタミを除去するステップ 塩基置換 (substitution) やインデル (indels; insertion/deletion) を含むリードの除去や補正 (error correction) 4 つのアプローチ :k-mer, suffix tree/array, multiple sequence alignment, hybrid 2. グラフ構築 (graph construction) 前処理後のリードを用いて リード間のオーバーラップ (overlap) を頼りにつなげていくステップ シークエンスエラー (sequencing error) と多型 (polymorphism) の違いを見るべく グラフ構築時にエラー補正を行うものもある 4 つのアプローチ :OLC, de Bruijn graph (k-mer), greedy, hybrid 3. グラフ簡易化 (graph simplification) グラフ構築後に 複雑化したグラフをシンプルにしていくステップ 連続したノード (nodes; 頂点 ) やバブルのマージ作業に相当 4. 後処理 (post-processing) コンティグ (contigs) やスカッフォールド (scaffolds) を得るステップ ミスアセンブリの 同定も含む El-Metwally et al., PLoS Comput Biol., 9: e , 2013 大きく分けて 4 つの手順からなる Jun 25,

30 様々な戦略がありますが k-mer を利用する方法の基本を紹介します Jun 25,

31 El-Metwally et al., PLoS Comput Biol., 9: e , グラフ構築 (graph construction) k-mer アプローチ (de Bruijn グラフ ) リードを全ての可能な k-mer に分割し 有向グラフを作成 (k=9 の例 ) リード 1: CACCAGGACATGAAGACGCG リード 2: CCAGGACATGAAGACGCGTT CACCAGGAC ACCAGGACA CCAGGACAT ATGAAGACG TGAAGACGC GAAGACGCG CCAGGACAT CAGGACATG AGGACATGA GAAGACGCG AAGACGCGT AGACGCGTT CACCAGGAC CCAGGACAT GAAGACGCG CAGGACATG GAAGACGCG AGACGCGTT ACCAGGACA CCAGGACAT : ノード (node; 頂点 ) : エッジ (edge; 辺 ) AAGACGCGT Jun 25,

32 El-Metwally et al., PLoS Comput Biol., 9: e , グラフ構築 (graph construction) k-mer アプローチ (de Bruijn グラフ ) 同一ノードをマージして de Bruijn グラフを作成 (k=9) リード 1: CACCAGGACATGAAGACGCG リード2: CCAGGACATGAAGACGCGTT CACCAGGAC CCAGGACAT GAAGACGCG CAGGACATG GAAGACGCG AGACGCGTT ACCAGGACA CCAGGACAT AAGACGCGT CACCAGGAC CCAGGACAT GAAGACGCG AGACGCGTT AAGACGCGT ACCAGGACA CAGGACATG Jun 25,

33 El-Metwally et al., PLoS Comput Biol., 9: e , 2013 ゲノムアセンブルの手順 1. 前処理 (pre-processing filtering) クオリティの低いリードやコンタミを除去するステップ 塩基置換 (substitution) やインデル (indels; insertion/deletion) を含むリードの除去や補正 (error correction) 4 つのアプローチ :k-mer, suffix tree/array, multiple sequence alignment, hybrid 2. グラフ構築 (graph construction) 前処理後のリードを用いて リード間のオーバーラップ (overlap) を頼りにつなげていくステップ シークエンスエラー (sequencing error) と多型 (polymorphism) の違いを見るべく グラフ構築時にエラー補正を行うものもある 4 つのアプローチ :OLC, k-mer (de Bruijn graph), greedy, hybrid 3. グラフ簡易化 (graph simplification) グラフ構築後に 複雑化したグラフをシンプルにしていくステップ 連続したノード (nodes; 頂点 ) やバブルのマージ作業に相当 4. 後処理 (post-processing) コンティグ (contigs) やスカッフォールド (scaffolds) を得るステップ ミスアセンブリの同定も含む 大きく分けて 4 つの手順からなる Jun 25,

34 El-Metwally et al., PLoS Comput Biol., 9: e , グラフ簡易化 (graph simplification) 連続したノード (nodes; 頂点 ) やバブルのマージ リード 1: CACCAGGACATGAAGACGCG リード 2: CCAGGACATGAAGACGCGTT CACCAGGAC CCAGGACAT GAAGACGCG AGACGCGTT ACCAGGACA CAGGACATG AAGACGCGT CACCAGGACATGAAGACGCGTT この 2 つのリードだけで簡易化した結果 Jun 25,

35 Kajitani et al., Genome Res., in press の Suppl. Fig. 8 に相当 3. グラフ簡易化 (graph simplification) 連続したノード (nodes; 頂点 ) やバブルのマージ 父親由来ゲノム CACCAGGACATGAAGACGCGTTCA CACCAGGACATCAAGACGCGTTCA 母親由来ゲノム父親由来ゲノムリード1: CACCAGGACATGAAGACGCG リード2: CCAGGACATCAAGACGCGTT CAGGACATGAAGACGCG CACCAGGACAT AAGACGCGTT CAGGACATCAAGACGCG SNP など塩基に違いがあればバブル構造になります Jun 25,

36 El-Metwally et al., PLoS Comput Biol., 9: e , 2013 ゲノムアセンブルの手順 1. 前処理 (pre-processing filtering) クオリティの低いリードやコンタミを除去するステップ 塩基置換 (substitution) やインデル (indels; insertion/deletion) を含むリードの除去や補正 (error correction) 4 つのアプローチ :k-mer, suffix tree/array, multiple sequence alignment, hybrid 2. グラフ構築 (graph construction) 前処理後のリードを用いて リード間のオーバーラップ (overlap) を頼りにつなげていくステップ シークエンスエラー (sequencing error) と多型 (polymorphism) の違い を見るべく グラフ構築時にエラー補正を行うものもある 調べると沢山見つかります 4 つのアプローチ :OLC, k-mer (de Bruijn graph), greedy, hybrid 3. グラフ簡易化 (graph simplification) グラフ構築後に 複雑化したグラフをシンプルにしていくステップ 連続したノード (nodes; 頂点 ) やバブルのマージ作業に相当 4. 後処理 (post-processing) コンティグ (contigs) やスカッフォールド (scaffolds) を得るステップ ミスアセンブリの同定も含む Jun 25,

37 ゲノムアセンブル (Linux) 比較的ロングリードの 454 データ用 非モデル生物やヘテロ接合度の高い生物種用 微生物など小 ~ 中規模ゲノム配列決定用 Jun 25,

38 教科書 p18-22 ゲノムアセンブル (Linux 以外 ) ゲノムアセンブリ以外にもマッピングなど一通りの解析が可能らしい 実験系のヒトはわりと使っている人が多いらしい アセンブルは Velvet だけか?! R パッケージはありません Jun 25,

39 アセンブルの評価関連 様々な試み Assemblathon 2 ( GAGE ( 自分のゲノムプロジェクトでどの程度の coverage が必要か? アセンブリ結果がどんな感じになるかの見通し どのソフトウェア ( とパラメータ ) を使うべきか 教科書 p22 最近のアセンブラは大抵 GAGE や Assemblathon 2 を用いた性能評価結果を示しています Jun 25,

40 トランスクリプトームアセンブル 一番よく使われているのは Trinity のようです Jun 25,

41 ゲノム用とトランスクリプトーム用の違い Sequencing depth (coverage) 情報の利用法 ゲノムの場合 ( 例えば ) 配列長の 10 倍読んだデータなら 平均的にゲノムのどの領域も 10 回程度読まれていると仮定される (10X coverage) k-mer 出現頻度分布に基づくエラー補正が可能 多くのアセンブラは coverage 情報をリピート配列の認識に利用 トランスクリプトーム (RNA-seq) の場合 Martin and Wang, Nature Reviews Genet., 12: , 2011 転写物ごとに大きく異なる : 低発現転写物は low coverage, 高発現転写物は high coverage アセンブル前の段階でどのk-merがどの転写物由来かはわからないので k-mer 出現頻度の外れ値としてartifactsを除去する戦略は ( 低発現転写物がターゲットの場合には ) 不可能 ただし low coverageなものはたとえ除去していなくてもアセンブルされにくい 転写物 1 転写物 2 転写物 3 ゲノム 10X PacBio が普及すればトランスクリプトーム用はもはや必要なし?! Jun 25, 2014 トランスクリプトーム 41

42 アセンブルの直観的な理解 旧世代シーケンサー (ABI3730 など ):~1,000 塩基 800 塩基程度 一致領域 (overlap) 大 信頼性高い NGS (short-read; Illumina):~ 数百塩基 100 塩基程度 一致領域 (overlap) 小 信頼性低い NGS (long-read; PacBio):~ 数千塩基 Jun 25, 2014 エラーは多いが転写物配列レベルではアセンブルはほぼ不要なレベル 42

43 ( 今この瞬間を含む ) 未来予想図 ゲノム配列決定 小 ~ 中規模 :Illumina MiSeq PacBio 大規模 :Illumina HiSeq PacBio トランスクリプトーム配列決定 PacBio (+ Illumina) 発現解析 Illumina HiSeq PacBio を用いたトランスクリプトーム配列決定論文は既に存在する Jun 25,

44 Contents( 第 3 回 ) アセンブル (Assembly) 2 つのアプローチ (two approaches) Comparative approach (reference-based assembly; resequencing): 同一生物種または近縁種のゲノム配列を利用 de novo approach: 過去に配列決定されたものの中に近縁種がない場合 アルゴリズム ( 計算手順 ) k-mer 解析 ゲノム用 トランスクリプトーム用 雑感 マッピング (QuasR パッケージを利用 ) シミュレーションデータを用いたマッピングの基礎 リアルデータのマッピング ( カイコ small RNA-seq データ ) 課題 カウント情報取得 Jun 25,

45 マッピングの基本的なイメージ 基本的なマッピングプログラム (basic aligner; bowtie など ) を用いた場合 リファレンス配列 : ゲノム count あるサンプルの RNA-Seq データ mapping 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 リファレンス配列 : トランスクリプトーム count 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 Jun 25, 2014 マップされたリードをカウントしたデータ ( カウントデータ ) がその後の数値解析の基礎情報 45

46 マッピング = 大量高速文字列検索 マップされる側のリファレンス配列 :hoge4.fa マップする側の RNA-seq データ ( リードと呼ばれる ): AGG 出力ファイル Jun 25, 2014 マッピングプログラムの出力 :( どのリードが ) リファレンス配列上のどの位置から転写されたものかという座標情報 46

47 マッピング ( 準備 ) マップされる側のリファレンス配列 :ref_genome.fa 教科書 p81 コピペで作成 Jun 25,

48 マッピング ( 準備 ) マップされる側のリファレンス配列 :ref_genome.fa 教科書 p81 chr3 と chr5 の違いは 2 番目と 7 番目の塩基のみ マッピングプログラム bowtie 利用時に -m オプションの違いの把握が可能 Jun 25,

49 マッピング ( 準備 ) マップする側の RNA-seq データ :sample_rnaseq1.fa 教科書 p83-84 コピペで作成 Jun 25,

50 マッピング ( 準備 ) マップする側の RNA-seq データ :sample_rnaseq1.fa 教科書 p83-84 許容するミスマッチ数による違いや マップされるべき場所が完全に把握できるように リードの description 行に記述されている Jun 25,

51 QuasR パッケージを用いてマッピング Basic aligner の 1 つである bowtie (Langmead et al., 2009) を利用 マッピング時に多くのオプションを指定可能 -v : 許容するミスマッチ数を指定するオプション -v 0 は リードがリファレンスに完全一致するもののみレポート -v 2 は 2 塩基ミスマッチまで許容してマップされうる場所を探索 -m : 出力するリード条件を指定するオプション -m 1 は 複数個所にマップされるリードを除外して 1 か所にのみマップされたリードをレポート -m 3 は 合計 3 か所にマップされるリードまでをレポート --best --strata : 最も少ないミスマッチ数でマップされるもののみ出力する という意思表示 これをつけずに -v 2 -m 1 などと指定すると たとえ完全一致 ( ミスマッチ数 0) で 1 か所にのみマップされるリードがあったとしても どこか別の場所で 1 塩基ミスマッチでマップされる個所があれば マップされうる場所が 2 か所ということを意味し そのリードは出力されなくなる それを防ぐのが主な目的... Langmead et al., Genome Biol., 10: R25, 2009 デフォルトである程度よきに計らってくれるが... 実際の挙動を完全に把握できる状況で様々なオプションを試したい Jun 25,

52 教科書 p86-89 複数の RNA-seq サンプルを実行できるようにリストファイルとして与える 許容するミスマッチ数は 0 個 ( -v 0 ) 1 か所にマップされるリードのみ出力 ( -m 1 ) Jun 25,

53 教科書 p86-89 入力ファイル中の 8 リードのうち マップされたのが 5 リード マップされなかったのが 3 リード R console 画面でなく QC レポート PDF ファイル中にも記述あり Jun 25,

54 QuasR パッケージを用いてマッピング 教科書 p86-89 実行後 Jun 25, 2014 出力ファイルとして実際に取り扱うのは BAM 形式ファイルです 54

55 マッピング結果の出力ファイル形式 教科書 p86-89 ゲノム上のどの位置にどのリードがマッピングされたか ( トランスクリプトームの場合どの転写物配列上のどの位置にどのリードがマッピングされたか ) を表すファイル形式は複数あります SAM (Sequence Alignment/Map) format SAMtools (Li et al., Bioinformatics, 25: , 2009) BAM (Binary Alignment/Map) format SAMtools (Li et al., Bioinformatics, 25: , 2009) BED (Browser Extensible Data) format... BEDtools (Quinlan et al., Bioinformatics, 26: , 2010) 実用上は BAM 形式 視覚上は BED 形式 Jun 25,

56 マッピング結果の出力ファイル形式 BAM 形式ファイル 教科書 p86-89 BED 形式ファイル Jun 25, 2014 BED の最小限の情報は リード ID を含まない 56

57 マッピングオプションと結果の解釈 -m 1 --best --strata -v 0 :0 ミスマッチで 1 か所にのみマップされるリードを出力 教科書 p86-89 マップされなかったのは 計 8 リード中 3 リード Jun 25,

58 マッピングオプションと結果の解釈 -m 1 --best --strata -v 0 :0 ミスマッチで 1 か所にのみマップされるリードを出力 教科書 p86-89 完全一致でも複数個所にマップされるために落とされた 2 リード Jun 25,

59 マッピングオプションと結果の解釈 -m 1 --best --strata -v 0 :0 ミスマッチで 1 か所にのみマップされるリードを出力 教科書 p 塩基ミスマッチのため落とされたリード Jun 25,

60 Nie et al., BMC Genomics, 14: 661, 2013 実データのマッピングを行う カイコゲノムに small RNA-seq データをマッピング 教科書 p89-90 目的 : カイコゲノム配列に small RNA-seq リードをマップ アダプター配列除去前後でのマップ率の違いを考察 ( これが課題 ) hoge SRP フォルダ中に 2 つともあります Jun 25,

61 実データのマッピングを行う カイコゲノムに small RNA-seq データをマッピング 教科書 p89-90 複数の RNA-seq サンプルを実行できるようにリストファイルとして与える 許容するミスマッチ数は 2 個 ( -v 2 ) 1 か所にマップされるリードのみ出力 ( -m 1 ) Jun 25,

62 実データのマッピングを行う 教科書 p89-90 カイコゲノムファイル 実行後 Jun 25, 2014 ファイルサイズ削減のため 配布した hoge SRP フォルダ中のファイル群はいくつか除いています 62

63 実データのマッピング結果 教科書 p89-90 マッピングに要した時間は 秒 ( 約 90 分 ) マッピングに用いたプログラムやオプション情報 入力と出力ファイル情報 Jun 25,

64 実データのマッピング結果 教科書 p89-90 アダプター配列除去前後のマッピング結果 QC レポートファイルは実際には 1 つだけ作成される Jun 25,

65 実データのマッピング結果 教科書 p89-90 アダプター配列除去前 アダプター配列除去後 おそらくどのマッピングプログラムもこのようなサマリーレポートファイルを出力する 上 : クオリティ分布 下 : 塩基組成 Jun 25, 2014 塩基組成があたかも同じ種類のものが大量に存在しているように見えるがバグか?! 65

66 アダプター配列除去前 アダプター配列除去後 たしかに同じ種類の small RNA 配列が沢山存在してそう 念のため sequence logos で確認してみる Jun 25,

67 Sequence logos でも似たような結果 プログラムのバグでないことは確かだろう Jun 25,

68 正しくアダプター配列除去ができていることもわかる アダプター配列 :TGGAATTCTCGGGTGC Jun 25,

69 実データのマッピング結果 教科書 p89-90 アダプター配列除去前 アダプター配列除去後 Jun 25, 2014 この srna-seq リードは 49bp 長である 43bp 程度以上の比較的長い srna リードの場合 3 側にアダプター配列を含んでいてもその塩基数は短いため 1 塩基ミスマッチまで許容するとマップされるということだろう 69

70 課題 アダプター配列除去前後の small RNA-seq データをカイコゲノムにマップし マップ率を比較する 1. マッピング前の総リード数を述べよ アダプター配列除去前の SRR fastq.gz: アダプター配列除去後の hoge4.fastq.gz: 2. マッピング後の マップされたリード数 を述べよ アダプター配列除去前の SRR fastq.gz: アダプター配列除去後の hoge4.fastq.gz: 3. 結果の考察 Jun 25,

71 マッピング結果からのカウント情報取得 アノテーション情報を利用する場合 UCSC Genes, Ensembl Genes など様々なテーブル名を指定可能 gene, exon, promoter, junction など様々なレベルを指定可能 アノテーション情報がない場合 教科書 p90-95 マップされたリードの和集合領域を同定したのち 領域ごとのリード数をカウント BEDtools (Quinlan et al., 2010) 中の mergebed プログラムを実行して和集合領域同定後 intersectbed プログラムを実行してリード数をカウントする作業に相当 領域 count 基本的なイメージ Jun 25,

72 マッピング結果からのカウント情報取得 アノテーション情報を利用する場合 UCSC Genes, Ensembl Genes など様々なテーブル名を指定可能 gene, exon, promoter, junction など様々なレベルを指定可能 アノテーション情報がない場合 教科書 p90-95 マップされたリードの和集合領域を同定したのち 領域ごとのリード数をカウント BEDtools (Quinlan et al., 2010) 中の mergebed プログラムを実行して和集合領域同定後 intersectbed プログラムを実行してリード数をカウントする作業に相当 sample1 count sample2 複数サンプルの場合には領域が変わりうる Jun 25,

73 教科書 p90-95 Jun 25, 2014 *_range.txt というカウントデータのファイルが作成される 73

74 教科書 p90-95 *.bam という文字列を *_range.txt という文字列に変更したものを出力ファイル名として自動的に生成している Jun 25,

75 マッピング結果からのカウント情報取得 *.bed *_range.txt カウント数はこちら Jun 25,

76 マッピング結果からのカウント情報取得 リストファイル中で指定したサンプル名がカウントデータ行列の列名となる Jun 25,

77 昔よく見かけたカウントデータ取得手段 basic aligner の 1 つである Bowtie を利用 最大 2 塩基ミスマッチまで許容してリファレンス配列の 1 か所とのみ一致するリード (uniquely mapped reads or unique mapper) 数をカウント Marioni et al., Genome Res., 18: , 2008 Bullard et al., BMC Bioinformatics, 11:94, 2010 Risso et al., BMC Bioinformatics, 12:480, 2011 ReCount (Frazee et al., BMC Bioinformatics, 12:449, 2011) SpliceMap (Au et al., 2010) などの splice-aware aligner だと相当時間がかかるという現実的な問題もあるのだろう 講義や講習会では到底無理 ユーザの記憶に残らない 実際に使われない... 上記情報は short-read の頃の情報なので既に古いかも 今は long-read になっているので splice-aware aligner の一種の Tophat などから得られたカウント情報だろう Jun 25,

78 定量化 : 遺伝子レベル isoform レベル 全体的な流れとしては遺伝子レベル isoform レベル 例 : 新規 splice variant の発見 (Twine et al., PLoS One, 6: e16266, 2011) 遺伝子セット解析 (Gene Ontology 解析やパスウェイ解析など ) のための基本情報は遺伝子レベルの解像度 複数エクソン 遺伝子レベルの要約統計量 exon union method (Mortazavi et al., Nat. Methods, 5: , 2008) 全ての isoforms 間で用いられている exon の情報 (union: 和集合 ) を利用 exon intersection method (Bullard et al., BMC Bioinformatics, 11: 94, 2010) 複数 isoforms 間で共通して用いられている exon の情報のみ (intersection: 積集合 ) を利用 count 情報を得る際に どの exon の情報を用いるか? Jun 25,

79 遺伝子のカウント数の定義 算出された生リードカウント結果 Garber et al., Nat. Methods, 8: , 2011 の Fig. 3c exon union method( 和集合 ) の場合 :20 reads Exon intersection method( 積集合 ) の場合 :11 reads 様々な思想があり 当然その後の解析結果に影響を及ぼします Jun 25,

80 教科書 p90-95 Union がデフォルトらしいが exon-union method に相当する記述ではないようだ 他にも pairedend や strand 情報など奥が深いのでご注意 Jun 25,

農学生命情報科学特論I

農学生命情報科学特論I 2015.07.01 版 USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 前回 (6/23) の hoge フォルダがデスクトップに残っているかもしれないのでご注意ください 農学生命情報科学 特論 I 第 3 回 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

NGSデータ解析入門Webセミナー

NGSデータ解析入門Webセミナー NGS データ解析入門 Web セミナー : RNA-Seq 解析編 1 RNA-Seq データ解析の手順 遺伝子発現量測定 シークエンス マッピング サンプル間比較 機能解析など 2 CLC Genomics Workbench 使用ツール シークエンスデータ メタデータのインポート NGS data import Import Metadata クオリティチェック Create Sequencing

More information

GWB

GWB NGS データ解析入門 Web セミナー : De Novo シークエンス解析編 1 NGS 新規ゲノム配列解析の手順 シークエンス 遺伝子領域の検出 アセンブル データベース検索 2 解析ワークフローと使用ソフトウェア シークエンスデータのインポート クオリティチェック 前処理 コンティグ配列の作成 CLC Genomics Workbench 遺伝子領域の検出 Blast2GO PRO データベース検索

More information

特論I

特論I 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 農学生命情報科学特論 I 第 2 回 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 kadota@iu.a.u-tokyo.ac.jp 1 講義予定 第 1 回 (2014 年 6 月 11 日 ) 西 :NSG 概論 現状や展望など 講義のみ 第 2 回 (2014

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) トランスクリプトーム解析の今昔 なぜマイクロアレイ? なぜRNA-Seq? 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 Contents トランスクリプトーム解析の概要 各手法の長所 短所 マイクロアレイ

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 R でゲノム トランスクリプトーム解析 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自己紹介 1995 年 3 月 高知工業高等専門学校 工業化学科卒業 1997 年 3 月 東京農工大学 工学部 物質生物工学科卒業

More information

基本的な利用法

基本的な利用法 (R で ) 塩基配列解析 基本的な利用法 Macintosh 版 到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける 1. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール 2. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握

More information

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会 シーケンサー利用技術講習会 第 10 回サンプル QC RNAseq ライブ ラリー作製 / データ解析実習講習会 理化学研究所ライフサイエンス技術基盤研究センターゲノムネットワーク解析支援施設田上道平 次世代シーケンサー Sequencer File Format Output(Max) Read length Illumina Hiseq2500 Fastq 600 Gb 100 bp Life

More information

GWB

GWB NGS データ解析入門 Web セミナー : 変異解析編 1 NGS 変異データ解析の手順 シークエンス 変異検出 マッピング データの精査 解釈 2 CLC Genomics Workbench 使用ツール シークエンスデータのインポート NGS data import クオリティチェック QC for Sequencing Reads Trim Reads 参照ゲノム配列へのマッピング 再アライメント

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) RNA-Seqデータ解析における正規化法の選択 :RPKM 値でサンプル間比較は危険?! 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 よりよい正規化法とは? その正規化法によって得られたデータを用いて発現変動の度合いでランキングしたときに

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) バイオインフォマティクス次世代シーケンサー (NGS) 編 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 バイオインフォマティクス人材育成講座 スタンダードコース 2 自己紹介 1995 年 3 月 高知工業高等専門学校

More information

特論I

特論I 講義室後ろにある USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください 農学生命情報科学特論 I 第 4 回 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 kadota@iu.a.u-tokyo.ac.jp 1 前回の課題と正答 アダプター配列除去前後の small RNA-seq データをカイコゲノムにマップし マップ率 ( マップされたリード数

More information

nagasaki_GMT2015_key09

nagasaki_GMT2015_key09 Workflow Variant Calling 03 長崎は遺伝研 大量遺伝情報研究室の所属です 国立遺伝学研究所 生命情報研究センター 3F 2F 欧州EBIと米国NCBIと密接に協力しながら DDBJ/EMBL/GenBank国際塩基配列データ ベースを構築しています 私たちは 塩基配列登録を支援するシステムづくり 登録データを活用するシステムづくり 高速シーケンス配列の情報解析 を行なっています

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) RNAseqによる 定 量 的 解 析 とqPCR マイクロアレイなど との 比 較 東 京 大 学 大 学 院 農 学 生 命 科 学 研 究 科 アグリバイオインフォマティクス 教 育 研 究 ユニット 門 田 幸 二 (かどた こうじ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自 己 紹 介 1995

More information

GWB

GWB NGS データ解析入門 Web セミナー : 変異解析編 1 NGS 変異データ解析の手順 シークエンス 変異検出 マッピング データの精査 解釈 2 解析ワークフローと使用ソフトウェア シークエンスデータのインポート クオリティチェック 参照ゲノム配列へのマッピング 再アライメント 変異検出 CLC Genomics Workbench または Biomedical Genomics Workbench

More information

PowerPoint Presentation

PowerPoint Presentation エピジェノミクス解析編 2016/08/10 Filgen ChIP-seq (Transfactor & Histone), Bisulfite webex seminar 株式会社キアゲンアプライドアドバンストゲノミクス宮本真理, PhD 1 アジェンダ ChIP-seq 解析 Transcription Factor ChIP-seq Histone ChIP-seq Bisulfite-seq

More information

PowerPoint Presentation

PowerPoint Presentation Introduction to key concepts in Illumina sequencing data analysis イルミナシーケンスデータ解析入門その前に 癸生川絵里 (Eri Kibukawa) Bioinformatics Support Scientist 2012 Illumina, Inc. All rights reserved. Illumina, illuminadx,

More information

ChIP-seq

ChIP-seq ChIP-seq 1 ChIP-seq 解析原理 ChIP サンプルのフラグメントでは タンパク質結合部位付近にそれぞれ Forward と Reverse のリードがマップされることが予想される ChIP のサンプルでは Forward と Reverse のリードを 3 側へシフトさせ ChIP のピークを算出する コントロールサンプルでは ChIP のサンプルとは異なり 特定の場所に多くマップされないため

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 06.03.05 版 実習用 PC のデスクトップ上に hoge フォルダがあります この中に解析に必要な入力ファイルがあります ネットワーク不具合時は ローカル環境で html ファイルを起動して各自対応してください R で塩基配列解析 : ゲノム解析からトランスクリプトーム解析まで 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ )

More information

NGS速習コース

NGS速習コース バイオインフォマティクス人材育成カリキュラム ( 次世代シークエンサ ) 速習コース 3. データ解析基礎 3-3. R 各種パッケージ 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 1 Contents

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) RNA-Seq データ解析リテラシー 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 2009 年ごろの私 次世代シーケンサー (NGS) 解析についての認識 単に短い塩基配列が沢山あるだけでしょ 得られる配列データって

More information

機能ゲノム学

機能ゲノム学 08.05.08 版 講義資料 PDF が講義のページからダウンロード可能です 講義資料の印刷物はありません 課題用の A4 一枚はあります 第 回出席予定の持込み PC の方は 当日までに Java のインストールをしておいてください 機能ゲノム学第 回 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム 微生物科学イノベーション連携研究機構門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション V1 次世代シークエンサ実習 II 本講義の内容 Reseq 解析 RNA-seq 解析 公開データ取得 クオリティコントロール マッピング 変異検出 公開データ取得 クオリティコントロール マッピング 発現定量 FPKM を算出します 2 R N A - s e q とは メッセンジャー RNA(mRNA) をキャプチャして次世代シーケンサーでシーケンシングする手法 リファレンスがある生物種の場合

More information

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~ ネット接続できないヒトも ダブルクリックでローカルに r_seq.html を起動可能です 実習は デスクトップ上にある hoge フォルダの中身が以下の状態を想定して行います (R で ) 塩基配列解析の利用法 : GC 含量計算から発現変動解析まで東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) R でトランスクリプトーム解析 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自己紹介 2002 年 3 月 東京大学 大学院農学生命科学研究科博士課程修了 学位論文 : cdna マイクロアレイを用いた遺伝子発現解析手法の開発

More information

NGSハンズオン講習会

NGSハンズオン講習会 207.08.08 版 プラスアルファの内容です NGS 解析 ( 初 ~ 中級 ) ゲノムアセンブリ後の各種解析の補足資料 ( プラスアルファ ) 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム寺田朋子 門田幸二 Aug 29-30 207 Contents Gepard でドットプロット 連載第 8 回 W5-3 で最も長い sequence 同士のドットプロットを実行できなかったが

More information

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~ トランスクリプトーム解析の現況 ~ マイクロアレイ vs. RNA-seq~ 東京大学 大学院農学生命科学研究科 アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 1 スライド PDF はウェブから取得可能です 2 ステレオタイプなイメージ

More information

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編

CLC Genomics Workbench ウェブトレーニングセミナー: 変異解析編 CLC Genomics Workbench ウェブトレーニングセミナー : 遺伝子発現解析編 12 th Feb., 2016 フィルジェン株式会社バイオサイエンス部 biosupport@filgen.jp Feb., 2016_V2 1 遺伝子発現解析概要 本日のセミナーにおける解析の流れ及び使用するツール名 ( 図中赤枠部分 ) Case Control インポート インポート インポート

More information

GWB_RNA-Seq_

GWB_RNA-Seq_ CLC Genomics Workbench ウェブトレーニングセミナー : RNA-Seq 編 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 Advanced RNA-Seq プラグイン CLC Genomics Workbench 9.0 / Biomedical Genomics Workbench 3.0 以降で使用可能な無償プラグイン RNA-Seq

More information

リード・ゲノム・アノテーションインポート

リード・ゲノム・アノテーションインポート リード ゲノム アノテーションインポート 1 Location と Folder ロケーション フォルダ Genomics Workbenchではデータを以下のような階層構造で保存可能です フォルダの一番上位の階層を Location と呼び その下の階層を Folder と呼びます データの保存場所はロケーション毎に設定可能です たとえばあるデータは C ドライブに保存し あるデータは D ドライブに保存するといった事が可能です

More information

Rでトランスクリプトーム解析

Rでトランスクリプトーム解析 R でトランスクリプトーム解析 東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1 自己紹介 1995 年 3 月 高知工業高等専門学校 工業化学科卒業 1997 年 3 月 東京農工大学 工学部 物質生物工学科卒業

More information

RNA-seq

RNA-seq RNA-seq 1 RNA-seq 解析フロー RNA-seq インポート クオリティチェック RNA-seq 発現差解析 この資料では RNA-seq からの説明となりますが インポート クオリティチェックについては サポート資料のページより内容をご確認いただけます 2 データ 発現解析用デモデータは 以下よりダウンロードいただけます ES 細胞 (ESC) と神経前駆細胞 (NPC) の発現解析を小さなデモデータで行えます

More information

基本的な利用法

基本的な利用法 到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握 ) 4. ありがちなミス のところで示しているエラーメッセージとその原因をきっちり理解

More information

AJACS18_ ppt

AJACS18_ ppt 1, 1, 1, 1, 1, 1,2, 1,2, 1 1 DDBJ 2 AJACS3 2010 6 414:20-15:20 2231 DDBJ DDBJ DDBJ DDBJ NCBI (GenBank) DDBJ EBI (EMBL-Bank) GEO DDBJ Omics ARchive(DOR) ArrayExpress DTA (DDBJ Trace Archive) DRA (DDBJ

More information

PrimerArray® Analysis Tool Ver.2.2

PrimerArray® Analysis Tool Ver.2.2 研究用 PrimerArray Analysis Tool Ver.2.2 説明書 v201801 PrimerArray Analysis Tool Ver.2.2 は PrimerArray( 製品コード PH001 ~ PH007 PH009 ~ PH015 PN001 ~ PN015) で得られたデータを解析するためのツールで コントロールサンプルと 1 種類の未知サンプル間の比較が可能です

More information

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science

IonTorrent RNA-Seq 解析概要 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science IonTorrent RNA-Seq 解析概要 2017-03 サーモフィッシャーサイエンティフィックライフテクノロジーズジャパンテクニカルサポート The world leader in serving science 資料概要 この資料は IonTorrent シーケンサーで RNA-Seq (WholeTranscriptome mrna ampliseqrna mirna) 解析を実施されるユーザー様向けの内容となっています

More information

ゲノム情報解析基礎

ゲノム情報解析基礎 ゲノム情報解析基礎 ~ R で塩基配列解析 ~ 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 多くのヒトが感想を述べられて 感想やコメント へのコメントいました ありがとうございます コピペではなく位置から自分が入力するのは無理そう

More information

Rインストール手順

Rインストール手順 R 本体は最新のリリース版 R パッケージは 必要最小限プラスアルファ の推奨インストール手順を示します R 本体とパッケージのインストール Windows 版 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/

More information

KEGG.ppt

KEGG.ppt 1 2 3 4 KEGG: Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/kegg2.html http://www.genome.jp/kegg/kegg_ja.html 5 KEGG PATHWAY 生体内(外)の分子間ネットワーク図 代謝系 12カテゴリ 中間代謝 二次代謝 薬の 代謝 全体像 制御系 20カテゴリ

More information

次世代シークエンサーを用いたがんクリニカルシークエンス解析

次世代シークエンサーを用いたがんクリニカルシークエンス解析 次世代シークエンサーを用いた がんクリニカルシークエンス解析 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 がん遺伝子パネル がん関連遺伝子のターゲットシークエンス用のアッセイキット コストの低減や 研究プログラムの簡素化に有用 網羅的シークエンス解析の場合に比べて 1 遺伝子あたりのシークエンス量が増えるため より高感度な変異の検出が可能 2 変異データ解析パイプライン

More information

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc

Microsoft Word - 1 color Normalization Document _Agilent version_ .doc color 実験の Normalization color 実験で得られた複数のアレイデータを相互比較するためには Normalization( 正規化 ) が必要です 2 つのサンプルを異なる色素でラベル化し 競合ハイブリダイゼーションさせる 2color 実験では 基本的に Dye Normalization( 色素補正 ) が適用されますが color 実験では データの特徴と実験の目的 (

More information

141025mishima

141025mishima NGS (RNAseq) »NGS Now Generation Sequencer»NGS»» 4 NGS(Next Generation Sequencer) Now Generation Sequencer http://www.youtube.com/watch?v=womkfikwlxm http://www.youtube.com/watch?v=mxkya9xcvbq http://www.youtube.com/watch?v=nhcj8ptycfc

More information

次元圧縮法を導入したクエリに基づくバイクラスタリング 情報推薦への応用 武内充三浦功輝岡田吉史 ( 室蘭工業大学 ) 概要以前, 我々はクエリに基づくバイクラスタリングを用いた情報推薦手法を提案した. 本研究では, 新たに推薦スコアが非常に良く似たユーザまたはアイテムを融合する次元圧縮法を導入した. 実験として, 縮減前と縮減後のデータセットのサイズとバイクラスタ計算時間の比較を行う. キーワード

More information

UCSC ゲノムブラウザチュートリアル UCSC ゲノムブラウザはゲノム解読がなされている真核生物を対象として自動アノテーションを行い その結果をデータベースとして公開している UCSC が進めているプロジェクトです NCBI MapViewer のようにゲノムベースでその上にアノテーションされている遺伝子などの情報を閲覧すると共に ホモロジー検索や必要なデータのダウンロードなどの機能を提供しています

More information

ゲノム情報解析基礎

ゲノム情報解析基礎 講義資料 PDF が講義のページからダウンロード可能です 印刷物はありません ゲノム情報解析基礎 ~ R で塩基配列解析 ~ 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム 微生物科学イノベーション連携研究機構門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 講義予定

More information

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ モンテカルロ法による分子進化の分岐図作成 のための最適化法 石井一夫 1 松田朋子 2 古崎利紀 1 後藤哲雄 2 1 東京農工大学 2 茨城大学 2013 9 9 2013 1 我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標

More information

基本的な利用法

基本的な利用法 到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握 ) 4. ありがちなミス のところで示しているエラーメッセージとその原因をきっちり理解

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション バイオインフォマティクス 講習会 V 事前準備 が完了されている方は コンテナの起動 ファイルのコピー (Windows) まで 進めておいてください メニュー 1. 環境構築の確認 2. 基本的なLinuxコマンド 3. ツールのインストール 4. NGSデータの基礎知識と前処理 5. トランスクリプトのアッセンブル 6. RNA-seqのリファレンスcDNAマッピングとFPKM 算出 7. RNA-seqのリファレンスゲノムマッピングとFPKM

More information

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq NGS Maser 2013/10/17 Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq Maser RNA-seq Genome Resequencing De novo Genome Sequencing Metagenome ChIP-seq CAGE BS-seq

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション CLC Genomics Workbench ~ アプリケーションおよびバージョン 8 新機能の紹介 ~ フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 本日の内容 1. CLC Genomics Workbench 概要 2. 基本機能 3. 解析アプリケーション 4. バージョン 8 新機能 : デモンストレーション ( 一部 ) 5. その他機能 6.

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション V1 次世代シークエンサ実習 II 本講義にあたって 代表的な解析の流れを紹介します 論文でよく使用されているツールを使用します コマンドを沢山実行します スペルミスが心配な方は コマンド例がありますのでコピーして実行してください /home/admin1409/amelieff/ngs/reseq_command.txt マークのコマンドは実行してください 実行が遅れてもあせらずに 応用や課題の間に追い付いてください

More information

A Constructive Approach to Gene Expression Dynamics

A Constructive Approach to Gene Expression Dynamics 配列アラインメント (I): 大域アラインメント http://www.lab.tohou.ac.jp/sci/is/nacher/eaching/bioinformatics/ week.pdf 08/4/0 08/4/0 基本的な考え方 バイオインフォマティクスにはさまざまなアルゴリズムがありますが その多くにおいて基本的な考え方は 配列が類似していれば 機能も類似している というものである 例えば

More information

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx

Microsoft PowerPoint - 社外資料_TruSeq Synthetic Long-Read DNA Library Prep.pptx TruSeq Synthetic Long- Read DNA ライブラリー調製キット イルミナ株式会社マーケティング部 2014 Illumina, Inc. All rights reserved. Illumina, 24sure, IlluminaDx, BaseSpace, BeadArray, BeadArray, BlueFish, BeadXpress, BlueFuse, cbot,

More information

Microsoft PowerPoint - mp11-06.pptx

Microsoft PowerPoint - mp11-06.pptx 数理計画法第 6 回 塩浦昭義情報科学研究科准教授 shioura@dais.is.tohoku.ac.jp http://www.dais.is.tohoku.ac.jp/~shioura/teaching 第 5 章組合せ計画 5.2 分枝限定法 組合せ計画問題 組合せ計画問題とは : 有限個の もの の組合せの中から, 目的関数を最小または最大にする組合せを見つける問題 例 1: 整数計画問題全般

More information

PowerPoint Presentation

PowerPoint Presentation CLC Microbial Genomics Module 株式会社キアゲングローバルインフォマティクスソリューションズ & サポートアプライドアドバンストゲノミクス宮本真理 Ph.D. Filgen WebEx seminar, 2015/07/16 (2015/07/30) 1 Agenda メタゲノミクス解析 製品概要 機能紹介 デモ Filgen WebEx seminar, 2015/07/16

More information

Japanese Journal of Lactic Acid Bacteria Copyright 2015, Japan Society for Lactic Acid Bacteria

Japanese Journal of Lactic Acid Bacteria Copyright 2015, Japan Society for Lactic Acid Bacteria Copyright 0, Japan Society for Lactic Acid Bacteria 0 0 0 0 解 説 次世代シーケンサーデータの解析手法第 回アセンブル マッピング そして QC はじめに連載第 回では できるだけ R で解説する と宣言していたが 事実上撤回している これは 0 年 月に 週間かけて行われた NGS 速習コース講習会において 予想に反し多くの受講生が Linux

More information

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx NGS analyzer: 次世代シークエンス解析プログラム 独立行政法人理化学研究所情報基盤センター HPCI 計算生命科学推進プログラム須永泰弘 2013/5/29 次世代シークエンス解析ソフト講習会 1 NGS analyzer とは? 次世代シークエンサー (NGS) からの塩基配列データを用いて マッピング PCR の除去 SNP タイピング 欠失挿入の検出を行う 一連の作業はパイプライン化してある

More information

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved.

V1 ゲノム R e s e q 変異解析 Copyright Amelieff Corporation All Rights Reserved. V1 ゲノム R e s e q 変異解析 本講義にあたって 代表的な解析の流れを紹介します 論文でよく使用されているツールを使用します コマンドを沢山実行します スペルミスが心配な方は コマンド例がありますのでコピーし て実行してください マークのコマンドは実行してください 実行が遅れてもあせらずに 応用や課題の間に追い付いてくだ さい 2 本講義の内容 Reseq解析 RNA-seq解析 公開データ取得

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 情報科学第 07 回データ解析と統計代表値 平均 分散 度数分布表 1 本日の内容 データ解析とは 統計の基礎的な値 平均と分散 度数分布表とヒストグラム 講義のページ 第 7 回のその他の欄に 本日使用する教材があります 171025.xls というファイルがありますので ダウンロードして デスクトップに保存してください 2/45 はじめに データ解析とは この世の中には多くのデータが溢れています

More information

Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx

Microsoft PowerPoint _webinar_RNAExpress.erikibukawa_配布用.pptx 2014 年 10 月 17 日イルミナサポートウェビナー RNA Seq を始めよう! BaseSpace で行う かんたん NGS データ解析 < RNA Express > イルミナ株式会社バイオインフォマティクスサポートサイエンティスト癸生川絵里 (Eri Kibukawa) 2013 2014 Illumina, Inc. All rights reserved. Illumina, 24sure,

More information

_unix_text_command.pptx

_unix_text_command.pptx Unix によるテキストファイル処理 2015/07/30 作業場所 以降の作業は 以下のディレクトリで行います ~/unix15/text/ cd コマンドを用いてディレクトリを移動し pwd コマンドを利用して カレントディレクトリが上記になっていることを確認してください 実習で使用するデータ 講習で使用するデータは以下のフォルダ内 ファイルがあることを確認してください ~/unix15/text/

More information

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View(  でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー KaPPA-Average 1.0 マニュアル 第 1.0 版 制作者 : かずさ DNA 研究所櫻井望 制作日 : 2010 年 1 月 12 日 目次 1. はじめに 2 1-1. KaPPA-Average とは 2 1-2. 動作環境 3 1-3. インストールと起動 3 2. 操作説明 4 2-1. メイン機能 - Calc. Average 4 2-1-1. データの準備 4 2-1-2.

More information

Slide 1

Slide 1 NGS をはじめよう!RNA-Seq 入門 ( キットの選び方 実験デザイン ) April 18, 2014 米田瑞穂イルミナ株式会社テクニカルアプリケーションサイエンティスト 2012 Illumina, Inc. All rights reserved. Illumina, illuminadx, BaseSpace, BeadArray, BeadXpress, cbot, CSPro, DASL,

More information

使いこなそう!CLC Genomics Workbench パート1 QCからトリミング

使いこなそう!CLC Genomics Workbench パート1 QCからトリミング 解析の詳細 宮本真理 Ph.D. シニアフィールドバイオインフォマティクスサイエンティスト CLCバイオジャパン mmiyamoto@clcbio.co.jp 1 はじめに 今日のセミナーでお話しすること データ解析の流れ 内部でのデータ処理の流れとその原理 今日のセミナーでお話ししないこと 詳細な使い方はお話ししませんが デモにてどのように実行可能かお話しします パラメータについては 必要な個所はスライドに含めています

More information

111031_Sure Selectカタログ_改訂_最終.indd

111031_Sure Selectカタログ_改訂_最終.indd Integrated Biology Solutions 2009 1 Nature, Science, Am. J. Human Genet. 1 120 mer 2 DNA crna 120 mer crna DNA crna DNA 1 Publication Compendium p/n5990-7233en 2Nat Biotechnol. 2009 Feb;272:182-9. Epub2009

More information

生命情報学

生命情報学 生命情報学 5 隠れマルコフモデル 阿久津達也 京都大学化学研究所 バイオインフォマティクスセンター 内容 配列モチーフ 最尤推定 ベイズ推定 M 推定 隠れマルコフモデル HMM Verアルゴリズム EMアルゴリズム Baum-Welchアルゴリズム 前向きアルゴリズム 後向きアルゴリズム プロファイル HMM 配列モチーフ モチーフ発見 配列モチーフ : 同じ機能を持つ遺伝子配列などに見られる共通の文字列パターン

More information

RNA-seq

RNA-seq CLC Genomics Workbench ハンズオントレーニング RNA-seq 株式会社 CLCバイオジャパンシニアフィールドバイオインフォマティクスサイエンティスト宮本真理 Ph.D. mmiyamoto@clcbio.co.jp 1 support@clcbio.co.jp 2 アジェンダ Genomics Workbench 概要 今日のデータ RNA-seq 解析 データインポート QC

More information

バイオインフォマティクスⅠ

バイオインフォマティクスⅠ バイオインフォマティクス ( 第 2 回 ) 慶應義塾大学生命情報学科 榊原康文 ( 朝日新聞 2003 年 4 月 15 日 ) ヒトゲノムの塩基配列 : 28 億 6 千万塩基 99% を解読精度は 99.99% 以上 ( 朝日新聞 2007 年 4 月 13 日 ) アカゲザルのゲノム配列 : 染色体 21 対 ( ヒト 23 対, チンプ 24 対 ) 遺伝子領域の違いヒトやチンパンジーと約

More information

Microsoft PowerPoint - pr_12_template-bs.pptx

Microsoft PowerPoint - pr_12_template-bs.pptx 12 回パターン検出と画像特徴 テンプレートマッチング 領域分割 画像特徴 テンプレート マッチング 1 テンプレートマッチング ( 図形 画像などの ) 型照合 Template Matching テンプレートと呼ばれる小さな一部の画像領域と同じパターンが画像全体の中に存在するかどうかを調べる方法 画像内にある対象物体の位置検出 物体数のカウント 物体移動の検出などに使われる テンプレートマッチングの計算

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 06.07.06 版 第 3 部 :NGS 解析 ( 中 ~ 上級 ) ~ クラウド環境との連携 ロングリードデータの解析 ~ 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ Aug 03 06, NGS

More information

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ)

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ) CHAPTER 2 アプリケーションインスペクションの特別なアクション ( インスペクションポリシーマップ ) モジュラポリシーフレームワークでは 多くのアプリケーションインスペクションで実行される特別なアクションを設定できます サービスポリシーでインスペクションエンジンをイネーブルにする場合は インスペクションポリシーマップで定義されるアクションを必要に応じてイネーブルにすることもできます インスペクションポリシーマップが

More information

3.1. Velvet は velveth velvetg の 2 つのプログラムから 構 成 されており 設 定 画 面 でそれぞれのパラメーターを 設 定 可 能 です 3.2. Velvetg については より 詳 細 なパラメーターを 設 定 可 能 です 3.3. Multiplex 解

3.1. Velvet は velveth velvetg の 2 つのプログラムから 構 成 されており 設 定 画 面 でそれぞれのパラメーターを 設 定 可 能 です 3.2. Velvetg については より 詳 細 なパラメーターを 設 定 可 能 です 3.3. Multiplex 解 SEQUENCHER V5.1 の 特 長 株 式 会 社 日 立 ソリューションズ SEQUENCER V5.1 で 新 規 に 追 加 された 機 能 や 改 善 された 機 能 について 以 下 にご 紹 介 いたします 追 加 項 目 および 改 善 項 目 は 項 番 14 16 27 28 32 33 34 を 除 き Windows 版 Macintosh 版 共 に 同 様 の 内

More information

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成

アノテーション・フィルタリング用パイプラインとクリニカルレポートの作成 アノテーション フィルタリング用パイプラインと クリニカルレポートの作成 フィルジェン株式会社バイオサイエンス部 (biosupport@filgen.jp) 1 クリニカルシーケンス解析パイプライン 1. リファレンスゲノム配列へのアライメント / マッピング 2. 変異の検出 3. アノテーション付けとフィルタリング 4. レポートの作成 2 臨床現場で活用する場合は シンプルな操作性で 高度な専門知識がなくても使用できる

More information

2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < Enrichment アプリ > イルミナ株式会社バイオインフォマティクスサ

2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < Enrichment アプリ > イルミナ株式会社バイオインフォマティクスサ 2015 年 5 月 15 日イルミナサポートウェビナー Nextera Rapid Capture Exome キットを用いたエクソームシーケンス - ドライ編 BaseSpace で行うかんたん NGS データ解析 < アプリ > イルミナ株式会社バイオインフォマティクスサポートサイエンティスト癸生川絵里 (Eri Kibukawa) 2014 Illumina, Inc. All rights

More information

Rインストール手順

Rインストール手順 R 本体は最新のリリース版 R パッケージは 必要最小限プラスアルファ の推奨インストール手順を示します スライドは Windows0 環境でのスクリーンショットです ウェブブラウザによって挙動が多少異なるのでご注意ください 私は Chrome を使っています R 本体とパッケージのインストール Windows 版 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二

More information

Microsoft PowerPoint - ad11-09.pptx

Microsoft PowerPoint - ad11-09.pptx 無向グラフと有向グラフ 無向グラフ G=(V, E) 頂点集合 V 頂点の対を表す枝の集合 E e=(u,v) 頂点 u, v は枝 e の端点 f c 0 a 1 e b d 有向グラフ G=(V, E) 頂点集合 V 頂点の順序対を表す枝の集合 E e=(u,v) 頂点 uは枝 eの始点頂点 vは枝 eの終点 f c 0 a 1 e b d グラフのデータ構造 グラフ G=(V, E) を表現するデータ構造

More information

スライド 1

スライド 1 医学研究における 次世代シーケンサ技術の活用 大阪府立成人病センター研究所 久木田洋児 IBISW2011 医学研究における次世代シーケンサーの用途 個人ゲノム解読 (Personal Genomics) のための技術 human genome re-sequencer 研究 一般的な疾患の遺伝素因探索 全ゲノム相関解析の検出限界以下 ( 付近 ) の稀な疾患変異探索 単遺伝子疾患原因遺伝子探索 (>3000

More information

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史 分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史 まずはじめに, 最尤系統推定とは 多重モデル選択 である. 最尤系統推定の手順 1. 樹形を固定しての 2. 分子進化モデルの選択 1. 分子進化モデルを固定しての 2. 系統モデル ( 樹形 ) の選択 = 多重モデル選択 分子進化モデル超入門 とりあえず塩基置換モデルで 塩基置換モデルの 3 大要素 塩基置換確率行列 (nucleotide

More information

書式に示すように表示したい文字列をダブルクォーテーション (") の間に書けば良い ダブルクォーテーションで囲まれた文字列は 文字列リテラル と呼ばれる プログラム中では以下のように用いる プログラム例 1 printf(" 情報処理基礎 "); printf("c 言語の練習 "); printf

書式に示すように表示したい文字列をダブルクォーテーション () の間に書けば良い ダブルクォーテーションで囲まれた文字列は 文字列リテラル と呼ばれる プログラム中では以下のように用いる プログラム例 1 printf( 情報処理基礎 ); printf(c 言語の練習 ); printf 情報処理基礎 C 言語についてプログラミング言語は 1950 年以前の機械語 アセンブリ言語 ( アセンブラ ) の開発を始めとして 現在までに非常に多くの言語が開発 発表された 情報処理基礎で習う C 言語は 1972 年にアメリカの AT&T ベル研究所でオペレーションシステムである UNIX を作成するために開発された C 言語は現在使われている多数のプログラミング言語に大きな影響を与えている

More information

Rでゲノム・トランスクリプトーム解析

Rでゲノム・トランスクリプトーム解析 06.08. 版 スライド 8 までは自習 当日はスライド 9 から始める予定 スライド 3-86 は当日省略予定 講習会後に各自で復習してください 第 3 部 :NGS 解析 ( 中 ~ 上級 ) ~ トランスクリプトームアセンブリ 発現量推定 ~ 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp

More information

人工知能補足_池村

人工知能補足_池村 私くしにとって 生涯の指針となっている木村先生の教え 1. 想定外の発見の重要性 à unsupervised data mining for big data 2. 技術への信頼と技術開発の重要性 2D gel à BLSOM trna の二次元分離 : Methods in Enzymology 長さに依存する分離 想定外の 米国での Post Doc の時代 高分離能 長さに依存しない分離 29

More information

分子系統解析における様々な問題について 田辺晶史

分子系統解析における様々な問題について 田辺晶史 分子系統解析における様々な問題について 田辺晶史 そもそもどこの配列を使うべき? そもそもどこの配列を使うべき? 置換が早すぎず遅すぎない (= 多すぎず少なすぎない ) そもそもどこの配列を使うべき? 置換が早すぎず遅すぎない (= 多すぎず少なすぎない ) 連続長は長い方が良い そもそもどこの配列を使うべき? 置換が早すぎず遅すぎない (= 多すぎず少なすぎない ) 連続長は長い方が良い 遺伝子重複が起きていない

More information

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太 ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : 095739 K 氏名 : 當銘孔太 1. UNIX における正規表現とは何か, 使い方の例を挙げて説明しなさい. 1.1 正規表現とは? 正規表現 ( 正則表現ともいう ) とは ある規則に基づいて文字列 ( 記号列 ) の集合を表す方法の 1 つです ファイル名表示で使うワイルドカードも正規表現の兄弟みたいなもの

More information

PowerPoint Presentation

PowerPoint Presentation 工学部 6 7 8 9 10 組 ( 奇数学籍番号 ) 担当 : 長谷川英之 情報処理演習 第 7 回 2010 年 11 月 18 日 1 今回のテーマ 1: ポインタ 変数に値を代入 = 記憶プログラムの記憶領域として使用されるものがメモリ ( パソコンの仕様書における 512 MB RAM などの記述はこのメモリの量 ) RAM は多数のコンデンサの集合体 : 電荷がたまっている (1)/ いない

More information

Slide 1

Slide 1 イルミナテクニカルセミナー session3 Illumina Experiment Manager の使い方 サービス サポート部テクニカルサポートサイエンティスト渡辺真子 2011 Illumina, Inc. All rights reserved. Illumina, illuminadx, BeadArray, BeadXpress, cbot, CSPro, DASL, Eco, Genetic

More information

機能ゲノム学(第6回)

機能ゲノム学(第6回) トランスクリプトーム 解析手法の開発 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス人材養成ユニット門田幸二 2008/12/08 トランスクリプトーム (transcrptome) とは 細胞中に存在する転写物全体 (transcrpt + ome) トランスクリプトーム解析技術 DNA マイクロアレイ Affymetrx GeneChp, cdna アレイ, 電気泳動に基づく方法

More information

<4D F736F F F696E74202D D D E C815B836A F B83582E >

<4D F736F F F696E74202D D D E C815B836A F B83582E > 2012.03.22 マッピングデータの基本フォーマットと基本ツール 次世代シーケンサーに良く用いられるファイル形式 Samtools Integrative Genomics Viewer(IGV) 基礎生物学研究所 生物機能解析センター 山口勝司 NIBB CORE RESEARCH FACILITIES FUNCTIONAL GENOMICS FACILITY NIBB CORE RESEARCH

More information

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平

第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平 第 10 回シーケンス講習会 RNA-seq library 調製法の特徴と選び方 理化学研究所 (RIKEN) ライフサイエンス技術基盤研究センター (CLST) 機能性ゲノム解析部門 (DGT) ゲノムネットワーク解析支援施設 (GeNAS) 野間将平 l シーケンスをする目的は? 概略 l よいシーケンスライブラリーとは? RNA-seq ライブラリーのムリ ムダ ムラ l いろいろな RNA-seq

More information

Maeda140303

Maeda140303 2014 NGS NIBB - - - - FASTA / FASTQ - BED GFF/GTF WIG - SAM / BAM - SAMtools Web HTML (PC/), OS (Windows/Mac), IE/Chrome/Safari NGS Wet - - NGS - FASTA, FASTQ, csfastq, FASTA/qual, SRA, - BED, GFF/GTF,

More information

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2

講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2 N G S 解析基礎 講義内容 ファイル形式 データの可視化 データのクオリティチェック マッピング アセンブル 資料の見方 $ pwd 実際に入力するコマンドを黄色い四角の中に示します 2 ファイル形式 NGS 解析でよく使われるファイル形式 ファイル形式 fastq bam/sam vcf bed fasta サンプルデータの場所 /home/ ユーザ名 /Desktop/amelieff/1K_ERR038793_1.fastq

More information

開発・運用時のガイド JDK8への移行に伴う留意点 [UNIX]

開発・運用時のガイド JDK8への移行に伴う留意点 [UNIX] 開発 運用時のガイド [UNIX] JDK8 への移行に伴う留意点 2015.10 O c t o b e r はじめに 本書は 開発 運用フェーズで使用するドキュメントとして Java TM Development Kit 8 への移行に伴う 留意点について記述しています 1. 対象とする読者本書は Java TM Development Kit 8 を使用し システムを設計 構築 運用する立場にある方を対象としています

More information

Microsoft Word - 操作マニュアル-Excel-2.doc

Microsoft Word - 操作マニュアル-Excel-2.doc Excel プログラム開発の練習マニュアルー 1 ( 関数の学習 ) 作成 2015.01.31 修正 2015.02.04 本マニュアルでは Excel のプログラム開発を行なうに当たって まずは Excel の関数に関する学習 について記述する Ⅰ.Excel の関数に関する学習 1. 初めに Excel は単なる表計算のソフトと思っている方も多いと思います しかし Excel には 一般的に使用する

More information

数値計算法

数値計算法 数値計算法 008 4/3 林田清 ( 大阪大学大学院理学研究科 ) 実験データの統計処理その 誤差について 母集団と標本 平均値と標準偏差 誤差伝播 最尤法 平均値につく誤差 誤差 (Error): 真の値からのずれ 測定誤差 物差しが曲がっていた 測定する対象が室温が低いため縮んでいた g の単位までしかデジタル表示されない計りで g 以下 計りの目盛りを読み取る角度によって値が異なる 統計誤差

More information

NGSハンズオン講習会

NGSハンズオン講習会 205.07.27 版 配布する USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください NGS ハンズオン 講習会 :R 基礎 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ Contents(

More information

データ科学2.pptx

データ科学2.pptx データ科学 多重検定 2 mul%ple test False Discovery Rate 藤博幸 前回の復習 1 多くの検定を繰り返す時には 単純に個々の検定を繰り返すだけでは不十分 5% 有意水準ということは, 1000 回検定を繰り返すと, 50 回くらいは帰無仮説が正しいのに 間違って棄却されてすまうじちがあるということ ex) 1 万個の遺伝子について 正常細胞とガン細胞で それぞれの遺伝子の発現に差があるかどうかを検定

More information

3rd-jikken-ngs

3rd-jikken-ngs 生命情報実験 A 次世代シークエンサーのデータを用いたゲノム解析 慶應義塾大学理工学部 生命情報学科 榊原康文 佐藤健吾 ねらい これからの生命科学において要となるツールである次世代シークエンサー (NGS) が産生するデータを用いたゲノム解析を体験する 次世代シークエンサー 長所 : 高速かつ低コスト 短所 : 得られる一本一本の配列が短い (= ショートリード ) Illumina GAIIx

More information

配付資料 自習用テキスト 解析サンプル配布ページ 2

配付資料 自習用テキスト 解析サンプル配布ページ   2 分子系統樹推定法 理論と応用 2009年11月6日 筑波大 院 生命環境 田辺晶史 配付資料 自習用テキスト 解析サンプル配布ページ http://www.fifthdimension.jp/documents/molphytextbook/ 2 参考書籍 分子系統学 3 参考書籍 統計的モデル選択とベイジアンMCMC 4 祖先的な形質 問題 OTU左の の色は表現型形質の状態を表している 赤と青

More information

GenBank クイックスタート GenBank は NLM/NCBI にて維持管理されている核酸配列データベースです また GenBank は EMBL, DDBJ と三極間で連携しながら国際核酸配列データベースを共同で構築しています これら三機関はデータを日々交換し続けており その規模は 160000 種にも及ぶ生物種の塩基配列から成り立つまでになっています この GenBank クイックスタートでは

More information

概要 ABAP 開発者が SAP システム内の SAP ソースまたは SAP ディクショナリーオブジェクトを変更しようとすると 2 つのアクセスキーを入力するよう求められます 1 特定のユーザーを開発者として登録する開発者キー このキーは一度だけ入力します 2 SAP ソースまたは SAP ディクシ

概要 ABAP 開発者が SAP システム内の SAP ソースまたは SAP ディクショナリーオブジェクトを変更しようとすると 2 つのアクセスキーを入力するよう求められます 1 特定のユーザーを開発者として登録する開発者キー このキーは一度だけ入力します 2 SAP ソースまたは SAP ディクシ オンラインヘルプ :SAP ソフトウェア変更登録 (SSCR) キーの登録 目次 概要... 2 参考リンク... 3 アプリケーションの起動... 4 アプリケーションとメインコントロールの概要... 5 キーリストのカスタマイズ... 7 リストのフィルタリング... 7 表のレイアウトのカスタマイズ... 8 新しい開発者の登録... 10 新しいオブジェクトの登録... 12 特定のインストレーションから別のインストレーションに個々の

More information

EBNと疫学

EBNと疫学 推定と検定 57 ( 復習 ) 記述統計と推測統計 統計解析は大きく 2 つに分けられる 記述統計 推測統計 記述統計 観察集団の特性を示すもの 代表値 ( 平均値や中央値 ) や ばらつきの指標 ( 標準偏差など ) 図表を効果的に使う 推測統計 観察集団のデータから母集団の特性を 推定 する 平均 / 分散 / 係数値などの推定 ( 点推定 ) 点推定値のばらつきを調べる ( 区間推定 ) 検定統計量を用いた検定

More information