IT BIO バイオインフォマティクス第 9 回 藤博幸
本日の講義内容と目標 講義内容 ヒトゲノムの構成についておさらい 実習 目的 ヒトゲノムの特徴的な構造を理解し UCSC Genome Browserを利用して観察する
ヒトゲノム 75% spacer 25% genes in which exons (=protein coding region)occupy about 1.5 % 98.5% of the genome do not code proteins.
ヒトゲノムの 98.5% の領域について 以前は機能のない DNA だと思われていた ゲノムの約 50% は LINE や SINE その他のトランスポゾン等を含む繰り返し配列が占める ゲノムの約 70% が RNA に転写される タンパク質をコードしない RNA が多数存在し それらは ncrna と呼ばれる (ncrna =non-coding RNA) プロモーターやエンハンサー等のシス調節領域が含まれている
Genome Browser (1) UCSC genome browser (2) Ensembl (3) Jabion genome viewer etc UCSC
next generation sequencer enormous amount of data is generated Specific tools to analyze such data are required. genome browser
Genome Browser The system for the analysis of the genome data by assisting visualization and genome comparison (1) local install type (2) web-based type I (3) web-based type II M. Kohda (2011) Genome browsers and SRAs in the Era of Next-Generation Sequencing Technologies In: Vol.29, No.15, pp70-75.
Genome Browser (Local Install Type) personalized genome browser installed in PC of each researcher IGV http://www.broadinstitute.org/software/igv/ Tablet http://bioinf.scri.ac.uk/tablet Savant http://genomesavant.com/savant/ IGB http://bioviz.org/igb/ GenomeJack http://www.mss.co.jp/businessfield/bioinformatics/solution/products/ genomejack/index.html UTGB http://utgenome.org/ M. Kohda (2011) Genome browsers and SRAs in the Era of Next-Generation Sequencing Technologies In: Vol.29, No.15, pp70-75.
Genome Browser (Web-based Type-I) genome browser to open the result of a project to the public GBrowser http://gmod.org/wiki/gbrowse/ Gbrowser is used for DGV, HapMap, WormBase, and FlyBase M. Kohda (2011) Genome browsers and SRAs in the Era of Next-Generation Sequencing Technologies In: Vol.29, No.15, pp70-75.
Genome Browser (Web-based Type-II) Genome browser where large-scale public genome data are integrated UCSC genome browser http://genome.ucsc.edu/ Ensembl genome browser http://www.ensembl.org/ Jabion genome viewer http://www.bioportal.jp/ja/genomeviewer/ G-compass http://www.h-invitational.jp/g-compass/ M. Kohda (2011) Genome browsers and SRAs in the Era of Next-Generation Sequencing Technologies In: Vol.29, No.15, pp70-75.
演習内容 1 ゲノム座標からの検索 該当領域周辺の遺伝子 遺伝子構造等 サンプル :chr21:33,031,597-33,041,570 2 キーワード ( 遺伝子名等 ) からの検索 ゲノム座標 遺伝子構造等 サンプル :PPARγ (0) 基本, (1) エクソンの保存性, (2) レトロトランスポゾンの検出 サンプル :Ad4BP シス制御領域の検出
演習内容 1 ゲノム座標からの検索 該当領域周辺の遺伝子 遺伝子構造等 サンプル :chr21:33,031,597-33,041,570 2 キーワード ( 遺伝子名等 ) からの検索 ゲノム座標 遺伝子構造等 サンプル :PPARγ (0) 基本, (1) エクソンの保存性, (2) レトロトランスポゾンの検出 サンプル :Ad4BP シス制御領域の検出
UCSC Genome Browser へのアクセス 1 Web ブラウザで URL に http://genome.ucsc.edu/ を入力 UCSC Genome Bioinformatics のトップページ クリックして Genome Browser のトップページへ
UCSC genome browser へのアクセス 2 Genome Browser
ゲノム座標からの検索 1 1 2 3 4 5 生物分類の設定 生物種の設定 アセンブリのバージョン設定 submit ボタンをクリックして計算開始 染色体と座標の設定 ( 書式有り ) chr21:33,031,597-33,041,570 chromosome number:[start position]-[end position]
ゲノム座標からの検索 2( 結果 1) chr21:33,031,597-33,041,570 non-coding exon coding exon intron 5 3 コードの方向性
ゲノム座標からの検索 3( 結果 2, 配列取得 ) 1 ビューワの 1 をクリック 3 表示したい配列情報の範囲や書式についての条件を設定する画面 設定後に 3 submit ボタンをクリック 2 詳細情報が表示される 2 Genomic Sequence をクリック 4 配列データ パソコンのコピー & ペースト機能を使ってデータ保存
演習内容 1 ゲノム座標からの検索 該当領域周辺の遺伝子 遺伝子構造等 サンプル :chr21:33,031,597-33,041,570 2 キーワード ( 遺伝子名等 ) からの検索 ゲノム座標 遺伝子構造等 サンプル :PPARγ (0) 基本, (1) エクソンの保存性, (2) レトロトランスポゾンの検出 サンプル :Ad4BP シス制御領域の検出
遺伝子名からの検索 1 PPAR gamma(peroxisome proliferatoractivated receptor) 1 2 1 PPAR gamma 2 submit
遺伝子名からの検索 2( 結果 1 候補一覧 ) PPARG (uc003bwv.2) at chr3:12353879 Full=Peroxisome proliferative activated receptor gamma クリック
遺伝子名からの検索 3( 結果 2 ビューアー < 全体像 >)
遺伝子名からの検索 4( 結果 2 ビューアー < 拡大図 >) PPAR γ 遺伝子の染色体上での位置表示
ビューアー設定 1
ビューアー設定 2< 拡大図 > 2 トラック選択のためのメニュー
ビューアー設定 3< Genes and Gene Prediction Tracks 1> クリック
ビューアー設定 4< Genes and Gene Prediction Tracks 2> 展開
ビューアー設定 5< Genes and Gene Prediction Tracks 3> UCSC Genes 1 1UCSC Genes Pack 2 refresh refresh 2
ビューアー設定 6< Genes and Gene Prediction Tracks 4> pack モード全件名前入り表示になった状態
クリックすると UCSC Genes の説明 ビューアー設定 7<UCSC Genes について 1>
ビューアー設定 8<UCSC Genes について 2>
ビューアー設定 9<UCSC Genes について 3> Description The UCSC Genes track shows gene predictions based on data from RefSeq, Genbank, CCDS and UniProt. This is a moderately conservative set of predictions, requiring the support of one GenBank RNA sequence plus at least one additional line of evidence. The RefSeq RNAs are an exception to this, requiring no additional evidence. The track includes both protein-coding and putative non-coding transcripts. Some of these non-coding transcripts may actually code for protein, but the evidence for the associated protein is weak at best. Compared to RefSeq, this gene set has generally about 10% more protein-coding genes, approximately five times as many putative non-coding genes, and about twice as many splice variants. Display Conventions and Configuration This track in general follows the display conventions for gene prediction tracks. The exons for putative noncoding genes and untranslated regions are represented by relatively thin blocks, while those for coding open reading frames are thicker. The following color key is used:!black -- feature has a corresponding entry in the Protein Data Bank (PDB)!Dark blue -- transcript has been reviewed or validated by either the RefSeq, SwissProt or CCDS staff!medium blue -- other RefSeq transcripts!light blue -- non-refseq transcripts This track contains an optional codon coloring feature that allows users to quickly validate and compare gene predictions. To display codon colors, select the genomic codons option from the Color track by codons pull-down menu. Click here for more information about this feature.
表示領域のズームイン ( 塩基レベル ) Comparative Genomics ( Conservation pack 1 2 1 base をクリック 2 表示が塩基に変更 (= 最拡大 )
表示領域のズームアウト ( 周辺領域の確認 ) 2 1 3 1 zoom out の 10 を 4 回クリック 2 領域サイズ :113 1130000 3PPARγ 遺伝子の周辺にある遺伝子も確認できる 2 3
周辺遺伝子の配列データ取得 1 ズームアウトして隣接する遺伝子を表示後 1( 任意の遺伝子 ここでは MKRN2) をクリック 3 表示したい配列情報の範囲や書式についての条件を設定する画面 設定後に 3 submit ボタンをクリック 2 4 詳細情報が表示される 2 Genomic Sequence をクリック 配列データのページパソコンのコピー & ペースト機能を使って 4 のデータを保存
表示領域の移動 1 2 1 move の >>> をクリック 2 表示領域が移動
エクソンの保存性の確認 1 選択した生物種間で保存されている領域にピークが確認される 青枠内のエクソンの位置と比較すると一致していることがわかる
エクソンの保存性の確認 2< Comparative Genomics 設定手順 > 1 Comparative Genomics メニューをクリック 1
エクソンの保存性の確認 3< Comparative Genomics 設定手順 > 2 比較したい生物種にチェックを入れる 4 3 2 Comparative Genomics メニューの Conservation リンクをクリック 3 比較ゲノム解析のためのページが表示されるので 設定を行う 4 サブミットボタンをクリックして結果をビューワーに反映させる
エクソンの保存性の確認 4( 表示設定 ) 前々々ページの図を表示させる条件設定 1PPARγ 遺伝子の全体像を表示させる操作 : <1> ビューワー上部の position/search の入力ボックスに chr3:12353879-12475854 を入力 <2> jump ボタンをクリック 2 比較生物種をデフォルトに戻し 表示モードを full にする 操作 : <1> Comparative Genomics メニューから Conservation リンクをクリック <2> ページ上側にある Reset to defaults をクリック <3> Submit ボタンをクリック 1 <1> <2> 2 <1> chr3:12353879-12475854 <3> <2>
レトロトランスポゾンの検出 1< Variation and Repeats > PPARγ 1 PPARγ SINE LINE LTR
レトロトランスポゾンの検出 2< Variation and Repeats 設定 > PPARγ 2 2 3 前ページの図を表示させる条件設定 1 Repeats メニューの RepeatMasker を full モードにする 2 Genes and Gene Prediction Tracks の UCSC Genes pack モードにする 3 Comparative Genomics メニューの Conservation を hide モードにする 4 ページ最下部にある refresh ボタンをクリックして設定の変更をビューワーに反映させる *3 の hide モードへの変更は SINE や LINE 等をより見やすくするための設定 1 4
レトロトランスポゾンの検出 3(LINE, SINE とは ) PPARγ 3 LINE: Long interspersed nuclear element SINE: short terminal repeat t-rna like region similar to LINE 3 レトロトランスポゾン 哺乳類は沢山の SINE のコピーを持っている 最も観察される SINE は Alu 配列と呼ばれるものである LINE がレトロトランスポゼースをコードするのに対し SINE はコードしない ヒトゲノムの 30% 以上の領域がレトロトランスポゾンで占められている
演習内容 1 ゲノム座標からの検索 該当領域周辺の遺伝子 遺伝子構造等 サンプル :chr21:33,031,597-33,041,570 2 キーワード ( 遺伝子名等 ) からの検索 ゲノム座標 遺伝子構造等 サンプル :PPARγ (0) 基本, (1) エクソンの保存性, (2) レトロトランスポゾンの検出 サンプル :Ad4BP シス制御領域の検出
シス制御領域の表示 1 Ad4BP(Adrenal 4 binding protein) location of exon イントロン中で保存されている領域
2 nuclear receptor Ad4BP UCSC Genome Browser のトップページ (http://genome.ucsc.edu/) 1 Ad4BP 2 4 3 1UCSC Genome Browser GenomeBrowser 2 position or search term Ad4BP 3submit 4let-7a NE5A1
シス制御領域の表示 3 From http://xarquon.jcu.cz/edu/uvod/09nucleus/092function/gene_activation.htm
Encode Track のプルダウンメニューを show にする
Encode Regulation と書かれているところをクリック
DNase Clusters をクリック
This track shows DNase hypersensitive areas assayed in a large collection of cell types by the ENCODE project. Regulatory regions in general, and promoters in particular, tend to be DNase-sensitive.
Txn factor ChiP のプルダウンメニューを full に変更して submit をクリック
イントロンの保存領域に対応するバーをクリック
ENCODE プロジェクトの ChiP-seq 解析によってこの領域が EZH2 の結合領域であることがわかる