プレシジョン創薬概論第 4 回 2019/05/13 オミクス 医療情報の統計 情報学的解析法 医薬保健研究域薬学系活性相関物理化学 髙橋広夫 授業計画 Ensembl を使った遺伝情報の取得 (5/13) UniProt を用いた配列情報取得や解析 (5/13) DDBJ を用いた解析 (5/13) velvet を用いた de novo assembly (for Windows) (5/13) 1 2 講義の資料置き場 Internet Explorerを起動しGoogleを使って 高橋広夫 で検索 (Launch Internet Explorer and search Takahashi Hiro Kanazawa ) インターネット上のプログラムを利用したバイオインフォマティクス入門編 Google (not bing) 1~9 つ目にあるはず 3 4 講義の資料置き場 講義の資料置き場 プレシジョン創薬概論を (Click Introduction to Precision Medicine) 講義の資料置き場 を (Click lecture materials) 5 6
ENSEMBL を使った遺伝子情報の検索 Google で ENSEMBL ( 大 小文字は区別無し ) と入力 (enter ENSEMBL )(No case-insensitive) Ensembl 7 8 Ensembl (https://www.ensembl.org/index.html) EnsemblはEBI( 欧 ) とサンカ ーセンターが1999 年に立ち上げたDB (Ensembl genome database project is a joint scientific project between the European Bioinformatics Institute and the Wellcome Trust Sanger Institute, which was launched in 1999) ゲノムが解読された生物に関する包括的自動アノテーション情報 (Comprehensive information of automatic annotation on sequenced genomes) Ensembl のサイト - 種分類ごとにサイト ENSEMBL <http://www.ensembl.org/> 150 種 (150 species for Ensembl Release 96) 酵母やショウジョウバエも含む (Including yeast and fruit fly) BLAST BioMart Ensembl Plants ( 植物 ) <http://plants.ensembl.org/> 61 種 (61 species for Ensembl plant Release 43) Ensembl Metazoa ( 後生動物 ) <http://metazoa.ensembl.org/> BioMart は Ontario Institute for Cancer Research (OiCR) と European Bioinformatics Institute (EBI) が共同で開発しているコミュニティ駆動型プロジェクトで遺伝情報の一元的なアクセス法を提供している (BioMart is a community-driven project to provide unified access to distributed research data) Ensembl Fungi ( 菌類 ) <http://fungi.ensembl.org/> Ensembl Bacteria ( 真正細菌 ) <http://bacteria.ensembl.org/> Ensembl Protists ( 原生生物 ) <http://protists.ensembl.org/> 9 10 ヒト TP53 遺伝子を調べてみよう (Let s try to search information of human TP53 in ENSEMBL) ヒトを選んで TP53 を入力して (Choose human and input TP53 and click "GO") 11 12
GRCh38.p12 は最新のヒトゲノム (Latest human genome) TP53のスプライスバリアント ENSEMBL stable transcript ID CCDS UniProt RefSeq ENSEMBL stable gene ID 遺伝子の説明染色体番号 座標 HUGO Gene Nomenclature Committee(HGNC) の正式名 転写産物表 Protein coding はコート タンハ ク質 数値が小さいほど 本当に存在 (Transcript Support Level, for transcripts that are not supported at all by either an mrna or an EST) 遺伝子別名 下へスクロール (Scroll down) CCDS (Consensus CDS) 番号 Nonsense mediated decay/processed transcript /Retained intron 不安定な転写産物 (ncrna がコードされている場合あり ) 13 14 TP53 のページのゲノムブラウザ TP53 のページのゲノムブラウザ 17 番染色体 (Chr17) Exon(CDS) ( 塗りつぶされたボックス ) TP53の splice variant Intron Exon(UTR) Promotor TP53 Back 1 window Forward 1 window Genome position 15 Back 1M Zoom in Zoom out Forward 1M 16 17 18
今回はエキソン単位 下へスクロール (Scroll down) 19 20 FASTA ファイル 配列名 ( 必ず > から始まる ) Sequence Name (Each identifier line starts with >) 21 >TP53-222 ENSE00003753508 exon:protein_coding GATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTT CTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTT GCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGG >TP53-222 ENSE00002667911 exon:protein_coding CAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGA GCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACT >TP53-222 この配列のどこかにセーブしてください ENSE00002419584 exon:protein_coding ACTTCCTGAAAACAACGTTCTG (Save this sequence) >TP53-222 ENSE00003625790 exon:protein_coding TCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAA TGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCCC GTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCC CTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGC TTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACG 22 メモ帳を新規で開く (Open a new instance of Notepad) ENSEMBL を使った BLAST 解析 p53 の塩基配列をペースト (Paste base sequence of p53) デスクトップへ (To Desktop) p53.exon.fasta.txt 23 24
ENSEMBL を使った BLAST 解析 ENSEMBL を使った BLAST 解析 先ほどの配列をペースト (Paste the sequence saved) ヒトを選択 (Choose Homo sapiens) 今回は BLASTN を選択 (Choose BLASTN) 25 26 ENSEMBLを使ったBLAST 解析ヒット遺伝子正鎖か逆鎖かゲノムのヒット位置 E 値 染色体マップ上の位置 Choose Ensembl Genes Choose Human genes 27 注 : BioMart を使う時は Internet explorer ではうまく動作しない (BioMart does not work properly on Internet Explorer) 28 遺伝子の属性 付加情報 配列を取得したいとき (Retrieve sequences) データの受け取り方法 ファイル形式 e.g. GO term accession GO term name HGNC symbol e.g. Gene stable ID Transcript stable ID Gene description Gene name Strand Gene start (bp) Gene end (bp) 必要な属性を選んで Results を ( 例 : HGNC symbol ) (Choose attributes and click Results. ) 29 この機能はときどき壊れる (This feature sometimes breaks). 30
Google で uniprot( 大文字小文字は区別無し ) と入力 (Enter UniProt )(No case-insensitive) UniProt 31 32 目的 (Objective) UniProt から TP53 タンパク質を検索 (Retrieve the amino acid sequence of TP53 from UniProt) UniProt の BLASTp や ClustalΩ( オメガ ) DDBJ の BLAST で対応する塩基配列を見つける (Find the base sequence corresponding to TP53 protein sequence by using DDBJ BLAST) アクセッション番号 タンパク質名遺伝子名属種名アミノ酸長 Query として TP53 を入力して Search ボタンを押す (Enter TP53 and push Search button) 33 アクセッション番号 P04637 をすると ヒトの p53 タンパク質の詳細情報を閲覧可能 34 アクセッション番号 P04637 ( ヒトの p53 タンパク質 ) の詳細情報 Protein names > タンパク質名 Gene names (Synonyms) > 遺伝子名 ( 別名 ) Organism > 属種名 Taxonomic identifier > 種名番号 Taxonomic lineage > 系統情報 ( 界門綱目科属種等 ) Sequence status > 完全長かなどなど Advanced で実行した場合 前のページで見ていたタンパク質のアクセッション番号 アミノ酸データを入力しても ok (Accssion no. selected in the previous slide) Click ギャップありアライメント (Gapped alignment) E 値の閾値 ( 小さいほど厳しい ) BLAST ボタンをしてデフォルト設定で Go で実行 (Click the BLAST button and execute it with default) 35 (The smaller the stricter) 36
UniProt での BLASTp の実行結果 p53 での検索結果 4 つ前のスライド Align を (ClustalΩ 実行 ) (click here) マルチプルアライメントを実行 (perform multiple alignment) ゴリラ (Gorilla) チンパンジーは 100% ゴリラとは 99% 一致 チンパンジー (chimpanzee) 2 つ以上のエントリを選択 (Choose over 1 entry) 37 38 p53 での検索結果を選択して 配列データを抽出 2 つ以上のエントリを選択 FASTA ( ファストエー ) 2 つ前のスライド 標準的な配列データ表記法 Download Go を * 完全に保存. 部分的に保存 39 40 (FASTA 形式 ) > 配列名 ( 任意 ) アミノ酸配列 ( 改行は 無視される ) CTRL+A と CTRL+C でコピー 41 CTRL+V でメモ帳にペースト (Paste with CTRL+V to Notepad) 名前をつけて保存 (Save as) 42
するDDBJでtBLASTnを使った解析目的 p53(human) のタンパク質から 当該塩基配列を予測する GoogleでDDBJで検索 マルチプルアライメント BLAST 43 44 1Human の p53 のアミノ酸配列をペーストする 3 ここをして実行 2Human にだけチェックを入れて その他の項目のチェックを外す Primate: 霊長類, Rodent: 齧歯類, Mammal: ほ乳類, Vertebrate: 脊椎動物 45 しばらく待ちましょう!!(2~3 分 ) Wait 2-3 minutes 46 中略 当該エントリの詳細情報を参照 Best Hit のエントリ ( 一番上 ) をして開く E=0 なので完全一致とと推測できる 47 48
塩基配列のフラットデータ アミノ酸配列データ ( 無い場合もある ) 塩基配列 49