2016 年 10 月 19 日 ( 水 ) バイオ情報解析演習 ウェブツールを活用した生物情報解析 (1) 配列と代謝経路の解析の基礎
有用物質生産菌を合理的に作ろう! 設計 試作 ベンチテスト 完成 プラスミド 効率的な代謝経路を設計する 文献調査代謝パスウェイの探索代謝シミュレーション 実際に微生物に組み込む データベースから有用遺伝子を探索する遺伝子組換え技術 培養をして問題点を突き止める 培養代謝物量 フラックスのデータを解析し 問題点を突き止める
ウェブツールを活用した生物情報解析 の予定 10 月 19 日 ( 水 ) 1. 遺伝子 / タンパク質の配列の獲得と機能解析 10 月 26 日 ( 水 ) 2. 代謝データベース 11 月 2 日 ( 水 ) 3. 相同性検索 11 月 9 日 ( 水 ) 4. 遺伝子クローニング設計と総合解析 2
授業のモチベーション 大腸菌でブタノールを生産したい ブタノールを生産する他の生物の遺伝子を大腸菌に組み込む そのためには ブタノールを生産する生物種を探す ブタノール合成経路の遺伝子を探す 遺伝子をクローニングするために塩基配列を獲得する 遺伝子およびその酵素の情報を収集する ウェブツールを利用する 3
本日の内容 1. 塩基配列 アミノ酸配列の入手 2. 遺伝子 / タンパク質の情報収集 4
KEGG データベース (http://www.genome.jp/kegg/) KEGG : Kyoto Encyclopedia of Genes and Genomes 京都遺伝子ゲノム百科事典 統合データベース 遺伝子の情報 酵素反応の情報 化合物の情報 代謝経路情報 5
配列の表記は核酸塩基 アミノ酸ともに左から右へ DNA RNA の塩基配列 5 3 ATGTGCGGCCTTCTTGGCATATTGACTGCA 左から右へ 5 3 となるように記述する タンパク質のアミノ酸配列 N 末端 C 末端 MCGLLGILTANGNAEAFVPALERALPCMRH 左から右へ N 末端 C 末端となるように記述する 6
配列の表記は核酸塩基 アミノ酸ともに 1 文字表記 核酸塩基の 1 文字表記 Code Description A Adenine C Cytosine G Guanine T Thymine U Uracil R Purine (A or G) Y Pyrimidine (C, T, or U) M C or A K T, U, or G W T, U, or A S C or G B C, T, U, or G (not A) D A, T, U, or G (not C) H A, T, U, or C (not G) V A, C, or G (not T, not U) N Any base (A, C, G, T, or U) アミノ酸の 1 文字表記 1-letter A R N D C Q E G H I L K M F P S T W Y V B Z X Description Alanine Arginine Asparagine Aspartic acid Cysteine Glutamine Glutamic acid Glycine Histidine Isoleucine Leucine Lysine Methionine Phenylalanine Proline Serine Threonine Tryptophan Tyrosine Valine Aspartic acid or Asparagine Glutamine or Glutamic acid Any amino acid 7
塩基配列データベース 国際塩基配列データベース DDBJ ( 国立遺伝学研究所 DDBJ) EMBL ( ヨーロッパ EBI) GenBank ( アメリカ NCBI) 全世界の研究者が取得した塩基配列データを統一の基準によって収集 編纂したもの データの登録は 配列データを取得した研究者自身が行う 国際学術論文に新規取得した配列を掲載する際は いずれかのデータベースに登録することが義務 8
配列の記述形式 (1) FASTA 形式配列と 配列の名前や由来に関する情報のみを記述 (2) GenBank 形式 ( アミノ酸配列は GenPept 形式 ) 配列と 文献情報 配列の機能情報 mrna やコード領域の位置などの情報を記述 9
(1) FASTA 形式 >gi 6714539:815-2737 Corynebacterium glutamicum genes for LtsA, ORF1, complete cds ATGTGCGGCCTTCTTGGCATATTGACTGCAAATGGGAACGCTGAAGCATTCGTTCCTGCACTCGAGCGGG CCTTGCCATGCATGCGCCACCGTGGTCCTGACGATGCCGGCACTTGGCATGACGCCGATGCAGCGTTTGG ATTCAACCGCCTCTCCATCATTGATATTGCACACTCCCACCAACCACTGCGTTGGGGACCTGCGGATGAA CCCGACCGCTACGCAATGACTTTCAACGGTGAGATCTACAACTACGTTGAGCTGCGTAAAGAGCTCTCGG 塩基配列 :5 末端 ATTTGGGATATACCTTTAATACTTCTGGCGATGGCGAGCCAATTGTTGTCGGTTTCCACCACTGGGGCGA アミノ酸配列 :N 末端 GTCCGTGGTCGAGCATCTCCGCGGAATGTTCGGCATTGCCATTTGGGATACAAAGGAAAAGTCGCTTTTC CTTGCGCGTGATCAGTTCGGCATCAAGCCACTGTTCTACGCAACCACCGAGCATGGCACCGTGTTCTCCT CAGAGAAGAAGACCATCTTGGAGATGGCCGAGGAGATGAATCTAGATCTGGGCCTTGATAAGCGCACCAT TGAGCACTACGTGGACCTGCAGTACGTGCCCGAGCCAGATACCCTTCACGCGCAGATTTCCCGCTTGGAG (1) 1 行目 TCAGGCTGCACCGCAACAGTTCGTCCGGGCGGCAAGCTGGAACAGAAGCGTTACTTCAAGCCTCAGTTCC CAGTACAGAAGGTCGTAAAGGGTAAGGAGCAGGACCTCTTCGATCGCATTGCCCAGGTGTTGGAGGATAG > の後に配列名 注釈 ( 遺伝子名など ) CGTCGAAAAGCATATGCGTGCCGACGTGACCGTAGGCTCGTTCCTTTCCGGCGGCATTGACTCAACCGCA ATTGCGCCGCTTGCAAAGCGCCACAACCCTGACCTGCTCACCTTCACCACCGGTTTCGAGCGTGAAGGCT ACTCGGAGGTCGATGTGGCTGCGGAGTCCGCCGCTGCGATTGGCGCTGAGCACATCGTGAAGATTGTCTC GCCTGAGGAATACGCCAACGCGATTCCTAAGATCATGTGGTACTTGGATGATCCTGTAGCTGACCCATCA TTGGTCCCGCTGTACTTCGTGGCAGCGGAAGCACGTAAGCACGTCAAGGTTGTGCTGTCTGGCGAGGGCG (2) 2 行目以降 CAGATGAGCTGTTCGGTGGATACACCATTTACAAAGAGCCGCTATCGCTTGCTCCATTTGAGAAGATCCC TTCCCCACTACGTAAAGGCCTGGGAAAGCTCAGCAAGGTTCTGCCAGACGGCATGAAGGGCAAGTCCCTT 塩基 アミノ酸配列 CTTGAGCGTGGCTCCATGACCATGGAAGAGCGCTACTACGGCAACGCTCGCTCCTTCAATTTCGAGCAGA TGCAACGCGTTATTCCATGGGCAAAGCGCGAATGGGACCACCGCGAAGTCACTGCACCGATCTACGCACA ( 塩基配列 :5 ->3, アミノ酸配列 :N 末 ->C 末 ) ATCCCGCAACTTTGATCCAGTAGCCCGCATGCAACACCTGGATCTGTTCACCTGGATGCGCGGCGACATC CTGGTCAAGGCTGACAAGATCAACATGGCGAACTCCCTTGAGCTGCGAGTTCCATTCTTGGATAAGGAAG TTTTCAAGGTTGCAGAGACCATTCCTTACGATCTGAAGATTGCCAACGGTACCACCAAGTACGCGCTGCG CAGGGCACTCGAGCAGATTGTTCCGCCTCACGTTTTGCACCGCAAGAAGCTGGGCTTCCCTGTTCCCATG CGCCACTGGCTTGCCGGCGATGAGCTGTTCGGTTGGGCGCAGGACACCATTAAGGAATCCGGTACTGAAG ATATCTTCAACAAGCAGGCTGTGCTGGATATGCTGAACGAGCACCGCGATGGCGTGTCAGATCATTCCCG TCGACTGTGGACTGTTCTGTCATTTATGGTGTGGCACGGCATTTTTGTGGAAAACCGCATTGATCCACAG ATTGAGGACCGCTCCTACCCGGTCGAGCTTTAA ( > と注釈の間にスペースを入れてはいけない ) 配列名 10
(2) GenBank/GenPept 形式 LOCUS 遺伝子座の名前 配列の長さと種類 生物分類 登録の日付 DEFINITION 配列の名前 ACCESSION アクセッション番号 VERSION 配列のバージョン KEYWORDS この配列を相互参照するためのキーワード SOURCE 由来となる生物 識別子と呼ばれ 解析プログラム ORGANISM 生物の詳細な記述 がこれらを認識して配列を扱う REFERENCE 文献情報 AUTHORS 著者名 TITLE タイトル JOURNAL 雑誌名 巻 号 ページ 出版年 PUBMED PubMed ID FEATURES 位置あるいは領域ごとの配列についての情報 FEATURESにはほかに source 配列の範囲 由来となる生物 intron ( イントロンの範囲 ) misc_signal 配列の範囲 機能やシグナルの種類 promoter ( プロモーターの範囲 ) mrna 配列の範囲 mrna mutation ( 変異の位置 ) gene 配列の範囲 遺伝子 等の情報を入力できる CDS 配列の範囲 コード領域 ORIGIN 配列の始まり 1 atgtgcggcc ttcttggcat attgactgca aatgggaacg ctgaagcatt cgttcctgca 61 ctcgagcggg ccttgccatg catgcgccac cgtggtcctg acgatgccgg cacttggcat // 配列の終わり 11
GenBank 形式 ( 例 ) Accession number LOCUS AB029550 1923 bp DNA linear BCT 23-MAY-2000 配列固有の番号 DEFINITION Corynebacterium glutamicum genes for LtsA, ORF1, complete cds. ACCESSION AB029550 REGION: 815..2737 VERSION AB029550.1 GI:6714539 配列の由来となる生物種 KEYWORDS ORF1; LtsA. SOURCE Corynebacterium glutamicum ORGANISM Corynebacterium glutamicum Bacteria; Actinobacteria; Actinobacteridae; Actinomycetales; Corynebacterineae; Corynebacteriaceae; Corynebacterium. REFERENCE 1 AUTHORS Hirasawa,T., Wachi,M. and Nagai,K. TITLE A mutation in the Corynebacterium glutamicum ltsa gene causes susceptibility to lysozyme, temperature-sensitive growth, and L-glutamate production JOURNAL J. Bacteriol. 182 (10), 2696-2701 (2000) PUBMED 10781535 REFERENCE 2 (bases 1 to 1923) AUTHORS Wachi,M. and Hirasawa,T. TITLE Direct Submission JOURNAL Submitted (03-JUL-1999) Masaaki Wachi, 配列に関連する文献の情報 Tokyo Institute of Technology, Department of Bioengineering; 4259 Nagatsuta Midori-ku, Yokohama, Kanagawa 226-8501, Japan (E-mail:mwachi@bio.titech.ac.jp, Tel:81-45-924-5770, Fax:81-45-924-5820) 12
FEATURES Location/Qualifiers source 1..1923 /organism="corynebacterium glutamicum" /mol_type="genomic DNA" /strain="ky9611" /db_xref="taxon:1718" gene 1..1923 Coding sequence (ORFに相当) の略 /gene="ltsa" CDS 1..1923 /gene="ltsa" /codon_start=1 CDSの位置 ( この場合は1から1923 番目まで ) /transl_table=11 /product="ltsa" /protein_id="baa89484.1" CDSに関する情報 /db_xref="gi:6714540" /translation="mcgllgiltangnaeafvpaleralpcmrhrgpddagtwhdada AFGFNRLSIIDIAHSHQPLRWGPADEPDRYAMTFNGEIYNYVELRKELSDLGYTFNTS 配列 < 途中省略 > DELFGWAQDTIKESGTEDIFNKQAVLDMLNEHRDGVSDHSRRLWTVLSFMVWHGIFVE NRIDPQIEDRSYPVEL ORIGIN // 5 末端 1 atgtgcggcc ttcttggcat attgactgca aatgggaacg ctgaagcatt cgttcctgca 61 ctcgagcggg ccttgccatg catgcgccac cgtggtcctg acgatgccgg cacttggcat < 途中省略 > 1861 atttttgtgg aaaaccgcat tgatccacag attgaggacc gctcctaccc ggtcgagctt 1921 taa 3 末端 13
アミノ酸配列 (GenPept 形式 ) アミノ酸配列 LOCUS BAB96652 588 aa linear BCT 20-NOV-2008 DEFINITION transpeptidase involved in septal peptidoglycan synthesis [Escherichia coli str. K-12 substr. W3110]. ACCESSION BAB96652 VERSION BAB96652.1 GI:21321965 Accession number DBSOURCE accession AP009048.1 KEYWORDS. SOURCE Escherichia coli str. K-12 substr. W3110 ORGANISM Escherichia coli str. K-12 substr. W3110 Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; Enterobacteriaceae; Escherichia. REFERENCE 1 AUTHORS Musso,R., Di Lauro,R., Rosenberg,M. and de Crombrugghe,B. TITLE Nucleotide sequence of the operator-promoter region of the galactose operon of Escherichia coli JOURNAL Proc. Natl. Acad. Sci. U.S.A. 74 (1), 106-110 (1977) PUBMED 319453 一部省略 REFERENCE 142 (residues 1 to 588) AUTHORS Mori,H., Hirai,A., Morooka,N. and Horiuchi,T. TITLE JOURNAL Direct Submission Submitted (22-AUG-2005) Contact:Hirotada Mori Graduate School of Biological Sciences, Nara Institute of Science and Technology; 8916-5 Takayama, Ikoma, Nara 630-0101, Japan FEATURES Location/Qualifiers source 1..588 /organism="escherichia coli str. K-12 substr. W3110" /strain="k-12" /sub_strain="w3110" /db_xref="taxon:316407" Protein 1..588 /product="transpeptidase involved in septal peptidoglycan synthesis" Region 2..579 /region_name="prk15105" /note="peptidoglycan synthase FtsI; Provisional" /db_xref="cdd:185060" Region 71..222 /region_name="pbp_dimer" /note="penicillin-binding Protein dimerisation domain; pfam03717" /db_xref="cdd:190723" Region 260..554 /region_name="transpeptidase" /note="penicillin binding protein transpeptidase domain; cl01039" /db_xref="cdd:154162" CDS 1..588 /gene="ftsi" /coded_by="ap009048.1:91413..93179" /note="eck0085:jw0082:b0084; penicillin-binding protein 3" /transl_table=11 ORIGIN 1 mkaaaktqkp krqeehanfi swrfallcgc illalafllg rvawlqvisp dmlvkegdmr N 末端 // 61 slrvqqvsts rgmitdrsgr plavsvpvka iwadpkevhd aggisvgdrw kalanalnip 一部省略 481 gvkaaikgyr iaiktgtakk vgpdgryink yiaytagvap asqprfalvv vindpqagky 541 yggavsapvf gaimggvlrt mniepdaltt gdknefvinq gegtggrs C 末端 タンパク質の名称 由来となる生物種 この配列に関連する文献の情報 71 番目から 222 番目までのアミノ酸領域が penicillin-binding protein の二量体化 (dimerization) に関与する 260 番目から 554 番目までのアミノ酸領域が transpeptidase ドメインとして機能する 1 番目から 588 番目まで ( 全長 ) が coding sequences (CDS) である ftsi という遺伝子がコードしている
KEGG を用いた配列の入手 (http://www.genome.jp/kegg/) 例 ) パン酵母 (Saccharomyces cerevisiae) の Alcohol dehydrogenase 遺伝子の配列を入手する (1) KEGG Organisms をクリック 15
(2) Saccharomyces cerevisiae を探す このページの検索 をクリック (Ctr+F) し Sacharomyces cerevisiae の一部を入力し検索すれば早くみつけることができる KEGG では 3 文字の略称で生物種を示す例 ) Saccharomyces cerevisiae : sce この表の中から 生物種を選ぶ 16
(3) Saccharomyces cerevisiae をクリック 17
(4) Alcohol dehydrogenase と入力し Go をクリック 酵母のデータベースと書いてある 18
酵母がもつ Alcohol dehydrogenase の一覧 ADH5 遺伝子を調べる 酵母には複数の Alcohol dehydrogenase をコードする遺伝子が存在する 19
酵素の機能名 ADH5 遺伝子の機能情報や配列情報 関連する代謝経路 各種データベースへのリンク 他のデータベースへのリンク ゲノム上の位置 下の方に配列情報 20
クリックすると 配列が FASTA 形式で表示される アミノ酸配列 ORF の塩基配列 ここに数字を入れて NT seq ボタンをクリックすると CDS の上流 (+upstream) 下流 (+downstream) の配列を付加した配列が FASTA 形式で表示される 21
FASTA 形式の塩基配列 FASTA 形式のアミノ酸配列 22
GenPept ファイルを獲得する ADH5 遺伝子の機能情報や配列情報 NCBI-ProteinID の横の数字をクリック 23
ADH5 タンパク質の GenPept 形式ファイル Send to をクリック => GenPept を選択 => Create File を押す => GenPept ファイルを保存することができる この配列を報告した論文 => 酵母の全ゲノム配列を解読した論文 24
NAD と結合する部位の情報 Zn と結合する部位の情報 ADH5 のアミノ酸配列 25
本日の内容 1. 塩基配列 アミノ酸配列の入手 2. 遺伝子 / タンパク質の情報収集 26
KEGG で遺伝子 / タンパク質の情報を調べる 酵素の機能名 Alcohol dehydrogenase という機能名であり酵素番号は EC: 1.1.1.1 関連する代謝経路解糖系 / 糖新生脂肪酸分解などの代謝経路の反応に関連する EC : 1.1.1.1 をクリックし ADH5 の酵素反応について調べる 他のデータベースへのリンク ゲノム上の位置他の遺伝子との位置の関連 27
酵素反応の情報 EC 番号 1.1.1.1 の名称 代表的な反応 NAD を補酵素に使用し アルコールをアルデヒドに変換する ( 逆方向も ) R00754 をクリックし 反応の詳細を調べる EC 1.1.1.1 に分類された反応の番号の一覧 説明など 亜鉛を要求するタンパク質 28
酵素番号 :EC number 酵素反応の種類をグループ化した物 EC 1.X.X.X : オキシドレダクターゼ ( 酸化還元酵素 ) EC.1.1.X.X : CH-OHの結合に対し働く EC.1.1.1.X : NAD 又はNADPを用いる EC.1.1.2.X : チトクロムを用いる EC.1.1.3.X : 酸素を用いる EC 2.X.X.X : トランスフェラーゼ ( 転移酵素 ) EC 3.X.X.X : ヒドロラーゼ ( 加水分解酵素 ) EC 4.X.X.X : リアーゼ ( 脱離酵素 ) EC 5.X.X.X : イソメラーゼ ( 異性化酵素 ) EC 6.X.X.X : リガーゼ ( 合成酵素 ) 29
酵素反応の情報 (R 番号 ) 物質名による反応 化合物番号による反応 この反応が属する酵素番号この反応が含まれる代謝経路 30
KEGG で遺伝子 / タンパク質の情報を調べる 酵素の機能名 Alcohol dehydrogenase という機能名であり酵素番号は EC: 1.1.1.1 関連する代謝経路解糖系 / 糖新生脂肪酸分解などの代謝経路の反応に関連する sce00010 をクリックし 代謝経路 ( 解糖系 ) におけるこの反応の位置を調べる 他のデータベースへのリンク ゲノム上の位置他の遺伝子との位置の関連 31
代謝経路の情報 緑色のボックスが 酵母に存在する代謝反応 ADH5 がコードするタンパク質の酵素番号が赤で示される Acetaldehyde を Ethanol に変換することが図から読み取れる 32
化合物番号 :C number 化合物固有の番号 17,096 の化合物が登録されている C00001 H 2 O C00002 ATP C00003 など NAD + C00469 の例 化合物名 この化合物が関与する反応番号 この化合物が関与する代謝経路 この化合物が関与する酵素番号 33