遺伝子配列解析の基礎 genome=gene+ome DNA 配列からタンパク質へ cgtgctttccacgacggtgacacgcttccctggattggccagactgccttccgggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctga gtcaggaaacattttcagacctatggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccggacgatattga acaatggttcactgaagacccaggtccagatgaagctcccagaatgccagaggctgctccccgcgtggcccctgcaccagcagctcctacaccggcggcccctg caccagcccctcctggcccctgtcatcttctgtcccttcccagaaaacctaccagggcagctacggtttccgtctgggcttcttgcattccgggacagccaagtctg DNAの塩基配列 tgacttgcacgtactcccctgccctcaacaagatgttttgccaactggccaagacctgccctgtgcagctgtgggttgattccacacccccgcccggcacccgcgt ccgcgccatggccatctacaagcagtcacagcacatgacggaggttgtgaggcgctgcccccaccatgagcgctgctcagatagcgatggtctggcccctcctca atg gag agc cgc agt cag gcatcttatccgagtggaaggaaatttgcgtgtggagtatttggatgacagaaacacttttcgacatagtgtggtggtgccctatgagccgcctgaggttggctctgact M E E P Q S gtaccaccatccactacaactacatgtgtaacagttcctgcatgggcggcatgaaccggaggcccatcctcaccatcatcacactggaagactccagtggtaatct actgggacggaacagctttgaggtgcatgtttgtgcctgtcctgggagagaccggcgcacagaggaagagaatctccgcaagaaaggggagcctcaccacgagctg タンパク質のアミノ酸配列遺伝子配列の個人差 cccccagggagcactaagcgagcactgtccaacaacaccagctcctctccccagccaaagaagaaaccactggatggagaatatttcacccttcagatccgtggg cgtgagcgcttcgagatgttccgagagctgaatgaggccttggaactcaaggatgcccaggctgggaaggagccaggggggagcagggctcactccagccacctga 正常型 cgg gac agc agtccaaaaagggtcagtctacctcccgccataaaaaactcatgttcaagacagaagggcctgactcagactgacattctccacttcttgttccccactgacagcct cccacccccatctctccctcccctgccattttgggttttgggtctttgaacccttgcttgcaataggtgtgcgtcagaagcacccaggacttccatttgctttgtcccg R D S gggctccactgaacaagttggcctgcactggtgttttgttgtggggaggaggatggggagtaggacataccagcttagattttaaggtttttactgtgagggatgtttggg 変異型 cgg aac agc agatgtaagaaatgttcttgcagttaagggttagtttacaatcagccacattctaggtaggggcccacttcaccgtactaaccagggaagctgtccctcactgttgaat R N S tttctctaacttcaaggcccatatctgtgaaatgctggcatttgcacctacctcacagagtgcattgtgagggttaatgaaataatgtacatctggccttgaaaccacct tttattacatggggtctagaactgacccccttgagggtgcttgttccctctccctgttggtcggtgggttggtagtttctacagttgggcagctggttaggtagagggagtt gtcaagtctctgctggcccagccaaaccctgtctgacaacctcttggtgaaccttagtacctaaaaggaaatctcaccccatcccacaccctggaggatttcatctc ttgtatatgatgatctggatccaccaagacttgttttatgctcagggtcaatttcttttttctttttttttttttttttctttttctttgagactgggtctcgctttgttgcccagg ctggagtggagtggcgtgatcttggcttactgcagcctttgcctccccggctcgagcagtcctgcctcagcctccggagtagctgggaccacaggttcatgccacca tggccagccaacttttgcatgttttgtagagatggggtctcacagtgttgcccaggctggtctcaaactcctgggctcaggcgatccacctgtctcagcctcccagagt gctgggattacaattgtgagccaccacgtccagctggaagggtcaacatcttttacattctgcaagcacatctgcattttcaccccacccttcccctccttctcccttt 病気のなりやすさ ttatatcccatttttatatcgatctcttattttacaataaaactttgctgccaaaaaaaaaaaaaaaaaaaa 薬の効きやすさと副作用タンパク質の立体構造 単純な文字列配列として扱えない原因 配列決定時の読み取りエラー 遺伝子の定義は 転写規則の例外 スプライシング コドン暗号表は 20 種類以上 例外処理の実態 ゲノム配列の解析はどこまで進んでいるか? 遺伝子とは? Genomic DNA exon1 intron1 exon2 exon3 intron2 promoter enhancer terminator exon1 exon2 exon3 intron1 intron2 上図は Nature 記事より無断掲載 Science 記事より無断掲載 2001.2 ドラフト配列 (99.9% の精度 ) 2003.4 完成配列 (99.99% 精度 ) mrna CAP exon1 exon2 exon3 Poly A 1
抗体の遺伝子 選択的スプライシング (alternative splicing) 転写産物と翻訳配列の対応は 1 対多の関係である RNA エディティング トリパノソーマ ( 原鞭毛虫類 睡眠病の原虫 ) のキネトプラスチド DNA の転写過程に見出された そこではウリジンの挿入や欠失が見出され つくられるタンパク質の 1 次構造が変えられていた トリパノソーマ キネトプラスチド ( ミトコンドリアに相当 ) のシトクロムオキシダーゼ遺伝子 (CO III)RNA(731 塩基 ) において 45 ヶ所で計 407 個のウリジンが挿入され 9 ヶ所で計 19 個のウリジンが欠失していた このように RNA の塩基配列を変えることにより 翻訳されるタンパク質に変化をもたらす現象を RNA エディティング RNA editing) と呼ぶ イントロンで最も一般的なタイプは ' 端にGT ' 端にAGをもち これは GT-AG 則と呼ばれる 長さは様々で長いものでは数 University 100 of Science kb 2
trna のゆらぎ G-U の結合 イノシンの導入による A,C,U との結合 その結果 45 種の trna で 64 種のコドンに対応している それでも比べたいー DNA 配列比較の留意点ー 類似性 はあっても 同一 は期待できない 同じ文字であっても距離は0とせず 文字種に応じて異なる数値を与える工夫が必要 違う文字であっても類似性が高いものもある すなわち 距離が小さくなる 隠れた変異を見込む 配列比較の効能 遺伝子 配列構造を分類するー > 相同性検索 局所アライメント 活性部位 機能部位の予測ー > 大域アライメント 進化系統解析 変異の予測 相同性検索による遺伝子解析 配列アライメント入門 配列アライメントについて 相同性検索の概要 Blast 入門 パラメータの意味 目的に応じた blast 選択 orthorogu と paralogu 演習 相同性検索 遺伝子を見つける 長さの違う 2 つの配列を整列化するやり方 ローカルアライメント ( もっとも良く似た部分列を探す ) グローバルアライメント ( 違いが明確になるように長さをあわせる ) *** * * * 3
2 つのアミノ酸配列 MENMMNE と MMEYE 対して 大域的アライメント ( グローバルアライメント ) は MENMMNE M -MEYE 局所的アライメント ( ローカルアライメント ) は ***MMN*** ***MME*** アライメントを評価するための仕組み アミノ酸対あるいは塩基対の距離 ( 類似性 ) を示す距離行列 ( 類似度行列 ) を準備しておく 仮のアライメントをつくり 距離行列を用いてアライメントを数値化 可能なすべてのアライメントのすべてを数値化し ( 距離の場合は ) 最小 ( 類似度の場合は最大 ) の数値 ( アライメントスコア ) をもつアライメントを結果とする 距離行列によってアライメント結果が異なる 距離行列の一例 代表的なスコア行列 PAM(Percent Accepted Mutation) 行列 祖先の共通性が保証されているタンパク質ファミリーのアミノ酸配列を網羅的に集め アミノ酸の置換頻度から計算した BLOSUM(Blocks Amino Acid Substitution Matrices) 行列 機能機知のタンパク質配列を BLAST によりアライメントしアミノ酸対間の相違を再計算したもの PAM とは? 1PAM(Percentage of accepted point mutation) はアミノ酸配列で 100 残基あたり 1 個のアミノ酸の置換が起こるのに必要な進化上の時間単位を指す 250PAM 行列は 100 残基あたり 250 個のアミノ酸置換がおこるような変異を仮定した場合に アミノ酸 i がアミノ酸 j に置換される相対的な頻度を表したもの 相同性検索の概要 遺伝子配列をキーにして データベースを検索し 与えた遺伝子の機能を類推したい そのために 遺伝子配列をキーにして 配列データベースを検索することを考える 遺伝子の機能は 配列の一部分から類推可能である そこで ローカルアライメントのスコアが高くなるようにデータベース内の配列を取り出す 取り出された配列は キー配列と局所的に配列類似性が高い部分をもっているはずである 4
相同性検索アルゴリズム Basic Local Alignment Search Tool(BLAST) アルゴリズム Smith-Waterman アルゴリズム BLAST アルゴリズム ヒューリスティック法 ( 経験的手法 ) であり 結果が最適解であることが保証されていない 検索速度が速く 大量のデータを処理できる 米国 国立医学図書館の NCBI(National Center for Biotechnology Information, National Institute of Medicine) の研究者が考案した プログラム問い合わせ配列データベース特徴 BLASTP タンパク質タンパク質ギャップあり BLASTN 核酸核酸ギャップあり BLASTX 翻訳された核酸タンパク質各フレームを考慮 TBLASTN タンパク質翻訳された核酸各フレームを考慮 TBLASTX 翻訳された核酸翻訳された核酸ギャップなし FASTA タンパク質 / 核酸タンパク質 / 核酸ギャップあり TFASTA タンパク質翻訳された核酸ギャップあり FASTX 翻訳された核酸 タンパク質 コドン間でフレームシフト考慮 FASTY 翻訳された核酸 タンパク質 コドン内で置換 フレームシフトを考慮 TFASTX タンパク質 翻訳された核酸 コドン間でフレー ムシフト考慮 TFASTY タンパク質 翻訳された核酸 コドン内で置換 フレームシフトを考慮 FASTF/TFASTF 短いペプチド断片 タンパク質 / 翻訳 電気泳動によって された核酸 分離されたデータ FASTS/TFASTS 短いペプチド断片 タンパク質 / 翻訳 質量分析による解 された核酸 析結データ e-value について HSP の長さが短い場合 意味の無い配列が偶然に見つけられただけかもしれない そこで HSP がある値 S をもつ確率を計算し 配列が偶然にみつかってしまう期待値 を求める --->e-value 検索パラメータとして e-value を操る 距離行列の一例 タンパク質のドメイン構造を考慮した検索 問い合わせ <10-20 10-8 ~<10-20 10-8 ~<10-20 10-6 ~<10-8 <10-4 5
分子進化距離の考え方 配列比較から分子進化を捉える GTTCTAGTCC ATTCTTGTCT * * * 上記の 2 つの配列の進化距離 =3/10 とするのは危険!!! GTTCTAGTCC GTACTAGTCC ( 祖先 ) G ATTCTTGTCT 実際の置換数は 2T 時間で 6 個かもしれない 主要な配列関連データベース一次データベース国際塩基配列データベース (INSDC) タンパク質立体構造データベース (PDB) 二次データベース ( 付加価値データベース ) Uniprot/SWISSprot ( タンパク質 ( アミノ酸 ) 配列 ) PROSITE( 配列モチーフ ) SCOP( タンパク質立体構造分類 ) Interpro( 配列モチーフ 相同領域 ) H-inv( ヒトの転写産物配列 ) FANTOM( マウスの転写産物配列 ) ENCODE( ヒトゲノム配列の総合情報 ) ネット上には約 1000 種の有用な生物学的 DB がある 6