Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

遺伝子配列解析の基礎 genome=gene+ome DNA 配列からタンパク質へ cgtgctttccacgacggtgacacgcttccctggattggccagactgccttccgggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctga gtcaggaaacattttcagacctatggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccggacgatattga acaatggttcactgaagacccaggtccagatgaagctcccagaatgccagaggctgctccccgcgtggcccctgcaccagcagctcctacaccggcggcccctg caccagcccctcctggcccctgtcatcttctgtcccttcccagaaaacctaccagggcagctacggtttccgtctgggcttcttgcattccgggacagccaagtctg DNAの塩基配列 tgacttgcacgtactcccctgccctcaacaagatgttttgccaactggccaagacctgccctgtgcagctgtgggttgattccacacccccgcccggcacccgcgt ccgcgccatggccatctacaagcagtcacagcacatgacggaggttgtgaggcgctgcccccaccatgagcgctgctcagatagcgatggtctggcccctcctca atg gag agc cgc agt cag gcatcttatccgagtggaaggaaatttgcgtgtggagtatttggatgacagaaacacttttcgacatagtgtggtggtgccctatgagccgcctgaggttggctctgact M E E P Q S gtaccaccatccactacaactacatgtgtaacagttcctgcatgggcggcatgaaccggaggcccatcctcaccatcatcacactggaagactccagtggtaatct actgggacggaacagctttgaggtgcatgtttgtgcctgtcctgggagagaccggcgcacagaggaagagaatctccgcaagaaaggggagcctcaccacgagctg タンパク質のアミノ酸配列遺伝子配列の個人差 cccccagggagcactaagcgagcactgtccaacaacaccagctcctctccccagccaaagaagaaaccactggatggagaatatttcacccttcagatccgtggg cgtgagcgcttcgagatgttccgagagctgaatgaggccttggaactcaaggatgcccaggctgggaaggagccaggggggagcagggctcactccagccacctga 正常型 cgg gac agc agtccaaaaagggtcagtctacctcccgccataaaaaactcatgttcaagacagaagggcctgactcagactgacattctccacttcttgttccccactgacagcct cccacccccatctctccctcccctgccattttgggttttgggtctttgaacccttgcttgcaataggtgtgcgtcagaagcacccaggacttccatttgctttgtcccg R D S gggctccactgaacaagttggcctgcactggtgttttgttgtggggaggaggatggggagtaggacataccagcttagattttaaggtttttactgtgagggatgtttggg 変異型 cgg aac agc agatgtaagaaatgttcttgcagttaagggttagtttacaatcagccacattctaggtaggggcccacttcaccgtactaaccagggaagctgtccctcactgttgaat R N S tttctctaacttcaaggcccatatctgtgaaatgctggcatttgcacctacctcacagagtgcattgtgagggttaatgaaataatgtacatctggccttgaaaccacct tttattacatggggtctagaactgacccccttgagggtgcttgttccctctccctgttggtcggtgggttggtagtttctacagttgggcagctggttaggtagagggagtt gtcaagtctctgctggcccagccaaaccctgtctgacaacctcttggtgaaccttagtacctaaaaggaaatctcaccccatcccacaccctggaggatttcatctc ttgtatatgatgatctggatccaccaagacttgttttatgctcagggtcaatttcttttttctttttttttttttttttctttttctttgagactgggtctcgctttgttgcccagg ctggagtggagtggcgtgatcttggcttactgcagcctttgcctccccggctcgagcagtcctgcctcagcctccggagtagctgggaccacaggttcatgccacca tggccagccaacttttgcatgttttgtagagatggggtctcacagtgttgcccaggctggtctcaaactcctgggctcaggcgatccacctgtctcagcctcccagagt gctgggattacaattgtgagccaccacgtccagctggaagggtcaacatcttttacattctgcaagcacatctgcattttcaccccacccttcccctccttctcccttt 病気のなりやすさ ttatatcccatttttatatcgatctcttattttacaataaaactttgctgccaaaaaaaaaaaaaaaaaaaa 薬の効きやすさと副作用タンパク質の立体構造単純な文字列配列として扱えない原因配列決定時の読み取りエラー遺伝子の定義は転写規則の例外スプライシングコドン暗号表は 20 種類以上例外処理の実態ゲノム配列の解析はどこまで進んでいるか? 遺伝子とは? Genomic DNA exon1 intron1 exon2 exon3 intron2 promoter enhancer terminator exon1 exon2 exon3 intron1 intron2 上図は Nature 記事より無断掲載 Science 記事より無断掲載 2001.2 ドラフト配列 (99.9% の精度 ) 2003.4 完成配列 (99.99% 精度 ) mrna CAP exon1 exon2 exon3 Poly A 1

抗体の遺伝子選択的スプライシング (alternative splicing) 転写産物と翻訳配列の対応は 1 対多の関係である RNA エディティングトリパノソーマ ( 原鞭毛虫類睡眠病の原虫 ) のキネトプラスチド DNA の転写過程に見出されたそこではウリジンの挿入や欠失が見出されつくられるタンパク質の 1 次構造が変えられていたトリパノソーマキネトプラスチド ( ミトコンドリアに相当 ) のシトクロムオキシダーゼ遺伝子 (CO III)RNA(731 塩基 ) において 45 ヶ所で計 407 個のウリジンが挿入され 9 ヶ所で計 19 個のウリジンが欠失していたこのように RNA の塩基配列を変えることにより翻訳されるタンパク質に変化をもたらす現象を RNA エディティング RNA editing) と呼ぶイントロンで最も一般的なタイプは ' 端にGT ' 端にAGをもちこれは GT-AG 則と呼ばれる長さは様々で長いものでは数 University 100 of Science kb 2

trna のゆらぎ G-U の結合イノシンの導入による A,C,U との結合その結果 45 種の trna で 64 種のコドンに対応しているそれでも比べたいー DNA 配列比較の留意点ー類似性はあっても同一は期待できない同じ文字であっても距離は0とせず文字種に応じて異なる数値を与える工夫が必要違う文字であっても類似性が高いものもあるすなわち距離が小さくなる隠れた変異を見込む配列比較の効能遺伝子配列構造を分類するー > 相同性検索局所アライメント活性部位機能部位の予測ー > 大域アライメント進化系統解析変異の予測相同性検索による遺伝子解析配列アライメント入門配列アライメントについて相同性検索の概要 Blast 入門パラメータの意味目的に応じた blast 選択 orthorogu と paralogu 演習相同性検索遺伝子を見つける長さの違う 2 つの配列を整列化するやり方ローカルアライメント ( もっとも良く似た部分列を探す ) グローバルアライメント ( 違いが明確になるように長さをあわせる ) *** * * * 3

2 つのアミノ酸配列 MENMMNE と MMEYE 対して大域的アライメント ( グローバルアライメント ) は MENMMNE M -MEYE 局所的アライメント ( ローカルアライメント ) は ***MMN*** ***MME*** アライメントを評価するための仕組みアミノ酸対あるいは塩基対の距離 ( 類似性 ) を示す距離行列 ( 類似度行列 ) を準備しておく仮のアライメントをつくり距離行列を用いてアライメントを数値化可能なすべてのアライメントのすべてを数値化し ( 距離の場合は ) 最小 ( 類似度の場合は最大 ) の数値 ( アライメントスコア ) をもつアライメントを結果とする距離行列によってアライメント結果が異なる距離行列の一例代表的なスコア行列 PAM(Percent Accepted Mutation) 行列祖先の共通性が保証されているタンパク質ファミリーのアミノ酸配列を網羅的に集めアミノ酸の置換頻度から計算した BLOSUM(Blocks Amino Acid Substitution Matrices) 行列機能機知のタンパク質配列を BLAST によりアライメントしアミノ酸対間の相違を再計算したもの PAM とは? 1PAM(Percentage of accepted point mutation) はアミノ酸配列で 100 残基あたり 1 個のアミノ酸の置換が起こるのに必要な進化上の時間単位を指す 250PAM 行列は 100 残基あたり 250 個のアミノ酸置換がおこるような変異を仮定した場合にアミノ酸 i がアミノ酸 j に置換される相対的な頻度を表したもの相同性検索の概要遺伝子配列をキーにしてデータベースを検索し与えた遺伝子の機能を類推したいそのために遺伝子配列をキーにして配列データベースを検索することを考える遺伝子の機能は配列の一部分から類推可能であるそこでローカルアライメントのスコアが高くなるようにデータベース内の配列を取り出す取り出された配列はキー配列と局所的に配列類似性が高い部分をもっているはずである 4

相同性検索アルゴリズム Basic Local Alignment Search Tool(BLAST) アルゴリズム Smith-Waterman アルゴリズム BLAST アルゴリズムヒューリスティック法 ( 経験的手法 ) であり結果が最適解であることが保証されていない検索速度が速く大量のデータを処理できる米国国立医学図書館の NCBI(National Center for Biotechnology Information, National Institute of Medicine) の研究者が考案したプログラム問い合わせ配列データベース特徴 BLASTP タンパク質タンパク質ギャップあり BLASTN 核酸核酸ギャップあり BLASTX 翻訳された核酸タンパク質各フレームを考慮 TBLASTN タンパク質翻訳された核酸各フレームを考慮 TBLASTX 翻訳された核酸翻訳された核酸ギャップなし FASTA タンパク質 / 核酸タンパク質 / 核酸ギャップあり TFASTA タンパク質翻訳された核酸ギャップあり FASTX 翻訳された核酸タンパク質コドン間でフレームシフト考慮 FASTY 翻訳された核酸タンパク質コドン内で置換フレームシフトを考慮 TFASTX タンパク質翻訳された核酸コドン間でフレームシフト考慮 TFASTY タンパク質翻訳された核酸コドン内で置換フレームシフトを考慮 FASTF/TFASTF 短いペプチド断片タンパク質 / 翻訳電気泳動によってされた核酸分離されたデータ FASTS/TFASTS 短いペプチド断片タンパク質 / 翻訳質量分析による解された核酸析結データ e-value について HSP の長さが短い場合意味の無い配列が偶然に見つけられただけかもしれないそこで HSP がある値 S をもつ確率を計算し配列が偶然にみつかってしまう期待値を求める --->e-value 検索パラメータとして e-value を操る距離行列の一例タンパク質のドメイン構造を考慮した検索問い合わせ <10-20 10-8 ~<10-20 10-8 ~<10-20 10-6 ~<10-8 <10-4 5

分子進化距離の考え方配列比較から分子進化を捉える GTTCTAGTCC ATTCTTGTCT * * * 上記の 2 つの配列の進化距離 =3/10 とするのは危険!!! GTTCTAGTCC GTACTAGTCC ( 祖先 ) G ATTCTTGTCT 実際の置換数は 2T 時間で 6 個かもしれない主要な配列関連データベース一次データベース国際塩基配列データベース (INSDC) タンパク質立体構造データベース (PDB) 二次データベース ( 付加価値データベース ) Uniprot/SWISSprot ( タンパク質 ( アミノ酸 ) 配列 ) PROSITE( 配列モチーフ ) SCOP( タンパク質立体構造分類 ) Interpro( 配列モチーフ相同領域 ) H-inv( ヒトの転写産物配列 ) FANTOM( マウスの転写産物配列 ) ENCODE( ヒトゲノム配列の総合情報 ) ネット上には約 1000 種の有用な生物学的 DB がある 6