生命情報実験 A バイオインフォマティクスの道具箱 比較ゲノム解析 慶應義塾大学生命情報学科 榊原康文, 佐藤健吾
比較ゲノム解析 u n n ゲノム配列情報の蓄積 決定済 : 真核生物 183 種, 原核生物 3956 種 進行中 : 真核生物 4628 種, 原核生物 15233 種 (2013 年 4 月現在,GOLD Genomes OnLine Database v4.0) u 比較ゲノム解析の手順 : 1 保存性の高い相同性領域を検索してアンカーを決定 2 ゲノム間の保存領域から, n n n n 遺伝子領域の同定 オーソログやパラログなどのホモログ遺伝子の解析進化系統樹の解析 ゲノム再編成 ( 挿入や欠失 ) やトランスポゾン ( ゲノム中を動き回る遺伝子などの領域 ) の同定
比較ゲノム解析 チンパンジー ヒト ホヤ マウス 霊長類 脊椎動物 大腸菌 ハエ 真正細菌 古細菌 脊索動物 前口動物 線虫 真核生物
例題 :2 つの文章の比較解析 2 つの似ている歌詞を比較してみる : それはとても晴れた日で泣くことさえできなくてあまりにも大地は果てしなく全ては美しく白い服で遠くから行列に並べずに少し歌ってた それはとても晴れた日おだやかな笑顔に白い花を一輪そっとそえた美しいものはときに悲しい生き物やがてくる別れ感じて黒い列ならべずに (Cocco "Raining") ( 浜崎あゆみ "ever free") 同じ 単語 や 短い文節 が両方の文章に出現
例題 : ゲノム配列の比較解析 マイコバクテリアの M. tuberculosis ( 結核菌 ) と M.leprae ( らい菌 ) CGTCGGGTTCGTTCGGCGGCGGCGATGACG AACCGCCATTCTGACCCCAAGAACTGCAAA TCAAGAAACGGAAAGATAGACACTCATGGC CAAGTCCAGCAAGCGGCGCCCGGCTCCGGA AAAGCCGGTCAAGACGCGTAAATGCGTGTT CTGCGCGAAGAAGGACCAAGCGATCGACTA CAAGGACACCGCGCTGTTGCGCACCTACAT CAGCGAGCGCGGCAAGATCCGCGCGCGTCG GGTCACGGGCAACTGCGTGCAGCACCAGCG AGACATCGCGCTCGCGGTGAAGAACGCCCG CGAGGTGGCGCTGCTGCCCTTTACGTCTTC GGTGCGGTAGCGCCGAATGTCCAACGGAGA GTGCAAAATACCATGAAGCTCATTCTCACG GCCGATGTCGATCACCTCGGGTCCATCGGC GGCAGTGCCCCAACCTCGGGGTCCTTCGGC GTCGGTGACGAAGAACCCCCCTTCTAGTAA CGAAACGGAAAGAATTACACACATGGCCAA GTCCACCAAGCGGCGTCCAGCACCGGAGAA GCCGGCCAAAGCGCGTAAATGCGTTTTCTG CGCCAAGAAGAACCAGCAAATCGACTACAA GGACACCACGCTACTGCGGACGTACATCAG TGAGCGGGGCAAGATCCGGGCCCGTCGGGT CACTGGTAACTGCGTGCAACACCAGCGCGA CATCGCGATCGCGGTGAAGAACGCCCGCGA GGTGGCTCTGCTGCCCTTTACCTCCTCGGC GCGATAACCGGACGGACGGTAACCGCTGCA AGCCCAACGGAAAGTACGAAAACGATGAAG CTGATTCTGACGGCTGATGTCGACCATCTT アンカー ( 単語 ) アンカーの対応関係
例題 : ゲノム配列の比較解析 n アンカーは, ゲノムを一つの長い文書と見なしたときに, 単語に相当するもの CGTCGGGTTCGTTCGGCGGCGGCGATGACG AACCGCCATTCTGACCCCAAGAACTGCAAA TCAAGAAACGGAAAGATAGACACTCATGGC CAAGTCCAGCAAGCGGCGCCCGGCTCCGGA AAAGCCGGTCAAGACGCGTAAATGCGTGTT CTGCGCGAAGAAGGACCAAGCGATCGACTA CAAGGACACCGCGCTGTTGCGCACCTACAT CAGCGAGCGCGGCAAGATCCGCGCGCGTCG GGTCACGGGCAACTGCGTGCAGCACCAGCG AGACATCGCGCTCGCGGTGAAGAACGCCCG CGAGGTGGCGCTGCTGCCCTTTACGTCTTC GGTGCGGTAGCGCCGAATGTCCAACGGAGA GTGCAAAATACCATGAAGCTCATTCTCACG GCCGATGTCGATCACCTCGGGTCCATCGGC GGCAGTGCCCCAACCTCGGGGTCCTTCGGC GTCGGTGACGAAGAACCCCCCTTCTAGTAA CGAAACGGAAAGAATTACACACATGGCCAA GTCCACCAAGCGGCGTCCAGCACCGGAGAA GCCGGCCAAAGCGCGTAAATGCGTTTTCTG CGCCAAGAAGAACCAGCAAATCGACTACAA GGACACCACGCTACTGCGGACGTACATCAG TGAGCGGGGCAAGATCCGGGCCCGTCGGGT CACTGGTAACTGCGTGCAACACCAGCGCGA CATCGCGATCGCGGTGAAGAACGCCCGCGA GGTGGCTCTGCTGCCCTTTACCTCCTCGGC GCGATAACCGGACGGACGGTAACCGCTGCA AGCCCAACGGAAAGTACGAAAACGATGAAG CTGATTCTGACGGCTGATGTCGACCATCTT 遺伝子コード領域 rpsr1: ribosomal protein S18
ゲノム配列の進化 突然変異 : ゲノム再編成 : GCGTTAGCCG GCGCTAGCCG ゲノム A 1-5 4-3 2 転移 ゲノム B 1 2-5 4-3 1 2-5 -4-3 1 2 3 4 5 逆位 逆位
アンカーの計算 1 アンカーの抽出 : 配列レベルで相同性の高い保存領域 anchor, pip, (local alignment) などと呼ばれたりする数十から数百塩基ほどの相同領域で, エクソンや短い遺伝子くらいの単位アンカー ゲノム A 重複 欠失 転位 逆位 ゲノム B ゲノム C
既存の手法の問題点を解決して, 国産のマルチプルゲノム比較システムを開発 1 Murasaki のタスク : Murasaki : 比較ゲノムシステム u (1) アンカー ( 単語 ) の切り出し,(2) アンカーの格納, (3) アンカー間の対応関係付け アンカー切り出し アンカー対応関係 2 システムのスケール性 : 3 4 u 単一 CPU で,100Mbp( ヒト染色体 ) オーダーのゲノム配列までは実用時間内で計算可能 配列パターンの出現頻度に関する統計的解析が可能 並列化による高速化とより大きなゲノムの比較
Murasaki: 霊長類ゲノムの比較 霊長類の系統樹 アカゲザル ( マカク ) オランウータン ゴリラ 原猿類 チンパンジー 60~65 百万年 35 百万年 25 百万年 12 百万年 18 百万年 テナガザル 7 百万年 6 百万年 ヒト l l l マーモセット ヒト (human) チンパンジー (chimp) アカゲザル (rhesus) Human 22+X+Y Chimp 23+X+Y Rhesus 20+X
並列 Murasaki: 霊長類ゲノムの比較 u human ー chimp ー rhesus の丸ごと ( 全染色体 ) の比較 human chimp rhesus
染色体番号 : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 X Y human chimp rhesus
複数種のゲノム配列の比較解析 1 2 タンパク質をコードする遺伝子領域などの機能的に重要な領域では, その機能を保存する必要があるため, 変異や再 編成などが起こり難い 複数の生物種のゲノムを比較することにより, 変化の多い 部分と少ない部分を同定する 3 強く保存されている場所には遺伝子などの機能的に重要な領域が含まれている
オーソログ遺伝子とは n オーソログ遺伝子 (orthologous gene) 異なる生物の最終共通祖先が持っていた同一の遺伝情報にゆらい ヒトの α グロビンとマウスの α グロビン ( 祖先 ) 遺伝子 A C A T A T G G A C A T A T G G A C A T A T G G A ( 生物種 A) 遺伝子 A 遺伝子 A ( 生物種 B) C A A A T G G A C A T A T G C T
並列 Murasaki: 霊長類ゲノムの比較 代表的遺伝子の比較 :ALDH2( アルデヒド分解酵素 ) human 12 番染色体 chimp 13 番染色体 rhesus 11 番染色体 ( 予測 )
並列 Murasaki: 霊長類ゲノムの比較 代表的遺伝子の比較 : ALDH2( アルデヒド分解酵素 ) human chimp rhesus
表示システム GMV: GTK+ Murasaki Viewer u Murasaki の出力を可視化する u アノテーション情報を表示 (GenBank 形式のファイルに対応 )
u GMV へのブラウザ機能の追加 拡大表示で遺伝子名を表示
u GMV へのブラウザ機能の追加 アンカーのつながりを確認 l アンカーをクリックすると各配列上のアンカーで結ばれた領域を表示 注目箇所
u GMV へのブラウザ機能の追加 データベースにもリンク可能 l アノテーションからデータベースに接続
GMV へのブラウザ機能の追加 u アノテーション情報の検索 u 各配列上のアンカーで結ばれた領域を表示
出現頻度情報を用いたフィルターリング
Bacillus 属バクテリア 1 2 3 4 Bacillus 属は好気性の真正細菌モデル生物として有名な枯草菌や炭疽菌などが, この種に含まれる納豆を作る納豆菌は, 枯草菌の近縁種である Bacillus 属 3 種のゲノム配列,B. subtilis Merburg168( 枯草菌 ),B. subtilis BEST195( 納豆菌 ), B. subtilis ネパール株 ( 納豆菌 )
納豆菌 Bacillus subtilis natto のゲノム (Nishito et al., BMC Genomics, 2010) A T G C 納豆菌 ゲノム A T G C γ-ポリグルタミン酸 (γpga) サプリメント 化粧品 水の浄化 ドラッグデリバリーシステム 朝日新聞 朝刊科学面 2010年5月14日
1. 総遺伝子数 :4,429 納豆菌ゲノムの遺伝子解析 納豆菌固有 :670 (15.1%) 枯草菌と共通 :3,612 (81.6%) Bacillus 属と共通 :3,612+147 (84.9%) 2. DDBJ にゲノム配列を登録 3. 納豆菌ゲノムブラウザー http://www.natto-genome.org/
納豆菌ゲノムの解読から分かること 1. ゲノム全長 :410 万塩基対, 総遺伝子数 :4,429 2. γポリグルタミン酸の合成関連遺伝子群 p 非常に高い吸水性, 保湿力, カルシウム結合能 化粧品, 石鹸, サプリメント, 納豆樹脂 ( 紙オムツ, 水質浄化剤 ), など 3. ナットウキナーゼ遺伝子 p プロテアーゼの一種 血栓溶解能, 血圧降下, コレステロール 低下などの血中脂質改善 4. エラスターゼ遺伝子 p エラスチン ( 動脈などの弾性繊維の主成分 ) の分解 動脈硬化 症, 高血圧, 糖尿病, などの改善 5. 納豆菌ゲノムブラウザー http://www.natto-genome.org/
納豆のねばねば (γ ポリグルタミン酸 ) 1 納豆のねばねばは, アミノ酸の一つであるグルタミン酸が 10,000 個以上直鎖状につながった高分子 ( グルタミン酸ナトリウムは化学調味料 ) 2 グルタミン酸同士の結合 ( ペプチド結合 ) に, タンパク質では α 位のカルボキシル基が使われているが, ねばねばでは γ 位が使われている γ ポリグルタミン酸 側鎖 2 つのカルボキシル基 アミノ酸 グルタミン酸 3 生体のたんぱく質を構成するアミノ酸は L 型であるが,γ ポリグルタミン酸には 50-80% の割合で光学異性体の D 型が含まれる
納豆のねばねば (γ ポリグルタミン酸 ) 4 納豆菌にとっての γ ポリグルタミン酸は, 細胞過密で栄養源が不足したときの栄養貯蔵物質 p γ ポリグルタミン酸は生産者である納豆菌自身によって分解される p 分解酵素 :γグルタミルトランスフェレース ( GGT, ヒトではγGTP),YwrD p クオーラムセンシングと呼ばれる細菌が自己の密度 ( 仲間が周りにたくさんいること ) を感知する仕組みが関与 ( 食糧 - その科学と技術 - No.45 ( 食品総合研究所刊 )) 5 γ ポリグルタミン酸の化学構造 ( 自然界でも稀な存在で,Bacillus 属細菌の一部で見られる ) は, 他の細菌 微生物などに貯蔵物質を横取りされないための工夫 6 化粧品や飲料, 石鹸などに γ ポリグルタミン酸を添加した製品が市販されている. カルシウム結合能に注目したサプリメント錠剤も市場に出ている
納豆菌, 枯草菌のゲノム比較 枯草菌ゲノム 納豆菌に大きな欠失がみられる 納豆菌ゲノム アジア株ゲノム
納豆のねばねば成分合成のメカニズム 納豆菌ゲノム : 枯草菌 (168) は納豆を作らず, 納豆菌はねばねばを作る 大豆に枯草菌をかけた場合 大豆に納豆菌をかけた場合 この差は何が要因?
トランスポゾンとは ( 可動性因子 ) トランスポゼース 発見されたトランスポゼースの一覧 ITR ITR IS4Bsu1 5 逆向きの反復配列 トランスポゼース ゲノム上を転移するための酵素 枯草菌 : トランスポゾンを一つも持たない 納豆菌 : トランスポゾンを複数持つ 頻繁に移動しており, 遺伝子を破壊 Is256 6 ISBma2-like transposase 12 IS643-like transposase A 3 IS643-like transposase B ISLmo1-like transposase A 11 ISLmo1-like transposase B
トランスポゾンによる遺伝子 yjob の切断 納豆菌ゲノム ISLmo1-like transposase yjob:atpase タンパク質の分解に関与納豆菌ではこのタンパク質が機能していない可能性 ねばねば合成遺伝子に挿入されると, ねばねばが作られない 枯草菌ゲノム
納豆菌による γpga の合成経路 γpga 分解 YwrD クオーラムセンシング ( 自己の密度の感知 ) ComX γpga YwtD glutamate ComQ ComP γpga 合成酵素 PgsC YwsC PgsA SigD ComA シグナル伝達 ComA P 転写制御 DegU P + YvzD + Spo0A glutamate YcgN RocA GudB GltA RocG GltD DegQ DegS DegU グルタミン酸合成 AprN ナットウキナーゼ