相同性配列検索ツール：GHOST-MPとヒト口腔内メタゲノム解析

並列配列相同性検索プログラム GHOST-MP 講習会 ( 講義編 ) 2015 年 3 月 20 日東京工業大学大学院情報理工学研究科角田将典石田貴士秋山泰 1

講師紹介角田将典かくたまさのり石田貴士いしだたかし秋山泰あきやまゆたか東京工業大学大学院情報理工学研究科計算工学専攻 2

本日の予定 13:00-13:05 ごあいさつ 13:05-13:50 GHOST-MP 講習 13:50-14:00 休憩 14:00-16:00 GHOST-MP 実習 3

関連文献紹介 GHOST-MP 関連文献 GHOSTX: Suzuki et al., (2014) PLoS ONE 9(8):e103833 接尾辞配列を用いたアラインメント候補位置の高速探索 GHOST-MP: Kakuta et al., (in preparation) GHOSTX の分散メモリ環境版当グループの他の配列相同性検索関連文献 GHOXTM: Suzuki et al., (2012) PLoS ONE 7(5): e36060 GPU を用いた相同配列検索 GHOSTZ: Suzuki et al., (in press) doi: 10.1093/bioinformatics/btu780 部分文字列のクラスタリングによるアラインメント候補位置の高速探索 GHOSTZ-GPU: Suzuki et al., (in preparation) GHOSTZ の GPU 版 4

アジェンダ GHOST-MPとは GHOST-MPの開発動機メタゲノム解析配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化メタゲノム解析 (GHOST-MPの応用として) 5

GHOST-MP とは配列相同性検索プログラム塩基配列やアミノ酸配列をクエリアミノ酸配列を検索対象とする感度が高く高速な検索 GHOSTXアルゴリズム (Suzuki et al. 2014) による高速な検索 Message Passing Interface (MPI) と OpenMPによる並列化による計算資源の利用大量クエリ配列の並列検索を高速に行える 1 本のクエリ配列からなる検索では恩恵は小さい 6

アジェンダ GHOST-MPとは GHOST-MPの開発動機メタゲノム解析配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化メタゲノム解析 (GHOST-MPの応用として) 7

環境と細菌叢ヒトをはじめとして動物の体表体内や土壌海洋などの環境中には様々な微生物が存在する同じ環境内でも微生物集団 ( 細菌叢 ) には多様性があり環境と細菌叢は相互に影響を与えているヒト腸内の細菌叢同士を比べても条件 ( 個人疾病乳児の成長過程など ) によって細菌の組成が異なる環境と細菌叢の関係を調査するため環境中の細菌叢の情報を明らかにする必要がある 8

環境中の細菌叢の DNA Sequencing による解析 (1) 塩基配列から様々な解析が可能分類群遺伝子の相対存在度による解析パスウェイ解析系統樹解析 9

環境中の細菌叢の DNA Sequencing による解析 (2) マーカー遺伝子 (16S rrna など ) 特定の遺伝子が sequencing の対象対象がマーカー遺伝子に限られるため必要なシーケンシングデータは小さいどのような細菌がどのくらい存在するか解析メタゲノム細菌叢の全ゲノムが sequencing の対象全ゲノムが対象であるため必要とされるシーケンシングデータが大きいどのような細菌がどのくらい存在するか解析どのような遺伝子がどのくらい存在するか解析シーケンサの性能向上によって可能になったメタゲノムデータの解析では配列解析の対象となる配列数と塩基数が大きいため高速な解析が要求される 10

DNA Sequencing の近年の傾向 DNA Sequencing コストの推移 ( ヒトゲノム ) $1.E+08 Cost per genome Cost per Genome (USD) $1.E+07 $1.E+06 $1.E+05 $1.E+04 moore's law $1.E+03 2001 2004 2006 2009 2012 2014 Date Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP) Available at: www.genome.gov/sequencingcosts. Accessed Jan 10, 2015. 11

配列相同性検索が解析で果たす役割分類群遺伝子の相対存在度による解析パスウェイ解析系統樹解析配列相同性検索は読み取った塩基配列の由来する分類群や遺伝子ファミリ機能などの推定に用いられる塩基配列のみでは分類群や遺伝子に関する情報は不明配列相同性検索により既知の類似配列を探しそれらを推定する 12

GHOST-MP の開発動機メタゲノム解析の際の配列相同性検索に多くの時間を要するクエリ : DB: 土壌メタゲノムのシーケンシングデータ (75bp x 72M reads) NGS system (Illumina GAII) NCBI nr (about 5GB) KEGG genes.pep (about 2GB) NCBI BLASTX on 144-core Intel Xeon PC cluster 約 400 時間高速な配列相同性検索が必要とされる 13

アジェンダ GHOST-MPとは GHOST-MPの開発動機メタゲノム解析配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化メタゲノム解析 (GHOST-MPの応用として) 14

配列相同性検索進化的に類縁関係にある配列 ( 相同配列 ) つまり共通の祖先を有する配列では機能が保存していると推定することができる配列相同性検索は相同配列としてデータベースから類似配列を検索する手法 MSGALDVLQMKEEDVLKF クエリ配列 MSGALDVLQMKEEDVLKF MSGGLDVLQMKEEDVLKF MSGNLDVLQMKEEDVLKF... データベース類似配列 15

配列相同性検索 ( 配列の類似性 ) 塩基またはアミノ酸の類似性挿入欠失を考慮してアラインメントしスコアを評価する M S G A L D V L Q M S G N L - V L Q 5 4 6-2 4-11 4 4 5 score=5+4+6-2+4-11+4+4+5 欠失完全一致の場合でも塩基アミノ酸によってスコアが異なる不一致を許容 16

配列相同性検索 ( 候補探索 ) 様々な方法が提案されている基本的には類似配列の検索時間を短縮するため高速に候補を探索した後候補についてアラインメントの評価を行うクエリ配列データベース配列アラインメント候補検出の容易な特に類似した領域を列挙アラインメントアラインメントの伸長 17

配列相同性検索 ( 候補探索 ) データベース計算領域特に類似した領域クエリ Smith-Waterman などで最適解を求める場合特に類似した領域を見つけその部分のアラインメントを確定することで計算領域を削減できる類似スコアが低くなった際に挿入欠失の伸長を打ち切ることで計算領域をさらに削減できる 18

アジェンダ GHOST-MPとは GHOST-MPの開発動機メタゲノム解析配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化メタゲノム解析 (GHOST-MPの応用として) 19

GHOSTX アルゴリズム (1) Suzuki et al. (2014) PLoS ONE 9(8):e103833 アラインメント候補位置を高速に探索するアルゴリズムを提案しこれによって高速な相同性検索を実現した接尾辞配列 (Suffix Array) というデータ構造を用いて二分探索を行うことでクエリとデータベースの一部を比較するだけで候補位置を見つけることができる配列全てを突き合わせて比較しないため高速 T = abracadabra$ 0: abracadabra$ 1: bracadabra$ 2: racadabra$ 3: acadabra$ 4: cadabra$ sort 5: adabra$ 6: dabra$ 7: abra$ 8: bra$ 9: ra$ 10: a$ 11: $ Suffix Array 11: $ 10: a$ 7: abra$ 0: abracadabra$ 3: acadabra$ 5: adabra$ 8: bra$ 1: bracadabra$ 4: cadabra$ 6: dabra$ 9: ra$ 2: racadabra$ 20

GHOSTX アルゴリズム (2) クエリ配列データベース配列アラインメント候補検出の容易な特に類似した領域を列挙アラインメントアラインメントの伸長ここにクエリ配列とデータベース配列の接尾辞配列を利用することでアラインメント候補を高速に列挙する 21

GHOSTX アルゴリズム (3) BLAST GHOSTX Query sequences DB Query sequences DB K-mer (neighborhood words) finite automaton Suffix Array Suffix Array Seed search Search K-mer substring match by using finite automaton Seed search Search substring matches with the score more than threshold by comparing SA Gapless extension Gapped extension Gapless extension Gapped extension Results Results 22

GHOSTX の精度と速度計算ノード 1 ノード 1 スレッドを利用した場合 BLAST と比較し 152 倍高速近年開発されメタゲノム解析に用いられている RAPSearch と比較しても同等の精度で高速に検索が行えた 23

アジェンダ GHOST-MPとは GHOST-MPの開発動機メタゲノム解析配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化メタゲノム解析 (GHOST-MPの応用として) 24

GHOST-MP (Kakuta et al. in preparation) GHOSTX アルゴリズムを用いて複数の計算ノード上で大規模並列検索を行う特にスパコン京で実行することを念頭に開発スパコンをはじめとして近年の計算機の高速化は計算ユニット ( コアソケットノード ) の増加によって行われているため並列計算に対応することは重要分散メモリ環境では計算ノード間でデータが共有できないためノード間のデータ移動を MPI を実装した 25

GHOST-MP GHOSTX アルゴリズムの京の計算環境に対する最適化メモリの確保メモリアクセスの最適化スレッド間の負荷分散の改善プログラム全体経過時間 1 スレッド使用時に対する速度向上 26

GHOST-MP 検索アルゴリズム自体は GHOSTX と同じため精度に変化はない BLAST の並列実装である mpiblast と比較し同じ計算機資源を用いて 80-100 倍高速であった京を用いた実験で使用コアの増加と共に 32,000 CPU コアまで計算速度が向上 Strong scaling on TSUBAME 2.5 Strong scaling on K computer 27

アジェンダ GHOST-MPとは GHOST-MPの開発動機メタゲノム解析配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化メタゲノム解析 (GHOST-MPの応用として) 28

解析処理の概要サンプル i リード配列各サンプルごとに GHOST-MP でリード配列の KEGG Ortholog(KO) を推定しサンプル内の KO の相対頻度を求めるその後サンプルの KO 相対存在度に基づいてサンプル間の比較を行う KEGG DB GHOST-MP による配列相同性検索 K01111 K02222 KO KO K01111 K02222 相対存在度 1.32e-5 3.38e-6 遺伝子長で補正 KEGG Ortholog ( オーソログ遺伝子のグループ ) 29

ヒト口腔内メタゲノム解析への応用 GHOST-MP を利用して Human Metagenome Project (HMP) の公開するシーケンシングデータの解析を行った口腔内 8 部位 381 サンプル 180 億リード部位 : 角化歯肉硬口蓋咽喉口蓋扁桃舌背頬粘膜歯肉縁上の歯垢歯肉縁下の歯垢唾液 L.M. Proctor, Cell Host & Microbe, 2011 30

HMP 口腔メタゲノムデータ内訳 Site # of samples # of reads (x 10 6 ) 角化歯肉 6 331 硬口蓋 0 0 咽喉 7 128 口蓋扁桃 6 129 舌背 127 10330 頬粘膜 107 1202 歯肉縁上の歯垢 118 6200 歯肉縁下の歯垢 7 137 唾液 3 23 Total 381 18484 31

KO 相対存在度によるサンプル間比較主成分分析を行った第 3 主成分までで 58% の累積寄与率第 1 第 3 主成分で口腔内口腔前庭歯垢のデータの分布が異なることが分った口腔口腔前庭歯垢 L.M. Proctor, Cell Host & Microbe, 2011 32

相同性配列検索ツール：GHOST-MPと ヒト口腔内メタゲノム解析

相同性配列検索ツール：GHOST-MPとヒト口腔内メタゲノム解析