相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

Similar documents
nagasaki_GMT2015_key09

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

NGSデータ解析入門Webセミナー

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ


プロジェクト概要 ー ヒト全遺伝子 データベース(H-InvDB)の概要と進展

PowerPoint Presentation

GWB

KEGG.ppt

A Constructive Approach to Gene Expression Dynamics

GWB

Bioinformatics2

2008 年度下期未踏 IT 人材発掘 育成事業採択案件評価書 1. 担当 PM 田中二郎 PM ( 筑波大学大学院システム情報工学研究科教授 ) 2. 採択者氏名チーフクリエータ : 矢口裕明 ( 東京大学大学院情報理工学系研究科創造情報学専攻博士課程三年次学生 ) コクリエータ : なし 3.

アルゴリズム入門

計画研究 年度 定量的一塩基多型解析技術の開発と医療への応用 田平 知子 1) 久木田 洋児 2) 堀内 孝彦 3) 1) 九州大学生体防御医学研究所 林 健志 1) 2) 大阪府立成人病センター研究所 研究の目的と進め方 3) 九州大学病院 研究期間の成果 ポストシークエンシン

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

Microsoft PowerPoint - BI_okuno_

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

人工知能補足_池村

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

7-1(DNA配列から遺伝子を探す).ppt

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

PowerPoint プレゼンテーション

統合失調症発症に強い影響を及ぼす遺伝子変異を,神経発達関連遺伝子のNDE1内に同定した

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

Microsoft PowerPoint - SNGS_Ana講習会5月29日.pptx

PowerPoint Presentation

Microsoft PowerPoint _SINET_cloud

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

並列・高速化を実現するための 高速化サービスの概要と事例紹介

ChIP-seq

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日


生命情報学


生命情報学

機能ゲノム学(第6回)

研究背景 大規模な演算を行うためには 分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用 様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため 生産性が悪い 新しい並

White Paper 高速部分画像検索キット(FPGA アクセラレーション)

hpc141_shirahata.pdf

ICDE’15 勉強会 R24-4: R27-3 (R24:Query Processing 3, R27 Indexing)

5_motif 公開版.ppt

Microsoft PowerPoint - pr_12_template-bs.pptx

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会

GWB

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

PowerPoint プレゼンテーション

並列処理による処理速度向上

Microsoft PowerPoint - lecture a.pptx

機能ゲノム学(第6回)

分子系統解析における様々な問題について 田辺晶史

目次 Ion Reporter 概要とメタゲノム解析 Ion16S Metagenome Kit データ解析概略 解析実行手順 解析実行結果 カスタムプライマー利用時のWorkflow 作成 サポート情報 p.3 p.9 p.14 p.19 p.26 p.35 2


Microsoft Word - GCOEキャリアパス支援テクニカルセミナー090709web.doc

論文題目  腸管分化に関わるmiRNAの探索とその発現制御解析

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Slide 1

PowerPoint プレゼンテーション

研究成果報告書

Microsoft PowerPoint - 4_河邊先生_改.ppt

PC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 P

AJACS_komachi.key

円筒面で利用可能なARマーカ

PowerPoint Presentation

RICCについて

卒業論文

田向研究室PPTテンプレート

スライド 1

GROMACS実習

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS

PowerPoint プレゼンテーション

分子系統解析における様々な問題について 田辺晶史


LinuxServerMori.pdf

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

バイオインフォマティクスⅠ

GWB_RNA-Seq_

連続講演会 東京で学ぶ京大の知 シリーズ 16 社会に浸透する情報技術第 2 回 ゲノム情報のコンピュータ解析 高校数学 +α による先端的解析手法 京都大学が東京 品川の 京都大学東京オフィス で開く連続講演会 東京で学ぶ京大の知 のシリーズ 16 社会に浸透する情報技術 9 月 22 日の第 2

バイオインフォマティクスⅠ

(速報) Xeon E 系モデル 新プロセッサ性能について

京都府中小企業技術センター技報 37(2009) 新規有用微生物の探索に関する研究 浅田 *1 聡 *2 上野義栄 [ 要旨 ] 産業的に有用な微生物を得ることを目的に 発酵食品である漬物と酢から微生物の分離を行った 漬物から分離した菌については 乳酸菌 酵母 その他のグループに分類ができた また

バクテリアゲノム解析

修士論文予稿集の雛型

共起関係解析によるタンパク質の機能モジュール探索法の開発

Microsoft PowerPoint _生物配列解析基礎_3回目.pptx

にゃんぱすー

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP

スパコンに通じる並列プログラミングの基礎

Slide 1

NLP プログラミング勉強会 6 かな漢字変換 自然言語処理プログラミング勉強会 6 - かな漢字変換 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

大学院博士課程共通科目ベーシックプログラム

PowerPoint プレゼンテーション

Coding theorems for correlated sources with cooperative information

スパコンに通じる並列プログラミングの基礎

分子系統樹推定の落とし穴と回避法 筑波大 生命環境 田辺晶史

Microsoft Word - all_ jp.docx

Transcription:

並列配列相同性検索プログラム GHOST-MP 講習会 ( 講義編 ) 2015 年 3 月 20 日 東京工業大学大学院情報理工学研究科 角田将典 石田貴士 秋山泰 1

講師紹介 角田将典かくたまさのり 石田貴士いしだたかし 秋山泰あきやまゆたか 東京工業大学大学院情報理工学研究科計算工学専攻 2

本日の予定 13:00-13:05 ごあいさつ 13:05-13:50 GHOST-MP 講習 13:50-14:00 休憩 14:00-16:00 GHOST-MP 実習 3

関連文献紹介 GHOST-MP 関連文献 GHOSTX: Suzuki et al., (2014) PLoS ONE 9(8):e103833 接尾辞配列を用いたアラインメント候補位置の高速探索 GHOST-MP: Kakuta et al., (in preparation) GHOSTX の分散メモリ環境版 当グループの他の配列相同性検索関連文献 GHOXTM: Suzuki et al., (2012) PLoS ONE 7(5): e36060 GPU を用いた相同配列検索 GHOSTZ: Suzuki et al., (in press) doi: 10.1093/bioinformatics/btu780 部分文字列のクラスタリングによるアラインメント候補位置の高速探索 GHOSTZ-GPU: Suzuki et al., (in preparation) GHOSTZ の GPU 版 4

アジェンダ GHOST-MPとは GHOST-MPの開発動機 メタゲノム解析 配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化 メタゲノム解析 (GHOST-MPの応用として) 5

GHOST-MP とは 配列相同性検索プログラム 塩基配列やアミノ酸配列をクエリ アミノ酸配列を検索対象とする 感度が高く 高速な検索 GHOSTXアルゴリズム (Suzuki et al. 2014) による高速な検索 Message Passing Interface (MPI) と OpenMPによる並列化による計算資源の利用 大量クエリ配列の並列検索を高速に行える 1 本のクエリ配列からなる検索では 恩恵は小さい 6

アジェンダ GHOST-MPとは GHOST-MPの開発動機 メタゲノム解析 配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化 メタゲノム解析 (GHOST-MPの応用として) 7

環境と細菌叢 ヒトをはじめとして動物の体表 体内や 土壌 海洋などの環境中には様々な微生物が存在する 同じ環境内でも微生物集団 ( 細菌叢 ) には多様性があり 環境と細菌叢は相互に影響を与えている ヒト腸内の細菌叢同士を比べても 条件 ( 個人 疾病 乳児の成長過程など ) によって 細菌の組成が異なる 環境と細菌叢の関係を調査するため 環境中の細菌叢の情報を明らかにする必要がある 8

環境中の細菌叢の DNA Sequencing による解析 (1) 塩基配列から様々な解析が可能 分類群 遺伝子の相対存在度による解析 パスウェイ解析 系統樹解析 9

環境中の細菌叢の DNA Sequencing による解析 (2) マーカー遺伝子 (16S rrna など ) 特定の遺伝子が sequencing の対象 対象がマーカー遺伝子に限られるため 必要なシーケンシングデータは小さい どのような細菌がどのくらい存在するか解析 メタゲノム 細菌叢の全ゲノムが sequencing の対象 全ゲノムが対象であるため 必要とされるシーケンシングデータが大きい どのような細菌がどのくらい存在するか解析 どのような遺伝子がどのくらい存在するか解析 シーケンサの性能向上によって可能になった メタゲノムデータの解析では 配列解析の対象となる配列数と塩基数が大きいため 高速な解析が要求される 10

DNA Sequencing の近年の傾向 DNA Sequencing コストの推移 ( ヒトゲノム ) $1.E+08 Cost per genome Cost per Genome (USD) $1.E+07 $1.E+06 $1.E+05 $1.E+04 moore's law $1.E+03 2001 2004 2006 2009 2012 2014 Date Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP) Available at: www.genome.gov/sequencingcosts. Accessed Jan 10, 2015. 11

配列相同性検索が解析で果たす役割 分類群 遺伝子の相対存在度による解析 パスウェイ解析 系統樹解析 配列相同性検索は 読み取った塩基配列の由来する分類群や遺伝子ファミリ 機能などの推定に用いられる 塩基配列のみでは 分類群や遺伝子に関する情報は不明 配列相同性検索により 既知の類似配列を探し それらを推定する 12

GHOST-MP の開発動機 メタゲノム解析の際の配列相同性検索に 多くの時間を要する クエリ : DB: 土壌メタゲノムのシーケンシングデータ (75bp x 72M reads) NGS system (Illumina GAII) NCBI nr (about 5GB) KEGG genes.pep (about 2GB) NCBI BLASTX on 144-core Intel Xeon PC cluster 約 400 時間 高速な配列相同性検索が必要とされる 13

アジェンダ GHOST-MPとは GHOST-MPの開発動機 メタゲノム解析 配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化 メタゲノム解析 (GHOST-MPの応用として) 14

配列相同性検索 進化的に類縁関係にある配列 ( 相同配列 ) つまり 共通の祖先を有する配列では 機能が保存していると推定することができる 配列相同性検索は 相同配列としてデータベースから類似配列を検索する手法 MSGALDVLQMKEEDVLKF クエリ配列 MSGALDVLQMKEEDVLKF MSGGLDVLQMKEEDVLKF MSGNLDVLQMKEEDVLKF... データベース 類似配列 15

配列相同性検索 ( 配列の類似性 ) 塩基またはアミノ酸の類似性 挿入 欠失を考慮してアラインメントし スコアを評価する M S G A L D V L Q M S G N L - V L Q 5 4 6-2 4-11 4 4 5 score=5+4+6-2+4-11+4+4+5 欠失 完全一致の場合でも塩基 アミノ酸によってスコアが異なる 不一致を許容 16

配列相同性検索 ( 候補探索 ) 様々な方法が提案されている基本的には 類似配列の検索時間を短縮するため 高速に候補を探索した後 候補についてアラインメントの評価を行う クエリ配列 データベース配列 アラインメント候補 検出の容易な特に類似した領域を列挙 アラインメント アラインメントの伸長 17

配列相同性検索 ( 候補探索 ) データベース 計算領域 特に類似した領域 クエリ Smith-Waterman などで最適解を求める場合 特に類似した領域を見つけ その部分のアラインメントを確定することで計算領域を削減できる 類似スコアが低くなった際に挿入 欠失の伸長を打ち切ることで 計算領域をさらに削減できる 18

アジェンダ GHOST-MPとは GHOST-MPの開発動機 メタゲノム解析 配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化 メタゲノム解析 (GHOST-MPの応用として) 19

GHOSTX アルゴリズム (1) Suzuki et al. (2014) PLoS ONE 9(8):e103833 アラインメント候補位置を高速に探索するアルゴリズムを提案し これによって高速な相同性検索を実現した 接尾辞配列 (Suffix Array) というデータ構造を用いて 二分探索を行うことでクエリとデータベースの一部を比較するだけで 候補位置を見つけることができる 配列全てを突き合わせて比較しないため高速 T = abracadabra$ 0: abracadabra$ 1: bracadabra$ 2: racadabra$ 3: acadabra$ 4: cadabra$ sort 5: adabra$ 6: dabra$ 7: abra$ 8: bra$ 9: ra$ 10: a$ 11: $ Suffix Array 11: $ 10: a$ 7: abra$ 0: abracadabra$ 3: acadabra$ 5: adabra$ 8: bra$ 1: bracadabra$ 4: cadabra$ 6: dabra$ 9: ra$ 2: racadabra$ 20

GHOSTX アルゴリズム (2) クエリ配列 データベース配列 アラインメント候補 検出の容易な特に類似した領域を列挙 アラインメント アラインメントの伸長 ここにクエリ配列とデータベース配列の接尾辞配列を利用することで アラインメント候補を高速に列挙する 21

GHOSTX アルゴリズム (3) BLAST GHOSTX Query sequences DB Query sequences DB K-mer (neighborhood words) finite automaton Suffix Array Suffix Array Seed search Search K-mer substring match by using finite automaton Seed search Search substring matches with the score more than threshold by comparing SA Gapless extension Gapped extension Gapless extension Gapped extension Results Results 22

GHOSTX の精度と速度 計算ノード 1 ノード 1 スレッドを利用した場合 BLAST と比較し 152 倍高速 近年開発されメタゲノム解析に用いられている RAPSearch と比較しても 同等の精度で高速に検索が行えた 23

アジェンダ GHOST-MPとは GHOST-MPの開発動機 メタゲノム解析 配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化 メタゲノム解析 (GHOST-MPの応用として) 24

GHOST-MP (Kakuta et al. in preparation) GHOSTX アルゴリズムを用いて複数の計算ノード上で大規模並列検索を行う 特にスパコン 京 で実行することを念頭に開発 スパコンをはじめとして近年の計算機の高速化は計算ユニット ( コア ソケット ノード ) の増加によって行われているため並列計算に対応することは重要 分散メモリ環境では計算ノード間でデータが共有できないため ノード間のデータ移動を MPI を実装した 25

GHOST-MP GHOSTX アルゴリズムの 京 の計算環境に対する最適化 メモリの確保 メモリアクセスの最適化 スレッド間の負荷分散の改善 プログラム全体 経過時間 1 スレッド使用時に対する速度向上 26

GHOST-MP 検索アルゴリズム自体は GHOSTX と同じため 精度に変化はない BLAST の並列実装である mpiblast と比較し 同じ計算機資源を用いて 80-100 倍高速であった 京 を用いた実験で使用コアの増加と共に 32,000 CPU コアまで計算速度が向上 Strong scaling on TSUBAME 2.5 Strong scaling on K computer 27

アジェンダ GHOST-MPとは GHOST-MPの開発動機 メタゲノム解析 配列相同性検索 GHOSTXアルゴリズム MPIによる分散メモリ環境での並列化 メタゲノム解析 (GHOST-MPの応用として) 28

解析処理の概要 サンプル i リード配列 各サンプルごとに GHOST-MP でリード配列の KEGG Ortholog(KO) を推定し サンプル内の KO の相対頻度を求める その後サンプルの KO 相対存在度に基づいてサンプル間の比較を行う KEGG DB GHOST-MP による配列相同性検索 K01111 K02222 KO KO K01111 K02222 相対存在度 1.32e-5 3.38e-6 遺伝子長で補正 KEGG Ortholog ( オーソログ遺伝子のグループ ) 29

ヒト口腔内メタゲノム解析への応用 GHOST-MP を利用して Human Metagenome Project (HMP) の公開するシーケンシングデータの解析を行った 口腔内 8 部位 381 サンプル 180 億リード 部位 : 角化歯肉 硬口蓋 咽喉 口蓋扁桃 舌背 頬粘膜 歯肉縁上の歯垢 歯肉縁下の歯垢 唾液 L.M. Proctor, Cell Host & Microbe, 2011 30

HMP 口腔メタゲノムデータ内訳 Site # of samples # of reads (x 10 6 ) 角化歯肉 6 331 硬口蓋 0 0 咽喉 7 128 口蓋扁桃 6 129 舌背 127 10330 頬粘膜 107 1202 歯肉縁上の歯垢 118 6200 歯肉縁下の歯垢 7 137 唾液 3 23 Total 381 18484 31

KO 相対存在度によるサンプル間比較 主成分分析を行った 第 3 主成分までで 58% の累積寄与率 第 1 第 3 主成分で口腔内 口腔前庭 歯垢のデータの分布が異なることが分った 口腔 口腔前庭 歯垢 L.M. Proctor, Cell Host & Microbe, 2011 32