GROMACS実習

Similar documents
スライド 1

openmp1_Yaguchi_version_170530

GROMACS実習

PowerPoint プレゼンテーション

演習1: 演習準備

演習準備

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

新スーパーコンピュータ 「ITOシステム」利用講習会

I I / 47

内容に関するご質問は まで お願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会 ライブラリ利用 : 科学技術計算の効率化入門 スパコンへのログイン テストプログラム起動 東京大学情報基盤セ

Hphi実行環境導入マニュアル_v1.1.1

$ cmake --version $ make --version $ gcc --version 環境が無いあるいはバージョンが古い場合は yum などを用いて導入 最新化を行う 4. 圧縮ファイルを解凍する $ tar xzvf gromacs tar.gz 5. cmake を用

情報処理概論(第二日目)

<4D F736F F F696E74202D D F95C097F D834F E F93FC96E5284D F96E291E85F8DE391E52E >

Oakforest-PACS 利用の手引き 2 ノートパソコンの設定 : 公開鍵の生成 登録

目次 LS-DYNA 利用の手引き 1 1. はじめに 利用できるバージョン 概要 1 2. TSUBAME での利用方法 使用可能な LS-DYNA の実行 4 (1) TSUBAMEにログイン 4 (2) バージョンの切り替え 4 (3) インタラ

Microsoft PowerPoint - InfPro_I6.pptx

LS-DYNA 利用の手引 第 1 版 東京工業大学学術国際情報センター 2017 年 9 月 25 日

基本的な利用法

1. TSUBAME2.5 通常実行まで 1.1. 環境設定 (MPI ライブラリ & コンパイラ ) まずは para-tcci で使用する環境変数を.bashrc に定義します. 後述の Scalasca で OpenMPI を使用するため, ここでも最新の OpenMPI と Intel コン

±é½¬£²¡§£Í£Ð£É½éÊâ

SLAMD導入手順

Taro-cshプログラミングの応用.jt

Microsoft PowerPoint - 演習2:MPI初歩.pptx

Microsoft Word - appendix_b_srft.doc

2. 設定画面から 下記の項目について入力を行って下さい Report Type - 閲覧したい利用統計の種類を選択 Database Usage Report: ご契約データベース毎の利用統計 Interface Usage Report: 使用しているインターフェイス * 毎の利用統計 * 専用

ERDAS IMAGINE における処理速度の向上 株式会社ベストシステムズ PASCO CORPORATION 2015

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

並列計算導入.pptx

実験 5 CGI プログラミング 1 目的 動的にWebページを作成する手法の一つであるCGIについてプログラミングを通じて基本的な仕組みを学ぶ 2 実験 実験 1 Webサーバの設定確認と起動 (1)/etc/httpd/conf にある httpd.conf ファイルの cgi-bin に関する

データセンターの効率的な資源活用のためのデータ収集・照会システムの設計

TopSE並行システム はじめに

ftServerでのログの取得方法の概要

設定ファイル R 起動時に読み込まれ, R における種々の設定を項目別にファイルに記述してあります R の主な設定ファイルは Rconsole, Rdevga, Renviron, Rprofile の 4 つです いずれもテキストファイルですが, 改行コードが Windows のものと異なる場合が

Microsoft Word _001b_hecmw_PC_cluster_201_howtodevelop.doc

unix.dvi

Reedbush 利用の手引き 2 ノートパソコンの設定 : 公開鍵の生成 登録 ネットワーク環境に接続してから行ってください

Microsoft Word - appli_OpenMX_install.docx

HDC-EDI Manager Ver レベルアップ詳細情報 < 製品一覧 > 製品名バージョン HDC-EDI Manager < 対応 JavaVM> Java 2 Software Development Kit, Standard Edition 1.4 Java 2

コマンド入力による操作1(ロード、プロット、画像ファイル出力等)

1. TSUBAME2.0 通常実行まで 1.1. 環境設定 (MPI ライブラリ & コンパイラ ) 最新の Open MPI と Intel コンパイラを使用するため,${HOME}/.bashrc 等で環境変数 ( パス等 ) を設定します. ~ 設定例 ~ export SELECT_MPI

目次 1. 目次 2. Cygwinインストール (1) 3. Cygwinインストール (2) 4. 公開鍵の作成 5. 利用支援ポータルへのアクセス 6. パスワード変更 ( 初回の場合 ) 7. パスワード変更成功画面 8. 利用支援ポータルへの再ログイン 9. 言語の変更 10. 公開鍵の登

ソフトウェアエンジニアリング - 機能 #54

コードのチューニング

エンドポイント濁度測定装置 LT-16 取扱説明書

<4D F736F F F696E74202D E3F FC96E55F F554E CC8AEE D8EAF2E B8CDD8AB B83685D>

バクテリアゲノム解析

Fortran 勉強会 第 5 回 辻野智紀

第 1 回ディープラーニング分散学習ハッカソン <ChainerMN 紹介 + スパコンでの実 法 > チューター福 圭祐 (PFN) 鈴 脩司 (PFN)

KNOB Knoppix for Bio Itoshi NIKAIDO

Oracle Data Pumpのパラレル機能

Intel MPI Library Linux

Microsoft Word - SPC9-API_ユーザーズガイド_V37.doc

OpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë

ソフト活用事例③自動Rawデータ管理システム

Backlog 移行ツール 当ツールを用いて 課題や Wiki を別のスペースへ移行できます 同一スペースでプロジェクト を分けたいときにもご利用できます 必須要件 1. Java 8 実行環境 2. Java の実行可能 jar ファイルを実行できる 3. コマンドラインで簡単なコマンドを実行でき

CLUSTERPRO MC StorageSaver istorage M シリーズ使用時の設定手順 (HP-UX 版 Linux 版 Windows 版 ) 2013(Apr) NEC Corporation istorage M シリーズを使用する場合の StorageSaver 設定手順 (H

file://\\Nc31\nabedata\website-internal\manual\netvault.html

GridEngineユーザーマニュアル

生物物理夏学・計算ハンズオン.docx

OpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë

Microsoft Word - K5VSSP32-install.docx

Microsoft Office Visioによる 施設管理について

PowerPoint Presentation

Geant4を使ってみよう

情報処理概論(第二日目)

SolarWinds Event Log Forwarder for Windows v

3.Cygwin で日本語を使いたい Cygwin で以下のコマンドを実行すると それ以降 メッセージが日本語になります export LANG=ja_JP.UTF-8 これは 文字コードを日本語の UTF-8 に設定することを意味しています UTF-8 は Cygwin で標準の文字コードで, 多

Slide 1

1. 対象装置 (1) 日立仮想 Fibre Channel アダプタ 適用装置 : EP8000 7xx/S8xx/E8xx/S9xx 2. 仮想 FC アダプタドライバ来歴 この仮想 FC アダプタドライバは 次の機能拡張とバグ修正を含みます バージョン内容 新規追加 7

HeartCoreインストールマニュアル(PHP版)

Transcription:

SCLS 計算機システム講習会 GHOST-MP 実習 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム

SCLS 計算機システムの GHOST-MP GHOST-MP BLAST のように遠縁のホモログを検出可能なホモロジー検索ツールである GHOSTX を 京 で高速化したもの GHOST-MP ver.201311 OpenMP node 内のスレッド並列 MPI master worker 方式による多数のクエリファイルの並列分散処理 Tofu 高機能バリア通信によるデータベースの高速 Broadcast 通信 ファイル I/O master - submaster worker 方式 (3 階層 ) によるファイル I/O の submaster での処理 全 worker によるファイル I/O の競合を回避 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 2

SCLS 計算機システムの GHOST-MP GHOST-MP Tofu 高機能バリア通信によるデータベースの高速 Broadcast 通信 Master は rank=0 の 1 node だけ赤が Submaster ( 数十 ~ 数百 node) それ以外はすべて Worker ( 数万 node) Submaster + Workers Tofu インターコネクトを考慮した直方体内でデータベースの高速 Broadcast 通信赤は Submaster Tofu 座標空間で全系を直方体分割 Submaster だけでデータベース ( 一般には数 GB~ 数十 GB のサイズ ) を read することによりファイル入力の負荷削減 データベースはチャンクという単位に分割 各直方体で担当するチャンク番号を限定して さらにファイル入力の負荷削減 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 3

SCLS 計算機システムの GHOST-MP GHOST-MP Master - Submaster Worker 方式 (3 階層 ) によるファイル入出力の Submaster での処理 Master ファイル名 計算状況 クエリ配列 Submaster クエリ配列 検索結果 Worker 全 Worker によるファイル入出力の競合を回避 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 4

実習のながれ 実習用にあらかじめ用意したクエリ配列とデータベース配列を使って ホモロジー検索の並列分散処理を実行し 検索結果の統計解析を行います 見つかった遺伝子の phylum( 門 ) の出現頻度などを計算します コンパイル データベースの作成 (ghostmp_mkdb) 実行時間は約 1 分です ホモロジー検索 (ghostmp) 実行時間は約 3 分です 結果の統計解析 (kegg_analyzer) 実行時間は約 3 分です 結果確認 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 5

GHOST-MP コマンドの実行のながれ データベース配列 (FASTA ファイル ) 一般にはユーザが用意するが 今回は実習用にあらかじめ用意 DB の作成 ghostmp_mkdb データベース ( チャンク分割 ) クエリ配列 (FASTA ファイル ) ジョブテーブル ( または config ファイル ) ホモロジー検索 ghostmp MPI 緑色はテキストファイル黄色はバイナリファイル ghostmp_mkdb は逐次プログラムです ただし スレッド並列化は実装してます ghostmp はスレッド並列化した MPI プログラムです 実際には ジョブスクリプト中で実行します 統計解析 kegg_analyzer 遺伝子出現頻度など 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 6

実習の準備 (1) 実習環境の準備 [user1@scls ~]$ cp ~kakuta/lec/ghostmp-k-201311.tar.gz. 実習用ファイルをカレントディレクトリにコピー [user1@scls ~]$ tar zxvf ghostmp-k-201311.tar.gz 実習用ファイルを解凍展開します [user1@scls ~]$ cd ghostmp-k-201311l [user1@scls ghostmp-k-201311]$ ls -lf カレントディレクトリを ghostmp-k-201311 ディレクトリに変更 カレントディレクトリの内容を表示 total 40 drwxr-xr-x 10 user1 group1 4096 Oct 24 10:37 boost_1_46_1/ drwxr-xr-x 3 user1 group1 4096 Nov 21 11:41 database/ drwxr-xr-x 3 user1 group1 4096 Nov 21 11:12 db_kegg/ drwxr-xr-x 2 user1 group1 8192 Nov 26 17:13 ghostmp/ Boost ライブラリ関係のディレクトリ データベースを格納しているディレクトリ GHOST-MP プログラムを格納しているディレクトリ drwxr-xr-x 3 user1 group1 4096 Sep 13 16:53 matrix/ drwxr-xr-x 2 user1 group1 4096 Nov 18 17:49 query/ drwxr-xr-x 3 user1 group1 4096 Nov 26 17:12 run/ スコアマトリックスを格納しているディレクトリ クエリファイルを格納しているディレクトリ ジョブスクリプトを格納しているディレクトリ drwxr-xr-x 4 user1 group1 4096 Nov 21 15:32 summarize_search_result/ 統計解析プログラムを格納しているディレクトリ 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 7

実習の準備 (2) 実習で使用するジョブタイプ 処理 データベースの作成 (ghostmp_mkdb) ホモロジー検索 (ghostmp) 統計解析 (kegg_analyzer) ジョブタイプ バッチジョブ バッチジョブ python スクリプトのコマンド実行 (login ノード ) 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 8

コンパイル Boost C++ ライブラリ 本来は 京 用の patch を当ててコンパイルが必要だが 時間がかかるので省略 すでにコンパイルされている添付の boost_1_46_1 を使用する GHOST-MP のコンパイル時にリンクされる ghostmp_mkdb ghostmp $ cd ghostmp $ make $ ls la ghostmp_mkdb -rwxr-xr-x 1 user1 group1 8041692 Nov 26 17:00 ghostmp_mkdb $ ls la ghostmp -rwxr-xr-x 1 user1 group1 13496215 Nov 26 17:02 ghostmp コンパイルに成功すると ghostmp_mkdb と ghostmp が作成される 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 9

データベースの作成 [ghostmp_mkdb] データベース配列 (FASTA ファイル ) ghostmp_mkdb db_0.ind db_0.inf db_0.nam db_#.ind db_#.inf db_#.nam db_0.off db_#.off db_0.seq db_#.seq db.inf ホモロジー検索の参照元となる FASTA フォーマットの DNA またはアミノ酸配列のデータベースファイルを GHOST-MP のデータベースファイルに変換することが必要 FASTA フォーマットとは >gi 66816243 ref XP_642131.1 hypothetical protein MASTQNIVEEVQKMLDTYDTNKDGEITKAEAVEYFKGKKAFNPERSAIYLFQVYDKDNDGKITIKELAGDIDFDKALKEY KEKQAKSKQQEAEVEEDIEAFILRHNKDDNTDITKDELIQGFKETGAKDPEKSANFILTEMDTNKDGTITVKELRVYYQK VQKLLNPDQ > で始まるヘッダ行配列の説明 1 行で書く 配列データアミノ酸を一文字表記で表している改行 OK データベースファイルはサイズが大きい ( 数 GB~ 数十 GB) ので # 個のチャンクに分割して扱う それぞれのチャンクについて 5 つのファイル (.ind.inf.nam.off.seq) を生成します チャンク分割サイズは 生成時に引数で指定できます 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 10

データベースの作成 [ghostmp_mkdb] ジョブスクリプト ( 逐次ジョブ ) [user1@scls ghostmp-k-201311]$ less database/run.sh #!/bin/sh #------ pjsub options ------# #PJM -L "rscgrp=small" #PJM -L "node=1" #PJM -L "elapse=00:10:00" #PJM -j #------ Program Execution --------# リソースグループ small 使用ノード数 1 最大経過時間 10 分間 標準エラー出力を標準出力に向ける export OMP_NUM_THREADS=16 スレッド並列数の設定 ( 京 の場合は 8) GHOSTX="../ghostmp/ghostmp_mkdb" INPUT="./genes.pep.201106.107283" DBDIR="chunkdb" DB="${DBDIR}/db" ARGS="-i ${INPUT} -o ${DB} -l 33554432" ghostmp_mkdb プログラムのパスデータベース配列 (KEGG GENES アミノ酸配列の一部 ) オプション指定 : チャンク分割サイズ 32MB に設定 $GHOSTX $ARGS ghostmp_mkdb の実行 これは 実習用の小さなデータベースです 一般的には 実際の実行には 数十分 ~ 数時間かかります 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 11

データベースの作成 [ghostmp_mkdb] ジョブの投入と状態確認 [user1@scls ghostmp-k-201311]$ cd database [user1@scls database]$ pjsub run.sh [INFO] PJM 0000 pjsub Job 10569 submitted. [user1@scls database]$ pjstat ACCEPT QUEUED STGIN READY RUNING RUNOUT STGOUT HOLD ERROR TOTAL 0 0 0 0 1 0 0 0 0 1 s 0 0 0 0 1 0 0 0 0 1 JOB_ID JOB_NAME MD ST USER START_DATE ELAPSE_LIM NODE_REQUIRE 10569 run.sh NM RUN user1 10/24 14:49:45 0000:10:00 1 ジョブ実行結果 [user1@scls database]$ less run.sh.oxxxxx [GHOSTX] start ghostx. The number of chunks :2 Max length of a chunk : 33553615 Total database length : 50369581 Total number of sequences : 107283 分割チャンク数 2 チャンクあたりの最大長全データベース長全配列数 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 12

データベースの作成 [ghostmp_mkdb] データベース配列 (FASTA ファイル ) ghostmp_mkdb db_0.ind db_0.inf db_0.nam db_#.ind db_#.inf db_#.nam db_0.off db_#.off db_0.seq db_#.seq ジョブ実行結果 db.inf [user1@scls database]$ ls -lf chunkdb total 845888 -rw-r--r-- 1 user1 group1 444862785 Oct 24 14:50 db_0.ind -rw-r--r-- 1 user1 group1 8 Oct 24 14:49 db_0.inf -rw-r--r-- 1 user1 group1 5507157 Oct 24 14:49 db_0.nam -rw-r--r-- 1 user1 group1 293568 Oct 24 14:49 db_0.off -rw-r--r-- 1 user1 group1 33553615 Oct 24 14:49 db_0.seq -rw-r--r-- 1 user1 group1 361710965 Oct 24 14:50 db_1.ind -rw-r--r-- 1 user1 group1 8 Oct 24 14:50 db_1.inf -rw-r--r-- 1 user1 group1 2960877 Oct 24 14:50 db_1.nam -rw-r--r-- 1 user1 group1 135564 Oct 24 14:50 db_1.off -rw-r--r-- 1 user1 group1 16923251 Oct 24 14:50 db_1.seq -rw-r--r-- 1 user1 group1 24 Oct 24 14:50 db.inf チャンク 0 チャンク 1 データベース データベース それぞれのチャンクについて 5 つのファイル (.ind.inf.nam.off.seq) を生成 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 13

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 入力ファイル確認 - クエリ配列 [user1@scls ghostmp-k-201311]$ less./query/q.1 クエリファイルの一個 >61JGYAAXX100510:7:100:10000:7489/1 ヘッダ行 AACCCAACATGGCATCCTTGGTCCCTAGAGCAATCTCCTTGCCCTCTTTTTTAGCATAACTGATTAACTGGCGCAAATGTAACTTGG AAATTGGGCTCGTG 配列データ DNA 塩基配列 >61JGYAAXX100510:7:100:17664:14710/1 ACTTGCAATCTGCGATTCTGTTTGCCCAGACTCCGACAAAATTTTCACCTGAGTAAAAGTCCGAAATTGTCCTAGCATGACTGCAAT CAACTTGATTTCAT >61JGYAAXX100510:7:100:8182:5401/1 CAACTCTTGCTTTTTCACTTTCAGAATAAGGAACCGGATAAATTTTTCGGGCTCATTGAGGACAATCTAAAGCAGGTTCATCCTCTT TTTCAGACTGTCTT >61JGYAAXX100510:7:101:15839:13397/1 TAATCTGTAGAAAGCAAAATTTCAAAAACATAGATATGATACTTTAAGCACCACACCTTATTTCCATCCTGCCTACATATTAATGAT AAAAATACGGTGTA クエリファイルの配列は 次世代シーケンサーで得られた HMP の頬粘膜の DNA 塩基配列データです 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 14

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 入力ファイル確認 ジョブテーブル [user1@scls ghostmp-k-201311]$ less run/table ジョブのタイトル ( 任意 ) TITLE=ghostmp PARAM=-i $1 -d $2 -o $3 オプション指定../query/q.1../db_kegg/chunkdb/db./out/o.1../query/q.2../db_kegg/chunkdb/db./out/o.2../query/q.3../db_kegg/chunkdb/db./out/o.3 30 個のジョブを並列分散計算する : 30 個のクエリファイルから 30 個のが生成される../query/q.30../db_kegg/chunkdb/db./out/o.30 クエリ配列入力ファイル データベース ホモロジー検索結果 データベースは あらかじめ作成しておいた KEGG GENES アミノ酸配列の一部です 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 15

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 ジョブスクリプト (MPI 並列ジョブ ) [user1@scls ghostmp-k-201311]$ less run/run.sh #!/bin/sh #------ pjsub options ------# #PJM -L "rscgrp=small" #PJM -L "node=2" #PJM --mpi "proc=8" #PJM -L "elapse=00:10:00" #PJM -j #------ Program Execution --------# リソースグループ small 使用ノード数 2 プロセス数 8 最大経過時間 10 分 標準エラー出力を標準出力に向ける export OMP_NUM_THREADS=4 スレッド並列数の設定 GHOST_MP="../ghostmp/ghostmp" TABLE="./table" SCORE_MATRIX="../matrix/blast-2.2.24/data/PAM30" LOG="./log" ghostmp プログラムのパス ARGS="-tb $TABLE -lg $LOG -rc 1 po 1 -a $OMP_NUM_THREADS -b 5 -T 32 -r -1 -q d -t p -M $SCORE_MATRIX -G 9 -E 1" ghostmp のオプション mpiexec $GHOST_MP $ARGS ghostmp の実行 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 16

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 ジョブの投入と状態確認 [user1@scls ghostmp-k-201311]$ cd run [user1@scls run]$ pjsub run.sh [INFO] PJM 0000 pjsub Job 10583 submitted. [user1@scls run]$ pjstat ACCEPT QUEUED STGIN READY RUNING RUNOUT STGOUT HOLD ERROR TOTAL 0 0 0 0 1 0 0 0 0 1 s 0 0 0 0 1 0 0 0 0 1 JOB_ID JOB_NAME MD ST USER START_DATE ELAPSE_LIM NODE_REQUIRE 10583 run.sh NM RUN user1 10/24 16:23:48 0000:10:00 2 ジョブ終了確認 [user1@scls run]$ pjstat ACCEPT QUEUED STGIN READY RUNING RUNOUT STGOUT HOLD ERROR TOTAL 0 0 0 0 0 0 0 0 0 0 s 0 0 0 0 0 0 0 0 0 0 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 17

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 結果確認 1 - [user1@scls run]$ ls lf./out total 2880 -rw-r--r-- 1 user1 group1 75335 Nov 21 11:49 o.1 -rw-r--r-- 1 user1 group1 77403 Nov 21 11:49 o.10 -rw-r--r-- 1 user1 group1 77107 Nov 21 11:49 o.11 30 個のジョブの -rw-r--r-- 1 user1 group1 77727 Nov 21 11:49 o.9 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 18

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 結果確認 1 - [user1@scls run]$ less./out/o.1 30 個ののうちの 1 個 61JGYAAXX100510:7:100:10000:7489/1 sti:sthe_1623 binding-protein-dependent transport systems inner membrane component 0.714286 14 2 1 32 73 105 116 2.88961 29.4819 一行毎に 以下の 12 種の内容がタブ区切りで記述されます クエリ配列名 ヒット配列名 一致率 アラインメント長 不一致率 ギャップ数 クエリ配列におけるアラインメント開始位置 その終了位置 ヒット配列におけるアラインメント開始位置 その終了位置 E-value 正規化スコア 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 19

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 結果確認 2 - ログ [user1@scls run]$ less log 5 0 6 8 00004 1 00030 1 00054 1 00017 1 00039 1 00045 1 00051 1 00057 1 7 9 00006 1 00026 1 00050 1 00015 1 00029 1 00037 1 00043 1 00049 1 00055 1 Elapsed time GHOST-MP = 112.911 sec. Elapsed time POST = 0.479745 sec. Elapsed time GHOST-MP + POST = 113.391 sec. GHOST-MP のホモロジー検索の計算時間 GHOST-MP のポスト処理の計算時間 GHOST-MP の全計算時間 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 20

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 結果確認 3 - 標準出力 [user1@scls run]$ less run.sh.oxxxxx Bcasttime= 5.41858 sec myid= 4 localmaster= 1 Bcasttime= 15.6326 sec myid= 5 localmaster= 0 [GHOSTX] start ghostx. [GHOSTX] ALIGN mode Presearching... Bcasttime= 15.7927 sec myid= 7 localmaster= 0 Bcasttime= 15.7928 sec myid= 6 localmaster= 0 [GHOSTX] start ghostx. [GHOSTX] ALIGN mode [GHOSTX] start ghostx. [GHOSTX] ALIGN mode Presearching... Presearching... 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 21

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 京 での実行 SCLS 計算システム ( 今回の実習 ) 2 ノード 8 プロセス 4 スレッド データベース 739,884 本のアミノ酸配列 クエリ配列 100 本 30 ファイル =3000 本の DNA 配列 計算時間約 2 分 計算時間約 10 分 京 ( 実用的な計算 ) 1296 ノード 1296 プロセス 8 スレッド データベース 8,578,853 本のアミノ酸配列 ( 約 12 倍 ) クエリ配列 1,000 本 2,566 ファイル =2,566,000 本の DNA 配列 ( 約 855 倍 ) 京 では ステージングが必要で 実行スクリプトにステージング処理を書く必要があります 京 では 1296=6 12 18 のように 3 次元形状で MPI ジョブを投入します 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 22

ホモロジー検索 [ghostmp] #!/bin/sh #PJM --rsc-list "rscgrp=large" #PJM --rsc-list "elapse=0:30:00" #PJM --rsc-list "node=6x12x18:strict" #PJM --mpi "shape=6x12x18" 全系は 6 12 18 #PJM --mpi "proc=1296" #PJM -S #PJM --stg-transfiles all #PJM --mpi "use-rankdir" #PJM --stgin "rank=*../ghostmp/ghostmp %r:./a.out" #PJM --stgin "rank=* table %r:./table" #PJM --stgin "rank=0../query/q.* 0:../" #PJM --stgin "rank=*../database/chunkdb/db* %r:./db/" #PJM --stgin "rank=*../matrix/blast-2.2.24/data/pam30 %r:./pam30" #PJM --stgout "rank=0 0:./log./log" #PJM --stgout "rank=* %r:../o.*./out/". /work/system/env_base export OMP_NUM_THREADS=8 NODES=1296 GHOST_MP="./a.out" TABLE="./table" SCORE_MATRIX="./PAM30" LOG="./log" ARGS="-tb $TABLE -lg $LOG -rc 0 -dx 6 -dy 4 -dz 6 -po 1 -a $OMP_NUM_THREADS -b 5 -T 32 -r -1 -q d -t p -M $SCORE_MATRIX -G 9 -E 1" mpiexec -n $NODES -mca coll_tuned_bcast_same_count 1 lpgparm -s 4MB -d 4MB -h 4MB -t 4MB -p 4MB $GHOST_MP $ARGS 京 での実行スクリプト例 ステージインステージアウト処理 全系 6 12 18 を 6 4 6 の 9 個の直方体に分割 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 23

ホモロジー検索 [ghostmp] クエリ配列 ジョブテーブル ( または config ファイル ) データベース ( チャンク分割 ) ghostmp ログ 標準出力 京 での実行 ジョブテーブル例 TITLE=ghostmp PARAM=-i $1 -d $2 -o $3../q.1./db/db../o.1../q.2./db/db../o.2../q.3./db/db../o.3 ジョブのタイトル ( 任意 ) オプション指定 ジョブを並列分散計算する クエリ配列入力ファイル データベース ホモロジー検索結果 京 でのジョブテーブルは 入がステージインされた状態を考慮して記述します 京 では.. は グローバルファイルシステム. はローカルファイルシステムを表します GHOST-MP の一般的な使用法では クエリ配列入力ファイルとをグローバルファイルシステムに データベースをローカルファイルシステムに置きます 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 24

結果の統計解析 [kegg_analyzer] o.1 1 個の OUT kegg_analyzer GHOST-MP のを一個にまとめる [user1@scls ghostmp-k-201311]$ cd summarize_search_result カレントディレクトリを summarize_search_result にする [user1@scls summarize_search_result]$ cat../run/out/o.* > OUT../run/out ディレクトリにある 30 個の o.1, o.2, o.3 o.30 を 1 個の OUT にまとめる [user1@scls summarize_search_result]$ ls la OUT -rw-r--r-- 1 user1 group1 2316600 Nov 21 13:26 OUT 約 2.3 M バイトの OUT ファイルを確認 統計解析を実行する [user1@scls summarize_search_result]$ python summarize_search_result.py OUT python スクリプトの実行 OUT ファイルを引数にする 実習では KEGG GENES アミノ酸配列の約 1/10 のサイズを使ってホモロジー検索しています ( 本来は KEGG GENES アミノ酸配列のフルサイズを使って計算します ) 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 25

結果の統計解析 [kegg_analyzer] o.1 1 個の OUT kegg_analyzer 統計解析を実行する 標準出力 [user1@scls summarize_search_result]$ python summarize_search_result.py OUT 2013/11/21 14:44:21 START Start KEGG Analyzer 2013/11/21 14:44:21 START Loading Gi-Taxid map file... 2013/11/21 14:45:27 END 54380376 genes loaded. 2013/11/21 14:45:27 START Loading Taxonomy root map file... 2013/11/21 14:45:33 END 919194 species loaded. 2013/11/21 14:45:33 START Loading KO-Enzyme map file... 2013/11/21 14:45:33 END 4808 KOs loaded. 2013/11/21 14:45:33 START Loading USCG map file... 2013/11/21 14:45:33 END 36 USCGs loaded. 2013/11/21 14:45:33 START Loading KEGG genes file... 2013/11/21 14:46:22 END 8782317 genes loaded. 2013/11/21 14:46:24 START Loading Blast result... 2013/11/21 14:46:25 END 15000 blast results loaded. 2013/11/21 14:46:25 START Normalizing... 2013/11/21 14:46:25 START 1. count genes... 2013/11/21 14:46:26 END done. 2013/11/21 14:46:26 START 2. count USCGs... 2013/11/21 14:46:26 END done. 2013/11/21 14:46:26 START 3. normalizing... 2013/11/21 14:46:28 END done. 2013/11/21 14:46:28 END Normalize. 2013/11/21 14:46:28 END End KEGG Analyzer 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 26

結果の統計解析 [kegg_analyzer] o.1 1 個の OUT kegg_analyzer ( 主なもの ) ファイル名 genes_freq 内容 遺伝子の出現頻度 otu_freq OTU の出現頻度 ec_ratio 各 EC number を有する遺伝子の割合 ko_ratio 各 KO(KEGG Orthology) を有する遺伝子の割合 phylum_ratio phylum の割合 genus_ratio genus の割合 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 27

結果の統計解析 [kegg_analyzer] o.1 1 個の OUT kegg_analyzer phylum_ratio ファイルの確認 [user1@scls ghostmp-k-201311]$ less phylum_ratio エクセルで円グラフを書くと以下のとおりです Verrucomicrobia 0.017921 Elusimicrobia 0.004741 Chlorobi 0.023247 Deferribacteres 0.023058 Dictyoglomi 0.005112 Aquificae 0.023399 Deinococcus-Thermus 0.066145 Gemmatimonadetes 0.001370 Acidobacteria 0.033031 Spirochaetes 0.029487 Nitrospirae 0.020319 Chloroflexi 0.051829 Planctomycetes 0.018602 Fusobacteria 0.249573 Synergistetes 0.018786 Crenarchaeota 0.002963 undefined 0.023746 Bacteroidetes 0.182508 Cyanobacteria 0.086210 Thermotogae 0.041861 Fibrobacteres 0.007519 Euryarchaeota 0.068572 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 28

GHOST-MP について 監修 製作 : 東京工業大学秋山研究室 GHOST-MP チーム秋山泰 石田貴士 角田将典 鈴木脩司 資料製作 :( 株 ) 情報数理バイオ ghost-mp@bi.cs.titech.ac.jp 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム 29

2013 年 11 月 独立行政法人理化学研究所 HPCI 計算生命科学推進プログラム