理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体有機分子発光材料の全自動探索シミュレーションシステムの開発高度化支援作業 2017 年 9 6 ( R405 般財団法度情報科学技術研究機構利援部 1

Size: px

Start display at page:

Download "理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体有機分子発光材料の全自動探索シミュレーションシステムの開発高度化支援作業 2017 年 9 6 ( R405 般財団法度情報科学技術研究機構利援部 1"

あまめねごろ
5 years ago
Views:

1 理化学研究所計算科学研究機構研究部門量子系分子科学研究チーム殿 hp170163: 有機半導体有機分子発光材料の全自動探索シミュレーションシステムの開発高度化支援作業 2017 年 9 6 ( )@AICS R405 般財団法度情報科学技術研究機構利援部 1

2 Outline 高度化支援の依頼内容実行環境と計算条件 PWscf フロー図各ライブラリを使用した場合のプログラム全体の実行時間の比較 Scalapack と ELPA の全実行時間の比較 electrons ルーチンの構造と実行時間の比較 (Scalapack と ELPA) 固有値ライブラリ (zhegv) 部分の FAPP 性能分析固有値ライブラリ (zhegv) 部分における MPI 通信の経過時間固有値ライブラリ (zhegv) における MPI プロセスの中の計算の時間固有値ライブラリ (zhegv) 部分の全演算数固有値ライブラリ (zhegv) 部分の各 rank ごとの演算数実行時オプションの指定 ( nd 169) まとめ 2

3 高度化支援のターゲットアプリアプリ名 : Quantum ESPRESSO バージョン : 6.1 対象モジュール : PWscf(pw.x) 高度化支援の依頼内容依頼内容オープンソースの第一原理電子状態計算プログラム Quantum ESPRESSO の最新版 v6.1 の PWscf モジュール (pw.x) について実行性能の阻害要因のひとつとなっている対角化計算に対して EPLA ライブラリ導入による高速化を行いライブラリ導入前の (ScaLAPACK を使用した ) コードと ELPA ライブラリ導入後のコードに対して並列実行時の並列効率実行効率の測定を行い性能特性の検証をしていただきたいまたそれぞれのコードについて性能阻害要因の特定を実施していただきたい 3

4 実行環境と計算条件表 : 実行環境コード名 Quantum ESPRESSO v 6.1 モジュールハードウェア PWscf K computer 言語環境 K (Released : 2017/4/8) 数値演算ライブラリ Scalapack version ( 富士通汎用数値計算ライブラリ SSLII) ELPA release ( 最新版 release ) コンパイルオプション Scalapack: FDFLAGS = -D FFTW -D MPI -D PARA -D SCALAPACK -D OPENMP ELPA: FFLAGS = -O3 -Nsetvalue -Kopenmp Kparallel,optmsg=2 -Nlst=t LDFLAGS = -Kfast -Kparallel,openmp ELPA_LIBS_SWITCH = disabled SCALAPACK_LIBS = -SSL2BLAMP -SCALAPACK -Kopenmp,parallel FDFLAGS = -D FFTW -D MPI -D PARA -D SCALAPACK -D OPENMP -D ELPA_2016 FFLAGS = -O3 -Nsetvalue -Kopenmp Kparallel,optmsg=2 -Nlst=t LDFLAGS = -Kfast -Kparallel,openmp SCALAPACK_LIBS = /home/rist/r00065/lib/lib/libelpa_openmp.a -SSL2BLAMP -SCALAPACK -Kopenmp,parallel 表 : 計算条件 PWscf を用いた構造最適化計算計算対象物質有機発光分子材料集合体計算規模単位セル当たり336 原子交換相関汎関数 rev-vdw-df2 平面波カットオフエネルギー 64Ry k 点 3x3x3 (irreducible k 点 :14 点 ) step 数 1 回 scf 数 5 回 4

5 PWscf フロー図 (v6.1) Start plugin_arguments_bcast mp_global iosys setup environment init_run 計算のセットアップを行う read_input check_stop run_pwscf electrons 電子状態を self-consistent に計算する stop_run forces 原子に対する力を計算する Stop stress punch 系の応力を計算する 5

6 各ライブラリを使用した場合のプログラム全体の実行時間の比較 nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 バンド数 :1976 ( 注 ) Lapack のコンパイルオプション DFLAGS = -D FFTW -D MPI -D PARA -D OPENMP FFLAGS = -O3 -Nsetvalue -Kopenmp -Kparallel,optmsg=2 -Nlst=t 経過時間 [sec] init_run electrons forces stress other 全実行時間 2, , 倍高速 1, lapack scalapack ELPA ライブラリ最短各ライブラリ (Scalapack, ELPA, Lapack) の中で ELPA が全実行時間が一番短いことがわかった à init_run と electrons の経過時間が主に短縮 6

nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 Scalapack と ELPA の全実行時間の比較経過時間 [ sec ] 1,400 1,200 1,000 800 600 400 200 0 scalapack elpa 1,371 1,252

7 nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 Scalapack と ELPA の全実行時間の比較経過時間 [ sec ] 1,400 1,200 1, scalapack elpa 1,371 1, 全実行時間 init_run electrons init_run と electrons では全実行時間に対して electrons 部分の割合が大きく Scalapack と ELPA の実行時間の差も electrons の方が大きい à 今後 electrons の部分に注目 7

8 electrons ルーチンの構造と実行時間の比較 (Scalapack と ELPA) nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 electrons c-bands cegterg Scalapack と ELPA の共通部分のルーチン cdiaghg zhpev_modu le.pzheevd_ drv elpa1_comput e.tridiag_com plex_double electrons c-bands cegterg cdiaghg elpa 334 scalapack 一番下の階層時間の差が大きい経過時間 [ sec ] ELPA だけのルーチン electrons ルーチンの中で Scalapack と ELPA の経過時間に差がある部分をグラフにした à プログラム構造において一番深い階層の cdiaghg ルーチン ( 固有値ライブラリ zhpev を呼ぶ部分 ) が原因で他の部分にも差が出ていることがわかった à cdiaghg ルーチンの中の固有値ライブラリ zhpev 部分を詳しく調べる 8

1 コール当たりの時間 [s] 1.20 1.00 0.80 0.60 0.40 0.

9 1 コール当たりの時間 [s] 固有値ライブラリ (zhegv) 部分の FAPP 性能分析 (1) electrons で呼ばれている固有値ライブラリ (zhegv) 部分だけの経過時間を測定全実行時間から electrons で呼ばれている固有値ライブラリだけの経過時間を分離した à 今後はこの部分の経過時間だけを調べる electrons で呼ばれている固有値ライブラリ (zhegv) 部分の経過時間 ( 全 rank の中の最大値 ) 倍高速 scalapack (zhpev) ライブラリバンド数 :1976 zhpev のコール回数 :347 回 (scalapack も ELPA も同じ ) ELPA (zhpev) 9

10 固有値ライブラリ (zhegv) 部分の FAPP 性能分析 (2) Scalapack と ELPA における固有値ライブラリ (zhegv) の経過時間の測定で全 rank(mpi プロセス ) の中で計算 MPI 待ち MPI 通信の最大値 (MAX) と最小値 (MIN) をプロット Scalapack ELPA MAX MIN MAX MIN MPI 待ち MPI 通信 MPI 待ち MPI 通信全 rank(mpi プロセス ) 中の最大値 (MAX) と最小値 (MIN) の経過時間を調べると Scalapack と ELPA ともにインバランンスがあることがわかった Scalapack と ELPA を比較すると ELPA の方が MPI 待ちと MPI 通信の時間が大きく減少してインバランスも緩和されていることがわかった 10

11 MPI Profile scalapack 固有値ライブラリ (zhegv) 部分における MPI 通信の経過時間 ( 全 rank の合計の値 ) ELPA Elapsed(s) Wait(s) Byte Call 20, ,859, ,588,288 zhpev ,909 48,459 MPI_Allreduce , ,840 MPI_Bcast ,970 2,238,168 MPI_Recv , ,592 MPI_Send Elapsed(s) Wait(s) Byte Call 10, ,760, ,255,968 zhpev , ,912 mpi_allreduce_ ,329 1,180,186 mpi_bcast_ ,776 mpi_recv_ ,562 4,511 mpi_send_ ,601 MPI_Irecv , ,833 MPI_Isend ,929 MPI_Op_create ,929 MPI_Op_free ,833 MPI_Pack ,833 MPI_Pack_size ,898 3,470 MPI_Reduce ,404 MPI_Rsend ,169,050 MPI_Testall ,489,658 MPI_Type_commit ,489,658 MPI_Type_free MPI_Type_indexed ,489,311 MPI_Type_vector ,938 MPI_Waitall 0 0 2, mpi_sendrecv_ ,077 19,085 mpi_sendrecv_replace_ ,575,380 mpi_comm_rank_ ,575,380 mpi_comm_size_ mpi_comm_split_ mpi_comm_free_ scalapack: 主に MPI_Recv と MPI_Bcast に時間がかかっている ELPA: 主に mpi_allreduce と mpi_bcast に時間がかかっている à 通信方法が違っている通信サイズ (scalapack:563,859,520 バイト ELPA: 378,760,928 バイト ) もコール回数 (scalapack: 556,588,288 回 ELPA:361,255,968 回 ) も ELPA の方が小さくなっている通信方法の改善 à インバランスが改善 à MPI 待ち通信の時間の短縮 11

12 固有値ライブラリ (zhegv) における MPI プロセスの中の計算の時間通信は ELPA の方が速くなっていることがわかった次に計算にかかるコストについて調べてみる Scalapack と ELPA における固有値ライブラリ (zhegv) の経過時間の測定で全 rank(mpi プロセス ) の中で計算時間の最大値 (MAX) と最小値 (MIN) をプロット計算 MAX MIN 時間 [s] scalapack ELPAの方が計算には時間がかかている ELPA

13 計算は ELPA の方が時間がかかっている à 演算数も確認固有値ライブラリ (zhegv) 部分の全演算数 Scalapack と ELPA における全 rank(mpi プロセス ) の固有値ライブラリ (zhegv) の演算数の総和 2,000, 倍 1,500,000 全演算数 1,000,000 2,021, ,000 1,370,213 0 scalapack ELPA Scalapack より ELPA の方が計算に対するコストがかかっていることがわかる 13

14 固有値ライブラリ (zhegv) 部分の各 rank ごとの演算数 Scalapack と ELPA における各 rank(mpi プロセス ) の固有値ライブラリ (zhegv) の演算数演算数 [Elapsed(s)*MFLOPS] 演算数 [Elapsed(s)*MFLOPS] Scalapack ELPA rank 各 rank ごとにインバランス ( 演算を行っている rank と行ってない rank がある ) à 192 プロセスの実行で実行時オプション ( nd) を指定しないと 9 x 9 = 81 プロセスしか使用しないプログラム構造になっている rank 14

無指定 9 x 9 = 81 プロセスで実行実行時オプションの指定 ( nd 169) nd 169 を指定 13 x 13 = 169 プロセスで実行経過時間 [ sec ] 1,500 1,000 500 0 scalapack 1,371 1,252 全実行時間 elpa 1.05 倍高速 1.2 倍高速 1.

15 無指定 9 x 9 = 81 プロセスで実行実行時オプションの指定 ( nd 169) nd 169 を指定 13 x 13 = 169 プロセスで実行経過時間 [ sec ] 1,500 1, scalapack 1,371 1,252 全実行時間 elpa 1.05 倍高速 1.2 倍高速 1.4 倍 cdiaghg 経過時間 [ sec ] scalapack (-nd 169) elpa (-nd 169) 1,500 1, 倍 1,000 1, 倍全実行時間 cdiaghg Scalapack も ELPA も実行時オプションの指定 ( nd 169) の指定で同様に全実行時間が 1.05 倍の高速化 à ELPA も Scalapack と同様の指定で高速化が可能である 15

16 まとめ Quantum ESPRESSO (PWscf) v 6.1 における使用ライブラリを変えての実行時間の比較 (Scalapack, ELPA, lapack の比較 ) ノード数 192 (3 次元形状指定 [4 x 4 x 12]) ハイブリッド並列 (OMP_NUM_THREADS=8) ELPA が最短 à Scalpack より 1.1 倍高速 cdiaghg ルーチンにおける固有値ライブラリ (zhegv) 部分の違いが大きく寄与していることがわかった zhegv 部分の MPI 待ちと MPI 通信の経過時間が大きく減少している à ELPA は Scalpack よりも通信方法が大きく改善されていることがわかった Scalapack より ELPA の方が計算はコストがかかっている à ELPA は計算にコストをかけて通信で得するようになっている Scalapack も ELPA も実行時オプションの指定 ( nd 169) の指定で同様に全実行時間が 1.05 倍の高速化 à ELPA も Scalapack と同様の指定で高速化が可能である 16

17 付録 17

18 コスト分布調査 :fipp 測定結果 (Scalapack と ELPA の比較 ) 表 : 基本プロファイラによるアプリケーションの手続きコスト分布 (MPIプロセス数 192[TOFU: 4x4x12] の場合 ) Scalapack No. Cost コールグラフ調査による ( 手続きコスト ) 処理フローにおける該当の Barrier MPI 手続き名有 ( )/ 無 ( ー ) ( スレッド同期 (MPIライブラリ init_run electrons forces stress (%) 待ちのコスト ) (%) のコスト ) (%) 77,849, , ,117, Application 1 15,600, , ,699, scatter_mod.fft_scatter_ 2 12,260, , fft_scalar_fftw.cft_2xy._omp_3_ ーー 3 10,790, , fft_scalar_fftw.cft_2xy._omp_4_ ー 4 6,844, ,844, mp_synchronize_ 5 4,029, , stres_us.stres_us_k_ ーーー 6 3,779, , ,388, zhpev_module.pzheevd_drv_ ーー 7 3,172, vloc_psi_k._omp_3_ ーー ELPA No. Cost ELPA では MPI のコストが大幅に減少コールグラフ調査による ( 手続きコスト ) 処理フローにおける該当の Barrier MPI 手続き名有 ( )/ 無 ( ー ) ( スレッド同期 (MPIライブラリ init_run electrons forces stress (%) 待ちのコスト ) (%) のコスト ) (%) 81,034, , ,681, Application 1 15,674, , ,794, scatter_mod.fft_scatter_ 2 12,283, , fft_scalar_fftw.cft_2xy._omp_3_ ーー 3 10,767, , fft_scalar_fftw.cft_2xy._omp_4_ ー 4 6,164, ,164, mp_synchronize_ 5 4,831, , , elpa1_compute.elpa_transpose_v ーー ectors_complex_double._omp_3_ 6 4,001, , stres_us.stres_us_k_ ーーー 7 3,205, vloc_psi_k._omp_3_ ーー 18

19 旧バージョン 5.4.0(scalapack) との全実行時間の比較 nodes (= MPI processes) : 192 [TOFU: 4x4x12] theareds : 8 コンパイルオプション DFLAGS = -D FFTW -D MPI -D PARA -D SCALAPACK -D OPENMP $(MANUAL_DFLAGS) FFLAGS = -O3 -Nsetvalue -Kopenmp -Kparallel,optmsg=2 -Nlst=t は同じ経過時間 [sec] init_run electrons forces stress other 全実行時間 1,371 1, v6.1(scalapack) v5.4.0(scalapack) バージョンが変わっても実行時間は同じ 19

20 PWscf フロー図 ( 旧バージョン v5.4.0) Start iosys mp_global setup read_input init_run 計算のセットアップを行う qmmm check_stop run_pwscf electrons 電子状態を self-consistent に計算する stop_run forces 原子に対する力を計算する Stop stress 系の応力を計算する punch 20

Microsoft PowerPoint - 高速化WS富山.pptx

Microsoft PowerPoint - 高速化WS富山.pptx 京における高速化ワークショップ性能分析チューニングの手順について登録施設利用促進機関一般財団法人高度情報科学技術研究機構富山栄治一般財団法人高度情報科学技術研究機構 2 性能分析チューニング手順どの程度の並列数が実現可能か把握するインバランスの懸念があるか把握するタイムステップループ I/O 処理など注目すべき箇所を把握する並列数並列化率などの目標を設定しチューニング時の指針とする