Microsoft PowerPoint - 高速化WS富山.pptx

Size: px

Start display at page:

Download "Microsoft PowerPoint - 高速化WS富山.pptx"

はなあんさい
4 years ago
Views:

1 京における高速化ワークショップ性能分析チューニングの手順について登録施設利用促進機関一般財団法人高度情報科学技術研究機構富山栄治

2 一般財団法人高度情報科学技術研究機構 2 性能分析チューニング手順どの程度の並列数が実現可能か把握するインバランスの懸念があるか把握するタイムステップループ I/O 処理など注目すべき箇所を把握する並列数並列化率などの目標を設定しチューニング時の指針とするスケーラビリティ全体性能を確認しを特定するスケーラビリティについて性能阻害要因を特定し単体単体並列並列チューニングを実施する詳細計測キャッシュ有効利用命令スケジューリングについてハードウェアモニタ情報などから性能阻害要因を特定しチューニングを実施する

3 一般財団法人高度情報科学技術研究機構 3 例 ) ( ナノ粒子など ) 単一粒子系に特化した RMC プログラム京などの mega-cores クラスを想定基本的なチューニングは実施済予測値 / 修正値アルゴリズムを実装し通信回数を削減 MPI/OpenMP のハイブリッド並列に対応

4 一般財団法人高度情報科学技術研究機構 4 計算負荷が小さいため通信削減を重視したアルゴリズム MPI 通信は Allreduce で行っている

一般財団法人高度情報科学技術研究機構 5 K-scope プログラム構造解析支援ツール http://www.kcomputer.

5 一般財団法人高度情報科学技術研究機構 5 K-scope プログラム構造解析支援ツール F90,F77 静的構造解析京プロファイルデータ対応ツリーによる論理構造可視化分析機能検索変数特性一覧演算カウント宣言定義参照変数有効域変数トレース変数アクセス先設定要求 B/F 算出ループ分岐プロシージャ呼び出しに代表される論理構造の可視化コードリーディングにかかる時間と労力の削減

6 一般財団法人高度情報科学技術研究機構 6 研究目標 : 実行目標 : 1 億粒子の問題を 1 時間で解きたい 1 億粒子 10,000 並列 10,000 step 100 TFLOPS に基づきユーザー目標の妥当性を検討分析用設定 : 1,000 万粒子 1,000 並列 100 step 実行目標の性能特性と大きく違わないか 1 ノードの計算規模は妥当か分析にて使用可能な計算資源量か

一般財団法人高度情報科学技術研究機構 7 (fipp) サンプリング計測によってコスト情報が確認出来る実行コマンド :fipp -C -d dir -i10 mpiexec./a.

0 Measured time : Thu Oct 31 11:54:44 2013 CPU frequency : Process 0-127 2000 (MHz) Type of program : MPI & Thread (OpenMP & AUTO) Average at sampling interval : 10.

************************************************************************************* Application - procedures *************************************************************************************

7 一般財団法人高度情報科学技術研究機構 7 (fipp) サンプリング計測によってコスト情報が確認出来る実行コマンド :fipp -C -d dir -i10 mpiexec./a.out 出力 :GUI, テキスト (fipppx) Fujitsu Instant Profiler Version Measured time : Thu Oct 31 11:54: CPU frequency : Process (MHz) Type of program : MPI & Thread (OpenMP & AUTO) Average at sampling interval : 10.0 (ms) Measured range : All ranges Virtual coordinate : (128, 0, 0) Procedures profile ************************************************************************************* Application - procedures ************************************************************************************* Cost % Barrier % MPI % Start End Application simplermc._omp_2_ MAIN simplermc._omp_3_ jwe_etbf simplermc._prl_4_ simplermc._prl_11_...

8 一般財団法人高度情報科学技術研究機構 8 特定全体性能負荷の殆どをひとつのループが占めている事がわかるには大きなインバランスがある Main program 部分の大部分はMPIコスト

9 一般財団法人高度情報科学技術研究機構 9 ロードインバランス fipp:application View:Profile:Cost Stacked Chart:Procedure ランク 0 が他に比べて非常に時間がかかっているランク 0 の大部分はスレッドバリア待ちランク 0 以外は MPI_barrier 待ち

10 一般財団法人高度情報科学技術研究機構 10 ランク 0 のスレッド間インバランス fipp:rank View:Rank 0:Profile:Bar Chart:Loop excel MPI_barrier thread rank スレッド番号に比例して処理が増加しインバランスが生じている

11 一般財団法人高度情報科学技術研究機構 11 インバランス解消単体チューニングスレッド間の処理量が均等になるようにスケジューリングした excel Cost threads スレッドバリア待ちがほぼ解消され実行時間が 54% に減少した

12 一般財団法人高度情報科学技術研究機構 12 全体スケーラビリティ ( プロセス ) 全体 excel 演算演算と通信の分離計測通信スケーラビリティ weak scaling で計測 256 並列で実行時間が増加計測すると waitall が増加している演算時間のみ増加していた通信に問題あり? 演算部分に原因がある!

13 一般財団法人高度情報科学技術研究機構 13 全体スケーラビリティ ( プロセス ) 並列チューニング各プロセスの演算時間のインバランスを確認した fipp スケーラビリティの演算時間が長いため他のプロセスが待っている上記情報を基に調査した結果本来均等になるはずの粒子が特定のプロセスに偏る不具合があり演算インバランスが生じていた事がわかった不具合を修正し性能劣化を解消した

14 一般財団法人高度情報科学技術研究機構 14 区間スケーラビリティ ( スレッド ) excel スケーラビリティ実行スレッド数 1 スレッドと 8 スレッド実行での全体の加速率は約 2.5 区間毎にみると区間 D の実行時間が大きくかつスケーラビリティが悪いように見える

15 一般財団法人高度情報科学技術研究機構 15 区間スケーラビリティ ( スレッド ) 単体チューニング excel スケーラビリティ加速率が 1.1 と非常に低い区間 D について調査した結果スレッド非並列部があることを確認した OpenMP によりスレッド並列化し全体の 20% 高速化した区間ごとのスケーラビリティ評価が重要!

一般財団法人高度情報科学技術研究機構 16 詳細計測 (fapp) スケーラビリティ詳細計測実行コマンド :fapp -C -d dir -Ihwm -Hevent=Statistics mpiexec./a.

************************************************************************************* Kind Elapsed(s) Wait(s) Byte Call ( 0-4K 4K-64K 64K-1024K 1024KByte-)

5413 ---- 180224 158464 256 10752 10752 all 0 ----------------------------------------------------------------------------------------------------------------------------------------- AVG 0.0000 0.

0000 0.0000 0.0000 1.0000 1.0000 0.0000 0.0000 0.0000 mpi_comm_size_ MAX 0.0000 0.0000 0.0000 1 1 0 0 0 MIN 0.0000 0.0000 0.0000 1 1 0 0 0 -------------------------------------------------------------------------------------------------------------------------------------- AVG 0.

1028 0.0000 0.0000 1.0000 1.0000 0.0000 0.0000 0.0000 mpi_init_ MAX 0.2130 0.0000 0.0000 1 1 0 0 0 MIN 0.0282 0.0000 0.0000 1 1 0 0 0 -------------------------------------------------------------------------------------------------------------------------------------- AVG 0.

16 一般財団法人高度情報科学技術研究機構 16 詳細計測 (fapp) スケーラビリティ詳細計測実行コマンド :fapp -C -d dir -Ihwm -Hevent=Statistics mpiexec./a.out 出力 :GUI,fapppx MPI profile ************************************************************************************* Application ************************************************************************************* Kind Elapsed(s) Wait(s) Byte Call ( 0-4K 4K-64K 64K-1024K 1024KByte-) all AVG mpi_comm_rank_ MAX MIN AVG mpi_comm_size_ MAX MIN AVG mpi_finalize_ MAX MIN AVG mpi_init_ MAX MIN AVG mpi_allreduce_ MAX MIN AVG mpi_barrier_ MAX MIN AVG mpi_bcast_ MAX MIN 様々なハードウェアモニタ情報が確認出来る

一般財団法人高度情報科学技術研究機構 17 詳細計測 ( 精密 PA 可視化機能 ) 精密 PA

&+px(1)*(t_omp(ifdx(1,i),id)+t_omp(ifdx(-1,i),id))&

&+py(2)*(t_omp(ifdy(2,i),id)+t_omp(ifdy(-2,i),id)) z =

&+pz(1)*(t_omp(ifdz(1,i),id)+t_omp(ifdz(-1,i),id))&

17 一般財団法人高度情報科学技術研究機構 17 詳細計測 ( 精密 PA 可視化機能 ) 精密 PA によって詳細な性能情報を把握できる do i=1,n x = px(0)*t(i)& &+px(1)*(t_omp(ifdx(1,i),id)+t_omp(ifdx(-1,i),id))& &+px(2)*(t_omp(ifdx(2,i),id)+t_omp(ifdx(-2,i),id)) y = py(0)*t(i)& &+py(1)*(t_omp(ifdy(1,i),id)+t_omp(ifdy(-1,i),id))& &+py(2)*(t_omp(ifdy(2,i),id)+t_omp(ifdy(-2,i),id)) z = pz(0)*t(i)& &+pz(1)*(t_omp(ifdz(1,i),id)+t_omp(ifdz(-1,i),id))& &+pz(2)*(t_omp(ifdz(2,i),id)+t_omp(ifdz(-2,i),id)) tt_omp(i,id)=p0_2*t_omp(i,id)-0.5d0*(x+y+z) enddo スケーラビリティ詳細計測キャッシュ有効利用パフォーマンス情報メモリキャッシュ情報 SIMD 情報 CPU 時間情報命令情報バランス情報命令スケジューリング

一般財団法人高度情報科学技術研究機構 18 詳細計測 ( 精密 PA) 単体チューニング精密 PA から

18 一般財団法人高度情報科学技術研究機構 18 詳細計測 ( 精密 PA) 単体チューニング精密 PA からキャッシュアクセス待ちが多く発生していたためリストアクセスパターンを調査したところ x のみキャッシュに収まらないアクセスパターンであり同一ループのためそれが y,z の計算にまで悪影響を及ぼしていると推察されたスケーラビリティ詳細計測キャッシュ有効利用命令スケジューリング do i=1,n y = py(0)*t(i)& &+py(1)*(t_omp(ifdy(1,i),id)+t_omp(ifdy(-1,i),id))& &+py(2)*(t_omp(ifdy(2,i),id)+t_omp(ifdy(-2,i),id)) z = pz(0)*t(i)& &+pz(1)*(t_omp(ifdz(1,i),id)+t_omp(ifdz(-1,i),id))& &+pz(2)*(t_omp(ifdz(2,i),id)+t_omp(ifdz(-2,i),id)) tt_omp(i,id)=p0_2*t_omp(i,id)-0.5d0*(y+z) enddo do i=1,n x = px(0)*t(i)& &+px(1)*(t_omp(ifdx(1,i),id)+t_omp(ifdx(-1,i),id))& &+px(2)*(t_omp(ifdx(2,i),id)+t_omp(ifdx(-2,i),id)) tt_omp(i,id)=tt_omp(i,id)-0.5d0*x enddo y,z ループ分割したところ実行性能が 1.7 倍に向上した x

mpi_isend call mpi_irecv call mpi_wait (

19 一般財団法人高度情報科学技術研究機構 19 通信時間の隠蔽 call mpi_isend call mpi_irecv 通信時間の隠蔽 call mpi_isend call mpi_irecv call mpi_wait ( 通信処理 ) do i=1,n 通信処理 do i=1,n do i=1,n call mpi_wait do i=1,n スケーラビリティ詳細計測キャッシュ有効利用命令スケジューリング通信に依存しない演算によって通信時間を隠蔽する上右図のように通信時間の隠蔽を図っているプログラムの場合一旦左のように演算と通信を分離したコードに修正して計測する分離しても処理時間に変化ない隠蔽が効果的に働いていない!

一般財団法人高度情報科学技術研究機構 20 通信特性調査 mpiexec -mca mpi_print stats 1./a.

/****************** MPI Statistical Information ******************/

------------------------- MPI Information -------------------------.

AVE In_Node 46 [ 0] 24 [ 35] 35.2 Neighbor 178609 [ 32] 133921 [ 1] 175783.

2 Total_Count 182954 [ 34] 138152 [ 0] 180099.

Communication Count ---------------- MAX MIN AVE Eager 1368 [ 100] 963 [ 27]

20 一般財団法人高度情報科学技術研究機構 20 通信特性調査 mpiexec -mca mpi_print stats 1./a.out =================================================================== /****************** MPI Statistical Information ******************/ =================================================================== MPI Information Per-peer Communication Count MAX MIN AVE In_Node 46 [ 0] 24 [ 35] 35.2 Neighbor [ 32] [ 1] Not_Neighbor 4405 [ 124] 4060 [ 109] Total_Count [ 34] [ 0] Connection 127 [ 0] 127 [ 0] Max_Hop 18 [ 0] 11 [ 28] 14.5 Average_Hop 9.07 [ 0] 5.54 [ 28] 6.87 call mpi_isend call mpi_irecv 期待した通信開始 Per-protocol Communication Count MAX MIN AVE Eager 1368 [ 100] 963 [ 27] Rendezvous [ 27] [ 2] Hasty_Rendezvous 0 [ 0] 0 [ 0] 0.0 Unexpected_Message 3 [ 12] 1 [ 0] 1.1 do i=1,n do i=1,n 通信処理スケーラビリティ Rendezvous 通信の場合そのままでは隠蔽されない call mpi_wait 通信処理詳細計測 * 京ポータルドキュメントチュートリアル 2.2 参照キャッシュ有効利用実際の通信開始命令スケジューリング

21 一般財団法人高度情報科学技術研究機構 21 MPI_test の挿入並列チューニング Rendezvous 通信の場合 MPI_test を挿入することで通信処理を促し通信時間の隠蔽を有効にする call mpi_isend call mpi_irecv excel do i=1,n call mpi_test do i=1,n call mpi_wait 通信処理スケーラビリティ詳細計測キャッシュ有効利用 MPI_test により通信隠蔽が実現 0 wait の Max は 66% 短縮 Min はほぼ 0 秒に命令スケジューリング

22 一般財団法人高度情報科学技術研究機構 22 まとめ性能分析は以下の流れで行う詳細計測ではの特定や区間ごとのスケーラビリティを分析し性能阻害要因を特定する目標とする並列数などを踏まえどのを詳細分析するかスケーラビリティが許容出来るかどうかを判断する詳細計測ではに対して詳細に分析し性能阻害要因を特定チューニングを実施するただしその分析コストや効果について注意が必要

26

26 FIPP FAPP I/O LAMMPS LJ atomic fluid 32,000 atoms for 100 timesteps FX10 4 16 / (FIPP) FIPP fipp - C - d dir/ - Ihwm,call - i10 mpiexec./a.out GUI, fipppx - A - d dir/ - Ihwm,cpu,balance,call,src