05-opt-system.ppt

Size: px

Start display at page:

Download "05-opt-system.ppt"

そよはにうだ
5 years ago
Views:

1 筑波大学計算科学研究センター HPC サマーセミナー最適化 II ( 通信最適化 ) 建部修見 tatebe@cs.tsukuba.ac.jp 筑波大学大学院システム情報系計算科学研究センター

2 講義内容基本通信性能 1 対 1 通信集団通信プロファイラ通信最適化通信の削減通信遅延隠蔽通信ブロック負荷分散

3 基本通信性能通信最適化のためには基本通信性能を押さえておくことが重要! 各種通信パターンにおける通信性能の把握通信ブロッキングのブロックサイズの決定ネットワーク性能と比較して通信ライブラリ自体の性能改善

4 基本通信性能評価環境 (1) 4 クラスタノード 2.6GHz Dualcore Opteron x 2 sockets (4 cores) 4GB memory Linux fc6 OpenMPI fc6 Gigabit Ethernet で接続 TCP での理論ピーク性能は 949Mbps(=113.1MB/sec) Gigabit Ethernet Gigabit Ethernet Switch Dualcore Opteron x 2 4GB memory

5 基本通信性能評価環境 (2) T2K 筑波 4 ノード 2.3GHz Quadcore Opteron x 4 sockets (16 cores) 32GB memory MVAPICH2 4xDDR Infiniband で接続理論ピーク性能は 8GB/sec (= 64Gbps) メモリ配置などの最適化は施さず

6 1 対 1 通信の性能 1 対 1 通信は MPI における基本通信プロセス 1 プロセス 2 MPI_Send データ MPI_Recv

7 PingPong ベンチマークプロセス 1 プロセス 2 経過時間 t [sec] MPI_Wtime MPI_Send MPI_Recv MPI_Wtime データサイズ s [MB] MPI_Recv MPI_Send s t 2 通信バンド幅 [MByte/sec]

8 PingPong ベンチマークの例 for (s = 1; s <=P MAX_MSGSIZE; s <<= 1) { t = MPI_Wtime(); for (i = 0; i < ITER; ++i) if (rank == 0) { MPI_Send(BUF, s, MPI_BYTE, 1, TAG1, COMM); MPI_Recv(BUF, s, MPI_BYTE, 1, TAG2, COMM, &status); } else if (rank == 1) { MPI_Recv(BUF, s, MPI_BYTE, 0, TAG1, COMM, &status); MPI_Send(BUF, s, MPI_BYTE, 0, TAG2, COMM); } t = (MPI_Wtime() t) / 2 / ITER; if (rank == 0) printf( %d %g %g\n, s, t, s / t); // サイズ時間バンド幅 }

9 [ 環境 1] PingPong ベンチマーク PingPong MB/sec 120 [M B /sec] KB でピーク性能の約半分 32KB と 64KB の間でプロトコル切替え ,000 10, ,000 1,000,000 10,000,000 D ata size [B yte]

10 1 対 1 通信プロトコル Eager プロトコル (1-way プロトコル ) 短メッセージメッセージヘッダとデータ ( ペイロード ) を同時に送信低遅延だが受信側でコピーのオーバヘッドが発生ランデブ (Rendezvous) プロトコル (3-way プロトコル ) 長メッセージメッセージヘッダを送信し完了通知を待ちデータを送信高バンド幅だが eager プロトコルに比べ高遅延

11 1 対 1 通信プロトコル ( 続き ) MPI 処理系はメッセージ長によりプロトコルを選択メッセージ長を変えて計測することにより明らかにプロトコル切替のメッセージ長は通信性能最適化のために指定可能なことが多い

12 [ 環境 1] 遅延バンド幅での曲線との比較 120 PingPong 遅延 100µsec バンド幅 113.1MB/s [M B /sec] 遅延 200µsec バンド幅 113.1MB/s ,000 10, ,000 1,000,000 10,000,000 ( ) 理論曲線 s L + s B N half = BL D ata size [B yte] L 遅延時間 B バンド幅

13 [ 環境 1] PingPong ベンチマークの考察データサイズは大きい方が高性能参考 : 理論ピーク性能は 113.1MB/sec ピークの半分以上データサイズ 16KB 以上ピークの 9 割以上データサイズ 512KB 以上 1 バイトの PingPong ベンチマークの遅延時間は 563µsec であったがショートメッセージは 100µsec ロングメッセージは 200µsec の遅延時間の曲線に従う

14 [ 環境 2] PingPong ベンチマーク [M B/sec] PingPong 128KB でピーク性能の半分以上性能は安定しない 3500 MB/sec 程度 128KB を超えるとマルチレールが有利 ,000 1,000, ,000,00 0 IB x1 IB x2 IB x3 IB x4 D ata size [B yte]

15 [ 環境 2] 遅延バンド幅での曲線との比較 PingPong [M B/sec] ,000 1,000, ,000, 000 IB x1 IB x2 IB x3 IB x4 遅延 14.7μs 遅延 16.3μs 遅延 20.4μs 遅延 24.1μs D ata size [B yte]

16 [ 環境 2] PingPongベンチマークの考察データサイズは大きい方が高性能 IBの数バンド幅 [MB/s] 遅延 [µ 秒 ] N half [KB] ショートメッセージとロングメッセージで遅延は変わらない

17 Intel MPI Benchmark 基本 MPIベンチマークカーネル MPI1 PingPong Single PingPing Transfer Sendrecv Parallel Exchange* Transfer Bcast Allgather Allgatherv Alltoall* Alltoallv* Collective Reduce Reduce_scatter Allreduce* Barrier 上記を複数一斉に行うMulti 版 EXT Window Unidir_Put Unidir_Get Bidir_Get Bidir_Put Accumulate IO S_{Write,Read}_{indv,expl} P_{Write,Read} _{indv,expl,shared,priv} C_{Write,Read} _{indv,expl,shared}

18 Exchange パターン境界の要素を交換する通信パターン *Intel MPI Benchmarks Users Guide and Methodology Description より

19 [ 環境 1] Exchange(2 ノード ) [ 試行 3 回 ] 250 Exchange (2nodes) 200 [M B /sec] KB で性能低下プロトコル切替えの影響? ,000 10, ,000 1,000,000 10,000,000 D ata size [B yte]

20 [ 環境 1] Exchange(2 ノード ) の考察データサイズは基本的には大きい方が高性能だが 64KB 付近で落ちる参考 : 理論ピーク性能は2*113.1=226.2MB/ sec ピークの半分以上データサイズ8KB 以上ただし8KBを超えると性能は安定しないデータサイズ256KB 以上ではピークの8 割以上でることもある

21 [ 環境 1] Exchange(4 ノード ) [ 試行 3 回 ] Exchange (4nodes) 512KB を超えると性能が安定しない KB に山 [M B /sec] KB で性能低下 D ata size [B yte]

22 [ 環境 1] Exchange(4 ノード ) の考察データサイズは基本的には大きい方が高性能だが 32KB 付近で落ちる参考 : 理論ピーク性能は2*113.1=226.2MB/ sec ピークの半分以上データサイズ16KBと 128KB 以上 32KB 64KB はピークの半分以下 512KB 超では性能が安定しない

23 [ 環境 2] Exchange(2 ノード ) 6000 Exchange (2 nodes) 4 レールは性能低下 [M B/sec] KB を超えるとマルチレールが有利 IB x1 IB x2 IB x3 IB x ,000 10, ,000 1,000,000 10,000,000 Data size [Byte]

24 [ 環境 2] Exchange(4 ノード ) 6000 Exchange (4 nodes) 4 レールは性能低下 [M B /sec] KB を超えるとマルチレールが有利 IB x1 IB x2 IB x3 IB x ,000 10, ,000 1,000,000 10,000,000 Data size [Byte]

25 [ 環境 2] Exchange の考察データサイズは基本的には大きい方が高性能 32KBを超えるとマルチレールが有利 4レールでは性能低下性能は安定している (IBなのでパケットが落ちないことが影響?)

26 Allreduce 各プロセスの配列間で指定された演算 ( 加算 AND/OR 演算など ) を施し結果は全プロセスで保持 MPI_SUMの例 x + x + x + x = x i = 1 i = プロセス 1 の配列プロセス 2 の配列プロセス 3 の配列プロセス 4 の配列計算結果を全プロセスで保持

27 [ 環境 1] Allreduce(4 ノード ) [ サイズ / 時間 ] A lreduce (4nodes) [M B /sec] KB と 64KB 以上で高性能 32KB で性能低下 ,000 10, ,000 1,000,000 10,000,000 D ata size [B yte]

28 [ 環境 1] Allreduce の考察データサイズは基本的には大きい方が高性能だが 32KBで性能低下 8KB 64KB 以上では高性能

29 [ 環境 2] Allreduce(4 ノード ) [ サイズ / 時間 ] A lreduce (4 nodes) 64KB を超えるとマルチレール有利 1MB を超えると性能低下 [M B/sec] IB x1 IB x2 IB x3 IB x ,000 10, ,000 1,000,000 10,000,000 Data size [Byte]

30 [ 環境 2] Allreduce の考察データサイズは基本的には大きい方が高性能だが 1MBを超えると性能低下 64KBを超えるとマルチレールが有利 4レールは性能低下

31 Alltoall 行列の転置に相当する集団通信プロセス 1 プロセス 2 プロセス 3 プロセス 4

32 [ 環境 1] Alltoall [ サイズ / 時間 ] 25 A ltoa l(4nodes) 20 [M B /sec] KB 32KB で性能低下 ,000 10, ,000 1,000,000 10,000,000 D ata size [B yte]

33 [ 環境 1] Alltoallv [ サイズ / 時間 ] 25 Alltoallv (4nodes) [M B /sec] KB 以上で性能低下 ,000 10, ,000 1,000,000 10,000,000 D ata size [B yte]

34 [ 環境 1] Alltoall(v) の考察 Alltoall はデータサイズは基本的には大きい方が高性能だが 16KB~32KB で性能低下 8KB 64KB 以上では高性能 Allreduceと同様 Alltoallv は 16KB を超えると極端に性能低下不必要なメモリコピーのためと思われる性能最適化がなされていない

35 [ 環境 2] Alltoall [ サイズ / 時間 ] A ltoa l(4 nodes) [M B/sec] ,000 10, ,000 1,000,000 10,000,000 Data size [Byte] 16KB で性能低下 IB x1 IB x2 IB x3 IB x4

36 [ 環境 2] Alltoallv [ サイズ / 時間 ] A ltoa lv (4 nodes) [M B/sec] IB x1 IB x2 IB x3 IB x ,000 10, ,000 1,000,000 10,000,000 Data size [Byte]

37 [ 環境 2] Alltoall(v) の考察 Alltoall,Alltoallvはデータサイズは基本的には大きい方が高性能 Alltoallは16KBで性能低下 32KBを超えるとマルチレールが有利

38 マルチレールについてマルチレール ( ボンディング ) はバンド幅を向上させるが遅延は短くならないメッセージ長が長いと有効となるマルチレールの数が多くなると効率は下がるマルチレールの使い方はいくつかあり 4 レールの場合以下の方法がある 4 レールを束ね 1 チャンネルで利用 2 レールを束ね 2 チャンネルで利用 4 チャンネルで利用多くの MPI 処理系は束ねるレール数を指定可能全てのケースで有効な方法はなく有効な使い方はアプリケーションの通信パターンによる

39 プロファイラプログラムの挙動を把握する呼び出し回数の多い関数処理に時間がかかっている関数関数の呼び出し関係関数のメモリ使用量など実行時間の多くが費やされているコードの特定並列プログラムにおける同期待ち負荷不均衡の把握プログラムの実行に影響しないことが望ましい軽量のプロファイラが必須

40 計時コード挿入によるプロファイリング計時したい箇所 (MPI 関数特定ブロック ) に計時コードを挿入 double t; t = MPI_Wtime(); MPI_Allgather(...); t = MPI_Wtime() t; 時間精度はシステム依存

41 tlog time log 実行プロファイルをとるための軽量ライブラリ ( 筑波大 ) 1イベントあたり16バイト各プロセスのメモリに保持単発イベント区間イベント各 9 種類のログイベント番号は8ビットなので拡張可能 tlog_initializeからの経過時間 ( 秒 ) を記録 tlog_initialize でノード間の時刻差を測定し補正並列プロセスにおける絶対相対時間暫定ダウンロード URL

42 tlog - 主要 API void tlog_initialize(void) 初期化 MPI_Init の後で呼ぶこと void tlog_log(int event) event で指定されたイベントを記録する void tlog_finalize(void) ログを trace.log に出力 MPI_Finalize() の前に呼ぶこと tlog_initialize(); tlog_log(tlog_event_1_in); /* EVENT 1 */ tlog_log(tlog_event_1_out); tlog_finalize();

43 例 - cpi.c π を計算するテストプログラム MPI_Init(&argc, &argv); tlog_initialize(); tlog_log(tlog_event_1_in); MPI_Bcast(&n, 1, MPI_INT, 0, MPI_COMM_WORLD); tlog_log(tlog_event_1_out); /* mypi の部分計算 */ tlog_log(tlog_event_2_in); MPI_Reduce(&mypi, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD); tlog_log(tlog_event_2_out); if (rank == 0) /* 結果表示 */ tlog_log(tlog_event_1_in); MPI_Bcast(&n, 1, MPI_INT, 0, MPI_COMM_WORLD); tlog_log(tlog_event_1_out); tlog_finalize(); MPI_Finalize();

44 例 - cpi のコンパイル tlog ライブラリをリンク % mpicc -O -o cpi cpi.c -ltlog tlog ライブラリ,tlogview のインストール %./configure % make % sudo make install /usr/local にインストールする例

45 例 - cpi の実行結果 $ mpiexec -hostfile hosts -n 4 cpi adjust i=1,t1= ,t2= ,t0= ,diff=6.7e-05 adjust i=2,t1= ,t2= ,t0= ,diff=8.8e-05 adjust i=3,t1= ,t2= ,t0= ,diff= adjust i=1,t1= ,t2= ,t0= ,diff=-2e-06 adjust i=2,t1= ,t2= ,t0= ,diff=-2e-06 adjust i=3,t1= ,t2= ,t0= ,diff=2.5e-06 tlog on... Process 0 on exp0.omni.hpcc.jp pi is approximately , Error is wall clock time = tlog finalizing... Process 3 on exp3.omni.hpcc.jp Process 1 on exp1.omni.hpcc.jp Process 2 on exp2.omni.hpcc.jp tlog dump done... ノード間の時間差測定 ( デバッグ時に出力 ) デバッグ時の出力プログラムの出力デバッグ時の出力

46 cpi のプロファイル結果 (1) tlogview tlog の可視化ツール % tlogview trace.log 4 プロセス (4 ノード ) での実行プロファイル MPI_Bcast MPI_Reduce tlog_initialize からの経過時間 ( 秒 ) ノード間の時刻差修正済

47 cpi のプロファイル結果 (2) 16 プロセス (4 ノード 4 プロセス ) のプロファイル MPI_Bcast MPI_Reduce

48 通信最適化通信の削減 * 負荷分散 * 基本的には通信データサイズを大きく通信ブロック複数反復をまとめるデータサイズが小さいものは通信遅延隠蔽通信と計算のオーバラップパイプライン実行

49 通信ブロッキング 1 対 1 通信集団通信はデータサイズによって通信性能が大きく変化する通信ブロッキングは通信データをまとめてデータサイズを変更する ( 大きくする ) 手法データのブロック分散複数反復をまとめる

50 通信ブロッキングの例 : ヤコビ法二次元ポアソン方程式を5 点差分で離散化した連立一次方程式の解法 jacobi() { while (!converge) { for(i = 1; i < N - 1; ++i) for(j = 1; j < N - 1; ++j) b[i][j] =.25 * (a[i - 1][j] + a[i][j - 1] + a[i][j + 1] + a[i + 1][j]); /* 収束テスト */ /* b を a にコピー */ } } a[i][j-1] a[i-1][j] a[i+1][j] a[i][j+1] データ依存関係 * 本当はヤコビ法ではなく RB-SOR 法などを使って欲しい

51 データのブロック分散 1 次元ブロック分散 2 次元ブロック分散 (A) (B) PE 0 PE 1 PE 2 PE 3 PE 0 PE 1 PE 2 PE 3 データをブロック分割することにより通信データサイズを大きくできる n 1 次元ブロック分散では 2 次元ブロック分散では n / p

52 シャドー領域 ( 袖領域 ) の通信境界領域の更新にはのデータが必要他のプロセスではのデータが必要 1. とのデータを一括して交換 2. 各プロセスで計算

53 計算と通信のオーバラップ内部領域の更新にはのデータは不要 1. のデータを送信 2. 内部領域の計算 3. のデータの受信 4. 境界領域の計算内部領域

54 計算と通信のオーバラップ (2) MPI_Isend(,, &req[0]) MPI_Irecv(,, &req[1]) 内部領域計算 MPI_Waitall(2, req, status) 境界領域計算

55 複数反復をまとめるヤコビ法二反復をまとめる一反復目ではのデータが必要二反復目ではのデータが必要とのデータを転送することにより二反復をまとめられる 2n 1 次元 2 次元 2n / p

56 複数反復をまとめる (2) とのデータを転送する [ 一反復目 ] 袖領域を含めた赤領域を計算 [ 二反復目 ] 袖領域は既に最新データを持っているため通信なしに計算可能

57 まとめ基本通信性能 1 対 1 通信集団通信プロファイラ通信最適化通信の削減通信遅延隠蔽通信ブロック負荷分散

58 最適化 2 レポート課題 2 次元ラプラス方程式をヤコビ法で解く MPI プログラム ( 参考 : MPI で紹介した laplace) を作成し, 複数反復をまとめる最適化を行いなさい最適化前後で tlog によるプロファイルを行い, 考察を行いなさい

NUMAの構成

NUMAの構成メッセージパッシングプログラミング天野共有メモリ対メッセージパッシング共有メモリモデル共有変数を用いた単純な記述自動並列化コンパイラ簡単なディレクティブによる並列化 :OpenMP メッセージパッシング形式検証が可能 ( ブロッキング ) 副作用がない ( 共有変数は副作用そのもの ) コストが小さいメッセージパッシングモデル共有変数は使わない共有メモリがないマシンでも実装可能クラスタ