研究背景大規模な演算を行うためには分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため生産性が悪い新しい並

Size: px

Start display at page:

Download "研究背景大規模な演算を行うためには分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため生産性が悪い新しい並"

あきひさおおふさ
9 years ago
Views:

1 XcalableMPによる NAS Parallel Benchmarksの実装と評価中尾昌広李珍泌朴泰祐佐藤三久筑波大学計算科学研究センター筑波大学大学院システム情報工学研究科

2 研究背景大規模な演算を行うためには分散メモリ型システムの利用が必須 Message Passing Interface MPI 並列プログラムの大半はMPIを利用様々な実装 OpenMPI, MPICH, MVAPICH, MPI.NET プログラミングコストが高いため生産性が悪い新しい並列プログラミングモデルとして XcalableMPが提案されている SWoPP2010 金沢 2

3 XcalableMP 分散メモリ型システム用の並列プログラミングモデル OpenMPのように指示文を用いた並列化 + α 科学技術計算でよく用いられるCとFortran言語に対応プログラミングコストを低減し生産性を上げる #pragma xmp loop on t(i) for(i = 0; i < MAX; i++){ a[i] = func(i); } 指示文によりループ文を分散して各ノードで処理可能 XcalableMPのプログラム例 SWoPP2010 金沢 3

xmp loop on t(i) for(i = 0; i < MAX; i++){ a[i] = func(i); }

4 発表内容研究目的 XcalableMP XMP の記述性と性能を明らかにする研究内容 NAS Parallel Benchmarks NPB をXMPで実装し性能評価を行う Embarrassingly Parallel EP 乱数発生 Integer Sort IS 整数ソート Conjugate Gradient CG 共役勾配法 SWoPP2010 金沢 4

5 この後の発表の流れ XMPの概要と文法 XMPによるNPBの実装性能測定まとめ SWoPP2010 金沢 5

6 XMPの概要実行モデルはSingle Program Multiple Data High Performance Fortranなどを参考に開発 node1 Performance Awareness 通信が発生する箇所は明示的に指示それ以外はローカルメモリにアクセス 2つのプログラミングモデル node2 node3 Directives Comm, sync and work-sharing グローバルビュー定型的な通信集団通信同期などローカルビュー MPI_Put/Getのような片方向通信の記述 SWoPP2010 金沢 6

それ以外はローカルメモリにアクセス 2つのプログラミングモデル node2 node3 Directives Comm, sync

7 #pragma xmp loop on t(i) for( i = 0; i < N; i++) a[ i ] = func( i ); #pragma xmp nodes n(4) #pragma xmp template t(0:n-1) #pragma xmp distribute t(block) onto n #pragma xmp align a[i] with t(i) // 4 // 0 N-1 index template // template n // a template template t 0 N-1 a[ ] node1 node2 node3 node4 0 N/4 N/2 N/4*3 N-1 7

onto n #pragma xmp align a[i] with t(i) // 4 // 0 N-1 index template //

8 #pragma xmp loop on t(i) for( i = 0; i < N; i++) a[ i ] = func( i ); #pragma xmp nodes n(4) #pragma xmp template t(0:n-1) #pragma xmp distribute t(block) onto n #pragma xmp align a[i] with t(i) // 4 // 0 N-1 index template // template n // a template template t 0 N-1 a[ ] node1 node2 node3 node4 0 N/4 N/2 N/4*3 N-1 7

9 #pragma xmp loop on t(i) for( i = 0; i < N; i++) a[ i ] = func( i ); #pragma xmp nodes n(4) #pragma xmp template t(0:n-1) #pragma xmp distribute t(block) onto n #pragma xmp align a[i] with t(i) // 4 // 0 N-1 index template // template n // a template template t node1 node2 node3 node4 0 N-1 a[ ] node1 node2 node3 node4 0 N/4 N/2 N/4*3 N-1 7

#pragma xmp align a[i] with t(i) // 4 // 0 N-1 index template // template n // a

10 #pragma xmp loop on t(i) for( i = 0; i < N; i++) a[ i ] = func( i ); #pragma xmp nodes n(4) #pragma xmp template t(0:n-1) #pragma xmp distribute t(block) onto n #pragma xmp align a[i] with t(i) // 4 // 0 N-1 index template // template n // a template template t a[ ] node1 node2 node3 node4 0 N-1 node1 node2 node3 node4 0 N/4 N/2 N/4*3 N-1 7

11 グローバルビューの通信集団通信 Reduce Broadcast, Gatherなど gmove 分散配列のための代入指示文シャドウ袖領域のための通信シャドウについては論文集を参考にして下さい SWoPP2010 金沢 8

12 グローバルビューの通信集団通信 Reduce Broadcast, Gatherなど gmove 分散配列のための代入指示文シャドウ袖領域のための通信シャドウについては論文集を参考にして下さい SWoPP2010 金沢 8

13 DATA DATA DATA DATA DATA #pragma xmp loop on t(i) for(i = 0, sum=0; i < N; i++){ sum += array[i]; } #pragma xmp reduction (+:sum) 9

14 #pragma xmp gmove a[:] = b[:]; array[ lower : upper ] array lower upper array[:] a[10] b[10] 10

15 #pragma xmp gmove a[:] = b[:]; array[ lower : upper ] array lower upper array[:] a[10] b[10] 10

16 ローカルビューローカルデータとノード間通信を意識したプログラミング XMPではローカルビューとしてCo-array記法を導入し片側通信を実現 Fortran版のXMPはCo-Array Fortranと互換 C言語では文法を拡張 #pragma xmp coarray b a[0:3] = b[3:6]:[1]; 配列の次元を拡張ノード番号を表すノード1が持つb[3:6]のデータを a[0:3]に代入より柔軟な並列アルゴリズムの記述が可能 SWoPP2010 金沢 11

Fortranと互換 C言語では文法を拡張 #pragma xmp coarray b a[0:3] =

17 XMPによるNPB実装 NAS Parallel Benchmarks NPB をXMPで実装並列化の方法 MPI版とOpenMP版におけるNPBの並列アルゴリズムを XMPで実装対象問題 Embarrassingly Parallel EP 乱数発生 Integer Sort IS 整数ソート Conjugate Gradient CG 共役勾配法 OpenMPを参考にした実装やEPについては論文集を参考にして下さい SWoPP2010 金沢 12

Parallel EP 乱数発生 Integer Sort IS 整数ソート Conjugate Gradient

19 #pragma xmp coarray key_buff2 #pragma xmp loop on t(i) for( i=0; i<num_keys; i++ ) bucket_size[key_array[i] >> shift]++; #pragma xmp loop on t(i) for( i=0; i<num_keys; i++ ) { key = key_array[i]; key_buff1[bucket_ptrs[key >> shift]++] = key; } for(i=0;i<num_procs;i++) key_buff2[a[i]:b[i]]:[i] = key_buff1[c[i]:d[i]]; 14

$i<num_keys; i++ ) { key = key_array[i]; key_buff1[bucket_ptrs[key >> shift]++]$

20 #pragma xmp coarray key_buff2 #pragma xmp loop on t(i) for( i=0; i<num_keys; i++ ) bucket_size[key_array[i] >> shift]++; #pragma xmp loop on t(i) for( i=0; i<num_keys; i++ ) { key = key_array[i]; key_buff1[bucket_ptrs[key >> shift]++] = key; } for(i=0;i<num_procs;i++) key_buff2[a[i]:b[i]]:[i] = key_buff1[c[i]:d[i]]; 14

$i<num_keys; i++ ) { key = key_array[i]; key_buff1[bucket_ptrs[key >> shift]++]$

21 for(i=0;i<num_procs;i++) key_buff2[ a[ i ] : b[ i ] ] : [ i ] = key_buff1[ c[ i ] : d[ i ] ]; a[ k ] b[ k ] c[ k ] d[ k ] 15

22 for(i=0;i<num_procs;i++) key_buff2[ a[ i ] : b[ i ] ] : [ i ] = key_buff1[ c[ i ] : d[ i ] ]; a[ k ] b[ k ] c[ k ] d[ k ] 15

23 16

24 Performance(Mop/s) XMP MPI Number of Node XMP 10% XMP MPI 17

25 CG 共役勾配法のXMP化 2次元疎行列 a[ ] CG 共役勾配法 4プロセスの例プロセスは2次元に配置 #pragma xmp template t(0:n-1,0:n -1) #pragma xmp distribute t(block,block) on n double x[n], z[n], p[n], q[n], r[n], w[n]; 最小固有値 x[], z[], p[], q[], r[] n(1,1) n(2,1) n(1,2) n(2,2) w[] #pragma xmp align [i] with t(i,*):: x,z,p,q,r #pragma xmp align [i] with t(*,i):: w template t SWoPP2010 金沢 18

26 CG 共役勾配法のXMP化 2次元疎行列 a[ ] CG 共役勾配法最小固有値 4プロセスの例プロセスは2次元に配置 #pragma xmp template t(0:n-1,0:n -1) #pragma xmp distribute t(block,block) on n double x[n], z[n], p[n], q[n], r[n], w[n]; x[], z[], p[], q[], r[] x[0:n/2-1] x[n/2:n-1] n(1,1) n(2,1) x[0:n/2-1] x[n/2:n-1] n(1,2) n(2,2) w[] #pragma xmp align [i] with t(i,*):: x,z,p,q,r #pragma xmp align [i] with t(*,i):: w template t SWoPP2010 金沢 19

27 CG 共役勾配法のXMP化 2次元疎行列 a[ ] CG 共役勾配法最小固有値 4プロセスの例プロセスは2次元に配置 #pragma xmp template t(0:n-1,0:n -1) #pragma xmp distribute t(block,block) on n double x[n], z[n], p[n], q[n], r[n], w[n]; x[], z[], p[], q[], r[] w[0:n/2-1] w[0:n/2-1] n(1,1) n(2,1) w[n/2:n-1] w[n/2:n-1] n(1,2) n(2,2) w[] #pragma xmp align [i] with t(i,*):: x,z,p,q,r #pragma xmp align [i] with t(*,i):: w template t SWoPP2010 金沢 20

28 CG 共役勾配法のXMP化 2次元疎行列 a[ ] CG 共役勾配法 4プロセスの例プロセスは2次元に配置 #pragma xmp template t(0:n-1,0:n -1) #pragma xmp distribute t(block,block) on n double x[n], z[n], p[n], q[n], r[n], w[n]; #pragma xmp align [i] with t(i,*):: x,z,p,q,r #pragma xmp align [i] with t(*,i):: w n(*,1) x[], z[], p[], q[], r[] n(1,1) n(2,1) n(1,2) n(2,2) w[] n(*,2) *は重複の意味最小固有値 SWoPP2010 金沢 template t 21

29 #pragma xmp loop on t(*, j) for(j = 0; j < lastrow-firstrow+1; j++) { sum = 0.0; for(k = rowstr[j]; k <= rowstr[j+1]; k++) { sum = sum + a[k]*p[colidx[k]]; } w[j] += sum; } #pragma xmp reduction(+:w) on n(*,:) #pragma xmp gmove q[:] = w[:]; p[ j ], q[ j ] with t (j, *) w[ j ] with t (*, j) 22

30 #pragma xmp loop on t(*, j) for(j = 0; j < lastrow-firstrow+1; j++) { sum = 0.0; for(k = rowstr[j]; k <= rowstr[j+1]; k++) { sum = sum + a[k]*p[colidx[k]]; } w[j] += sum; } #pragma xmp reduction(+:w) on n(*,:) #pragma xmp gmove q[:] = w[:]; p[ j ], q[ j ] with t (j, *) w[ j ] with t (*, j) 22

31 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] q[0:n/2-1] q[n/2:n-1] n(1,2) n(2,2) n(1,2) n(2,2) 23

32 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] q[0:n/2-1] q[n/2:n-1] n(1,2) n(2,2) n(1,2) n(2,2) 23

33 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] q[0:n/2-1] q[n/2:n-1] n(1,2) n(2,2) n(1,2) n(2,2) 23

34 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] q[0:n/2-1] q[n/2:n-1] n(1,2) n(2,2) n(1,2) n(2,2) 23

35 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] q[0:n/2-1] q[n/2:n-1] n(1,2) n(2,2) n(1,2) n(2,2) 23

36 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,2) n(2,2) n(2,1) n(1,2) n(2,2) 23

37 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] w[n/2:n-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(1,2) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] w[0:n/2-1] q[0:n/2-1] q[n/2:n-1] n(1,2) n(2,2) n(2,1) n(1,2) n(2,2) 23

38 #pragma xmp gmove q[:] = w[:]; q[] w[0:n/2-1] w[0:n/2-1] w[0:n/2-1] q[0:n/2-1] w[n/2:n-1] q[n/2:n-1] n(1,1) n(2,1) n(1,1) n(1,2) n(2,1) w[] w[n/2:n-1] w[n/2:n-1] w[0:n/2-1] q[0:n/2-1] w[n/2:n-1] q[n/2:n-1] n(1,2) n(2,2) n(2,1) n(1,2) n(2,2) 23

39 Performance(Mop/s) XMP MPI Number of Node 1, 4, 16 XMP MPI 24

40 Performance(Mop/s) XMP MPI Number of Node 1, 4, 16 XMP MPI 24

41 CGの考察 2と8プロセスの場合縦と横の分割数が異なるでは同じ reduction後のgmove wとqの要素数は同じ q[] n(1,1) n(2,1) n(3,1) n(4,1) w[] n(1,1) n(2,1) n(3,1) n(4,1) n(1,2) n(2,2) n(3,2) n(4,2) n(1,2) n(2,2) n(3,2) n(4,2) 2分割 4コピー 4分割 2コピー XMP版ではすべての要素をリダクションにしているのに対し MPI版は計算に必要な要素のみをリダクションしているため SWoPP2010 金沢 25

42 CGの考察 2と8プロセスの場合縦と横の分割数が異なるでは同じ reduction後のgmove wとqの要素数は同じ q[] w[] n(1,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,2) n(2,2) n(3,2) n(4,2) n(1,2) n(2,2) n(3,2) n(4,2) 2分割 4コピー 4分割 2コピー XMP版ではすべての要素をリダクションにしているのに対し MPI版は計算に必要な要素のみをリダクションしているため SWoPP2010 金沢 25

43 CGの考察 2と8プロセスの場合縦と横の分割数が異なるでは同じ reduction後のgmove wとqの要素数は同じ q[] w[] n(1,1) n(2,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,2) n(2,2) n(3,2) n(4,2) n(1,2) n(2,2) n(3,2) n(4,2) 2分割 4コピー 4分割 2コピー XMP版ではすべての要素をリダクションにしているのに対し MPI版は計算に必要な要素のみをリダクションしているため SWoPP2010 金沢 25

44 CGの考察 2と8プロセスの場合縦と横の分割数が異なるでは同じ reduction後のgmove wとqの要素数は同じ q[] n(1,2) w[] n(1,1) n(2,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,2) n(2,2) n(3,2) n(4,2) n(1,2) n(2,2) n(3,2) n(4,2) 2分割 4コピー 4分割 2コピー XMP版ではすべての要素をリダクションにしているのに対し MPI版は計算に必要な要素のみをリダクションしているため SWoPP2010 金沢 25

45 CGの考察 2と8プロセスの場合縦と横の分割数が異なるでは同じ reduction後のgmove wとqの要素数は同じ q[] n(1,2) n(2,2) w[] n(1,1) n(2,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,2) n(2,2) n(3,2) n(4,2) n(1,2) n(2,2) n(3,2) n(4,2) 2分割 4コピー 4分割 2コピー XMP版ではすべての要素をリダクションにしているのに対し MPI版は計算に必要な要素のみをリダクションしているため SWoPP2010 金沢 25

46 CGの考察 2と8プロセスの場合縦と横の分割数が異なるでは同じ reduction後のgmove wとqの要素数は同じ q[] n(1,2) n(2,2) w[] n(1,1) n(2,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,1) n(2,1) n(3,1) n(4,1) n(1,2) n(2,2) n(3,2) n(4,2) n(1,2) n(2,2) n(3,2) n(4,2) 利用されない 2分割 4コピー 4分割 2コピー XMP版ではすべての要素をリダクションにしているのに対し MPI版は計算に必要な要素のみをリダクションしているため SWoPP2010 金沢 25

47 まとめと今後の課題分散メモリシステム用の新しいプログラミングモデルであるXMPの性能評価本発表では NPBのCGとISをXMPの実装を紹介 MPI版のNPBとの性能比較した結果ほぼ同等の性能今後の課題マルチコア対応XMPの評価ノード数とプロセス数を増やして性能評価並列化をサポートするためのプロファイリングツールの開発 SWoPP2010 金沢 26

XcalableMP入門

XcalableMP入門 XcalableMP 1 HPC-Phys@, 2018 8 22 XcalableMP XMP XMP Lattice QCD!2 XMP MPI MPI!3 XMP 1/2 PCXMP MPI Fortran CCoarray C++ MPIMPI XMP OpenMP http://xcalablemp.org!4 XMP 2/2 SPMD (Single Program Multiple Data)