1.overview - PDF Free Download

村井均 ( 理研 )

2 はじめに規模シミュレーションなどの計算をうためにはクラスタのような分散メモリシステムの利が般的並列プログラミングの現状半は MPI (Message Passing Interface) を利 MPI はプログラミングコストがきい標性能と産性を兼ね備えた並列プログラミング語の開発

3 並列プログラミング語 XcalableMP 次世代並列プログラミング語検討委員会 / PC クラスタコンソーシアム XcalableMP 規格部会で検討中 MPI に代わる並列プログラミングモデル標 : Performance Expressiveness Optimizability Education cost www.xcalablemp.org

4 XcalableMP の特徴 (1) Fortran/C の拡張 ( 指ベース ) 逐次プログラムからの移が容易 SPMD モデル各ノード ( 並列実の主体 ) が独に ( 重複して ) 実を開始する

5 XcalableMP の特徴 (2) 明的な並列化と通信ワークマッピング ( 並列処理 ) 通信および同期は集団的な指によって明されるチューニングが容易 2 つのプログラミングモデルグローバルビューローカルビュー

6 XMP の実モデル (SPMD) 各ノードは同のコードを独に ( 重複して ) 実する指の箇所では全ノードが協調して動作する ( 集団実 ) 通信同期ワークマッピング ( 並列処理 ) ノード 1 ノード 4 重複実指通信, 同期, ワークマッピング

7 メモリモデル各ノードはのローカルメモリ上のデータ ( ローカルデータ ) のみをアクセスできる他のノード上のデータ ( リモートデータ ) にアクセスする場合は特殊な記法による明的な指定が必要通信指 coarray 分散されないデータは全ノードに重複して配置される

8 プログラム例 (MPI との較 ) XMP/C プログラム int array[max]; #pragma xmp nodes p[*] #pragma xmp template t[max] #pragma xmp distribute t[block] onto p #pragma xmp align array[i] with t[i] main(){ #pragma xmp loop on t[i] reduction(+:res) for (i = 0; i < MAX; i++){ array[i] = func(i); res += array[i]; } } シンプル int array[max]; MPI プログラム main(int argc, char **argv){ MPI_Init(&argc, &argv); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx = MAX/size; llimit = rank * dx; if (rank!= (size -1)) ulimit = llimit + dx; else ulimit = MAX; temp_res = 0; for (i = llimit; i < ulimit; i++){ array[i] = func(i); temp_res += array[i]; } MPI_Allreduce(&temp_res, &res, 1, MPI_INT, MPI_SUM, MPI_COMM_WORLD); } MPI_Finalize( );

9 XMP のグローバルビュープログラミングローカルビュー : 各ノードが解くべき問題を個別にすノード 1 は問題 1 25 を解けノード 2 は解くべき問題全体を記述しそれを N 個のノードが分担する法をす問題 1 100 を 4 で分担して解け分かりやすい ( 基本的に指を挿するだけ ) 分担を指定する法データマッピングワークマッピング通信同期

10 XcalableMP 指の記法 XMP の指は #pragma xmp または!$xmp から始まる [C] 例 #pragma xmp align a[i] with t[i] [F]!$xmp align a(i) with t(i)

11 XMP のデータマッピング整列 + 分散による 2 段階の処理 0 1 2 3 4 5 整列 0 1 2 3 4 5 分散 0 1 2 配列はテンプレートに整列されテンプレートはノードに分散される 6 6 7 7 3 配列 / ループテンプレート ( 仮想的な配列 ) ノード

12 データマッピング指 (1) nodes 指 XMP プログラムの実者であるノードのサイズと形状を宣するデータやワークを割り当てる対象プロセッサ ( マルチコア可 ) とローカルメモリから成る [C] [F] #pragma xmp nodes p[4][4]!$xmp nodes p(4,4)

13 動的な nodes 指実際の p のサイズは実時に決まる mpiexec コマンドの引数など [C] [F] #pragma xmp nodes p[*] #pragma xmp nodes p[*][4]!$xmp nodes p(*)!$xmp nodes p(4,*) 最後の次元に * を指定できる

14 データマッピング指 (2) template 指 XMP プログラムの並列処理の基準であるテンプレートのサイズと形状を宣するデータやワークの整列の対象 [C] [F] #pragma xmp template t[64][64]!$xmp template t(64,64)

15 データマッピング指 (3) distribute 指ノード集合 p にテンプレート t を分散する [C] #pragma xmp distribute t[block] onto p [F]!$xmp distribute t(block) onto p 分散形式としてブロックサイクリックブロックサイクリック不均等ブロックを指定できる

16 データマッピングの例例 1: ブロック分散 #pragma xmp nodes p[4] #pragma xmp template t[20] #pragma xmp distribute t[block] onto p 例 2: サイクリック分散 #pragma xmp nodes p[4] #pragma xmp template t[20] #pragma xmp distribute t[cyclic] onto p ノードインデックスノードインデックス P[0] 0, 1, 2, 3, 4 P[1] 5, 6, 7, 8, 9 P[2] 10, 11, 12, 13, 14 P[0] 0, 4, 8, 12, 16 P[1] 1, 5, 9, 13, 17 P[2] 2, 6, 10, 14, 18 P[3] 15, 16, 17, 18, 19 P[3] 3, 7, 11, 15, 19

17 多次元テンプレートの分散 #pragma xmp nodes p2[2][2] #pragma xmp distribute t[block][block] onto p2 P2[0][0] P2[0][1] P2[1][0] P2[1][1] #pragma xmp nodes p1[4] #pragma xmp distribute t[block][*] onto p1 P1[0] P1[1] P1[2] P1[3] * は分散を意味する

18 データマッピング指 (4) align 指 (1) 配列 a の要素 i をテンプレート t の要素 i-1 に整列させる [C] #pragma xmp align a[i] with t[i-1] [F]!$xmp align a(i) with t(i-1) 多次元配列も整列可能 [C] [F] #pragma xmp align a[i][j] with t[i-1][j]!$xmp align a(i,j) with t(i-1,j)

19 データマッピング整列 + 分散による 2 段階の処理 #pragma xmp nodes p[4] #pragma xmp template t[8] #pragma xmp distribute t[block] onto p float a[8]; #pragma xmp align a[i] with t[i] 0 0 0 1 1 2 3 4 5 整列 2 3 4 5 分散 1 2 6 6 7 7 3 配列テンプレート ( 仮想的な配列 ) ノード

20 特殊な整列縮退 #pragma xmp distribute t[block] onto p1 #pragma xmp align a[i][*] with t[i] 複製 #pragma xmp distribute t[block][block] onto p2 #pragma xmp align a[i] with t[i][*] a[0] の実体は p2[0][0] と p2[0][1] に存在する値の致は保証されない

21 動的な配列の整列ポインタまたは割付け配列として宣実際の整列の処理は続く xmp_malloc または allocate において実される [C] [F] int *a; #pragma xmp align a[i] with t[i]... a = (int *)xmp_malloc(xmp_desc_of(a), 100); integer, allocatable :: a(:)!$xmp align a(i) with t(i)... allocate (a(100))

22 ワークマッピング指 (1) loop 指 (1) ループの並列化を指する t[i][j] を持つノードが繰り返し i,j において a[i][j] への代を実する #pragma xmp loop (i,j) on t[i][j] for (i = 0; i < n; i++) for (j = 0; j < n; j++) a[i][j] =...;

23 loop 指 (2) アクセスされるデータがその繰り返しを実するノードに割り当てられていなければならない下の例では t[i][j] を持つノードが a[i][j] を持たなければならないそうでない場合事前に通信をっておく #pragma xmp loop (i,j) on t[i][j] for (i = 0; i < n; i++) for (j = 0; j < n; j++) a[i][j] =...;

24 loop 指 (3) reduction 節並列ループの終了時に各ノードの値を集計する提供している演算は +,max, min など #pragma xmp loop on t[i] reduction(+:sum) for (i = 0; i < 20; i++) sum += i; 各ノード上の sum の値を合計した値で各ノード上の sum を更新する

25 ワークマッピング指 (2) task 指直後の処理を指定したノードが実する #pragma xmp task on p[0] { func_a(); } #pragma xmp task on p[1] { func_b(); } P[0] が func_a を実する p[1] が func_b を実する

26 通信指 (1) shadow/reflect 指 a の上下端に幅 1 のシャドウを付加する #pragma xmp distribute t[block] onto p #pragma xmp align a[i] with t[i] #pragma xmp shadow a[1:1]... #pragma xmp reflect (a) a に対する隣接通信を実する reflect P[0] P[1] P[2] P[3]

27 shadow/reflect 指の例 #pragma xmp loop on t[i] for (i = 1; i < 9; i++) b[i] = a[i-1] + a[i] + a[i+1]; a P[0] P[1] 0 1 2 3 4 5 4 5 6 7 8 9 b 0 1 2 3 4 5 6 7 8 9

28 shadow/reflect 指の例 #pragma xmp shadow a[1:1] #pragma xmp reflect (a) #pragma xmp loop on t[i] for (i = 1; i < 9; i++) b[i] = a[i-1] + a[i] + a[i+1]; a reflect P[0] P[1] 0 1 2 3 4 5 4 5 6 7 8 9 b 0 1 2 3 4 5 6 7 8 9

29 通信指 (2) gmove 指通信を伴う任意の代を実する #pragma xmp gmove a[:][:] = b[:][:]; C で部分配列も記述できる n1 n3 n2 n4 a[block][block] n1 n2 n3 n4 b[block][*]

30 通信指 (3) bcast 指特定のノードが指定したデータを他のノードへブロードキャストする ( ばらまく ) #pragma xmp bcast (s) from p[0] from p[0] は省略可 barrier 指ノードが互いに待ち合わせる ( バリア同期 ) #pragma xmp barrier

31 XcalableMP プログラムの例!$xmp nodes p(npx,npy,npz)!$xmp template (lx,ly,lz) :: t!$xmp distribute (block,block,block) onto p :: t ノード集合の宣!$xmp align (ix,iy,iz) with t(ix,iy,iz) ::!$xmp& sr, se, sm, sp, sn, sl,...!$xmp shadow (1,1,1) ::!$xmp& sr, se, sm, sp, sn, sl,... lx = 1024!$xmp reflect (sr, sm, sp, se, sn, sl)!$xmp loop on t(ix,iy,iz) do iz = 1, lz-1 do iy = 1, ly do ix = 1, lx wu0 = sm(ix,iy,iz ) / sr(ix,iy,iz ) wu1 = sm(ix,iy,iz+1) / sr(ix,iy,iz+1) wv0 = sn(ix,iy,iz ) / sr(ix,iy,iz )... テンプレートの宣と分散の指定整列の指定シャドウの指定重複実される隣接通信の指定ループの並列化の指定

32 XMP のローカルビュープログラミング各ノードが解くべき問題を個別にすノード 1 は問題 1 25 を解けノード 2 は由度がいがやや難しいローカルビューのための機能として Fortran 2008 から導した coarray をサポート

33 coarray 機能 coarray として宣されたデータは代の形式で他のノードからもアクセスできるノード 2 が持つ b[3:3] のデータを a[0:3] に代 float b[100]:[*]; if (xmpc_this_image() == 0) a[0:3] = b[3:3]:[1]; 配列 b は coarray であると宣コロンの後の [] はノード番号を表す base length 0 からの 3 要素