(Microsoft PowerPoint \215u\213`4\201i\221\272\210\344\201j.pptx)

AICS 村井均 RIKEN AICS HPC Summer School 2012 8/7/2012 1

背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点やや高度な話題 2

共有メモリマルチプロセッサシステムの普及共有メモリマルチプロセッサシステムのための並列化指示文を共通化する必要性各社で仕様が異なり移植性がないそしていまやマルチコアプロセッサが主流となりそのような並列化指示文の重要性はさらに増している 3

スレッドの POSIX 標準 (pthreads ライブラリ ) スレッドとは? 一連のプログラムの実行を抽象化したもの仮想的なプロセッサと見なすこともできる複数のスレッド間で資源特にメモリ空間を共有する点がプロセスとは異なる通常一つの共有メモリマルチプロセッサまたはコアに割り当てられる複数のスレッドによる並列処理を明示的に記述する他にコンパイラによる自動並列化を利用できる場合もある 4

共有メモリマルチプロセッサにおける並列プログラミングのためのモデルベース言語 (Fortran/C/C++) を directive( 指示文 ) で並列プログラミングできるように拡張米国コンパイラ関係の ISV を中心に仕様を決定 Oct. 1997 Fortran ver.1.0 API Oct. 1998 C/C++ ver.1.0 API 現在 OpenMP 3.0 URL http://www.openmp.org/ 日本語版の仕様書も公開されている 5

並列実行モデルへの API 従来の指示文は並列化コンパイラのためのヒント科学技術計算が主なターゲット ( これまで ) 並列性が高い 95% の実行時間を占める (?)5% のコードを簡単に並列化する共有メモリマルチプロセッサシステムがターゲット small-scale(~16 プロセッサ ) から medium-scale (~64 プロセッサ ) 6

int main(void) { for (t = 1; t < n_thd; t++) r = pthread_create(thd_main, t) thd_main(0); for (t =1; t < n_thd; t++) pthread_join(); } int s; /* global */ int n_thd; /* number of threads */ int thd_main(int id) { int c, b, e, i, ss; c = 1000 / n_thd; b = c * id; e = s + c; ss = 0; for(i = b; i < e; i++) ss += a[i]; pthread_lock(); s += ss; pthread_unlock(); return s; } 問題 :a[0]~a[999] の総和を求める以下の全ての処理を明示しなければならないスレッドの生成ループの担当部分の分割足し合わせの同期 7

逐次プログラムに指示行を追加するだけ! #pragma omp parallel for reduction(+:s) for(i = 0; i < 1000; i++) s+= a[i]; 8

新しい言語ではないコンパイラ指示文実行時ライブラリルーチン環境変数によりベース言語を拡張ベース言語 :Fortran, C/C++ 自動並列化ではない並列実行および同期をプログラマが明示する指示文を無視すれば逐次プログラムとして実行可 incremental な並列化プログラム開発デバックの面から実用的逐次版と並列版を同じソースで管理ができる 9

背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点やや高度な話題 10

fork-join モデルただ一つのスレッドが実行を開始する parallel 構文の入口に遭遇したスレッド ( マスタスレッド ) は n 個のスレッドを生成し (fork) チームを構成する parallel 構文の出口でマスタスレッド以外のスレッドは消滅する (join) マスタスレッド fork チーム join parallel 構文 11

ワークシェアリングチームはワークシェアリング構文に遭遇すると指定された仕事を分担して実行する並列処理ループ (do/for), sections, single, workshare ワークシェアリング構文に遭遇しない限りチームの各スレッドは仕事を重複して実行する例. 仕事 1~100 を 4 スレッドでワークシェアした結果スレッド 0 は仕事 1~25 スレッド 1 は仕事 26~50 スレッド 2 は仕事 51~75 スレッド 3 は仕事 76~100 をそれぞれ実行する 12

特に指定のない限り全てのスレッドはメモリ空間を共有するどのスレッドもどのデータをもアクセスできる競合状態やコンシステンシを意識する必要がある ( 後述 ) いくつかの指示文または指示節によってあるデータのデータ共有属性を指定できる例. int a, b; #pragma omp threadprivate (b) 全てのスレッドは共有変数 a を読み書きできる各スレッドはプライベート変数 b を持つ 13

ベース言語 Fortran コメントの形式!$omp directive-name [clause[[,] clause]...] ベース言語 Fortran プリプロセッサ指示の形式 #pragma omp directive-name [clause[[,] clause]...] 14

parallel リージョン = 複数のスレッド ( チーム ) によって並列実行される部分を指定するリージョン内の各文 ( 関数呼び出しを含む ) をチーム内のスレッドが重複実行する Fortran:!$OMP PARALLEL parallel リージョン C/C++: #pragma omp parallel {!$OMP END PARALLEL } parallel リージョン 15

ループの各繰り返しをチーム内のスレッドが分担して実行することを指示する Fortran:!$OMP DO [clause]... DO i = 1, 100... END DO C/C++: #pragma omp for [clause]... for (i = 0; i < 100; i++) {... } 対象のループは標準形でなければならない clause で並列ループのスケジューリングデータ属性を指定できる 16

#pragma omp parallel #pragma omp for private(i,j,sum) shared(a,b,c) for (i = 0; i < 8; i++) { sum = 0.0; for (j = 0; j < 8; j++) sum += b[i][j] * c[j]; a[i] = sum; } スレッド #0 スレッド #1 for (i = 0,1,2,3) {... } a i b c j = * j for (i = 4,5,6,7) {... } = * = * 18

スレッド数 4 の場合!$omp do schedule(static) デフォルト i = 1 100 #0 #1 #2 #3!$omp do schedule(static,n) コンパイル時に割り当てる ( 決定的 ) #0 #1 #2 #3 #0 #1 #2 #3 #0 #1 n!$omp do schedule(dynamic,n) 実行時に割り当てる ( 非決定的 ) #1 #3 #2 #0 #3 #2 #0 #1 #0 #2!$omp do schedule(guided,n) 実行時に割り当てる ( だんだん短くなる ) 20

shared(var_list) デフォルト指定された変数は共有変数である ( スレッド間で共有される ) private(var_list) 指定された変数はプライベート変数である ( 各スレッドに固有である ) firstprivate(var_list) private と同様だが直前の値で初期化される lastprivate(var_list) private と同様だがワークシェアリング構文の終了時に逐次実行された場合の値を反映する reduction(op:var_list) private と同様だが構文の終了時に op で指定された方法で各変数を集計した結果 (e.g. 総和最大値 ) を反映する 21

single 直後のブロックを 1 つのスレッドだけが実行する sections 複数のブロックをチーム内の各スレッドが分担して実行する 22

parallel 構文とワークシェアリング構文をまとめて指定するためのショートカット!$OMP PARALLEL!$OMP DO [clause]... DO i = 1, 100... END DO!$OMP END PARALLEL =!$OMP PARALLEL DO [clause]... DO i = 1, 100... END DO 23

背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点やや高度な話題 24

OpenMP の共有メモリモデルでは複数のスレッドが一つの共有変数を同時に書き換える = データ競合複数のスレッドが一つの共有変数を同時に ( 順不同で ) 読み書きするという状況が起こり得るその場合の結果は不定であるバグの温床 25

スレッド #0 スレッド #0 共有メモリ空間データ競合 n 共有メモリ空間 n? スレッド #1 スレッド #1 #pragma omp parallel shared(n) { n = omp_get_thread_num(); } omp_num_thread_num は自スレッドの ID を返す関数 #pragma omp parallel shared(n) { n =...;... = n... } 26

バリア同期を行うチーム内の全スレッドが同期点に達するまで待つそれまでのメモリ書き込みも flush する parallel 構文とワークシェアリング構文の終わりでは暗黙的にバリア同期が行われる S1; #pragma omp barrier S2; barrier S2 の実行時に S1 の処理が完了していることを保証する 27

parallel 構文とワークシェアリング構文に付随する暗黙のバリア同期を除去することにより性能向上につながる場合がある #pragma omp for for (i = 0; i < N; i++) a[i] = b[i] + c[i]; 暗黙のバリア同期 #pragma omp for for (i = 0; i < N; i++) d[i] = a[i] + d[i]; #pragma omp for nowait for (i = 0; i < N; i++) a[i] = b[i] + c[i]; #pragma omp for nowait for (i = 0; i < N; i++) d[i] = e[i] + d[i]; 暗黙のバリア同期 28

master 直後のブロックをマスタスレッドだけが実行する critical クリティカルセクション ( 同時に実行できない部分 ) flush メモリのフラッシュ threadprivate スレッドプライベート変数を宣言する 29

代表的な実行時ライブラリルーチン : int omp_get_num_threads(void) チーム内のスレッドの数を返す int omp_get_thread_num(void) 自スレッドの ID を返す void omp_set_lock(omp_lock_t *lock) ロック変数 lock が解放されるまで待つ void omp_unset_lock(omp_lock_t *lock) ロック変数 lock を解放する etc. 30

背景 OpenMP とは OpenMP の基本 OpenMP プログラミングにおける注意点やや高度な話題 31

OpenMP 3.0 でタスク並列処理のための機能が導入されたそれまでの OpenMP は基本的にループを並列処理するための仕様だった基本的な考え方 : あるスレッドが task 構文に遭遇するとそのコードブロックがタスクとして登録される登録されたタスクはチーム内のいずれかのスレッドによっていずれかのタイミングで実行される taskwait 構文または barrier 構文は登録された全てのタスクの完了を待つ 32

線形リストの処理 #pragma omp parallel { #pragma omp single { node *p = head; while (p) { #pragma omp task process(p); p = p->next; } } } while 文の中でリストの各アイテムに対する処理のタスクを次々に生成 parallel リージョンの出口の暗黙のバリア同期において全てのタスクの完了を待つ 33

マルチコアクラスタとは? 各ノード (CPU) がマルチコアプロセッサであるクラスタ現在のスーパーコンピュータの主流ノード間コア間の 2 種類の ( 階層的な ) 並列性を持つノードコア 34

フラット並列化各コアに MPI プロセスを割り当てるハイブリッド並列化各 CPU に MPI プロセスを割り当て各コアに OpenMP スレッドを割り当てる CPU コア MPI MPI MPI MPI OpenMP OpenMP MPI OpenMP OpenMP 35

ハイブリッド並列化の例外側ループを MPI 並列化 MPI_Comm_size(MPI_COMM_WORLD, &size); X = N1 / size; for (i = 0; i < N1; i++) { #pragma omp parallel do for (j = 0; j < N2; j++)... 内側ループを OpenMP 並列化 36

ハイブリッド並列化の長所データを共有できるためメモリを節約できるより多くの ( 異なるレベルの ) 並列性を利用できるハイブリッド並列化の短所プログラミングが難しい必ずしも速くないノード (CPU) が非常に多くなると長所が短所を上回る? cf. 京速コンピュータ京ではハイブリッド並列化を推奨している 37

OpenMP のわかりやすさ ( 高い抽象性 ) は諸刃の剣悪いプログラムも簡単に書けてしまう性能の最後の一滴まで絞りつくすようなプログラムを書くのは難しい特に NUMA 環境における不均一なメモリアクセスと false sharing の発生による性能低下には注意を要する ( が発見も対処も簡単ではない ) とはいえ 16 並列くらいまでなら多くの場合で特に問題なく使える 38

これからの高速化には並列化は必須 16 並列ぐらいまでなら OpenMP 特にマルチコアプロセッサでは OpenMP が必須 16 並列以上になれば MPI( との併用 ) が必須ただしプログラミングのコストと実行時間のトレードオフ長期的には MPI に変わるプログラミング言語が待たれる 39