並列プログラミング入門（OpenMP編）

Size: px

Start display at page:

Download "並列プログラミング入門（OpenMP編）"

ゆあまるこ
7 years ago
Views:

1 登録施設利用促進機関 / 文科省委託事業 HPCI の運営代表機関一般財団法人高度情報科学技術研究機構 (RIST) 1 並列プログラミング入門 (OpenMP 編 ) 2019 年 1 月 17 日高度情報科学技術研究機構 (RIST) 山本秀喜

2 RIST 主催の講習会等 2 HPC プログラミングセミナー一般初心者向け : チューニング並列化 (OpenMP MPI) 京初中級者向け講習会京利用者利用予定者向け : 京に特化した内容ワークショップ等一般経験者向け : ユーザー間の情報共有 RIST 主催共催の講習会セミナーワークショップ一覧 RIST 講習会で出てきます多分

3 Outline 3 はじめに ( 現在の HPC について ) 並列処理 OpenMP 入門並列実行領域中のデータの属性アクセス競合に注意すべきループデータ共有属性ミスの例ループの並列化と依存性 Reduction 演算 DO ループのスケジューリング並列の制御同時処理実行時ライブラリルーチンと環境変数 OpenMP 並列化例

はじめに 4 現在の HPC 用コンピュータの形態複数のコンピュータ群からなる 1 台 1 台をノードと呼ぶ性能を活かすにはノード間の並列化が必要参考 : 京は約 8 万ノードノード CPU Core Core Core Core メモリノード CPU Core Core Core Core メモリマルチコア CPU( メニーコア ) CPU 内に複数のプロセッサーコア

4 はじめに 4 現在の HPC 用コンピュータの形態複数のコンピュータ群からなる 1 台 1 台をノードと呼ぶ性能を活かすにはノード間の並列化が必要参考 : 京は約 8 万ノードノード CPU Core Core Core Core メモリノード CPU Core Core Core Core メモリマルチコア CPU( メニーコア ) CPU 内に複数のプロセッサーコアパソコンでも主流性能を活かすにはノード内の並列化が必要参考 : 京は 8 コア CPU が 1 個 / ノードノード CPU ネットワーク ( インターコネクト ) メモリノード CPU メモリ Core Core アクセラレータ ( 省略 ) Graphics Processing Unit(GPU) Core Core Core Core Core Core 本日の題目ノード内並列化に多く用いられる OpenMP の入門的内容 ( ノード間並列化に使われる MPI はこの後 )

5 5 並列処理並列処理の形態を説明します

6 並列処理とは 6 逐次 4 並列処理処理処理処理処理処理処理処理処理を分割して同時並列に実行すること処理終了までの時間の短縮が目的マルチコア環境では各コアに処理を分配したい時間

7 プロセスとスレッド 7 スレッドプロセスより小さい実行単位 ( 処理の分割単位 ) プロセススレッドスレッドプロセススレッドメモリ空間逐次実行中 ( 通常 ) のプロセス ( シングルスレッド ) メモリ空間並列実行中のプロセス (2 スレッド ) 1 プロセス内のスレッドはメモリ空間を共有する 1 つのスレッドは 1 つのコアで実行される

8 プロセスとスレッド (cont.) 8 スレッドプロセスより小さい実行単位 ( 処理の分割単位 ) CPU CPU コアコアコアコアスレッドスレッドスレッド稼働中空き稼働中稼働中 1 スレッドプロセスを処理中の 2 コア CPU 2 スレッドプロセスを処理中の 2 コア CPU マルチスレッドのプロセスはマルチコアの性能を引き出せる

9 おもな並列化方式 9 スレッド並列プロセス並列プロセスプロセスプロセススレッドスレッドスレッドスレッドメモリ空間メモリ空間プロセス間通信メモリ空間 OpenMP 自動並列ノード内の並列 ( 共有メモリ並列 ) MPI(Message Passing Interface) ノード間の並列 ( 分散メモリ並列ノード内の並列も可 )

10 おもな並列化方式 (cont.) 10 ノードハイブリッド並列 (OpenMP+MPI) ノードプロセスプロセススレッドスレッドスレッドスレッドメモリ空間プロセス間通信メモリ空間例えば京コンピュータでは通信量の削減の観点からノード内を OpenMP 並列または自動並列ノード間を MPI 並列という両者を組み合わせたハイブリッド並列が推奨されている

11 11 OpenMP 入門 OpenMP の Hello world プログラムと DO ループの並列化を紹介します

12 OpenMP による並列化 12 do i = 1, 4000 A(i) = B(i) + C(i)!$omp parallel do do i = 1, 4000 A(i) = B(i) + C(i)!$omp end parallel do OpenMP 構文による並列化ループを挟むように構文 ( ディレクティブ ) を挿入

13 代表的な OpenMP 構文 (Fortran) 13 代表的なOpenMP 構文 (Fortran)!$omp parallel /!$omp end parallel!$omp do!$omp parallel do!$omp parallel do reduction(+: )!$omp critical!$omp barrier!$omp single!$omp ordered

14 代表的な OpenMP 構文 (C/C++) 14 代表的な OpenMP 構文 (C/C++) #pragma omp parallel #pragma omp for #pragma omp parallel for #pragma omp parallel for reduction(+: ) #pragma omp critical #pragma omp barrier #pragma omp single #pragma omp ordered #pragma omp parallel for for ( i=0 ; i<4000 ; i++ ) { A[i] = B[i] + C[i]; }

15 並列実行領域 (parallel 構文 ) 15 parallel 構文!$omp parallel [ 指示節 [, 指示節 ]] parallel~end parallel で囲まれた領域を並列実行します program hello write(*,*) Hello world!$omp parallel write(*,*) Hello OpenMP world!$omp end parallel end 並列実行領域 (parallel region)

OpenMP オプションをつけてコンパイルスレッド数 ( 並列数 ) を環境変数で設定並列実行領域の出力 (4 並列実行 ) コンパイラによってオプションが違う (*) intel fortran:

16 実行例 :Hello OpenMP world 16 $ frt -Kopenmp hello.f (*) $ export OMP_NUM_THREADS=4 (**) $./a.out 実行 Hello world 逐次部分からの出力 Hello OpenMP world Hello OpenMP world Hello OpenMP world Hello OpenMP world $ OpenMP オプションをつけてコンパイルスレッド数 ( 並列数 ) を環境変数で設定並列実行領域の出力 (4 並列実行 ) コンパイラによってオプションが違う (*) intel fortran: ifort openmp hello.f GNU: gfortran fopenmp hello.f 京 login-node: frtpx Kopenmp hello.f (**) csh の場合 : setenv OMP_NUM_THREADS 4

17 OpenMP スレッドの動作 17 マスタースレッドプログラム開始逐次実行領域分岐 (fork): スレッドチーム結成 ( ワーカースレッド生成 )!$omp parallel スレッド 0 = マスタースレッドスレッド 1 スレッド 2 スレッド 3 並列実行領域合流 (join): スレッドチーム消滅 ( ワーカースレッド消滅 ) マスタースレッド!$omp end parallel 逐次実行領域プログラム終了

18 パラレル構文の効果 18 逐次処理並列? 処理 Parallel 構文スレッドの分岐合流を制御処理の割り振りはしない処理処理処理処理並列化には処理の割り振りが必要時間処理処理後述のワークシェアリング構文を利用する

19 ワークシェアリング構文 19 Parallel 構文はスレッドチームの分岐 / 合流を制御する並列化にはさらに処理の割り振り ( ワークシェアリング ) が必要 OpenMP ではワークシェアリング構文を用いるワークシェアリング構文の種類ループ構文 do ループを分割実行 single 構文生成されたスレッドのうち 1 つのスレッドのみが実行 sections 構文依存関係のない異なる処理をそれぞれのスレッドで実行 workshare 構文 (Fortran のみ ) fortran90 以降の配列代入文などを分割実行本資料ではループ構文を主に扱います

$omp do do i = 1, 4000 V(i) = X(i) + Y(i)!$omp!$omp end parallel 逐次 1 2

20 DO ループのワークシェアリング 20 do 構文 ( ループ構文 ) 並列実行領域において do ループを分割しチーム内の各スレッドに割り当てますデフォルトでは均等に分割され各スレッドにより実行されます!$omp parallel!$omp do do i = 1, 4000 V(i) = X(i) + Y(i)!$omp!$omp end parallel 逐次ループ長 n=4000 n= 並列で実行 4 並列スレッド 0 が実行スレッド 1 が実行スレッド 2 が実行スレッド 3 が実行

21 DO ループのワークシェアリングの 21 書式 (Fortran) do i = 1, 4000 V(i) = X(i) + Y(i)!$omp parallel!$omp do do i = 1, 4000 V(i) = X(i) + Y(i)!$omp!$omp end parallel この DO ループを並列化するパラレル構文!$omp parallel [ 指示節 [, 指示節 ]] 並列実行領域!$omp end parallel ( 省略不可 ) parallel~end parallel で囲まれた領域を並列実行ループ構文 (DO 構文 )!$omp do [ 指示節 [, 指示節 ]] do ループ [!$omp ] ( 省略可能 )!$omp parallel do do i = 1, 4000 V(i) = X(i) + Y(i)!$omp end parallel do パラレルループ構文 ( パラレル構文とループ構文の複合 )!$omp parallel do [ 指示節 [, 指示節 ]] doループ [!$omp end parallel do] ( 省略可能 ) 後続のdoループを各スレッドで分割して並列実行します

22 DO ループのワークシェアリングの書式 (Fortran) の省略形 do i = 1,

22 22 DO ループのワークシェアリングの書式 (Fortran) の省略形 do i = 1, 4000 V(i) = X(i) + Y(i) この DO ループを並列化する!$omp parallel!$omp do do i = 1, 4000 V(i) = X(i) + Y(i)!$omp!$omp end parallel!$omp は省略可能です!$omp parallel!$omp do do i = 1, 4000 V(i) = X(i) + Y(i)!$omp end parallel!$omp parallel do do i = 1, 4000 V(i) = X(i) + Y(i)!$omp end parallel do!$omp end parallel do を省略すると!$omp parallel do do i = 1, 4000 V(i) = X(i) + Y(i)

For ループのワークシェアリングの 23 書式 (C 言語 ) for ( i=0 ; i<4000 ; i++ ) { V[i] = X[i] + Y[i]; }

V[i] = X[i] + Y[i]; } } パラレル構文 (C 言語 ) #pragma omp parallel [ 指示節 [, 指示節 ]]

後続のforループを分割して各スレッドに割り当てます #pragma omp parallel for for ( i=0 ; i<4000 ; i++ ) {

23 For ループのワークシェアリングの 23 書式 (C 言語 ) for ( i=0 ; i<4000 ; i++ ) { V[i] = X[i] + Y[i]; } この for ループを並列化する #pragma omp parallel { #pragma omp for for ( i=0 ; i<4000 ; i++ ) { V[i] = X[i] + Y[i]; } } パラレル構文 (C 言語 ) #pragma omp parallel [ 指示節 [, 指示節 ]] 後続の領域を並列実行しますループ構文 (for 構文 )(C 言語 ) #pragma omp for [ 指示節 [, 指示節 ]] 後続のforループを分割して各スレッドに割り当てます #pragma omp parallel for for ( i=0 ; i<4000 ; i++ ) { V[i] = X[i] + Y[i]; } パラレルループ構文 (C 言語 ) #pragma omp parallel for [ 指示節 [, 指示節 ]] 後続の for ループを各スレッドで分割して並列実行します

24 24 並列実行領域中のデータの属性スレッド間でのデータの共有属性 (shared 属性とprivate 属性 )

$omp parallel do do i = 1, 4000 V(i) = X(i) + Y(i) スレッドスレッド private データ i

25 並列実行領域中のデータの属性 25 データ共有属性 ( 並列領域内の変数配列の属性 ) Sharedデータ : 全てのスレッドからアクセス可能なデータ Privateデータ : 各スレッド固有の他のスレッドからは見えないデータ!$omp parallel do do i = 1, 4000 V(i) = X(i) + Y(i) スレッドスレッド private データ i shared データ V(:), X(:), Y(:) private データ i OpenMP ではデータ共有属性をプログラマの責任で設定する必要があります誤った設定は不正な結果 ( バグ ) の原因となります

26 データ共有属性の宣言 26 データ共有属性の宣言 parallel 構文や do 構文の指示節として指定します!$omp parallel do private(i) shared(v, X, Y) do i = 1, 4000 V(i) = X(i) + Y(i) 暗黙のデータ共有属性並列実行領域において指定の無いほとんどのデータはデフォルトで shared 属性 ( 詳細は後述 ) parallel do または do 構文のループ内のループインデックス変数はその構文内で private 属性暗黙のデータ共有属性により上記の例では private(i) shared(v, X, Y) を省略可

27 Shared 属性 27 Shared データすべてのスレッドから参照可能並列実行領域開始前と同一の ( メモリ領域に記憶される ) 変数プログラム開始マスタースレッド 0 V X Y shared(v, X, Y) shared 指示節で指定されたデータあるいは暗黙の shared 属性データマスタースレッド0 スレッド1 スレッド2 スレッド3 並列実行領域

28 Private 属性 28 Private データ各スレッドに固有のデータ他のスレッドからはアクセス不可並列実行領域前の対応する変数とは別の実体 ( メモリー領域 ) を持つ初期値は未定義プログラム開始マスタースレッド 0 i V X Y shared(v, X, Y) マスタースレッド0 スレッド1 スレッド2 スレッド3 i 0 i 1 i 2 i 3 互いにアクセスすることはできない例えば i 0 はスレッド 0 に固有の i を表す private( i ) Private 指示節で指定されたデータ

29 暗黙のデータ共有属性 (Fortran) 29!$omp parallel!$omp do do i=1,4 X(i)=i call sub(x(i))!$omp!$omp end parallel 並列実行領域内 Private: ループ構文内のループインデックス ( i ) 他にParallel 構文内の逐次 DOループインデックス DO 型反復のインデックスもprivate Shared: 何の指定もない変数 ( X(:) ) default 指示節により変更可 ( 暗黙のデータ共有属性 ) default(shared), default(private), default(none) none の場合は明示的に指定しなければならない subroutine sub(y) common /com/ n save ymax real :: a = 1.0 real :: b end コールされたルーチン内仮引数はcall 元のルーチンに従う yのアドレスはcall 元のX(i) を指しているのでその設定に従う Shared: COMMON/SAVE 文の変数 (n, ymax, a) 他にmoduleやsave 属性の変数もshared Private: 上記以外の変数 (b) a = 1.0 のように初期値を与えると save 属性詳しくは仕様書を参照してください

ループインデックスや do 型反復のインデックスも PRIVATE 上記以外の何の指定もない変数 ( X(:) ) は SHARED この暗黙のデータ共有属性は

30 30 暗黙のデータ共有属性 (Fortran) 並列実行領域内!$omp parallel!$omp do do i=1,4 X(i)=i call sub(x(i))!$omp!$omp end parallel ループ構文内のループインデックス ( i ) は PRIVATE 他に parallel 構文内の逐次の do ループインデックスや do 型反復のインデックスも PRIVATE 上記以外の何の指定もない変数 ( X(:) ) は SHARED この暗黙のデータ共有属性は default 指示節により変更可能 default(shared), default(private), default(none) none の場合は明示的に指定しないとエラーになる

0 real :: b end 仮引数は call 元のルーチンに従う y のアドレスは call 元の X(i) を指しているのでその設定に従う

31 31 暗黙のデータ共有属性 (Fortran) コールされたルーチン内 subroutine sub(y) common /com/ n save ymax real :: a = 1.0 real :: b end 仮引数は call 元のルーチンに従う y のアドレスは call 元の X(i) を指しているのでその設定に従う common/save 属性の変数 (n, ymax, a) は SHARED 他に module 変数も SHARED 初期値指定のある変数も save 属性なので要注意上記以外 (b) は PRIVATE 厳密な規則は仕様書を参照してくださいこの例はスレッドセーフではありません

32 32 アクセス競合に注意すべきループデータ共有属性ミスの例データ共有属性の設定ミスアクセス競合

33 一時変数を含むループ 33 private 属性の指定忘れに注意!$omp parallel do do i = 1, 4 t = X(i) + Y(i) V(i) = V(i) + t * t スレッド 0 t = X(1) + Y(1) V(1) = V(1) + t * t t = X(2) + Y(2) V(2) = V(2) + t * t 同時更新 t スレッド 1 t = X(3) + Y(3) V(3) = V(3) + t * t t = X(4) + Y(4) V(4) = V(4) + t * t t を private 属性指定しないと t は shared 属性なので t はそれぞれのスレッドから同時更新されタイミングによって結果が異なってしまいます!$omp parallel do private( t )

34 一時変数を含むループ (cont.) 34 private 属性指定の見落とし - 右の例ではループインデックス i 以外すべてshared 属性となってしまうマスタースレッド 0 t = t * t プログラマが期待? した動作スレッド0が更新スレッド0が結果を読込スレッド1が更新スレッド1が結果を読込!$omp parallel do do i = 1, 4000 t = X(i) + Y(i) V(i) = V(i) + t * t shared(t, V, X, Y) t t V X Y 各スレッドの更新読込に運良く重なりが無ければ正しい結果となる

35 一時変数を含むループ (cont.) 35 private 属性指定の見落とし - 右の例ではループインデックス i 以外すべてshared 属性となってしまうマスタースレッド 0!$omp parallel do do i = 1, 4000 t = X(i) + Y(i) V(i) = V(i) + t * t t = スレッド 0 が更新意図しないタイミングでの t の更新が発生する可能性があり時々不正な結果となる別スレッドの意図せぬ更新 shared(t, V, X, Y) t t V X Y t * t スレッド 0 が不正な結果を読込異常終了せず常に不正な値を与えるわけではないので表面化しにくい

36 一時変数を含むループ ( 不正の回避 ) 36 private 属性を正しく指定する - 左辺にあって複数のスレッドが更新する変数は private にする!$omp parallel do private( t ) do i = 1, 4000 t = X(i) + Y(i) V(i) = V(i) + t * t プログラム開始マスタースレッド 0 V X Y shared(v, X, Y) マスタースレッド 0 スレッド 1 スレッド 2 スレッド 3 t 0 t 1 t 2 t 3 private( t ) プログラムは正常に動作します

37 サブルーチンコールのあるループ 37!$omp parallel do do i = 1, 4 call SUB( ) Subroutine SUB( ) call SUB2( ) end Subroutine SUB2( ) COMMON /COM/ WORK(100) WORK(1) = = WORK(1) end サブルーチン内でも common の変数は shared スレッド 0 スレッド 1 WORK(1) = = WORK(1) 同時更新の恐れあり WORK(1) サブルーチン内部の common や save 属性の変数に注意してください WORK(1) = = WORK(1) 上記の例では他のサブルーチンで /COM/ を利用している場合は threadprivate 構文で private 化します ( 詳細はおまけの共有変数がある場合の注意を参照 )

38 スレッドセーフとは ( 競合と排他制御 ) 38 スレッドセーフなルーチン複数のスレッドで同時に実行しても意図した機能を果たすルーチン例えば間接参照を含むルーチンで同一のアドレスをアクセスしてしまうような処理は競合が発生しておりスレッドセーフではなくなりますスレッドセーフでない処理の例 : COMMON や SAVE 属性の変数にアクセスしている関数サブルーチンで排他制御が正しくできていないルーチンローカル変数であってもコンパイル時に -save オプションを付加した場合同一のユニット番号に対する READ や WRITE などの I/O 処理 (Fortran の規格ではスレッドセーフを保証していません ) 本資料では理解しやすさのため並列実行領域内で write 文を実行するプログラム例が多数ありますが本来は critical 構文等で排他制御をすべきですスレッドセーフでない処理を並列実行してしまうと計算結果が不正だったりプログラムが異常終了する場合があります常に発生するとは限らない上実行環境により頻度が変わるため問題が発見しにくい場合があります

39 39 OpenMP 化によるミスの特徴 PRIVATE/SHARED 属性宣言のミス ( アクセス競合 ) 不正な結果 ( バグ ) の原因実行の度に結果が異なる場合がある発生頻度は 2 回に 1 度のこともあれば数千回に 1 回のことも発見しにくい OpenMP ではデータ共有属性を注意して設定する必要があるコンパイラによっては警告を出してくれることもある

40 40 ループの並列化と依存性並列化してはダメなループ

41 並列化できないループ並列化してはダメなループループ構文で並列化できないループ : exit 等途中でループを抜ける命令があるループ goto~continue のループ構造等コンパイルできない!$omp parallel do do i = 1, N if ( ) exit A(i) = A(i) + 1.

41 41 並列化できないループ並列化してはダメなループループ構文で並列化できないループ : exit 等途中でループを抜ける命令があるループ goto~continue のループ構造等コンパイルできない!$omp parallel do do i = 1, N if ( ) exit A(i) = A(i) 並列化してはいけないループ ( 次スライドで説明 ): 他のサイクルの結果を参照するループ = 反復 ( サイクル ) 間に依存性のあるループ OpenMP で並列実行できてしまうが逐次実行と異なる結果を与えてしまう!$omp parallel do do i= 2, N V(i) = V(i - 1) + a

42 42 並列化してはいけない例 (1) フロー依存のあるループ ( 逐次 ) do i = 2, 7 V(i) = V(i - 1) + a 上のサイクルの結果を利用して計算している例えば i=5の計算 : V(5) はサイクル i=4 の結果の V(4) を用いて計算する逐次実行 i=2: V(2) = V(1) + a i=3: V(3) = V(2) + a i=4: V(4) = V(3) + a i=5: V(5) = V(4) + a i=6: V(6) = V(5) + a i=7: V(7) = V(6) + a 分割フロー依存とは Write After Read

43 43 並列化してはいけない例 (1) フロー依存のあるループ!$omp parallel do do i = 2, 7 V(i) = V(i-1) + a!$omp parallel do private(t) do i = 2, 7 t = V( i 1 ) V( i ) = t + a 一時変数を使っても同じスレッド 0 スレッド 1 V(2) = V(1) + a V(3) = V(2) + a V(4) = V(3) + a 最後に V(4) の計算が完了計算結果が実行順序に依存 V(5) = V(4) + a 最初に更新後の V(4) の値が必要 V(6) = V(5) + a V(7) = V(6) + a ( 注 ) スレッド 0 が V(4) を計算する前にスレッド 1 が V(4) を参照してしまいます

44 44 並列化してはいけない例 (2) 逆依存のあるループ ( 逐次 ) do i = 1, 6 V(i) = V(i+1) + a 上のサイクルで使用した要素を上書きしながら計算している例えば i=3の計算 : V(3) は更新前の V(4) を用いて計算し次の i=4 で V(4) は上書きされます逐次実行 i=1: V(1) = V(2) + a i=2: V(2) = V(3) + a i=3: V(3) = V(4) + a i=4: V(4) = V(5) + a i=5: V(5) = V(6) + a i=6: V(6) = V(7) + a 分割逆依存とは Read After Write

45 45 並列化してはいけない例 (2) 逆依存のあるループ!$omp parallel do do i = 1, 6 V(i) = V(i+1) + a!$omp parallel do private(t) do i = 1, 6 t = V( i +1 ) V( i ) = t + a 一時変数を使っても同じスレッド0 スレッド 1 V(1) = V(2) + a V(2) = V(3) + a V(3) = V(4) + a 最後に更新前の V(4) が必要計算結果が実行順序に依存 V(4) = V(5) + a 最初に V(4) の値を上書き V(5) = V(6) + a V(6) = V(7) + a ( 注 ) スレッド 0 が V(4) の元の値を参照とする前にスレッド 1 が先に V(4) の値を更新してしまいます

46 46 並列化してはいけない例 (3) 重なりのある間接参照のあるループ間接参照のあるループ?!$omp parallel do do i = 1, 4 V( List( i ) ) = X(i) + Y(i) スレッド 0 V( List(1) ) = X(1) + Y(1) V( List(2) ) = X(2) + Y(2) 同じ要素を更新する可能性 V スレッド 1 V( List(3) ) = X(3) + Y(3) V( List(4) ) = X(4) + Y(4) 例えば List(2) = List(4) の場合どちらの間接参照が後にアクセスされるかによって結果が変化します ( 順番に依存 ) 配列 List( ) の値がすべて異なる ( ユニークな ) 場合を除き並列化してはいけません

47 47 Reduction 演算総和などの計算をおこなう reduction 指示節を説明します

48 総和計算の並列化 48 総和の計算を並列化する!$omp parallel do do i = 1, 4 S = S + V(i) スレッド 0 スレッド 1 S = S + V(1) S = S + V(2) 同時更新の可能性 S が shared 属性ならばスレッド 0 とスレッド 1 がそれぞれ勝手なタイミングで S の値を更新するため結果は不定となりますもし S を private 属性にすると全体の総和を得ることはできません S 解決するには? S = S + V(3) S = S + V(4)

0 スレッド 1 S 0 = 0 S 0 = S 0 + V(1) S 0 = S 0 + V(2) 初期値 S 1 = 0 S 1 = S 1 + V(3) S 1 = S 1 + V(4) S = S +

49 総和計算の並列化 (cont.) 49 総和の計算を並列化する reduction 指示節!$omp parallel do reduction (+: S) do i = 1, 4 S = S + V(i) S は特殊な private 変数として扱われる (reduction 変数 ) スレッド 0 スレッド 1 S 0 = 0 S 0 = S 0 + V(1) S 0 = S 0 + V(2) 初期値 S 1 = 0 S 1 = S 1 + V(3) S 1 = S 1 + V(4) S = S + S0 + S1 元の変数に加算 ( 注 )Reduction 演算は計算の順序が逐次演算と異なりますそのため丸め誤差により結果が微妙に異なる可能性があります数値計算的には V(1) + V(2) + V(3) +V(4) { V(1) + V(2) } + { V(3) +V(4) } 加算順序はスレッド番号順とは限りません

50 Reduction 指示節 50 総和 ( 足し算 ) 以外の演算にも reduction 指示節が使えます!$omp parallel do reduction(op : r 1 [, r 2 ] ) op : reduction 演算子 (+, *, -,.and.,.or.,.eqv.,.neqv., max, min, iand, ior, ieor) r 1 [, r 2 ] : reduction 変数 ( 複数指定可 ) Reduction 演算複数の変数を何らかの演算で一個の変数に縮約する操作一般例 : r = r op expr の繰り返し等 (r: reduction 変数, expr: rを参照しない式 ) Reduction 指示節によりループ内で reduction 変数の private なコピーを作成しループ終了後各スレッドの演算結果を元の変数に縮約する

51 Reduction 指示節 (cont.) 51 表 Reduction 変数の演算と初期値演算初期値演算初期値 + 0.neqv..false. * 1 max - 0 min 変数の型で表せる最小の値変数の型で表せる最大の値.and..true. iand すべてのビットが 1.or..false. ior 0.eqv..true. ieor 0 Reduction 変数はループ内では privateな一時変数として扱われますループ開始時に演算子の種類に応じて適切に初期化されます

52 52 DO ループのスケジューリングオーバーヘッドとロードバランスそして OpenMPで用意されているスケジューリングの方法について説明します

53 オーバーヘッド 53 並列化によってプログラムの実行時間を短縮することができますが逐次 4 並列時間並列化オーバーヘッド 1/4 オーバーヘッド 1 並列化にはオーバーヘッドがつきものですスレッド生成同期並列化に伴うコード変更による処理の増加等完全な並列化をおこなってもオーバーヘッドのため 1/4 にはならないオーバーヘッドが無視できる程度の大きい処理を並列化すべき ( 多重ループならば外側が望ましい )

$omp end parallel do 反復数の少ないループより多いループの方がオーバーヘッドが相対的に小さくなります do j = 1, n!

54 オーバーヘッド (cont.) 54!$omp parallel do do i = 1, 10!$omp end parallel do!$omp parallel do do i = 1, !$omp end parallel do 反復数の少ないループより多いループの方がオーバーヘッドが相対的に小さくなります do j = 1, n!$omp parallel do do i = 1, n!$omp end parallel do!$omp parallel do do j = 1, n do i = 1, n!$omp end parallel do 内側ループより外側ループを並列化した方が!$omp parallel do の呼び出し回数が少なくオーバーヘッドが少なくなります

55 ロードバランス 55 均等な処理の割り振り (load balancing) にも注意する必要があります時間逐次並列化 4 並列 1/4 idle idle idle 1 不均等 ( インバランス ) な割振りでは期待した性能が出ないことがあります

56 ループ構文とスケジューリング 56 Schedule 指示節によりループ反復の割当方法を変更できます!$omp parallel do schedule( スケジューリングの種別 ) スケジューリング指示節割当方法 schedule(static) 均等に分割 <デフォルト> schedule(static, chunk) schedule(dynamic [,chunk ] ) schedule(guided [,chunk ] ) schedule(auto) schedule(runtime) chunk で指定した反復数のチャンクに分割しスレッド番号順に巡回的に割り当てます chunk で指定した反復数のチャンクに分割しスレッドからの要求に応じて動的に割り当てます各スレッドは 1 チャンクを実行し次のチャンクを要求します <chunk 省略時は chunk=1> dynamic と同様ですがチャンクの大きさが残りの反復数に応じて徐々に小さくなりますチャンク分割サイズは chunk で指定した値が最小になります <chunk 省略時は chunk=1> スケジューリングはコンパイラおよび / または実行時システムに委ねられますスケジューリングは実行時の環境変数 OMP_SCHEDULE によって決定されます例 : export OMP_SCHEDULE= guided, 1

57 STATIC( 静的 ) スケジューリング 57!$omp parallel do schedule( スケジューリングの種別 ) Schedule 指示節によりループ反復の割当方法を変更できます逐次全てをマスタースレッドが処理静的割り当て : 実行前に割り当てを決める schedule(static) デフォルト schedule(static, 1) schedule(static, 2) 均等に分割 <デフォルト> サイズ1のチャンクに分割し順繰りに配分サイズ2のチャンクに分割し順繰りに配分 ( はループの 1 反復 (1 サイクル ) を示す )

58 DYNAMIC( 動的 ) スケジューリング 58!$omp parallel do schedule( スケジューリングの種別 ) Schedule 指示節によりループ反復の割当方法を変更できます動的割り当て : 処理の終わったスレッドが次のチャンクに取りかかるサイクルごとの処理量が不均一な時に効果的だが static スケジューリングよりオーバーヘッドが大きい schedule(dynamic, 2) thread0 thread1 thread2 thread3 thread2 thread3 thread1 thread0 thread2 thread3 thread1 サイズ 2 のチャンクに分割し動的に割り当て ( デフォルトのチャンクサイズは 1) thread0

59 スケジューリングとロードバランス 59 三角行列とロードインバランス do j = 1, n do i = j, n A(i, j) = A(i, j) + B(i, j) j!$omp parallel do do j = 1, n do i = j, n A(i, j) = A(i, j) + B(i, j) 単純に 4 並列実行 i スレッドが担当処理量に差ロードインバランス状態

60 スケジューリングとロードバランス (cont.) 60 ロードバランスの改善!$omp parallel do schedule(static, 1) do j = 1, n do i = j, n A(i, j) = A(i, j) + B(i, j)!$omp parallel do schedule(dynamic) do j = 1, n do i = j, n A(i, j) = A(i, j) + B(i, j) スレッドが担当スレッドが担当チャンクを細かくするとデフォルトの static よりロードバランスが改善し負荷が均等になります Dynamic は完璧なように思えますがオーバーヘッドが大きいので注意が必要です

61 61 並列の制御同期処理並列処理領域内の逐次処理同期処理排他制御排他制御同期処理

62 暗黙の同期 62 ループ構文などのワークシェアリング構文の出口では暗黙に同期処理が行われます!$omp parallel!$omp do do i = 1, n V(i) = V(i) + X(i)!$omp 暗黙の同期!$omp do do i = 1, n W(i) = W(i) + Y(i)!$omp 暗黙の同期!$omp end parallel マスタースレッド待ち合わせ待ち合わせ各 DO ループの終了時に全スレッドの処理終了を待ってから次の DO ループの処理に移ります待ち合わせのための若干のオーバーヘッドがかかります

63 暗黙の同期の回避 (nowait 指示節 ) 63 暗黙の同期処理が不要ならば nowait 指示節により同期を回避できます!$omp parallel!$omp do do i = 1, n V(i) = V(i) + X(i)!$omp nowait!$omp do do i = 1, n W(i) = W(i) + Y(i)!$omp 暗黙の同期!$omp end parallel 同期を回避マスタースレッド待ち合わせ nowait 指示節を指定すると do ループ終了時の待ち合わせをせず直ちに次の処理に移りますこれにより待ち合わせのオーバーヘッドを減らすことができますが誤った箇所に nowait を指定すると不正な結果が得られることがあります

64 ループ内の暗黙の同期 64 二重ループの内側を並列化する場合の暗黙の同期マスタースレッド !$omp parallel do j = 2, m!$omp do do i = 1, n W(i, j) = W(i, j-1) + Y(i, j)!$omp!$omp end parallel j = 2 j = 3 j = 4 待ち合わせ待ち合わせ j ループが反復するごとに同期が発生します

$omp end parallel 待ち合わせせず次の j へ進むマスタースレッド 0 j = 2 j = 3 j = 4 1 2 3 j

65 ループ内の暗黙の同期の回避 65 二重ループの内側を並列化する場合の暗黙の同期の回避!$omp parallel do j = 2, m!$omp do do i = 1, n W(i, j) = X(i, j-1) + Y(i, j)!$omp nowait!$omp end parallel 待ち合わせせず次の j へ進むマスタースレッド 0 j = 2 j = 3 j = j ループの前の反復の計算を全スレッドが完了するのを待つ必要が無い場合のみ nowait を使用できますループの繰り返し依存がないか注意が必要です j ループの反復数分の同期オーバーヘッドの節約になります

並列実行領域中の逐次処理 66 並列実行領域の中に並列化できない逐次処理を含めたい場合並列実行領域を終わらせることなく 1 つのスレッドによる逐次処理を行う領域を設けることができます構文内容 single 指定された領域の処理を一つのスレッドが実行します ( マスタースレッドであるとは限りません ) 指定領域の出口で

66 並列実行領域中の逐次処理 66 並列実行領域の中に並列化できない逐次処理を含めたい場合並列実行領域を終わらせることなく 1 つのスレッドによる逐次処理を行う領域を設けることができます構文内容 single 指定された領域の処理を一つのスレッドが実行します ( マスタースレッドであるとは限りません ) 指定領域の出口で暗黙の同期を行います master 指定された領域の処理をマスタースレッドが実行します指定領域の出口で暗黙の同期は行いません!$omp parallel!$omp single write(6, * ) Serial processing!$omp end single!$omp end parallel シングル処理一回だけ実行並列実行領域

67 バリア同期 (barrier 構文 ) 67 barrier 構文 - スレッドの待ち合わせ ( 同期 ) を行います!$omp parallel!$omp master allocate( V(n) )!$omp end master!$omp barrier!$omp do do i = 1, n V(i) = Y(i)!$omp!$omp end parallel 配列 V の準備待ち合わせ暗黙の同期マスタースレッド待ち合わせ待ち合わせ master 指示節は暗黙の同期 ( 待ち合わせ ) を行いませんのでスレッド 1 3 の後の処理 ( 緑 ) を待たせるためには barrier 指示節が必要です

critical 構文 ( 排他制御 ) 68 critical 構文は指定範囲について複数スレッドの処理が重ならないようにし ( 排他制御 ) アクセス競合を回避する real :: sum, xcount, function real :: x(n, m) do j = 1, m!$omp parallel shared ( x, xcount )!

68 critical 構文 ( 排他制御 ) 68 critical 構文は指定範囲について複数スレッドの処理が重ならないようにし ( 排他制御 ) アクセス競合を回避する real :: sum, xcount, function real :: x(n, m) do j = 1, m!$omp parallel shared ( x, xcount )!$omp single xcount = 0.0!$omp end single!$omp do do i = 1, n!$omp critical if ( x( i, j ).lt. 1.0 ) then xcount = function ( xcount, x( i, j ) ) end if!$omp end critical スレッド !$omp do reduction ( +: sum ) do i = 1, 4000 sum = sum + x( i, j ) + xcount!$omp end parallel end 一人ずつアクセスする

69 その他の同期排他処理構文 69 構文 atomic flush ordered 内容 critical 指示節と同様に排他処理をしますがこちらの方が高速ですただしインクリメントなどの特定の演算の文にのみ使用できますフラッシュ操作を行いますあるスレッドが持つ一時的なビュー ( レジスタやキャッシュ等の内容 ) をメモリの内容と一致させます指定したループ領域において逐次実行した場合と同じ順序で実行するよう順序付けを行います

70 70 実行時ライブラリルーチンと環境変数

71 実行時ライブラリルーチン 71 OpenMP では種々のルーチンが用意されている OpenMP API 実行時ライブラリルーチン並列実行環境の制御や問合せを行う実行環境ルーチンデータへのアクセスを同期して行うためのロックルーチン時間計測ルーチン利用するにはヘッダファイルを読み込む include omp_lib.h 一般的な Fortran use omp_lib Fortran90モジュールファイル上記の少なくとも一方が存在することになっている

72 代表的なライブラリルーチン 72 ルーチン名返値内容 omp_get_thread_num integer このルーチンを呼び出したチームに属するスレッド番号を返します 0 [ スレッド数 -1] の値を返しますマスタースレッドは0 omp_get_max_threads integer 並列実行領域で利用できるスレッド数の最大値を返します ( 並列実行領域に入る前でも利用できます ) omp_get_num_threads integer 現在の並列実行領域を実行中のスレッド数を返します omp_in_parallel logical 活動状態の並列実行領域内から呼び出された場合.true. それ以外は.false. を返します並列区間非並列区間の両方から呼ばれるサブルーチンの分岐に利用できます omp_get_wtime real*8 wall clock の経過時間を秒単位で返します

OpenMP 並列を指定しない場合リンク時にエラーになります integer :: thrdnum, me thrdnum = omp_get_max_threads() me = omp_get_thread_num()

73 条件付きコンパイル 73!$ で始まる行は OpenMP でコンパイルする時のみ有効となります OpenMP を使わない場合のエラーを防ぐことができます以下のプログラムの omp_get_max_threads 等は OpenMP のライブラリ関数なので OpenMP 並列を指定しない場合リンク時にエラーになります integer :: thrdnum, me thrdnum = omp_get_max_threads() me = omp_get_thread_num() 以下のように!$ を用いて書き換えると通常の (OpenMP を使用しない ) コンパイルの場合コメント行と見なされ互換性を保つことができます integer :: thrdnum, me thrdnum = 1 me = 0!$ thrdnum = omp_get_max_threads()!$ me = omp_get_thread_num() ( プリプロセッサーの構文 #ifdef _OPENMP を用いる方法もあります )

74 環境変数 74 OpenMP プログラムの実行に影響する主な環境変数環境変数 OMP_NUM_THREADS OMP_SCHEDULE 内容並列実行領域で使用するスレッドの数を設定しますスケジュールタイプが runtime であるループ指示文のスケジューリングを制御します ( デフォルトは static) OMP_STACKSIZE 各スレッドが実行時に利用するスタックサイズを指定しますスレッドごとの固有データなどのメモリ領域に利用されます ( 注 )OMP_STACKSIZE 大きな private 属性の配列を用いるプログラムではスレッドの private 用のスタックサイズが不足する場合がありますそのような場合はこの環境変数を十分大きい値で設定します

75 75 補足 OpenMP 並列化例 OpenMPに限らず並列化の一般知識の補足 OpenMPに関する情報源

76 76 OpenMP 並列化例 OpenMP による並列化の簡単な例ここでは OpenMP 並列化の説明を行います逐次での高速化はチューニング技法の資料を参考にしてください

77 77 OpenMP 並列化例 : 個別要素法 / 分子動力学法の例各粒子にかかる力の計算入力データ粒子数 n 粒子の座標 x(n) 簡単のため 1 次元とする粒子 i,j 間の相互作用 fij 簡単のため距離に反比例 fij = 1/(x(j) - x(i)) 各粒子にかかる力の計算粒子 1 にかかる力 f(1) の場合 f(1)= f12 +f13 +f14 +f15 +f f12 f13 1 f14 4 f16 f15 n = これを f(1) f(6) の全ての粒子について計算図粒子 1 にかかる力 ( 赤矢印 )

78 78 粒子 i にかかる力の合計を f(i) に保存 f(1) = f 12 +f 13 +f 14 +f 15 +f 16 f(2) = -f 12 +f 23 +f 24 +f 25 +f 26 f(3) = -f 13 -f 23 +f 34 +f 35 +f 36 f(4) = -f 14 -f 24 -f 34 +f 45 +f 46 f(5) = -f 15 -f 25 -f 35 -f 45 +f 56 f(6) = -f 16 -f 26 -f 36 -f 46 -f 56 OpenMP 並列化例 : 個別要素法 / 分子動力学法の例作用反作用の法則 (fji = fij) より対称な要素は逆符号で同じ値 3 2 f21= -f12 -f13 f12 f13 1 f14 図作用反作用の法則 (fji = fij) 4 f16 f15 -f14 -f16 n = 6 -f15 6 5

79 OpenMP 並列化例 : 逐次プログラム n: 粒子数 x(n): 粒子の x 座標の配列 f(n): 粒子にかかる力の配列 dimension

d0/(x(j)-x(i)) f(i) = f(i) + fij f(j) = f(j) - fij 粒子 i,j のループ (i<j) fij: 粒子 i

+f 15 +f 16 f(2)= -f 12 i=1の演算実行後の f(3)= -f 13 配列 f の状態 f(4)= -f 14 f(5)= -f 15

+f 24 +f 25 +f 26 f(3)= -f 13 -f 23 +f 34 +f 35 +f 36 f(4)= -f 14 -f 24 -f 34

79 79 OpenMP 並列化例 : 逐次プログラム n: 粒子数 x(n): 粒子の x 座標の配列 f(n): 粒子にかかる力の配列 dimension x(n), f(n) do i=1,n-1 do j=i+1,n fij = 1.d0/(x(j)-x(i)) f(i) = f(i) + fij f(j) = f(j) - fij 粒子 i,j のループ (i<j) fij: 粒子 i への j による力の計算一つ fij を計算したら作用反作用がかかる配列 f の 2 粒子の要素に加算 f(1)= f 12 +f 13 +f 14 +f 15 +f 16 f(2)= -f 12 i=1の演算実行後の f(3)= -f 13 配列 f の状態 f(4)= -f 14 f(5)= -f 15 n = 6 f(6)= -f 16 i=1 最終結果 f(1)= f 12 +f 13 +f 14 +f 15 +f 16 f(2)= -f 12 +f 23 +f 24 +f 25 +f 26 f(3)= -f 13 -f 23 +f 34 +f 35 +f 36 f(4)= -f 14 -f 24 -f 34 +f 45 +f 46 f(5)= -f 15 -f 25 -f 35 -f 45 +f 56 f(6)= -f 16 -f 26 -f 36 -f 46 -f 56 i=1 i=2 i=3 i=4 i=5 図粒子数 n = 6 の場合の計算内容

80 80 OpenMP 並列化例 : OpenMP 並列化時の検討項目並列化時の検討項目 (1) 並列化するループの選択 (2) 並列化可能性 ( 計算の順番の依存性 ) の検討 (3) 変数のデータ共有属性の設定 (4) スケジューリングの選択 do i=1,n-1 do j=i+1,n fij = 1.d0/(x(j)-x(i)) f(i) = f(i) + fij f(j) = f(j) - fij

81 81 OpenMP 並列化例 : (1) 並列化するループの選択オーバーヘッドの観点から外側のループの並列化が望ましい!$OMP PARALLEL DO... do i=1,n-1 do j=i+1,n fij = 1.d0/(x(j)-x(i)) f(i) = f(i) + fij f(j) = f(j) - fij 結論 : 外側の i に関するループを並列化したい

82 82 OpenMP 並列化例 : (2) 並列化可能性の検討並列化可能性 ( 計算の順番の依存性 ) の検討 i の加算減算の順番を変えても配列 f は不変依存性無し ( 丸め誤差は存在する ) f(1)= f 12 +f 13 +f 14 +f 15 +f 16 f(2)= -f 12 +f 23 +f 24 +f 25 +f 26 f(3)= -f 13 -f 23 +f 34 +f 35 +f 36 f(4)= -f 14 -f 24 -f 34 +f 45 +f 46 f(5)= -f 15 -f 25 -f 35 -f 45 +f 56 f(6)= -f 16 -f 26 -f 36 -f 46 -f 56 i=1 i=2 i=3 i=4 i=5 どの i を先に計算しても最終的な配列 f(i) の値は同じ結論 : 並列化可能

83 83 OpenMP 並列化例 : (3) 変数のデータ共有属性の設定スレッド間のアクセス競合が発生する変数を洗い出す配列 f に関する演算の 2 スレッド実行の例スレッド0の計算 (i=1 3) スレッド1の計算 (i=4 5) f(1)= f 12 +f 13 +f 14 +f 15 +f 16 f(2)= -f 12 +f 23 +f 24 +f 25 +f 26 f(3)= -f 13 -f 23 +f 34 +f 35 +f 36 f(4)= -f 14 -f 24 -f 34 f(4)= +f 45 +f 46 f(5)= -f 15 -f 25 -f 35 f(5)= -f 45 +f 56 f(6)= -f 16 -f 26 -f 36 f(6)= -f 46 -f 56 i=1 i=2 i=3 i=4 i=5 上の例ではスレッド間で要素 f(4) f(6) の同時更新 ( 競合 ) のおそれがあるのでスレッドはそれぞれ独自の f を持つ必要があるまた最後に各スレッドの f を要素ごとに合計する必要があるので配列 f を reduction で指定する必要がある

84 OpenMP 並列化例 : (3) 変数のデータ共有属性の設定 cont.

84 84 OpenMP 並列化例 : (3) 変数のデータ共有属性の設定 cont. スレッド間のアクセス競合が発生する変数を洗い出す特に並列ループ内の左辺にある変数に注意するループ変数 j は自動的に private!$omp PARALLEL DO... REDUCTION(+:f) PRIVATE(fij) do i=1,n-1 do j=i+1,n fij = 1.d0/(x(j)-x(i)) f(i) = f(i) + fij f(j) = f(j) - fij fij の値はスレッドごとに異なる要 private 化結論 : 配列 f の reduction 変数化変数 fij の private 化が必要

85 OpenMP 並列化例 : (4) スケジューリングの選択デフォルトのスケジューリング!$OMP PARALLEL DO REDUCTION(+:f)!$OMP& PRIVATE(fij) do i=1,n-1... チャンクサイズを小さく (1 に ) した例!$OMP PARALLEL DO REDUCTION(+:f)!$OMP& PRIVATE(fij) SCHEDULE(STATIC,1) do i=1,n-1.

-f 34 +f 45 +f 46 -f 15 -f 25 -f 35 -f 45 +f 56 -f 16 -f 26 -f 36 -f 46 -f 56 インバランス大 -f 12 +f 23 +f 24 +f 25 +f 26 -f 13 -f 23 +f 34 +f 35 +f 36 -f 14 -f 24 -f 34 +f 45 +f 46

85 85 OpenMP 並列化例 : (4) スケジューリングの選択デフォルトのスケジューリング!$OMP PARALLEL DO REDUCTION(+:f)!$OMP& PRIVATE(fij) do i=1,n-1... チャンクサイズを小さく (1 に ) した例!$OMP PARALLEL DO REDUCTION(+:f)!$OMP& PRIVATE(fij) SCHEDULE(STATIC,1) do i=1,n 粒子 2 スレッドでのロードバランス 6 粒子 2 スレッドでのロードバランス f 12 +f 13 +f 14 +f 15 +f 16 f 12 +f 13 +f 14 +f 15 +f 16 -f 12 +f 23 +f 24 +f 25 +f 26 -f 13 -f 23 +f 34 +f 35 +f 36 -f 14 -f 24 -f 34 +f 45 +f 46 -f 15 -f 25 -f 35 -f 45 +f 56 -f 16 -f 26 -f 36 -f 46 -f 56 インバランス大 -f 12 +f 23 +f 24 +f 25 +f 26 -f 13 -f 23 +f 34 +f 35 +f 36 -f 14 -f 24 -f 34 +f 45 +f 46 -f 15 -f 25 -f 35 -f 45 +f 56 -f 16 -f 26 -f 36 -f 46 -f 56 スレッド0 24: 6 スレッド1 スレッド0 18:12 スレッド1 インバランスが緩和加速率 =30/24 = 1.25 加速率 =30/18= 1.67

OpenMP 並列化例 ( まとめ ) 86 個別要素法 / 分子動力学法の例並列化時の検討項目 (1) 並列化するループの選択外側が望ましい (2) 並列化可能性 ( 計算の順番の依存性 ) の検討並列ループの各サイクルの実行順が変わっても同じ結果か確認する (3) 変数のデータ共有属性の設定左辺の変数に注意し必要に応じて PRIVATE や REDUCTION の宣言をする (4)

86 OpenMP 並列化例 ( まとめ ) 86 個別要素法 / 分子動力学法の例並列化時の検討項目 (1) 並列化するループの選択外側が望ましい (2) 並列化可能性 ( 計算の順番の依存性 ) の検討並列ループの各サイクルの実行順が変わっても同じ結果か確認する (3) 変数のデータ共有属性の設定左辺の変数に注意し必要に応じて PRIVATE や REDUCTION の宣言をする (4) スケジューリングの選択インバランスを緩和するようなスケジューリングを選択する!$OMP PARALLEL DO REDUCTION(+:f)!$OMP& PRIVATE(fij) SCHEDULE(STATIC,1) do i=1,n-1! 並列化するループ do j = i+1, n!! ループ変数は自動的に private となる fij = 1.d0/(x(j)-x(i))! fij の値は i に依存要 private 化 f(i) = f(i) + fij f(j) = f(j) - fij! ここで j i の要素 f(j) を更新する! 総和の計算要 reduction 変数化複数 CPU/ ノードの機種 (cc-numa) の場合ファーストタッチの検討も必要 ( 本講座では省略 )

87 並列化率とアムダールの法則 87 アムダールの法則オーバーヘッドを無視した理想的な条件でも速度向上率の上限は逐次部の割合 (1-p) で決まってしまいます 1-p 時間逐次逐次部並列逐次部 p 並列化済 1/(1-p) 倍が速度向上率の上限並列化率 80% ( p = 0.8 ) ならば 1/0.2 = 5 倍が上限予定の並列数にふさわしい並列化率以上である必要があります

以下になるよう並列化を進めましょうアムダールの法則速度向上率 (p: 並列化率,N: 並列数 ) 4.

88 並列化率とアムダールの法則 (cont.) 88 アムダール則による速度向上率逐次部の割合 (1-p) が 1/( 並列数 ) 以下になるよう並列化を進めましょうアムダールの法則速度向上率 (p: 並列化率,N: 並列数 ) 逐次部の割合 1-p = 0 ( 並列化率 100%) 1-p = 1/8 1-p = 1/4 1-p = 1/2 (88%) (75%) (50%) 並列数 (N)

89 情報源 89 OpenMP の仕様情報 OpenMP version 3.0 に関しては日本語訳あり京のコンパイラ : デフォルトは v3.0 準拠 (v3.1 準拠版も利用可 ) gcc 4.4 以降 :v3.0 準拠 (gcc 4.7 以降 v3.1 準拠 ) intel コンパイラ 11.0 以降 : v3.0 準拠 (12.1 以降 : v3.1 準拠, 13.1(XE 2013 Update 2) 以降 : v4.0 準拠 ) チュートリアル資料もあり ( 上記のページにリンクあり ) 参考資料 Fortran/C 利用者向け Using OpenMP,B. Chapman 他,The MIT Press Fortran 利用者向け OpenMPによる並列プログラミングと数値計算法, 牛島省, 丸善 C/C++ 利用者向け C/C++ プログラマーのためのOpenMP 並列プログラミング, 菅原清文, カットシステム OpenMP 入門マルチコアCPU 時代の並列プログラミング, 北山洋幸, 秀和システム本セミナーの資料は以下のページからダウンロード可 ( 随時更新 ):

90 90 おまけ Sections 構文特殊なデータ属性

Sections 構文 91 Sections 構文による並列化処理 A 処理 B 処理 C 処理 D 処理の流れ Single Program, Multiple Data streams (SPMD) 処理 A,B,C,D の中のループが並列化不能でも処理 A,B,C,D の間に依存性がなく独立に実行できるならば

91 Sections 構文 91 Sections 構文による並列化処理 A 処理 B 処理 C 処理 D 処理の流れ Single Program, Multiple Data streams (SPMD) 処理 A,B,C,D の中のループが並列化不能でも処理 A,B,C,D の間に依存性がなく独立に実行できるならば並列に実行できます!$omp sections!$omp section 処理 A!$omp section 処理 B!$omp section 処理 C!$omp section 処理 D!$omp end sections 処理 A 処理 B 処理 C 処理 D 処理量のバラツキが大きいと並列化の効果が出にくくなります

92 92 特殊なデータ属性 FirstPrivate/LastPrivate 共有変数がある場合の注意 (Threadprivate 指示文 )

Firstprivate 属性 93 Firstprivate 指示節 - Private 変数と同様の属性を持ちますが並列実行領域に入る直前の値で各スレッドの値が初期化されます t = 2.0!$omp parallel do firstprivate(t) do i = 1, 4000 if (i.gt.

93 Firstprivate 属性 93 Firstprivate 指示節 - Private 変数と同様の属性を持ちますが並列実行領域に入る直前の値で各スレッドの値が初期化されます t = 2.0!$omp parallel do firstprivate(t) do i = 1, 4000 if (i.gt.nmax) t = 0.0 V(i) = X(i) + t * Y(i) プログラム開始マスタースレッド 0 t= 2.0 V X Y shared(v, X, Y) マスタースレッド 0 t 0 = 2.0 スレッド 1 t 1 = 2.0 スレッド 2 t 2 = 2.0 スレッド 3 t 3 = 2.0 firstprivate( t )

94 Lastprivate 属性 94 Lastprivate 指示節 -Private 変数と同様の属性をもちますが並列実行領域後にループの逐次的な終値に相当する反復後の値が代入されます!$omp parallel do lastprivate(i) do i = 1, 4000 V(i) = X(i) + Y(i) V(i) = X(i)!!! i = 4001 プログラム開始マスタースレッド 0 V X Y shared(v, X, Y) マスタースレッド 0 スレッド 1 スレッド 2 スレッド 3 i 0 i=1,1000 i 1 i=1001,2000 i 2 i=2001,3000 i 3 i=3001,4000 lastprivate( i ) マスタースレッド 0 i=4001 i=4000 の反復 ( 逐次実行した場合の最終に相当する反復 ) 終了後の値

95 共有変数がある場合の注意 95 COMMON ブロック /SAVE 変数 Threadprivate 指示文の説明

96 Threadprivate 指示文 96 以下のとき threadprivate 指示文を使います複数のルーチンからアクセスする変数 (common ブロック変数 SAVE 変数 module 変数 ) があるかつその変数がスレッドごとに異なる値を持つ必要がある (=shared 属性では ) ルーチン A 固有なデータルーチン B 固有なデータスレッド 0 ルーチン A threadprivate 属性ルーチン A,B の共通データ固有なデータルーチン B 固有なデータ shared 属性並列実行領域内のすべてのスレッドからアクセス可能な共有データスレッド 1 threadprivate 属性ルーチン A,B の共通データ単に private 属性とすると新たにスタック領域に変数配列が確保され複数のルーチンから共有できなくなってしまいます

97 Threadprivate 指示文 (cont.) 97 Threadprivate 指示文 (common ブロックの例 ) common ブロック内の変数をスレッド内で複数の subroutine からアクセスできる状態のまま private 化できます ( スレッドごとに固有の値を持つことができます ) 対象とする common ブロックの宣言の直後に記述します対象が複数ある場合はコンマで区切って記述します対象が宣言されている全てのプログラム単位 (subroutine 等 ) に記述します common ブロックの要素 equivalence 文に現れる変数は threadprivate 指示文で指定できません指定された common ブロックの変数は並列実行領域の終了後も存在し続け次の並列実行領域でアクセスした時にもデータの内容を保持しています common /com/ A, B!$omp threadprivate ( /com/ )

98 Copyin 指示節と copyprivate 指示節 98 Copyin 指示節並列領域開始時の threadprivate 変数の初期化!$omp parallel copyin ( /com/ ) マスタースレッド以外のスレッドの threadprivate 変数は自動的に初期化されません Copyin 指示節により並列実行領域の開始時にマスタースレッドのデータの内容を各スレッドにコピーします Copyprivate 指示節 Single 領域 ( 並列領域内の逐次領域 ) 終了後の各スレッドへのデータ転送!$omp end single copyprivate ( /com/ ) Single 構文の終りに Single 実行スレッドの変数を他のスレッドの対応する変数へデータをブロードキャスト ( コピー ) します

ThreadPrivate 指示文の使用例 99 2 つのルーチンが参照する common ブロックを threadprivate 化する例を示しますメインルーチン : routine_a サブルーチン : routine_b program routine_a include 'omp_lib.h' common /com/id!$omp threadprivate ( /com/ )!

99 ThreadPrivate 指示文の使用例 99 2 つのルーチンが参照する common ブロックを threadprivate 化する例を示しますメインルーチン : routine_a サブルーチン : routine_b program routine_a include 'omp_lib.h' common /com/id!$omp threadprivate ( /com/ )!$omp parallel id = omp_get_thread_num() call routine_b!$omp end parallel write(*,*)'2nd parallel region'!$omp parallel call routine_b!$omp end parallel end 並列実行領域 1 並列実行領域 2 subroutine routine_b common /com/id!$omp threadprivate ( /com/ ) write(*,*) id=, id end Threadprivate 変数 id は routine_a, routine_b の両方からアクセス可変数 id の値はスレッドごとに異なる 2 つ目の並列実行領域でも各スレッドごとの値が保存される

100 おわり 100 ご清聴ありがとうございました

101 2018 年 10 月一般財団法人高度情報科学技術研究機構 ( 著作者 ) 本資料を教育目的等で利用いただいて構いません利用に際しては以下の点に留意いただくとともに下記のヘルプデスクにお問い合わせ下さい本資料は構成文章画像などの全てにおいて著作権法上の保護を受けています本資料の一部あるいは全部についていかなる方法においても無断での転載複製を禁じます本資料に記載された内容などは予告なく変更される場合があります本資料に起因して使用者に直接または間接的損害が生じても著作者はいかなる責任も負わないものとします問い合わせ先 : ヘルプデスク helpdesk[-at-]hpci-office.jp([-at-] にしてください )

コードのチューニング

コードのチューニング OpenMP による並列化実装八木学 ( 理化学研究所計算科学研究センター ) KOBE HPC Spring School 2019 2019 年 3 月 14 日スレッド並列とプロセス並列スレッド並列 OpenMP 自動並列化プロセス並列 MPI プロセスプロセスプロセススレッドスレッドスレッドスレッドメモリメモリプロセス間通信 Private Private Private