スライド 0

Size: px

Start display at page:

Download "スライド 0"

みがねしまむね
5 years ago
Views:

1 2012/7/11 OpeMP を用いた Fortra コードの並列化基礎セミナー株式会社計算力学研究センター技術 1 部三又秀行 mimata@rccm.co.jp

2 目次高速化並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化並列化について並列化作業の流れ並列化の手段 OpeMP デモ OpeMP で並列計算する円周率 p の計算 (private reductio) マンデルブロ集合 (schedule) OpeMP まとめ性能が出ない場合 1

3 目次高速化並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化並列化について並列化作業の流れ並列化の手段 OpeMP デモ OpeMP で並列計算する円周率 p の計算 (private reductio) マンデルブロ集合 (schedule) OpeMP まとめ性能が出ない場合 2

4 高速化並列化事例 1 流体 + 燃焼解析 KIVA + CHEMKIN でのディーゼル燃焼計算早稲田大学大聖草鹿研究室との共同研究背景熱効率の改善 ( 省エネルギー ) 排気ガスの低減 ( 環境問題 ) ( 自動車技術会 2010 秋 ) デバイスの複雑化様々な燃焼形態開発速度の向上詳細な燃焼計算計算コードの高速化 3

5 計算の概略時間ステップごとに各セルが化学種の計算をする KIVA( 流体計算 ) CHEMKIN( 化学計算 ) ODE ソルバー流体の時間ステップ後の化学種の濃度を計算セル化学種の計算をするセル詳細な素反応計算をしたいが時間がかかる 4

56 % ysolve.f 0.234% ccflux.f 0.076% その他 0.

f 0.015% kesolve.f 0.010% 今回のケースでは計算に 124.

6 オリジナルの計算時間計算時間の 99% は化学反応計算並列化デスクトップを想定し OpeMP で chem.f % ysolve.f 0.234% ccflux.f 0.076% その他 0.057% psolve.f 0.030% tsolve.f 0.015% ewcycle.f 0.015% kesolve.f 0.010% 今回のケースでは計算に時間 5

Speed-up ratio Calculatio time [h] OpeMP で高速化 144.0 120.0 96.0 72.0 124.8 124.3 Total Chemical reactio cal. 62.7 62.2 15 倍 Itel Xeo X7560 2.26GHz (8 core) 2 使用 5 日の計算が 8 時間で 48.0 24.0 0.0 31.6 31.

7 Speed-up ratio Calculatio time [h] OpeMP で高速化 Total Chemical reactio cal 倍 Itel Xeo X GHz (8 core) 2 使用 5 日の計算が 8 時間で並列化効率も良く 16 core で 15 倍 CPU の数は増えつつある threads 実用的な時間で素反応を考慮した計算が行える Chemical reactio cal Total threads 6

8 7

9 高速化並列化事例 2 画像処理画像処理 (Wavelet 変換 ) 約 3000 約 2000 ピクセルの写真各ピクセル毎に周りの 8 8 の領域と Gabor 関数をかけて Wavelet 係数を計算 Gabor 関数は空間スケール 6 角度 6( 2) 通り用い Wavelet 係数を足していく計算時間 1 枚 1 分半程度かかる膨大な数の写真を処理速くしたい for( スケールのループ ) { for( 角度のループ ) { 8 8 の Gabor 関数を計算 for(x 方向のループ ) 約 3000 ループ { for(y 方向のループ ) 約 2000 ループ { 8 8 回の wavelet 係数の計算 } } } } 8

回のwavelet 係数の計算 } } } } CPU for( スケールのループ ) { for( 角度のループ ) { 8 8のGabor 関数を計算各スレッドが8 8

10 GPU で高速化計算内容が GPU での計算に非常に向いていたため GPU を選択ピクセルのループを GPU のがそれそれ分担 (GPU はが数百個ある ) for( スケールのループ ) { for( 角度のループ ) { 8 8のGabor 関数を計算 for(x 方向のループ ) { for(y 方向のループ ) { 8 8 回のwavelet 係数の計算 } } } } CPU for( スケールのループ ) { for( 角度のループ ) { 8 8のGabor 関数を計算各スレッドが8 8 回のwavelet 係数の計算 } } GPU CPU(Itel Core2 Quad 3.0GHz): 91.5 s 約 170 倍 GPU(NVIDIA GTX275): 0.53 s 9

11 行列ソルバーとして各分野で利用計算の中身はベクトルの演算と行列ベクトル高速化並列化事例 3 共役勾配法 10 p r p r r r r Ap r r p x x Ap p r r a b r Ax b r p x ), ( ), ( ), ( ), ( do util 0,1, for guess iitial a Choose 行列ベクトル内積内積ベクトル定数倍加算ベクトル定数倍加算

12 並列化 MPI での並列化事例流体解析 CG 法 ( 非構造格子 ) 領域分割し行列構築部など全体を並列化 8CPUで約 6~7 倍 GPU での並列化事例流体解析 GPBiCG( 非構造格子 ) ソルバー部分の並列化 GTX285でソルバー部分約 13 倍 (2 時間 21 分 11 分 ) 領域分割のイメージ 11

13 高速化並列化事例 4 PARDISO の利用疎行列連立一次方程式の直接法ソルバー Itel MKL に付いてくるソルバー部分を入れ替えるだけで高速化 ( 特に代々受け継いできた古いコードなど ) SMP 並列に対応事例 : 構造解析千葉大学野口柏崎研究室様元のプログラムはスカイライン法を使用大規模計算パラメータ解析で時間がかかる PARDISO に変更することでソルバー部分で 6.5 倍全体で 5.3 倍の高速化その他ご紹介できる事例はホームページをご覧ください 12

14 目次高速化並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化並列化について並列化作業の流れ並列化の手段 OpeMP デモ OpeMP で並列計算する円周率 p の計算 (private reductio) マンデルブロ集合 (schedule) OpeMP まとめ性能が出ない場合 13

15 目次高速化並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化並列化について並列化作業の流れ並列化の手段 OpeMP デモ OpeMP で並列計算する円周率 p の計算 (private reductio) マンデルブロ集合 (schedule) OpeMP まとめ性能が出ない場合 14

16 並列化とは? 作業の分担目的 : 高速化大規模化一人では時間がかかる高速化一人では持てない大規模化 15

17 並列できる処理できない処理荷造り積み荷は人数分速くなる ( 並列できる ) トラックでの移動時間は変わらない ( 並列できない ) 移動荷造り積み荷移動移動荷造り積み荷移動荷物は分担できる移動距離は分担できない 16

18 目次高速化並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化並列化について並列化作業の流れ並列化の手段 OpeMP デモ OpeMP で並列計算する円周率 p の計算 (private reductio) マンデルブロ集合 (schedule) OpeMP まとめ性能が出ない場合 17

19 並列化作業の流れ時間計測ボトルネック特定 ( シリアルコードの最適化 ) 並列可能か判断並列化 18

20 時間計測 gprof Itel Vtue TM Amplifier XEなどプロファイラを使う関数で計測する etime: 秒が返ってくる clockx: マイクロ秒が返ってくる (Widows) cpu_time: 各の合計を返すので注意 omp_get_wtime :OpeMPの組み込み関数 program sample : call clockx(t1) call sub_a(x,y,z) call clockx(t2) time = (t2-t1) * 1.d-6 : サブルーチン sub_a での経過時間を知りたいとき sub_a 前の時間計測計測したい部分を clockx で挟む sub_a 後の時間計測前後の時間差をとって秒単位に 19

21 ボトルネック特定時間計測したものから並列化の対象とする部分を選択時間計測結果 Subroutie time sub_a 50 s sub_b 150 s sub_c 250 s sub_d 500 s sub_e 50 s Total 1000 s sub_d 50% sub_e 5% sub_a 5% sub_b 15% sub_c 25% 例えば比較的大きい sub_d, sub_c, sub_b に絞る 20

並列化可能な部分依存関係がない do i = 1, 100 a(i) = b(i) + c(i) eddo b(i) c(i) a(i) 1 2 3 4 5 9 9 1 0 0 + + + + + + + + 1 2 3 4 5 9 9 1 0 0 1 2 3 4 5 9 9 1 0 0 do i = 1, 25

22 並列化可能な部分依存関係がない do i = 1, 100 a(i) = b(i) + c(i) eddo b(i) c(i) a(i) do i = 1, 25 a(i) = b(i) + c(i) eddo do i = 26, 50 a(i) = b(i) + c(i) eddo do i = 51, 75 a(i) = b(i) + c(i) eddo do i = 76, 100 a(i) = b(i) + c(i) eddo ループを逆に回して解が再現すれば大抵大丈夫 21

23 並列化不可能な部分 1 依存関係がある a(0) = cost. do i = 1, 100 a(i) = a(i-1) + b(i) eddo 2 同じところに書込み do i = 1, 100 j = idex(i) a(j) = a(j) + b(i) eddo 3 入出力 a(i) b(i) b(i) idex(i) a(i) 計算終了担当 1 担当 2 担当 1 担当同時に書き込む可能性がある計算するには a(3) が必要 22

24 計算時間 [s] 並列化 sub_c, sub_d が並列化できた sub_b は並列できない処理だった 4 並列で計算 1000 s 1000 sub_e 理想的に並列できると全体の倍率 2.3 倍並列化効率 sub_d sub_c x4 x4 sub_b sub_a シリアル計算 438 s 4 並列計算 sub_a, sub_e も並列化並列化できるアルゴリズムに変える : 23

25 目次高速化並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化並列化について並列化作業の流れ並列化の手段 OpeMP デモ OpeMP で並列計算する円周率 p の計算 (private reductio) マンデルブロ集合 (schedule) OpeMP まとめ性能が出ない場合 24

26 並列化の手段 OpeMP ( 共有メモリ ) MPI ( 分散メモリ共有メモリ ) CPU CPU CPU メモリメモリメモリ GPU GPU GPU ノード GPGPU ハイブリッドも可能 25

27 OpeMP OpeMP ( 共有メモリ ) CPU メモリ GPU メリット基本的にディレクティブ ( 挿入句 ) を入れるだけで簡単!$omp 動的にロードバランスがとれる計算粒度が細かくても並列化可能デメリットメモリアクセスが多いとメモリバンド幅をスレッドが取りあってしまう数倍以上の高速化が出来ないマスタースレッドスレッド生成並列領域スレッド消滅計算のイメージ 26

28 MPI(Message Passig Iterface) CPU CPU CPU MPI ( 分散メモリ共有メモリ ) メモリメモリメモリ GPU GPU GPU メリット大規模な並列化が可能デメリットプログラム開発が難しく途中でデバッグしづらいデータ通信がオーバーヘッドになることもプロセス計算のイメージデータ通信並列計算データ通信プロセス0のみ処理 27

29 GPGPU (Geeral Purpose computig o Graphics Processig Uits) CPU メリットデスクトップでも高い計算能力 GPU に向いた計算では 100 倍以上の高速化も可能デメリットプログラム開発性能を引き出すのが難しい大幅なプログラム書き換えが必要な場合もメモリ GPU CPU 計算のイメージデータコピー GPU 計算メモリデータコピー GPGPU 28

30 比較 OpeMP MPI GPGPU 開発易難難倍率 (1Core 比 ) ~数倍 ~ノード数数倍数倍 ~ 百倍以上 (GPU1つで) マシン 1 台複数台 1 台 ~ メモリ共有分散共有 GPU 上のメモリ得意ロードバランスが悪い粒度が大きい演算が多いデータの再利用性が高い苦手メモリアクセスが多い粒度が小さい通信が多い並列数が小さいランダムなメモリアクセスデータコピー頻度が高い 29

31 目次高速化並列化事例 PARDISO について (XLsoft 黒澤様 ) 並列化並列化について並列化作業の流れ並列化の手段 OpeMP デモ OpeMP で並列計算する円周率 p の計算 (private reductio) マンデルブロ集合 (schedule) OpeMP まとめ性能が出ない場合 30

32 この度はセミナー資料をダウンロード頂きありがとうございますセミナーではこの後にいくつか例題を OpeMP で並列化し計算が速くなる様子をデモで行っていますセミナー開催時は是非ご参加くださいまた資料は常に配布しておりますので続きのスライドデモプログラムをご希望の方は下記までお気軽にご連絡ください HPC ホームページ

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード] 200/0/9 数値流体解析の並列効率とその GPU による高速化の試み清水建設 ( 株 ) 技術研究所 PHAM VAN PHUC ( ファムバンフック ) 流体計算時間短縮と GPU の活用の試み現 CPUとの比較によりGPU 活用の可能性現 CPU の最大利用ノード内の最大計算資源の利用すべてCPUコアの利用適切なアルゴリズムの利用 CPU コア性能の何倍? GPU の利用の試み