Microsoft PowerPoint - 阪大CMSI pptx

Size: px

Start display at page:

Download "Microsoft PowerPoint - 阪大CMSI pptx"

きみつぐよせ
5 years ago
Views:

1 内容に関する質問はまで第 4 回 Hybrid 並列化技法 (MPIとOpenMPの応用) 名古屋大学情報基盤センター片桐孝洋 207 年度計算科学技術特論 A

2 講義日程と内容について 207 年度計算科学技術特論 A( 学期 : 木曜 3 限 ) 第回 : プログラム高速化の基礎 207 年 4 月 3 日イントロダクションループアンローリングキャッシュブロック化数値計算ライブラリの利用その他第 2 回 :MPIの基礎 207 年 4 月 20 日並列処理の基礎 MPIインターフェース MPI 通信の種類その他第 3 回 :OpenMPの基礎 207 年 4 月 27 日 OpenMPの基礎利用方法その他第 4 回 :Hybrid 並列化技法 (MPIとOpenMPの応用) 207 年 5 月日背景 Hybrid 並列化の適用事例利用上の注意その他第 5 回 : プログラム高速化の応用 207 年 5 月 8 日プログラムの性能ボトルネックに関する考えかた (I/O 単体性能 ( 演算機ネックメモリネック ) 並列性能 ( バランス )) 性能プロファイルその他年度計算科学技術特論 A

3 実際の並列計算機構成例年度計算科学技術特論 A

4 東京大学情報基盤センタースパコン FX0 スーパーコンピュータシステム Total Peak performance :.3 PFLOPS Total number of nodes : 4,800 Total memory : 50TB Peak performance per node : GFLOPS Main memory per node : 32 GB Disk capacity : 2. PB SPARC64 IXfx (.848GHz) 製品名 :Fujitsu PRIMEHPC FX0 202 年 4 月運用開始年度計算科学技術特論 A 4

85GB/ 秒 =(8Byte 333MHz 8 channel) Memory Memory Memory Memory DDR3

5 #0 # FX0 計算ノードの構成 #2 #3 各 CPU の内部構成 #2 ソケットのみ #3 #4 L L L L : Lデータキャッシュ32KB L L L L 20GB/ 秒 #5 TOFU Network ICC L2 (6 で共有 2MB) 85GB/ 秒 =(8Byte 333MHz 8 channel) Memory Memory Memory Memory DDR3 DIMM 4GB 2 枚 4GB 2 枚 4GB 2 枚 4GB 2 枚ノード内合計メモリ量 :8GB 4=32GB 年度計算科学技術特論 A

6 FX0 と FX00 のアーキテクチャ比較 FX0 演算能力 / ノード倍精度 / 単精度 : 236 GFLOPS 演算数 6 32 アシスタントなし 2 出典 : sci/lecture-04/ssken_sci205_miyoshi_presentation.pdf FX00 倍精度 :.0 TFLOPS 単精度 :2.022 TFLOPS SIMD 幅 SIMD 命令浮動小数点演算連続ロード / ストア右に加え整数演算ストライド & 間接ロード / ストア LDキャッシュ / 32KB 2ウェイ 64KB 4ウェイ L2キャッシュ / ノード 2MB 24MB メモリバンド幅 85GB/ 秒 480GB/ 秒年度計算科学技術特論 A

#2 #3 #4 #5 TOFU2 Network ICC HMC 6GB #6 7 #7 #8 #9 : Lデータキャッシュ 64KB 読込み :240GB/ 秒書込み

7 FX00 計算ノードの構成 HMC 6GB : Lデータ速いキャッシュ #0 # #2 #3 64KB 遅いソケット0 (CMG( Memory Group)) 2 ソケット NUMA (Non Uniform Memory Access) Memory L2 (7 で共有 2MB) L L L L L L L L L Assist. #2 #3 #4 #5 TOFU2 Network ICC HMC 6GB #6 7 #7 #8 #9 : Lデータキャッシュ 64KB 読込み :240GB/ 秒書込み :240GB/ 秒 = 合計 :480GB/ 秒 Assist. #28 L2 (7 で共有 2MB) #29 #30 L L L L L L L L L ソケット (CMC) Memory ノード内合計メモリ量 :32GB #3

8 FX00 の通信網 (TOFU 単位 ) TOFU 単位計算ノード内ノードノードノードノードノードノードノードノードノード TOFU 単位間の結合用 6 本それぞれ 2.5GB/ 秒 ( 双方向 ) ノードノードノードノード 8

TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位ユーザから見ると X 軸 Y 軸 Z 軸について奥の TOFU と手前の

9 FX00 の通信網 (TOFU 単位間の結合 ) TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位単位 TOFU 単位 TOFU 単位 9 TOFU 単位単位 TOFU 単位 3 次元接続 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位単位 TOFU 単位単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位 TOFU 単位ユーザから見ると X 軸 Y 軸 Z 軸について奥の TOFU と手前の TOFU は繋がってみえます (3 次元トーラス接続 ) ただし物理結線では X 軸はトーラス Y 軸はメッシュ Z 軸はメッシュまたはトーラスになっています 207 年度計算科学技術特論 A

日本最高速スパコン Oakforest-PACS (JCAHPC 東京大学情報基盤センター & 筑波大学計算科学研究センター ) 全体構成内容 Total Theoretical Peak 仕様 Total Number of Nodes 8208 Total Memory Amount Total Storage Amount Total Storage Bandwidth Total

10 日本最高速スパコン Oakforest-PACS (JCAHPC 東京大学情報基盤センター & 筑波大学計算科学研究センター ) 全体構成内容 Total Theoretical Peak 仕様 Total Number of Nodes 8208 Total Memory Amount Total Storage Amount Total Storage Bandwidth Total Fast Cache Amount Total Fast Cache Bandwidth CPU (Source: PFLOPS 897 TByte 26 PB 500 GB/sec 940 TB,560 GB/sec #Processors (68 Physical s ) 8,208 ノード (558,44 ) ノード構成 Intel Xeon Phi 7250 (Knights Landing, KNL) Frequency Theoretical Peak for each Node Memory 0 Inter Connect.4 GHz TFLOPS (double) / TFLOPS (single) 96 GB(DDR4)+ 6 GB(MCDRAM) Intel Omni-Path Network (00 Gbps)

11 KNL のアーキテクチャ速い遅い Intel Xeon Phi (Knights Landing) Many s 各 CPU あたり 68 物理最大 272 スレッド Non Uniform Memory Access (NUMA) Source: Knights Landing (KNL): 2nd Generation Intel Xeon Phi Processor, Avinash Sodani KNL Chief Architect Senior Principal Engineer, Intel Corp.

12 KNL の実行モードキャッシュモードフラットモードハイブリッドモード 6GB MCDRAM DDR 6GB MCDRAM DDR Physical Address 4 or 8 GB MCDRAM 8 or 2GB MCDRAM DDR Physical Address Source: Knights Landing (KNL): 2nd Generation Intel Xeon Phi Processor, 2 Avinash Sodani KNL Chief Architect Senior Principal Engineer, Intel Corp.

Xeon Phi Processor, Avinash Sodani KNL Chief Architect Senior Principal Engineer, Intel Corp.

13 KNL のメッシュモード Quadrant Sub-NUMA Clustering (SNC) チップ 4 つの仮想 Quadrant に分ける同一の Quadrant としてメモリ上のディレクトリにアドレスは割り当てられるディレクトリとメモリに対するアフィニティ Source: Knights Landing (KNL): 2nd Generation Intel Xeon Phi Processor, Avinash Sodani KNL Chief Architect Senior Principal Engineer, Intel Corp. それぞれの分割した NUMA ドメインとして構成されて OS に認識されるタイルディレクトリメモリで 4 ソケットの Xeon アフィニティと同じ概念局所通信各モードで最も少ないレイテンシ効果を得るためには NUMA 最適化が必要

14 バッチ処理と MPI ジョブの投入年度計算科学技術特論 A

15 スーパコンピュータシステムでのジョブ実行形態の例以下の2 通りがありますインタラクティブジョブ実行 PCでの実行のようにコマンドを入力して実行する方法スパコン環境ではあまり一般的でないデバック用大規模実行はできない東京大学 FX0では以下に限定 ( 東大基盤センターの運用方針 ) ノード (6 )(2 時間まで ) 8 ノード (28 )(0 分まで ) バッチジョブ実行バッチジョブシステムに処理を依頼して実行する方法スパコン環境で一般的大規模実行用東京大学 FX0 (Oakleaf-FX) では通常運用で最大 440 ノード (23,040 )(24 時間 ) 最大 2880 ノード (36,080 )(2 時間 ) 年度計算科学技術特論 A

16 バッチ処理とはスパコン環境では通常はインタラクティブ実行 ( コマンドラインで実行すること ) はできませんジョブはバッチ処理で実行しますバッチキュージョブの依頼バッチ処理システムがジョブを取り出す実行ユーザスパコン年度計算科学技術特論 A

17 コンパイラの種類とインタラクティブ実行およびバッチ実行の例 (FX0 FX00) インタラクティブ実行およびバッチ実行で利用するコンパイラ (C 言語 C++ 言語 Fortran90 言語 ) の種類が違いますインタラクティブ実行ではオウンコンパイラ ( そのノードで実行する実行ファイルを生成するコンパイラ ) を使いますバッチ実行ではクロスコンパイラ ( そのノードでは実行できないがバッチ実行する時のノードで実行できる実行ファイルを生成するコンパイラ ) を使いますそれぞれの形式 ( 富士通社の例 ) オウンコンパイラ : <コンパイラの種類名 > クロスコンパイラ : < コンパイラの種類名 >px 例 ) 富士通 Fortran90 コンパイラオウンコンパイラ : frt クロスコンパイラ : frtpx 年度計算科学技術特論 A

18 バッチキューの設定のしかた (FX0 の例 ) バッチ処理は富士通社のバッチシステムで管理されている以下主要コマンドを説明しますジョブの投入 : pjsub < ジョブスクリプトファイル名 > -g < プロジェクトコード > 自分が投入したジョブの状況確認 : pjstat 投入ジョブの削除 : pjdel < ジョブ ID> バッチキューの状態を見る : pjstat --rsc バッチキューの詳細構成を見る : pjstat --rsc -x 投げられているジョブ数を見る : pjstat --rsc -b 過去の投入履歴を見る : pjstat --history 同時に投入できる数 / 実行できる数を見る : pjstat --limit 年度計算科学技術特論 A

19 インタラクティブ実行のやり方の例 (FX0 スーパーコンピュータシステム ) コマンドラインで以下を入力ノード実行用 $ pjsub --interact 8 ノード実行用 $ pjsub --interact -L node= 年度計算科学技術特論 A

20 pjstat --rsc の実行画面例 $ pjstat --rsc RSCGRP STATUS NODE:COORD lecture [ENABLE,START] 72:2x3x2 lecture8 [DISABLE,STOP] 72:2x3x2 使えるキュー名 ( リソースグループ ) 現在使えるかノードの物理構成情報年度計算科学技術特論 A

21 pjstat --rsc -x の実行画面例 $ pjstat --rsc -x RSCGRP STATUS MIN_NODE MAX_NODE ELAPSE MEM(GB) PROJECT lecture [ENABLE,START] 2 00:5:00 28 gt58 lecture8 [DISABLE,STOP] 2 00:5:00 28 gt58 使えるキュー名 ( リソースグループ ) 現在使えるかノードの実行情報課金情報 ( 財布 ) 年度計算科学技術特論 A

22 pjstat --rsc -b の実行画面例 $ pjstat --rsc -b RSCGRP STATUS TOTAL RUNNING QUEUED HOLD OTHER NODE:COORD lecture [ENABLE,START] :2x3x2 lecture8 [DISABLE,STOP] :2x3x2 使えるキュー名 ( リソースグループ ) 現在使えるかジョブの総数実行しているジョブの数待たされているジョブの数ノードの物理構成情報年度計算科学技術特論 A

23 JOB スクリプトサンプルの説明 ( ピュア MPI) (hello-pure.bash, C 言語 Fortran 言語共通 ) #!/bin/bash #PJM -L rscgrp=fx-debug" #PJM -L "node=2" #PJM --mpi "proc=384" #PJM -L "elapse=:00" mpirun./hello MPI ジョブを 32*2 = 384 プロセスで実行するリソースグループ名 :fx-debug 利用ノード数利用数 (MPI プロセス数 ) 実行時間制限 : 分年度計算科学技術特論 A

24 FX00 計算ノードの構成 HMC 6GB #0 # MPI プロセス #2 #3 : Lデータキャッシュ 64KB ソケット 0 (CMG( Memory Group)) 2 ソケット NUMA (Non Uniform Memory Access) Memory L2 (7 で共有 2MB) L L L L L L L L L Assist. #2 #3 #4 #5 TOFU2 Network ICC HMC 6GB #6 24 #7 #8 #9 : Lデータキャッシュ 64KB 読込み :240GB/ 秒書込み :240GB/ 秒 = 合計 :480GB/ 秒 Assist. #28 L2 (7 で共有 2MB) #29 #30 L L L L L L L L L ソケット (CMC) Memory ノード内合計メモリ量 :32GB #3

25 JOB スクリプトサンプルの説明 ( ハイブリッド MPI) (hello-hy6.bash, C 言語 Fortran 言語共通 ) #!/bin/bash #PJM -L rscgrp=fx-debug" #PJM -L "node=2" #PJM --mpi "proc=2" #PJM -L "elapse=:00" export OMP_NUM_THREADS=32 mpirun./hello MPI ジョブを *2 = 2 プロセスで実行するリソースグループ名 :fx-debug 利用ノード数利用数 (MPI プロセス数 ) 実行時間制限 : 分 MPI プロセス当たり 32 スレッド生成年度計算科学技術特論 A

FX00 計算ノードの構成 HMC 6GB #0 # MPI プロセススレッド #2 #3 : Lデータキャッシュ 64KB ソケット 0 (CMG( Memory Group)) 2 ソケット NUMA (Non Uniform Memory Access) Memory L2 (7 で共有 2MB) L L L L L L L L L Assist.

26 FX00 計算ノードの構成 HMC 6GB #0 # MPI プロセススレッド #2 #3 : Lデータキャッシュ 64KB ソケット 0 (CMG( Memory Group)) 2 ソケット NUMA (Non Uniform Memory Access) Memory L2 (7 で共有 2MB) L L L L L L L L L Assist. #2 #3 #4 #5 TOFU2 Network ICC HMC 6GB #6 26 #7 #8 #9 : Lデータキャッシュ 64KB Assist. #28 L2 (7 で共有 2MB) #29 #30 L L L L L L L L L ソケット (CMC) Memory ただし NUMA メモリをまたいで実行されるため実行効率は悪いノード内合計メモリ量 :32GB #3

27 MPI プロセスのノード割り当て名大 FX00 システムでは何もしないと ( デフォルトでは ) 確保ノードが物理的に連続に確保されない通信性能が劣化する場合がある物理的に連続したノード割り当てをしたい場合はジョブスクリプトにその形状を記載するただしノード割り当て形状を指定すると待ち時間が増加する記載法 : #PJM -L node= < 形状 >:< 機能 > < 形状 >:= { 次元 2 次元 3 次元 } 次元 := { a }, 2 次元 := {a x b}, 3 次元 := {a x b x c} < 機能 > := { 離散メッシュトーラス } 離散 : = { noncont }, メッシュ := {mesh}, トーラス := {torus}:2 ノード以上例 :24 ノード 3 次元 (2x4x3) トーラス #PJM -L node= 2x4x3 : torus 年度計算科学技術特論 A

28 NUMA 指定について NUMA 計算機では MPI プロセスのソケットへの割り当てが性能面で重要となる (NUMA affinity とよぶ ) MPI プロセスのソケット ( 富士通用語で CMC) の割り当ては FX00 では富士通社の NUMA affinity で設定する環境変数で設定する年度計算科学技術特論 A

29 NUMA メモリポリシー指定環境変数名 :plm_ple_memory_allocation_policy 代入する値 localalloc: プロセスが動作中の CPU( ) の属する NUMA ノードからメモリを割り当てる interleave_local: プロセスのローカルノード集合内の各 NUMA ノードから交互にメモリ割り当てる interleave_nonlocal: プロセスの非ローカルノード集合内の各 NUMA ノードから交互にメモリ割り当てる interleave_all: プロセスの全ノード集合内の各 NUMA ノードから交互にメモリを取得する bind_local: プロセスのローカルノード集合に属する各 NUMAノードでノードIDの若い順にメモリ割り当てを行う bind_nonlocal: プロセスの非ローカルノード集合に属する各 NUMAノードでノードIDの若い順にメモリ割り当てを行う bind_all: プロセスの全ノード集合のNUMAノードにバインドする prefer_local: プロセスのローカルノード集合のうち NUMAノードIDが最も若いものを優先ノードとし優先ノードからメモリ割り当てを行う prefer_nonlocal: プロセスの非ローカルノード集合のうち NUMAノードIDが最も若いものを優先ノードとし優先ノードからメモリ割り当てを行う通常は localalloc でよい export plm_ple_memory_allocation_policy=localalloc 年度計算科学技術特論 A

30 CPU( ) 割り当てポリシー指定環境変数名 :plm_ple_numanode_assign_policy 代入する値 simplex: NUMA ノードを占有するように割り当てる share_cyclic: NUMAノードを他のプロセスと共有するように割り当てる異なるNUMAノードに順番にプロセスを割り当てる share_band: NUMAノードを他のプロセスと共有するように割り当てる同一 NUMAノードに連続してプロセスを割り当てる例 ) export plm_ple_numanode_assign_policy=simplex 各ソケットを各 MPI プロセスで独占したいときは simplex を指定各ノードへ割り当てる MPI プロセス数が 2 個でそれぞれの MPI プロセスは 6 個のスレッド実行するとき MPI プロセスをプロセス順に各ソケットに詰め込みたいときは share_band を指定ノード当たり 32 個の MPI プロセスをランク番号が近い順に割り当てたい場合 30

31 その他の注意事項 ( その ) MPI 用のコンパイラを使うこと MPI 用のコンパイラを使わないと MPI 関数が未定義というエラーが出てコンパイルできなくなる例えば以下のコマンド Fortran90 言語 : mpif90 C 言語 : mpicc C++ 言語 : mpixx, mpic++ コンパイラオプションは逐次コンパイラと同じ年度計算科学技術特論 A

32 その他の注意事項 ( その 2) ハイブリッド MPI の実行形態 (MPI プロセス数 ) (MPI プロセス当たりの OpenMP スレッド数 ) <= 利用総数 HT(Intel) や SMT(IBM) などの物理数の定数倍のスレッドが実行できるハードの場合 ( 例えば KNL) スレッド数 ( 論理スレッド数例えばHTの数で物理の4 倍まで等 ) が上記の利用総数に相当で換算以上を超えても実行できるが性能が落ちる必ずしもノード内にMPIプロセス実行が高速とはならない一般に OpenMPによる台数効果が8~6スレッド ( 経験値問題やハードウェア依存 ) を超えると悪くなるため効率の良いハイブリッドMPI 実行には効率の良いOpenMP 実装が必須年度計算科学技術特論 A

33 MPI 実行時のリダイレクトについて一般にスーパーコンピュータでは MPI 実行時の入出力のリダイレクトができません例 )mpirun./a.out < in.txt > out.txt 専用のリダイレクト命令が用意されています FX0 (FX00) でリダイレクトを行う場合以下のオプションを指定します例 ) mpirun --stdin./in.txt --ofout out.txt./a.out 年度計算科学技術特論 A

34 並列処理の評価指標 : 弱スケーリングと強スケーリング年度計算科学技術特論 A

( 主にシステム的な要因により ) 通信時間が増大するためそうはならない該当する処理は陽解法のシミュレーション全般陰解法で

35 弱スケーリング (Weak Scaling) ノードあたりの問題サイズを固定し並列処理時の全体の問題サイズを増加することで性能評価をする方法問題サイズN ときの計算量がO(N ) である場合並列処理のノード数が増加しても理想的な実行時間は変わらないと期待できる一般的にノード数が増加すると ( 主にシステム的な要因により ) 通信時間が増大するためそうはならない該当する処理は陽解法のシミュレーション全般陰解法でかつ連立一次方程式の解法に反復解法を用いているシミュレーションノードあたりの問題サイズ 35 8 ノード実行での問題サイズ 64 ノード実行での問題サイズ 207 年度計算科学技術特論 A

計算量が膨大なアプリケーション例えば連立一次方程式の解法データ量 O (N 2 )

36 強スケーリング (Strong Scaling) 全体の問題サイズを固定しノード数を増加することで性能評価をする方法理想的な実行時間はノード数に反比例して減少する一般的にノード数が増加するとノードあたりの問題サイズが減少し通信時間の占める割合が増大するため理想的に実行時間は減少しない該当する処理は計算量が膨大なアプリケーション例えば連立一次方程式の解法データ量 O (N 2 ) に対して計算量はO ( N 3 ) 固定した問題サイズ 36 8 ノード実行での問題サイズ 64 ノード実行での問題サイズ 207 年度計算科学技術特論 A

37 弱スケーリングと強スケーリング適用アプリの特徴弱スケーリングが適用できるアプリケーションは原理的に通信が少ないアプリケーション領域分割法などにより並列化できるアプリケーション主な通信は隣接するプロセス間のみノード数を増すことで実行時間の面で容易に問題サイズを大規模化通信時間の占める割合が超並列実行でも少ないアプリケーション強スケーリングを適用しないといけないアプリケーションは計算量が膨大になるアプリケーション全体の問題サイズは実行時間の制約から大規模化できないそのためノードあたりの問題サイズはノード数が多い状況で小さくなるその結果通信処理の占める時間がほとんどになる超並列実行時で通信処理の最適化が重要になるアプリケーション年度計算科学技術特論 A

38 強スケールアプリケーションの問題 TOP500 で採用されている LINPACK 密行列に対する連立一次方程式の解法のアプリケーション 206 年月の TOP500 の当たりの問題サイズ ( 位 )Sunway TaihuLight N=2,288,000(228 万次元 ) #cores=0,649,600(064 万 ) N/#cores=.5 (2 位 )Tianhe-2 N=9,960,000 #cores=3,20,000 N/#cores=3.9 (6 位 )Oakforest-PACKS N=9,938,880 #cores=556,04 N/#cores=7.8 (8 位 )Piz Daint N=4,28,768 #cores=5,984 N/#cores=35.5 上位のマシンほど当たりの問題サイズが小さい通信時間の占める割合が大きくなりやすい今後数が増加すると通信時間の削減が問題になる年度計算科学技術特論 A

39 ピュア MPI プログラム開発の基礎年度計算科学技術特論 A

40 MPI 並列化の大前提 ( 再確認 ) SPMD 対象のメインプログラムはすべての上でかつ同時に起動された状態から処理が始まる分散メモリ型並列計算機各プロセスは完全に独立したメモリを持っている ( 共有メモリではない ) 年度計算科学技術特論 A

41 並列化の考え方 (C 言語 ) SIMD アルゴリズムの考え方 (4 プロセスの場合 ) 行列 A for ( j=0; j<n/4; j++) { 内積 ( j, i ) } プロセス 0 各 PE で重複して所有する for ( j=0; j<n; j++) { 内積 ( j, i ) } for ( j=n/4; j<(n/4)*2; j++) { 内積 ( j, i ) } プロセス for ( j=(n/4)*2; j<(n/4)*3; j++) { 内積 ( j, i ) } プロセス 2 for ( j=(n/4)*3; j<n; j++) { 内積 ( j, i ) } ベクトル x プロセス年度計算科学技術特論 A

42 並列化の考え方 (Fortran 言語 ) SIMD アルゴリズムの考え方 (4 プロセスの場合 ) 行列 A プロセス 0 do j=, n/4 内積 ( j, i ) enddo 各プロセスで重複して所有する do j=, n 内積 ( j, i ) enddo プロセスプロセス 2 プロセス 3 do j=n/4+, (n/4)*2 内積 ( j, i ) enddo do j=(n/4)*2+, (n/4)*3 内積 ( j, i ) enddo do j=(n/4)*3+, n 内積 ( j, i ) enddo ベクトル x 年度計算科学技術特論 A

43 初心者が注意すること各プロセスでは独立した配列が個別に確保されます PE0 PE PE2 PE3 A[N][N] A[N][N] A[N][N] A[N][N] myid 変数は MPI_Init() 関数が呼ばれた段階で各プロセス固有の値になっています PE0 PE PE2 PE3 myid = 0 myid = myid = 2 myid = 年度計算科学技術特論 A

44 並列プログラム開発の指針. 正しく動作する逐次プログラムを作成する 2.. のプログラムで適切なテスト問題を作成するのテスト問題の実行について適切な処理の単位ごとに正常動作する計算結果を確認する 4.. の逐次プログラムを並列化し並列プログラミングを行うのテスト問題を実行して動作検証する 6. このとき 3. の演算結果と比較し正常動作をすることを確認するもし異常であれば 4. に戻りデバックを行う年度計算科学技術特論 A

45 数値計算プログラムの特徴を利用して並列化時のデバックをする数値計算プログラムの処理単位はプログラム上の基本ブロック ( ループ単位など ) ではなく数値計算上の処理単位 ( 数式レベルで記述できる単位 ) となる離散化 ( 行列作成 ) 部分行列分解部分 (LU 分解法部分 (LU 分解部分前進代入部分後退代入部分 )) など演算結果はなんらかの数値解析上の意味において検証理論解 ( 解析解 ) とどれだけ離れているか考えられる丸め誤差の範囲内にあるかなど計算された物理量 ( 例えば流速など ) が物理的に妥当な範囲内にあるかなど両者が不明な場合でも数値的に妥当であると思われる逐次の結果と比べ並列化した結果の誤差が十分に小さいかなど年度計算科学技術特論 A

46 並列化の方針 ( 行列 - ベクトル積 C 言語 ). 全プロセスで行列 A を N N の大きさベクトル x y を N の大きさ確保してよいとする 2. 各プロセスは担当の範囲のみ計算するようにループの開始値と終了値を変更するブロック分散方式では以下になる (n が numprocs で割り切れる場合 ) ib = n / numprocs; for ( j=myid*ib; j<(myid+)*ib; j++) { } 3. (2の並列化が完全に終了したら) 各プロセスで担当のデータ部分しか行列を確保しないように変更する上記のループは以下のようになる for ( j=0; j<ib; j++) { } 年度計算科学技術特論 A

47 並列化の方針 ( 行列 - ベクトル積 Fortran 言語 ). 全プロセスで行列 A を N N の大きさベクトル x y を N の大きさ確保してよいとする 2. 各プロセスは担当の範囲のみ計算するようにループの開始値と終了値を変更するブロック分散方式では以下になる (n が numprocs で割り切れる場合 ) ib = n / numprocs do j=myid*ib+, (myid+)*ib enddo 3. (2の並列化が完全に終了したら) 各プロセスで担当のデータ部分しか行列を確保しないように変更する上記のループは以下のようになる do j=, ib enddo 年度計算科学技術特論 A

48 データ分散方式に関する注意負荷分散を考慮し多様なデータ分散方式を採用可能数学的に単純なデータ分散方式が良い : ブロック分散サイクリック分散 ( ブロック幅 =) ~ 〇 : ブロックサイクリック分散 ( ブロック幅 = 任意 ) 理由 : 複雑な ( 一般的な ) データ分散は各 MPI プロセスが所有するデータ分散情報 ( インデックスリスト ) を必要とするためメモリ量が余分に必要なる例 : 万並列では少なくとも万次元の整数配列が必要数学的に単純なデータ分散の場合はインデックスリストは不要ローカルインデックスグローバルインデックスが計算で求まるため年度計算科学技術特論 A

49 並列化の方針 ( 行列 - ベクトル積 ) (C 言語 ) 全 PE で N N 行列を持つ場合 PE0 for ( j=0; j<(n/4); j++) { 内積 ( j, i ) } for ( j=(n/4)*2; j<(n/4)*3; j++) { 内積 ( j, i ) } PE2 PE for ( j=(n/4)*3; j<n; j++) { 内積 ( j, i ) } for ( j=(n/4); j<(n/4)*2; j++) { 内積 ( j, i ) } PE3 各 PE で使われない領域が出るが担当範囲指定がしやすいので実装がしやすい年度計算科学技術特論 A

50 並列化の方針 ( 行列 - ベクトル積 ) (Fortran 言語 ) 全 PE で N N 行列を持つ場合 PE0 do j=, n/4 内積 ( j, i ) enddo do j=(n/4)*2+, (n/4)*3 内積 ( j, i ) enddo PE2 50 PE do j=n/4+, (n/4)*2 内積 ( j, i ) enddo do j=(n/4)*3+, n 内積 ( j, i ) enddo 各 PE で使われない領域が出るが担当範囲指定がしやすいので実装がしやすい PE3 207 年度計算科学技術特論 A

51 並列化の方針 ( 行列 - ベクトル積 ) この方針では y=ax のベクトル y は以下のように一部分しか計算されないことに注意! PE0 = = PE2 = PE = PE 年度計算科学技術特論 A

52 並列化の方針のまとめ行列全体 (A[N][N]) を各プロセスで確保することで SIMD の考え方を逐次プログラムに容易に適用できるループの開始値終了値のみ変更すれば並列化が完成するこの考え方は MPI OpenMP に依存せず適用できる欠点最大実行可能な問題サイズが利用ノード数によらずノードあたりのメモリ量で制限される ( メモリに関するスケーラビリティが無い ) ステップ 4 のデバックの困難性を低減できる完全な並列化 ( ステップ4) の際ステップ2での正しい計算結果を参照できる数値計算上の処理単位ごとに個別に並列化ができる ( モジュールごとにデバックできる ) 年度計算科学技術特論 A

53 行列ベクトル積のピュア MPI 並列化の例 (C 言語 ) ierr = MPI_Init(&argc, &argv); ierr = MPI_Comm_rank(MPI_COMM_WORLD, &myid); ierr = MPI_Comm_size(MPI_COMM_WORLD, &numprocs); ib = n/numprocs; jstart = myid * ib; jend = (myid+) * ib; if ( myid == numprocs-) jend=n; ブロック分散を仮定した担当ループ範囲の定義 for( j=jstart; j<jend; j++) { y[ j ] = 0.0; for(i=0; i<n; i++) { y[ j ] += A[ j ][ i ] * x[ i ]; } } 53 MPI プロセスの担当ごとに縮小したループの構成 207 年度計算科学技術特論 A

54 行列ベクトル積のピュア MPI 並列化の例 (Fortran 言語 ) call MPI_INIT(ierr) call MPI_COMM_RANK(MPI_COMM_WORLD, myid, ierr) call MPI_COMM_SIZE(MPI_COMM_WORLD, numprocs, ierr) ib = n/numprocs jstart = + myid * ib jend = (myid+) * ib if ( myid.eq. numprocs-) jend = n ブロック分散を仮定した担当ループ範囲の定義 do j = jstart, jend y( j ) = 0.0d0 do i=, n y( j ) = y( j ) + A( j, i ) * x( i ) enddo enddo MPI プロセスの担当ごとに縮小したループの構成年度計算科学技術特論 A

55 n が MPI プロセス数で割切れない時 n がプロセス数の numprocs で割り切れない場合配列確保 : A(N/numprocs + mod(n, numprocs), N) ループ終了値 :numprocs- のみ終了値が n となるように実装 ib = n / numprocs; if ( myid == (numprocs - ) ) { i_end = n; } else { i_end = (myid+)*ib; } for ( i=myid*ib; i<i_end; i++) { } 年度計算科学技術特論 A

56 余りが多い場合 mod(n, numprocs) が大きいと負荷バランスが悪化例 :N=0 numprocs=6 int(0/6)= なのでプロセス 0~5 は個のデータプロセス 6 は 4 個のデータを持つ各プロセスごとの開始値終了値のリストを持てば改善可能プロセス 0: i_start(0)=, i_end(0)=2, 2 個プロセス : i_start()=3, i_end()=4, 2 個プロセス 2: i_start(2)=5, i_end(2)=6, 2 個プロセス 3: i_start(3)=7, i_end(3)=8, 2 個プロセス 4: i_start(4)=9, i_end(4)=9, 個プロセス 5: i_start(5)=0, i_end(5)=0, 個欠点 : プロセス数が多いと上記リストのメモリ量が増える年度計算科学技術特論 A

57 ハイブリット MPI プログラム開発の基礎年度計算科学技術特論 A

58 用語の説明ピュア MPI 実行並列プログラムで MPI のみ利用 MPI プロセスのみハイブリッド MPI 実行並列プログラムで MPI と何か (X( エックス )) を利用 MPI プロセスと何か (X) の混合何か (X) は OpenMP によるスレッド実行もしくは GPU 実行が主流 MPI+X の実行形態上記のハイブリッド MPI 実行と同義として使われる X は OpenMP や自動並列化によるスレッド実行 CUDA などの GPU 向き実装 OpenACC などの GPU やメニー向き実行などの組合せがある主流となる計算機アーキテクチャで変わる年度計算科学技術特論 A

59 ハイブリッド MPI 実行の目的同一の資源量 ( 総数 ) の利用に対しピュア MPI 実行での MPI プロセス数に対しハイブリッド MPI 実行で MPI プロセス数を減らすことで通信時間を削減することが主な目的例 )JCAHPC( 東大筑波大 ) の Oakforest-PACS 全系は 8,208 ノード 558,44(55 万 ) 物理ピュア MPI 実行 (HT4 利用時 ) :2,232,576 (223 万 ) プロセス実行ハイブリッド MPI 実行 (HT4 利用時 ): ( ノード 272 スレッド実行 ):8,208 プロセス MPI プロセス数の比は 272 倍! 年度計算科学技術特論 A

[ 秒 ] 800 700 600 500 400 300 ハイブリッド MPI/OpenMP 実行の実例 ( ある有限差分法のアプリ ) 682 569 ハイブリッド MPI/OpenMP Xeon Phi (KNC) : 8 ノード ( 最大 :920 スレッド )

60 [ 秒 ] ハイブリッド MPI/OpenMP 実行の実例 ( ある有限差分法のアプリ ) ハイブリッド MPI/OpenMP Xeon Phi (KNC) : 8 ノード ( 最大 :920 スレッド ) MPI/OpenMP 実行形態に依存した実行時間の差が増大! Total Execution Time ハイブリッドMPI/OpenMP の実行形態 P8T240 P6T20 P32T60 P64T30 P28T5 P240T8 P480T4

61 ハイブリッド MPI/OpenMP 並列プログラム開発の指針. 正しく動作するピュア MPI プログラムを開発する 2. OpenMP を用いて対象カーネルをスレッド並列化するの性能評価をするの評価結果から性能が不十分な場合対象カーネルについて OpenMP を用いた性能チューニングを行う 3. へ戻る 5. 全体性能を検証し通信時間に問題がある場合通信処理のチューニングを行う年度計算科学技術特論 A

62 ハイブリッド MPI/OpenMP 並列化の方針 (OpenMP プログラムがある場合 ) すでに開発済みの OpenMP プログラムを元に MPI 化する場合 OpenMP の parallel ループを MPI 化すること OpenMPループ中にMPIループを記載すると通信多発で遅くなるか最悪動作しない!$omp parallel do do i=, n do j=, n enddo enddo!$omp end parallel do NG!$omp parallel do do i=, n do j=istart, iend call MPI_send( ) enddo enddo!$omp end parallel do OK!$omp parallel do do i=istart, iend do j=, n enddo call MPI_send( ) enddo!$omp end parallel do 年度計算科学技術特論 A

63 行列ベクトル積のハイブリッド MPI 並列化の例 (C 言語 ) ierr = MPI_Init(&argc, &argv); ierr = MPI_Comm_rank(MPI_COMM_WORLD, &myid); ierr = MPI_Comm_size(MPI_COMM_WORLD, &numprocs); ib = n/numprocs; jstart = myid * ib; jend = (myid+) * ib; if ( myid == numprocs-) jend=n; #pragma omp parallel for private(i) for( j=jstart; j<jend; j++) { y[ j ] = 0.0; for(i=0; i<n; i++) { y[ j ] += A[ j ][ i ] * x[ i ]; } } ブロック分散を仮定した担当ループ範囲の定義この一文を追加するだけ! MPI プロセスの担当ごとに縮小したループの構成年度計算科学技術特論 A

64 行列ベクトル積のハイブリッド MPI 並列化の例 (Fortran 言語 ) call MPI_INIT(ierr) call MPI_COMM_RANK(MPI_COMM_WORLD, myid, ierr) call MPI_COMM_SIZE(MPI_COMM_WORLD, numprocs, ierr) ib = n/numprocs jstart = + myid * ib jend = (myid+) * ib if ( myid.eq. numprocs-) jend = n!$omp parallel do private(i) do j = jstart, jend y( j ) = 0.0d0 do i=, n y( j ) = y( j ) + A( j, i ) * x( i ) enddo enddo!$omp end parallel do ブロック分散を仮定した担当ループ範囲の定義この文を追加するだけ! MPI プロセスの担当ごとに縮小したループの構成年度計算科学技術特論 A

65 ハイブリッド MPI/OpenMP 実行の注意点 ( その ) ハイブリッド MPI/OpenMP 実行では MPI プロセス数に加えてスレッド数がチューニングパラメタとなり複雑化する例 ) ノード 6 実行 207 年度計算科学技術特論 A MPI プロセス 8 スレッド実行 MPI プロセス 4 スレッド実行 ccnuma の計算機ではソケット数ごとに MPI プロセス実行が高速となる可能性がある ( ハードウェア的に ) 例 )T2K(AMD Quad Opteron) 4 ソケット MPI プロセス 4 スレッド実行ソケット 0 ソケットソケット 2 ソケット 3 つの MPI プロセスの割り当て対象

66 ハイブリッド MPI/OpenMP 実行の注意点 ( その 2) ハイブリッド MPI/OpenMP 実行の実行効率を決める要因. ハイブリッド MPI 化による通信時間の削減割合 2. OpenMP 等で実現される演算処理のスレッド実行効率特に 2 は注意が必要単純な実装だと経験的に 8~6 スレッド並列を超えるとスレッド実行時の台数効果が劇的に悪くなる効率の良いスレッド並列化の実装をするとハイブリッド MPI/OpenMP 実行時に効果がより顕著になる実装の工夫が必要たとえば. ファーストタッチ ( すでに説明済み ) の適用 2. メモリ量や演算量を増加させてもスレッドレベルの並列性を増加させる 3. アンローリングなどの逐次高速化手法をスレッド数に特化させる年度計算科学技術特論 A

67 ハイブリッド MPI/OpenMP 実行の注意点 ( その 3) 通信処理の時間に含まれるデータのコピー時間が通信時間よりも大きいことがある問題空間の配列から送信用の配列にコピーする処理 ( パッキング ) 受信用の配列から問題空間の配列へコピーする処理 ( アンパッキング ) 上記のコピー量が多い場合コピー操作自体も OpenMP 化すると高速化される場合がある特に強スケーリング時問題サイズやハードウェアによっては OpenMP 化すると遅くなるこのときは逐次処理にしないといけないパッキングアンパッキングを OpenMP 化する / しないもハイブリッド MPI 実行では重要なチューニング項目になる年度計算科学技術特論 A

68 ハイブリッド MPI/OpenMP の起動方法スパコンごとに異なるが以下の方法が主流 ( すでに説明済み ). バッチジョブシステムを通して MPI の数を指定 2. 実行コマンドで OMP_NUM_THREADS 環境変数でスレッド数を指定 ccnuma の場合 MPI プロセスの割り当てを期待する物理ソケットに割り当てないとハイブリッド MPI 実行の効果が無くなる Linux では numactl コマンドで実行時に指定するスパコン環境によってはプロセスを指定する物理に割り当てる方法がある ( 各スパコンの利用マニュアルを参考 ) 年度計算科学技術特論 A

69 数値計算ライブラリとハイブリット MPI 実行数値計算ライブラリのなかにはハイブリッド MPI 実行をサポートしているものがある数値計算ライブラリがスレッド並列化されている場合特に密行列用ライブラリの ScaLAPACK は通常ハイブリッド MPI 実行をサポート ScaLAPACK は MPI 実行をサポート ScaLAPACK は逐次の LAPACK をもとに構築 LAPACK は基本数値計算ライブラリ BLAS をもとに構築 BLAS はスレッド実行をサポート BLAS レベルのスレッド実行と ScaLAPACK レベルの MPI 実行を基にしたハイブリッド MPI 実行が可能年度計算科学技術特論 A

70 スレッド並列版 BLAS 利用の注意 BLAS ライブラリは OpenMP スレッド並列化がされている利用方法は OpenMP を用いた並列化と同じ OMP_NUM_THREADS で並列度を指定 BLAS で利用するスレッド数が利用可能な数を超えると動かないか動いたとしても速度が劇的に低下する BLASを呼び出す先がスレッド並列化をしている場合 BLAS 内でスレッド並列化をすると総合的なスレッド数が利用可能な数を超えることがあるこのため速度が劇的に低下する一般的に逐次実行の演算効率が OpenMPスレッド並列の実行効率に比べて高い上位のループを OpenMP スレッド並列化しそのループから逐次 BLAS を呼び出す実装がよい年度計算科学技術特論 A

71 逐次 BLAS をスレッド並列化して呼び出す例通常のBLASの呼び出し do i=, Ak call dgemm( ) スレッド並列版 BLASを呼び出し ( コンパイラオプションで指定 ) enddo 上位のループでOpenMP 並列化したBLASの呼び出し!$omp parallel do do i=, Ak call dgemm( ) 7 enddo!$omp end parallel do 逐次 BLAS を呼び出し ( コンパイラオプションで指定 ) 207 年度計算科学技術特論 A

72 < スレッド並列版 BLAS> と < 逐次 BLAS を上位のループでスレッド並列呼び出し > する時の性能例 T2K オープンスパコン ( 東大版 ) AMD Quad Opteron ノード (6 ) を利用日立製作所による C コンパイラ ( 日立最適化 C) OpenMP 並列化を行った最適化オプション : -Os -omp BLAS GOTO BLAS ver..26 ( スレッド並列版, および遂次版の双方 ) 対象処理高精度行列行列積の主計算複数の行列行列積 (dgemm 呼び出し ) を行う部分年度計算科学技術特論 A

n=000 での性能 ( T2K( ノード, 6 )) BLAS 内でスレッド並列化する場合に対する速度向上 4.5 4 3.5 3 2.5 2.5 0.5 0 [ 速度向上 ] 73 0.8.80.77 2.32 2.64.97 2.59 3.86 3.

73 n=000 での性能 ( T2K( ノード, 6 )) BLAS 内でスレッド並列化する場合に対する速度向上 [ 速度向上 ] Speedup to isw= 8 スレッドを超えると約 3.8 倍の速度向上! 年度計算科学技術特論 A [ スレッド数 ]

74 ScaLAPACK におけるハイブリッド MPI 実行の効果の例 ScaLAPACKの連立一次方程式解法ルーチン PDGESV 東京大学情報基盤センターのHITACHI SR6000 IBM Power7 (3.83GHz) ノード 4 ソケットソケットあたり 8 合計 GFLOPS/ ノード SMT 利用でノード 64 論理スレッドまで利用可能 ScaLAPACK は同環境で提供されている IBM 社の ESSL(Engineering and Scientific Subroutine Library) ライブラリを利用年度計算科学技術特論 A

75 ScaLAPACK におけるハイブリッド MPI 実行の効果の例 SR6000 の 2 ノードでの実行 ( 問題サイズ N=32,000) 高速ピュア MPI 実行 GFLOPS % の高速化最適なハイブリッド MPI 実行ノード内は全てスレッド実行ノードあたりの構成 P(MPI プロセス数 ) T( スレッド数 ) ハイブリッド MPI 実行の組合せ P64 T P32 T2 P6 T4 P8 T8 P4 T6 P2 T32 P T 年度計算科学技術特論 A

76 コンパイラ最適化の影響 ( その ) MPI 化および OpenMP 化に際してループ構造を逐次から変更することになるこの時コンパイラに依存しコード最適化が並列ループに対して効かない ( 遅い ) コードを生成することがある上記の場合逐次実行での効率に対して並列実行での効率が低下し台数効果の向上を制限するたとえばループ変数に大域変数を記載するとコンパイラの最適化を阻害することがある特に並列処理制御変数である全体の MPI プロセス数を管理する変数自分のランク番号を管理する変数は大域変数であることが多いので注意年度計算科学技術特論 A

77 コンパイラ最適化の影響 ( その 2) MPI 並列コードでループに大域変数を使っている例 C 言語の例 ib = n/numprocs; for( j= myid * ib; j<(myid+) * ib; j++) { y[ j ] = 0.0; for(i=0; i<n; i++) { y[ j ] += A[ j ][ i ] * x[ i ]; } } Fortran 言語の例 ib = n/numprocs do j = + myid * ib, (myid+) * ib y( j ) = 0.0d0 do i=, n y( j ) = y( j ) + A( j, i ) * x( i ) enddo enddo 上記のmyidは大域変数で自ランク番号を記憶している変数コンパイラがループ特徴を把握できず最適化を制限逐次コードに対して演算効率が低下し台数効果を制限解決策 : 局所変数を宣言し myid を代入対象を関数化年度計算科学技術特論 A

78 ハイブリッド MPI プログラミングのまとめノード数が増えるほどピュア MPI 実行に対する効果が増加経験的には 000MPI プロセスを超える実行でハイブリッド MPI 実行が有効となる現状での効果はアプリケーションに依存するが経験的には数倍 (2~3 倍 ) 高速化される現在多くの実例が研究されているエクサに向けて 0 万並列を超える実行ではおそらく数十倍の効果が期待されるノードあたりの問題サイズが小さいほどハイブリッド MPI 実行の効果が増大弱スケーリングより強スケーリングのほうがハイブリッド MPI 実行の効果がある年度計算科学技術特論 A

79 レポート課題 ( その ) 問題レベルを以下に設定問題のレベルに関する記述 : L00: きわめて簡単な問題 L0: ちょっと考えればわかる問題 L20: 標準的な問題 L30: 数時間程度必要とする問題 L40: 数週間程度必要とする問題複雑な実装を必要とする L50: 数か月程度必要とする問題未解決問題を含む L40 以上は論文を出版するに値する問題教科書のサンプルプログラムは以下が利用可能 79 Samples-fx.tar Mat-Vec-fx.tar PowM-fx.tar Mat-Mat-fx.tar Mat-Mat-d-fx.tar LU-fx.tar 207 年度計算科学技術特論 A

80 レポート課題 ( その 2). [L20] 使える並列計算機環境で教科書のサンプルプログラムを並列化したうえでピュア MPI 実行およびハイブリッド MPI 実行で性能が異なるか実験環境 ( たとえば 2 ノード 384 ) を駆使して性能評価せよノードあたり 2MPI 実行 MPI+32 スレッド実行 2MPI+6 スレッド実行 4MPI+8 スレッド実行など組み合わせが多くある年度計算科学技術特論 A

81 レポート課題 ( その 3) 2. [L0] ハイブリッドMPI 実行がピュアMPI 実行に対して有効となるアプリケーションを論文等で調べよ 3. [L20~] 自分が持っている問題に対しハイブリッドMPI 実行ができるようにプログラムを作成せよまた実験環境を用いて性能評価を行え年度計算科学技術特論 A

内容に関するご質問はまでお願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会ライブラリ利用 : 科学技術計算の効率化入門スパコンへのログインテストプログラム起動東京大学情報基盤セ

内容に関するご質問はまでお願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会ライブラリ利用 : 科学技術計算の効率化入門スパコンへのログインテストプログラム起動東京大学情報基盤セ内容に関するご質問は ida@cc.u-tokyo.ac.jp までお願いします [Oakforest-PACS(OFP) 編 ] 第 85 回お試しアカウント付き並列プログラミング講習会ライブラリ利用 : 科学技術計算の効率化入門スパコンへのログインテストプログラム起動東京大学情報基盤センター特任准教授伊田明弘 1 講習会 : ライブラリ利用 [FX10] スパコンへのログインファイル転送