SGI AltixUV1000 並列化プログラミング講習会

Size: px

Start display at page:

Download "SGI AltixUV1000 並列化プログラミング講習会"

まなすみだ
5 years ago
Views:

1 SGI Altix UV1000 並列化プログラミング講習会日本 SGI 株式会社 HPC 技術推進本部 HPCコンサルティング部 1

2 Contents 1. システム構成と利用方法 2. SGI Altix UV1000 アーキテクチャ 3. 開発環境 4. コンパイルと実行 5. 最適化について 6. コンパイラオプション 7. 数値計算ライブラリ 8. デバッガと時間計測関数 9. ファーストタッチとデータ配置 10. 性能解析ツール 11. 並列化プログラミング 12. インテルコンパイラ自動並列化 13. OpneMP ( 利用方法 ) 14. OpenMPプログラミング入門 15. MPI( 利用方法 ) 16. MPIプログラミング入門 17. ハイブリッドプログラミング 2

3 1. システム構成と利用方法 3

4 計算サーバ構成概要計算サーバ SGI Altix UV1000 x 2 式ハードウエア Intel Xeon Processor E GHz/24MB Cache x 512 コア 5.4TFLOPS 8TB (1033MHz x 4 チャンネル, 共有メモリ ) インターコネクト NUMAlink5 (15GB/sec 双方向 ) オペレーティングシステム SuSE Linux Enterprise Server 11.1 SGI Foundation Software and SGI Performance Suite ソフトウェア Intel Fortran Compiler 12.1 Intel C++ Compiler 12.1 Inlte MKL 10.3 Intel Trace Analyzer/Collector PerfSuite MPInside 4

5 PBS キュー構成と利用方法バッチジョブのキュー構成は下記の様に設定されていますクラスジョブの特徴キュー待ちからの実行順位ジョブ実行の優先順位 (nice 値 ) ( ジョブあたりの ) 演算時間 ( ジョブあたりの ) 最大メモリ容量 SMALL 小規模ジョブ高高 224days 32GB (4GB) MEDIUM 中規模ジョブやや高やや高 896days 128GB (16GB) LARGE 超並列ジョブ中中 3584days 512GB (64GB) HUGE 大規模メモリジョブ低低 672days 1536GB (192GB) ( ジョブあたりの ) 最大コア数 8cores (2cores) 32cores (8cores) 128cores (32cores) 12cores (3cores) ( キューあたりの ) 最大ジョブ数制限なし制限なし制限なし 4 ジョブの投入 % qsub [option] <JOB_SCRIPT> -N ジョブ名の指定 -q ジョブを投入するキューの指定 -o 標準出力ファイルのPATHの指定 -e 標準エラー出力ファイルのPATHの指定 -j oe 標準出力と標準エラー出力をまとめて出力 -l ジョブ実行に必要なリソースの要求主なリソース ncpus=( プロセッサ数の指定 ) mem=( 最大物理メモリ容量 ) walltime=( ジョブを実行できる実際の経過時間 ) cput=( ジョブによって使用されるCPU 時間の最大値 ) 5

6 PBS の利用方法ジョブスクリプト例 :OpenMP プログラム ( コンパイル済み ) を実行する qsub オプション部分 : 行の先頭に #PBS を記述します同じオプションをジョブ投入時に付加することをできますそれ以外の部分 : シェルで実行されるコマンドとして扱われます #!/bin/csh シェルを指定 #PBS q SMALL 投入するキューを指定 #PBS o my-job.out 標準入力ファイルのPATHを指定 #PBS e my-job.err 標準エラー出力ファイルのPATHを指定 #PBS l ncpus=4 必要なリソースの要求 (4コア) #PBS N my-job 投入するジョブ名の指定 cd ${PBS_O_WORKDIR} setenv KMP_AFFINITY disabled setenv OMP_NUM_THREADS 4 dplace x2./a.out 作業ディレクトリへ移動インテルコンパイラのAFFINITYをdisabledにする並列度の設定実行ジョブの確認 % qstat ステータス Q : 実行待ち R : 実行中 E: 終了処理中 S : 中断中ジョブの削除 % qdel <Job id> 6

7 インタラクティブジョブの実行インタラクティブジョブを実行する qsub -I qsubオプション部分 : -I: インタラクティブオプションインタラクティブオプションをつけてキューに投入するとジョブの実行とともに入出力インタフェースがジョブ投入ウィンドウに返されます. ジョブを終了するには exit を入力します qsub -I -q SMALL ncpus=8 のように他のオプションを利用することも可能ですジョブを終了するには exit を入力します 7

8 2. SGI Altix UV1000 アーキテクチャ 8

9 並列計算機アーキテクチャ SMP ( 共有メモリ型 ) ccnuma ( 分散共有メモリ型 ) Cluster ( 分散メモリ型 ) Core Cache Core Cache Core Cache Core Cache Core Cache Core Cache Core Cache Core Cache Core Cache Core Cache Core Cache Core Cache Memory Memory Memory Memory Memory Memory Memory Memory BUS BUS BUS BUS Memory Memory Memory Memory Scalable Interconnect SGI UV1000 Interconnect (InfiniBand, Gigabit Ether, etc.) 特徴 SMP ccnuma Cluster メモリを共有コンパイラによる自動並列化が可能ローカルにメモリを持つが論理的に共有可能自動並列化が可能 9 ローカルにメモリノード間はデータ転送が必要プログラミング容易容易容易でない ( 自動並列化 OpenMPが可能 ) ( 自動並列化 OpenMPが可能 ) ( 自動並列化 OpenMPはノード内のみ ) H/W スケーラビリティ中高い非常に高い

10 グローバル共有メモリ NUMAlink Router SGI UV Blade SGI UV Blade SGI UV Blade SGI UV Blade UV HUB UV HUB UV HUB HUB UV HUB HUB CPU CPU CPU CPU CPU CPU CPU CPU 128GB 128GB 128GB 128GB 128GB 128GB 128GB 128GB 1024GB Shared Memory Up to 16TB Global Shared Memory 10

SGI UV architecture: Compute Blade Each blade: Up to 20 Intel Xeon E7 cores, up to 256GB DDR3 Intel Xeon E7-8800 series Intel Xeon E7-8800

Scalable Memory Buffer SGI NUMAlink 5 = 15.0GB/s Intel Quick Path Interconnect (QPI) = 25.6GB/s aggregate (6.4GT/s) Directory FBD1 = 6.

11 SGI UV architecture: Compute Blade Each blade: Up to 20 Intel Xeon E7 cores, up to 256GB DDR3 Intel Xeon E series Intel Xeon E series I/O risers provide choice of expansion slot capabilities &(4) Intel Xeon E Scalable Memory Buffer &(4) Intel Xeon E Scalable Memory Buffer SGI NUMAlink 5 = 15.0GB/s Intel Quick Path Interconnect (QPI) = 25.6GB/s aggregate (6.4GT/s) Directory FBD1 = 6.4GB/s read + 3.2GB/s write (800MHz DIMMs) Intel E7 Scalable Memory Buffers with 4 channels of DDR3 DIMMs Intel Scalable Memory Interconnect (SMI) 11

12 SGI UV 1000 System Overview To Router To Router NUMAlink5 Compute blade Compute blade To Router NUMAlink5 To Router Paired Node Bisection Bandwidth 480 GB/s 15GB/s/node 12

13 3. 開発環境 13

14 SGI Altix UV1000 開発環境 OS SUSE Linux Enterprise Server 11.1 SGI Foundation Software 2.4 SGI Accelerate 1.2 SGI Performance Suite 1.2 Fortran コンパイラ C/C++ コンパイラ Intel Fortran Compiler 12.1, gfortran Intel C++ Compiler 12.1, gcc ライブラリ Intel MKL 10.3 MPI SGI MPT (MPI 2.2 仕様に完全準拠 ) デバッガツール Intel Debugger, gdb PerfSuite, MPInside, perfcatcher 14

15 4. コンパイルと実行 15

16 コンパイラコマンド Intel Compiler のコンパイルコマンド icc (C/C++ をサポート ) icpc (C++ をサポート ) ifort (Fortran 77, 90, 95, 2003, 2005( 一部 ) をサポート ) オプション一覧を表示したいとき icc help / ifort help バージョン情報 icc V / ifort V コンパイル icc sample.c / ifort sample.f コンパイラマニュアルは以下の URL からインテルコンパイラのマニュアルをご参照ください 16

17 コンパイルと実行 Fortran プログラムシリアルプログラム $ ifort O3 prog.f ( コンパイル ) $ dplace./a.out ( 実行 ) OpenMP プログラム $ ifort O3 openmp prog_omp.f ( コンパイル ) $ setenv KMP_AFFINITY disabled $ setenv OMP_NUM_THREADS 4 ( スレッド並列数の設定 ) $ dplace x2./a.out ( 実行 ) MPI プログラム $ ifort O3 prog_mpi.f lmpi ( コンパイル ) $ mpirun np 4 dplace s1./a.out ( 実行 ) ハイブリッド (MPI+OpenMP) プログラム $ ifort O3 openmp prog_hyb.f lmpi ( コンパイル ) $ setenv KMP_AFFINITY disabled $ setenv OMP_NUM_THREADS 4 ( スレッド並列数の設定 ) $ mpirun np 4 omplace nt ${OMP_NUM_THREADS}./a.out ( 実行 ) 17

18 コンパイルと実行 C/C++ プログラムシリアルプログラム $ icc O3 prog.f ( コンパイル ) $ dplace./a.out ( 実行 ) OpenMP プログラム $ icc O3 openmp prog_omp.f ( コンパイル ) $ setenv KMP_AFFINITY disabled $ setenv OMP_NUM_THREADS 4 ( スレッド並列数の設定 ) $ dplace x2./a.out ( 実行 ) MPI プログラム $ icc O3 prog_mpi.f lmpi ( コンパイル ) $ mpirun np 4 dplace s1./a.out ( 実行 ) ハイブリッド (MPI+OpenMP) プログラム $ icc O3 openmp prog_hyb.f lmpi ( コンパイル ) $ setenv KMP_AFFINITY disabled $ setenv OMP_NUM_THREADS 4 ( スレッド並列数の設定 ) $ mpirun np 4 omplace nt ${OMP_NUM_THREADS}./a.out ( 実行 ) 18

19 バッチスクリプト例シリアルプログラム #/bin/csh #PBS -N serial_job ジョブ名 #PBS -q SMALL キュー名 #PBS -o stdout.log 標準出力ファイル #PBS j oe 標準出力と標準エラー出力をまとめる #PBS -l ncpus=1 リソースの確保 (1コア) cd ${PBS_O_WORKDIR} dplace./sample 作業ディレクトリへ移動実行 19

20 バッチスクリプト例 OpenMP プログラム #/bin/csh #PBS -N openmp ジョブ名 #PBS -q SMALL キュー名 #PBS -o stdout.log 標準出力ファイル #PBS j oe 標準出力と標準エラー出力をまとめる #PBS -l ncpus=4 リソースの確保 (4コア) cd ${PBS_O_WORKDIR} 作業ディレクトリへ移動 setenv KMP_AFFINITY disabled インテルのAffinityをdisabledにする setenv OMP_NUM_THREADS 4 スレッド並列数の設定 (4スレッド) dplace -x2./a.out 実行 20

21 バッチスクリプト例 MPI プログラム #/bin/csh #PBS -N mpi ジョブ名 #PBS -q SMALL キュー名 #PBS -o stdout.log 標準出力ファイル #PBS j oe 標準出力と標準エラー出力をまとめる #PBS -l ncpus=4 リソースの確保 (4コア) cd ${PBS_O_WORKDIR} mpirun -np 4 dplace -s1./a.out 作業ディレクトリへ移動 4 並列で実行 21

22 バッチスクリプト例ハイブリッドプログラム #/bin/csh #PBS -N hybrid ジョブ名 #PBS -q MEDIUM キュー名 #PBS -o stdout.log 標準出力ファイル #PBS I oe 標準出力と標準エラー出力をまとめる #PBS -l ncpus=16 リソースの確保 (16コア) cd ${PBS_O_WORKDIR} 作業ディレクトリへ移動 setenv KMP_AFFINITY disabled setenv OMP_NUM_THREADS 4 mpirun -np 4 omplace -nt ${OMP_NUM_THREADS}./a.out MPI = 4 プロセス x OpenMP 4 スレッド = 16 コアで実行 22

23 5. 最適化について 23

24 最適化並列化手順アプリケーションプログラムの高速化を検討する際は一般に次のような手順で最適化並列化を行います性能解析ツールを使用してプログラムのボトルネックになっている部分やその原因を特定します 1プロセッサでの高速化 ( 最適化 ) を検討する最適化したプログラムの並列化を検討する性能解析最適化一般にはこの手順を繰り返すことによって高い性能が得られます並列化最適化並列化コード 24

25 最適化並列化手順プログラム最適化には様々の方法がありますコンパイラオプション最適化されたライブラリコード修正による最適化並列化にも様々な方法があります自動並列化 OpenMP 指示行 MPI Hybrid (MPI + OpenMPなど ) 25

26 6. コンパイラオプション 26

27 推奨するコンパライオプションデフォルトで設定されている主なオプションオプションの種類オプションオプションのレベル最適化レベル -O2 パフォーマンス向上のための最適化を行ないます特定のプロセッサ向けの最適化 -msse2 インテルプロセッサ向けにSSE2およびSSE 命令を生成し SSE2 対応のインテルXeonプロセッサ向けの最適化をします推奨するオプションオプションの種類オプションオプションのレベル最適化レベル -O3 -O2に加えプリフェッチスカラー置換ループ変換およびメモリアクセス変換などのより強力な最適を有効にします特定のプロセッサ向けの最適化 -xsse4.2 SSE4ベクトル化コンパイラー命令及びメディアアクセラレター命令 SSSE3, SSE3, SSE2, SSE 命令を生成しインテルXeonE 番台および5600 番台のプロセッサ向けに最適化をします 27

28 最適化レベルオプションオプション内容 -O0 全ての最適化を無効とします主にデバッグ時に利用 -O1 グローバルな最適化を有効化組み込み関数の認識と組込み関数のインライン展開の無効この最適化レベルでは分岐が多く実行時間の多くがループではないコードの性能向上が見込めますデフォルトの最適化レベル最適化レベルを指定しない場合この最適化レベルが適用されますこの最適化レベルでは次の最適化を行います -O2 インライン展開定数伝播コピー伝播不要コードの削除グローバルレジスタの割り当てグローバル命令スケジューリングスペキュレーションコントロールループのアンロールコード選択の最適化 -O2 オプションに加えてプリフェッチスカラー置換キャッシュブロッキングループ変換メモリアクセス変換などの最適化を行います -O3 -fast 浮動小数点演算の多いループや大きなデータセットを処理するコードで性能向上が見込めます -axsse4.2 および -xsse4.2 オプションとの組み合わせでより詳細なデータ依存性解析をします -xhost O3 ipo no-prec-div static を有効にするマクロオプションです -fast オプションには -static オプションが含まれるためダイナミックライブラリしか提供されていないライブラリを利用する場合 -Bdynamic オプションでそのライブラリを指定する必要があります 28

29 最適化に関するオプションオプション内容 -x プロセッサプロセッサで指定した特定のプロセッサ向けのバイナリを生成します -axプロセッサ -vec -vec-report -no-prec-div -no-prec-sqrt プロセッサで指定した特定のプロセッサ向けのバイナリと一般的な IA32 アーキテクチャ向けのバイナリを一つのバイナリで生成しますベクトル化を有効 / 無効にしますデフォルトは有効ベクタライザーからのメッセージをコントロールしますデフォルトではベクタライザーからのメッセージは出力されませんベクタライザーからのメッセージを出力するためにはこのオプションを有効にしてください IEEE 準拠の除算よりも多少精度が低くなる場合がありますが最適化を試みます平方根計算が多少精度が低くなる場合はありますが高速な計算を行います 29

30 特定のプロセッサ向けの最適化オプション -ax プロセッサ -x プロセッサ : 特定のプロセッサ向けの最適化を行いますプロセッサ HOST SSE4.2 SSE4.1 SSSE3 SSE3 特定のプロセッサ向けの最適化を行いますコンパイルをしたプロセッサで利用可能な最も高いレベルの命令を生成しそのプロセッサ向けの最適化を行います Westmere-EX(Intel Xeon E 番台 ) 向けの最適化を行い SSE4.2 命令を生成しますさらに SSE4 のベクトル化コンパイル命令メディアアクセラレター SSSE3, SSE3, SSE2, SSE 命令を生成しインテル Core プロセッサ向け最適化を行います SSE4 のベクトル化コンパイル命令メディアアクセラレター SSSE3, SSE3, SSE2, SSE 命令を生成し 45nm プロセスルール世代のインテル Core プロセッサ (Intel Xeon 5200 番台 5400 番台 ) 向け最適化を行います SSSE3, SSE3, SSE2, SSE 命令を生成しインテル Core2 Duo プロセッサ (Intel Xeon 5100 番台 5300 番台 ) 向け最適化を行います SSE3, SSE2, SSE 命令を生成しインテル Netburst マイクロアーキテクチャ向け (Intel Xeon 5000 番台 ) 最適化を行います 30

31 最適化に関するオプションプロシージャ間解析の最適化オプション -ip -ipo 内容 1 つのソースファイルにあるプロシージャ間の解析最適化を行います複数のソースファイルにあるプロシージャ間の解析最適化を行いますリンク時にもオプションとして指定してください浮動小数点演算に関するオプションオプション -ftz -fltconsistency 内容アンダーフローが発生したときに値をゼロに置き換えますデフォルトではこのオプションが有効になっていますこのオプションが数値動作で好ましくない結果を出力した場合 -no-ftzオプションでアンダーフローが発生したときに値をゼロにフラッシュしなくなります浮動小数点の一貫性を向上させ IEEE754 規格に則った浮動小数点演算コードを生成します 31

32 最適化に関するオプションオプション -falias -fno-alias -ffnalias -fno-fnalias 内容複数のポインタが同じメモリ領域を参照する ( エイリアスがある ) かどうかをコンパイラに指示するエイリアスがない場合データ依存性問題の発生する可能性がないためコンパイラは積極的な最適化を行うようになります特に C/C++ コードの最適化に効果を発揮しますソースコードを書き換えてよいならポインタに restrict を使用することもできます ( お勧め ) エイリアスがある場合このオプションを使うと正しい結果が得られませんエイリアスがないことを利用者が認識している場合にのみ有効です p p P のアクセス範囲 P のアクセス範囲 q q q のアクセス範囲 q のアクセス範囲エイリアスなし 32 エイリアスあり

33 最適化レポートオプション -opt-report [n] -opt-report-file=name -opt-report-routine=name -opt-report-phase=name -opt-report-help 内容最適化レポートを標準エラー出力に表示 n=0 : disable optimization report output n=1 : minimum report output n=2 : medium output (DEFAULT) n=3 : maximum report output 最適化レポートを name というファイルに出力 name で指定されたサブルーチンのレポートのみを出力 name で指定された最適化フェーズのレポートを出力最適化レポート生成可能な最適化機構フェーズを表示最適化のフェーズについて最適化フェーズ最適化の内容関連するオプション ipo Interprocedural Optimizer -ipo, -ip hlo High-level Language Optimaizer -O3 (Loop Unrolling) ilo hpo Intermediate Language Scalar Optimizer High Performance Optimizer pgo Profile Guided Optimizer -prof_gen, -prof_use 33

34 リンクに関するオプションオプション -static -Bstatic -Bdynamic -shared-intel -static-intel 内容スタティックライブラリをリンクしますスタティックライブラリが無い場合はエラーになりますスタティックライブラリを指定しますダイナミックライブラリを指定しますインテルのダイナミックライブラリをリンクしますインテルのスタティックライブラリをリンクします 34

35 データサイズ Intel64 コンパイラ C ビット数 FORTRAN short int int long int long long int float double long double INTEGER(KIND=2) INTEGER(KIND=4) INTEGER (KIND=8) INTEGER(KIND=8) REAL(KIND=4) REAL(KIND=8) REAL(KIND=16) char 8 CHARACTER(LEN=1) 35

36 データサイズ IA32, Intel64, IA64 コンパイラの違いビット数 C 言語でのサイズ Intel 32 Intel 64 IA-64 char short int int long long long pointer float double long double

37 Intel 64 におけるメモリモデル Intel Compiler では 32 および 64 ビットのバイナリは異なります Intel 64 メモリモデル small( デフォルト ) コードとデータは最初の 2GB のメモリ空間に制限されます medium(-mcmodel=medium) コードは最初の 2GB のメモリ空間に制限されますがデータは制限されません large(-mcmodel=large) コードもデータも制限されません Intel 64アーキテクチャはの2GBの制限は 2GBを超える配列だけでなく合計が2GBを超える共通ブロックとローカルデータにも適用されます 37

38 データ変換バイナリデータのエンディアン Xeon, Opteron : Little Endian Sparc, Power, SX : Big Endian Big EndianバイナリファイルをXeonのシステムで読み込むにはエンディアンの変換が必要ですコンパイルオプションによる変換 -convert big_endian 環境変数による変換すべてのファイルに対してビックエンディアンに変換 $ setenv F_UFMTENDIAN big ユニット番号 10, 20のみをビックエンディアンに変換 $ setenv F_UFMTENDIAN big:10,20 ユニット番号 10から20をビックエンディアンに変換 $ setenv F_UFMTENDIAN 拡張子 (.DAT) を指定してビックエンディアンに変換 $ setenv FORT_CONVERT.DAT BIG_ENDIAN FORTRAN のみ 38

39 7. 数値計算ライブラリ 39

40 Intel Math Kernel Library (MKL) 特徴科学技術計算向けインテルプロセッサ向けにチューニングマルチスレッド対応スレッド並列化スレッドセーフ自動ランタイムプロセッサ検出機能 C および Fortran のインターフェイス 40

41 Intel Math Kernel Library (MKL) Intel Math Kernel Library には以下の機能が含まれます BLAS BLACS LAPACK ScaLAPACK PBLAS Sparse Solver Vector Math Library (VML) Vector Statistical Library (VSL) Conventional DFTs and Cluster DFTs etc. 41

42 Intel Math Kernel Library (MKL) MKL をリンクする方法シリアル版の場合 : $ ifort o test test.f lmkl_intel_lp64 lmkl_sequential lmkl_core スレッド版の場合 : $ ifort o test test.f lmkl_intel_lp64 lmkl_intel_thread lmkl_core liomp5 インテルコンパイラのオプション -mkl で MKL をリンクすることもできますシリアル版の場合 : $ ifort o test test.f mkl=sequential スレッド版の場合 : $ ifort o test test.f mkl=parallel 42

43 Intel Math Kernel Library (MKL) BLACS および ScaLAPACK の利用方法シリアル版の場合 : $ ifort -lmkl_scalapack_lp64 -lmkl_blacs_sgimpt_lp64 -lmkl_intel_lp64 -lmkl_sequential -lmkl_core example1.f -lmpi スレッド版の場合 : $ ifort -lmkl_scalapack_lp64 -lmkl_blacs_sgimpt_lp64 -lmkl_intel_lp64 -lmkl_intel_thread -lmkl_core -liomp5 example1.f -lmpi インテルコンパイラのオプション -mkl で MKL をリンクすることもできますシリアル版の場合 : $ ifort -lmkl_scalapack_lp64 -lmkl_blacs_sgimpt_lp64 -mkl=sequential example1.f -lmpi スレッド版の場合 : $ ifort -lmkl_scalapack_lp64 -lmkl_blacs_sgimpt_lp64 -mkl=parallel example1.f-lmpi 43

44 Intel Math Kernel Library (MKL) スレッド並列版 MKL を使う場合は注意が必要ですシリアルで実行スレッド並列で実行 MPIで実行ハイブリッドで実行環境変数 OMP_NUM_THREADS を 1 に設定しますまたはシリアル版 MKL をリンクします環境変数 OMP_NUM_THREADS を並列実行数に設定します OpenMP のプログラム中で MKL を使う場合 OMP_NUM_THREADS で設定されたスレッド数で実行されますまた OpenMP のスレッド数とは違うスレッド数で実行したい場合は OMP_NUM_THREADS 以外に MKL_NUM_THREADS を設定します OpenMP で並列化されたループ内で MKL のスレッド並列化された関数を用いる場合デフォルトでは OpenMP のネストが無効になっているため MKL のスレッド並列は無効です環境変数 OMP_NESTED を yes とすることにより MKL のスレッド並列を有効にすることが可能です MPI のみで並列実行する場合 MKL がスレッド並列で動作しないように環境変数 OMP_NUM_THREADS を 1 に設定しますまたはシリアル版 MKL をリンクします MPI とスレッド並列のハイブリッドでの実行をする場合 MKL のスレッド数を OMP_NUM_THREADS または MKL_NUM_THREADS で設定します 44

45 8. デバッガと時間計測関数 45

46 デバッガ以下のデバッガをご利用いただけます gdb - GNU Debugger Linux 標準のデバッガマルチスレッド対応 (OpenMP, pthread) idbc Intel Debugger Intel Compiler に付属のデバッガマルチスレッド対応 (OpenMP, pthread) インタフェイスを変更可 (dbx 風 gdb 風 ) GUI 対応 (idb) ( 使用例 ) コアファイルの解析 % idbc./a.out core (idb)where (idb)w idb からのプログラムの実行 % idbc./a.out (idb) run 実行中のプロセスへのアタッチ % idbc pid [process id]./a.out % gdb a.out [process id] 46

47 デバッグに関するオプションデバッグ時に有用なコンパイルオプションオプション内容 -g -traceback -g -check bounds traceback -g -fpe0 traceback -g -r8 オブジェクトファイルにデバッグ情報を生成する最適化レベルオプション -O が明示的に指定されていない場合最適化レベルは -O0 になりますデバッグのために必要な情報をオブジェクトファイルに埋め込みます Segmentation Fault などのエラー終了時にエラーの発生箇所を表示します実行時に配列の領域外参照を検出します 2 つのオプションと -g オプションを同時に指定してください浮動小数点演算の例外処理を検出します 2 つのオプションと -g オプションを同時に指定してください real/compelx 型で宣言された変数を real*8/complex*16 型の変数として取り扱います -i8 integer 型で宣言された変数を integer*8 型の変数として取り扱います -save -zero 変数を静的に割り当てゼロで初期化します 47

$h> gettimeofday の例 : 以下のようにすると μ 秒単位の時間を返します double elapsed_() { struct timeval tp;$

48 時間計測関数 C/C++ gettimeofday Fortran cpu_time time, etime, dclock MPI(C/C++/Fortran) MPI_Wtime OpenMP omp_get_wtime #include<sys/time.h> #include<stdio.h> gettimeofday の例 : 以下のようにすると μ 秒単位の時間を返します double elapsed_() { struct timeval tp; struct timezone tz; gettimeday(&tp,&tz); return ( (double) tp.tv_sec + (double) tp.tv_usec * 1.e-6 ); } 48

49 時間計測関数 C プログラムで使用できる時間計測関数 gettimeofday : 経過時間を秒で返します mpi_wtime : 経過時間を秒で返します (MPIプログラム) omp_get_wtime : 経過時間を秒で返します (OpenMPプログラム) 参考資料より抜粋 49

50 9. ファーストタッチとデータ配置 50

51 ファーストタッチポリシー SGI Altix UV1000 は NUMA アーキテクチャでありデータはファーストタッチポリシーでメモリに配置されますファーストタッチポリシーとは最初にデータに触れたコアのローカルメモリにデータが配置されます NUMA アーキテクチャではある特定のコアからみるとローカルメモリとリモートメモリがありますデータをできるだけローカルメモリに配置して計算することが高速化において必要ですプロセスをどこのコアに配置するかが重要になります (dplace/omplace コマンド ) NUMAlink Router Altix UV Blade Altix UV Blade Altix UV Blade Altix UV Blade HUB HUB HUB HUB リモートメモリアクセス CPU CPU CPU CPU CPU CPU CPU CPU ローカルメモリアクセス 64GB 64GB 64GB 64GB 64GB 64GB 64GB 64GB Altix UV におけるファーストタッチポリシーの概念図 51

52 NUMA における並列化の留意点全てのデータはファーストタッチで ( ページ単位で ) メモリに配置されます初期化ループが逐次実行領域である場合該当データは逐次実行したノードに配置されます並列実行領域では全てのプロセッサから1ノードへのアクセスが集中してプログラムの性能が低下します NUMAlink Router do i = 1, N a(i) = 0.d0 b(i) = real(i)/2.d0 c(i) = real(i)/3.d0 d(i) = real(i)/7.d0 enddo!$omp parallel do do i = 1, N a(i) = b(i) + c(i) + d(i) enddo 逐次実行並列実行ここにアクセスが集中してボトルネックになる 52 CPU Altix UV Blade 64GB HUB CPU 64GB CPU データがここだけにアロケーションされる Altix UV Blade 64GB HUB CPU 64GB

53 NUMA における並列化の留意点初期化ループを並列化します全てのデータはファーストタッチによりローカルなメモリに配置されます並列実行領域では各スレッドがローカルなメモリへアクセスすることになりプログラムの性能が向上する!$omp parallel do do i = 1, N a(i) = 0.d0 b(i) = real(i)/2.d0 c(i) = real(i)/3.d0 d(i) = real(i)/7.d0 enddo!$omp parallel do do i = 1, N a(i) = b(i) + c(i) + d(i) enddo 並列実行並列実行 CPU Altix UV Blade HUB CPU CPU NUMAlink Router Altix UV Blade HUB CPU 64GB 64GB 64GB 64GB 53 それぞれのローカルなメモリにデータがアロケーションされアクセスが分散される

54 dplace/omplace コマンドプロセス ( スレッド ) をコアに固定するために dplace コマンドまたは omplace コマンドを使いますプロセス ( スレッド ) が別のコアに移動してしまうことを防ぎますリモートメモリアクセスやキャッシュ利用の効率化並列化プログラムについてはオプションを用いて管理プロセス ( スレッド ) の配置を抑止します管理プロセス ( スレッド ) の配置を抑止することによって計算プロセス ( スレッド ) を正しく配置します実行例シリアルプログラム % dplace [-c0]./a.out OpenMP プログラム % dplace x2 [-c0-3]./a.out MPI プログラム % mpirun np 4 dplace s1 [-c0-3]./a.out Hybrid プログラム (MPI + OpenMP) % mpirun np 4 omplace nt 4./a.out 54

55 10. 性能解析ツール 55

56 性能解析ツールプログラムのホットスポットやボトルネックを検出するための性能解析ツールを用意していますシリアルプログラムだけでなく OpenMPやMPIによる並列プログラムの性能解析も可能 MPI 通信の解析も可能性能解析ツール PerfSuite MPI 通信解析ツール MPInside 56

57 PerfSuite PerfSuite はプログラムのホットスポットをルーチンレベルラインレベルで調査することができます PerfSuite の特徴再リンクを必要としない ( ラインレベルの解析は -g を付けて再ビルドの必要があります ) MPIやOpenMPによる並列プログラムに対応シンプルなコマンドラインツールスレッド / プロセスごとにレポートを出力ソースラインレベルで解析可能 57

58 PerfSuite 利用方法 ( 準備 ) 準備 bash 系の場合 $. /opt/sgi/perfsuite/bin/psenv.sh csh 系の場合 $ source /opt/sgi/perfsuite/bin/psenv.csh 58

59 PerfSuite 利用方法 ( 実行コマンド ) psrunコマンドを用いてプロファイルの取得をしますラインレベルでの取得が必要な場合は -g オプションを付けてビルドします PerfSuiteでプロファイル取得時の実行コマンドです dplaceコマンドのオプションが変わりますのでご注意くださいシリアルプログラム (0 番のコアで実行 ) $ dplace s1 c0 psrun./a.out OpenMP プログラム (4 スレッドを 0 から 3 番のコアで実行 ) $ dplace x5 c0-3 psrun -p./a.out MPI プログラム (SGI MPT を用いて 4 プロセスを 0 から 3 番のコアで実行 ) $ mpirun np 4 dplace s2 c0-3 psrun -f./a.out 59

60 PerfSuite 利用方法 ( 実行例 ) OpenMP プログラム 4 スレッドの実行例実行後スレッド / プロセス毎に以下の名前のファイルが生成されますプロセス名.( スレッド番号.)PID. ホスト名.xml $ ls -l a.out.*.xml -rw-r--r-- 1 appadm crj :53 a.out uva.xml -rw-r--r-- 1 appadm crj :53 a.out uva.xml -rw-r--r-- 1 appadm crj :53 a.out uva.xml -rw-r--r-- 1 appadm crj :53 a.out uva.xml -rw-r--r-- 1 appadm crj :53 a.out uva.xml 60

61 PerfSuite 利用方法 ( 結果の表示例 ) プロファイル結果として出力されたファイルを psprocess コマンドで成形してプロファイル結果を表示します $ psprocess a.out uva.xml 61

62 PerfSuite 利用方法 ( 結果の表示例 ) OpenMP プログラムを 4 スレッドで実行したときのマスタースレッドの結果プロファイルを取得したシステムの環境のサマリー PerfSuite Hardware Performance Summary Report Version : 1.0 Created : Mon Jun 18 16:54:28 JST 2012 Generator : psprocess 0.5 XML Source : a.out uva.xml Module Summary モジュール毎のプロファイル結果 Execution Information ============================================================================================ Samples Self % Total % Module Collector : libpshwpc Date : Mon Jun 18 16:53: % 99.63% /home/appadm/gojuki/training_2012/a.out Host : uva % % /lib64/libc so Process ID : Thread : % % /lib64/libpthread so User : appadm File Summary Command : a.out ファイル毎のプロファイル結果 Processor and System Information Samples Self % Total % File ============================================================================================ Node CPUs : % 99.63% /home/appadm/gojuki/training_2012/himenobmtomp.c Vendor : Intel Family : Pentium Pro (P6) % %?? Brand : Intel(R) Xeon(R) CPU 2.67GHz Function Summary 関数毎のプロファイル結果 CPU Revision : 2 Clock (MHz) : Memory (MB) : Samples Self % Total % Function Pagesize (KB) : % 53.06% L_jacobi_201 par_loop0_2_132 Cache Information % 97.38% jacobi ============================================================================================ % 99.63% main Cache levels : 3 ============================================================================================ ラインレベルでのプロファイル結果 Function:File:Line Summary Profile Information Samples Self % Total % Function:File:Line ============================================================================================ Class : itimer % 40.82% jacobi:/home/appadm/gojuki/training_2012/himenobmtomp.c:230 Version : % 48.06% L_jacobi_201 par_loop0_2_132:/home/appadm/gojuki/training_2012/himenobmtomp.c:211 Event : ITIMER_PROF (Process time in user and system mode) % 55.31% L_jacobi_201 par_loop0_2_132:/home/appadm/gojuki/training_2012/himenobmtomp.c:213 Period : Samples : % 62.42% L_jacobi_201 par_loop0_2_132:/home/appadm/gojuki/training_2012/himenobmtomp.c:206 Domain : all % 68.16% L_jacobi_201 par_loop0_2_132:/home/appadm/gojuki/training_2012/himenobmtomp.c:221 Run Time : (seconds) % 72.41% L_jacobi_201 par_loop0_2_132:/home/appadm/gojuki/training_2012/himenobmtomp.c:209 Min Self % : (all) % 76.53% L_jacobi_201 par_loop0_2_132:/home/appadm/gojuki/training_2012/himenobmtomp.c:210 62

63 MPInside MPInsideはMPIプログラムにおいてどのMPI 関数で時間がかかっているのかまた通信するデータサイズなどのプロファイルを取得することができますプロファイル結果によって MPIプログラムのチューニングに有用な情報が得られます 63

64 MPInside 利用方法 ( 準備と実行 ) 準備 module コマンドで MPInside を利用できるように設定します実行例 $ module load MPInside/ プロセスを 0 から 3 番のコアで実行する場合を示します $ mpirun -np 4 dplace -s1 -c0-3 MPInside./a.out 実行結果は mpinside_stats ファイルに保存されます 64

65 MPInside 利用方法 ( 実行結果 ) 4 並列で実行したときの実行結果 MPInside standard(oct :32:25) >>> column meanings <<<< init : MPI_Init waitall : mpi_waitall : Ch_send=0,R_send+=count;Ch_recv=0,R_recv++ >>>> Elapse times in (s) 0 1<<<< 経過時間ごとの通信プロファイル結果 isend : mpi_isend CPU Comput init waitall isend irecv barrier allred carcrea cartget carshif overhead irecv : mpi_irecv barrier : mpi_barrier : R_send+=comm_sz;R_recv allred : mpi_allreduce : R_send+=comm_sz;Ch_recv+=count,R_recv carcrea : mpi_cart_create cartget : mpi_cart_get carshif : mpi_cart_shift >>>> Ch_send array: Mbytes with send attribute <<<< 送信サイズ [Mbytes] overhead : mpinside_overhead : Various MPInside overheads CPU Comput init waitall isend irecv barrier allred carcrea cartget carshif overhead 送信回数 >>>> R_send array: Number of requests with Send attribute<<<< CPU Comput init waitall isend irecv barrier allred carcrea cartget carshif overhead >>>> Ch_recv array: Mbytes with Recv attribute <<<< CPU Comput init waitall isend irecv barrier allred carcrea cartget carshif overhead >>>> R_recv array: Number of requests with Recv attribute<<<< CPU Comput init waitall isend irecv barrier allred carcrea cartget carshif overhead 受信サイズ [Mbytes] 受信回数

66 11. 並列化プログラミング 66

67 並列化についてプログラムを並列化することのメリットは実行時間 ( ターンアラウンドタイム ) が短縮されることです並列化によるスピードアップ s とは下式のようにスレッド数 1 で実行した場合の実行時間 T 1 とスレッド数 N で実行した場合の実行時間 T N の比であると定義します T 1 s T N 67

68 アムダールの法則 1/4 あるプログラムを逐次実行した際の実行時間のうち並列化できる部分の割合を p (0 p 1) としますこのときスレッド数 N で実行した場合のスピードアップ s は並列化のオーバーヘッド等を無視できるとすると以下の式に従うことが知られています s = p N + 1 ( 1 p) ( 0 p 1) これをアムダールの法則といいます 68

69 アムダールの法則 2/4 アムダールの法則によるスピードアップの理論値スピードアップ s p=0.9 p=0.95 p= スレッド数 N 69

70 アムダールの法則 3/4 多くのプロセッサを使用して高い並列性能を得るためには実行時間中の並列処理されている時間の割合 p を少しでも高めることが重要です並列化のオーバーヘッドが増大することは p が減少すること等価であると考えられますしたがって並列性能を高めるためには逐次実行領域を減らすオーバーヘッドを減らすことが重要です 70

71 アムダールの法則 4/4 逐次実行領域を減らす並列実行領域を増やす OpenMP では master, critical, atomic, single 領域を減らすオーバーヘッドを減らす小さい並列実行領域をたくさん定義するのではなく大きな並列実行領域を定義するようにする ( 粗粒度 ) 十分な仕事量があるものだけ並列処理する同期待ち時間を避ける OpenMP では barrier を減らす可能ならば nowait を指定する... ロードバランスを改善する 71

72 12. インテルコンパイラ自動並列化 72

73 自動並列化インテルコンパイラによる自動並列化マルチスレッドの並列化コンパイラにより最適化と組み合わせた並列化コンパイルオプションによる簡単な操作並列化診断メッセージによるレポート ( ソースコードは出力されません ) 73

74 インテルコンパイラによる自動並列化インテルコンパイラで自動並列化を有効にするには-parallel オプションを指定しますコンパイルとリンクを別々に行う場合 $ ifort c parallel myprog.f $ ifort parallel ( または -openmp) myprog.o コンパイルとリンクを一緒に行う場合 $ ifort parallel myprog.f 実行時には OpenMP による並列化と同様に次の環境変数でスレッド数やランタイムスケジュールを設定します環境変数 OMP_NUM_THREADS OMP_SCHEDULE 使用するスレッド数を指定しますデフォルトは実行バイナリを作成したシステムの搭載されているコア数ランタイムスケジューリングを指定しますデフォルトは STATIC 74

75 インテルコンパイラによる自動並列化自動並列化では 2 つの指示行を使うことができます Fortranの場合!DEC$ PARALLEL Cの場合 #pragma parallel Fortranの場合!DEC$ NOPARALLEL Cの場合 #pragma noparallel ループに対して想定される依存性を無視して自動並列化を行うことをコンパイラに指示しますただし依存性が証明されると並列化されませんループに対して自動並列化を無効にします例!DEC$ NOPARALLEL do I = 1, n x(i) = I end do!dec$ PARALLEL do I = 1, n a( x(i) ) = I end do 自動並列化されません依存関係が想定されますが自動並列化されます 75

76 インテルコンパイラによる自動並列化 -parallel -par-thresholdn 自動並列化機能を有効にし安全に並列化できるループのマルチスレッドコード生成をコンパイラに指示しますこのオプションは -O2 または -O3 オプションも指定する必要があります並列実行が効果的である可能性に基づいてループの自動並列化の閾値を設定します n=0: ループの計算量に関わらず常に自動並列化します n=100: 性能向上が見込める場合のみ自動並列化します n=1~99 は速度向上する可能性を表します自動並列化の診断情報を制御しますデフォルトでは自動並列化メッセージは出力されません -par-reportn n=0: 診断情報を出力しません n=1: 正常に自動並列化できたループに対して LOOP AUTO-PARALLELIZED のメッセージを出力します n=2: 正常に自動並列化したループとできなかったループに対してメッセージを出力します n=3: 2 の出力に加えて自動並列化できなかった場合の判明した依存関係と想定される依存関係を主強くします 76

77 13.OpenMP OpenMP の利用方法 77

78 OpenMP の利用方法 (1/2) インテルコンパイラでは OpenMP Fortran 3.0 の API をサポートしていますインテルコンパイラで OpenMP を使用するときは次の様に -openmp オプションを指定してコンパイルしますコンパイルとリンクを別々に行う場合 $ ifort c openmp myprog.f $ ifort openmp myprog.o コンパイルとリンクを一緒に行う場合 $ ifort openmp myprog.f 実行するときは OpenMP 環境変数 OMP_NUM_THREADS で使用するスレッド数を指定します 78

79 OpenMP の利用方法 (2/2) -openmp OpenMP 指示行に基づきマルチスレッドコードを生成します OpenMP の診断情報を制御しますデフォルトでは OpenMP の診断メッセージは出力されません -openmp-reportn n=0: 診断メッセージを表示しません n=1: 正常に並列化された領域およびセクションを示す診断メッセージを表示します n=2: 1 で表示されるメッセージに加えて正常に処理された MASTER SINGLE CRITICAL ORDERED ATOMIC などの診断メッセージを表示します 79

80 14.OpenMP プログラミング入門 OpenMP とはループの並列化 OpenMP 指示行と環境変数 80

81 OpenMP とは OpenMP 指示行による並列化!$omp parallel do shared(a, B, C) do I = 1, 9999 A(i) = B(i) + C(i-1) + C(i+1) enddo!$omp end parallel do 代表的な OpenMP 指示行 PARALLEL { } PARALLEL DO, PARALLEL DO REDUCTION(+: ) MASTER CRITICAL BARRIER 81

82 OpenMP の指示行 OpenMP 指示行 = コンパイラに対する並列化命令 OpenMP 機能が無効の場合には単なるコメントとして扱われ無視されます大文字と小文字は区別されます (C の場合 ) 継続行は & アンパサンド (C の場合は / バックスラッシュ ) で記述します自由形式の場合は前の行の最後にも & が必要です!$omp parallel do private( 変数 p1, ) shared( 変数 s1, ) do i = 1, N 並列実行領域 enddo 同じ意味!$omp parallel do private( 変数 p1, )!$omp+shared( 変数 s1, ) do i = 1, N enddo 並列実行領域 82

83 hello, world PARALLE 指示行!$omp parallel [ オプション ( 節 )] 指示文に続く文を並列に実行します program main!$omp parallel!$omp critical write(6,*) hello, world!$omp end critical 並列実行領域!$omp end parallel end program main 83

84 hello, world の実行例 $ ifort -openmp openmp-report1 hello.f hello.f(3): (col. 7) remark: OpenMP DEFINED REGION WAS PARALLELIZED.] $ setenv OMP_NUM_THREADS 4 $ dplace x2./a.out hello, world hello, world hello, world hello, world $ 実行開始マスタスレッドのみ実行並列実行領域の生成それぞれ write 文を実行待ち合わせマスタスレッドのみの実行に戻る終了 84

85 レッレッレッレッド3do ループのワークシェアリング do 指示行!$omp do [ オプション ( 節 )] 並列実行領域で使用し後続する doループを各スレッドで分担して実行しますデフォルトではループ長がスレッド数で均等に分割されます i=1,2, N N/4 ずつに分割スループ長 N の処理 4 スレッドの場合ド0スド1スド2ス 85

86 do ループのワークシェアリング parallel do 指示行 parallel 指示行 + do 指示行並列実行領域を作成し後続の do ループを分割実行します subroutine daxpy(n, c, x, y) integer :: n real(kind=8) :: c real(kind=8),dimension(n) :: x, y!$omp parallel do private(i) shared(c, x, y) do i = 1, n y(i) = y(i) + c : x(i) end do!$omp end parallel do return end subroutine daxpy 86

87 データスコープ属性並列実行領域や分割実行されるループ中で参照される変数に関してそれらが各スレッドごとに独立した変数とすべきかすべてのスレッドで共有される変数とすべきかを宣言する必要がありますこれらをデータスコープ属性と言いますデータスコープ属性は parallel 指示文や for 指示文のオプションとして指定しますこれらのオプションを OpenMP では節 (clause) と呼びます!$omp parallel do private(i) shared(n, c, x, y) private 節 shared 節 87

88 shared 変数と private 変数 shared 変数 shared 節に指定された変数に対してはすべてのスレッドから同一のオブジェクトが参照されますオブジェクトの内容はマスタスレッドが保持していたものと同一です shared(n, c, x, y) マスタスレッド n c x y i shared 変数はすべてのスレッドが同一の実体を参照します 88

89 shared 変数と private 変数 private 変数 private 節に指定された変数はそれぞれのスレッドに独立なオブジェクトが生成されます private 変数の内容は元のマスタスレッドの変数の内容とは無関係です private(i) マスタスレッド n c x y i i i i i private 変数は各スレッドごとに独立した実体を参照します 89

90 暗黙のデータ共有属性暗黙のデータ共有属性並列実行領域の開始前に定義され並列実行領域の開始時点で可視な変数は shared ループのインデックス変数は private 並列実行領域内で定義された変数は private デフォルトの変更 default(shared) データ共有属性が指定されない変数は shared とします ( デフォルト ) default(private) データ共有属性が指定されない変数は private とします default(none) すべての変数に対してデータ共有属性の明示的な指定を要求します 90

91 並列化可能なループ並列化可能なループ doループである do whileなどのループは難しい (OpenMP3.0では対応) ループ内に依存性がない次ページ以降参照ループの途中でループを終了する命令がないループの前か後で終了するように回避する write 文等のI/O 命令を含まない手動による指示文挿入ならば可能 91

92 後方依存性のあるループ並列化できないループ ~ 後方依存性のあるループ do I = 1, 9999 A(i) = A(i-1) + B(i) end do 0 do I = 1, 4999 A(i) = A(i-1) + B(i) end do do I = 5000, 9999 A(i) = A(i-1) + B(i) end do 1 ( 理由 ) スレッド 1 で i=5000 の計算を行う時 A[4999] のデータを必要とするが A[5000] はスレッド 0 によって計算済みでなければならないがその保証をしようとすると逐次演算と同じになります 92

93 前方依存性のあるループ並列化できないループ ~ 前方依存性のあるループ do i = 1, 9999 A(i) = A(i+1) + B(i) end do タイミングによって答えが異なる 0 do i = 1, 4999 A(i) = A(i+1) + B(i) end do do i = 5000, 9999 A(i) = A(i+1) + B(i) end do 1 ( 理由 ) スレッド 0 で i=4999 の計算を行う時 A[5000] のデータを必要とし A[5000] はスレッド 1 によって計算済みであってはならないしかしスレッド 0 と 1 が同時にこの do ループを開始することは保証されていないためタイミングによって結果がおかしくなる可能性があります ( ただしループ分割などの方法により並列化は可能 ) 93

94 依存性のあるループ並列化できないループ ~ 前方後方依存性のあるループ i と i-1,i+1 が同じ行に書かれていなくても以下のように同じループ内にあれば依存性が生じます do i = 1, imax 1 A(i) = A(i) + A(i-1) = A(i-1) + end do do i = 1, imax 1 A(i) = A(i) + A(i+1) = A(i+1) + end do 94

95 間接参照のあるループ並列化できないループ ~ 間接参照のあるループ do i = 1, imax 1 Index(i) = end do do i = 1, imax 1 A(Index(i)) = B(i) + C(i) end do コンパイラには Index() の値がどうなっているかは分かりません例えば Index(1) と Index(800) の値が同じ 1 だとするとスレッド 0 と 1 は同じ出力先に値を書き込むことになりますもしユーザが Index() の値がすべて異なっていることが分かっているならば自らの指示 ( 責任 ) により並列化可能です 95

96 一時変数を含むループそのまま並列化するとまずいループ ~ 一次変数を含む do i = 1, 9999 T = A(i) + B(i) C(i) = T end do 0 do i = 1, 4999 T = A(i) + B(i) C(i) = T end do do i = 5000, 9999 T = A(i) + B(i) C(i) = T end do 1 一次変数 T がスレッド 0 と 1 の両方から同時にアクセスされてしまうとタイミングによって答えが違ってくる T が各スレッドにローカルな変数ならば並列化可能に 96

97 縮約演算 (reduction 演算 ) そのまま並列化するとまずいループ ~reduction 演算 do i = 1, 9999 S = S + A(i) end do 0 do i = 1, 4999 S = S + A(i) end do do i = 5000, 9999 S = S + A(i) end do 1 変数 S がグローバルな属性ならばスレッド 0 と 1 が次々と勝手に S の値を書き換えるため不正な結果となる S を各スレッドにローカルな変数にすると部分和は求めることができるが全体の和は? 97

98 縮約演算 (reduction 演算 ) そのまま並列化するとまずいループ ~reduction 演算!$omp parallel do reduction(+:s) do i = 1, 9999 S = S + A(i) end do 0 do i = 1, 9999 S 0 = S 0 + A(i) end do do i = 5000, 9999 S 1 = S 1 + A(i) end do 1 ( 注 )reduction 演算の結果は逐次演算の結果と異なる場合がありますこれは演算の順序が異なり丸め誤差が生じる可能性があるためです並列度数を変更しても結果が異なる場合があります S = S + S 0 + S 1 98

99 縮約演算 (reduction 演算 ) reduction 節配列を何らかの演算によってひとつのスカラー変数に縮約する操作を reduction 演算その変数を reduction 変数と言います reduction 節は次のような書式です!$omp do reduction(op : var) var は reduction 変数 ( のカンマ区切りリスト ) op の演算子は +, *, -,.AND.,.OR.,.EQV.,.NEQV., または組み込み関数 MAX, MIN, IAND, IOR, IEOR のいずれか reduction 変数 var はループ実行中に private 変数として扱われ終了後に各スレッドの値を元の変数に縮約します var は実行する reduction 演算の種類に応じて次のように適切に初期化されます op = + - の時 : 初期値 0 op = * の時 : 初期値 1 op = MAX の時 : 初期値は与えられたデータ型で負の絶対値最大の値 op = MIN の時 : 初期値は与えられたデータ型で正の絶対値最大の値 99

100 parallel 指示行と do 指示行の制限 parallel 指示行の制限 parallel 指示行によって生成された並列実行領域から break 等で抜け出してはいけませんまた並列実行領域外から並列実行領域に入るような分岐を行ってはなりません並列実行領域内で同期 ( 後述 ) を行わずに同一のファイル等に対して I/O 処理を行った場合の動作は未定義です do 指示行の制限 do 指示行で分割されたループを break や exit 等で終了してはいけません do 指示行で分割されるループのループ変数は整数型でなければなりません 100

101 暗黙の同期と nowait do 指示行の終了時には暗黙の同期が行われます!$omp parallel!$omp do do i = 1, n -1 b(i) = a(i) + a(i-1) end do!$omp do do i = 1, n -1 c(i) = a(i) + a(i-1) end do!$omp end parallel nowait を指定すると他のスレッドの終了を待たずに次の処理に移ります!$omp parallel!$omp do do i = 1, n -1 b(i) = a(i) + a(i-1) end do!$omp end do nowait!$omp do do i = 1, n -1 c(i) = a(i) + a(i-1) end do!$omp end do nowait!$omp end parallel 各ループの終了時にすべてのスレッドが終了するまで待ち合わせます待ち合わせのためのオーバーヘッドがかかりますループの終了時に待ち合わせず直ちに次の処理に移りますこれにより待ち合わせのオーバーヘッドを減らすことができますただし 2 つのループ間に依存性があってはいけません 101

102 バリア同期 barrier 指示文すべてのスレッドの実行がプログラム上の同じ barrier 指示文に到達するまで待ち合わせを行います!$omp master open( ) read( ) close( )!$omp end master!$omp barrier! 読込が完了するまで待つ 102

103 その他の同期のための指示行 master 指示文マスタスレッドのみが実行する処理を指定します critical 指示文同時にひとつのスレッドのみで実行される領域を定義します共有されている領域への書き込みや I/O を行う際の排他制御などに用います atomic 指示文 critical 指示文と同様に排他制御を行いますがハードウェアによる最適化を行うことができる特定の演算 ( インクリメント等 ) のみに限定したものです ordered 指示文ループ中で逐次実行した場合と同じ順序で実行される領域を定義します 103

104 環境変数 OpenMP プログラムの実行を制御する環境変数 -OMP_NUM_THREADS -OMP_SCHEDULE -OMP_STACKSIZE -OMP_NESTED 実行に使用するスレッド数を指定します schedule(runtime) 節を指定した do 指示行のループ分割方法を指定します schedule 節には以下のようなものがあります static : 全体をスレッド数で分割します ( デフォルト ) static, chunk dynamic : chunk を単位として分割します : 実行時に (OpenMP ランタイムが ) 決定します各スレッド毎のスタックサイズの上限を指定しますデフォルト値は 4m(4MB) OpenMP を使用しない場合に正常に動作するプログラムが OpenMP を有効にした場合起動直後に segmentation fault で異常終了する場合にはこの OMP_STACKSIZE の問題である可能性が考えられます巨大な配列をローカル変数としてを確保しているような場合にはスタックサイズの問題が発生する可能性がありますそのような配列はコモンブロックに含める等の対策を検討ください入れ子された並列化を有効または無効にしますデフォルトは無効 104

105 ランタイム関数の利用代表的な実行環境取得関数 int omp_get_num_threads( void ) 呼び出し時点で並列領域を実行中のスレッド数を返します int omp_get_thread_num( void ) 呼び出したスレッドの番号 (0 ~ スレッド数 1) を返しますマスタースレッドは 0 番 int omp_in_parallel( void ) 並列領域を実行中のとき 0 以外の値をそうでないときには 0 を返します 105

106 15.MPI MPI の利用方法 106

107 MPI の利用方法 MPI ライブラリのリンク方法 $ ifort mpi_program.f lmpi 有用な環境変数環境変数 MPI_BUFS_THRESHOLD MPI_GROUP_MAX 内容バッファを用いた通信においてプロセスまたはホスト辺りのバッファを使うかの閾値を設定しますデフォルトでは 64 ホストより大きいホスト数でプロセス辺りのバッファを用います 64 ホスト以下ではホスト辺りのバッファになります 1 つの MPI プログラムで使用できるグループの最大数を設定しますデフォルトは 32 MPI_COMM_MAX MPI プログラムが利用できるコミュニケータの最大値デフォルトは 256 MPI_BUFFER_MAX MPI_DEFAULT_SINGLE_COPY_OFF 設定された値以上 ( 単位はバイト ) の辺りでノード内のシングルコピーを行なうシングルコピーの最適化を行なわない 107

108 MPI プログラムのデバッグ MPI プログラムでは環境変数 MPI_SLAVE_DEBUG_ATTACH を設定することで設定したランクのプロセスが 20 秒間スリープするスリープさせたいランク番号をセットして実行 $ setenv MPI_SLAVE_DEBUG_ATTACH 0 ( ランク 0 に設定 ) $ mpirun -np 4./a.out MPI rank 0 sleeping for 20 seconds while you attach the debugger. You can use this debugger command: or gdb /proc/26071/exe idb -pid /proc/26071/exe 別のシェルからデバッガでアタッチ $ gdb /proc/26071/exe (gdb) cont 108

109 16.MPI プログラミング入門 MPI とはループの並列化 109

110 MPI とは MPI (Message Passing Interface) とはメッセージパッシング方式により通信を行いながら並列計算を行うための API のひとつです SGI Altix システムでは Message Passing Toolkit (MPT) によって高性能な MPI を提供しています C C++ Fortran のどれからでも使うことができますたくさんの関数がありますがその中の 10 個程度の関数を知っていれば基本的なメッセージ通信を行なうことができます 110

分散メモリモデル領域分割等による並列化最初からプログラム全体の並列化必要であり導入の敷居が高い粗粒度の並列化

111 プロセスレッロセロセスロセレッドOpenMP と MPI OpenMP 共有メモリモデル主にループレベルの並列化段階的な適用が可能で導入が容易高度なスケーラビリティを得るためには粒度を大きくする工夫が必要 MPI 分散メモリモデル領域分割等による並列化最初からプログラム全体の並列化必要であり導入の敷居が高い粗粒度の並列化スケーラビリティを得るためには高速なネットワークインターコネクトや遅延隠蔽が必要ドスプロセスレレッッドスドススプスプスプ共有データ 111

112 hello, world の並列化ヘッダファイル mpif.h をインクルードしますまたは use mpi をします MPI_Init と MPI_Finalize MPI プログラムは必ず MPI_Init で開始し MPI_Finalize で終了します program hello use mpi integer :: ierr, iam, nsize call MPI_Init(ierr) call MPI_Comm_rank(MPI_COMM_WORLD, iam, ierr) call MPI_Comm_size(MPI_COMM_WORLD, nsize,ierr) write(6,*) hello, world: I am, iam, /, nsize call MPI_Finalize(ierr) end program hello 112

113 hello, world の実行例 $ ifort hello_mpi.f -lmpi $ mpirun -np 4./a.out hello, world : I am 1 / 4 hello, world : I am 2 / 4 hello, world : I am 3 / 4 hello, world : I am 0 / 4 $ 管理プロセスが計算プロセスを生成 MPI_Init() 管理プロセス計算プロセス生成後はスリープ write の実行 MPI_Finalize で終了 113

114 メッセージパッシングのプロセス基本的なメッセージパッシングのプロセスプロセス識別番号 0 プロセス識別番号 1 A: 必要な情報 Send Receive どこのデータを送るのか? 誰へデータを送るのか? 送ろうとするデータの型は? どの程度の量のデータを送るのか? 受け取る側はどのようにそのデータを識別するのか? B: どこから誰へ送るという記述を行うためにランク (rank : プロセス識別番号 ) という情報を使用します 114

メッセージパッシングのプログラム例 program sample_mpi use mpi integer :: ierr, iam, nsize,isrc, rval integer :: dest, tag integer ::

ierr) call MPI_Comm_size(MPI_COMM_WORLD, nsize, ierr) 0 以外のランクがランク 0 にメッセージを送信する dest = 0 if ( iam /= 0 ) then call MPI_Send(iam, 1,

115 メッセージパッシングのプログラム例 program sample_mpi use mpi integer :: ierr, iam, nsize,isrc, rval integer :: dest, tag integer :: status(mpi_status_size) character(len=21) :: message = "Greeting from process" call MPI_Init(ierr) $ ifort sample_mpi.f90 -lmpi $ mpirun -np 4./a.out Greeting from process 1 Greeting from process 2 Greeting from process 3 dest = 0; tag = 0 call MPI_Comm_rank(MPI_COMM_WORLD, iam, ierr) call MPI_Comm_size(MPI_COMM_WORLD, nsize, ierr) 0 以外のランクがランク 0 にメッセージを送信する dest = 0 if ( iam /= 0 ) then call MPI_Send(iam, 1, MPI_INT, dest, tag, MPI_COMM_WORLD, ierr) else do isrc = 1, nsize - 1 call MPI_Recv(rval, 1, MPI_INT, isrc, tag, MPI_COMM_WORLD, status, ierr) write(6,'(a21,1x,i2)') message, rval end do endif call MPI_Finalize(ierr) ランク 0 が他のランクからのメッセージを受信する end program sample_mpi 115

116 1 対 1 通信同期通信 ( ブロッキング通信 ) では通信が完了するまでプロセスはブロックされます非同期通信 ( ノンブロッキング通信 ) では通信はバックグラウンドで行われプロセスはブロックされませんプロセス 0 プロセス 1 プロセス 0 プロセス 1 計算計算計算計算 MPI_Irecv 時間 MPI_Send MPI_Recv MPI_Isend 計算受信データを必要としない計算計算計算 MPI_Wait 計算 MPI_Wait 計算 116

117 reduction 演算 : MPI_Reduce 通信しながら指定された演算を行いその結果を 1 つのプロセスのバッファへ格納します指定可能な演算は次の通りです演算 MPI_MAX MPI_MIN MPI_SUM MPI_PROD MPI_LAND MPI_BAND MPI_LOR MPI_BOR MPI_LXOR MPI_BXOR MPI_MAXLOC MPI_MINLOC 内容最大値最小値合計積論理 AND ビット AND 論理 OR ビット OR 論理 XOR ビット XOR 最大と位置最小と位置 117 配列の要素の合計を求める N N Nlocal Nlocal < ランク 0> N 9 Nlocal 6 SUM 45 < ランク 1> < ランク 2> SUM SUM

118 17. ハイブリッドプログラミングハイブリッドの利用方法ハイブリッドプログラムの実行イメージ 118

119 ハイブリッドの利用方法 MPI と OpenMP( 自動並列も可 ) を組み合わせハイブリッドにプログラムを実行することが可能です次の方法でコンパイル & リンクします $ ifort $(FFLAGS) openmp o a.out test.f lmpi 119

120 hello, world サンプル program hello_hyb use mpi integer :: ierr, iam, mythread integer :: omp_get_thread_num call MPI_Init(ierr) call MPI_Comm_rank(MPI_COMM_WORLD, iam, ierr) MPI_INIT!$omp parallel private(mythread) mythread = omp_get_thread_num()!$omp critical write(6,'(a23,1x,i2,1x,a7,1x,i2)') "Hello, world: I am MPI=",iam, "Thread=",mythread!$omp end critical!$omp end parallel OpenMP 並列実行領域 call MPI_Finalize(ierr) MPI_FINALIZE end program hello_hyb 120

121 ハイブリッドプログラム実行イメージ MPI プロセスが 2 つ各 MPI プロセスから 4 スレッドで実行 $ export OMP_NUM_THREADS=4 $ mpirun -np 2 omplace nt ${OMP_NUM_THREADS}./a.out 管理プロセスが計算プロセスを生成 MPI_Init 管理プロセス計算プロセス生成後はスリープマスタースレッドのみ実行並列実行領域の生成それぞれ write 文の実行待ち合わせマスタースレッドのみ実行に戻る MPI_Finalize で終了 121

Microsoft PowerPoint - uv2000parallel.pptx

Microsoft PowerPoint - uv2000parallel.pptx SGI UV2000 並列化プログラム利用の手引 2016/12/ 1 SGI Japan SGI Japan HPC Technology Division / HPC Consulting Professional Service Division Agenda 2014 Silicon Graphics International Corp. 2 Agenda 1. システム構成と利用方法 2.