PowerPoint プレゼンテーション

Size: px

Start display at page:

Download "PowerPoint プレゼンテーション"

なつきさかわ
4 years ago
Views:

1 1 サンプルソースコードは ITO の /home/tmp/gpu 以下に置いてあります実質的に演習の答えとなるものもあるので注意 PGI compiler 19.4 で実行した場合の出力に準拠でも 19.4 でも基本的には同じであるがでは出力されていた Accelerator kernel generated ( 並列実行カーネルが作成できた旨 ) が出力されなくなったことを反映九州大学情報基盤研究開発センター :30-17: :30-17:30

2 2 単純なベクトル計算を題材として OpenACC の基本を学ぶコンパイルの仕方実行の仕方 CPU-GPU 間のデータ転送について行列積を題材として OpenACC の基本を学ぶ並列化ループの指定方法について CG 法を題材として OpenACC の基本を学ぶ少し複雑なコードの OpenACC 化についてその他 OpenACC に関する話題最適化のための一般的なヒントなど講習会の時間設定的に最後まで到達できません自主学習などにご利用ください

3 3 GPU プログラムを簡単に記述するために開発された指示文規格 GPU 向けの OpenMP のようなものマルチ GPU マルチノードについては MPI などと組み合わせて利用幾つかの会社が独自に開発していたものが共通規格として集約された初登場が 2011 年まだ 10 年経っていない CUDA でしか書けない処理も多いがとにかく高い並列度で一気に計算すれば良いという典型的な GPU 向けプログラムでは十分高性能 CUDA を使うべきプログラム GPU 上の高速共有メモリやシャッフル命令を意識したアルゴリズムインスタンス ID を意識したアルゴリズム CUDA は ThreadID など ID を意識して並列処理を記述する OpenACC は ID の概念そのものがないその他最新のハードウェア機能をフル活用したい場合 Tensor core RT core 半精度演算 C(C/C++) と Fortran に対応

4 4 計算ノード CPU メインメモリ (DDR メモリ ) GPU デバイスメモリ (GDDR* HBM2) CPU と GPU が搭載された計算ノード CPU と GPU はそれぞれ個別のメモリを持ち相手側のメモリに直接は触れない ( データ転送が必要ある程度の時間がかかる )

5 C (vector0.c) Fortran (vector0.f90) #include <stdio.h> #include <stdlib.h> #include <string.h> int main(int argc, char **argv) { int i, n=10; double v1[10], v2[10]; for(i=0; i<n; i++){ v1[i] = (double)(i+1); v2[i] = 0.0; #pragma acc kernels for(i=0; i<n; i++){ v2[i] = v1[i] * 2.0; for(i=0;i<n;i++){ printf(" %.2f", v1[i]); printf(" n"); for(i=0;i<n;i++){ printf(" %.2f", v2[i]); printf(" n"); return 0; program main implicit none integer :: i, n=10 double precision :: v1(10), v2(10) do i=1, n v1(i) = dble(i) v2(i) = 0.0d0!$acc kernels do i=1, n v2(i) = v1(i) * 2.0d0!$acc end kernels OpenACC 並列化対象 =GPU 上で実行される do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)"" do i=1,n write(*,'(1h F8.2)',advance="NO")v2(i) write(*,*)"" end program main 単純なプログラムであれば kernels 指示文で対象を指定するだけで GPU 化が可能

6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 指定した部分だけが GPU 上で実行される #include <stdio.h> #include <stdlib.h> #include <string.

6 指定した部分だけが GPU 上で実行される #include <stdio.h> #include <stdlib.h> #include <string.h> int main(int argc, char **argv) { int i, n=10; double v1[10], v2[10]; for(i=0; i<n; i++){ v1[i] = (double)(i+1); v2[i] = 0.0; #pragma acc kernels for(i=0; i<n; i++){ v2[i] = v1[i] * 2.0; for(i=0;i<n;i++){ printf(" %.2f", v1[i]); printf(" n"); C for(i=0;i<n;i++){ printf(" %.2f", v2[i]); printf(" n"); return 0; C P U P U 全体として CPU が主 GPU が従の関係指定されていない部分は CPU 上で実行される G P U CPU から GPU に対して計算指示が行われる GPU 上のメモリを確保 CPU から GPU へ必要なデータを転送 GPU 上の計算コアにより並列計算される CPU は GPU の計算終了を待つ GPU から CPU へ結果データを転送 GPU 上のメモリを解放

7 pgcc または pgfortran でコンパイルする -acc OpenACC 指示文を有効化 -ta OpenACC の対象ハードウェア ( 対象 GPU の種類 ) を指定 -Minfo=accel OpenACC 化に関する情報を出力 -tp 対象 CPU を指定 pgcc -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -o

7 7 pgcc または pgfortran でコンパイルする -acc OpenACC 指示文を有効化 -ta OpenACC の対象ハードウェア ( 対象 GPU の種類 ) を指定 -Minfo=accel OpenACC 化に関する情報を出力 -tp 対象 CPU を指定 pgcc -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -o vector0_c_acc vector0.c main: 16, Generating implicit copyout(v2[:]) Generating implicit copyin(v1[:]) 17, Loop is parallelizable Generating Tesla code 17, #pragma acc loop gang, vector(32) /* blockidx.x threadidx.x */ データ転送や GPU 上の計算コアの使い方はコンパイラが適当に判断してくれた最適でない ( 問題が起きる ) こともある pgfortran -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -cpp -o vector0_f_acc vector0.f90 main: 13, Generating implicit copyout(v2(:)) Generating implicit copyin(v1(:)) 14, Loop is parallelizable Generating Tesla code 14,!$acc loop gang, vector(32)! blockidx%x threadidx%x 出力情報の具体的な読み方は後述する

8 8./a.out CPU 向けの実行可能ファイルと同様にそのまま実行できる C 版の場合 $./a.out Fortran 版の場合 $./a.out LD_LIBRARY_PATHなどの対応は必要 module loadにより解決 (envコマンドにより環境変数をみれば確認可能) GPU 向けにコンパイルしたものはGPUが使えないと実行時エラー ITO で実行するにはバッチジョブの使い方を知る必要がある

9 9 ITO のように多人数で利用するシステムでは計算ノードに直接ログインするのではなくバッチジョブシステムを利用すると便利計算機の稼動率を高める特定ユーザに占有させないセキュリティを高める利用手順 1. ジョブスクリプトの作成 2. ジョブの投入 3. システムがスケジューリングして実行 4. 結果の確認ログインノード ITO ポータルバックエンドフロントエンド計算結果

10 10 処理してほしい内容を記述したファイル ( ジョブスクリプト ) を作成しシステムに投入ジョブとして受付資源の空き状況に応じて順に処理される要求内容や空き状況によっては先を越される適切な資源量の指定が重要 #!/bin/sh #PJM -L "vnode=4" #PJM -L "vnode-core=36" #PJM -L "rscunit=ito-b" #PJM -L "rscgrp=ito-g-16" #PJM -L "elapse=10:00" mpiexec -np 16./a.out ジョブスクリプトの例ジョブリソースグループ ( 待ち行列 ) ジョブの使用資源量 (CPU, メモリ ) で選択小規模ジョブ用計算機群中規模ジョブ用大規模ジョブ用

11 11 バッチジョブの投入 pjsub ジョブスクリプトファイル名バッチジョブの状況確認 pjstat 終了済のジョブの情報を見る場合はpjstat -H 特定ジョブの詳細情報をみる場合はpjstat -S ジョブID -Hと-Sの組み合わせも可能( 終了済の特定ジョブの詳細を確認 ) バッチジョブのキャンセル pjdel ジョブ ID 各コマンドに追加できるオプションは --help オプションを付けることで確認可能

12 12 コマンド $ pjsub オプションジョブスクリプトファイル名オプション : 使用する資源等に関する指定スクリプトファイル内に書いても良いしオプションで与えても良いオプションで与えた情報が優先されるジョブスクリプトファイル : 依頼する処理内容シェルスクリプトとして記述例 ) ジョブスクリプトファイル test.sh を投入 $ pjsub test.sh [INFO] PJM 0000 pjsub Job submitted. ジョブ ID

13 13 #!/bin/bash #PJM -L "rscunit=ito-b" #PJM -L "rscgrp=ito-b-lecture" #PJM -L "vnode=1" #PJM -L "vnode-core=9" #PJM -L "elapse=00:05:00" #PJM -j #PJM -S ( スクリプト記述に bash を使用 ) サブシステム B を利用講習会用のリソースグループを指定 1GPU 使えれば良いので 1/4 ノード対応するコア数は 9 5 分で打ち切り標準出力とエラー出力を統合ノード利用情報を出力 module load ~/opt/pgi/modulefiles/pgi/19.4 modulefileを用いて環境設定 pgaccelinfo./a.out OpenACC 対応デバイス情報の確認プログラムの実行動作確認で書いていた #PJM -o out.txt は標準出力の内容を指定のファイルへ書き出すというオプションエラー出力についても同様に -e で指定可能 -o e -j 全て指定すると -o で指定したファイルに標準出力とエラー出力の両方が書き出される

14 14 サンプルプログラム (vector0.c または vector.f90) をコンパイルしバッチジョブとして実行してみる実行結果が確認できたら次は環境変数 PGI_ACC_TIME をセットして実行してみる export PGI_ACC_TIME=1 をプログラム実行よりも前の行に書く GPU がどのような仕事をしたのかが確認できるようになる #!/bin/bash #PJM 省略 module load ~/opt/pgi/modulefiles/pgi/19.4 pgaccelinfo export PGI_ACC_TIME=1./a.out

15 15 export PGI_ACC_TIME=1 によって出力される情報の例 Accelerator Kernel Timing data /home/usr0/m70000a/work/gitprojects/testprograms/openacc/vector0/vector0.c main NVIDIA devicenum=0 time(us): 36 16: compute region reached 1 time 17: kernel launched 1 time grid: [1] block: [32] device time(us): total=4 max=4 min=4 avg=4 elapsed time(us): total=459 max=459 min=459 avg=459 16: data region reached 2 times 16: data copyin transfers: 1 device time(us): total=13 max=13 min=13 avg=13 21: data copyout transfers: 1 device time(us): total=19 max=19 min=19 avg=19 GPU 上での計算 CPU-GPU 間の通信最適化やデバッグに活用できることがある何回実行されたか? どれだけ時間がかかったか? GPUカーネルの実行形状は?

16 16 もっと細かく確認したい場合には環境変数 PGI_ACC_NOTIFY も有効 1,2,4,8 のビット組み合わせで指定以下の情報が出力される 1: GPU カーネル起動 2: データ転送 4: region の entry/exit 8: wait/sync 例 :export PGI_ACC_NOTIFY=3 3=1 と 2 の論理和 GPU カーネル起動情報とデータ転送情報が出力される

17 17 指示文 (directive) により全てを記述する指示文 : コンパイラに対して指示を行う特殊なコメント C/C++:#pragma acc ~ Fortran:!$acc ~ 基本的には無視してしまっても問題が起きない文コンパイラが対応していない場合もコンパイルと実行自体は可能もちろん GPU は使えない具体的な指示文の例並列計算の方法を指示するもの kernels, parallel loop, seq, collapse gang/num_gangs, worker/num_workers, vector/vector_length データの移動について指示するもの data, enter/exit data, copy{,in,out, present, update, create, delete

18 18 この範囲内を GPU 上で並列実行したいことを示す kernels と parallel ではコンパイラによる解釈の仕方が異なる parallel: 基本的に利用者が細かく指定する kernels: ある程度コンパイラが判断手動で調整 ( 上書き ) 可能最適化をしていくと結局同じようなコードになるはずである範囲の途中で離脱するような構造は不可 (for ループの break など ) 利用する指示節にも違いが生じる kernels と共に利用するもの async / wait device_type if default copy 系 parallel と共に利用するもの async / wait device_type if default copy 系 num_gangs / num_workers / vector_length reduction private どちらを用いても良いが本講習会では kernels を用いる

19 C (vector0.c) Fortran (vector0.f90) #include <stdio.h> #include <stdlib.h> #include <string.h> int main(int argc, char **argv) { int i, n=10; double v1[10], v2[10]; for(i=0; i<n; i++){ v1[i] = (double)(i+1); v2[i] = 0.0; #pragma acc kernels for(i=0; i<n; i++){ v2[i] = v1[i] * 2.0; for(i=0;i<n;i++){ printf(" %.2f", v1[i]); printf(" n"); for(i=0;i<n;i++){ printf(" %.2f", v2[i]); printf(" n"); return 0; program main implicit none integer :: i, n=10 double precision :: v1(10), v2(10) do i=1, n v1(i) = dble(i) v2(i) = 0.0d0!$acc kernels do i=1, n v2(i) = v1(i) * 2.0d0!$acc end kernels do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)"" do i=1,n write(*,'(1h F8.2)',advance="NO")v2(i) write(*,*)"" end program main (OpenMPと同様に) C/C++ では指示文直後のループや { で括った部分 ( 構造化ブロック ) が指示文の適用対象となる Fortranではendで閉じる必要がある

20 20 C コンパイラの判断によって pgcc -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake 以下省略 copyout, copyinという命令が生成された main: 16, Generating implicit copyout(v2[:]) Generating implicit copyin(v1[:]) 17, Loop is parallelizable Generating Tesla code 17, #pragma acc loop gang, vector(32) /* blockidx.x threadidx.x */ implicit: 暗黙的な ( プログラムには書かれていなかったがコンパイラが判断しました ) Fortran アクセラレータ (GPU) 向けのカーネルが生成された Tesla(NVIDIA GPU) 向けのコードが生成されたループの並列化が行われた pgfortran -Minfo=accel -acc -ta=tesla:cc60 以下省略 main: 13, Generating implicit copyout(v2(:)) Generating implicit copyin(v1(:)) 14, Loop is parallelizable Generating Tesla code 14,!$acc loop gang, vector(32)! blockidx%x threadidx%x どのように判断処理されたのかを確認することは非常に重要 blockidx や threadidx については後述

21 C (vector0.c) C (vector1.c) int main(int argc, char **argv) { int i, n=10; double v1[10], v2[10]; for(i=0; i<n; i++){ v1[i] = (double)(i+1); v2[i] = 0.0; #pragma acc kernels for(i=0; i<n; i++){ v2[i] = v1[i] * 2.0; for(i=0;i<n;i++){ printf(" %.2f", v1[i]); printf(" n"); for(i=0;i<n;i++){ printf(" %.2f", v2[i]); printf(" n"); return 0; 4 int main(int argc, char **argv) 5 { 6 int i, n=10; 7 double v1[10], v2[10]; 8 9 for(i=0; i<n; i++){ 10 v1[i] = (double)(i+1); 11 v2[i] = 0.0; return 0; コンパイラの判断により 26 copyout copyin #pragma acc kernels copyout(v2[:]) copyin(v1[:]) #pragma acc loop gang, vector(32) for(i=0; i<n; i++){ v2[i] = v1[i] * 2.0; for(i=0;i<n;i++){ printf(" %.2f", v1[i]); printf(" n"); for(i=0;i<n;i++){ printf(" %.2f", v2[i]); printf(" n"); loop gang, vector(32) が自動的に挿入されていたと思えば良い

22 Fortran (vector0.f90) Fortran (vector1.f90) program main implicit none integer :: i, n=10 double precision :: v1(10), v2(10) do i=1, n v1(i) = dble(i) v2(i) = 0.0d0!$acc kernels do i=1, n v2(i) = v1(i) * 2.0d0!$acc end kernels do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)"" do i=1,n write(*,'(1h F8.2)',advance="NO")v2(i) write(*,*)"" end program main program main implicit none integer :: i, n=10 double precision :: v1(10), v2(10) do i=1, n v1(i) = dble(i) v2(i) = 0.0d0!$acc kernels copyout(v2(:)) copyin(v1(:))!$acc loop gang, vector(32) do i=1, n v2(i) = v1(i) * 2.0d0!$acc end kernels end loop は不要 ( 書いてもエラーにはならないようだ ) do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)"" do i=1,n write(*,'(1h F8.2)',advance="NO")v2(i) write(*,*)"" end program main コンパイラの判断により copyout copyin loop gang, vector(32) が自動的に挿入されていたと思えば良い

23 23 指示文行を次の行に継続させることも可能長くなってしまったときなどに C/C++ と Fortran で少し違うので注意 #pragma acc kernels copyout(v2[:]) copyin(v1[:]) #pragma acc loop gang, vector(32) for(i=0; i<n; i++){ v2[i] = v1[i] * 2.0;!$acc kernels copyout(v2(:)) copyin(v1(:))!$acc loop gang, vector(32) do i=1, n v2(i) = v1(i) * 2.0d0!$acc end kernels #pragma acc kernels copyout(v2[:]) copyin(v1[:]) #pragma acc loop gang, vector(32) for(i=0; i<n; i++){ v2[i] = v1[i] * 2.0;!$acc kernels &!$acc copyout(v2(:)) copyin(v1(:))!$acc loop gang, vector(32) do i=1, n v2(i) = v1(i) * 2.0d0!$acc end kernels

24 24 CPU と GPU は個別のメモリを持っており直接相手側のメモリにアクセスできない例外あり詳しくは後述適切なデータ送受信を行わねば正しい計算が行えない GPU カーネル起動時 : メインメモリからデバイスメモリへのデータ転送 GPU カーネル終了後 : デバイスメモリからメインメモリへのデータ転送単純なプログラムでは自動的にデータ転送を行ってくれるがある程度複雑な場合には明示する必要がある特に C/C++ ではコンパイラが長さを認識できない配列を扱うことが多いため注意が必要 GPU カーネルが生成されなかったり実行時にエラーしたりする原因となる CPU GPU メインメモリ (DDR メモリ ) デバイスメモリ (HBM2)

25 25 kernels 指示文に追加して配列のデータ転送を明示する GPU カーネル実行前にデバイスメモリを確保しホストからデバイスへコピーする copyin GPUカーネル終了後にデバイスからホストへ書き戻しデバイスメモリを破棄する OpenACC2.5からは常に copyout present_or_* の挙動となり copyin + copyout 存在していれば使い回してくれる copy 実際にどう扱われるかはコンパイル時のメッセージやPGI_ACC_NOTIFY デバイスメモリを確保するのみを用いて確認すること create 既にデバイスメモリに存在していることをコンパイラに伝える present 存在していない場合のみ copy{,in,out する present_or_copy{,in,out データを使い回す該当するものが無ければ実行時エラー

26 26 配列全体ではなく一部のみを送受信することも可能注意 :C/C++ と Fortran では部分配列の指定方法が異なる C/C++: 先頭と長さを指定する #pragma acc kernels copy(a[head:length]) Fortran: 開始点と終了点を指定する!$acc kernels copy(a(begin:end)) A[:N], A(:N) のような省略表記も可能 ( 先頭から N 要素が送られる )

27 27 GPU カーネルを何度も実行する場合はどうなるだろうか? int main(int argc, char **argv) { int i, j, n=10; double v1[10]; for(i=0; i<n; i++){ v1[i] = (double)(i+1); for(j=0; j<10; j++){ #pragma acc kernels for(i=0; i<n; i++){ v1[i] = v1[i] * 2.0; program main implicit none integer :: i, j, n=10 double precision :: v1(10) do i=1, n v1(i) = dble(i) do j=1, 10!$acc kernels do i=1, n v1(i) = v1(i) * 2.0d0!$acc end kernels 繰り返しデバイスメモリの生成計算デバイスメモリの破棄 for(i=0; i<n; i++){ printf(" %.2f", v1[i]); printf(" n"); return 0; (vector2.c) do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)"" end program main (vector2.f90) デバイスメモリの生成と破棄を繰り返してしまう ( 余計な時間がかかる )

28 28 メインメモリやデバイスメモリの転送速度に対して CPU-GPU 間のデータ転送速度はずっと低速頻繁な通信は避けたい CPU - メインメモリ ITO の場合は DDR4 で 100GB/s/socket 弱 (STREAM Triad 実測 ) GPU - デバイスメモリ HBM2 550GB/s 程度 (STREAM Triad 実測 ) 後継機の V100 では 800GB/s を超える CPU - GPU PCI Express Gen.3 x16 理論性能でも最大 16GB/s( 双方向 ) GPU - GPU NVLink 20GB/s*1or2( 双方向 ) 1GPU あたり 4 本の NVLink Power 系 CPU では CPU-GPU 間でも NVLink が使える CPU GPU ~200 GB/s PCIe ~32GB/s ~1 TB/s メインメモリ (DDR メモリ ) デバイスメモリ (HBM2)

29 29 data 指示文ループ並列化のタイミング以外でデータのみを操作できる #pragma acc data copyin(a) copyout(b) 構造化ブロック enter/exit data 指示文!$acc data copyin(a) copyout(b)) 構造化ブロック!$acc end data 構造化ブロックを囲まずに自由な位置で送受信を行うことも可能 #pragma acc enter data copyin(a) #pragma acc exit data copyout(b)!$acc enter data copyin(a)!$acc exit data copyout(a) どちらを使っても良い enter/exit data 指示文の方が便利だがプログラムの見通しが悪くならないように注意が必要 GPU 化範囲の前でとにかく全部送信したいとき? 複数ソースコードにプログラムが分割されているとき?

30 30 GPU カーネルを何度も実行する場合などに data 指示文が有効 int main(int argc, char **argv) { int i, j, n=10; double v1[10]; for(i=0; i<n; i++){ v1[i] = (double)(i+1); program main implicit none integer :: i, j, n=10 double precision :: v1(10) do i=1, n v1(i) = dble(i) コンパイラが判断に失敗する場合は kernels に present 節を加えると良い acc kernels present(v1) (v1 のアクセスに間接参照がある場合などに効果的 ) #pragma acc data copy(v1[:]) for(j=0; j<10; j++){ #pragma acc kernels for(i=0; i<n; i++){ v1[i] = v1[i] * 2.0; for(i=0; i<n; i++){ printf(" %.2f", v1[i]); printf(" n"); return 0; (vector3.c)!$acc data copy(v1(:)) do j=1, 10!$acc kernels do i=1, n v1(i) = v1(i) * 2.0d0!$acc end kernels!$acc end data do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)"" end program main (vector3.f90) デバイスメモリの生成繰り返し計算デバイスメモリの破棄生成と破棄は最初と最後にのみ行われ無駄がない

31 31 多次元配列の送受信も可能ただし連続したメモリの範囲しか扱えない低次元分は全て転送する必要がある C/C++ #pragma acc data copyin(a[head:length][0:n]) C/C++ は右側の次元が低次元 Fortran!$acc data copyin(a(1:n, begin:end)) Fortran は左側の次元が低次元

32 32 部分転送時の範囲には変数を用いても良い配列長については注意が必要動的に確保した配列などコンパイル時に配列の長さが分からないものは長さを明示しておく必要がある範囲は変数による指定で良い間接参照をしているときなどに注意 double *v1, *v2; int *index; v1 = (double*)malloc(sizeof(double)*n)); v2 = (double*)malloc(sizeof(double)*n)); index = (int*)malloc(sizeof(int)*n); #pragma acc kernels for(i=0; i<n; i++){ v2[i] = v1[index[i]] * 2.0; double precision, allocatable :: v1(:), v2(:) integer,allocatable :: index(:) allocate(v1(n), v2(n), index(n))!$acc kernels do i=1, n v2(i) = v1(index(i)) * 2.0d0!$acc end kernels v1 の範囲 ( 長さ ) がうまく認識できずコンパイルはできるが実行時エラー copyin(v1[n]) および copyin(v1(n)) を加えると正しく動作する具体例は vector12.c/f90 および vector13.c/f90 を参照 ( コンパイル時に出力される情報を比較してみよう )

33 33 完全な Deep copy ができない問題動的な要素を持つ集合的な要素をまとめて転送できない問題 C/C++: 動的に確保された配列をメンバとして持つ構造体やクラスを Deep copy できない Fortran:allocatable 属性や pointer 属性を持つメンバを含む派生型を Deep copy できない解決方法必要な分だけ手動で copy するコンパイル時の -ta オプションに deepcopy を追加 PGI Fortran のみ対応完全な Deep copy ができる ( はず ) Unified memory を使うメインメモリとデバイスメモリを同一に扱う技術コンパイル時の -ta オプションに managed を追加色々と制限があるため注意が必要

34 34 サンプルプログラム (vector2.c, vector2.f90) をコンパイルしバッチジョブとして実行してみるさらに data 指示文を挿入したプログラム (vector3.c, vector3.f90) も実行し比較してみる環境変数 PGI_ACC_TIME をセットして実行すると容易に比較が可能 Accelerator Kernel Timing data /home/usr0/m70000a/work/gitprojects/testprograms/openacc/lecture201811/vector2.c main NVIDIA devicenum=0 time(us): : compute region reached 10 times 回数を示す値が変化すること 15: kernel launched 10 times に気がつくはずである grid: [1] block: [32] device time(us): total=22 max=4 min=2 avg=2 elapsed time(us): total=734 max=532 min=21 avg=73 14: data region reached 20 times 14: data copyin transfers: 10 device time(us): total=93 max=34 min=6 avg=9 18: data copyout transfers: 10 device time(us): total=407 max=351 min=6 avg=40 余裕がある人は配列の長さや本数を増やすなどして比較してみる

35 35 data 指示文内の GPU カーネル間でデータの確認や更新を行いたい場合はどうすれば良いだろうか? #pragma acc data copy(v1) { #pragma acc kernels for(i=0; i<n; i++){ v1[i] = v1[i] * 2.0;!$acc data copy(v1)!$acc kernels do i=1, n v1(i) = v1(i) * 2.0d0!$acc end kernels 並列化ループの途中で値を確認したい更新したいたとえばここで v1 の値を出力したら何が見えるのだろうか? 計算前の値が見える #pragma acc kernels for(i=0; i<n; i++){ v1[i] = v1[i] * 2.0;!$acc kernels do i=1, n v1(i) = v1(i) * 2.0d0!$acc end kernels!$acc end data data 範囲のあとであれば計算結果が全てメインメモリに書き戻されているのだが? for(i=0; i<n; i++){ printf(" %.2f", v1[i]); printf(" n"); (vector20.c) do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)"" (vector20.f90)

36 36 デバイスメモリの生成破棄を伴わないデータ転送 ( 更新 ) には update を用いるホストからデバイス :update device デバイスからホスト :update host または update self 一部のみの更新も可能範囲の指定方法は data 指示文と同様 #pragma acc data copy(v1) { #pragma acc kernels for(i=0; i<n; i++){ v1[i] = v1[i] * 2.0; #pragma acc update host(v1) for(i=0; i<n; i++){ printf(" %.2f", v1[i]); printf(" n"); #pragma acc kernels for(i=0; i<n; i++){ v1[i] = v1[i] * 2.0; (vector21.c)!$acc data copy(v1)!$acc kernels do i=1, n v1(i) = v1(i) * 2.0d0!$acc end kernels!$acc update host(v1) do i=1,n write(*,'(1h F8.2)',advance="NO")v1(i) write(*,*)""!$acc kernels do i=1, n v1(i) = v1(i) * 2.0d0!$acc end kernels!$acc end data (vector21.f90)

37 37 スカラ変数は firstprivate となる並列化範囲外の値を引き継ぎ互いに干渉しあわない配列はデバイスメモリにて共有される互いに干渉する private 指示節により変更することも可能参考 :OpenMP の場合 private/shared 指示節で指定何も指定しないとsharedとなりスレッド間で干渉する Fortranのみ並列化範囲内の逐次ループのループカウンタはprivate 扱い

38 38 単純なベクトル計算を題材として OpenACC の基本を学ぶコンパイルの仕方実行の仕方 CPU-GPU 間のデータ転送について行列積を題材として OpenACC の基本を学ぶ並列化ループの指定方法について CG 法を題材として OpenACC の基本を学ぶ少し複雑なコードの OpenACC 化についてその他 OpenACC に関する話題最適化のための一般的なヒントなど

39 39 現実のプログラムではコンパイラが全てのループの並列化の判断を行うのは難しいプログラマが並列化の判断をする必要がある loop 指示文並列化対象ループを指定するさらに以下の指示節と組み合わせることで動作の制御が可能 independent 指示節と seq 指示節対象ループを並列実行するか逐次実行するかを明示する強制力がありコンパイラによる判断は行われなくなる collapse(n) 指示節 :collapse(2), collapse(3) など多重ループをまとめて並列化する並列度の低い階層ループの並列化などに極めて重要 reduction 指示節 :reduction(+:a) など計算結果の集約などを行う多くの場合はコンパイラが正しく判断してくれるため書く必要はない

40 40 C (matmul0.c) Fortran (matmul0.f90) double **a=null, **b=null, **c=null; // malloc で a,b,c を確保 #pragma acc kernels for(i=0; i<n; i++){ for(j=0; j<n; j++){ for(k=0; k<n; k++){ c[i][j] += a[i][k] * b[k][j]; n=10で実行してみた C double precision, allocatable :: a(:,:), b(:,:), c(:,:) allocate(a(n,n), b(n,n), c(n,n)!$acc kernels do i=1, n do j=1, n do k=1, n c(j,i) = c(j,i) + a(k,i) * b(j,k)!$acc end kernels 37: kernel launched 1 time grid: [1] block: [1] device time(us): total=108 max=108 min=108 avg=108 elapsed time(us): total=130 max=130 min=130 avg=130 Fortran 40: kernel launched 1 time grid: [1x10] block: [128] device time(us): total=5 max=5 min=5 avg=5 elapsed time(us): total=418 max=418 min=418 avg=418 どうやら実行時間に大きな差があるようだ何故だろう?

41 41 Fortran (matmul0.f90) pgfortran -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -o m0f_f_acc matmul0.f90 main: 37, Generating implicit copyin(a(1:n,1:n)) Generating implicit copy(c(1:n,1:n)) Generating implicit copyin(b(1:n,1:n)) 38, Loop is parallelizable 39, Loop is parallelizable 40, Complex loop carried dependence of c prevents parallelization Loop carried dependence of c prevents parallelization Loop carried backward dependence of c prevents vectorization Inner sequential loop scheduled on accelerator Generating Tesla code 38,!$acc loop gang! blockidx%y 39,!$acc loop gang, vector(128)! blockidx%x threadidx%x 40,!$acc loop seq sequential ループが逐次実行されることを意味する double precision, allocatable :: a(:,:), b(:,:), c(:,:) allocate(a(n,n), b(n,n), c(n,n)!$acc kernels do i=1, n do j=1, n do k=1, n c(j,i) = c(j,i) + a(k,i) * b(j,k)!$acc end kernels copy 関係はコンパイラの判断で特に問題はない配列 c の依存関係に関するメッセージは出ているが 3 重ループの外側 2 つが並列化された

42 42 C (matmul0.c) double **a=null, **b=null, **c=null; // mallocでa,b,cを確保 #pragma acc kernels for(i=0; i<n; i++){ for(j=0; j<n; j++){ for(k=0; k<n; k++){ c[i][j] += a[i][k] * b[k][j]; pgcc -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -o m0c_c_acc matmul0.c main: 36, Generating implicit copyin(b[:n][:n]) Generating implicit copy(c[:n][:n]) Generating implicit copyin(a[:n][:n]) 37, Complex loop carried dependence of a->->,c->->,b->-> prevents parallelization Accelerator serial kernel generated Generating Tesla code 37, #pragma acc loop seq 38, #pragma acc loop seq 39, #pragma acc loop seq copy 関係はコンパイラの判断で特に問題はない依存関係があり並列化できず逐次実行コードが生成された旨が出力されている正しく実行はできるが逐次実行のため低速 38, Complex loop carried dependence of a->->,c->->,b->-> prevents parallelization 39, Complex loop carried dependence of a->->,c->->,b->-> prevents parallelization Loop carried dependence due to exposed use of c[i1][i2] prevents parallelization

43 43 C (matmul1.c) Fortran (matmul1.f90) double **a=null, **b=null, **c=null; // malloc で a,b,c を確保 #pragma acc kernels #pragma acc loop independent for(i=0; i<n; i++){ #pragma acc loop independent for(j=0; j<n; j++){ #pragma acc loop seq for(k=0; k<n; k++){ c[i][j] += a[i][k] * b[k][j]; double precision, allocatable :: a(:,:), b(:,:), c(:,:) allocate(a(n,n), b(n,n), c(n,n))!$acc kernels!$acc loop independent do i=1, n!$acc loop independent do j=1, n!$acc loop seq do k=1, n c(j,i) = c(j,i) + a(k,i) * b(j,k)!$acc end kernels 一般的に Fortran プログラムの方がコンパイラによる並列化判断が適切に働く C/C++ はポインタ参照の都合で不具合が起きないよう保守的な判断がされやすい loop 指示文で指定すればコンパイラの判断を上書きできる

44 44 C 言語 loop independent 指定なし 37, Complex loop carried dependence of a->->,c->->,b->-> prevents parallelization Accelerator serial kernel generated Accelerator kernel generated Generating Tesla code 37, #pragma acc loop seq 38, #pragma acc loop seq 39, #pragma acc loop seq 38, Complex loop carried dependence of a->->,c->->,b->-> prevents parallelization 39, Complex loop carried dependence of a->->,c->->,b->-> prevents parallelization Loop carried dependence due to exposed use of c[i1][i2] prevents parallelization C 言語 loop independent 指定あり 38, Loop is parallelizable 40, Loop is parallelizable 42, Complex loop carried dependence of a->->,c->->,b->-> prevents parallelization Loop carried dependence of c->-> prevents parallelization Loop carried backward dependence of c->-> prevents vectorization Generating Tesla code 38, #pragma acc loop gang /* blockidx.y */ 40, #pragma acc loop gang, vector(128) /* blockidx.x threadidx.x */ 42, #pragma acc loop seq

45 45 C (matmul2.c) Fortran (matmul2.f90) double **a=null, **b=null, **c=null; // malloc で a,b,c を確保 #pragma acc kernels #pragma acc loop independent collapse(2) for(i=0; i<n; i++){ for(j=0; j<n; j++){ #pragma acc loop seq for(k=0; k<n; k++){ c[i][j] += a[i][k] * b[k][j]; C Fortran double precision, allocatable :: a(:,:), b(:,:), c(:,:) allocate(a(n,n), b(n,n), c(n,n))!$acc kernels!$acc loop independent collapse(2) do i=1, n do j=1, n!$acc loop seq do k=1, n c(j,i) = c(j,i) + a(k,i) * b(j,k)!$acc end kernels 38, #pragma acc loop gang, vector(128) collapse(2) /* blockidx.x threadidx.x */ 39, /* blockidx.x threadidx.x collapsed */ 41, #pragma acc loop seq 39,!$acc loop gang, vector(128) collapse(2)! blockidx%x threadidx%x 40,! blockidx%x threadidx%x collapsed 42,!$acc loop seq collapse を指定するとループを融合してから並列化する短いループがネストしている際に有用実行時間的にはそれぞれのループを並列化した場合と変わらないことが多い並列実行形状 ( 後述 ) を細かく指定する場合などにうまく使い分けると良い

46 46 C (matmul1.c) Fortran (matmul1.f90) double **a=null, **b=null, **c=null; // malloc で a,b,c を確保 #pragma acc kernels #pragma acc loop independent for(i=0; i<n; i++){ #pragma acc loop independent for(j=0; j<n; j++){ #pragma acc loop seq for(k=0; k<n; k++){ c[i][j] += a[i][k] * b[k][j]; double precision, allocatable :: a(:,:), b(:,:), c(:,:) allocate(a(n,n), b(n,n), c(n,n))!$acc kernels!$acc loop independent do i=1, n!$acc loop independent do j=1, n!$acc loop seq do k=1, n c(j,i) = c(j,i) + a(k,i) * b(j,k)!$acc end kernels 実際にコンパイルして実行してみよう並列化されたか? 実行時間は短くなったか? independent や seq を変更してみるとどうか? collapse 指定を変更するとどうか?

47 47 ここまでループをどのように GPU 上の計算コアに割り当てるかはおまかせだった簡単なプログラムでは特に問題ないことが多いが明示的に調整したい場合もあるネストしたループ ( 多重ループ ) はどのように計算コアに割り当たっている? WARP 長 (32) にあわせたループ構造にしたがコンパイラはそれに合わせた実行をしてくれているのか? 実はコンパイル時のメッセージにどのように割り当てるかが出力されていた gang, vector と blockidx, threadidx という概念が存在するようだ pgcc -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -o vector0_c_acc vector0.c 17, #pragma acc loop gang, vector(32) /* blockidx.x threadidx.x */ pgfortran -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -o vector0_f_acc vector0.f90 14,!$acc loop gang, vector(32)! blockidx%x threadidx%x

48 48 OpenACC ではハードウェアに階層的な並列性があることを想定しており上位階層から順に gang, worker, vector となっているこれらをどのように組み合わせて実行するかを指定できる CUDA の並列実行モデルが階層的になっているためそれにあわせて言語設計されたという方が正しい grid, threadblock, thread の三階層構造 OpenACC のおおまかな並列実行モデルの対応付け gang vector blockid 0 blockid 1 blockid 2 threadid 0,1,2 threadid 0,1,2 threadid 0,1,2

49 gang : block vector : thread Streaming Multiprocessor(SM) 内の並列性は vector SM 単位の並列性は gang 基本的には連続メモリアクセスする最内側のループは vector より外側のループは gang くらいのイメージ HW の制約上実際には 32 コア単位で動作していることを覚えておくと良い性能が出ることもある ()

49 49 gang : block vector : thread Streaming Multiprocessor(SM) 内の並列性は vector SM 単位の並列性は gang 基本的には連続メモリアクセスする最内側のループは vector より外側のループは gang くらいのイメージ HW の制約上実際には 32 コア単位で動作していることを覚えておくと良い性能が出ることもある () で数字を与えた場合はその数単位で割り当てられるもう少し詳細に言えば gang は HW レベルで同期できない単位の粗粒度並列性 (CUDA では SM 単位 ) worker は HW レベルで同期できる単位の細粒度並列性 (CUDA では SM 内の WARP 群 ) vector は worker 内部での SIMD やベクトル並列処理 (CUDA では WARP) 外側のループほど上位 (gang 側 ) でなければならない :OpenACC 2.0 以降で厳密化とりあえず gang と vector を意識しておくと高い性能が出やすくなることもあるかも知れない程度に考えておこう

50 50 単純なベクトル計算を題材として OpenACC の基本を学ぶコンパイルの仕方実行の仕方 CPU-GPU 間のデータ転送について行列積を題材として OpenACC の基本を学ぶ並列化ループの指定方法について CG 法を題材として OpenACC の基本を学ぶ少し複雑なコードの OpenACC 化についてその他 OpenACC に関する話題最適化のための一般的なヒントなど

51 51 単純な CG 法の計算カーネル ( 反復計算部 ) を題材としてプログラムの OpenACC 化を考えてみる簡単にするため行列は密行列前処理は対角スケーリング CG 法 ( 共役勾配法 Conjugate Gradient Method) 対称正定値行列を係数とする連立一次方程式 Ax=b を解く手法行列 A 既知のベクトル b 未知のベクトル x 基本アルゴリズム Wikipedia から引用前処理なし実際のコードは計算順序が変更されている版単純な行列 A とランダム行列 xx から b を求めておき Ax=b を解いて x と xx が ( ほぼ ) 一致することを確認するという構造にしてある時間測定を簡単に書くため OpenMP 関数を利用コンパイル時に -mp オプションを加える必要あり

52 52 Compute r (0) = b-[a]x (0) for i= 1, 2, solve [M]z (i-1) = r (i-1) ρ i-1 = r (i-1) z (i-1) if i=1 p (1) = z (0) else β i-1 = ρ i-1 /ρ i-2 p (i) = z (i-1) + β i-1 z (i) endif q (i) = [A]p (i) α i = ρ i-1 /p (i) q (i) x (i) = x (i-1) + α i p (i) r (i) = r (i-1) - α i q (i) check convergence r end 初期値 x(0) は適当な値 ( 今回は 0 ベクトル ) 収束するまで繰り返す前処理今回は r を対角要素で割るだけリダクションコピーリダクションベクトル積和 Ax=b:A は行列 x と b はベクトル z,r,p,q はベクトル α β ρ はスカラー ( ベクトルのリダクション結果 ) 行列ベクトル積リダクションベクトル積和ベクトル積和収束判定 ( 中身はリダクションと平方根 ) 上付き文字は反復回数に対応

53 行列やベクトルに対する単純な計算ばかりで構成されているため並列化 OpenACC 化は容易 : 行列要素同士のコピーや四則演算 : 集約演算 reduction dot product 複雑な前処理を適用する場合は難易度が上がる具体的にはどのような手順で OpenACC 化すれば良いだろうか? for(iter=1; iter<=maxiter; iter++){ printf("iter %d ", iter); // {z = [Minv]{r for(i=0;i<n;i++){ z[i] = dd[i]*r[i]; // {rho = {r{z 対角要素分の1だけのベクトルddを用意済 rho = 0.0; for(i=0;i<n;i++){ rho += r[i]*z[i]; // {p = {z if iter=1 // beta = rho/rho1 otherwise if(iter==1){ for(i=0;i<n;i++){ p[i] = z[i]; else{ beta = rho/rho1; for(i=0;i<n;i++){ p[i] = z[i] + beta*p[i]; // {q = [A]{p for(i=0;i<n;i++){ 行列ベクトル積 q[i] = 0.0; 行ごとの計算を並列に行える for(j=0;j<n;j++){ q[i] += A[i*N+j]*p[j]; // alpha = rho / {p{q pq = 0.0; for(i=0;i<n;i++){ pq += p[i]*q[i]; alpha = rho / pq; // {x = {x + alpha*{p // {r = {r - alpha*{q for(i=0;i<n;i++){ x[i] += + alpha*p[i]; r[i] += - alpha*q[i]; // check converged dnrm = 0.0; for(i=0;i<n;i++){ dnrm += r[i]*r[i]; resid = sqrt(dnrm/bnrm); if(resid <= cond){break; if(iter == maxiter){break; rho1 = rho; 53

54 54 並列化できることがわかっているループに指示文を挿入サンプルコード cg2.c および cg2.f90 に指示文を挿入する Fortran 版ではコンパイル時に -cpp オプションを加える必要あり出力部の調整のために #if を使っているためはじめはループ 1 つだけに指示文を挿入して実行してみよう step by step で少しずつ並列化できるのは OpenACC の強みの一つ注意点 ( コンパイラのメッセージも参考に ) 特に C の場合は independent 節も活用する必要あり主に配列の参照先アドレスが重複する可能性を考慮するためか ( 既に例示したように ) 配列長が認識できずにデータ転送に躓くことがあるので適切に copy 指示節を追加する C 言語版の行列 A に要注意もちろん in/out を意識して copyin/copyout としても良い reduction が適切に生成されているかを確認 ( 問題なく生成されると思って良いが念のため )

55 55 C 言語版 CPU 向け (OpenMP 並列化 ) pgcc -tp=skylake -mp -o cg2c_c cg2.c GPU 向け (OpenACC 並列化 ) pgcc -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -mp -cpp -o cg2c_c_acc cg2.c Fortran 版 CPU 向け (OpenMP 並列化 ) pgfortran -tp=skylake -mp -cpp -o cg2f_f cg2.f90 GPU 向け (OpenACC 並列化 ) pgfortran -Minfo=accel -acc -ta=tesla:cc60 -tp=skylake -mp -cpp -o cg2f_f_acc cg2.f90 ジョブスクリプト #!/bin/bash #PJM 省略 module load ~/opt/pgi/modulefiles/pgi/19.4./cg2c_c./cg2c_c_acc cg2.c と cg2.f90 は OpenACC 指示文を挿入していないソースコード kernels と loop を適切に指定したのが cg3.c と cg3.f90 cg3.c ではコンパイラが行列 A の大きさに迷わないよう copyin も追加している

56 56 A: x: b: iter e e-16 iter e e-16 iter e e-16 time: sec, sec/iter result(x): : e : e : e : e : e : e : e : e : e : e-15 既知の行列 A ベクトル X( 求める答え ) 既知のベクトル b 反復計算の履歴計算結果ベクトル X 計算結果ベクトル X と最初に設定したベクトル X の比較

57 57 正しく計算できているはずだが調べて見るとデータ転送が多い PGI_ACC_TIME などで確認できる現在のデータ転送状況イメージ Compute r (0) = b-[a]x (0) for i= 1, 2, solve [M]z (i-1) = r (i-1) ρ i-1 = r (i-1) z (i-1) if i=1 p (1) = z (0) else β i-1 = ρ i-1 /ρ i-2 p (i) = z (i-1) + β i-1 z (i) endif q (i) = [A]p (i) α i = ρ i-1 /p (i) q (i) x (i) = x (i-1) + α i p (i) r (i) = r (i-1) - α i q (i) check convergence r end CPU GPU 計算をする度に関係する配列全てを送受信している更新があったデータだけを送受信すれば良いはずでは?

58 58 data 節を用いてデータ転送を削減してみる送受信が必要なデータはどれだろうか? #pragma acc data copyin(?) copyout(?) Compute r (0) = b-[a]x (0) for i= 1, 2, solve [M]z (i-1) = r (i-1) ρ i-1 = r (i-1) z (i-1) if i=1 p (1) = z (0) else β i-1 = ρ i-1 /ρ i-2 p (i) = z (i-1) + β i-1 z (i) endif q (i) = [A]p (i) α i = ρ i-1 /p (i) q (i) x (i) = x (i-1) + α i p (i) r (i) = r (i-1) - α i q (i) check convergence r end 余裕がある人は update 節を用いて途中の配列データを覗いてみようデバッグの際などに役立つことがある!$acc data copyin(?) copyout(?) リダクション結果のスカラ変数は自動的に CPU 側に送られるため気にしなくてよい

59 59 実は最初に全てのデータを転送し結果ベクトルのみ回収すれば良かったもちろんわかっていればいきなりデータ通信の最適化を行っても良い実際に実行時間レベルで意味がある (GPU を使うことで CPU より大幅な高速化が得られる ) のは大規模な行列の場合コードを書き換えたり実行時に引数を与えれば問題サイズを変更できるようになっているデータを出力している部分をなんとかしないと ( コメントアウトなど ) 大量のデータが書き出されてしまうため注意問題が簡単過ぎてすぐに反復計算が終わってしまうためもっと長時間実行したい場合は行列をいじったり収束条件を厳しくしたりする必要がある cg4.c と cg4.f90 は cg3.c と cg3.f90 に data 指示文を加えて最初に全てのデータを GPU へ転送したもの cg5.c と cg5.f90 はさらに kernels 指示文に present 節を加えてデータ転送が不要であることを明示したもの

60 60 単純なベクトル計算を題材として OpenACC の基本を学ぶコンパイルの仕方実行の仕方 CPU-GPU 間のデータ転送について行列積を題材として OpenACC の基本を学ぶ並列化ループの指定方法について CG 法を題材として OpenACC の基本を学ぶ少し複雑なコードの OpenACC 化についてその他 OpenACC に関する話題最適化のための一般的なヒントなど

61 61 GPU の特徴にあわせた適切な実装を行うことで性能が向上する特に以下の点は性能への影響が大きいため気を付けたい並列度 GPU は多数の計算コアによる並列計算によって高性能を得ているため並列化対象ループに十分な長さがあるようにする vector(threadidx) は 32 以上 gang(blockidx) は SM 数以上短いループは collapse で結合させるなどする連続メモリアクセス vector ループでは連続メモリアクセスを心がける GPU の得意なメモリアクセス方式となる for(i=0;i<n;i++){ for(j=0;j<n;j++){ a[i][j] = b[i][j] + c[i][j]; a[j][i] = b[j][i] + c[j][i]; do i=1, N do j=1, N a(i,j) = b(i,j) + c(i,j); a(j,i) = b(j,i) + c(j,i);

62 62 kernels/parallel 内部 (OpenACC 並列化対象内部 =GPU 上 ) で関数を実行する場合は routine 指示文が必要 // プロトタイプ宣言にも指示文が必要 #pragma acc routine void calc(int n, double *v); // 呼び出し元 #pragma acc data copy(v1) { #pragma acc kernels { calc(n, v1); // 呼び出し対象の関数 #pragma acc routine void calc(int n, double *v) { int i; for(i=0; i<n; i++){ v[i] = v[i] * 2.0;! 呼び出し対象の関数 module mod contains subroutine calc(n,v)!$acc routine integer :: n double precision :: v(*)!$acc loop do i=1, n v(i) = v(i) * 2.0d0 end subroutine calc end module mod! 呼び出し元!$acc data copy(v1)!$acc kernels call calc(n,v1)!$acc end kernels!$acc end data C では関数名の前に Fortran では関数名の次に指示文を挿入関数内でも並列計算を行わせるには routine の後にさらに gang などの並列実行形状の指定も必要

63 63 デバッガプロファイラ PGI コンパイラ付属の pgdbg や pgprof NVIDIA 社の提供する nvvp や nvprof その他サードパーティ製のソフトの幾つかが利用可能 GUI が表示されるものは X 転送が必要 CUDA や MPI との連携 OpenACC と外部とでデータ ( ポインタ ) をやりとりする方法を提供 host_data, use_device, deviptr などを活用 (Deep copy の話で少しだけ触れたが )CUDA Unified Memory CPU と GPU が連続したメモリアドレス空間を利用する技術データ転送を記述しなくても必要に応じて CPU-GPU 間のデータ転送が勝手に行われるためプログラミングが容易になる幾つかの条件 ( 制限 ) があり性能にもペナルティが生じるコンパイル時に -ta=tesla:managed オプションをつけるだけで良い

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所共通コードプロジェクト

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction