PowerPoint プレゼンテーション

Size: px

Start display at page:

Download "PowerPoint プレゼンテーション"

しまなひがき
5 years ago
Views:

1 S6 モデル M XM 目次. 行列積計算. SMP 同期のオーバーヘッド時間 3. MPI 同期のオーバーヘッド時間 4. 性能モニターのサブルーチンコールのオーバーヘッド時間 5. メモリアクセス性能 6. パターンマッチングの利用 7. ストラッセンの行列積 8. 基本演算性能データ 9. 連立一次方程式. 反復法. SIMD(Single Instruction Multiple Data). 性能 log から OpenMP 指示行の作成 3. その他

2 S6 モデル M S6/M システムのノードでの実行に関しての記述です構成の概略は以下の様になっていますプロセッサ power7 周波数 3.83GHz CPU コア数 3( 物理的 ),64( 論理的 ) 理論最大性能 GFLOPs メモリ容量 56GB メモリアーキテクチャー NUMA,(6 論理コア単位で flat) SIMD(Single Instruction Multiple Data) をサポートする VSX 機構付き L3 キャッシュ On-Chip 3MB/8 コア演算器 / 物理コア乗加算器 4 つまた, メモリアクセス性能をみるのに S6/XM と比較しています S6/xm は周波数が 3.3GHz で他は S6/M と同じです演算性能だけみれば,S6/M ノードは S6/xm の 6% 性能向上版ともいえます

3 . 行列積計算 C=AB の計算のプログラムには, 外積型, 内積型があります外積型内積型 DO 3 K=,NN DO 3 J=,NN DO J=,NN DO I=,NN DO I=,NN S=.D C(I,J)=C(I,J)+A(I,K)*B(K,J) DO K=,NN S=S+A(I,K)*B(K,J) CONTINUE 3 CONTINUE C(I,J)=S CONTINUE 3 CONTINUE 行列積計算で用いられる用語に M 段 N 列というのがありますこれは, 上の例では DO 3 K=,NN,NDO 3 J=,NN,N のアンローリング数を N 列 DO J=,NN,MDO I=,NN,M のアンローリング数を M 段の事を言います講習会では, キャツシュチューニングを意識した 4 段 6 列内積型のプログラムが示されました

4 iu=6 iu=4 ib= ib= ib3=96 *poption indep(c) <= ここに注目してください do kk=,nn,ib do jj=,nn,ib do ii=,nn,ib3 do k=kk,min(kk+ib-,nn),iu do j=jj,min(jj+ib-,nn),iu t=c(j,k) t64=c(j+3,k+5) do i=ii,min(ii+ib3-,nn) t=t+a(i,j)*b(i,k) t64=t64+a(i,j+3)*b(i,k+5) end do c(j,k)=t c(j+3,k+5)=t64 end do end do end do end do end do

5 ノード 8 スレッド /8core; コンパイルオプション Os parallel NN=88 の場合の実行結果は以下の様になりました *poption indep(c) 行のあるなし ( 指定あり, 指定なし ) の実行結果に大きな差がでました実行時間 ( 秒 ) 性能 (GFLOPs) 指定あり指定なしコンパイルリストでは *poption indep(c) の指定あり, なしともに並列化はされています指定あり *end of compilation MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func_3_main 例示された箇所が DO kk=,nn,ib で並列化されました

6 指定なし *program name = MAIN *end of compilation MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func MAIN *end of compilation _parallel_func_3_main *end of compilation _parallel_func_4_main *end of compilation _parallel_func_5_main *end of compilation _parallel_func_6_main () () (3) (4) 例示された箇所が () do kk=,nn,ib で並列化されました () do jj=,nn,ib で並列化されました (3) do ii=,nn,ib3 で並列化されました (4) do k=kk,min(kk+ib-,nn),iu で並列化されましたすなわち,*poption indep(c) の指定あり, なしでは一般に言われる並列化率は同じですこのため, 実行時間の大きな差は, 並列化回数の差によるものと考えられます並列化回数の差は, 回となっています

7 . SMP 同期のオーバーヘッド時間回あたりの並列化オーバーヘッドを以下のプログラムで測定しましたテストプログラム *poption noparallel *soption unroll() do j=,loop *soption nosimd *poption parallel do i=,n c(i)=a(i)+b(i) continue continue Element parallelizing rate (TOTAL)/(Max * TDs) CPU time 98.6[%] = 6.453/(.8984*8) Flop 99.7[%] = 46534/(3596*8) 6.453*(-.986)=.sec,, 回並列化ですので, 回あたりのオーバーヘッドは nsec と推定されます行列積計算のプログラムでは, ( ) sec/99538=98nsec です目安として,smp 同期時間のオーバーヘッドは約 nsec ということになりますこの段階では, 原因究明, 対策が優先で,,98nsec の差にこだわる必要はありません

8 3. MPI 同期のオーバーヘッド時間以下のつのプログラムの差分で測定しています case sec = mpi_wtime() call mpi_barrier(mpi_comm_world,ierr) do i=, call mpi_barrier(mpi_comm_world,ierr) do i=,n/npe xx=x3(i+n*id/npe) end do call mpi_barrier(mpi_comm_world,ierr) end do call mpi_barrier(mpi_comm_world,ierr) sec = mpi_wtime() - sec case sec = mpi_wtime() call mpi_barrier(mpi_comm_world,ierr) *soption unroll() <= アンローリングの最適化を抑止 do i=, do i=,n/npe xx=x3(i+n*id/npe) end do end do call mpi_barrier(mpi_comm_world,ierr) sec = mpi_wtime() - sec

9 測定結果 MPI 数 case case 同期時間 ( 秒 ) ( 秒 ) nsec/ 回同期のオーバーヘッド時間は, 最大 5 マイクロ秒ですので,smp オーバーヘッドの数十倍となります以上からノードで実行する場合は,SMP 並列で実行するのが良い事がわかります

10 4. 性能モニターのサブルーチンコールのオーバーヘッド時間 C 以下のプログラムで測定しています s=.d a=.d b=.d do i=, call sub(s,a,b) end do write(6,*) 's=',s subroutine sub(s,a,b) implicit real*8 (a-h,o-z) s=s+a+b return end 性能モニター使用オプション指定の場合の結果 s= 3. elapse= sec 性能モニター使用オプション指定なしの場合の結果 s= 3. elapse= e- sec

11 実行時間に明らかに大きな差がでていますこの結果からサブルーチンコール回あたりの性能モニターのオーバーヘッド時間は, ( ) sec/,,= micro sec より約 4micro sec となります例えば, あるサブルーチンの演算量が FLOP, 呼ばれる回数が億回としますするとこのサブルーチンの総演算量は GFLOP となり, ノードで実行すれば, 数十秒 ( 分以内 ) で終了するでしょうところが, 性能モニターを使用すると, 4, 秒時間強 ( 約半日 ) かかる事になりますこのため, モニターリングのオーバーヘッド時間を測定するか, 運営サイトに質問するのが良いでしょうもし, サブルーチンのインライン化をして実行してくださいという回答が来れば, マニュアル等で調べる手間を省かない様にするのが良いでしょう

12 5. メモリアクセス性能以下の簡単な 5 つのプログラムで測定しています (MMAX=893) D Copy D Scale D Add do j =,MMAX do j =,MMAX do j =,MMAX do i =,MMAX do i =,MMAX do i =,MMAX r(i,j)=p(i,j) p(i,j)=scalar*q(i,j) q(i,j)=p(i,j)+r(i,j) enddo enddo enddo enddo enddo enddo D Triad do j=,mmax do i=,mmax r(i,j) = p(i,j) + scalar*q(i,j) enddo enddo Transpose do j=,mmax do i=,mmax r(i,j)=p(j,i) enddo enddo S6/XM と S6/M の機種で測定していますが, 約 3 倍の差があり, 演算性能の差 6% とは大きな差があります特に,Transpose 64 スレッドでの差が顕著です

13 メモリバンド幅性能測定結果 (MB/sec) S6/XM MB/sec function スレッドスレッド 4スレッド 8スレッド 6スレッド 3スレッド 64スレッド D Copy D Scale D ADD D Triad Transpose S6/M MB/sec function スレッドスレッド 4スレッド 8スレッド 6スレッド 3スレッド 64スレッド D Copy D Scale D ADD D Triad Transpose

14 QCD( 量子色力学 ) 計算の主要な処理に, 計算機から見た場合アドレス非連続な複素数変数の行列積計算がありますこの処理を性能テスト用に切り出したプログラムを S6/M,S6/XM で実行した結果は以下の様になりましたサイズ条件 NX=6,NY=6,NZ=64,NT=6 コンパイルオプション -Oss 実行環境 64SMP/3COE チューニングの内容は以下のつです () 複素変数を実数変数化し, コンパイラ最適化と VSX(SIMD 命令の適用 ) 機能の適用を容易にしました ()mod 関数を IAND 関数に置き換え整数演算の高速化と使用する整数用レジスタの数を削減しました実行結果 GFLOPs 一覧表オリジナルソースチューニングソース S6/M Xm メモリアクセス性能測定結果とよく対応しており, チューニング効果は,S6/XM に比べて S6/M が小さくなっていますこの事から, ()QCD というプログラムは演算性能よりもメモリアクセス性能に大きく依存する ()S6/M でのチューニングは更なる検討が今後の課題となる ( 今後適時記述予定 ) という事がわかります

15 6. パターンマッチングの利用行列積計算の様にアンローリングの効果の大きいものがありますただ, プログラムのメンテナンスや, コーデイングの手間を考えた場合, 基本通りにコーデイングしたものが高い性能を出してくれるコンパイラが望ましいものです例えば, サイズ N=377 の行列積計算をコーデイングする場合, アンローリングによるコーデイング数の増加に加え, 端数部分の処理も追加しなければなりませんまた計算機機種によりアンローリング数の最適値が変わる事があり, その都度プログラム修正の手間がかかりますアンローリングもしない基本どうりのコーデイングで高い性能が得られればその手間も省けますので, 運営サイトに問合わせるのも良いでしょう S6/M の場合の例を以下に示します

16 行列積計算 ( アンローリングとの比較 ) 外積型 DO K=,NN DO J=,NN DO I=,NN A(I,J)=A(I,J)+B(I,K)*C(K,J) 内積型 DO J=,NN DO I=,NN S=.D DO 3 K=,NN S=S+B(I,K)*C(K,J) 3 CONTINUE A(I,J)=S CONTINUE N=37 Oss でコンパイル外積型内積型アンローリングなし smt on 64smp/3core 334.6Gflops 4.7Gflops smt off 3smp/3core 8.8Gflops.9Gflops アンローリングあり smt on 64smp/3core 53.7Gflops 65.8Gflops ( 四段四列 ) smt off 3smp/3core 6.5Gflops 7.6Gflops 尚, この例は, 実数型倍精度変数ですが, 複素数型倍精度変数でも, パターンマッチングが適用されています

17 7. ストラッセンの行列積演算量の削減を考えたアルゴリズムとして, ストラッセンの行列積,FFT などがありますこれらの演算の特徴として, 元の演算 ( 行列積計算, フーリエ変換計算 ) は乗算と加算が同数とバランスが良く実行性能効率は高く, アルゴリズム変更後は, 演算量は削減されますが, 乗算と加算の演算比率のバランスが悪くなり, また中間結果の格納のためメモリアクセス負荷が高まるため, 実行時間は短縮されますが, 実行性能効率は低くなる事が挙げられます実行性能効率より, 実行時間短縮を優先させるのが良いでしょう以下例として FFT, ストラッセンの行列積の演算量を示しました一次元 FFT 乗算 nlog 加減算 nlog N k n n n ストラッセンの行列積 A(k) 加減算回数 M(k) 乗算回数 k N k 段数 ( k ) M () N 3, A() N 3 J,,..., k M ( J ) A( J ) 7 M ( J 7 A( J ) ) 5 ( J N )

18 N 行列積の演算量 3 をストラッセンの行列積の実行時間で割った見かけの性能が理論最大性能を上回るサイズ, 段数により, その計算機のメモリアクセス性能を判断する事が出来ますサイズが小さく, 段数が少なくて済むものほどメモリアクセス性能が高いと言えます S6/M での実測は以下の様になっています N=644, 段数 4 段, コンパイルオプションは -Oss 使用コア数実測結果理論最大性能 (GFLOPs) (GFLOPs)

19 8. 基本演算性能データアルゴリズムによっては, 乗算と加減算のバランスが悪かったり, 除算が多いものなどがあります一般にアナウンスされる計算機の性能は, 同時に動作する浮動小数点演算器 ( 加算器と乗算器のみ ) の数をもとに算出されていますこのため, 除算やべき乗計算, 数学関数などの性能を測定するか, 運営サイトに問合わせて確認する必要があります S6/M では性能モニターで測定した演算数は以下の様になっています関数 *8 *6 C*6 C*3 演算数演算数演算数演算数 SQT EXP LOG SIN COS TAN ーーーーーーーーーべき乗絶対値ーーーーーーーーーー 6 6 ここで倍精度実数 SQTの演算数は4なので倍精度複素数 z a b* iでは絶対値計算は演算数 7で済むのではと考えられますが, 値は 6になっていますこれは提供されている複素数絶対値計算は精度を考慮し, a, bの値により場合わけを行う事によりますもしそのような心配がない場合は 6 / 7 倍以上の性能向上が出来る事になります a b

20 また,a,b,c を倍精度実数配列,IN 整数配列とした場合以下のような事がありますので注意してください Case DO I=,N C(i)=a(i)**b(i) End do Case DO i=,n C(i)=a(i)**IN(i) End do B(i) にはすべて 5.d,IN(i) にはすべて 5 が入っていいる場合の要素あたりの浮動小数点演算数は case 98 case 4 となります

21 選択した 6 個の基本演算 DO ループ TEST C で始まる変数は複素数変数 TEST DO I=,N V(I)=V(I)+V3(I) DO I=,N V(I)=V(I)*V3(I) TEST3 DO I=,N V(I)=V(I)/V3(I) TEST5 DO I=,N CV(I)=CV(I)*CV3(I) TEST7 T=.D DO I=,N T=T+V(I) TEST4 DO I=,N CV(I)=CV(I)+CV3(I) TEST6 DO I=,N CV(I)=CV(I)/CV3(I) test8 T=.D DO I=,N T=T+V(I)*V3(I)

22 test9 DO I=,N V(I)=SQT(V(I)) test DO I=,N V(I)=COS(V(I)) test DO I=,N V(I)=SIN(V(I)) test DO I=,N V(I)=TAN(V(I)) test3 DO I=,N V(I)=EXP(V(I)) test4 DO I=,N V(I)=LOG(V(I)) test5 DO I=,N V(I)=ABS(CV(I)) test6 S=.D S=.D DO I=,N S=S+(V(I)-V3(I))** S=S+(V(I)+V3(I))**

23 9. 連立一次方程式直接法では TOP5 で性能評価される事で有名ですが, 3 次元問題などになると, メモリ容量, 演算量が非常に大きくなり, 実用上使用される事がなく, 反復法が良く使用されていますただここ年来, 精度上の問題で一部の次元の小さい方程式を直接法で解く事も行われる様になってきています ( 構造計算など ) また, 連立一次方程式の直接法は年前にはドンガラレポートとして実用ベースの次元数, の各種計算機の性能比較が行われていました元ソース修正不可ハードウエア及びコンパイラの最適化能力こみの評価元ソース修正可上記に加えチューニング能力も含めた評価元オーダーあたりが実用的に使用されるサイズで, この部分を含んだ箇所を並列化するということが多いため,S6/M では元, コア実行での性能を評価していますコンパイルオプション -Oss noparallel

24 S6/M コア ( 論理最大性能 3.64GFLOPs) 実行結果次元数 N= アンローリング段数列数性能 (GFLOPs) 実行結果からも推測されるとは思いますが,S6/M 以外の多くの計算機でも段数, 列数 4~8 あたりが最適となっています

25 . 反復法固有値計算など多岐に亘って反復法が使用されていますテストとしては対称行列には CG 法,PCG 法, 非対称行列には CGS 法,BCG 法で最適化の影響などをチェックしています Ax=b A 行列,x,b はベクトル A を定め, 解がすべてとなる様に b を設定しています反復の初期値は x(i)=.d (i=,,.,n) としていますまた,S6/M で実行したときの収束状況を一覧にして次ページに記載しています A= A= 対称非対称

26 回収束せず回収束せず回収束せず精度最大誤差反復回数精度最大誤差反復回数反復回数と精度非対称行列回収束せず精度最大誤差反復回数精度最大誤差反復回数反復回数と精度対称行列収束判定値 ) (5 ) (5 ) (5 ) ( ) ( () ) (5 ) ( ) ( (),, BCG BCG CGS CGS PCG PCG CG CG n 収束状況一覧表

27 . SIMD(Single Instruction Multiple Data) 高速化手法として以前から SIMD という事が言われていましたが最近とみに使われる様になりました SIMD の効果を考える場合つぎのつのケースがあります演算 GPU S6/M SMP SIMD SMP SIMD 倍精度実数乗算 OK OK OK OK 倍精度複素数乗算 OK OK OK NG 4 倍精度実数加算 OK OK OK NG 4 倍精度実数乗算 OK OK OK NG OK 適用可 NG 適用不可 S6/M では, キャッシュ LD 3KB/ コア,L 56KB/ コア L3 3MB/8 コアを考慮して実数型倍精度変数ワークエリアを使用して複素数型倍精度変数の乗算実数型 4 倍精度変数の加減算乗算における SIMD 効果のテストを行いました () ワークエリアと取り方と最適なサイズの調査 () 並列実行時も含めた効果の調査の順で実施したテスト結果は以下の様になりました

28 ワークエリアと取り方と最適なサイズ調査 N=6384 の複素数乗加算演算時間実行時間 ( 秒 ) real complex simd ワークエリアサイズ

29 並列化も含めた効果の調査実行時間 ( 秒 ) 3 N=65536 の演算時間 - Simd 用ワークエリア nn= 複素数乗算 SIMD 4 倍精度加算 SIMD 4 倍精度乗算 SIMD3 5 4 コア数

30 N=65536 の演算時間 - Simd 用ワークエリア nn=56 実行時間 ( 秒 ) 複素数乗算 SIMD 4 倍精度加算 SIMD 4 倍精度乗算 SIMD コア数

31 . 性能 log から OpenMP 指示行の作成 S6/M システムでは, チューニングのためにコンパイル時に性能関連情報が取得できますこれを OpenMP の指示行作成に利用できますその一例をしめします sum=.q ** ** Parallel processing starting at loop entry ** Parallel function _parallel_func MAIN ** Parallel loop ** D TLOCAL variable ** ZZ TLOCAL variable ** SUM3 TLOCAL variable ** CNT4 TLOCAL variable ** YY TLOCAL variable ** SUM TLOCAL variable ** CNT TLOCAL variable ** XX TLOCAL variable ** SUM reduction variable (SUM) ** I3 TLOCAL variable ** I TLOCAL variable TLOCAL 変数は private に置き換えます

32 do i=,n xx=x3(i)*cnt by=.q-xx cnt=by-ay sum=.q ** do i=,n yy=x3(i)*cnt bz=.q-xx-yy cnt4=bz-az sum3=.q ** ** Continued parallel processing ** Parallel processing finishing at loop exit n the loop. ** do i3=,n zz=x3(i3)*cnt4 d = -xx*yy*s-tt*zz*(.q-xx-yy-zz)+(xx+yy)*ramda**+ (.q-xx-yy-zz)*(.q-xx-yy)*fme**+zz*(.q-xx-yy)*fmf** sum3=sum3+cnt*cnt*cnt4*(gw3(i)/d)*(gw3(i)/d)*gw3(i3) end do sum=sum+sum3*h end do sum=sum+sum*h end do!$omp parallel do を最外側 DO i=,n の前に挿入すれば良い事を表しています

33 指示行挿入後のソース!$OMP parallel do!$omp& reduction(+sum)!$omp& private(xx,yy,cnt,cnt4,i,i3,sum,sum3,d,by,bz) do i=,n xx=x3(i)*cnt by=.q-xx cnt=by-ay sum=.q do i=,n yy=x3(i)*cnt bz=.q-xx-yy cnt4=bz-az sum3=.q do i3=,n zz=x3(i3)*cnt4 d = -xx*yy*s-tt*zz*(.q-xx-yy-zz)+(xx+yy)*ramda**+ (.q-xx-yy-zz)*(.q-xx-yy)*fme**+zz*(.q-xx-yy)*fmf** sum3=sum3+cnt*cnt*cnt4*(gw3(i)/d)*(gw3(i)/d)*gw3(i3) end do sum=sum+sum3*h end do sum=sum+sum*h end do!$omp end parallel do

34 3. その他計算機の性能では整数演算, 論理演算, マスク演算, リスト演算は見逃がされている事が多く, 整数演算による性能低下や, 並列化効果の低下をもたらす事もありますのでつのお勧めの例を示しました ( ア )mod 関数は iand 関数に変更 mod(i,) => iand(i,) mod(i,4)=> iand(i,3) ( イ )if 文の削除 ( 並列化実行時の演算量の均等化 ) do it=,nt do iz=,nz do iy=,ny do ix=,nx if(mod(ix+iy+iz+it,).eq.ieo) then は以下の様に修正するのが良いでしょう do it=,nt do iz=,nz do iy=,ny ip=iand(ix+iy+iz+it+ieo+,) do ix=+ip,nx,

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション各種計算機アプリケーション性能比較目次. はじめに. 行列積計算.QDR 積計算 4.N 体問題計算 5. 多次元積分計算 5. 次元積分計算 5. 次元積分計算 5. 4 次元積分計算 5.4 5 次元積分計算 5.5 6 次元積分計算平成 6 年度第四半期 . はじめに今までと少し性質の異なるグラフィックボードが使用できる様になったので従来のアプリケーションで性能比較を実施しました主に使用した計算機は以下のものです