H26 年度スーパーコンピュータの高速化技法入門演習用資料 2015 年 1 月 21 日大阪大学サイバーメディアセンター日本電気株式会社

Size: px

Start display at page:

Download "H26 年度スーパーコンピュータの高速化技法入門演習用資料 2015 年 1 月 21 日大阪大学サイバーメディアセンター日本電気株式会社"

さやなことじ
5 years ago
Views:

1 H26 年度スーパーコンピュータの高速化技法入門演習用資料 2015 年 1 月 21 日大阪大学サイバーメディアセンター日本電気株式会社

3 SX-ACE の計算ノード構成全 1536ノード構成 1ノードあたり 1CPU(4core) メモリ 1ノードあたり 64G バイト ( 共有 ) ACE キューで最大 1024core(256 ノード ) まで利用可能スーパーコンピュータ SX-ACE 全 1536 ノード 1コア 64ギガFLOPS 1ノードあたりベクトルプロセッサ 4core 共有物理メモリ 64ギガバイト 1 クラスタ (512 ノード ) 1 クラスタ (512 ノード ) 1 クラスタ (512 ノード ) Page 3

4 SX-ACE の CPU 構成演算性能 256GFLOPS(64GFLOPS/ コア 4 コア ) メモリバンド幅 256GB/s (16GB/s/ ポート 16 ポート ) core #0 SPU 256GB/s VPU 64GFLOPS ADB(1MB) 256GFLOPS core core core #1 #2 #3 IOI/F RCU I/O ポート専用ネットワークポート crossbar 256GB/s MMC MMC MMC MMC MMC MMC MMC MMC MMC MMC MMC MMC MMC MMC MMC MMC SPU:ScalarProcessingUnit VPU:VectorProcessingUnit ADB:AssignableDataBuffer RCU:RemoteAccessControlUnit MMC:Main MemoryControll er Memory (64GB) 256GB/s (16 ポート )

5 行列積のプログラムを使った課題オリジナルコードのコンパイルと実行性能解析 (ftrace の利用 ) アンローリング outerunrol 指示行 ( 指示行による最適化 ) 自動インライン展開 ( コンパイルオプションによる最適化 ) 行列積ライブラリ ( コンパイラによる最適化 ) 自動並列化 ( コンパイルオプションによる最適化 ) Page 5

6 演習問題の構成ディレクトリ構成 super/ --practice_1 オリジナルコード実行環境 --practice_2 性能解析 (ftrace) 演習問題 --practice_3 outerunrol 指示行演習問題 --practice_4 自動インライン展開演習問題 --practice_5 行列積ライブラリ `--practice_6 自動並列化 Page 6

7 プログラム最適化の流れプログラムの性能の把握性能解析ツールでの情報採取性能ボトルネックサブルーチンループの把握サブルーチンの性能は十分か? MFLOPS VLEN V.Op.Ratio MFLOPS ~10GF VLEN ~100 V.Op.Ratio ~98% は改善の余地あり性能改善策コンパイルオプション指示行ソースコード修正指示行とはコンパイラは最適化を行う上でソースコード上からは判断できない条件があった場合最適化を抑止しますユーザーが明示的に指示行で条件を与えてあげることにより最適化を促進させることが可能になります Page 7

8 1. 演習問題 : オリジナルコード目的現状のプログラムの性能を把握する手順コンパイル ( リストの確認 ) 実行 ( 結果性能の確認 ) ディレクトリ practice_1 Page 8

9 1. オリジナルコード : コンパイル (1) コンパイラオプションコンパイラバージョン表示 (-V) 編集リスト変形リストを採取 (-R2) 詳細診断メッセージを表示 (-Wf,-pvctlfull msg) sxf90-v-cvopt-r2-wf,-pvctlfull msgmat_tune0.f コンパイル方法 %./comp.sx.sh Page 9

10 1. オリジナルコード : コンパイル (2) 変形リスト (mat_tune0.l) 25 do j=1,n 26!cdir nounroll 27 do k=1,n 28 do i=1,n.!cdir nodep.!cdir on_adb(a,b). do i = 1, a(i,j)=a(i,j)+b(i,k)*c(k,j) 30 end do 31 end do 32 end do 編集リスト (mat_tune0.l) V: ベクトル化対象ループ 25: > do j=1,n 26:!cdir nounroll 27: > do k=1,n 28: ---- V > do i=1,n 29: A a(i,j)=a(i,j)+b(i,k)*c(k,j) 30: ---- V end do 31: end do 32: end do Page 10

11 1. オリジナルコード : 実行ジョブファイル (run.sx.sh) #!/bin/ csh #PBS -q ACE -q ジョブクラス名を指定 #PBS -l cpunum_job =4,elapstim_req=0:10:00,memsz_job=1GB -l 使用 CPU 数経過時間メモリ容量の申告 #PBS -j o -N p1 -sx-sample -jo 標準エラー出力を標準出力と同じファイルへ出力する cd $PBS_O_WORKDIR -N ジョブ名を指定 timex./a.out NQSⅡ オプション実行 %qsubrun.sx.sh Request******.cmcsubmittedtoqueue:ACE. ***** はジョブ番号 Page 11

12 1. オリジナルコード : 実行結果結果ファイル (p1-sx-sample.o*** *) 約 25GFLOPS **** ProgramInformation ***** Real Time (sec) : User Time (sec) : Sys Time (sec) : Vector Time(sec) : Inst.Count : V.Inst.Count : V.Element Count : V.Load ElementCount : FLOP Count : MOPS : MFLOPS : A.V.Length : V.Op. Ratio (%) : Memory Size(MB) : MIPS : I-Cache (sec) : O-Cache (sec) : Bank Conflict Time CPUPort Conf.(sec) : MemoryNetworkConf.(sec) : ADB Hit ElementRatio (%) : プログラムインフォメーションの出力 Page 12

13 2. 演習問題 : 性能解析 (ftrace の利用 ) 目的性能解析ツール ftrace を使い性能情報を採取する手順ソースコードの修正 (ftrace_region の挿入 ) コンパイルオプションの追加 (-ftrace) 実行 ( 結果性能の確認 ) ディレクトリ practice_2 Page 13

14 2. 性能解析 (ftrace の利用 ): ソースコード修正 mat_tune0.f へ ftrace_region を挿入プログラムの局所的な部分の性能を知りたい場合に使用する通常の ftrace はサブルーチン単位での情報を表示ループ単位で細かく情報採取が可能 callftrace_region_begin/end で測定したい区間をはさむコメントを外す 23 t1=etime(cp1) 24! call ftrace_reg ion_begin('ma in-loop' ) 25 do j=1,n 26 do k=1,n 27 do i=1,n 28 a(i,j)=a(i,j)+b(i,k 29 enddo 30 enddo 31 enddo 32! call ftrace_reg ion_end('mai n-loop' ) Page 14

15 2. 性能解析 (ftrace の利用 ): コンパイルオプションの追加 -ftrace を comp.sx.sh に追加 sxf90-v-cvopt-r2-wf,-pvctlfull msgmat_tune0.f-ftrace コンパイルオプションの意味 -ftrace 簡易性能解析機能を利用する注意 -ftrace オプションは測定オーバーヘッドが生じるため実行回数の多いサブルーチンがある場合には実行時間が延びますそのため常に使用することはお勧めしません Page 15

16 2. 性能解析 (ftrace の利用 ): コンパイルと実行コンパイル %./comp.sx.sh 実行 %qsubrun.sx.sh Page 16

17 2. 性能解析 (ftrace の利用 ): 実行結果結果ファイル (p2-sx-sample.o*** *) 約 40GFLOPS * * FTRACEANALYSIS LIST * * Exec ution Date :MonJan 19 17:05: Tota l CPU Time :0:00'00"92 5 (0.925sec.) ftrace の情報 ftrace_region の情報 PROC.NAME FREQUENCYEXCLU SIVE AVER.TIME MOPS MFLOPS V.OP VER. A VECTOR I-CACHE O-CACHE BANK CONFLICT ADB HIT TIME[ sec]( %) [msec] RATIO.LEN V TIME MISS MISSCPU PORTNETWO RK ELEM.% main _ (100.0) tota l (100.0) Main-loop (99.9) matrix_size= 2048 p_name user(sec) moda check mat_tune0.f_ D+04 プログラムの出力 (GFlops) Page 17

18 3. 演習問題 :outerunrol 指示行目的アウターアンローリング指示行の使い方を理解する 4 段アウターアンロールを行う手順ソースコードの修正コンパイル ( リストの確認 ) 実行 ( 結果性能の確認 ) ディレクトリ practice_3 Page 18

19 3.outerunrol 指示行 : ソースコード修正 mat_tune0.f を mat_tune.f にコピーしてから mat_tune.f を修正 %cpmat_t une0.fmat_t une.f %vi mat_t une.f 4 段 outerunrol 指示行の挿入例 25 doj=1,n 26!cdirouterunro ll=4 27 dok=1,n 28 doi=1,n 29 a(i,j)=a(i,j)+b(i,k)*c(k,j) 30 enddo 31 enddo 32 enddo 段数は 2 のべき乗の値のみ有効 Page 19

20 1. オリジナルコード : コンパイル (2) 変形リスト (mat_tune0.l) 25 do j=1,n 26 cdirouterunroll! =4 27 do k=1,n 28 i=1,n do 29 i,j)=a( i,j)+b( a( i,k)*c( k,j) 30 end do 31 end do. do, k 4= 1, cdirnodep!. cdiron_adb! (a,b). i= 1, do i,j) = i,j) a( a( + b(i,k)*dble (c(k,j)) + b(i,k+1)* dble (c(k+1,. 1 + b(i,k+2)* j)) dble (c(k+2,j)) + b(i,k+3)* dble (c(k+3,j)). enddo. enddo 32 end do 4 段アウターアンロールが行われる配列 a のメモリアクセスの回数が 1/4 になるため高速化される

21 3.outerunrol 指示行 : 実行結果結果ファイル (p3-sx-sample.o*** *) 約 40GFLOPS オリジナル ( 演習 1) の 1.6 倍の性能向上 **** ProgramInformation ***** RealTime (sec) : UserTime (sec) : Sys Time (sec) : VectorTime(sec) : Inst.Count : V.Inst.Count : V.Element Count : V.Load ElementCount : FLOPCount : MOPS : MFLOPS : A.V.Length : V.Op. Ratio (%) : Page 21

22 4. 演習問題 : 自動インライン展開目的自動インライン展開のオプションの使い方を理解する手順インライン展開前の性能の確認コンパイル ( リストの確認 ) 実行 ( 結果性能の確認 ) インライン展開後の性能の確認コンパイルスクリプトへオプション追加再コンパイル ( リストの確認 ) 再実行 ( 結果性能の確認 ) ディレクトリ practice_4 Page 22

23 4. 自動インライン展開 : インライン展開前のコンパイルコンパイル sxf90-v-cvopt-r2-wf,-pvctlfull msgmat_tune1.fmul. f %./comp.sx.sh 編集リスト (mat_tune1.l) サブルーチン呼び出しがありベクトル化ができていない LINE LEVEL( NO.): DIAGNOSTIC MESSAGE 27 vec ( 3):Unvectorizedloop. 28 opt (1017):Subroutine call prevents optimization. 28 vec ( 10):Vectorizationobstructiveprocedure reference.:mul 25:+-----> do j=1,n 26: +----> do k=1,n 27: +----> doi=1,n 28: call mul(n,moda,i, j, k, a, b, c) 29: enddo 30: enddo 31: endo Page 23

24 4. 自動インライン展開 : インライン展開前の実行結果実行 %qsubrun.sx.sh 結果ファイル (p4-sx-sample.o*** *) 約 0.034GFLOPS **** ProgramInformation ***** Real Time(sec) : User Time(sec) : Sys Time(sec) : VectorTime (sec) : Inst. Count : V. Inst. Count : V. Element Count : V. Load ElementCount : 6582 FLOP Count : MOPS : MFLOPS : A. V. Length : V. Op.Ratio(%) : Page 24

25 4. 自動インライン展開 : コンパイルオプションの追加 -piexpin=mul. fを comp.sx.sh に追加 sxf90-v-cvopt-r2-wf,-pvctlfull msgmat_tune1.fmul. f piexpin=mul.f コンパイルオプションの意味 -pi 自動インライン展開を有効にする expin=filename.f 展開元のサブルーチンが含まれるファイル (filename.f) を指定する Page 25

26 4. 自動インライン展開 : コンパイルオプションの追加コンパイル %./comp.sx.sh インライン展開されベクトル化できた 27 vec( 1): Vectorized loop. 27 vec( 29): ADB is used for array.: a 27 vec( 29): ADB is used for array.: b 28 opt Procedure (1222): mul expanded inline.. do k 4 = 1, 1024,. cdirnodep! 4 段アウターアンローリングも行われている. cdiron_adb! (a,b). i= 1, do i,j) = i,j) a( a( + i,k)*dble b( (c(k,j)) + b(i,k+1)* dble (c(k+1,. 1 dble (c(k+2,j)) + b(i,k+2)* + dble b(i,k+3)* (c(k+3,j)). enddo. enddo 31 enddo 25: > do j=1,n 26: V> do k=1,n 27: ---- V > do i=1,n 28: A I call mul(n, moda, i, j, k, 29: ---- V enddo 30: V enddo 31: enddo Page 26

27 4. 自動インライン展開 : インライン展開後の実行結果実行 %qsubrun.sx.sh 結果ファイル (p4-sx-sample.o*** *) 約 42GFLOPS **** ProgramInformation ***** Real Time(sec) : User Time(sec) : Sys Time(sec) : VectorTime (sec) : Inst. Count : V. Inst. Count : V. Element Count : V. Load ElementCount : FLOP Count : MOPS : MFLOPS : A. V. Length : V. Op.Ratio(%) : Page 27

28 5. 演習問題 : 行列積ライブラリの利用目的行列積ライブラリの性能を確認する手順コンパイルスクリプトの修正コンパイル ( リストの確認 ) 実行 ( 結果性能の確認 ) ディレクトリ practice_5 Page 28

29 5. 行列積ライブラリの利用 : プログラム修正 mat_tune0.f を mat_tune.f にコピーしてから mat_tune.f を修正 %cpmat_t une0.fmat_t une.f %vi mat_t une.f( 配列 Cの型を real(4) からreal(8) に変更する ) 4 implicit -h,o-z) real(8)(a 5 parameter ( n=2048, moda=0 6 real(8) a(n+moda,n),b(n+mod 7 real(4) a,n) c(n+mod コンパイル %./comp.sx.sh 4 implicit -h,o-z) real(8)(a 5 parameter ( n=2048, moda=0 6 real(8) a(n+moda,n),b(n+mod 7 real(8) a,n) c(n+mod Page 29

30 5. 行列積ライブラリの利用 : リストの確認メッセージ編集変形リスト (mat_tune.l) 行列積ライブラリへ変換コンパイラが認識できる演算パターンではライブラリへの置換が行われる 28 opt (1800): Idiom detected (matrix multiply). 25 do j=1,n 26 do k=1,n 27 do i=1,n 28 a(i,j)=a(i,j)+b(i,k)*c(k,j) 29 enddo 30 enddo 31 enddo. call vdmxqa (b, 1, 2048, c, 1, 2048, a, 1, 2 : 25: * > do j=1,n 26: * > do k=1,n 27: ---- V > do i=1,n 28: a(i,j)=a(i,j)+b(i,k)*c(k,j 29: ---- V enddo 30: * enddo 31: * enddo Page 30

31 5. 行列積ライブラリの利用 : 実行結果実行 %qsubrun.sx.sh 結果ファイル (p5-sx-sample.o*** *) 約 56GFLOPS **** ProgramInformation ***** Real Time(sec) : User Time(sec) : Sys Time(sec) : VectorTime (sec) : Inst. Count : V. Inst. Count : V. Element Count : V. Load ElementCount : FLOP Count : MOPS : MFLOPS : A. V. Length : V. Op.Ratio(%) : Page 31

32 6. 演習問題 : 自動並列化 (1) 目的自動並列化機能を利用する手順コンパイルスクリプトの修正コンパイル ( リストの確認 ) 実行 ( 結果性能の確認 ) ディレクトリ practice_6 Page 32

33 6. 自動並列化 : コンパイルコンパイルスクリプトの修正修正前 sxf90-v-cvopt-r2-wf,-pvctlfull msgmat_tune0.f 修正後 (-Pauto を追加 ) sxf90-v-cvopt-r2-wf,-pvctlfull msgmat_tune0.f-pauto コンパイル %./comp.sx.sh Page 33

34 6. 自動並列化 : 編集変形リストの確認自動並列化 DO ループをサブルーチンに抜き出して並列化を行うサブルーチン名 _$n(n は 1,2,3 ) 25 do j=1,n 26 dok=1,n 27 do i=1,n 28 a(i,j)=a(i,j)+b(i,k)*c(k,j) 29 endo 30 enddo 31 enddo. callmain_$2 (a,b,c) LINE FORTRAN STATEMENT. subroutine main_$2.!cdir pardo for, nobar =(entry,exit).!cdir nodep. do j= 1,2048. do k=1, 512.!cdir nodep.!cdir on_adb(a,b). doi = 1, a(i,j) = a(i,j) + b(i,(k-1)*4+1)*dble(c(k-1)*4+1,j)) +b. 1 (i,(k-1)*4+2)*dble(c((k-1)*4+2,j))+ b(i,(k-1)*4+3)*. 2 dble(c(k-1)*4+3,j)+ b(i,(k-1)*4+4)*dble(c((k-1)*4+4. 3,j)). enddo. enddo. enddo. end 25mul ( 10): Parallel routine generated: 25mul ( 1): ParallelizedbyPARDO. main_$2 25:P-----> do j=1,n 26: V----> dok=1,n 27: V----> doi=1,n 28: A a(i,j)=a(i,j)+b(i,k)*c(k,j) 29: V---- endo 30: V---- enddo 31:P----- enddo P: 自動並列化対象ループ Page 34

6. 自動並列化 : 実行結果実行 %qsubrun.sx.sh 結果ファイル (p6-sx-sample.o*** *)(4 タスクで実行 ) 約 55GFLOPS( 自動並列化前 ( 演習 3) の約 1.4 倍の性能向上 ) ****** Prog ram formation In ***** * Real Time sec) ( : 0.

35 6. 自動並列化 : 実行結果実行 %qsubrun.sx.sh 結果ファイル (p6-sx-sample.o*** *)(4 タスクで実行 ) 約 55GFLOPS( 自動並列化前 ( 演習 3) の約 1.4 倍の性能向上 ) ****** Prog ram formation In ***** * Real Time sec) ( : User Time sec) ( : Sys Time sec) ( : Vecto r Time (sec) : Inst. Count : V. st. In unt Co : V. ement El Count : V. ad LoEle ment ount C : FLOP Count : MOPS : MFLOP S : MOPS (con curren t) : MFLOP S (con curren t) : A. Lengt V. h : V.. Op Rati o (%) : Memor y Size (MB) : Max oncurr C ent oc. Pr : 4. Conc. Tim e(>= )(sec) 1 : Conc. Tim e(>= )(sec) 2 : Conc. Tim e(>= )(sec) 3 : Conc. Tim e(>= )(sec) 4 : Page 35

36 よく使うコンパイラオプションリスト制御オプション名サブオプション内容 -V コンパイラのバージョン情報を表示する -R 2 コンパイラによる変形リスト編集リストを出力する 5 コンパイラによる編集リストを出力する -Wf,-L[list] fmtlist summary objlist コンパイラによる最適化処理およびベクトル化処理に関する各種レポートリストを出力することを指定する -Wf,-pvctlfull msg 詳細な診断メッセージを出力することを指定する最適化レベル -C vopt( 規定値 ) 最大限の最適化処理と規定レベルのベクトル化処理を行うことを指定する hopt 最大限の最適化処理およびベクトル化処理を行うことを指定する vsafe 最適化処理およびベクトル化処理を行うが副作用を伴う可能性のある機能は抑止することを指定する ssafe ベクトル化処理を抑止し副作用を伴う可能性のある最適を行わないことを指定する -O extendreorder 命令の並べ換えを行う範囲を広くしてより強力な命令並べ替えの最適化を行う -pi auto 規定値 ( ) 手続きの自動インライン展開を行うことを指定する noauto 明示的なインライン展開を行うことを指定する line=α 自動インライン展開の対象となる手続きの最大行数を指定する nest=β 自動インライン展開の対象となる手続きのネストの深さを指定する exp= 手続き名指定された手続きがインライン展開の対象となることを指定する expin= ファイル名指定されたファイルにインライン展開の対象となる手続きがあることを指定する -Wf きめ細かなオプションを指定する -pvctlchgpwr べき算 R1**R2 を EXP(R2*LOG(R1)) に置き換えることを指定する -pvctlexpand=n ループ長がn 以下のループを展開することを指定する -pvctlnoloopchg ループ入れ換えによるベクトル化を行わないことを指定する並列化 -Pauto 自動並列化機能を使用することを指定する -Popenmp OpenMP 機能を使用すことを指定する ( 並列化対象サブルーチンのみ ) -e C どうかチェックを行う実行時に配列要素参照の添字の値がその配列に対して許される範囲内にあるかデバッグ R 配列要素参照および配列部分参照において添字あるいは部分配列添字の値が許される範囲内にあるかどうかチェックを行う -Wf -initstack=zero スタックに割付ける領域を 0で初期化することを指定する -initheap=zero ヒープに割付ける領域を 0で初期化することを指定する性能解析 -ftrace SX の性能分析ツール FTRACE 対応の実行ファイルを作成することを指定する Page 36

37 よく使う指示行指示行 vector/novector nodep outerunrol[=n] loopchg/noloopchg expand[=n] shortloop select(vector concur) on_adb[( 識別子 )] 内容直後のDO ループをベクトル化する / しないことを指定する DO ループ内データ依存関係が不明な場合ベクトル化不可の依存がないものとしてベクトル化 / 最適化を行う外側ループのアンローリングを許可するループ入れ換えによるベクトル化を行なうことを指定する直後のDO ループをベクトル化する / しない展開することを指定する直後のDO ループのループ長がレジスタ長 (256) 以下であることを指定する直後のDO ループに対してベクトル化を優先させるか並列化を優先させるかを指定する直後のループ中の配列のベクトルロードストアにおいて配列を ADB にバッファリングする Page 37

38 ライブラリコンパイラが自動的に置き換えるもの行列積パターンソースコード修正により使用できるもの ASL/SX( 科学技術計算ライブラリ ) 行列演算 FFT など Mathkeisan BLAS ライブラリ Page 38

39 おすすめコンパイルオプションプログラムを初めてスーパーコンピュータ (SX-ACE) で実行する場合既定値レベルの最適化ベクトル化 (-Cvopt) ベクトル化の状態を表示する編集リストの採取 (-R2) ベクトル化が行われなかった場合の詳細メッセージ出力 (-pvctlfull msg) sxf90-v-cvopt-r2-wf,-pvctlfull msg プログラムファイル名正常終了した場合 -Chopt を使用して -Cvopt の結果と比較 sxf90-v-chopt-r2-wf,-pvctlfull msg プログラムファイル名 Page 39

40 デバッグ用コンパイルオプション正常終了したが結果がおかしい場合副作用を伴う可能性のある最適化を抑止 (-Cvsafe) sxf90-v Cvsafe-R2-Wf,-pvctlfull msg プログラムファイル名異常終了 (Segmentationfault) した場合デバッグ用オプションで分析配列外参照をチェック (-ec -er オプション ) ベクトル化最適化が抑止されるため実行時間が長くなるエラー終了したファイル ( サブルーチン ) のみにオプションをつけた方がよい sxf90-v-cvopt-r2-wf,-pvctlfull msg-ec プログラムファイル名初期化漏れのチェックスタックに割り付ける領域を NaN で初期化する初期化漏れの変数をアクセスするとアボートさせることができる sxf90-v ー Pmulti-Cvopt-R2-Wf,-pvctlfull msg, initstack=nan プログラムファイル名 Page 40

H26 年度 スーパーコンピュータの高速化技法入門 演習用資料 2015 年 1 月 21 日大阪大学サイバーメディアセンター 日本電気株式会社

H26 年度スーパーコンピュータの高速化技法入門演習用資料 2015 年 1 月 21 日大阪大学サイバーメディアセンター日本電気株式会社