Microsoft PowerPoint - stream.ppt [互換モード]

Size: px

Start display at page:

Download "Microsoft PowerPoint - stream.ppt [互換モード]"

おきみちこうじょう
5 years ago
Views:

1 STREAM 1 Quad Opteron: ccnuma Arch. AMD Quad Opteron 2.3GHz Quad のソケット 4 1 ノード (16コア ) 各ソケットがローカルにメモリを持っている NUMA:Non-Uniform Access ローカルのメモリをアクセスして計算するようなプログラミング, データ配置, 実行時制御 (numactl) が必要 cc: cache-coherent キャッシュ同期 :Thread 並列

2 STREAM 2 ccnuma Architecture コアソケット Socket ノード Node

3 STREAM 3 numactl >$ numactl -show policy: default preferred node: current physcpubind: cpubind: nodebind: membind: コアソケットソケットメモリ #0 NUMA(Non Uniform Access) 向けのメモリ割付のためのコマンドライン :Linux でサポート使うコアとメモリの関係指定 : ローカルなメモリ上のデータを使うのが得策 Socket t#0 Socket t# # #2 #3 Socket #2 Socket #3

4 STREAM 4 numactl の影響 T2K, 有限要素法アプリケーション,Strong Scaling,Flat MPI 128コア :1コアあたりの問題サイズは 512コアの 4 倍メモリへの負担大 Policy=0: 何も指定しない場合相対性能 : 大きいほど良いー 128 ノードで影響大 Relativ ve Performa ance cores 512cores numactl policy #@$-r HID-org #@$-q h08nkl32 #@$-N 24 #@$-J T16 #@$-e err #@$-o x a.lst #@$-lm 27GB #@$-le 03:00:00 #@$-s /bin/sh #@$ cd $PBS_O_WORKDIR mpirun./numarun.sh./sol exit

5 STREAM 5 numarun.sh の中身 Relativ ve Performa ance cores 512cores Policy:1 #!/bin/bash MYRANK=$MXMPI_ID MPIのプロセス番号 MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --cpunodebind=$socket --interleave=all $@ Policy:2 #!/bin/bash MYRANK=$MXMPI _ ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --cpunodebind=$socket --interleave=$socket $@ numactl policy Socket #0 Socket #1 Policy:3 #!/bin/bash MYRANK=$MXMPI_ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --cpunodebind=$socket --membind=$socket $@ # # Policy:4 #!/bin/bash MYRANK=$MXMPI_ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --cpunodebind=$socket --localalloc $@ #2 #3 Socket #2 Socket #3 Policy:5 #!/bin/bash MYRANK=$MXMPI_ ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --localalloc $@

6 STREAM 6 Policy-3 の割り当て Socket #0 Socket #1 #0 # #2 #3 Socket #2 Socket #3 Policy:3 #!/bin/bash MYRANK=$MXMPI_ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --cpunodebind=$socket --membind=$socket $@ MPI process Socket

7 STREAM 7 Cyclic な割り付けも可能 Socket #0 Socket #1 #0 # #2 #3 Socket #2 Socket #3 #!/bin/bash MYRANK=$MXMPI_ID SOCKET=$(expr $MYRANK % 4) numactl --cpunodebind=$socket --membind=$socket $@ MPI process Socket

8 STREAM 8 コアを指定することもできる Socket #0 Socket #1 #0 # #2 #3 Socket #2 Socket #3 #!/bin/bash MYRANK=$MXMPI_ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) CORE=$(expr $MYRANK % 16) numactl --physcpubind=$core --membind=$socket $@ MPI process Socket

9 STREAM 9 8 コア使う場合はどうする? Socket #0 Socket #1 #0 # #2 #3 Socket #2 Socket #3 MPI process Socket MPI process Socket MPI process Socket

10 STREAM 10 STREAM ベンチマークメモリバンド幅を測定するベンチマーク Copy, Scale, Add, Triad(DAXPY と同じ ) Double precision appears to have 16 digits of accuracy Assuming 8 bytes per DOUBLE PRECISION word Number of processors = 16 Array size = Offset = 0 The total memory requirement is MB ( 45.8MB/task) You are running each test 10 times -- The *best* time for each test is used *EXCLUDING* the first and last iterations Function Rate (MB/s) Avg time Min time Max time Copy: Scale: Add: Triad:

11 STREAM 11 ファイル : 今回は FORTRANのみ >$ cd <$FVM>/stream >$ mpif90 Oss noparallel stream.f o stream 今回は MPI 版だが,OpenMP 版もある

12 STREAM 12 set-a0.sh:policy-5 相当プロセスが割り当てられたソケットのローカルメモリを使うソケット番号は基本的にサイクリックク (round-robin d 的 ) に割り当てられるが, 異なる場合もある ( 実行ごとに性能が変動 ) #@$-r stream #@$-q lecture #0 #1 #@$-N 1 #@$-J T16 #@$-e err #@$-o a lst #@$-lm 28GB #@$-lt 00:05:00 #@$ cd $PBS_O_WORKDIR Socket #0 Socket # mpirun numactl --localalloc./stream exit #2 #3 Socket #2 Socket #3

13 STREAM 13 set-b1/b2.sh:policy-3,4 相当各プロセスをソケット0 番から順番に埋まるように割り当て, 各ソケットのローカルメモリを使う b1 と b2 ではあまり差は無い set-b1.sh b1.sh:policy-3 相当 stream lecture 1 T8 err b lst 28GB 00:05:00 cd $PBS_O_WORKDIR #!/bin/bash MYRANK=$MXMPI_ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --cpunodebind=$socket --membind=$socket $@ b2.sh:policy-4 相当 #!/bin/bash MYRANK=$MXMPI_ID MYVAL=$(expr $MYRANK / 4) SOCKET=$(expr $MYVAL % 4) numactl --cpunodebind=$socket --localalloc $@ mpirun./b1.sh./stream exit

14 STREAM 14 set-x.sh 各プロセスが割り当てられたソケットのメモリを使う T2:0,1,T4:0,1,2,3 01 T T8:0,0,1,1,2,2,3,3 T16:0,0,0,0,1,1,1,1,2,2,2,2,3,3,3,3 stream lecture 1 T16 err x lst 28GB 00:05:00 cd $PBS_O_WORKDIR mpirun numactl --cpunodebind=0,1,2,3 --localalloc./stream exit

15 STREAM 15 の性能を1.00 Policy-5: set-a0,policy-4: set-b2 0,1,2,3: set-x 16コア使った場合, メモリの性能は 5 倍強にしかなっていない Relativ ve Bandwidt th Policy-5 Policy-4 0,1,2, #

16 STREAM 16 Triad の性能 :T2 Policy-4 1 コアのときの 2 倍までは行かないが性能は向上 2コアで 1つのメモリを共 2 有するため, 多少の競合 1 が生じている Band dwidth Relative Policy-4 0,1,2, # 0,1,2,3 ほぼ 100% 近い性能向上各コアでローカルメモリを占有 Policy-4 0,1,2,3

17 STREAM 17 Triad の性能 :T4 Policy-4 T2 のときとほとんど変わらない, つまり1コア当たりのメモリ性能は半分に落ちている飽和状態 Relative Band dwidth Policy-4 0,1,2, # 0,1,2,3 T1の4 倍までは行かないが順調にスケール Cache-Coherency 通信の影響もあり Policy-4 0,1,2,3

18 STREAM 18 Triad の性能 :T8,T16 Policy-4 T8 T16 T4 の約 2 倍弱 T8 の約 2 倍弱 Relative Band dwidth Policy-4 0,1,2,3 0,1,2,3 T8 T16 T4 の約 2 倍弱 T8とほぼ同じ Policy-4におけるT2 T4と同じ # Policy-4 0,1,2,3

19 STREAM 19 T2K の性能実は余りノード内の性能について細かく測定したことは無い 1 ノードが最低単位メモリの性能 ( の悪さ ) に充分注意する必要がある Strong Scaling( 同じ問題をコア数を変えて解く ) の場合, 基準を1ノードあるいは1ソケット (Policy-2,3,4のようにする) にする

20 STREAM 20 疎行列ソルバーの性能 : 三次元弾性問題 ICCG 法,T2K SR ノード : メモリバンド幅が効く Hitachi SR11000/J2 T2K/Tokyo Power GHz x 16 Opteron 2.3GHz x GFLOPS/node GFLOPS/node 100 GB/s for STREAM/Triad 20 GB/s for STREAM/Triad cache: 18MB/core cache: 0.5MB/core Perform mance Rat tio (%) Flat MPI. HB 4x4 HB 8x2 HB 16x E+04 1.E+05 1.E+06 1.E+07 DOF tio (%) Perform mance Ra Flat MPI. HB 4x4 HB 8x2 HB 16x E+04 1.E+05 1.E+06 1.E+07 DOF

21 STREAM 21 Hitachi SR11000/J2 IBM POWER5+ 2.3GHz (9.2GFLOPS) Dual 4 MCM(Multi Module) 22 1node(16cores) based on NUMA architectures, but small latency of memory, huge cache 青木, 中村, 助川, 齋藤, 深川, 中川, 五百木 (2005) スーパーテクニカルサーバー SR11000 モデルJ1のノードアーキテクチュアと性能評価情報処理学会論文誌 : コンピューティングシステム 45-SIG12(ACS11), より作成 L2 L2 L2 L2 L2 L2 L2 L2 CPU

22 STREAM 22 台形積分 :T2K( 東大 ) における並列効果 :N=10 6, :10 7, : E+02 ideal N=10^6 -: 理想値 N=10^ コアにおける計測結果 1.00E+01 N=10^ (sec.) からそれぞれ算出 3.99 #@$-r test #@$-q lecture #@$-N 1 #@$-J T4 #@$-e err #@$-o hello.lst #@$-lm 28GB #@$-lt 00:05:00 #@$ cd $PBS_O_WORKDIR mpirun numactl --localalloc./a.out Speed-Up 1.00E E # 赤字部分の影響 1 ノードより多いと変動ありメモリに負担のかからない計算

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードにおけるメモリ性能のインパクト研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能メモリバンド幅に着目した性能測定 multi-link network 性能評価まとめ近年の高性能 PC