IPSJ SIG Technical Report Vol.2021-HPC-178 No /3/16 MPI 1,a) Extra-P Extra-P TSUBAME3.0 NPB 256 A C D 19.3% 5% MPI,,, 1. Extra-P [5] Ex

Size: px

Start display at page:

Download "IPSJ SIG Technical Report Vol.2021-HPC-178 No /3/16 MPI 1,a) Extra-P Extra-P TSUBAME3.0 NPB 256 A C D 19.3% 5% MPI,,, 1. Extra-P [5] Ex"

ふさこさどひら
2 years ago
Views:

1 Vol.221-HPC-178 No.19 MPI 1,a) Extra-P Extra-P TSUBAME3. NPB 256 A C D 19.3% 5% MPI,,, 1. Extra-P [5]Extra-P , Chofugaoka, Chofu, Tokyo , Japan a) arima@hpc.is.uec.ac.jp Extra-P Extra-P Extra-P MPI CPU 1

2 [4] TAU Score-P Extra-P [3][4] 2.2 Extra-P Extra- P[5] 21 [2] Extra-P Extra-P 2.3 IF 異なる条件で複数回解析対象のアプリケーションを実行してプロファイルを取得する問題サイズもしくは実行プロセス数を変数としてモデルの構築を行う構築したモデルの中で最も適合度の高いモデルを選択する 1: Extra-P Vol.221-HPC-178 No.19 4 x 2

3 y (1) y = ax + b (1) (2) y = a log 1 x + b (2) (3) y = a x + b (3) x x y (4) ax + b (x < x ) y = ax + b (x x ) (4) : TSUBAME3. 54 CPU Memory 12.15PFlops 138,24GB 2: TSUBAME3. Intel Xeon E5-268 V4 14(28) 2.4GHz 256GB 153.6GB/s GPU NVIDIA Tesla P1 4.2 TSUBAME3. TAU TSUBAME3. TSUBAME CPU(Intel Xeon E5-268 V4) 2 TSUBAME TAU (Tuning and Analysis Utilities) TAU C Python [4] NAS Parallel Benchmarks NAS Parallel Benchmarks (NPB) NPB [1]NPB A, B, C, D 4 B A 4 C B 4 D C (MAPE) (F t ) (A t ) 5 Vol.221-HPC-178 No.19 3

4 Vol.221-HPC-178 No.19 IS EP CG MG FT BT SP LU 3: NAS Parallel Benchmarks LU MAP E = 1% N N A t F t A t (5) t=1 [%] = A C D () () PC MAPE 4 5 MAPE NoData 4 64 A, B, C 5 B BT SP 1, 4, 16, 64 1, 2, 4, 8, 16, 32, 64 BT, SP BT SP MAPE. 1 MAPE. MAPE

5 Vol.221-HPC-178 No.19 4: 64 (MAPE [%] MAPE [%]) [%] BT 99(.,.) 1(.,.) (NoData) (NoData) CG 69(.,.) 13(21.2, 3.1) (NoData) 18(.,.) EP 1(.,.) (NoData) (NoData) (NoData) FT 57(.,.) 6(22.5, 22.6) (NoData) 37(.,.) IS 1(.,.) (NoData) (NoData) (NoData) LU 81(.,.) 19(.1,.4) (NoData) (NoData) MG 48(.,.) 4(27., 28.2) 3(1.3, 1.3) 9(.,.) SP 98(.,.) 2(.,.) (NoData) (NoData) 5: B (MAPE [%] MAPE [%]) [%] BT 78(.,.) 22(.,.5) (NoData) (NoData) CG 69(.,.) (NoData) (NoData) 31(., 12.2) EP 1(.,.) (NoData) (NoData) (NoData) FT 62(.,.) (NoData) (NoData) 38(., 88.7) IS 82(.,.) 14(14., 14.) (NoData) 4(88.7, 88.7) LU 77(.,.) 21(., 17.2) 2(.,.) (NoData) MG 72(.,.) (NoData) 14(91., 91.) 14(19.4, 19.4) SP 79(.,.) 21(.,.5) (NoData) (NoData) 2: B : B

6 Vol.221-HPC-178 No.19 6: 4 A, B, C, D 3 A, B, C 2 A, B 1 A 7: BT SP 5 1, 4, 16, 64, , 4, 16, , 4, , : BT SP 9 1, 2, 4, 8, 16, 32, 64, 128, , 2, 4, 8, 16, 32, 64, , 2, 4, 8, 16, , 2, 4, 8 2 1, MAPE B : 64 5: B % B BT SP 4 BT SP 6

7 9: 64 [%] [%] BT CG EP FT IS LU MG SP : B [%] [%] BT CG EP FT IS LU MG SP % 5.83% % 445.5% / Extra-P Extra-P 4.65% % 5% Vol.221-HPC-178 No.19 JSPS JP2H4193 [1] Bailey, D. H.: The NAS Parallel Benchmarks, RNR-94-7 (1994). [2] Calotoiu, A., Hoefler, T., Schulz, M., Shudler, S. and Wolf, F.: Insightful Automatic Performance Modeling, extra-p/slides/insightfulautomaticperformance ModelingTutorialPartI.pdf. [3] Knüpfer, A., Rössel, C., an Mey, D., Biersdorff, S., Diethelm, K., Eschweiler, D., Geimer, M., Gerndt, M., Lorenz, D., Malony, A. D., Nagel, W. E., Oleynik, Y., Philippen, P., Saviankou, P., Schmidl, D., Shende, S., Tschüter, R., Wagner, M., Wesarg, B. and Wolf, F.: Score-P: A Joint Performance Measurement Run-Time Infrastructure for Periscope, Scalasca, TAU, and Vampir (211). [4] Performance Research Lab: TAU, https: // [5] Technical University of Darmstadt: Extra-P, extra-p/download.html. 7

8 MPI 1,a) MPI TSUBAME3. NAS Parallel Benchmark L1 58.7% 11.3% MPI,,, 1. 2 CPU [1] [2], [5] , Chofugaoka, Chofu, Tokyo , Japan a) hasegawa@hpc.is.uec.ac.jp [3], [7] 1

9 2. HPC TAU[5] TAU THROTTLE TAU THROTTLE 1 [6] Extra-P [7]Extra-P MPI OpenMP L1 MPI L1 L1 2 ( 8,32,128 ) L1 ( 256 ) L1 L1 L1 L1 3.2 linear,inverse,log,exponentail 4 y = ax + b (1) y = a + b ( a) x (2) y = log x + b (1 < a) log a (3) y = ab x + c (1 < b, c) (4) x y L1 a, b, c 4 4 MAPE MAPE MAPE MAP E = 1% N A t F t N A t (5) t=1 A t L1 F t L1 2

10 1: TSUBAME3. 54 CPU() Intel Xeon E5-268 V4 Processor(Broadwell-EP, 14, 2.4GHz) 2 RAM() 256GiB (DDR GB 8) Intel DC P35 2TB (NVMe, PCI-E 3. x4, R27/W18) Intel Omni-Path 1Gb/s 4 DDN SFA14KXE EXAScaler 2: TSUBAME3. [KB] L1 32 L1 32 L2 256 L3 35,84 N (6) linear y = ax + b (a > ) (6) x y, a, b (1) L TSUBAME3.[4] TSUBAME3. 1 TSUB- AME 54 2 CPU CPU 14 CPU 2 TSUBAME3. CPU L1 / L2 L3 [8] NAS Parallel Benchmarks (NPB) 6 3 [9] A, B, C, D 4 B C A B 4 D C FT, IS, LU 3 D 8 1 MPI 1 3: cg ep Embarassingly parallel ft 3 is lu mg L1 TAU PAPI[1] L1 L1 PC L1 256 L1 3

11 4: [%] (MAPE [%], MAPE [%]) linear inverse log exponential cg (.67, 9.35) (.57, 14.86) 1.79 (1.75, 1.75) (.23, 1.6) ep. (-,-) 1. (., 3.24). (-, -). (-, -) ft 7.14 (1.51, ) (., 127.4) 3.6 (8.35, 15.84) 2.41 (.31, 25.26) is 7.14 (1.1, 6.92) (.29, 9.71) 1.79 (1.27, 1.27) (.1, 32.82) lu 9.85 (.34, 16.9) (.77, 61.84).76 (3.17, 3.17) (.35, 29.87) mg 2.27 (2.26, 8.11) (.11, ). (-, -) 25. (.81, 25.96) 16,,,,,,,,,, :64, :128, :128, :128, :128, :64: L1 A C 256 D A B 2 A C 3 A D 4 D L L1 8,16,32,64,128,256 MAPE MAPE A,B,C,D 4 1 MAPE 1.8% mg D MAPE 2% mg D comm3 ex MAPE 1,% A,B,C,D 8,16, ,128,256 comm3 ex MAPE A B C D cg ep ft is lu mg benchmark 1: 4 linear,inverse,log,exponential MAPE 4 4 linear ft inverse inverse MAPE 1% 127% 1241% inverse inverse log MAPE exponential linear log MAPE 33% 5.2 (7) 4

12 average_error :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg ep ft is lu mg average_error :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg ep ft is lu mg 2: ( A) 4: ( C) average_error :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg ep ft is lu mg average_error :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg ep ft is lu mg 3: ( B) average error = 1 N f N f t=1 A t F t A t (7) N f A t F t A 2 B 3 C 4 D 5 8,64, % ABCD lu,ft,is 3 8,16,32 16,32,64 5: ( D) cg A 8,64, relative error relative error = 1 A F A (8) A F 1% relative error relative error 1% 6 2, 3, 4 A BA CA D 5

13 5: cg, A function name relative error[%].tau main MAIN makea sprnvc conj grad initialize mpi.3995 randlc icnvrt vecset sparse alloc space setup submatrix info.27 setup proc info relaitve_cost[%] :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg_a ep_a ft_a is_a lu_a mg_a 7: A average_error cg ep ft is lu mg profile_number 6: relaitve_cost[%] :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg_b ep_b ft_b is_b lu_b mg_b 8: B (9) 2 199% % 6 A C 3 1% A,B,C,D A 1,4,16, ,4, ,64, relative cost = 1 C p C E (9) C E C p (relative cost) 7 1 8,64, % cg A,B ep 7 A 1 D 6

14 relaitve_cost[%] :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg_c ep_c ft_c is_c lu_c mg_c Relative_cost[%] cg ep ft is lu mg profile_number 9: C 11: 256 relaitve_cost[%] :64 :128 :128 :128 :128 :64:128 :64:128:256 :128:256 cg_d ep_d ft_d is_d lu_d mg_d 1: D D D C E C p (9) Relative cost 2 4.% % 2 2% 3 25% MPI L1 TSUBAME3. NPB 1.8% 8,64, % 1.8 A C 3 D 58.7% D 11.3% 6.2 L1 L2 L3 MPI MPI A D 256 E F HPC JSPS JP2H4193 7

15 [1] TOP 5 November 22 (Accessed on 1/28/221) [2] Knüpfer A. et al. (212) Score-P: A Joint Performance Measurement Run-Time Infrastructure for Periscope, Scalasca, TAU, and Vampir. In: Brunst H., Müller M., Nagel W., Resch M. (eds) Tools for High Performance Computing 211. Springer, Berlin, Heidelberg. [3] PMaC Performance Modeling and Charactrization (Accessed on 1/26/221) [4] TSUBAME3. gsic.titech.ac.jp/manuals/handbook.ja/jobs/ (Accessed on 221/2/23) [5] S. Shende and A. D. Malony, The TAU Parallel Performance System, International Journal of High Performance Computing Applications, SAGE Publications, 2(2): , Summer 26 [6] TAU throttle research/tau/docs/tutorial/ch1s5.html (Accessed on 2/7/221) [7] Extra-P (Accessed on 1/8/221) [8] Intel Xeon E5-268 V4 products/91754/intel-xeon-processor-e v4-35m-cache-2-4-ghz.html (Accessed on 1/2/221) [9] NAS Parallel Benchmarks https: // (Accessed on 1/1/221) [1] Terpstra, D., Jagode, H., You, H., Dongarra, J. Collecting Performance Data with PAPI-C, Tools for High Performance Computing 29, Springer Berlin / Heidelberg, 3rd Parallel Tools Workshop, Dresden, Germany, pp , 21. 8

VXPRO R1400®　ご提案資料

VXPRO R1400®　ご提案資料 Intel Core i7 プロセッサ 920 Preliminary Performance Report ノード性能評価ノード性能の評価 NAS Parallel Benchmark Class B OpenMP 版での性能評価実行スレッド数を 4 で固定 ( デュアルソケットでは各プロセッサに 2 スレッド ) 全て 2.66GHz のコアとなるためコアあたりのピーク性能は同じ評価システム