( 4 ) GeoFEM ( 5 ) MDTEST ( 6 ) IOR 2 Oakleaf-FX 3 Oakleaf-FX 4 Oakleaf-FX Oakleaf-FX Oakleaf-FX 1 Oakleaf-FX 1 Oakleaf- FX SR11000/J2 HA8000 T

Size: px

Start display at page:

Download "( 4 ) GeoFEM ( 5 ) MDTEST ( 6 ) IOR 2 Oakleaf-FX 3 Oakleaf-FX 4 Oakleaf-FX Oakleaf-FX Oakleaf-FX 1 Oakleaf-FX 1 Oakleaf- FX SR11000/J2 HA8000 T"

みずきくぬぎ
5 years ago
Views:

1 Oakleaf-FX(Fujitsu PRIMEHPC FX10) 1,a) , Oakleaf-FX (Fujitsu PRIMEHPC FX10) Oakleaf-FX SPARC64IXfx FEFS 1.13PFLOPS Performance Evaluation of Oakleaf-FX (Fujitsu PRIMEHPC FX10) Supercomputer System Satoshi OHSHIMA 1,a) Hideyuki JITSUMOTO 1 Yoshikazu KAMOSHIDA 1 Takahiro KATAGIRI 1 Kenjiro TAURA 1,2 Kengo NAKAJIMA 1 Abstract: We report the performance of Oakleaf-FX (Fujitsu PRIMEHPC FX10) supercomputer system which has begun in April 2012 at Kashiwa campus, Information Technology Center, The University of Tokyo. This system is a large-scale parallel computer with SPARC64IXfx CPU and FEFS file system. The peak performance is 1.13 PFLOPS. Moreover, this system is compatibility of the K computer and expected to contribute a lot to progress of computer/computational science. In this paper, we report some results of performance evaluation on this supercomputer system SR11000/J2 SR11000/J2 SR11000/J2 SMP 2 SR16000 M1 *1 Yayoi 1 Information Technology Center, The University of Tokyo 2 Graduate School of Information Science and Technology, The University of Tokyo a) ohshima@cc.u-tokyo.ac.jp [1][2] PRIMEHPC FX10 *1 Oakleaf-FX [3] [4] 2 Oakleaf-FX 6 ( 1 ) STREAM ( 2 ) HPL ( 3 ) MPIFFT *1 Yayoi =Yayoi Oakleaf-FX =oakleaf c 2012 Information Processing Society of Japan 1

( 4 ) GeoFEM ( 5 ) MDTEST ( 6 ) IOR 2 Oakleaf-FX 3 Oakleaf-FX 4 Oakleaf-FX 2. 2.1 Oakleaf-FX Oakleaf-FX 1 Oakleaf-FX 1 Oakleaf- FX SR11000/J2 HA8000 T2K SR16000/M1 Oakleaf-FX 4800 Tofu GPU 1.

2 ( 4 ) GeoFEM ( 5 ) MDTEST ( 6 ) IOR 2 Oakleaf-FX 3 Oakleaf-FX 4 Oakleaf-FX Oakleaf-FX Oakleaf-FX 1 Oakleaf-FX 1 Oakleaf- FX SR11000/J2 HA8000 T2K SR16000/M1 Oakleaf-FX 4800 Tofu GPU 1.13PFLOPS Linpack 1.40MW 2.0MWh Oakleaf-FX(Fujitsu PRIMEHPC FX10) 1 Oakleaf-FX Oakleaf-FX CPU SPARC64IXfx SPARC64IXfx 16 SPARC64 (SPARC64V9 + HPC-ACE) CPU Oakleaf-FX SPARC64IXfx 1.848GHz 2 SPARC64IXfx CPU SMT 1CPU 236.5GFLOPS(1.848GHz 8IPC 16 ) L1 L1 32KB L2 1CPU 12MB L3 VISIMPACT 1 SPARC64IXfx 1 1 ECC DDR3 32GB Inter Connect Controller, ICC 4 4,800 =76, PFLOPS 150TByte 2.3 Oakleaf-FX 6 / (Tofu *1 ) 3 Oakleaf-FX ICC 10 ICC X (X+,X-) Y (Y+,Y-) Z (Z+,Z-) A B (B+,B-) C X Y Z B A C X,Y,Z 12 Tofu Oakleaf-FX *1 Torus fusion c 2012 Information Processing Society of Japan 2

情報処理学会研究報告図 1 Oakleaf-FX の全体構成表 1 Oakleaf-FX の性能諸元 PRIMEHPC FX10 SR16000/M1 SR11000/J2 HA8000 (Oakleaf-FX) (Yayoi) 旧システム (T2K 東大版) SPARC64IXfx Power7 Power5+ Opteron8356 1.848 GHz 3.83 GHz 2.

3 情報処理学会研究報告図 1 Oakleaf-FX の全体構成表 1 Oakleaf-FX の性能諸元 PRIMEHPC FX10 SR16000/M1 SR11000/J2 HA8000 (Oakleaf-FX) (Yayoi) 旧システム (T2K 東大版) SPARC64IXfx Power7 Power5+ Opteron GHz 3.83 GHz 2.3 GHz 2.3 GHz 総計算ノード数コア数/計算ノード理論演算性能/コア GFLOPS GFLOPS 9.2 GFLOPS 9.2 GFLOPS 理論演算性能/計算ノード GFLOPS GFLOPS GFLOPS GFLOPS 理論演算性能/全計算ノード 1.13 PFLOPS GFLOPS GFLOPS TFLOPS CPU 主記憶容量/計算ノード 32 GByte 200 GByte 128 GByte 32 GByte 使用可能容量 (28 GByte) (170 GByte) (112 GByte) (28 GByte) 主記憶容量/全計算ノード 150 TByte GByte GByte TByte B/F 値非対応非対応 SMT 機能非対応計算ノード間 6 次元メッシュ/トーラスネットワーク構成 (Tofu ネットワーク) 計算ノード間転送性能ストレージ容量 20 GByte 双方向 4 方向同時通信可能 1.1 PByte PByte (+ 3.6 PByte) CPU/主記憶間物理転送性能/計算ノード 85 GByte/sec 最大 4 スレッド/コア運用時最大 2 スレッド/コア階層型完全結合 3 段クロスバーフルバイセクションバンド幅 FatTree A 群 5 GByte/sec 双方向 96 GByte/sec 双方向 12 GByte/sec 双方向 556 TByte 94.2 TByte 1 PByte 512 GByte/sec GByte/sec 42 GByte/sec B 群 2.5 GByte/sec 双方向ワークは最大で 3 次元のトーラス空間となり複雑な 6 次ルファイルシステムと共有ファイルシステムを備えてい元の形状を強く意識せずとも常に高いネットワーク性能をるローカルファイルシステムはステージング用に用意さ得ることができるれたシステムである PRIMERGY RX300 S6 と ETER- NUS DX80 S2 から構成されており 1.1PByte の容量と 2.4 ストレージ Oakleaf-FX は 2 系統のストレージシステムローカ c 2012 Information Processing Society of Japan 131GByte/sec の性能を備えている一方の共有ファイルシステムは全計算ノードに加えてログインノードからも 3

4 3 Oakleaf-FX Tofu PRIMERGY RX300 S6 ETERNUS DX80 S2 ETERNUS DX410 S2 2.1PByte 136GByte/sec 2 FEFS(Fujitsu Exabyte File System) FEFS Lustre Oakleaf-FX 3.6PByte Lustre STREAM STREAM [6] STREAM MB/s Copy c[j] = a[j] Scale b[j] = scalar*c[j] Add c[j] = a[j]+b[j] Triad a[j] = b[j]+scalar*c[j] 2 STREAM MB/sec Oakleaf-FX Yayoi PRIMEHPC FX10 SR16000/M1 Copy (68.9%) (42.9%) Scale (68.7%) (43.2%) Add (74.3%) (48.9%) Triad (74.3%) (48.7%) 1 OpenMP 16 Fortran -Kopenmp -Kfast -KXFILL -Kprefetch sequential=soft -Kprefetch double line L2 - Kprefetch line L2=64 -Koptmsg -Qt C C (N) 80,000,512 (NTIMES) (10) OMP NUM THREADS PAR- ALLEL 16 Yayoi(SR16000/M1 32 [2] ) 2 Oakleaf-FX Yayoi 25% Yayoi 50% Oakleaf-FX 68% 3.2 HPL HPCC (HPCC 1.4.0)[7] HPL c 2012 Information Processing Society of Japan 4

5 LU - BLAS3 DGEMM C Fortran BLAS BLAS -O3 - Kopenmp,parallel,fast -Nsrc,sta -Koptmsg C -Kopenmp,parallel,ocl,fast -Koptmsg -Qt Fortran CPU MPI 1 16 MPI 1 MPI hpccinf.txt Ns = 56000, NBs = 448, Ps = 1, Qs = TFLOPS, 90.59% Yayoi TFLOPS, 84.65% [2] CPU MPI 1 16 MPI 4800 hpccinf.txt Ns = , NBs = 448, Ps = 30, Qs = PFLOPS, 91.89% TOP500 List 18 [14] kW 3.3 MPIFFT HPCC (HPCC 1.4.0) FFT MPI Alltoall C Fortran FFTW, SSLII SSLII BLAS/LAPACK -Kfast -Kopenmp - Nsrc,sta -Koptmsg C -Kfast -Kopenmp -mlcmain=main -SSL2BLAMP Fortran HPCC -DHPCC FFT 235 -DHPCC MEMALLCTR -DRA SANDIA NOPT (mpifft.o, wrapmpifftw.o, pzfft1d.o -DUSING FFTW ) 8 1 MPI 1 16 MPI 128 hpccinf.txt Ns = , NBs = 80, Ps = 1, Qs = 8 Vector Size Vector size: 3,200,000, GFLOPS, 1.59% Yayoi GFLOPS, 1.92% [2] B/F Oakleaf-FX 3.4 GeoFEM GeoFEM [8] GeoFEM-Cube[9] GeoFEM [10] ( 1 ) Cube PGA ( 2 ) ( 3 ) GFLOPS c 2012 Information Processing Society of Japan 5

Hybrid Hybrid a b HB a b a MPI OpenMP b MPI MPI 3 40 3 3 64,000 192,000 1 Hitachi SR11000/J2 Hitachi SR11K/J2 Hitachi SR16000/M1 Hitachi SR16K/M1 Hitachi HA8000 T2K FX10 Flat MPI Oakleaf-FX 6.77% 8.

6 4 Cube OpenMP FOR- TRAN90 MPI GeoFEM [8] SMP MPI OpenMP Hybrid OpenMP MPI [10] 3 GeoFEM 4 Cube cc-numa HA8000. GeoFEM-Cube GeoFEM-Cube SGS(Symmetric Gauss-Seidel)[10] (Conjugate Gradient CG) SGS/CG GeoFEM (a) CRS(Compressed Row Storage) RCM RCM Cyclic cyclic multicoloring CM CM-RCM 3 Flat MPI Hybrid Hybrid Hybrid a b HB a b a MPI OpenMP b MPI MPI , ,000 1 Hitachi SR11000/J2 Hitachi SR11K/J2 Hitachi SR16000/M1 Hitachi SR16K/M1 Hitachi HA8000 T2K FX10 Flat MPI Oakleaf-FX 6.77% 8.59% SPARC64 VIIIfx Oakleaf-FX SPARC64 IXfx % 25% Oakleaf-FX SR16K/M1 Power7 Byte/Flop SR16K/M1 3.5 MDTEST MDTEST MDTEST Lawrence Livermore National Laboratory (LLNL) Livermore Computing Center I/O [13] MDTEST (b) DJDS(Descending order Jagged Diagonal Storage) 2 GeoFEM-Cube CRS SGS A ILU [10] GeoFEM Multicoloring MC Reverse Cuthill-McKee 1 10, 000 5, MDTEST c 2012 Information Processing Society of Japan 6

7 3 GeoFEM-Cube 1 Flat MPI , ,000 Hitachi SR11000/J2 Hitachi SR11K/J2 Hitachi SR16000/M1 Hitachi SR16K/M1 Hitachi HA8000 T2K Fujitsu PRIMEHPC FX10 Oakleaf-FX Hitachi Hitachi T2K Fujitsu FX10 SR11K/J2 SR16K/M1 Oakleaf-FX IBM IBM AMD SPARC64 SPARC64 Processor Power5+ Power7 Opteron8356 IXfx VIIIfx 2.3 GHz 3.83 GHz 2.3 GHz GHz 2.0 GHz Core #/Node Peak Performance (GFLOPS) STREAM Triad (GB/s) Byte/Flop GeoFEM-Cube (GFLOPS) % to Peak Last Level Cache/core (MB) (Operations per second) 1 I/O MDTEST 1 2 / Oakleaf-FX Yayoi Yayoi 1 8 5,892 / 8,302 / 7,044 / 5,796 / Oakleaf-FX Yayoi 1/4 Yayoi GPFS Lustre FEFS 3.6 IOR IOR IOR MDTEST LLNL Livermore Computing Center I/O 5 MDTEST (1 ) 6 MDTEST (32 ) 4 IOR 1 (MB/sec) 4, , (ior-multi) (MB/sec) 139, , (ior-multi) (MB/sec) N/A 80, (ior-single) IOR c 2012 Information Processing Society of Japan 7

8 ior-multi ior-single POSIX I/O 1 1MiB 4 1 ior-multi GiB 4TiB 4GB/ Tofu 5GB/ ior-multi 1 32TiB IOR 139GB/ 134GB/ 1, GiB ( 32.2 TiB) 1, GiB ( TiB) ior-single 1, GiB ( TiB) 80.7 GB/ FEFS Lustre OST Lustre FEFS 20, 000 OST MiB IOR Yayoi Yayoi 10GB/ Oakleaf-FX 13 Yayoi ior-multi ior-single Oakleaf-FX 4 10GB/ I/O GPFS Lustre 4. Oakleaf-FX(Fujitsu PRIMEHPC FX10) Oakleaf-FX Oakleaf-FX [1] SR16000 SMP Yayoi [2],,,,, : SMP (HI- TACHI SR16000 M1), (HPC-133) (2012). [3] PRIMEHPC FX10 primehpc/. [4] FX10 Oakleaf-FX jp/system/fx10/. [5] HA8000 T2K ha8000/. [6] STREAM BENCHMARK edu/stream/. [7] HPC Challenge Benchmark hpcc/. [8] GeoFEM [9] UT-HPC benchmark ac.jp/ut-hpc-benchmark/. [10] HPC [11] Mattson, T.G., Sanders, B.A., Massingill, B.L.: Patterns for Parallel Programming, Software Patterns Series (SPS), Addison-Wesley (2005). [12] Nakajima, K.: New Strategy for Coarse Grid Solvers in Parallel Multigrid Methods using OpenMP/MPI Hybrid Programming Models, ACM Proceedings of PPoPP/PMAM 2012, New Orleans, LA, USA (2012). [13] Scalable I/O Benchmark Downloads, Lawrence Livermore National Laboratory gov/?set=code&page=sio downloads. [14] TOP500 List - June 2012 (1-100) TOP500 Supercomputing Sites 06/100. c 2012 Information Processing Society of Japan 8

Microsoft Word - HOKUSAI_system_overview_ja.docx

Microsoft Word - HOKUSAI_system_overview_ja.docx HOKUSAI システムの概要 1.1 システム構成 HOKUSAI システムは超並列演算システム (GWMPC BWMPC) アプリケーション演算サーバ群 ( 大容量メモリ演算サーバ GPU 演算サーバ ) とシステムの利用入口となるフロントエンドサーバ用途の異なる 2 つのストレージ ( オンラインストレージ階層型ストレージ ) から構成されるシステムです図 0-1 システム構成図