HPC (pay-as-you-go) HPC Web 2

Similar documents
2. Amazon GPU Cluster Compute Instance Amazon CCI Amazon EC2 CCI GPU Cluster GPU Quadruple Extra Large Instance (cg1.4xlarge) [6] On Demand Inhouse In

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

untitled

1重谷.PDF

GPU n Graphics Processing Unit CG CAD

untitled

untitled

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

HP High Performance Computing(HPC)

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

supercomputer2010.ppt

07-二村幸孝・出口大輔.indd

GPGPU

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

2012年度HPCサマーセミナー_多田野.pptx

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

Second-semi.PDF

[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP


RICCについて

HPC可視化_小野2.pptx

HPEハイパフォーマンスコンピューティング ソリューション

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1

Leveraging Cloud Computing to launch Python apps

Microsoft PowerPoint - GPU_computing_2013_01.pptx

untitled

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

スライド 1

PassMark PerformanceTest ™

PowerPoint Presentation

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

459

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

EGunGPU

Microsoft Word ●MPI性能検証_志田_ _更新__ doc

Vol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

Z8 G4 WorkstationでのANSYS19.1 Mechanical ベンチマーク結果紹介資料(フル版)

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

Krylov A04 October 8, 2010 T. Sakurai (Univ. Tsukuba) Krylov October 8, / 48

2ndD3.eps

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~

ESD表紙.indd

05-opt-system.ppt

untitled

PassMark PerformanceTest ™

当社の紹介 社名 代表取締役会長 代表取締役社長 株式会社森村設計 [ 英文社名 :P.T.Morimura & Associates, Ltd.] 森村武雄 森村潔 設立 本社 主な業務 1965 年 2 月 23 日 東京都目黒区中目黒 1 丁目 8 番 8 号 MEGURO F2 BUILDI

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

main.dvi

IPSJ SIG Technical Report Vol.2013-ARC-207 No.23 Vol.2013-HPC-142 No /12/17 1,a) 1,b) 1,c) 1,d) OpenFOAM OpenFOAM A Bottleneck and Cooperation

メモリ階層構造を考慮した大規模グラフ処理の高速化

PowerPoint プレゼンテーション

09中西

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速


untitled

02 CSR REPORT 09

Microsoft PowerPoint - stream.ppt [互換モード]

VXPRO R1400® ご提案資料

ProLiant BL460c システム構成図

CCS HPCサマーセミナー 並列数値計算アルゴリズム

大規模共有メモリーシステムでのGAMESSの利点

Microsoft Word - 教材ガイド一覧ビデオ.doc

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

AV 1000 BASE-T LAN 90 IEEE ac USB (3 ) LAN (IEEE 802.1X ) LAN AWS (Amazon Web Services) AP 3 USB wget iperf3 wget 40 MBytes 2 wget 40 MByt

HPE Moonshot System HDI ソリューション

template.dvi


名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

パナソニック技報

PowerPoint プレゼンテーション

untitled

untitled

卒業論文

情報処理学会研究報告 IPSJ SIG Technical Report Vol.2013-HPC-139 No /5/29 Gfarm/Pwrake NICT NICT 10TB 100TB CPU I/O HPC I/O NICT Gf

HPC146

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

HP Workstation Xeon 5600

GPUを用いたN体計算

040312研究会HPC2500.ppt

untitled

TOP MESSAGE 1


システムソリューションのご紹介

3. XML, DB, DB (AP). DB, DB, AP. RDB., XMLDB, XML,.,,.,, (XML / ), XML,,., AP. AP AP AP 検索キー //A=1 //A=2 //A=3 返却 XML 全体 XML 全体 XML 全体 XMLDB <root> <A

京プリポストクラウド

HPE Moonshot System ~ビッグデータ分析&モバイルワークプレイスを新たなステージへ~

( )

PowerPoint Presentation

HP Workstation 総合カタログ

Itanium2ベンチマーク

PowerPoint プレゼンテーション

GPGPUクラスタの性能評価

Transcription:

,, 1

HPC (pay-as-you-go) HPC Web 2

HPC Amazon EC2 OpenFOAM GPU EC2 3

HPC MPI MPI Courant 1 GPGPU MPI 4

AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570 2.93 Ghz x2 (8cores) 22GB Memory NVIDIA M2050 (2687MB) x 2 10 GbEtherNet Amazon Linux AMI 2012.03 (RHEL base) $2.10 /hour / node 5

EC2 Youtube : Building a Cluster in Less Than Ten Minutes sudo CUDA SDK, OpenFOAM, GPU, Machine Image Web $ 0.10 / GB / month 6

EC2 WEB CONSOLE 7

PCC-GPU: APPRO GPU CLUSTER (in-house) GPU (pcc-gpu) Octocore AMD Opteron 6136 @ 2.4 GHz x 2 (16 cores) 32 GB Memory NVIDIA M2050 (2687MB) x 2 Infiniband QDR CentOS 6.2 8 ( 9 ) 8

Intel MPI Benchmarks (IMB) 3.2.3 OpenFOAM 2 : PingPong 2 : Allreduce (MPI_SUM, 8bytes) 9

IMB: PINGPONG (2 NODES) IMB PingPong (2nodes) cg1.4xlarge pcc-gpu Elapsed time [μsec] 900 800 700 600 500 400 300 200 100 0 0 50000 100000 150000 200000 250000 300000 Message size [byte] [Kbyte] 10

IMB: ALLREDUCE (SUM, 8BYTES) IMB Allreduce (8bytes) cg1.4xlarge pcc-gpu 350 300 Elapsed time [μsec] 250 200 150 100 50 0 1 2 3 4 5 6 7 8 9 Number of nodes 11

NS { (ρu) =0, (U ) U (ν U) = P ( ) H(U) U f = ( P ) f a p f (a p ) f ( ) 1 P a p = = f ( ) H(U) S a p ( ) H(U) a p f NS p f ap P Uf Poisson 12

SIMPLE Algorithm 1 SIMPLE 1: 2: repeat 3: 4: 5: PCG 6: 7: 8: 9: until 13

PRECONDITIONED CG 3 MPI - CUBLAS SpMV (sparse Matrix Vector) - CUDA ITSOL (Li and Saad, 2012) JAD MPI : - CUDA ITSOL, NVIDIA CUSP 14

GPU CUDA ITSOL (Li and Saad, 2011) CUDA JAD SpMV (Sparse Matrix Vector product) GPU NVIDIA CUSP: AMG MPI OpenFOAM 15

JAD: SPARSE MATRIX STORAGE Compressed Row Storage Wavefront ordering JAgged Diagonal storage Wavefront ordering JAD : CUDA 16

JAD SPMV CPU-CSR GPU-CSR GPU-JAD 20 15 16.07 13.72 Gflop/s 10 5 0 0.65 4.47 4.79 1.23 0.49 0.38 bones01 parabolic_fem thermal2 8.93 127,224 525,825 1,228,045 6,715,152 3,674,625 8,580,313 17

OpenFOAM GPU JAD JAD 1 18

SPMV: MPI (Ghost cell) CPU (D2H) MPI GPU (H2D) SpMV CUDA MPI Device2Host Host2Device SpMV 19

AMG (Algebraic MultiGrid Preconditioner) NVIDIA CUSP LIBRARY smoothed_aggregation 20

: https://commons.wikimedia.org/wiki/file:gray505.png 21

MRI Gambit OF OF 22

23

simplefoam (OpenFOAM-2.1.1) ν =3.33 10 6 [m 2 /s]( ) V =0.461 [m/s] (Re = 6500) P = 76 [Pa], P = 0 [Pa] 0.6 δp 1 1.0 10 6 and δv 1 1.0 10 6 GPU-AMG-CG ILU-BiCG r 1 1.0 10 8 24

1778SIMPLE 25

SMALL MEDIUM LARGE 1,912,272 2,980,302 5,144,730 155MB 311MB 543MB 26

EC2 CPU-ICCG EC2 GPU-AMGCG JAIST GPU Cluster GPU-AMGCG 27

CG EC2 vs. Inhouse: AMG-PCG inner loop cg1.4xlarge (CPU-DIC) cg1.4xlarge (GPU-AMG) pcc-gpu (CPU-DIC) pcc-gpu (GPU-AMG) 0.7 0.6 Elapsed time [sec] 0.5 0.4 0.3 0.2 0.1 0 SMALL MEDIUM LARGE Number of nodes 28

PCG EC2 vs. In-house: CG LOOP (LARGE) cg1.4xlarge (ICCG) pcc-gpu (AMGCG) cg1.4xlarge (AMGCG) 0.18 0.16 0.14 Elapsed time [sec] 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 4 8 Number of Nodes 29

SIMPLE (LARGE) EC2 vs. Inhouse: SIMPLE LOOP pcc-gpu cg1.4xlarge 250 200 Elapsed time [sec] 150 100 50 0 1 2 4 8 Number of Threads 30

r 1 1.0 10-8 r0 1 1 2 4 8 ICCG 1005 1356 1362 1373 AMG-CG 41 94 139 198 31

EC2 OpenFOAM CUDA ITSOL NVIDIA CUSP GPU 8 32