IPSJ SIG Technical Report Vol.2017-HPC-158 No /3/9 OpenACC MPS 1,a) 1 Moving Particle Semi-implicit (MPS) MPS MPS OpenACC GPU 2 4 GPU NVIDIA K2

Size: px
Start display at page:

Download "IPSJ SIG Technical Report Vol.2017-HPC-158 No /3/9 OpenACC MPS 1,a) 1 Moving Particle Semi-implicit (MPS) MPS MPS OpenACC GPU 2 4 GPU NVIDIA K2"

Transcription

1 OpenACC MPS 1,a) 1 Movng Partcle Sem-mplct (MPS) MPS MPS OpenACC GPU 2 4 GPU NVIDIA K20c GTX1080 P100(PCIe) P100(NVlnk) 5 OpenACC Fortran GPU 1. MPS [1] 1 MPS MPS CUDA GPU [2] [3] [4] OpenACC GPU OpenACC GPU API [5] (clause) GPU CUDA OpenCL GPU MPS NSRU-MPS NSRU-MPS For a) myajma.takaak@jaxa.jp tran 95 MPI OpenMP 2 OpenACC CPU 2 4 GPU GPU 2. MPS MPS 4.0km 3.5km 2 6 [6] MPS 2.1 MPS (Explct MPS ) 2 r j r j Proc 0) 1

2 1: MPS Proc 1) Proc 2) Proc 3) Proc 4) Proc 5) Proc 6)Proc 1 6 Proc 0) MPS λ 0 n 0 ρ λ 0 j = ( r0 j r0 )2 ω( r 0 j r0 ) j ω( r0 j r0 ) (1) n 0 = ω( r 0 j r 0 ) (2) j Proc 1) 2 3 ( u = u k + t ν 2d ) λ 0 n 0 (u k j u k )ω( r j r ) +g(3) j k t j ν d g u k k u k Proc 2) Proc 1 r = r k + tu (4) r k k Proc 3) n = j ω( r j r ) (5) 2: P k+1 = c 2 ρ0 n 0 (n n 0 ) (6) P k+1 k c n k Proc 4) P k+1 = d n 0 j ( ) (P k+1 + P k+1 j )(r j r ) r j r 2 ω grad ( r j r ) (7) ω grad 2.3 Proc 5) ( ) k+1 u k+1 = u 1 t ρ P (8) r k+1 u k+1 ( = r 1 t ρ P ) k+1 (9) r k k + 1 Proc 6) Forward tme step u t 2.2 MPS Smoothed Partcle Hydrodynamcs(SPH) N [2] [7] [3] NSRU-MPS 2

3 3: NSRU-MPS Laplacan u cal nden grad p explct 2 Read-After-Wrte(RAW) 2.3 MPS ω grad (r) = re r r r e (10) ω(r) = re r r r e 2 (11) r e r j 2.4 NSRU-MPS NSRU-MPS MPS Sem-mplct MPS MPI NSRU-MPS r u u P r P n 9 AoS Array of Structure 2 2 Intel Xeon E GHz(12 24 ) 128GB DDR : CPU-GPU NVlnk PCIe Gen , , MPI Wtme 200 MPI 2 112, , ,016 3 NSRU-MPS Laplacan u grad p ex-plct cal nden 3 86% 89% Laplacan u 252.8[ms] elastc collson 9% 10% 2% 3. OpenACC tmestep Laplacan u Tesla K20c, GeForce GTX1080, Tesla P100(NV-lnk), P100(PCIe) 4 GPU 1 GPU 2CPU 2GPU GPU CPU 2 PGI Fortran Compler K20c GTX1080, P100(PCIe) x86-64 (ver 16.10) P100(NVlnk) lnuxpower (ver 16.10) -acc -ta=nvda, cuda8.0, fastmath, cc60 K20c cc60 cc35 MPI OpenMPI CPU 1 1 1GPU tmestep Laplacan u MPI 2.4 CPU-GPU 4 3

4 1: GPU CUDA GPU CPU-GPU GPU [TFLOPS] [MHz] Cores [Gbps] ( ) CPU K20c , PCIe Gen2 x16 ( 8GB/s) Intel Xeon E v2 GTX ,733 2, PCIe Gen3 x16 (16GB/s) Intel Xeon E v2 P100 (PCIe) 9.3 1,303 3, PCIe Gen3 x16 (16GB/s) Intel Xeon E5-2630Lv3 P100 (NVlnk) ,406 3, NVLnk (40GB/s) IBM POWER8 NVL Tesla K20c PCI-Express Generaton 2 x16 GTX1080 P100(PCIe) PCI-Express Generaton 3 x16 P100(NVlnk) NVlnk 4 NVlnk 82.7% PCIe Gen3 x KB GTX1080 GTX1080 P MHz 3.1 tmestep OpenACC GPU Proc 6 tmestep OpenACC CUDA 5 44,064 (3 14,688) 337,365(3 112,455) CPU GPU 176,256 bytes (44,064 4byte) 1,349,460 bytes (337,365 4byte) : CPU GPU KB 1.29MB [ms] BW [GB/s] [ms] BW [GB/s] K20c GTX P100(PCIe) P100(NVlnk) acc kernels 1 maxval() acc kernels Fortran CUDA 2,3,4 maxval() 3 CUDA Kernel( 9 ) Kernel NVIDIA GPU 2 [8] CPU cxmax, cymax, czmax 3 CPU P100(NVlnk) lnuxpower x GTX1080 P100 Lstng 1: acc kernels 1!$acc kernels copyn(nm) 2 cxmax = maxval(c(1,1:nm))! 3 cymax = maxval(c(2,1:nm))! 4 czmax = maxval(c(3,1:nm))! 5 cmax = max(cxmax,cymax)! 6 cmax = max(cmax,czmax)! 7!$acc end kernels maxval maxval maxval() acc kernels Kernel acc kernels 3 CUDA Kernel 2 CPU maxval() 1 3 CUDA Kernel CPU lnuxpower x86-64 Kernel 9 3 K20c GTX1080 acc kernel Lstng 2: maxval() 1 1!$acc kernels copyn(nm) 2 cxmax = maxval(c(:3,:nm)) 3!$acc end kernels reducton reducton maxval max reducton PGI max GPU acc loop reducton acc loop vector(32) CUDA Kernel 2 maxval Kernel GTX1080 acc kernels

5 5: GTX1080 GPU 6: P100(NVlnk) GPU Lstng 3: max() reducton 1!$acc parallel copyn(nm) 2!$acc loop reducton(max:cmax) 3 do row=1,3 4!$acc loop vector(32) 5 do col=1,nm 6 cmax = max(cmax, c(col,row)) 7 end do 8 end do 9!$acc end parallel unroll unroll reducton collapse(2) collapse(n) N CUDA Kernel acc kernel reducton P100(NVlnk) OpenACC CUDA dev maxval CUDA Fortran OpenACC CUDA Kernel 2 acc host data use devce c dev maxval CUDA Fortran maxval unroll 35% lnuxpower Lstng 4: CUDA Fortran 1!$acc data copyn(c(:3,:nm)) 2!$acc host data use devce(c) 3 cmax = dev maxval(c, 3, Nm) 4!$acc end host data 5!$acc end data 1 attrbutes(devce) real functon dev maxval(gdata, x, y) 2 use cudafor, gpu maxval => maxval 3 nteger,value :: x, y 4 real,devce :: gdata(x,y) 5 dev maxval = gpu maxval(gdata) 6 end functon dev maxval Multcore PGI -ta=multcore CPU CUDA Xeon E v2 MPI mpexec -bnd-to none -n 3 acc kernels K20c 3: Multcore ([ms]) acc kernels maxval reducton unroll Laplacan u 7 5 (do-loop1) 2,3,4(do-loop2,3,4) (=27) , [ms] [ms] OpenACC GPU 10 5

6 7: Nave 8: Atomc 9: 3-D Lstng 5: 1! for all the partcles 2 do loop1: target ptcl = 1,all ptcl 3 b = bucket num[m] 4! traverse adjacent buckets (3 dm: 3x3x3=27) 5 do loop2: x=x1,x2 6 do loop3: y=y1,y2 7 do loop4: z=z1,z2 8 bb = get adj bucket num(x,y,z) 9 num of ptcl = get num of ptcl n bucket(bb) 10! accumulate all the neghbour partcles 11 do loop5: np = 1,num of ptcl! ndefnte loop 12 f (ptcl s n halo) 13 lcr = ptcl halo[np]! random access 14 else 15 lcr = ptcl[np]! random access 16 end f 17 dst = sqrt(dot product(m, lcr))! get dstance 18 weght = get weght(dst) 19 accum = accum + phys(weght)! aggregaton 20 m phys[m] = m phys[m] + accum! n place add Nave Nave 1 GPU 1 OpenACC 7 do-loop1 acc kernels acc loop gang vector do-loop2 acc loop collapse(3) seq 3 (do-loop2,3,4) do-loop5 acc loop seq GPU 1 CUDA 1 14, (= 14, ) occupancy 100% GPU 64,256,512 P100(NVlnk) 451 Lstng 6: Nave 1!$acc kernels 2!$acc loop gang vector(128) 3 do loop1: target ptcl = 1,all ptcl !$acc loop collapse(3) seq 6 do loop2: x=x1,x2 7 do loop3: y=y1,y2 8 do loop4: z=z1,z !$acc loop seq 11 do loop5: np = 1,num of ptcl Atomc Atomc atomc 8 27(3 3 3) GPU 1 CUDA Nave , ,576(= 14,688 27) 3,099 (= 14, ) Nave occupancy 100% GPU Atomc atomc do-loop1 do-loop4 do-loop1 acc parallel acc loop collapse(4) gang vector GPU 1 15,17 acc atomc update atomc P100(PCIe) 220 6

7 Lstng 7: Atomc 1!$acc parallel 2!$acc loop collapse(4) ndependent gang vector(128) 3 do loop1: target ptcl = 1,all ptcl do loop2: x=x1,x2 6 do loop3: y=y1,y2 7 do loop4: z=z1,z ! moved here from do loop1 10 b = bucket num[m] 11!$acc loop seq 12 do loop5: np = 1,num of ptcl ! moved here from do loop1 15!$acc atomc update 16 m phys[m] = m phys[m] + accum! n place add 17!$acc end atomc D thread 3-D thread MPS 9 CUDA threadidx.x threadidx.y, threadidx.z 27 GPU 1 CUDA Atomc 27 occupancy GPU 1 14, ,576(= 14,688 27) 14,688 (= 14, ) do-loop2,3,4 acc loop vector(3) Nave Atomc occupancy Lstng 8: 3-D thread 1!$acc kernels 2!$acc loop ndependent 3 do loop1: target ptcl = 1,all ptcl !$acc loop vector(3) 6 do loop2: x=x1,x2 7!$acc loop vector(3) 8 do loop3: y=y1,y2 9!$acc loop vector(3) 10 do loop4: z=z1,z ! moved here from do loop1 13 b = bucket num[m] 14!$acc loop seq 15 do loop5: np = 1,num of ptcl ! moved here from do loop1 18!$acc atomc update 19 m phys[m] = m phys[m] + accum! n place add 20!$acc end atomc Multcore Multcore PGI -ta=multcore Nave Loop not vectorzed/parallelzed: too deeply nested MPI Xeon CPU mpexec -bnd-to none -n 2 mpstat % 34.03[ms] [ms] : Multcore Processng tme [ms] Speed-up GTX1080 GTX1080 P100(PCIe) 18% 27% GTX1080 P MHz 6 P100(NVlnk) P100(NVlnk) P100(PCIe) 20% 44% 14% Nave GPU 100(PCIe) P100(NVlnk) Nave 3-D Thread 3.1 Nave atomc 1 Atomc 3-D Thread 1 atomc occupancy GPU OpenACC GTX1080 P MHz 7

8 10: Nave GPU GPU atomc P100 GTX Concluson MPS OpenACC GPU 3.5 Xeon CPU Fortran GPU GPU MPS GPU NVIDIA [1] Koshzuka, S. and Oka, Y.: Movng partcle sem-mplct method for fragmentaton of ncompressble flud, Nuclear Scence and Engneerng, Vol. 123, pp (1996). [2] Seya, W., Takayuk, A., Sator, T. and Takash, S.: Neghbor-partcle Searchng Method for Partcle Smulaton Based on Contact Interacton Model for GPU Computng, IPSJ Transactons on Advanced Computng Systems, Vol. 8, No. 4, pp (2015). [3] Murotan, K., Masae, I., Matsunaga, T., Koshzuka, S., Shoya, R., Ogno, M. and Fujsawa, T.: Performance mprovements of dfferental operators code for MPS method on GPU, Computatonal Partcle Mechancs, Vol. 2, No. 3, pp (onlne), DOI: /s (2015). [4] Sota, Y., Watanabe, A. and Kojma, T.: Accerelaton of the movng parcle sem-mplct method through mult- GPU parallel computng wth dynamc doman decomposton, Journal of Japan Socety of Cvl Engneers, Ser. A2 (Appled Mechancs (AM)), Vol. 69, No. 2 (2013). [5] : OpenACC Home [6] Murotan, K., Koshzuka, S., Tama, T., Shbata, K., Mtsume, N., Yoshmura, S., Tanaka, S., Hasegawa, K., Naga, E. and Fujsawa, T.: Development of Herarchcal Doman Decomposton Explct MPS Method and Applcaton to Large-scale Tsunam Analyss wth Floatng Objects, Journal of Advanced Smulaton n Scence and Engneerng, Vol. 1, No. 1, pp (onlne), DOI: /jasse.1.16 (2014). [7] Sun, H., Tan, Y., Zhang, Y., Wu, J., Wang, S., Yang, Q. and Zhou, Q.: A Specal Sortng Method for Neghbor Search Procedure n Smoothed Partcle Hydrodynamcs on GPUs, Parallel Processng Workshops (ICPPW), th Internatonal Conference on, pp (onlne), DOI: /ICPPW (2015). [8] Woolley, C.: Professonal CUDA C Programmng (2014). 8

粒子法による流れの数値解析

粒子法による流れの数値解析 21 2002 230 239. Numercal Analyss of Flow usng Partcle Method Sech KOSHIZUKA 1 1 2 Los Alamos PAF Partcle-and-Force MAC Marker-and- Cell MAC PIC Partcle-n-Cell 319-1188 2-22 E-mal: kosh@utnl.jp PIC Los

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 勉強会 @ 理化学研究所 共通コードプロジェクト Contents Hands On 環境について Introduction to GPU computing Introduction

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

Vol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c

Vol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c Vol.214-HPC-145 No.45 214/7/3 OpenACC 1 3,1,2 1,2 GPU CUDA OpenCL OpenACC OpenACC High-level OpenACC CPU Intex Xeon Phi K2X GPU Intel Xeon Phi 27% K2X GPU 24% 1. TSUBAME2.5 CPU GPU CUDA OpenCL CPU OpenMP

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

XACCの概要

XACCの概要 2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

FRP SPH(Smoothed Partcle Hydrodynamcs) (3) MPS(Movng Partcle sem-mplct) (4) MPS (5) (6) (7, 8) (9) (10) (11) Tama and Koshzuka LSMPS(Least Squares Mov

FRP SPH(Smoothed Partcle Hydrodynamcs) (3) MPS(Movng Partcle sem-mplct) (4) MPS (5) (6) (7, 8) (9) (10) (11) Tama and Koshzuka LSMPS(Least Squares Mov Transactons of JSCES, Paper No.20160015 Ansotropc Hgh Vscosty Flud Analyss Usng a Partcle Method for Evaluatng CFRTP Press Moldng Process 1 1 1 2 2 Ryosaku SHINO, Tasuku TAMAI, Sech KOSHIZUKA, Akra MAKI

More information

> σ, σ j, j σ j, σ j j σ σ j σ j (t) = σ (t ) σ j (t) = σ () j(t ) n j σ, σ j R lm σ = σ j, j V (8) t σ R σ d R lm σ = σ d V (9) t Fg.. Communcaton ln

> σ, σ j, j σ j, σ j j σ σ j σ j (t) = σ (t ) σ j (t) = σ () j(t ) n j σ, σ j R lm σ = σ j, j V (8) t σ R σ d R lm σ = σ d V (9) t Fg.. Communcaton ln IIC-- Dstrbuted Cooperatve Atttude Control for Multple Rgd Bodes wth Communcaton Delay Yoshhro achbana, oru Namerkawa (Keo Unversty) Abstract hs paper descrbes dstrbuted cooperatve atttude consensus and

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

スライド 1

スライド 1 GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html

More information

HP Workstation 総合カタログ

HP Workstation 総合カタログ HP Workstation Z HP 6 Z HP HP Z840 Workstation P.9 HP Z640 Workstation & CPU P.10 HP Z440 Workstation P.11 17.3in WIDE HP ZBook 17 G2 Mobile Workstation P.15 15.6in WIDE HP ZBook 15 G2 Mobile Workstation

More information

2ndD3.eps

2ndD3.eps CUDA GPGPU 2012 UDX 12/5/24 p. 1 FDTD GPU FDTD GPU FDTD FDTD FDTD PGI Acceralator CUDA OpenMP Fermi GPU (Tesla C2075/C2070, GTX 580) GT200 GPU (Tesla C1060, GTX 285) PC GPGPU 2012 UDX 12/5/24 p. 2 FDTD

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

strtok-count.eps

strtok-count.eps IoT FPGA 2016/12/1 IoT FPGA 200MHz 32 ASCII PCI Express FPGA OpenCL (Volvox) Volvox CPU 10 1 IoT (Internet of Things) 2020 208 [1] IoT IoT HTTP JSON ( Python Ruby) IoT IoT IoT (Hadoop [2] ) AI (Artificial

More information

HPC (pay-as-you-go) HPC Web 2

HPC (pay-as-you-go) HPC Web 2 ,, 1 HPC (pay-as-you-go) HPC Web 2 HPC Amazon EC2 OpenFOAM GPU EC2 3 HPC MPI MPI Courant 1 GPGPU MPI 4 AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570

More information

Microsoft PowerPoint - GPU_computing_2013_01.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of GPU 1,a) 1,b) 1,c) 1,d) GPU 1 GPU Structure Of Array Array Of Structure 1. MPS(Moving Particle Semi-Implicit) [1] SPH(Smoothed Particle Hydrodynamics) [] DEM(Distinct Element Method)[] [] 1 Tokyo Institute

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N GPU 1 1 2 1, 3 2, 3 (Graphics Unit: GPU) GPU GPU GPU Evaluation of GPU Computing Based on An Automatic Program Generation Technology Makoto Sugawara, 1 Katsuto Sato, 1 Kazuhiko Komatsu, 2 Hiroyuki Takizawa

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

GPU CUDA CUDA 2010/06/28 1

GPU CUDA CUDA 2010/06/28 1 GPU CUDA CUDA 2010/06/28 1 GPU NVIDIA Mark Harris, Optimizing Parallel Reduction in CUDA http://developer.download.nvidia.com/ compute/cuda/1_1/website/data- Parallel_Algorithms.html#reduction CUDA SDK

More information

HPEハイパフォーマンスコンピューティング ソリューション

HPEハイパフォーマンスコンピューティング ソリューション HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6

More information

01_OpenMP_osx.indd

01_OpenMP_osx.indd OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS

More information

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›» rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced

More information

( )

( ) 1. 2. 3. 4. 5. ( ) () http://www-astro.physics.ox.ac.uk/~wjs/apm_grey.gif http://antwrp.gsfc.nasa.gov/apod/ap950917.html ( ) SDSS : d 2 r i dt 2 = Gm jr ij j i rij 3 = Newton 3 0.1% 19 20 20 2 ( ) 3 3

More information

HPC146

HPC146 2 3 4 5 6 int array[16]; #pragma xmp nodes p(4) #pragma xmp template t(0:15) #pragma xmp distribute t(block) on p #pragma xmp align array[i] with t(i) array[16] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Node

More information

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2 ! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale

More information

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1 SMYLE OpenCL 128 1 1 1 1 1 2 2 3 3 3 (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 128 SMYLEref SMYLE OpenCL SMYLE OpenCL Implementation and Evaluations on 128 Cores Takuji Hieda 1 Noriko Etani

More information

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~ MATLAB における並列 分散コンピューティング ~ Parallel Computing Toolbox & MATLAB Distributed Computing Server ~ MathWorks Japan Application Engineering Group Takashi Yoshida 2016 The MathWorks, Inc. 1 System Configuration

More information

HP Workstation 総合カタログ

HP Workstation 総合カタログ HP Workstation E5 v2 Z Z SFF E5 v2 2 HP Windows Z 3 Performance Innovation Reliability 3 HPZ HP HP Z820 Workstation P.11 HP Z620 Workstation & CPU P.12 HP Z420 Workstation P.13 17.3in WIDE HP ZBook 17

More information

imai@eng.kagawa-u.ac.jp No1 No2 OS Wintel Intel x86 CPU No3 No4 8bit=2 8 =256(Byte) 16bit=2 16 =65,536(Byte)=64KB= 6 5 32bit=2 32 =4,294,967,296(Byte)=4GB= 43 64bit=2 64 =18,446,744,073,709,551,615(Byte)=16EB

More information

次世代スーパーコンピュータのシステム構成案について

次世代スーパーコンピュータのシステム構成案について 6 19 4 27 1. 2. 3. 3.1 3.2 A 3.3 B 4. 5. 2007/4/27 4 1 1. 2007/4/27 4 2 NEC NHF2 18 9 19 19 2 28 10PFLOPS2.5PB 30MW 3,200 18 12 12 SimFold, GAMESS, Modylas, RSDFT, NICAM, LatticeQCD, LANS HPL, NPB-FT 19

More information

IPSJ SIG Techncal Report 2. RangeBased RangeFree. 2.1 Rangebased RangeBased TDOA(Tme Dfference Of Arrval) TOA(Tme Of Arrval) TDOA TDOA Actve Bat 2) Cr

IPSJ SIG Techncal Report 2. RangeBased RangeFree. 2.1 Rangebased RangeBased TDOA(Tme Dfference Of Arrval) TOA(Tme Of Arrval) TDOA TDOA Actve Bat 2) Cr IPSJ SIG Techncal Report 1 2 2 (SOM, Self Organzng Maps) 7). Self-Organzng Localzaton for Wreless Sensor Networks on Ansotropc Topology Yuto Takashma, 1 Naotosh Adach 2 and Yasuhsa Takzawa 2 On wreless

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17

More information

IPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP

IPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP Android 1 1 1 1 1 Dominic Hillenbrand 1 1 1 ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GPIO API GPIO API GPIO MPEG2 Optical Flow MPEG2 1PE 0.97[W] 0.63[W] 2PE 1.88[w] 0.46[W] 3PE 2.79[W] 0.37[W] Optical

More information

main.dvi

main.dvi THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS TECHNICAL REPORT OF IEICE. ( ) Estmaton and Analyss of Topc Models n Tme Seres Japanese / Chnese News and Blogs Shuo HU,LyZHENG, Yusuke

More information

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla GPU CRS 1,a),b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla K0 CUDA5.0 cusparse CRS SpMV 00 1.86 177 1. SpMV SpMV CRS Compressed Row Storage *1 SpMV GPU GPU NVIDIA Kepler

More information

EGunGPU

EGunGPU Super Computing in Accelerator simulations - Electron Gun simulation using GPGPU - K. Ohmi, KEK-Accel Accelerator Physics seminar 2009.11.19 Super computers in KEK HITACHI SR11000 POWER5 16 24GB 16 134GFlops,

More information

音声読み上げブラウザの読み上げかた

音声読み上げブラウザの読み上げかた IBM 3.01, 1,234 1 HTML 2 1+1 1+1= 1 1 1 1= 1 1 1 1= 1X1 3 2004 11 14 10 2004 11 14 2004-11-14 2004/11/14 11/14 10:00 10:00am am pm a.m.p.m. 4 10 5 1 1 1 10 1 100 10 1 10 10 113 10 1 5 6 23 5372 0859 23

More information

PC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 P

PC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 P PC Development of Distributed PC Grid System,,,, Junji Umemoto, Hiroyuki Ebara, Katsumi Onishi, Hiroaki Morikawa, and Bunryu U PC WAN PC PC WAN PC 1 PC PC PC PC PC Key Words:Grid, PC Cluster, Distributed

More information

CTA 82: CTA A A B B A B A, C A A A D A B Max-Planck-Inst. fuer Phys. C D

CTA 82: CTA A A B B A B A, C A A A D A B Max-Planck-Inst. fuer Phys. C D CTA 82 CTA A A B B A B A, C A A A D A B Max-Planck-Inst. fuer Phys. C D LST LST LST に 1855 の 23m Dragon FrontEndBoard 7 の から み し 14 30 ns SiTCP を FPGA に デ タ は TCP/IP その は UDP で われる 1 が1 のトリガで するデ タは {(2

More information

Fuzzy Multiple Discrimminant Analysis (FMDA) 5) (SOM) 6) SOM 3 6) SOM SOM SOM SOM SOM SOM 7) 8) SOM SOM SOM GPU 2. n k f(x) m g(x) (1) 12) { min(max)

Fuzzy Multiple Discrimminant Analysis (FMDA) 5) (SOM) 6) SOM 3 6) SOM SOM SOM SOM SOM SOM 7) 8) SOM SOM SOM GPU 2. n k f(x) m g(x) (1) 12) { min(max) SOM 1 2 2 3 1 (SOM: Self-Organizing Maps) 3 SOM SOM SOM SOM GPU A Study on Visualization of Pareto Solutions by Spherical Self-Organizing Maps MASATO YOSHIMI, 1 KANAME NISHIMOTO, 2 LUYI WANG, 2 TOMOYUKI

More information

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

(    CUDA CUDA CUDA CUDA (  NVIDIA CUDA I GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA

More information

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation 1 1 1 1 SPEC CPU 2000 EQUAKE 1.6 50 500 A Parallelizing Compiler Cooperative Multicore Architecture Simulator with Changeover Mechanism of Simulation Modes GAKUHO TAGUCHI 1 YOUICHI ABE 1 KEIJI KIMURA 1

More information

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) HA-PACS 2012 2 HA-PACS TCA (Tightly Coupled Accelerators) TCA PEACH2 1. (Graphics Processing Unit) HPC GP(General Purpose ) TOP500 [1] CPU PCI Express (PCIe)

More information

IPSJ SIG Technical Report Vol.2014-CG-155 No /6/28 1,a) 1,2,3 1 3,4 CG An Interpolation Method of Different Flow Fields using Polar Inter

IPSJ SIG Technical Report Vol.2014-CG-155 No /6/28 1,a) 1,2,3 1 3,4 CG An Interpolation Method of Different Flow Fields using Polar Inter ,a),2,3 3,4 CG 2 2 2 An Interpolation Method of Different Flow Fields using Polar Interpolation Syuhei Sato,a) Yoshinori Dobashi,2,3 Tsuyoshi Yamamoto Tomoyuki Nishita 3,4 Abstract: Recently, realistic

More information

CUDA 連携とライブラリの活用 2

CUDA 連携とライブラリの活用 2 1 09:30-10:00 受付 10:00-12:00 Reedbush-H ログイン GPU 入門 13:30-15:00 OpenACC 入門 15:15-16:45 OpenACC 最適化入門と演習 17:00-18:00 OpenACC の活用 (CUDA 連携とライブラリの活用 ) CUDA 連携とライブラリの活用 2 3 OpenACC 簡単にGPUプログラムが作成できる それなりの性能が得られる

More information

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速 1 1, 2 1, 2 3 2, 3 4 GP LES ASUCA LES NVIDIA CUDA LES 1. Graphics Processing Unit GP General-Purpose SIMT Single Instruction Multiple Threads 1 2 3 4 1),2) LES Large Eddy Simulation 3) ASUCA 4) LES LES

More information

Ver. 3.8 Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI,

Ver. 3.8 Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI, PowerEdge T630 Contents RAID /RAID & PCIe GPU OS v3.8 Apr. 2017 P3-5 P6 P7 P8-9 P10-11 P12-16 P17-79 P80-85 P86-87 P88-90 P90 P91-92 P93-96 P97-100 P101-107 P107-108 P109-110 2017 4 28 2016 4 22 Ver. 3.8

More information

ストリーミング SIMD 拡張命令2 (SSE2) を使用した、倍精度浮動小数点ベクトルの最大/最小要素とそのインデックスの検出

ストリーミング SIMD 拡張命令2 (SSE2) を使用した、倍精度浮動小数点ベクトルの最大/最小要素とそのインデックスの検出 SIMD 2(SSE2) / 2.0 2000 7 : 248602J-001 01/10/30 1 305-8603 115 Fax: 0120-47-8832 * Copyright Intel Corporation 1999-2001 01/10/30 2 1...5 2...5 2.1...5 2.1.1...5 2.1.2...8 3...9 3.1...9 3.2...9 4...9

More information

HPC143

HPC143 研究背景 GPUクラスタ 高性能 高いエネルギー効率 低価格 様々なHPCアプリケーションで用いられている TCA (Tightly Coupled Accelerators) 密結合並列演算加速機構 筑波大学HA-PACSクラスタ アクセラレータ GPU 間の直接通信 低レイテンシ 今後のHPCアプリは強スケーリングも重要 TCAとアクセラレータを搭載したシステムに おけるプログラミングモデル 例

More information

HP ProLiant 500シリーズ

HP ProLiant 500シリーズ HPProLiant5 DL58/585 HPProLiant5 4 HPProLiant5 HPProLiant5 64 HPProLiant5 TPC-H@1GB 4, 34,99 SAP SD Benchmark Users QphH@1GB 3, 2, 1, 4, 3, 2, 1, DL58 G5, Xeon X735 DL585 G5, AMD Opteron 836SE 17,12 DL58

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted DEGIMA LINPACK Energy Performance for LINPACK Benchmark on DEGIMA 1 AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK 1.4698 GFlops/Watt 1.9658 GFlops/Watt Abstract GPU Computing has

More information

untitled

untitled Power Wall HPL1 10 B/F EXTREMETECH Supercomputing director bets $2,000 that we won t have exascale computing by 2020 One of the biggest problems standing in our way is power. [] http://www.extremetech.com/computing/155941

More information

10_4.dvi

10_4.dvi Vol.44, No.1, 1/7 28 Synchronzed Control for Blateral Teleoperaton wth Dfferent Confguratons and Communcaton Delays Hsanosuke Kawada,KoueYoshda and Toru Namerkawa Ths paper addresses the problem of the

More information

Microsoft Word - vga

Microsoft Word - vga VGA Card Product name: Z77A-G43 BIOS ver.: 2.0 搭配 SandyBridge CPU 測試 PCI Express VGA Card ATi GPU MSI V212-08S Radeon HD5450 512MB/GDDR3 Gen2,x16 012.017.000.000 MSI V234-07S Radeon HD5450 1024MB/GDDR3

More information

非線形長波モデルと流体粒子法による津波シミュレータの開発 I_ m ρ v p h g a b a 2h b r ab a b Fang W r ab h 5 Wendland 1995 q= r ab /h a d W r ab h

非線形長波モデルと流体粒子法による津波シミュレータの開発 I_ m ρ v p h g a b a 2h b r ab a b Fang W r ab h 5 Wendland 1995 q= r ab /h a d W r ab h 土木学会論文集 B2( 海岸工学 ) Vol. 70, No. 2, 2014, I_016-I_020 非線形長波モデルと流体粒子法による津波シミュレータの開発 Development of a Tsunami Simulator Integrating the Smoothed-Particle Hydrodynamics Method and the Nonlinear Shallow Water

More information

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL   アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ GPUDirect の現状整理 multi-gpu に取組むために G-DEP チーフエンジニア河井博紀 (kawai@gdep.jp) 名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL http://www.gdep.jp アライアンスパートナー コアテクノロジーパートナー

More information

ARTED Xeon Phi Xeon Phi 2. ARTED ARTED (Ab-initio Real-Time Electron Dynamics simulator) RTRS- DFT (Real-Time Real-Space Density Functional Theory, )

ARTED Xeon Phi Xeon Phi 2. ARTED ARTED (Ab-initio Real-Time Electron Dynamics simulator) RTRS- DFT (Real-Time Real-Space Density Functional Theory, ) Xeon Phi 1,a) 1,3 2 2,3 Intel Xeon Phi PC RTRSDFT ( ) ARTED (Ab-initio Real-Time Electron Dynamics simulator) Xeon Phi OpenMP Intel E5-2670v2 (Ivy-Bridge 10 ) CPU Xeon Phi Symmetric CPU 32 1.68 Symmetric

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

Explicit MPS Algorithm for Large-scale Free Surface Flow Analysis

Explicit MPS Algorithm for Large-scale Free Surface Flow Analysis 先駆的科学計算に関するフォーラム 014 大規模分散メモリ並列 MS 法の開発と 市街地浸水津波解析 開催日 014 年 8 月 5 日 ( 火 )-8 月 6 日 ( 水 ) 会場福岡市博多区リファレンス駅東ビル 5 階会議室 V- 室谷浩平 ( 東京大学 ) 目次 MS 陽解法 並列計算 津波解析 MS 陽解法とMS 半陰解法の比較 目次 MS 陽解法 並列計算 津波解析 MS 陽解法とMS 半陰解法の比較

More information

2012 M

2012 M 2012 M0109218 2012 : M0109218 36 1 1 1.1............................. 1 1.2................................. 5 2 6 2.1................... 6 2.2................ 8 2.3............ 12 3 15 3.1...................

More information

倍々精度RgemmのnVidia C2050上への実装と応用

倍々精度RgemmのnVidia C2050上への実装と応用 .. maho@riken.jp http://accc.riken.jp/maho/,,, 2011/2/16 1 - : GPU : SDPA-DD 10 1 - Rgemm : 4 (32 ) nvidia C2050, GPU CPU 150, 24GFlops 25 20 GFLOPS 15 10 QuadAdd Cray, QuadMul Sloppy Kernel QuadAdd Cray,

More information

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë 2015 5 21 OpenMP Hello World Do (omp do) Fortran (omp workshare) CPU Richardson s Forecast Factory 64,000 L.F. Richardson, Weather Prediction by Numerical Process, Cambridge, University Press (1922) Drawing

More information

Itanium2ベンチマーク

Itanium2ベンチマーク HPC CPU mhori@ile.osaka-u.ac.jp Special thanks Timur Esirkepov HPC 2004 2 25 1 1. CPU 2. 3. Itanium 2 HPC 2 1 Itanium2 CPU CPU 3 ( ) Intel Itanium2 NEC SX-6 HP Alpha Server ES40 PRIMEPOWER SR8000 Intel

More information

2016 10 31 1. 1.1 20 1 1993 20 2 2 1 industrial society 2 2 169 2014 3 1.2 4 5 6 3 1.3 4 5 1973 6 170 7 8 9 7 ISO/IEC 9126 11 8 1 9 ABS ABS ABS ABS 171 2. 2.1 1960 10 11 12 13 10 1964 IBM S/360 11 16 FORTRAN

More information

IEEE HDD RAID MPI MPU/CPU GPGPU GPU cm I m cm /g I I n/ cm 2 s X n/ cm s cm g/cm

IEEE HDD RAID MPI MPU/CPU GPGPU GPU cm I m cm /g I I n/ cm 2 s X n/ cm s cm g/cm Neutron Visual Sensing Techniques Making Good Use of Computer Science J-PARC CT CT-PET TB IEEE HDD RAID MPI MPU/CPU GPGPU GPU cm I m cm /g I I n/ cm 2 s X n/ cm s cm g/cm cm cm barn cm thn/ cm s n/ cm

More information

フカシギおねえさん問題の高速計算アルゴリズム

フカシギおねえさん問題の高速計算アルゴリズム JST ERATO 2013/7/26 Joint work with 1 / 37 1 2 3 4 5 6 2 / 37 1 2 3 4 5 6 3 / 37 : 4 / 37 9 9 6 10 10 25 5 / 37 9 9 6 10 10 25 Bousquet-Mélou (2005) 19 19 3 1GHz Alpha 8 Iwashita (Sep 2012) 21 21 3 2.67GHz

More information

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~

単位、情報量、デジタルデータ、CPUと高速化  ~ICT用語集~ CPU ICT mizutani@ic.daito.ac.jp 2014 SI: Systèm International d Unités SI SI 10 1 da 10 1 d 10 2 h 10 2 c 10 3 k 10 3 m 10 6 M 10 6 µ 10 9 G 10 9 n 10 12 T 10 12 p 10 15 P 10 15 f 10 18 E 10 18 a 10 21

More information

メモリ階層構造を考慮した大規模グラフ処理の高速化

メモリ階層構造を考慮した大規模グラフ処理の高速化 , CREST ERATO 0.. (, CREST) ERATO / 8 Outline NETAL (NETwork Analysis Library) NUMA BFS raph500, reenraph500 Kronecker raph Level Synchronized parallel BFS Hybrid Algorithm for Parallel BFS NUMA Hybrid

More information

OpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë

OpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë 2012 5 24 scalar Open MP Hello World Do (omp do) (omp workshare) (shared, private) π (reduction) PU PU PU 2 16 OpenMP FORTRAN/C/C++ MPI OpenMP 1997 FORTRAN Ver. 1.0 API 1998 C/C++ Ver. 1.0 API 2000 FORTRAN

More information

I I / 47

I I / 47 1 2013.07.18 1 I 2013 3 I 2013.07.18 1 / 47 A Flat MPI B 1 2 C: 2 I 2013.07.18 2 / 47 I 2013.07.18 3 / 47 #PJM -L "rscgrp=small" π-computer small: 12 large: 84 school: 24 84 16 = 1344 small school small

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

橡jttc2.PDF

橡jttc2.PDF 1 ( ) 1 GA GA GA MOGA (Multple-Objectve Genetc Algorthm) GA GA GA MOGA GA GA MOGA GA GA 3.1MOGA ( ) x x j f = f, f, 1 2 L, f q x x j x j f ( x ) f ( x ) f ( x ) f ( x ) L f ( x ) f ( x ) ( ) ( ) 1 1 j

More information

HP_PPT_Standard_16x9_JP

HP_PPT_Standard_16x9_JP Autodesk Simulation に最適 HP Z Workstation 最新情報 日本ヒューレット パッカード株式会社ワークステーション市場開発大橋秀樹 HP Workstation 軌跡 新 Z シリーズ初のモバイル製品 2008 年から日本でマーケットシェア No.1 Unix WS や独自グラフィックスなど開発実績

More information

Ver Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI

Ver Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI PowerEdge T630 Contents RAID /RAID & PCIe GPU OS V4.10 Mar.2018 P3-5 P6 P7 P8-9 P10-11 P12-16 P17-84 P85-90 P91-92 P93-95 P95 P96-97 P98-101 P102-105 P106-110 P110-111 P112-113 2018 3 30 2016 4 22 Ver.

More information

DELL PRECISION T7400 T5400 T3400 M6400 M4400 M2400 R5400 FX100 February /

DELL PRECISION T7400 T5400 T3400 M6400 M4400 M2400 R5400 FX100 February / DELL PRECISION T7400 T5400 T3400 M6400 M4400 M2400 R5400 FX100 February / 2009 www.dell.com/jp Dell Precision Workstation PC9No.1 CADCG PC 9No.1 Dell Precision IDC WW Quarterly Workstation Tracker 2007Q4

More information

FINAL PROGRAM 25th Annual Workshop SWoPP / / 2012 Tottori Summer United Workshops on Parallel, Distributed, and Cooperative Processing 2012

FINAL PROGRAM 25th Annual Workshop SWoPP / / 2012 Tottori Summer United Workshops on Parallel, Distributed, and Cooperative Processing 2012 FINAL PROGRAM 25th Annual Workshop SWoPP 2012 2012 / / 2012 Tottori Summer United Workshops on Parallel, Distributed, and Cooperative Processing 2012 8 1 ( ) 8 3 ( ) 680-0017 101-5 http://www.torikenmin.jp/kenbun/

More information

1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU.....

1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU..... CPU GPU N Q07-065 2011 2 17 1 1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU...........................................

More information

IPSJ SIG Technical Report Vol.2015-HPC-150 No /8/6 I/O Jianwei Liao 1 Gerofi Balazs 1 1 Guo-Yuan Lien Prototyping F

IPSJ SIG Technical Report Vol.2015-HPC-150 No /8/6 I/O Jianwei Liao 1 Gerofi Balazs 1 1 Guo-Yuan Lien Prototyping F I/O Jianwei Liao 1 Gerofi Balazs 1 1 Guo-Yuan Lien 1 1 1 1 1 30 30 100 30 30 2 Prototyping File I/O Arbitrator Middleware for Real-Time Severe Weather Prediction System Jianwei Liao 1 Gerofi Balazs 1 Yutaka

More information

Microsoft PowerPoint - suda.pptx

Microsoft PowerPoint - suda.pptx GPU の HWアーキテクチャと高性能化手法 須田礼仁 ( 東京大学 ) 2011/03/22 GPU 高性能プログラミング GPU のハードウェアを理解する CUDA のソフトウェアを理解する CUDA でプログラムを書くのは難しくないが, CUDA で高速なプログラムを書くのは難しい どうすれば遅くなるかを理解する! 効果が大きいものから順に説明します 1 高性能プログラミングの手順 1. 現在のコードの,

More information

OpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë

OpenMP¤òÍѤ¤¤¿ÊÂÎó·×»»¡Ê£±¡Ë 2011 5 26 scalar Open MP Hello World Do (omp do) (omp workshare) (shared, private) π (reduction) scalar magny-cours, 48 scalar scalar 1 % scp. ssh / authorized keys 133. 30. 112. 246 2 48 % ssh 133.30.112.246

More information

IPSJ SIG Technical Report Vol.2014-DBS-159 No.6 Vol.2014-IFAT-115 No /8/1 1,a) 1 1 1,, 1. ([1]) ([2], [3]) A B 1 ([4]) 1 Graduate School of Info

IPSJ SIG Technical Report Vol.2014-DBS-159 No.6 Vol.2014-IFAT-115 No /8/1 1,a) 1 1 1,, 1. ([1]) ([2], [3]) A B 1 ([4]) 1 Graduate School of Info 1,a) 1 1 1,, 1. ([1]) ([2], [3]) A B 1 ([4]) 1 Graduate School of Information Science and Technology, Osaka University a) kawasumi.ryo@ist.osaka-u.ac.jp 1 1 Bucket R*-tree[5] [4] 2 3 4 5 6 2. 2.1 2.2 2.3

More information

HPC pdf

HPC pdf GPU 1 1 2 2 1 1024 3 GPUGraphics Unit1024 3 GPU GPU GPU GPU 1024 3 Tesla S1070-400 1 GPU 2.6 Accelerating Out-of-core Cone Beam Reconstruction Using GPU Yusuke Okitsu, 1 Fumihiko Ino, 1 Taketo Kishi, 2

More information

Microsoft Word - vga

Microsoft Word - vga VGA Card Product name: ZH77A-G43 BIOS ver.: 1.0 搭配 SandyBridge CPU 測試 PCI Express VGA Card ATi GPU MSI V212-08S Radeon HD5450 512MB/GDDR3 Gen2,x16 012.017.000.000 MSI V234-07S Radeon HD5450 1024MB/GDDR3

More information

Ver. 3.7 Ver E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI,, HT,

Ver. 3.7 Ver E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI,, HT, PowerEdge T130 Contents RAID /RAID & PCIe OS P3-4 P5 P6 P6 P7 P8-9 P10-16 P17-19 P20 P20 P21-24 P25 P26-30 P30-31 P32-33 v3.7 Apr. 2017 2016 4 28 2016 4 22 Ver. 3.7 Ver. 1.1 +- E5-2630 v3 2.4GHz, 20M cache,

More information