2ndD3.eps

Size: px

Start display at page:

Download "2ndD3.eps"

きみおながだき
8 years ago
Views:

1 CUDA GPGPU 2012 UDX 12/5/24 p. 1

2 FDTD GPU FDTD GPU FDTD FDTD FDTD PGI Acceralator CUDA OpenMP Fermi GPU (Tesla C2075/C2070, GTX 580) GT200 GPU (Tesla C1060, GTX 285) PC GPGPU 2012 UDX 12/5/24 p. 2

3 FDTD CIP 1 PC / PC FPGA Cell/B.E. GPU MPI Verilog/HDL CUDA/OpenCL GPGPU 2012 UDX 12/5/24 p. 3

4 GPU NVIDIA CUDA OpenCL CUDA CPU/GPU GPU CPU/GPU FDTD (PGI Acceralator) CUDA OpenMP GPGPU 2012 UDX 12/5/24 p. 4

5 FDTD GPU FDTD GPU FDTD FDTD FDTD PGI Acceralator CUDA OpenMP Fermi GPU (Tesla C2075/C2070, GTX 580) GT200 GPU (Tesla C1060, GTX 285) PC GPGPU 2012 UDX 12/5/24 p. 5

6 FDTD FDTD FDTD (Finite-Difference Time-Domain) Maxwell 2 Maxwell E = B t H = J + D t 2 F(x, y, z, t) x = F n (i + 1 2,j,k) F n (i 1 2,j,k) Δx + O(Δx 2 ) for xyz 6 GPGPU 2012 UDX 12/5/24 p. 6

7 FDTD FDTD GPGPU 2012 UDX 12/5/24 p. 7

8 FDTD MPI/OpenMP GPU CUDA/OpenCL GPU GPU PCI Express GPGPU 2012 UDX 12/5/24 p. 8

9 GPU Host (CPU) CPU Over 10 GB/s Host memory PCI Express GB/s Control SP SP SP SP SP SP SP SP Registers SM/cache SP SP SP SP SP SP SP SP Registers SM/cache Device (GPU) SP SP SP SP SP SP SP SP Registers SM/cache Device memory MP GT200:30 MPs, 8 SPs Fermi: 16 MPs, 32 SPs Over 100 GB/s SP SP SP SP SP SP SP SP Registers SM/cache 5 GB/s Infiniband QDR GPGPU 2012 UDX 12/5/24 p. 9

10 GPU C2075 GTX 580 C1060 GTX 285 Number of cores GFLOPS (single) Memory (MB) Bandwidth (GB/s) SM/Caches (KB) 64 L1+SM, 768 L2 SM 16 Fermi 512 GT TFLOPS Core i7 100 GFLOPS 100 GB/s GPGPU 2012 UDX 12/5/24 p. 10

11 FDTD GPU GPU FDTD CUDA 1. CPU GPU 2. GPU CPU 3. CPU FDTD GPU GPU GPU C2075/C GPGPU 2012 UDX 12/5/24 p. 11

12 GPU CUDA/OpenCL CUDA/OpenCL C/C++ Fortran PGI CUDA Fortran OpenMP C/Fortran CUDA NVIDIA OpenACC PGI Acceralator OpenACC GPU CPU/GPU CUDA GPGPU 2012 UDX 12/5/24 p. 12

13 OpenMP FDTD 1: for (t = 0.0; t < Te; t += dt){ 2: #pragma omp parallel{ 3: // Ex 4: #pragma omp for private(i, j, k) 5: for (i = 0; i < Ni - 1; i++){ 6: for (j = 1; j < Nj - 1; j++){ 7: for (k = 1; k < Nk - 1; k++) { 8: Ex[i][j][k] = c1 * Ex[i][j][k] 9: + c2 * (Hz[i][j][k] - Hz[i][j - 1] 10: - Hy[i][j][k] + Hy[i][j][k - GPGPU 2012 UDX 12/5/24 p. 13

14 PGI Acceralator FDTD 1: #pragma acc data region copy(ex[0:ni][0:nj][0:nk]), 2: copyin(ey[0:ni][0:nj][0:nk], Ez[0:Ni][0:Nj] 3: Hx[0:Ni][0:Nj][0:Nk], Hy[0:Ni][0:Nj] 4: ep[0:ni][0:nj][0:nk], sig[0:ni][0:nj 5: { 6: for (t = 0.0; t < Te; t += dt){ 7: #pragma acc region 8: { 9: // Ex 10: #pragma acc for parallel 11: for (i = 0; i < Ni - 1; i++){ 12: #pragma acc for parallel, vector(256) 13: for (j = 1; j < Nj - 1; j++){ 14: #pragma acc for vector(512) 15: for (k = 1; k < Nk - 1; k++){ 16: Ex[i][j][k] = c1 * Ex[i][j][k] 17: + c2 * (Hz[i][j][k] - Hz[i][j - 1] 18: - Hy[i][j][k] + Hy[i][j][k - GPGPU 2012 UDX 12/5/24 p. 14

15 FDTD GPU FDTD GPU FDTD FDTD FDTD PGI Acceralator CUDA OpenMP Fermi GPU (Tesla C2075/C2070, GTX 580) GT200 GPU (Tesla C1060, GTX 285) PC GPGPU 2012 UDX 12/5/24 p. 15

16 1 Fermi GPU GPU Tesla C2075/C2070, Gefroce GTX 580 PGI Acceralator C/C++ Workstation 12.2 CUDA 4.0 CPU Intel Core i7 980X (3.33 GHz) gcc O3 OpenMP OS: 64 bit Linux (Ubuntu LTS server) GPGPU 2012 UDX 12/5/24 p. 16

17 256 3 J x 1.0 m E x CPU Exact CPU GPU Electric field Ex (V/m) Time (ns) GPGPU 2012 UDX 12/5/24 p. 17

18 CPU 8 CPU GPU GPU precision CPU t C1 (s) CPU t C8 (s) GPU t GD (s) t C8 /t GD GTX 580 float double C2075 float double Core i7 980X:10 GTX580:5 C2075:20 CPU 8 GTX 580: 10 9 C2075: 7 5 CPU 1 GTX 580: C2075: GPGPU 2012 UDX 12/5/24 p. 18

19 CUDA CUDA GPU precision GPU t GD (s) GPU t GC (s) t GC /t GD GTX 580 float double C2075 float double CUDA GTX 580: 31% 53% C2075: 40% 60% GPGPU 2012 UDX 12/5/24 p. 19

PC 320 480 320 CUDA 5000 GPU CPU t C1 (s) GPU t GD (s) GPU t GC (s) t C G /td G GTX 580

20 PC CUDA 5000 GPU CPU t C1 (s) GPU t GD (s) GPU t GC (s) t C G /td G GTX C GPGPU 2012 UDX 12/5/24 p. 20

21 (a) 3 ns later (b) 6 ns later (c) 9 ns later (d) (c) GPGPU 2012 UDX 12/5/24 p. 21

22 2 FDTD FDTD 1/10 GPU 5/29-31 GPGPU 2012 UDX 12/5/24 p. 22

23 4 FDTD FDTD 2 F(x, y, z, t) x F(x, y, z, t) t = F n (i + 1 2,j,k) F n (i 1 2,j,k) Δx = F n+ 1 2 (i, j, k) F n+ 1 2 (i, j, k) Δt + O(Δx 2 ) + O(Δt 2 ) FDTD(2,4) 4 2 F(x, y, z, t) = 9 F n (i + 1 2,j,k) F n (i 1 2,j,k) x 8 Δx 1 F n (i + 3 2,j,k) F n (i 3 2,j,k) + O(Δx 4 ) 24 Δx GPGPU 2012 UDX 12/5/24 p. 23

24 CPU 8 CPU GPU GPU precision CPU t H C8 (s) GPU th GD (s)gpu tf GD (s) th C8 /th GD GTX 580 float double C2075 float double CPU 8 GTX 580: 12 9 C2075: 7 6 FDTD GTX 580: C2075: GPGPU 2012 UDX 12/5/24 p. 24

25 CUDA CUDA GPU precision GPU t H GD (s)gpu th GC (s) th GC /th GD t F GC /tf GD GTX 580 float double C2075 float double CUDA GTX 580: 54 % 86 % C2075: 46 % 95 % GPGPU 2012 UDX 12/5/24 p. 25

26 3 GT 200 GPU GT 200 Geforce GTX 285 Tesla C1060 PGI Accelerator Workstation C/C CUDA 3.1 CPU Intel Core i7 980X (3.33 GHz) gcc O3 OpenMP GPGPU 2012 UDX 12/5/24 p. 26

27 CPU 8 CPU GPU GPU precision CPU t C1 (s) CPU t C8 (s) GPU t GD (s) t C8 /t GD GTX 285 float C1060 float C2070 float CPU 8 GTX 285: 3 C1060: 3 C2070: 5 GPGPU 2012 UDX 12/5/24 p. 27

28 CUDA CUDA GPU precision GPU t GD (s) GPU t GC (s) t GC /t GD GTX 285 float C1060 float C2070 float CUDA GTX 285: 20 % C1060: 20 % C2070: 32 % GPGPU 2012 UDX 12/5/24 p. 28

29 4 PC 2005 PC super computer SX-7 our PC cluster at Tohoku Univ. Pentium GHz 16 (NEC) (handmade) # of CPUs memory 1920 Gbyte 8 Gbyte job class max 32 CPU, 256 Gbyte 16 CPU, 8 Gbyte accounting 0.4 Y/sec 0 parallelize auto (sxcc Pauto ) Message Passing (MPI) GPGPU 2012 UDX 12/5/24 p. 29

30 PC PC FDTD computation time [s] architecture FDTD FDTD(2,4) NEC SX Pentium 4 2.8GHz C2075 (PGI 12.2) C2075 (CUDA 4.0) GPGPU 2012 UDX 12/5/24 p. 30

31 FDTD GPU Fermi GPU CPU 8 GTX C CUDA GTX % C % CUDA CUDA 50 % FDTD FDTD 1.2 CUDA 90 % GT 200 GPU CPU 8 3 CUDA 20 % NEC SX-7 C2075 1/4 GPGPU 2012 UDX 12/5/24 p. 31

32 X Maxwell Jun SONODA [email protected] GPGPU 2012 UDX 12/5/24 p. 32

33 1. FDTD H21 H22,23 Cell/B.E. FDTD Cell Challenge IPv6 PC H GPU H23 NTT H23 JST A-STEP H20 H22 H19 H21 GPGPU 2012 UDX 12/5/24 p. 33

34 1. GPGPU 2012 UDX 12/5/24 p. 34

35 FDTD (Finite-Difference Time-Domain) CIP (Constrained Interpolation Profile) FDTD CIP Maxwell FDTD CIP GPGPU 2012 UDX 12/5/24 p. 35

36 FDTD FDTD 2 [ ( )] 1 ωδt 2 [ vδt sin 1 = 2 Δζ sin ζ=x,y,z ( )] 2 k ζ Δζ GPGPU 2012 UDX 12/5/24 p. 36 2

37 Maximum dispersion error c 0 -c n /c 0 (%) Δ=λ/10 Δ=λ/20 Δ=λ/40 Δ=λ/60 Δ=λ/80 Δ=λ/ Propagation distance (λ) GPGPU 2012 UDX 12/5/24 p. 37

38 Δ=λ/m R = nλ 1.7 n e R 100 log(m) 1 (%) model Δ R e Rmax (%) e FDTD (%) by our eq. by FDTD 2-D λ/10 30λ λ/10 60λ λ/20 30λ λ/20 120λ D λ/10 15λ λ/10 30λ GPGPU 2012 UDX 12/5/24 p. 38

39 2 FDTD N =2,M =2 f(x) x = a a 1 3 f(x Δ) f(x 1 2 Δ) Δ f(x Δ) f(x 3 2 Δ) Δ + O(Δ 2 ) 2 FDTD a 1 k k Θ= β k = 2 Δ β (kδ kδ) 2 d(kδ) [a 1 ( sin kδ sin 3kΔ 2 π β π ) ] 3kΔ sin 2 GPGPU 2012 UDX 12/5/24 p. 39

40 2 FDTD β a 1 a 1 1. β a 1 2. a 1 k k a 1 Θ/ a 1 =0 ( ) ( 8 27 sin β 2 sin 3β 12β 9cos β 2 2 cos 3β 2 a 1 = 60β 90 sin β +18sin2β 2sin3β 6β 18 sin β +9sin2β 2sin3β + 60β 90 sin β +18sin2β 2sin3β ) GPGPU 2012 UDX 12/5/24 p. 40

41 10-1 Dispersion error e θφ Courant number FDTD(2,2) FDTD(2,4) Tam 1993 Wang 1996 Proposed 2 GPGPU 2012 UDX 12/5/24 p. 41

42 GPGPU 2012 UDX 12/5/24 p. 42

43 0.002 measurement measurement FDTD Opt.FDTD Electric field Ex[V/m] Electric field Ex [V/m] time [ns] FDTD time [ns] FDTD GPGPU 2012 UDX 12/5/24 p. 43

44 FDTD FDTD PC FPGA (Field-Programmable Gate Array) Cell Broadband Engine (Cell/B.E.) GPU (Graphics Processing Unit) FDTD CIP GPGPU 2012 UDX 12/5/24 p. 44

45 Cell/B.E. FDTD Cell/B.E. SONY IBM CPU PS3 PS3 Cell/B.E. 1 8 GPGPU 2012 UDX 12/5/24 p. 45

46 Main memory Main memory : SPE FDTD t t n +2 n +3/2 n +1 n +1/2 n SPE 2 SPE 1 n +2 n +3/2 n +1 n +1/2 n i 2 i 1 i 3/2 i 1/2 i i +1 i +2 i +1/2 i +3/2 z i 2 i 1 i 3/2 i 1/2 i i +1 i +2 i +1/2 i +3/2 i +5/2 z GPGPU 2012 UDX 12/5/24 p. 46

47 PS3 FDTD Speedup Ratio TSP Large TSP Small Parallel Large Parallel Small Ideal Number of SPE(s) Xeon 2.8GHz MacPro 10 GPGPU 2012 UDX 12/5/24 p. 47

48 PC PC PC SCore Clustermatic Los Alamos National Lab. Windows HPC Server 2008 (Microsoft ) OS Live Linux PC KNOPPIX PC DHCP GPGPU 2012 UDX 12/5/24 p. 48

49 IPv6 PC USB/CD/DVD 1 PC PC PC Live Linux USB/CD/DVD Linux IPv6 PC Live Linux OS PC PC GPGPU 2012 UDX 12/5/24 p. 49

HTTP-FUSE-KNOPPIX PC Live Linux USB/CD/DVD PC PC /home block file kernel magic packet NFS HTTP TFTP WOL PC 01 PC 02 PC 03 PC 04 PC n server client client

50 HTTP-FUSE-KNOPPIX PC Live Linux USB/CD/DVD PC PC /home block file kernel magic packet NFS HTTP TFTP WOL PC 01 PC 02 PC 03 PC 04 PC n server client client client client Live Linux HTTP-FUSE-KNOPPIX USB or CD for server system for client boot loader, kernel, blockfile PC PC Live Linux GPGPU 2012 UDX 12/5/24 p. 50

51 PC our system NFS_servr * [s] ratio [s] [s] 89.5 [s] # of PCs 1/2 GPGPU 2012 UDX 12/5/24 p. 51

52 IPv6 PC DHCP IP DHCP IPv6 MAC IP GPGPU 2012 UDX 12/5/24 p. 52

53 PC boot time [s] number of PCs IPv4 NFS IPv4 SSHFS IPv6 SSHFS IPv4 NFS GPGPU 2012 UDX 12/5/24 p. 53

54 NPB EP-D IPv4 NFS IPv6 SSHFS IPv4 SSHFS EP Class D[Mop/s] number of cores IPv4 NFS GPGPU 2012 UDX 12/5/24 p. 54

55 2. GPGPU 2012 UDX 12/5/24 p. 55

56 GPGPU 2012 UDX 12/5/24 p. 56

57 GPR (Ground Penetrating Radar) FDTD 1990 FDTD FPGA Cell/B.E. FDTD GPGPU 2012 UDX 12/5/24 p. 57

58 2D/3D air 0.1 m 1.0 m J y z y O x ground ε r =4.0 σ =0.001 S/m 0.1 m cylinder ε r =1.0 σ =0.0S/m GPGPU 2012 UDX 12/5/24 p. 58

59 2D 3D problem size 1024 x x 256 x 256 source line current point current pulse Gaussian ( 3dB width:0.5 ns) 2.5 x x/y +1.0 scan range (Δx =0.05 m) (Δx =Δy =0.1m) # of scannings ground ε r =4.0, σ =0.001 S/m cylinder ε r =1.0, σ =0.0S/m increments Δ=0.01 m, Δs = s # of time steps 3000 ABC 1st. Mur compiler CUDA 4.0 (gcc O3) GPGPU 2012 UDX 12/5/24 p. 59

60 GPU Geforce GTX PC 1 2 GPU 10 GPGPU 2012 UDX 12/5/24 p. 60

61 3 GPGPU 2012 UDX 12/5/24 p. 61

62 3 CPU/GPU CPU 980X x10 65 GTX 580 x10 30 GPGPU 2012 UDX 12/5/24 p. 62

63 FDTD X GPGPU 2012 UDX 12/5/24 p. 63

64 d 0 = L ε 1,μ 1 ε 2,μ 2 ε 1,μ 1 0 0th stage L x d 1 0 1st stage L x d 2 0 2nd stage L x GPGPU 2012 UDX 12/5/24 p. 64

65 Transmission coefficient (db) d / λ 1st 2nd 3rd ε 2 /ε 1 =4.0 Transmission coefficient (db) d / λ 3 layers 7 layers 15 layers GPGPU 2012 UDX 12/5/24 p. 65

66 0 peak 15-5 Q Minimum transmission (db) Q value stage number 0 GPGPU 2012 UDX 12/5/24 p. 66

67 20 Peak Q 1000 Maximum resonance (db) Q value stage number 10 GPGPU 2012 UDX 12/5/24 p. 67

68 SiO2-TiO nm GPGPU 2012 UDX 12/5/24 p. 68

69 1.2 1 Transmission measured FDTD d 2 /λ 2 GPGPU 2012 UDX 12/5/24 p. 69

70 1 6 GHz S21 FDTD GPGPU 2012 UDX 12/5/24 p. 70

71 ε r =2.25 GPGPU 2012 UDX 12/5/24 p. 71

72 FDTD Transmission coefficient (db) measured FDTD Frequency (GHz) GPGPU 2012 UDX 12/5/24 p. 72

73 LLS FDTD 3 MW-FDTD PC PC GPGPU 2012 UDX 12/5/24 p. 73

74 MW-FDTD Moving Window FDTD MW-FDTD FDTD MW-FDTD MW-FDTD LLS GPGPU 2012 UDX 12/5/24 p. 74

75 3 MW-FDTD PC MW-FDTD 4 MW-FDTD F=1/16 FDTD 47 1/64 FDTD 20 1/16 GPGPU 2012 UDX 12/5/24 p. 75

76 地形モデルによる雷放電電磁界解析ツールで始める GPGPU 2012 春秋葉原 UDX 12/5/24 p. 76

77 GPU(Graphics Processing Unit) GPGPU 2012 UDX 12/5/24 p. 77

78 SfM FDTD FDTD SfM (Structure from Motion) FDTD GPGPU 2012 UDX 12/5/24 p. 78

79 AR による電波環境の現実的可視化 FDTD 法計算結果は電磁界 6 成分の時間応答計算結果を分かりやすく表示 AVS 等の 3 次元可視化ソフト高コスト現実感なし AR (Augmented Reality) 技術実際の映像上に人工物をマッピングする技術 AR によるポインティングベクトル分布の可視化ツールで始める GPGPU 2012 春秋葉原 UDX 12/5/24 p. 79

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla