GPU.....

Size: px

Start display at page:

Download "1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU....."

あいりかいじ
9 years ago
Views:

1 CPU GPU N Q

2 GPU GPU CPU CUDA CUDA CUDA CUDA CUDA CUDA N N Runge-Kutta N

...................... 6 2.3........................................ 6 3 9 3.1 CUDA........................... 9 3.2 CUDA................................ 10 3.3.................................... 11 4 12 4.

3 GPU

4 1 1.1 GPU Graphics Processing Unit 3D GPU GPU GPU CPU 1.2 CPU CPU GPU N n m n+m-1 N*N N N N N 4 Runge-Kutta CPU GPU C CUDA C CPU CUDA GPU 1.3 1: OS CPU GPU GPU einstein Vine Linux5.1 64bit Core2 Quad Q GHz 8GB GTX285 1GB 240 einstein 4

5 2 GPU CUDA 2.1 GPU GPU GPU Graphics Processing Unit 3D GPU GPU GeForce GTX [1] GFLOPS CPU Core2 Quad CPU Q9650 [2] 48GFLOPS 22 DirectX /20 NVIDIA CUDA AMD ATI Stream GPGPU CPU CPU 3000 CPU CPU GPU CPU GPU GPU CPU GPU GPU CPU GPU A NVIDIA Tesla M D GPU 5

72GFLOPS CPU Core2 Quad CPU Q9650 [2] 48GFLOPS 22 DirectX 9.

6 2.2 CUDA CUDA NVIDIA GPU C CUDA GPU NVIDIA OS Windows XP,Vista,7/Fedora 7 /OpenSUSE 10.1 /Ubuntu 7.04 /Mac OS X Windows CUDA Microsoft Visual Studio(Visual C++) Visual Studio Express Edition Microsoft Web toolkit rc.html Linux 64bit CUDA GPU CUDA GPU CUDA CUDA Adobe Photoshop CS4 (Adobe) PowerDirector (CyberLink) VideoStudio Pro X3 (COREL) LoiLo- Touch (LoiLo) NVIDIA Badaboom Media Converter MediaCoder CUDA Mathematica Ver

7 A1 Z100 A Z A1 B1 C1 Y100 Z100 1: A Z, A Z, A Z A1 A2 A3 A100 B1 B2 B3 B100 C1 C2 C3 C100 Z1 Z2 Z3 Z100 2: 7

8 A1 B1 C1 Z1 A2 B2 C2 Z2 A3 B3 C3 Z3 A100 B100 C100 Z100 3: A Z A2 A1 2 8

9 3 3.1 CUDA GPU CUDA 3 2 4: CUDA ( NVIDIA CUDA )[3] 4 Host(CPU) Kernel(GPU ) Device(GPU) 4 Block(0,0) Thread(0,0)

10 3.2 CUDA GPU CUDA CPU GPU GPU 5: CUDA ( NVIDIA CUDA )[3] 10

11 3.3 11

12 4 4.1 CPU GPU n m n+m-1 N*N = = (4.1) CUDA Interface [4] (CQ_CUDA_matrix) download/contents.htm ( ) (CPU) 1 #include <stdio.h> 2 #include <cutil.h> 3 4 // 5 #define BLOCK 16 6 #define WIDTH : 8 // 9 void Host(float *a, float *b, float *c); 10 global void Kernel1(float *A, float *B, float *C); 11 global void Kernel2(float *A, float *B, float *C); // 14 float h_a[width*width]; 15 float h_b[width*width]; 16 float h_c[width*width]; 17 12

13 18 // 19 int main() 20 { 21 int i; 22 unsigned int timer; // G P U 25 CUT_DEVICE_INIT (); // G P U (1) 28 float *d_a, *d_b, *d_c; 29 cudamalloc(( void**) &d_a, sizeof(float)* WIDTH*WIDTH); 30 cudamalloc(( void**) &d_b, sizeof(float)* WIDTH*WIDTH); 31 cudamalloc(( void**) &d_c, sizeof(float)* WIDTH*WIDTH); 32 cudamemset(d_c, 0, sizeof(float)* WIDTH*WIDTH); // 35 for(i=0; i<width*width; i++){ 36 h_a[i]=( float)i; 37 h_b[i]=( float)i; 38 } // G P U (2) 42 cudamemcpy(d_a, h_a, sizeof(float)* WIDTH*WIDTH, cudamemcpyhosttodevice); 43 cudamemcpy(d_b, h_b, sizeof(float)* WIDTH*WIDTH, cudamemcpyhosttodevice); // (3) 46 dim3 grid(width/block, WIDTH/BLOCK, 1); 47 dim3 threads(block, BLOCK, 1); // (4) 50 Kernel1 <<< grid, threads >>>(d_a, d_b, d_c); 51 // Kernel2 <<< grid, threads >>>(d_a, d_b, d_c); // (5) 54 cudamemcpy(h_c, d_c, sizeof(float)* WIDTH*WIDTH, cudamemcpydevicetohost); printf(" G P U = %f\n",h_c[width*width -1]); // G P U (6) 59 cudafree(d_a); 60 cudafree(d_b); 61 cudafree(d_c); // 64 Host(h_a, h_b, h_c); 65 printf(" = %f\n",h_c[width*width -1]); } CUDA (GPU) (GPU) (CPU) (CPU) (GPU) (CPU) (GPU) 13

$for(i=0; i<width*width; i++){ 36 h_a[i]=( float)i; 37 h_b[i]=( float)i; 38 } 39 40 41 // G P U (2) 42 cudamemcpy(d_a, h_a, sizeof(float)* WIDTH*WIDTH, cudamemcpyhosttodevice); 43 cudamemcpy(d_b, h_b,$

14 (GPU) (1)GPU GPU (2) (GPU) (CPU) (1) (GPU) (3) WIDTH*WIDTH WIDTH*WIDTH (4) (2) (5) (4) (6)GPU (1) (GPU) 2: ( ) 1 global void Kernel1(float *A, float *B, float *C) 2 { 3 // G P U 4 int x=blockidx.x* blockdim.x + threadidx.x;(1) 5 int y=blockidx.y* blockdim.y + threadidx.y;(2) 6 float tmp=0.0; 7 8 for(int k=0; k<width; k++){ 9 int row=k+y*width; 10 int col=x+k*width; 11 tmp+=a[row]*b[col]; 12 } C[x+y*WIDTH]=tmp; 15 } (1),(2) x,y Id blockidx 2 (2,5) blockidx.x=2,blockidx.y=5 blockdim x,y threadidx blockidx 3: ( ) 14

15 1 global void Kernel2(float *A, float *B, float *C) 2 { 3 // G P U 4 int bx = blockidx.x; 5 int by = blockidx.y; 6 int tx = threadidx.x; 7 int ty = threadidx.y; 8 float tmp = 0; 9 10 shared float As[BLOCK][ BLOCK ];(1) 11 shared float Bs[BLOCK][ BLOCK ];(2) for (int a = 0, b = 0 ; a < WIDTH; a += BLOCK, b += BLOCK) { int a_adr = WIDTH * BLOCK * by + a; 16 int b_adr = BLOCK * bx + WIDTH * b; As[ty][tx] = A[a_adr + WIDTH*ty + tx]; 19 Bs[ty][tx] = B[b_adr + WIDTH*ty + tx]; 20 syncthreads ();(3) for (int k = 0; k < BLOCK; k++) { 23 tmp += As[ty][k] * Bs[k][tx]; 24 } 25 syncthreads (); 26 } int adr = WIDTH * BLOCK * by + BLOCK * bx; 29 C[adr + WIDTH * ty + tx] = tmp; } (1),(2) Id (3) CUDA CUDA G_ global_ G_ shared_ 1 G_ global G_ shared 15

$* by + a; 16 int b_adr = BLOCK * bx + WIDTH * b; 17 18 As[ty][tx] = A[a_adr + WIDTH*ty + tx]; 19 Bs[ty][tx] = B[b_adr + WIDTH*ty + tx]; 20 syncthreads ();(3) 21 22 for (int k = 0; k < BLOCK; k++) {$

16 6,7 2: 16 7, , , ,177, ,488, ,173, ,146,435,072 6: 6 CPU GPU 1 N= ( ) 16 N= ( ) 16

17 7: 7 CPU GPU 1 N= ( ) 16 N= ( ) 6, GPU_ global GPU_ shared N=16 CPU GPU CPU GPU N=256 17

18 FLOPS MFlops CPU GPU_global GPU_shared E E E E E E E E E E+12 8: 4.4 GPU CPU GPU 18

00E+05 1.00E+06 1.00E+07 1.00E+08 1.00E+09 1.

19 5 N 5.1 N N N 3 N 9: N N

20 F m a F F M m r M m m d2 r Mm = G dt2 r (5.1) 2 G (5.1) N n i m i m i d 2 r i dt 2 = n j=1 G m im j (5.2) ri 2 j r i j i j i j i, j = 1, 2, 3,, n x, y, z x, y, z m i d 2 x i dt 2 m i d 2 y i dt 2 m i d 2 z i dt 2 = n j=1 = n j=1 = n j=1 G m im j r 2 i j G m im j r 2 i j G m im j r 2 i j x i j r i j (5.3) y i j r i j (5.4) z i j r i j (5.5) x, y, z, r x i j = x j x i (5.6) y i j = y j y i (5.7) z i j = z j z i (5.8) r = (x j x i ) 2 + (y j y i ) 2 + (z j z i ) 2 (5.9) x, y, z 20

n j=1 = n j=1 G m im j r 2 i j G m im j r 2 i j G m im j r 2 i j x i j r i j (5.3) y i j r i j (5.4) z i j r i j (5.

21 m i d 2 x i dt 2 m i d 2 y i dt 2 m i d 2 z i dt 2 n = m i m j (x j x i ) G ( (5.10) (x j x i ) 2 + (y j y i ) 2 + (z j z i ) 2 ) 3 j=1 n = m i m j (y j y i ) G ( (5.11) (x j x i ) 2 + (y j y i ) 2 + (z j z i ) 2 ) 3 j=1 n = m i m j (z j z i ) G ( (5.12) (x j x i ) 2 + (y j y i ) 2 + (z j z i ) 2 ) 3 j=1 5.3 Runge-Kutta Runge-Kutta Runge-Kutta Euler 1 x 2 Runge-Kutta dy dx = f (x, y) (5.13) (x n, y n ) x n+1 = x n + x y n+1 y n+1 = y n (k 1 + k 2 ) (5.14) k 1 = x f (x n, y n ) k 2 = x f (x n + x, y n + k 1 ) 21

22 y k 2 k 1 x n x n +Δx/2 x n +Δx x 10: 2 Runge-Kutta k 1 x n y n+1 k 2 k 1 2 O(( x) 3 ) 2 y n Runge-Kutta y n+1 = y n + s b i k i (5.15) i=1 k i = x f (x n + c i x, y n + s a i j k j ) j=1 a i j, b i, c i s 4 Runge-Kutta k 1 = x f (x n, y n ) k 2 = x f (x n + x 2, y n k 1) k 3 = x f (x n + x 2, y n k 2) k 4 = x f (x n + x, y n + k 3 ) y n+1 = y n (k 1 + 2k 2 + 2k 3 + k 4 ) (5.16) 22

23 y k 4 k 3 k 2 k 1 x n x n +Δx/2 x n +Δx x 11: 4 Runge-Kutta x n x k 1, k 2, k 3, k 4 O(( x) 5 ) 2 Runge-Kutta Runge-Kutta 1 2 (5.10)(5.11)(5.12) 2 1 (5.10)(5.11)(5.12) dx dt m i dv x dt dy dt m i dv y dt dz dt m i dv z dt = V x (5.17) = n m i m j (x j x i ) G ( (x j x i ) 2 + (y j y i ) 2 + (z j z i ) 2 ) 3 (5.18) j=1 = V y (5.19) = n m i m j (y j y i ) G ( (x j x i ) 2 + (y j y i ) 2 + (z j z i ) 2 ) 3 (5.20) j=1 = V z (5.21) = n m i m j (z j z i ) G ( (x j x i ) 2 + (y j y i ) 2 + (z j z i ) 2 ) 3 (5.22) j=1 1 Runge-Kutta 23

24 5.4 N global_ GPU shared_ GPU N=256,1024,4096 1,10,100,1000,10000 dt 0.01 t t N 12: N CPU N= N= N 24

25 256 体 1024 体 4096 体 13: N CPU N= N= N= NVIDIA GPU IEEE754 IEEE754 CPU IEEE754 CPU GPU GPU [6] [7] NVIDIA GPU GPU IEEE 0.5ulp CPU ulp Units in the Last Place NVIDIA GPU Add Multiple CPU CUDA fadd rn(x,y) fmul rn(x,y) dadd rn(x,y) 25

26 dmul rn(x,y) CPU rn Round Nearest IEEE754 GPU N CPU GPU

27 6 6.1 GPU 3D GPU GPU GPU 6.2 N CPU 3000 N CPU CUDA CPU GPU 27

28 [1] Mike Thomas,Steve McBarnes GPUReview ) [2] Intel Intel Support Home ) [3] NVIDIA CUDA Ver1.1 CUDA Programming Guide 1. 1 JPN.pdf(2010/12/19 ) [4] CQ Interface ) [5] CUDA GPU ) [6] NVIDIA CUDA Information Site BE%E5%BA%A6%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6(2010/1/21 ) [7] NVIDIA CUDA Ver2.3-Appendix C 3/toolkit/docs/ NVIDIA CUDA Programming Guide 2.3.pdf(2010/1/21 ) [8] [9] CUDA( ) 28

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia