GPU CUDA CUDA 2010/06/28 1

Size: px

Start display at page:

Download "GPU CUDA CUDA 2010/06/28 1"

としみちとく
5 years ago
Views:

1 GPU CUDA CUDA 2010/06/28 1

2 GPU NVIDIA Mark Harris, Optimizing Parallel Reduction in CUDA compute/cuda/1_1/website/data- Parallel_Algorithms.html#reduction CUDA SDK reduction 2010/06/28 2

3 /work/nmaruyam/gpu-tutorial/reduction CUDA SDK $ cp r /work/nmaruyam/gpu-tutorial/reduction ~ $ cd ~/reduction $ cd projects/reduction $ make $ cd../.. $./bin/linux/release/reduction 2010/06/28 3

4 GPU /06/28 4

5 log(n) CUDA /06/28 5

6 FLOPS TSUBAME Tesla GPU (S1070): 102 GB/s 2010/06/28 6

7 Reduction #1 global void reduce0(int *g_idata, int *g_odata) { extern shared int sdata[]; // unsigned int tid = threadidx.x; unsigned int i = blockidx.x*blockdim.x + threadidx.x; sdata[tid] = g_idata[i]; syncthreads(); // for(unsigned int s=1; s < blockdim.x; s *= 2) { if (tid % (2*s) == 0) { sdata[tid] += sdata[tid + s]; syncthreads(); // if (tid == 0) g_odata[blockidx.x] = sdata[0]; 2010/06/28 7

8 Values (shared memory) Step 1 Stride 1 Step 2 Stride 2 Step 3 Stride 4 Step 4 Stride 8 IDs Values IDs Values IDs Values IDs Values /06/28 8

9 Kernel ms 4.77 GB/s 4.6 % TSUBAME S1070 GPU 2010/06/28 9

10 # global void reduce0(int *g_idata, int *g_odata) { extern shared int sdata[]; // unsigned int tid = threadidx.x; unsigned int i = blockidx.x*blockdim.x + threadidx.x; sdata[tid] = g_idata[i]; syncthreads(); // for(unsigned int s=1; s < blockdim.x; s *= 2) { if (tid % (2*s) == 0) { sdata[tid] += sdata[tid + s]; syncthreads(); % // if (tid == 0) g_odata[blockidx.x] = sdata[0]; 2010/06/28 10

11 CUDA C/Fortran if, while, for, do-while GPU CPU 2010/06/28 11

12 CUDA 2010/06/28 12

13 Time Mask Warp T T T T T T T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 13

14 Time Mask Warp T T T T T T T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 14

15 Time Mask Warp T T T T T T T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 15

16 Time Mask Warp T T T T T T T T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 16

17 Time Mask Warp T T F T F F T T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 17

18 Time Mask Warp T T F T F F T T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 18

19 Time Mask Warp T T F T F F T T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 19

20 Time Mask Warp F F T F T T F T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 20

21 Time Mask Warp F F T F T T F T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 21

22 Time Mask Warp F F T F T T F T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 22

23 Time Mask Warp T T T T T T T T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 23

24 Time Mask Warp F F T F T T F T T F T F F T x = z - k; if (x > 0) { t = y * x a; else { s = y * y; t = 2 * x + a; s = x * y; a[i] = t * s; 2010/06/28 24

25 #2 for (unsigned int s=1; s < blockdim.x; s *= 2) { if (tid % (2*s) == 0) { sdata[tid] += sdata[tid + s]; syncthreads(); for (unsigned int s=1; s < blockdim.x; s *= 2) { int index = 2 * s * tid; if (index < blockdim.x) { sdata[index] += sdata[index + s]; syncthreads(); 2010/06/28 25

26 #2 Values (shared memory) Step 1 Stride 1 Step 2 Stride 2 Step 3 Stride 4 Step 4 Stride 8 IDs Values IDs Values IDs Values IDs Values /06/28 26

27 % MAX Kernel ms 4.77 GB/s Kernel ms 10.4 GB/s 4.6 % 10.1 % 2.2x 2.2x 2010/06/28 27

28 #2 Values (shared memory) 2 Step 1 Stride 1 4 Step 2 Stride 2 8 Step 3 Stride 4 16 Step 4 Stride 8 IDs Values IDs Values IDs Values IDs Values /06/28 28

29 2010/06/28 29

30 GPU 1 CUDA Bank 0 Bank 1 Bank 2 Bank 3 Bank 4 Bank 5 Bank 6 Bank 7 Bank /06/28 30

31 No Bank Conflicts Linear addressing stride == 1 Bank 0 Bank 1 Bank 2 Bank 3 Bank 4 Bank 5 Bank 6 Bank 7 No Bank Conflicts Random 1:1 Permutation Bank 0 Bank 1 Bank 2 Bank 3 Bank 4 Bank 5 Bank 6 Bank 7 15 Bank Bank /06/28 31

32 2-way Bank Conflicts Linear addressing stride == 2 Bank 0 Bank 1 Bank 2 Bank 3 Bank 4 Bank 5 Bank 6 Bank 7 Bank 15 8-way Bank Conflicts Linear addressing stride == 8 x8 x8 Bank 0 Bank 1 Bank 2 Bank 7 Bank 8 Bank 9 Bank /06/28 32

33 Values (shared memory) Step 1 Stride 8 Step 2 Stride 4 Step 3 Stride 2 Step 4 Stride 1 IDs Values IDs Values IDs Values IDs Values /06/28 33

34 # for (unsigned int s=1; s < blockdim.x; s *= 2) { int index = 2 * s * tid; if (index < blockdim.x) { sdata[index] += sdata[index + s]; syncthreads(); for (unsigned int s=blockdim.x/2; s>0; s>>=1) { if (tid < s) { sdata[tid] += sdata[tid + s]; syncthreads(); 2010/06/28 34

35 % MAX Kernel ms 4.77 GB/s Kernel ms 10.4 GB/s Kernel ms 20.7 GB/s 4.6 % 10.1 % 2.2x 2.2x 20.2 % 2.0x 4.3x 2010/06/28 35

36 2010/06/28 36

37 #3 for (unsigned int s=blockdim.x/2; s>0; s>>=1) { if (tid < s) { sdata[tid] += sdata[tid + s]; syncthreads(); /06/28 OK 37

38 #4 1 // unsigned int tid = threadidx.x; unsigned int i = blockidx.x*blockdim.x + threadidx.x; sdata[tid] = g_idata[i]; syncthreads(); // 2 // unsigned int tid = threadidx.x; unsigned int i = blockidx.x*(blockdim.x*2) + threadidx.x; sdata[tid] = g_idata[i] + g_idata[i+blockdim.x]; syncthreads(); 2010/06/28 38

39 % MAX Kernel ms 4.77 GB/s Kernel ms 10.4 GB/s Kernel ms 20.7 GB/s Kernel ms 36.0 GB/s 4.6 % 10.1 % 2.2x 2.2x 20.2 % 2.0x 4.3x 35.2 % 1.7x 7.5x 35% 2010/06/28 39

40 for (unsigned int s=blockdim.x/2; s>32; s>>=1) { if (tid < s) { sdata[tid] += sdata[tid + s]; syncthreads(); if (tid < 32) { sdata[tid] += sdata[tid + 32]; sdata[tid] += sdata[tid + 16]; sdata[tid] += sdata[tid + 8]; sdata[tid] += sdata[tid + 4]; sdata[tid] += sdata[tid + 2]; sdata[tid] += sdata[tid + 1]; 6 syncthreads() 2010/06/28 40

41 % MAX Kernel ms 4.77 GB/s Kernel ms 10.4 GB/s Kernel ms 20.7 GB/s Kernel ms 36.0 GB/s Kernel ms 58.1 GB/s 4.6 % 10.1 % 2.2x 2.2x 20.2 % 2.0x 4.3x 35.2 % 1.7x 7.5x 57.0 % 1.7x 12.5x 2010/06/28 41

42 for (unsigned int s=blockdim.x/2; s>32; s>>=1) { if (tid < s) { sdata[tid] += sdata[tid + s]; syncthreads(); if (tid < 32) { sdata[tid] += sdata[tid + 32]; sdata[tid] += sdata[tid + 16]; sdata[tid] += sdata[tid + 8]; sdata[tid] += sdata[tid + 4]; sdata[tid] += sdata[tid + 2]; sdata[tid] += sdata[tid + 1]; 512 s 64, 128, /06/28 42

43 #6 if (blocksize >= 512) { if (tid < 256) { sdata[tid] += sdata[tid + 256]; syncthreads(); if (blocksize >= 256) { if (tid < 128) { sdata[tid] += sdata[tid + 128]; syncthreads(); if (blocksize >= 128) { if (tid < 64) { sdata[tid] += sdata[tid + 64]; syncthreads(); if (tid < 32) { if (blocksize >= 64) sdata[tid] += sdata[tid + 32]; if (blocksize >= 32) sdata[tid] += sdata[tid + 16]; if (blocksize >= 16) sdata[tid] += sdata[tid + 8]; if (blocksize >= 8) sdata[tid] += sdata[tid + 4]; if (blocksize >= 4) sdata[tid] += sdata[tid + 2]; if (blocksize >= 2) sdata[tid] += sdata[tid + 1]; 2010/06/28 43

44 % MAX Kernel ms 4.77 GB/s 4.6 % Kernel ms 10.4 GB/s 10.1 % 2.2x 2.2x Kernel ms 20.7 GB/s 20.2 % 2.0x 4.3x Kernel ms 36.0 GB/s 35.2 % 1.7x 7.5x Kernel ms 58.1 GB/s 57.0 % 1.7x 12.5x Kernel ms 66.2 GB/s 65.0 % 1.13x 14.0x 2010/06/28 44

45 template <unsigned int blocksize> global void reduce6(int *g_idata, int *g_odata, unsigned int n) { extern shared int sdata[]; unsigned int tid = threadidx.x; unsigned int i = blockidx.x*(blocksize*2) + tid; unsigned int gridsize = blocksize*2*griddim.x; sdata[tid] = 0; while (i < n) { sdata[tid] += g_idata[i] + g_idata[i+blocksize]; i += gridsize; syncthreads(); if (blocksize >= 512) { if (tid < 256) { sdata[tid] += sdata[tid + 256]; syncthreads(); if (blocksize >= 256) { if (tid < 128) { sdata[tid] += sdata[tid + 128]; syncthreads(); if (blocksize >= 128) { if (tid < 64) { sdata[tid] += sdata[tid + 64]; syncthreads(); if (tid < 32) { if (blocksize >= 64) sdata[tid] += sdata[tid + 32]; if (blocksize >= 32) sdata[tid] += sdata[tid + 16]; if (blocksize >= 16) sdata[tid] += sdata[tid + 8]; if (blocksize >= 8) sdata[tid] += sdata[tid + 4]; if (blocksize >= 4) sdata[tid] += sdata[tid + 2]; if (blocksize >= 2) sdata[tid] += sdata[tid + 1]; 1 if (tid == 0) g_odata[blockidx.x] = sdata[0]; 45

46 % MAX Kernel ms 4.77 GB/s 4.6 % Kernel ms 10.4 GB/s 10.1 % 2.2x 2.2x Kernel ms 20.7 GB/s 20.2 % 2.0x 4.3x Kernel ms 36.0 GB/s 35.2 % 1.7x 7.5x Kernel ms 58.1 GB/s 57.0 % 1.7x 12.5x Kernel ms 66.2 GB/s 65.0 % 1.13x 14.0x Kernel ms 76.1 GB/s 74.6 % 1.14x 16.0x 2010/06/28 46

47 CUDA CUDA CUI GUI CUI CUDA_PROFILE 1 CUDA_Profiler.txt GUI ssh -Y $ export LD_LIBRARY_PATH=/opt/cuda2.3/cudaprof/bin:$LD_LIBRARY_PATH $ export PATH=/opt/cuda2.3/cudaprof/bin:$PATH $ cudaprof 2010/06/28 47

untitled

untitled CUDA Vol II: CUDA : NVIDIA Q2 2008 CUDA...1 CUDA...3 CUDA...16...40...63 CUDA CUDA ( ) CUDA 2 NVIDIA Corporation 2008 2 CUDA CUDA GPU GPU CPU NVIDIA Corporation 2008 4 V V d call put 1 2 = S CND( d ) X