2/66

Size: px

Start display at page:

Download "2/66"

あかりしのしま
7 years ago
Views:

1 1/66 9 Outline CPU 5. Jun. 13, 2013@A

2 2/66

3 3/66

4 4/66 Network Memory Memory Memory CPU SIMD if Cache CPU Cache CPU Cache CPU

5 5/66 FPU FPU Floating Processing Unit Register Register Register Register CPU L1 L2 Memory FPU CPU L1L CPU (GB/s) (B/F)

6 Byte/Flop Byte / Flop (Byte/s) (FLOPS) B/F 6/66 B/F = B/F (64bit) = 8 Byte = 16 Byte = 8 Byte. 24Byte B/F = B/F 0.5 C = A*B 2% CPU

7 (1/2) 7/66 ( ) TLB (Translation Lookaside Buffer)

8 (2/2) 8/66 F90 allocate C new malloc real*8, allocatable :: work(:) allocate (work(10000)) do i=1, work(i) = i end do (First touch ) OS Linux (?)

9 NUMA (1/2) 9/66 NUMA (Non-Uniform Memory Access) CPU NUMA System B NUMA Fast access Memory Memory Memory CPU QPI CPU Memory Memory Memory Slow access latency

10 NUMA (2/2) 10/66 OpenMP CPU Touch CORE CORE CORE CORE QPI CORE CORE CORE CORE OpenMP root OpenMP ( ) OpenMPtouch NUMA

11 RISC CISC CPU(1/2) 11/66 CPU RISC CISC CISC: if Intel Xeon, AMD Opteron RISC: IBM POWER, SPARC(SPARC VIIIfx) CISC RISC Intel SIMD CPU SIMD (8 ) FX10 (16 ) IBM POWER6 (32 ) SGI Altix ICE(4 2) SIMD (Xeon Phi)

12 CPU (2/2) CPU DC SH-4 PS2 MIPS (Emotion Engine) GC IBM PowerPC (Gekko) Xbox Intel Celeron (PenIII ) 12/66 Wii IBM PowerPC Xbox 360 IBM PowerPC PS3 IBM Cell 3.2

13 (1/3) 13/66 fadd fp2,fp0,fp1 # fp2 fp0 + fp1 fadd fp4,fp2,fp3 # fp4 fp2 + fp3 fadd fadd fp2,fp0,fp1 fp4,fp2,fp3 (fp2 )

14 (2/3) 14/66 fadd fadd fadd fp2,fp0,fp1 (A) fp5,fp3,fp4 (B) fp8,fp3,fp7 (C) (A) 1 (A) (B) 1 (A) 2 (C) 1 (B) 2 (A) 3 (D) 1 (C) 2 (B) 3 (A) 4 (E) 1 (D) 2 (C) 3 (B) 4 (A) 5 (F) 1 (E) 2 (D) 3 (C) 4 (D) 4 (B) 5 (C) 5 (A) 6 (B) 6 (A) (B) () 1

15 (3/3) 15/66 Load/StoreIPC 4 faddd fp2,fp0,fp1 fmuld fp3,fp1,fp4 (fp2 )

16 ( ) fmaddd, fmsubd 16/66 X = A*B+C Y = A*B-C fmaddd fp0,fp1,fp2,fp3 # fp0 fp1*fp2+fp3 fmsubd fp0,fp1,fp2,fp3 # fp0 fp1*fp2+fp3 ( )1 1

17 SIMD SIMD Single Instruction Multiple Data SIMD fmadd,s X1 = A1*B1+C1, X2 = A2*B2+C2 fmsub,s X1 = A1*B1-C1, X2 = A2*B2-C2 17/66 fmadd,s 4 4 * 2 * 2 GHz = 16GFlops ( ) fmaddd,s fmsubd,s

18 A +B A-B A*B+C A-B A1*B1+ C1 A*B-C A2*B2+ C2 A +B A*B-C A1*B1+ C1 A1*B1+ C1 A*B+C A-B A2*B2+ C2 A2*B2+ C2 18/66 (Intel)

19 19/66 ( ) CPU SIMD CPU SIMD SIMD (-S fmadd,s grep)

20 20/66

21 ( ) 21/66 (80:20 )

22 Sampler 22/66 Sampler CPU ( )

23 (Sampler ) 23/66 Subroutine A push A Subroutine A pop ( 1 ) C A B B B D Subroutine C Subroutine A Subroutine B Subroutine B Call C Subroutine B Subroutine D

24 gprof (sampler) (Mac ) $ gcc -pg test.cc $./a.out $ ls a.out gmon.out test.cc $ gprof a.out gmon.out gprof 24/66 Flat profile: Each % time Each sample counts as 0.01 seconds. % cumulative self self total time seconds seconds calls ms/call ms/call name matmat() global constructors keyed to A static_initialization_and_destruction_0(int, int) init() matvec() vecvec()

25 (Sampler ) 25/66 80%

26 Hardware Counter ( ) CPU (Intel VTune ) 26/66

27 Profile (HW Counter) OpenMP OpenMP ( ) ( ) A=B+C D=A*E () 27/66 SIMD software pipelining

28 28/66

29 29/66

30 1 (1/2) 30/66 int GridParticleNumber[4]; int GridParticleIndex[4][10]; GridParticleIndex

31 1 (2/2) / ( ) ( )

32 (1/2) key partner 32/66 Key Partner Key Partner (48Byte) (48Byte) 50 B/F 2.0 ( )

33 (2/2) 33/66 Key Partner Key Key Partner Sorted Partner Key Partner

34 (1/2) 34/

35 (2/2) 35/66 L2 Cache (256 KB) L3 Cache (8 MB)

36 (1/2) Partner (j ) Key (i ) Partner DO i=1,n ptemp = 0 DO j in Pair(I) f = CalcForce(I,J) ptemp = ptemp + f*dt p[j] = p[j] - f *dt ENDDO p[i] = p[i] +ptemp ENDDO i ( ) j () i 36/66 j j

37 (2/2) Key Partner / DO i=1,n ptemp = 0 DO j in Pair(I) f = CalcForce(I,J) ptemp = ptemp + f*dt //p[j] = p[j] - f *dt j ENDDO p[i] = p[i] +ptemp ENDDO

38 PC CPU CPU 38/66

39 39/66 CPU

40 CPU 40/66 PC Intel CPU RISC

41 (1/2) 41/66 void calcforce(void){ for(int i=0;i<n-1;i++){ for(int j=i+1;j<n;j++){ const double dx = q[j][x] - q[i][x]; const double dy = q[j][y] - q[i][y]; const double dz = q[j][z] - q[i][z]; const double r2 = (dx*dx + dy*dy + dz*dz); const double r6 = r2*r2*r2; double df = (24.0*r6-48.0)/(r6*r6*r2)*dt; p[i][x] += df*dx; p[i][y] += df*dy; p[i][z] += df*dz; p[j][x] -= df*dx; p[j][y] -= df*dy; p[j][z] -= df*dz; } } } void calcforce(void){ for(int i=0;i<n-1;i++){ for(int j=i+1;j<n;j++){ const double dx = q[j][x] - q[i][x]; const double dy = q[j][y] - q[i][y]; const double dz = q[j][z] - q[i][z]; const double r2 = (dx*dx + dy*dy + dz*dz); if (r2 > CUTOFF) continue; const double r6 = r2*r2*r2; double df = (24.0*r6-48.0)/(r6*r6*r2)*dt; p[i][x] += df*dx; p[i][y] += df*dy; p[i][z] += df*dz; p[j][x] -= df*dx; p[j][y] -= df*dy; p[j][z] -= df*dz; } } } 80%

42 (2/2) 42/66 [s] IBM POWER Intel Xeon IBM POWER SPARC ( FX10)

43 (1/2) 43/66 1. foreach interacting particles 2. r particle distance 3. if distance > cutoff length then continue 4. f calculate force 5. p update momenta 6. next () 1. foreach interacting particles 2. r particle distance 3. f calculate force 4. if distance > cutoff length then f 0 5. p update momenta 6. next fsel ( ) ( )

44 (2/2) 44/66 [s] IBM POWER IBM POWER (fsel)

45 SIMD (1/4) 45/66 SIMD SIMD : SIMD ( ) SIMD SIMD SIMD SIMD (Hand-SIMDize)

46 SIMD (2/4) 46/66 A[1]+B[1] C[1]+D[1] E[1]+F[1] SIMD ( SIMD ) I[1]+G[1] A[2]+B[2] C[2]+D[2] E[2]+F[2] I[2]+G[2] FX10 Loop Unrolled x times

47 SIMD (3/4) 47/66 A[1]+B[1] C[1]+D[1] A[2]+B[2] E[1]+F[1] C[2]+D[2] I[1]+G[1] E[2]+F[2] I[2]+G[2] A[3]+B[3] C[3]+D[3] E[3]+F[3] I[3]+G[3] DO I = 1, N C[i] = A[i] + B[i] E[i] = C[i] + D[i] H[i] = F[i] + G[i] H[i] = H[i] + I[i] END DO A[4]+B[4] C[4]+D[4] E[4]+F[4] I[4]+G[4] FX10 Loop software pipelined

48 SIMD (4/4) 48/66 ( ) FX10 SIMD (4 ) static software pipelining SIMD FX10 SIMD ( ) 2 30%

49 CPU CPU ()CPU CPU 49/66 intrinsic

50 50/66

51 (1/3) 51/66 ( ) ( )

52 (2/3) 52/66 Granularity ( ) Granularity ( ) ( )

53 (3/3) 53/66 ( ) () 384 ( ) 14 ( ) 1200 ( ) 160 > 1 3 > > 1 2 >

54 (1/2) : () MC ( ) ( ) 54/66

55 (2/2) 55/66

56 MPI OpenMP (1/2) 56/66 OS CPU

57 OpenMP MPI OpenMP (2/2) Network 57/66 MPI ( ) Memory Memory Memory Cache Cache Cache CPU CPU CPU MPI

58 Flat MPI 58/66 CPU CPU CPU OpenMP MPI OpenMP () MPI () Flat-MPI Flat-MPI: GB Hybrid: 128* GB Flat-MPI 600MB MPI+OpenMP

59 (1/5) 59/66 ( ) OpenMP ( ) MPI

60 (2/5) 60/66 MPI: OpenMP: DO I=1,N DO J in Pair(I) CalcForce(I,J) ENDDO ENDDO SIMD OpenMP

61 MPI: OpenMP: (3/5) MDUnit MDUnit MDUnit MDUnit 61/66 MDUnit MDManager MDUnit MDUnit MDUnit MDUnit MDUnit DO i=1,thread_num CALL MDUnit[i]->Calculate() ENDDO MPI = MDManager MDManager MDUnit 1 = Flat MPI MDManager MDUnit =Hybrid MDManager MDUnit MDUnit MDManager MDUnit MDUnit MDUnit MDUnit MDUnit MDUnit

62 MPI (4/5) 62/66 MPI ( ) 4 MPI_THREAD_SINGLE MPI_THREAD_FUNNELD MPI_THREAD_SERIALIZED ( ) 1 2 MPI_THREAD_MULTIPLE

63 (5/5) 63/66 MDUnit Flat-MPI NUMA ( FX10 ) SIMD MPI

64 MPI 64/66 MPI Process1 Process2 Process1 Buffer (heap) Process2 ( ) MPI MAX MPI

65 65/66

66 66/66

注意 2/60 今日話すことはおそらく今後の人生にほとんど役にたちませんただこういうことをやる人々がいるということだけ知っておいてください

注意 2/60 今日話すことはおそらく今後の人生にほとんど役にたちませんただこういうことをやる人々がいるということだけ知っておいてください 1/60 第 9 回高速化チューニングとその関連技術 2 渡辺宙志東京大学物性研究所 Outline 1. 計算機の仕組み 2. プロファイラの使い方 3. メモリアクセス最適化 4. CPUチューニング 5. 並列化 Jun. 11, 2013@ 計算科学技術特論 A 注意 2/60 今日話すことはおそらく今後の人生にほとんど役にたちませんただこういうことをやる人々がいるということだけ知っておいてください