HPC / (CfCA) HPC 2007/11/23-25

Size: px

Start display at page:

Download "HPC / (CfCA) HPC 2007/11/23-25"

やすもりいのら
5 years ago
Views:

1 HPC / (CfCA) HPC 2007/11/23-25

2 CfCA GRAPE GRAPE GRAPE-DR HPC

3 : : 1 1

4 (II ) Ia

5 100 1 ( )

9 0.1 pc 1 AU 3 : 1 100

10 Top-down

11 Katz and Gunn 1992 Dark Matter + + DM, : :SPH 10 4 Cray YMP : 10 7

12 Saitoh et al Dark Matter + + DM, : :SPH GRAPE-5 11 : 10 4

13 :

14 : 10 4 :

15 1-2

16 Saitoh et al ( )

17 CfCA CfCA: Center for Computational Astrophysics ( ) 1966 Okitac 5090D 1976 Facom Univac 1100/80B 1983 Facom M380R 1988 Facom M780/10S VPP300/16R 2001 VPP5000/ CfCA

18 1/10 : 2001 GRAPE-5 + GRAPE-6 640Gflops+4Tflops

19 ( ) 1.6TF 1 256GB 20TF ( ) 300KVA 2008/3 GRAPE(-DR) PC

20 SX-9 (16+4) Cray XT4 ( 740+ ) 2050

21 MHD ( : HPF ) : XT4 Dual Core

22 XT4 PC PC 10

23 1975: Cray-1 100MF 10M$ PDP-11/70 10kF? 50K$? Cray : Cray XMP 1GF 10M$ PC-AT 30kF? 5K$ XMP : VPP GF 30M$? Dec Alpha 300MF 30K$ VPP : SX-8 10TF 50M$? Intel PD 12 GF 1K$ SX Cray XT4 10

24 COTS PC ( ) OS ( : 1.5MW)

25 FPGA

26 GRAPE GRAPE-DR GRAPE GRAPE-DR

27 GRAPE : (Barnes-Hut tree, FMM, Particle- Mesh Ewald(PPPM)...): ( )

28 1988

29 GRAPE-1(1989) Mflops

30 ( ) GPIB ( Sony NEWS ) GPIB

31 GRAPE-2

32 GRAPE-2(1990) 8 ( ) 40Mflops

33 GRAPE-3(1991) MHz 7.2Gflops

34 GRAPE-3 1µm MHz 600 Mflops

35 GRAPE-4(1995) Tflops

36 GRAPE-4 Xi Xi sqrt Pcut Fcut Xi Xi m/r FiFiPi m j Xi Xi r 2 Xi Xi Func. eval. Xi Xi Xi Xi Xi Xi Xi Xi m/r 3 Xi Xi Xi FiFiFi Xj Xi Xi Vi Xi Xi r. v m/r 5 Xi Xi Vj Xi Xi Xi Xi FiFiJi Xi Xi Xi Xi 1µm 10 (40 ) 640Mflops

37 GRAPE-6(2002) Tflops

38 パイプライン LSI 0.25 µm ルール (東芝 TC-240, 1.8M ゲート) 90 MHz 動作 6 パイプラインを集積チップあたり 31 Gﬂops

39 2006 GRAPE-6 Intel Xeon 5365 Year Design rule 250nm 65nm Clock 90MHz 3GHz Peak speed 32.4Gflops 48Gflops Power 10W 120 W Perf/W 3.24Gflops 0.4 Gflops

40 GRAPE-4

41 GRAPE-6 MDGRAPE-3 : MDGRAPE-4, 20Pflops@2010 MDGRAPE-3 GRAPE-DR

42 GRAPE-DR GRAPE : 2 Petaflops Tflops GRAPE : GRAPE

43 GRAPE ( ( N )) µm µm nm nm 10 ( 2 )

44 GRAPE-DR 1

45 : : %

46 : ( ) 1. GRAPE SIMD

47 SIMD SIMD (Single Instruction Multiple Data): GRAPE

48 SIMD SIMD SSE MMX SIMD GRAPE-DR SIMD

49 SIMD Illiac IV, Goodyear MPP, ICL DAP, TMC CM-2, MASPAR MP-1 ALU ALU ALU ALU ALU REG REG REG REG REG MEM MEM MEM MEM MEM : : SIMD

50 SIMD SSEx R0 R1 R2 R3 R4 R5 R6 R7 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 ALU0 ALU1 ALU2 ALU3 1 : 4

51 GRAPE-DR SIMD (FPGA ) SING (PE) 1 0 ) PE = + ( ) (PE ) PE (BB)

52 (M) PE PEID BBID A x + ALU B T 32W 256W 256 (K M )

54 32PE( ) 16 18mm

55 PE 0.7mm by 0.7mm Black: Local Memory Red: Reg. File Orange: FMUL Green: FADD Blue: IALU

56 GRAPE-DR 500MHz 100 Gflops ( )

57 PCI-Express (8 2GB/s) 4 GRAPE-DR ( ) PCI-Express 1

58 : 1 Pflops = PC 512

59 GRAPE

60 : g i = j f(x i, x j ) i j j i j, i j ( )

61 ( 2006) /VARI xi, yi, zi, e2; /VARJ xj, yj, zj, mj; /VARF fx, fy, fz; dx = xi - xj; dy = yi - yj; dz = zi - zj; r2 = dx*dx + dy*dy + dz*dz + e2; r3i= powm32(r2); ff = mj*r3i; fx += ff*dx; fy += ff*dy; fz += ff*dz; GRAPE PGR (FPGA PROGRAPE D 2006)

62 / int SING_send_j_particle(struct grape_j_particle_struct *jp, int index_in_em); int SING_send_i_particle(struct grape_i_particle_struct *ip, int n); int SING_get_result(struct grape_result_struct *rp); void SING_grape_init(); int SING_grape_run(int n);

63 2 ( )

64 V-GRAPE GRAPE-DR = V-GRAPE

65 GRAPE-DR 256Gflops MDGRAPE-3 FPGA FFT CG 2

66 FFT CG :

67 FFT FFT FFT : 10 log n 4GB/s 10 Gflops CPU

68 CG : O(10)

69 GRAPE-DR: 1MB Intel Itanium : 24MB? DRAM 1T-SRAM : 32 MB

70 V-GRAPE PE PE PE PE... PE PE PE PE... GRAPE-DR V-GRAPE

71 : V-GRAPE / ( ) :

72 1960 : CDC 6(7)600 (Cray ) 1970 : Cray-1, CDC-Star 1980

73 1990 PC

74 PC

76 1970 : IC 1980 : Cray : (Cray ) GHz GHz : 1 : Tflops ( ) : 100GB/s

77 Cray-1 : 100GB/ Gflops : 10GB/s 50Gflops

78 GRAPE-DR GPGPU

79 GPGPU nvidia 8800: C 768MB 90GB/s(SX-9 1/3) GPU C 100Gflops ( 1/8 ) (8 )

80 GPGPUs!

81 GPGPUs 2007

82 GPGPUs 2005

83 GRAPE LSI GRAPE-DR SIMD GRAPE V-GRAPE CfCA/

85 Memory Wall : : : :

86 1990 I/O

88 : 30

89 V-GRAPE BLAS, LAPACK PE PGDL ( FPGA )

90 SPH ( 150)

91 :

92 (M. Flynn) SISD/SIMD/MISD/MIMD (SI) (MI) (SD) (MD) SIMD SIMD ( ) MIMD

93 SIMD GRAPE ( ) : : ( ) : 1000 ( / )

94 (PE) (j- ) j- j- j- j- j- i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE (GRAPE-6 ) 2 : 2

95 PE PE PE PE PE PE broadcast memory PE PE PE PE broadcast memory PE PE PE PE broadcast memory PE PE PE PE broadcast memory ( ) Memory controller/host

96 SING: Sing Is Not GRAPE DRAM DRAM DRAM DRAM FPGA CP SING FPGA CP SING FPGA CP SING FPGA CP SING FPGA Host interface PCI-X/PCIE PCI

97 GRAPE : SIMD GDR : (FPGA ) =

98 PE PE ( )

99 var vector long xi hlt flt64to72 var vector long yi hlt flt64to72 var vector long zi hlt flt64to72 var vector short idxi hlt fix32to36ru bvar long xj elt flt64to72 bvar long yj elt flt64to72 bvar long zj elt flt64to72 bvar long vxj xj bvar short mj elt flt64to36 bvar short eps2 elt flt64to36 bvar short idxj elt fix32to36ru var short lmj var short leps2 var short lidxj var vector long accx rrn flt72to64 fadd var vector long accy rrn flt72to64 fadd var vector long accz rrn flt72to64 fadd var vector long pot rrn flt72to64 fadd hlt, elt, rrn

100 loop initialization vlen 4 uxor $t $t $t upassa $ti $ti $lr40v upassa $t $t $lr48v upassa $t $t $lr56v upassa $t $t pot loop body vlen 3 bm vxj $lr0v vlen 1 bm mj lmj bm eps2 leps2 bm idxj lidxj ( ) ( ) ( )

101 vlen 4 nop upassa idxi idxi $t uxor $ti lidxj $t moi 2 ( ) ulnot $ti $ti $t # mreg 1 indicates i!= j moi 0 nop fsub $lr0 xi $r6v $t fsub $lr2 yi $r10v ; fmul $ti $ti $t fsub $lr4 zi $r14v fmul $r10v $r10v $r18v ; fadd $t leps2 $t fmul $r14v $r14v ; fadd $fb $ti $t fadd $fb $ti $r18v $t # rsq is now in r18 t, dx, dy,dz are in 2

102 ( ) ulsr $ti il"60" $t $lr22v ulsr $ti il"1" $t uadd $ti $lr22v $t usub hl"9fd" $ti $t # $lr8v 1.5 ulsl $ti il"60" $lr30v moi 1 uand il"1" $lr22v moi 0 uand $r18v h"000ffffff" $t uor $ti h"3ff000000" $t fmul $ti f"0.57" $t fsub f"1.57" $ti $t mi 1 fmul f"1.414" $ti $t mi 0 nop fmul $t $lr30v $t $r22v # Here the result is the initial guess r 3 1

103 ( ) fmul $r18v $r18v $r26v $t fmul $r18v $ti $r26v $t fmul $ti f"0.5" $r26v # r26v is a**3/2 fmul $r22v $r22v $t fmul $ti $r26v $t fsub f"1.5" $ti $t fmul $r22v $ti $t $r22v fmul $ti $ti $t fmul $ti $r26v $t ( ) fsub f"1.5" $ti $t fmul $r22v $ti $t $r22v fmul $ti $ti $t fmul $ti $r26v $t fsub f"0.5" $ti $t fmul $r22v $ti $t fadd $r22v $ti $t fmul lmj $ti $t $r22v

104 ( ) mi 2 fmul $r6v $ti ; upassa pot pot $lr0v fmul $r10v $t ; fadd $fb $lr40v $lr40v accx fmul $r14v $t ; fadd $fb $lr48v $lr48v accy fmul $r18v $t ; fadd $fb $lr56v $lr56v accz fadd $fb $lr0v pot

105 int SING_send_j_particle(struct grape_j_particle_struct *jp, int index_in_em); int SING_send_i_particle(struct grape_i_particle_struct *ip, int n); int SING_get_result(struct grape_result_struct *rp); void SING_grape_init(); int SING_grape_run(int n); GRAPE-3/5

106 struct grape_j_particle_struct{ double xj; double yj; double zj; double mj; double eps2; UINT32 idxj; }; struct grape_i_particle_struct{ double xi; double yi; double zi; UINT32 idxi; }; struct grape_result_struct{ double accx; double accy; double accz; double pot; };

107 17mm

108

109 PE

GRAPE GRAPE-DR V-GRAPE

GRAPE-DR / 2006/11/20-22 GRAPE GRAPE-DR V-GRAPE http://antwrp.gsfc.nasa.gov/apod/ap950917.html ( ) SDSS Genzel et al 2003 Adaptive Optics SgrA ( ) 12 1 : GRAPE : (Barnes-Hut tree, FMM, Particle- Mesh