GRAPE GRAPE-DR V-GRAPE

Size: px

Start display at page:

Download "GRAPE GRAPE-DR V-GRAPE"

なごみかんけ
5 years ago
Views:

1 V-GRAPE / CCSR 2007/1/24

2 GRAPE GRAPE-DR V-GRAPE

7 ( ) SDSS

8 GRAPE : (Barnes-Hut tree, FMM, Particle- Mesh Ewald(PPPM)...): ( )

9 1988

10 GRAPE-1(1989) Mflops

11 GRAPE-2(1990) 8 ( ) 40Mflops

12 GRAPE-3(1991) MHz 7.2Gflops

13 GRAPE-3 1µm MHz 600 Mflops

14 GRAPE-4(1995) Tflops

15 GRAPE-4 Xi Xi sqrt Pcut Fcut Xi Xi m/r FiFiPi m j Xi Xi r 2 Xi Xi Func. eval. Xi Xi Xi Xi Xi Xi Xi Xi m/r 3 Xi Xi Xi FiFiFi Xj Xi Xi Vi Xi Xi r. v m/r 5 Xi Xi Vj Xi Xi Xi Xi FiFiJi Xi Xi Xi Xi 1µm 10 (40 ) 640Mflops

16 GRAPE-6(2002) Tflops

17 パイプライン LSI 0.25 µm ルール (東芝 TC-240, 1.8M ゲート) 90 MHz 動作 6 パイプラインを集積チップあたり 31 Gflops

18 2006 GRAPE-6 Core 2 Extreme 250nm 65nm 90MHz 2.93GHz 32.4Gflops 23.44Gflops 10W 75W 1W 3.24Gflops Gflops

19 GRAPE-4

20 GRAPE-6 MDGRAPE-3 : MDGRAPE-4, 20Pflops@2010 MDGRAPE-3 GRAPE-DR

21 GRAPE-DR GRAPE : 2 Petaflops Tflops GRAPE : GRAPE

22 GRAPE ( ( N )) µm µm nm nm 10

23 1.

24 1. 2.

26 GRAPE-DR (3)

27 1

28 : ( ) 1. GRAPE SIMD

29 SIMD SIMD (Single Instruction Multiple Data): GRAPE

30 SIMD SIMD SSE MMX SIMD GRAPE-DR SIMD

31 SIMD Illiac IV, Goodyear MPP, ICL DAP, TMC CM-2, MASPAR MP-1 ALU REG MEM ALU REG MEM ALU REG MEM ALU REG MEM ALU REG MEM : : SIMD

32 SIMD Pentium III, R0 R1 R2 R3 R4 R5 R6 R7 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 ALU0 ALU1 ALU2 ALU3 1 : 4

33 nyo d4prqts B8C*DFEHGFI 7KJ GRAPE-DR SIMD!"$# %'& (*)+,-. /0!"$#%ˆ $Š 'ŒŽ (* & ) \Y]_^[`baTced 1$243$5687*9 (FPGA :';$< ) RTSVUTWYX[Z yz{z z} ~ $ƒ Q 0 w4xzyz{ L$M4N'OQP SING u Xtv (PE) 1 PE = + ( ) (PE ) PE (BB)

34 *,+ (M) PE PEID BBID A x + "! B T 32W 256W ALU 256 # $ % & (' #)$ & (' (K M )

36 32PE( ) 16 18mm

37 GRAPE-DR 500MHz 100 Gflops ( )

38 GRAPE-DR 別ボードこっちがプロジェクト公式中身は殆ど同じ何故か大きい LINPACK が動作したらしい

39 PCI-Express (8 2GB/s) 4 GRAPE-DR ( ) PCI-Express 1

40 : 1 Pflops = PC 512

41 GRAPE

42 : g i = j f(x i, x j ) i j j i j, i j ( )

43 ( 2006) /VARI xi, yi, zi, e2; /VARJ xj, yj, zj, mj; /VARF fx, fy, fz; dx = xi - xj; dy = yi - yj; dz = zi - zj; r2 = dx*dx + dy*dy + dz*dz + e2; r3i= powm32(r2); ff = mj*r3i; fx += ff*dx; fy += ff*dy; fz += ff*dz; GRAPE PGR (FPGA PROGRAPE D 2006)

44 / int SING_send_j_particle(struct grape_j_particle_struct *jp, int index_in_em); int SING_send_i_particle(struct grape_i_particle_struct *ip, int n); int SING_get_result(struct grape_result_struct *rp); void SING_grape_init(); int SING_grape_run(int n);

45 2 ( )

46 V-GRAPE GRAPE-DR = V-GRAPE

47 GRAPE-DR 256Gflops MDGRAPE-3 FPGA FFT CG 2

48 FFT CG :

49 FFT FFT FFT : 10 log n 4GB/s 10 Gflops CPU

50 CG : O(10)

51 GRAPE-DR: 1MB Intel Itanium : 24MB? DRAM 1T-SRAM : 32 MB

52 V-GRAPE PE PE PE PE PE PE PE PE GRAPE-DR V-GRAPE PE

53 V-GRAPE / : ( ) :

55 (GRAPE ) GRAPE : ( )

56 ( ) SC2002 NICAM

57 SC2002 Shingu et al, A Tflops Global Atmospheric Simulation with the Spectral Transform Method on the Earth Simulator % GRAPE-DR n n 2

58 NICAM wtk/ /iga/pub/ GRAPE- DR

59 2010 : Glevel=14 650TB 1 2P ( ) 1 3 2GB/s GRAPE-DR 6 Gflops ( 1% ) V-GRAPE

60 : 1 V-GRAPE

61 LINPACK V-GRAPE

62 1960 : CDC 6(7)600 (Cray ) 1970 : Cray-1, CDC-Star 1980

63 1990 PC

64 PC

65 1975: Cray-1 100Mflops 10M$ PDP-11/70 10kflops? 50K$? 1985: Cray XMP 1Gflops 10M$ PC-AT 30kflops? 5K$ 1995: VPP Gflops 30M$? Dec Alpha 300Mflops 30K$ 2005: SX-8 10TF 50M$? Intel PD 12 Gflops 1K$ Cray-1 50 XMP 20 VPP 3 SX

67 1970 : IC 1980 : Cray : (Cray ) GHz GHz : 1 : Tflops ( ) : 100GB/s

68 Cray-1 : 100GB/ Gflops : 10GB/s 50Gflops

69 GRAPE-DR GPGPU

70 GPGPU nvidia 8800: C 768MB 90GB/s(SX-7 3 ) GPU C 400Gflops (8 )

71 : =

72 GRAPE LSI GRAPE-DR SIMD GRAPE V-GRAPE GRAPE-DR V-GRAPE

74 Memory Wall : : : :

75 1990 I/O

77 : 30

78 V-GRAPE BLAS, LAPACK PE PGDL ( FPGA ) SPH ( 150)

79 :

80 (M. Flynn) SISD/SIMD/MISD/MIMD (SI) (MI) (SD) (MD) SIMD SIMD ( ) MIMD

81 SIMD GRAPE ( ) : : ( ) : 1000 ( / )

82 (PE) (j- ) j- j- j- i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE j- j- (GRAPE-6 ) 2 : 2

83 PE PE PE PE PE PE broadcast memory PE PE PE PE broadcast memory PE PE PE PE broadcast memory PE PE PE PE broadcast memory ( ) Memory controller/host

84 SING: Sing Is Not GRAPE DRAM DRAM DRAM DRAM FPGA CP SING FPGA CP SING FPGA CP SING FPGA CP SING FPGA Host interface PCI-X/PCIE PCI

85 GRAPE : SIMD GDR : (FPGA ) =

86 PE PE ( )

87 var vector long xi hlt flt64to72 var vector long yi hlt flt64to72 var vector long zi hlt flt64to72 var vector short idxi hlt fix32to36ru bvar long xj elt flt64to72 bvar long yj elt flt64to72 bvar long zj elt flt64to72 bvar long vxj xj bvar short mj elt flt64to36 bvar short eps2 elt flt64to36 bvar short idxj elt fix32to36ru var short lmj var short leps2 var short lidxj var vector long accx rrn flt72to64 fadd var vector long accy rrn flt72to64 fadd var vector long accz rrn flt72to64 fadd var vector long pot rrn flt72to64 fadd hlt, elt, rrn

88 loop initialization vlen 4 uxor $t $t $t upassa $ti $ti $lr40v upassa $t $t $lr48v upassa $t $t $lr56v upassa $t $t pot loop body vlen 3 bm vxj $lr0v vlen 1 bm mj lmj bm eps2 leps2 bm idxj lidxj ( ) ( ) ( )

89 vlen 4 nop upassa idxi idxi $t uxor $ti lidxj $t moi 2 ( ) ulnot $ti $ti $t # mreg 1 indicates i!= j moi 0 nop fsub $lr0 xi $r6v $t fsub $lr2 yi $r10v ; fmul $ti $ti $t fsub $lr4 zi $r14v fmul $r10v $r10v $r18v ; fadd $t leps2 $t fmul $r14v $r14v ; fadd $fb $ti $t fadd $fb $ti $r18v $t # rsq is now in r18 t, dx, dy,dz are in 2

90 ( ) ulsr $ti il"60" $t $lr22v ulsr $ti il"1" $t uadd $ti $lr22v $t usub hl"9fd" $ti $t # $lr8v 1.5 ulsl $ti il"60" $lr30v moi 1 uand il"1" $lr22v moi 0 uand $r18v h"000ffffff" $t uor $ti h"3ff000000" $t fmul $ti f"0.57" $t fsub f"1.57" $ti $t mi 1 fmul f"1.414" $ti $t mi 0 nop fmul $t $lr30v $t $r22v # Here the result is the initial guess r 3 1

91 ( ) fmul $r18v $r18v $r26v $t fmul $r18v $ti $r26v $t fmul $ti f"0.5" $r26v # r26v is a**3/2 fmul $r22v $r22v $t fmul $ti $r26v $t fsub f"1.5" $ti $t fmul $r22v $ti $t $r22v fmul $ti $ti $t fmul $ti $r26v $t ( ) fsub f"1.5" $ti $t fmul $r22v $ti $t $r22v fmul $ti $ti $t fmul $ti $r26v $t fsub f"0.5" $ti $t fmul $r22v $ti $t fadd $r22v $ti $t fmul lmj $ti $t $r22v

92 ( ) mi 2 fmul $r6v $ti ; upassa pot pot $lr0v fmul $r10v $t ; fadd $fb $lr40v $lr40v accx fmul $r14v $t ; fadd $fb $lr48v $lr48v accy fmul $r18v $t ; fadd $fb $lr56v $lr56v accz fadd $fb $lr0v pot

93 int SING_send_j_particle(struct grape_j_particle_struct *jp, int index_in_em); int SING_send_i_particle(struct grape_i_particle_struct *ip, int n); int SING_get_result(struct grape_result_struct *rp); void SING_grape_init(); int SING_grape_run(int n); GRAPE-3/5

94 struct grape_j_particle_struct{ double xj; double yj; double zj; double mj; double eps2; UINT32 idxj; }; struct grape_i_particle_struct{ double xi; double yi; double zi; UINT32 idxi; }; struct grape_result_struct{ double accx; double accy; double accz; double pot; };

95 17mm

97 PE

GRAPE GRAPE-DR V-GRAPE

GRAPE-DR / 2006/11/20-22 GRAPE GRAPE-DR V-GRAPE http://antwrp.gsfc.nasa.gov/apod/ap950917.html ( ) SDSS Genzel et al 2003 Adaptive Optics SgrA ( ) 12 1 : GRAPE : (Barnes-Hut tree, FMM, Particle- Mesh