HPC / (CfCA) HPC 2007/11/23-25

Size: px
Start display at page:

Download "HPC / (CfCA) HPC 2007/11/23-25"

Transcription

1 HPC / (CfCA) HPC 2007/11/23-25

2 CfCA GRAPE GRAPE GRAPE-DR HPC

3 : : 1 1

4 (II ) Ia

5 100 1 ( )

6

7

8

9 0.1 pc 1 AU 3 : 1 100

10 Top-down

11 Katz and Gunn 1992 Dark Matter + + DM, : :SPH 10 4 Cray YMP : 10 7

12 Saitoh et al Dark Matter + + DM, : :SPH GRAPE-5 11 : 10 4

13 :

14 : 10 4 :

15 1-2

16 Saitoh et al ( )

17 CfCA CfCA: Center for Computational Astrophysics ( ) 1966 Okitac 5090D 1976 Facom Univac 1100/80B 1983 Facom M380R 1988 Facom M780/10S VPP300/16R 2001 VPP5000/ CfCA

18 1/10 : 2001 GRAPE-5 + GRAPE-6 640Gflops+4Tflops

19 ( ) 1.6TF 1 256GB 20TF ( ) 300KVA 2008/3 GRAPE(-DR) PC

20 SX-9 (16+4) Cray XT4 ( 740+ ) 2050

21 MHD ( : HPF ) : XT4 Dual Core

22 XT4 PC PC 10

23 1975: Cray-1 100MF 10M$ PDP-11/70 10kF? 50K$? Cray : Cray XMP 1GF 10M$ PC-AT 30kF? 5K$ XMP : VPP GF 30M$? Dec Alpha 300MF 30K$ VPP : SX-8 10TF 50M$? Intel PD 12 GF 1K$ SX Cray XT4 10

24 COTS PC ( ) OS ( : 1.5MW)

25 FPGA

26 GRAPE GRAPE-DR GRAPE GRAPE-DR

27 GRAPE : (Barnes-Hut tree, FMM, Particle- Mesh Ewald(PPPM)...): ( )

28 1988

29 GRAPE-1(1989) Mflops

30 ( ) GPIB ( Sony NEWS ) GPIB

31 GRAPE-2

32 GRAPE-2(1990) 8 ( ) 40Mflops

33 GRAPE-3(1991) MHz 7.2Gflops

34 GRAPE-3 1µm MHz 600 Mflops

35 GRAPE-4(1995) Tflops

36 GRAPE-4 Xi Xi sqrt Pcut Fcut Xi Xi m/r FiFiPi m j Xi Xi r 2 Xi Xi Func. eval. Xi Xi Xi Xi Xi Xi Xi Xi m/r 3 Xi Xi Xi FiFiFi Xj Xi Xi Vi Xi Xi r. v m/r 5 Xi Xi Vj Xi Xi Xi Xi FiFiJi Xi Xi Xi Xi 1µm 10 (40 ) 640Mflops

37 GRAPE-6(2002) Tflops

38 パイプライン LSI 0.25 µm ルール (東芝 TC-240, 1.8M ゲート) 90 MHz 動作 6 パイプラインを集積 チップあたり 31 Gflops

39 2006 GRAPE-6 Intel Xeon 5365 Year Design rule 250nm 65nm Clock 90MHz 3GHz Peak speed 32.4Gflops 48Gflops Power 10W 120 W Perf/W 3.24Gflops 0.4 Gflops

40 GRAPE-4

41 GRAPE-6 MDGRAPE-3 : MDGRAPE-4, 20Pflops@2010 MDGRAPE-3 GRAPE-DR

42 GRAPE-DR GRAPE : 2 Petaflops Tflops GRAPE : GRAPE

43 GRAPE ( ( N )) µm µm nm nm 10 ( 2 )

44 GRAPE-DR 1

45 : : %

46 : ( ) 1. GRAPE SIMD

47 SIMD SIMD (Single Instruction Multiple Data): GRAPE

48 SIMD SIMD SSE MMX SIMD GRAPE-DR SIMD

49 SIMD Illiac IV, Goodyear MPP, ICL DAP, TMC CM-2, MASPAR MP-1 ALU ALU ALU ALU ALU REG REG REG REG REG MEM MEM MEM MEM MEM : : SIMD

50 SIMD SSEx R0 R1 R2 R3 R4 R5 R6 R7 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W0 W1 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 W2 W3 ALU0 ALU1 ALU2 ALU3 1 : 4

51 GRAPE-DR SIMD (FPGA ) SING (PE) 1 0 ) PE = + ( ) (PE ) PE (BB)

52 (M) PE PEID BBID A x + ALU B T 32W 256W 256 (K M )

53

54 32PE( ) 16 18mm

55 PE 0.7mm by 0.7mm Black: Local Memory Red: Reg. File Orange: FMUL Green: FADD Blue: IALU

56 GRAPE-DR 500MHz 100 Gflops ( )

57 PCI-Express (8 2GB/s) 4 GRAPE-DR ( ) PCI-Express 1

58 : 1 Pflops = PC 512

59 GRAPE

60 : g i = j f(x i, x j ) i j j i j, i j ( )

61 ( 2006) /VARI xi, yi, zi, e2; /VARJ xj, yj, zj, mj; /VARF fx, fy, fz; dx = xi - xj; dy = yi - yj; dz = zi - zj; r2 = dx*dx + dy*dy + dz*dz + e2; r3i= powm32(r2); ff = mj*r3i; fx += ff*dx; fy += ff*dy; fz += ff*dz; GRAPE PGR (FPGA PROGRAPE D 2006)

62 / int SING_send_j_particle(struct grape_j_particle_struct *jp, int index_in_em); int SING_send_i_particle(struct grape_i_particle_struct *ip, int n); int SING_get_result(struct grape_result_struct *rp); void SING_grape_init(); int SING_grape_run(int n);

63 2 ( )

64 V-GRAPE GRAPE-DR = V-GRAPE

65 GRAPE-DR 256Gflops MDGRAPE-3 FPGA FFT CG 2

66 FFT CG :

67 FFT FFT FFT : 10 log n 4GB/s 10 Gflops CPU

68 CG : O(10)

69 GRAPE-DR: 1MB Intel Itanium : 24MB? DRAM 1T-SRAM : 32 MB

70 V-GRAPE PE PE PE PE... PE PE PE PE... GRAPE-DR V-GRAPE

71 : V-GRAPE / ( ) :

72 1960 : CDC 6(7)600 (Cray ) 1970 : Cray-1, CDC-Star 1980

73 1990 PC

74 PC

75

76 1970 : IC 1980 : Cray : (Cray ) GHz GHz : 1 : Tflops ( ) : 100GB/s

77 Cray-1 : 100GB/ Gflops : 10GB/s 50Gflops

78 GRAPE-DR GPGPU

79 GPGPU nvidia 8800: C 768MB 90GB/s(SX-9 1/3) GPU C 100Gflops ( 1/8 ) (8 )

80 GPGPUs!

81 GPGPUs 2007

82 GPGPUs 2005

83 GRAPE LSI GRAPE-DR SIMD GRAPE V-GRAPE CfCA/

84

85 Memory Wall : : : :

86 1990 I/O

87

88 : 30

89 V-GRAPE BLAS, LAPACK PE PGDL ( FPGA )

90 SPH ( 150)

91 :

92 (M. Flynn) SISD/SIMD/MISD/MIMD (SI) (MI) (SD) (MD) SIMD SIMD ( ) MIMD

93 SIMD GRAPE ( ) : : ( ) : 1000 ( / )

94 (PE) (j- ) j- j- j- j- j- i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE i- PE PE PE PE PE (GRAPE-6 ) 2 : 2

95 PE PE PE PE PE PE broadcast memory PE PE PE PE broadcast memory PE PE PE PE broadcast memory PE PE PE PE broadcast memory ( ) Memory controller/host

96 SING: Sing Is Not GRAPE DRAM DRAM DRAM DRAM FPGA CP SING FPGA CP SING FPGA CP SING FPGA CP SING FPGA Host interface PCI-X/PCIE PCI

97 GRAPE : SIMD GDR : (FPGA ) =

98 PE PE ( )

99 var vector long xi hlt flt64to72 var vector long yi hlt flt64to72 var vector long zi hlt flt64to72 var vector short idxi hlt fix32to36ru bvar long xj elt flt64to72 bvar long yj elt flt64to72 bvar long zj elt flt64to72 bvar long vxj xj bvar short mj elt flt64to36 bvar short eps2 elt flt64to36 bvar short idxj elt fix32to36ru var short lmj var short leps2 var short lidxj var vector long accx rrn flt72to64 fadd var vector long accy rrn flt72to64 fadd var vector long accz rrn flt72to64 fadd var vector long pot rrn flt72to64 fadd hlt, elt, rrn

100 loop initialization vlen 4 uxor $t $t $t upassa $ti $ti $lr40v upassa $t $t $lr48v upassa $t $t $lr56v upassa $t $t pot loop body vlen 3 bm vxj $lr0v vlen 1 bm mj lmj bm eps2 leps2 bm idxj lidxj ( ) ( ) ( )

101 vlen 4 nop upassa idxi idxi $t uxor $ti lidxj $t moi 2 ( ) ulnot $ti $ti $t # mreg 1 indicates i!= j moi 0 nop fsub $lr0 xi $r6v $t fsub $lr2 yi $r10v ; fmul $ti $ti $t fsub $lr4 zi $r14v fmul $r10v $r10v $r18v ; fadd $t leps2 $t fmul $r14v $r14v ; fadd $fb $ti $t fadd $fb $ti $r18v $t # rsq is now in r18 t, dx, dy,dz are in 2

102 ( ) ulsr $ti il"60" $t $lr22v ulsr $ti il"1" $t uadd $ti $lr22v $t usub hl"9fd" $ti $t # $lr8v 1.5 ulsl $ti il"60" $lr30v moi 1 uand il"1" $lr22v moi 0 uand $r18v h"000ffffff" $t uor $ti h"3ff000000" $t fmul $ti f"0.57" $t fsub f"1.57" $ti $t mi 1 fmul f"1.414" $ti $t mi 0 nop fmul $t $lr30v $t $r22v # Here the result is the initial guess r 3 1

103 ( ) fmul $r18v $r18v $r26v $t fmul $r18v $ti $r26v $t fmul $ti f"0.5" $r26v # r26v is a**3/2 fmul $r22v $r22v $t fmul $ti $r26v $t fsub f"1.5" $ti $t fmul $r22v $ti $t $r22v fmul $ti $ti $t fmul $ti $r26v $t ( ) fsub f"1.5" $ti $t fmul $r22v $ti $t $r22v fmul $ti $ti $t fmul $ti $r26v $t fsub f"0.5" $ti $t fmul $r22v $ti $t fadd $r22v $ti $t fmul lmj $ti $t $r22v

104 ( ) mi 2 fmul $r6v $ti ; upassa pot pot $lr0v fmul $r10v $t ; fadd $fb $lr40v $lr40v accx fmul $r14v $t ; fadd $fb $lr48v $lr48v accy fmul $r18v $t ; fadd $fb $lr56v $lr56v accz fadd $fb $lr0v pot

105 int SING_send_j_particle(struct grape_j_particle_struct *jp, int index_in_em); int SING_send_i_particle(struct grape_i_particle_struct *ip, int n); int SING_get_result(struct grape_result_struct *rp); void SING_grape_init(); int SING_grape_run(int n); GRAPE-3/5

106 struct grape_j_particle_struct{ double xj; double yj; double zj; double mj; double eps2; UINT32 idxj; }; struct grape_i_particle_struct{ double xi; double yi; double zi; UINT32 idxi; }; struct grape_result_struct{ double accx; double accy; double accz; double pot; };

107 17mm

108

109 PE

GRAPE GRAPE-DR V-GRAPE

GRAPE GRAPE-DR V-GRAPE GRAPE-DR / 2006/11/20-22 GRAPE GRAPE-DR V-GRAPE http://antwrp.gsfc.nasa.gov/apod/ap950917.html ( ) SDSS Genzel et al 2003 Adaptive Optics SgrA ( ) 12 1 : GRAPE : (Barnes-Hut tree, FMM, Particle- Mesh

More information

GRAPE GRAPE-DR V-GRAPE

GRAPE GRAPE-DR V-GRAPE V-GRAPE / CCSR 2007/1/24 GRAPE GRAPE-DR V-GRAPE http://antwrp.gsfc.nasa.gov/apod/ap950917.html ( ) SDSS GRAPE : (Barnes-Hut tree, FMM, Particle- Mesh Ewald(PPPM)...): ( ) 1988 GRAPE-1(1989) 16 8 32

More information

GRAPE-DR /

GRAPE-DR / GRAPE-DR / GRAPE GRAPE-DR GRAPE ( ): (Barnes-Hut tree, FMM, Particle- Mesh Ewald(PPPM)...): ( ) 1988 32 IC 200 0.1m 3 400 GRAPE-1(1989) 16 8 32 48 240Mflops GRAPE-2(1990) 8 ( ) 40Mflops GRAPE-3(1991) 24

More information

: 50 10 10 1. : : 3 : 4 : 2 2. : 1946 1975 1 : load: store: : : ( ) ( ) : 101 x 101 ------------- 101 101 ------------ 11001 2 ( ): 32 32 1 32 : 32 ( ) 32 ( ) : log 2 32 : : ( F) ( D) E W 1 4 : F D E

More information

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops

Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops Agenda GRAPE-MPの紹介と性能評価 GRAPE-MPの概要 OpenCLによる四倍精度演算 (preliminary) 4倍精度演算用SIM 加速ボード 6 processor elem with 128 bit logic Peak: 1.2Gflops ボードの概要 Control processor (FPGA by Altera) GRAPE-MP chip[nextreme

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6

More information

( )

( ) 1. 2. 3. 4. 5. ( ) () http://www-astro.physics.ox.ac.uk/~wjs/apm_grey.gif http://antwrp.gsfc.nasa.gov/apod/ap950917.html ( ) SDSS : d 2 r i dt 2 = Gm jr ij j i rij 3 = Newton 3 0.1% 19 20 20 2 ( ) 3 3

More information

スパコンに通じる並列プログラミングの基礎

スパコンに通じる並列プログラミングの基礎 2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:

More information

supercomputer2010.ppt

supercomputer2010.ppt nanri@cc.kyushu-u.ac.jp 1 !! : 11 12! : nanri@cc.kyushu-u.ac.jp! : Word 2 ! PC GPU) 1997 7 http://wiredvision.jp/news/200806/2008062322.html 3 !! (Cell, GPU )! 4 ! etc...! 5 !! etc. 6 !! 20km 40 km ) 340km

More information

untitled

untitled taisuke@cs.tsukuba.ac.jp http://www.hpcs.is.tsukuba.ac.jp/~taisuke/ CP-PACS HPC PC post CP-PACS CP-PACS II 1990 HPC RWCP, HPC かつての世界最高速計算機も 1996年11月のTOP500 第一位 ピーク性能 614 GFLOPS Linpack性能 368 GFLOPS (地球シミュレータの前

More information

A 99% MS-Free Presentation

A 99% MS-Free Presentation A 99% MS-Free Presentation 2 Galactic Dynamics (Binney & Tremaine 1987, 2008) Dynamics of Galaxies (Bertin 2000) Dynamical Evolution of Globular Clusters (Spitzer 1987) The Gravitational Million-Body Problem

More information

ストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY

ストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY SIMD 2(SSE2) SAXPY/DAXPY 2.0 2000 7 : 248600J-001 01/12/06 1 305-8603 115 Fax: 0120-47-8832 * Copyright Intel Corporation 1999, 2000 01/12/06 2 1...5 2 SAXPY DAXPY...5 2.1 SAXPY DAXPY...6 2.1.1 SIMD C++...6

More information

並列計算の数理とアルゴリズム サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 初版 1 刷発行時のものです.

並列計算の数理とアルゴリズム サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます.  このサンプルページの内容は, 初版 1 刷発行時のものです. 並列計算の数理とアルゴリズム サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/080711 このサンプルページの内容は, 初版 1 刷発行時のものです. Calcul scientifique parallèle by Frédéric Magoulès and François-Xavier

More information

次世代スーパーコンピュータのシステム構成案について

次世代スーパーコンピュータのシステム構成案について 6 19 4 27 1. 2. 3. 3.1 3.2 A 3.3 B 4. 5. 2007/4/27 4 1 1. 2007/4/27 4 2 NEC NHF2 18 9 19 19 2 28 10PFLOPS2.5PB 30MW 3,200 18 12 12 SimFold, GAMESS, Modylas, RSDFT, NICAM, LatticeQCD, LANS HPL, NPB-FT 19

More information

untitled

untitled PC murakami@cc.kyushu-u.ac.jp muscle server blade server PC PC + EHPC/Eric (Embedded HPC with Eric) 1216 Compact PCI Compact PCIPC Compact PCISH-4 Compact PCISH-4 Eric Eric EHPC/Eric EHPC/Eric Gigabit

More information

untitled

untitled Power Wall HPL1 10 B/F EXTREMETECH Supercomputing director bets $2,000 that we won t have exascale computing by 2020 One of the biggest problems standing in our way is power. [] http://www.extremetech.com/computing/155941

More information

1重谷.PDF

1重谷.PDF RSCC RSCC RSCC BMT 1 6 3 3000 3000 200310 1994 19942 VPP500/32PE 19992 VPP700E/128PE 160PE 20043 2 2 PC Linux 2048 CPU Intel Xeon 3.06GHzDual) 12.5 TFLOPS SX-7 32CPU/256GB 282.5 GFLOPS Linux 3 PC 1999

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

untitled

untitled A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }

More information

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted DEGIMA LINPACK Energy Performance for LINPACK Benchmark on DEGIMA 1 AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK 1.4698 GFlops/Watt 1.9658 GFlops/Watt Abstract GPU Computing has

More information

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装 2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4

More information

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD

More information

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2 FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT

More information

ohpr.dvi

ohpr.dvi 2003-08-04 1984 VP-1001 CPU, 250 MFLOPS, 128 MB 2004ASCI Purple (LLNL)64 CPU 197, 100 TFLOPS, 50 TB, 4.5 MW PC 2 CPU 16, 4 GFLOPS, 32 GB, 3.2 kw 20028 CPU 640, 40 TFLOPS, 10 TB, 10 MW (ASCI: Accelerated

More information

VLSI工学

VLSI工学 2008//5/ () 2008//5/ () 2 () http://ssc.pe.titech.ac.jp 2008//5/ () 3!! A (WCDMA/GSM) DD DoCoMo 905iP905i 2008//5/ () 4 minisd P900i SemiConsult SDRAM, MPEG4 UIMIrDA LCD/ AF ADC/DAC IC CCD C-CPUA-CPU DSPSRAM

More information

Itanium2ベンチマーク

Itanium2ベンチマーク HPC CPU mhori@ile.osaka-u.ac.jp Special thanks Timur Esirkepov HPC 2004 2 25 1 1. CPU 2. 3. Itanium 2 HPC 2 1 Itanium2 CPU CPU 3 ( ) Intel Itanium2 NEC SX-6 HP Alpha Server ES40 PRIMEPOWER SR8000 Intel

More information

The 3 key challenges in programming for MC

The 3 key challenges in programming for MC Aug 3 06 Software &Solutions group Intel Intel Centrino Intel NetBurst Intel XScale Itanium Pentium Xeon Intel Core VTune Intel Corporation Intel NetBurst Pentium Xeon Pentium M Core 64 2 Intel Software

More information

アクセラレータのデモと プログラミング手法

アクセラレータのデモと プログラミング手法 アクセラレータのデモと プログラミング手法 会津大学中里直人 アクセラレータボードを使った高速化スクール 2009/12/07 アクセラレータとは (1) ホスト計算機を補佐して特定の計算を高速化する計算機デバイス ホスト (CPU) で動作するプログラムを補佐 アクセラレータの例 Cell/PowerXCell8iブレード ボード : 計算 GPU ボード (NVIDIA, AMD, S3) :

More information

EGunGPU

EGunGPU Super Computing in Accelerator simulations - Electron Gun simulation using GPGPU - K. Ohmi, KEK-Accel Accelerator Physics seminar 2009.11.19 Super computers in KEK HITACHI SR11000 POWER5 16 24GB 16 134GFlops,

More information

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments 計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];

More information

iphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU

More information

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia

More information

GPU n Graphics Processing Unit CG CAD

GPU n Graphics Processing Unit CG CAD GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac

More information

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h 23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),

More information

2005 1

2005 1 25 SPARCstation 2 CPU central processor unit 25 2 25 3 25 4 DRAM 25 5 25 6 : DRAM 25 7 2 25 8 2 25 9 2 bit: binary digit V 2V 25 2 2 2 2 4 5 2 6 3 7 25 A B C A B C A B C A B C A C A B 3 25 2 25 3 Co Cin

More information

smpp_resume.dvi

smpp_resume.dvi 6 mmiki@mail.doshisha.ac.jp Parallel Processing Parallel Pseudo-parallel Concurrent 1) 1/60 1) 1997 5 11 IBM Deep Blue Deep Blue 2) PC 2000 167 Rank Manufacturer Computer Rmax Installation Site Country

More information

openmp1_Yaguchi_version_170530

openmp1_Yaguchi_version_170530 並列計算とは /OpenMP の初歩 (1) 今 の内容 なぜ並列計算が必要か? スーパーコンピュータの性能動向 1ExaFLOPS 次世代スハ コン 京 1PFLOPS 性能 1TFLOPS 1GFLOPS スカラー機ベクトル機ベクトル並列機並列機 X-MP ncube2 CRAY-1 S-810 SR8000 VPP500 CM-5 ASCI-5 ASCI-4 S3800 T3E-900 SR2201

More information

untitled

untitled 2005 2 1 105-0004 5-34-3 Tel: 03-3431-4002 Fax: 03-3431-4044 1 SRL/ISTEC 1 1 SFQ SFQ SFQ 2004 9 4 SFQ SFQ / LSI 269 230 230 230 269 230 SFQ SFQ 2005 2 ISTEC 2005 All rights reserved. - 1 - 2005 2 1 105-0004

More information

XACCの概要

XACCの概要 2 global void kernel(int a[max], int llimit, int ulimit) {... } : int main(int argc, char *argv[]){ MPI_Int(&argc, &argc); MPI_Comm_rank(MPI_COMM_WORLD, &rank); MPI_Comm_size(MPI_COMM_WORLD, &size); dx

More information

64bit SSE2 SSE2 FPU Visual C++ 64bit Inline Assembler 4 FPU SSE2 4.1 FPU Control Word FPU 16bit R R R IC RC(2) PC(2) R R PM UM OM ZM DM IM R: reserved

64bit SSE2 SSE2 FPU Visual C++ 64bit Inline Assembler 4 FPU SSE2 4.1 FPU Control Word FPU 16bit R R R IC RC(2) PC(2) R R PM UM OM ZM DM IM R: reserved (Version: 2013/5/16) Intel CPU (kashi@waseda.jp) 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU double 8087 FPU (floating point number processing unit)

More information

1 All Rights Reserved, Copyright 2004, NEC Corporation 2 All Rights Reserved, Copyright 2004, NEC Corporation

1 All Rights Reserved, Copyright 2004, NEC Corporation 2 All Rights Reserved, Copyright 2004, NEC Corporation 1 2 Linpack TO500 3 SIM BlueGene/L DD2 olumbia BlueGene/L DD3 TIGER 4 ASI Q BlueGene/L DD1 LINAK Blue Gene/L H apacity omputing 4 apability omputing Goals Goals TAT - Not challenging - hallenging - SM

More information

HP High Performance Computing(HPC)

HP High Performance Computing(HPC) ACCELERATE HP High Performance Computing HPC HPC HPC HPC HPC 1000 HPHPC HPC HP HPC HPC HPC HP HPCHP HP HPC 1 HPC HP 2 HPC HPC HP ITIDC HP HPC 1HPC HPC No.1 HPC TOP500 2010 11 HP 159 32% HP HPCHP 2010 Q1-Q4

More information

( : December 27, 2015) CONTENTS I. 1 II. 2 III. 2 IV. 3 V. 5 VI. 6 VII. 7 VIII. 9 I. 1 f(x) f (x) y = f(x) x ϕ(r) (gradient) ϕ(r) (gradϕ(r) ) ( ) ϕ(r)

( : December 27, 2015) CONTENTS I. 1 II. 2 III. 2 IV. 3 V. 5 VI. 6 VII. 7 VIII. 9 I. 1 f(x) f (x) y = f(x) x ϕ(r) (gradient) ϕ(r) (gradϕ(r) ) ( ) ϕ(r) ( : December 27, 215 CONTENTS I. 1 II. 2 III. 2 IV. 3 V. 5 VI. 6 VII. 7 VIII. 9 I. 1 f(x f (x y f(x x ϕ(r (gradient ϕ(r (gradϕ(r ( ϕ(r r ϕ r xi + yj + zk ϕ(r ϕ(r x i + ϕ(r y j + ϕ(r z k (1.1 ϕ(r ϕ(r i

More information

スライド 1

スライド 1 計算科学が拓く世界スーパーコンピュータは何故スーパーか 学術情報メディアセンター中島浩 http://www.para.media.kyoto-u.ac.jp/jp/ username=super password=computer 講義の概要 目的 計算科学に不可欠の道具スーパーコンピュータが どういうものか なぜスーパーなのか どう使うとスーパーなのかについて雰囲気をつかむ 内容 スーパーコンピュータの歴史を概観しつつ

More information

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~

単位、情報量、デジタルデータ、CPUと高速化  ~ICT用語集~ CPU ICT mizutani@ic.daito.ac.jp 2014 SI: Systèm International d Unités SI SI 10 1 da 10 1 d 10 2 h 10 2 c 10 3 k 10 3 m 10 6 M 10 6 µ 10 9 G 10 9 n 10 12 T 10 12 p 10 15 P 10 15 f 10 18 E 10 18 a 10 21

More information

卒業論文

卒業論文 PC OpenMP SCore PC OpenMP PC PC PC Myrinet PC PC 1 OpenMP 2 1 3 3 PC 8 OpenMP 11 15 15 16 16 18 19 19 19 20 20 21 21 23 26 29 30 31 32 33 4 5 6 7 SCore 9 PC 10 OpenMP 14 16 17 10 17 11 19 12 19 13 20 1421

More information

スライド 1

スライド 1 swk(at)ic.is.tohoku.ac.jp 2 Outline 3 ? 4 S/N CCD 5 Q Q V 6 CMOS 1 7 1 2 N 1 2 N 8 CCD: CMOS: 9 : / 10 A-D A D C A D C A D C A D C A D C A D C ADC 11 A-D ADC ADC ADC ADC ADC ADC ADC ADC ADC A-D 12 ADC

More information

HPEハイパフォーマンスコンピューティング ソリューション

HPEハイパフォーマンスコンピューティング ソリューション HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System

More information

main.dvi

main.dvi PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1

More information

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla

More information

(Version: 2017/4/18) Intel CPU 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU do

(Version: 2017/4/18) Intel CPU 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU do (Version: 2017/4/18) Intel CPU (kashi@waseda.jp) 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU double 8087 FPU (floating point number processing unit)

More information

HPC可視化_小野2.pptx

HPC可視化_小野2.pptx 大 小 二 生 高 方 目 大 方 方 方 Rank Site Processors RMax Processor System Model 1 DOE/NNSA/LANL 122400 1026000 PowerXCell 8i BladeCenter QS22 Cluster 2 DOE/NNSA/LLNL 212992 478200 PowerPC 440 BlueGene/L 3 Argonne

More information

26102 (1/2) LSISoC: (1) (*) (*) GPU SIMD MIMD FPGA DES, AES (2/2) (2) FPGA(8bit) (ISS: Instruction Set Simulator) (3) (4) LSI ECU110100ECU1 ECU ECU ECU ECU FPGA ECU main() { int i, j, k for { } 1 GP-GPU

More information

倍々精度RgemmのnVidia C2050上への実装と応用

倍々精度RgemmのnVidia C2050上への実装と応用 .. maho@riken.jp http://accc.riken.jp/maho/,,, 2011/2/16 1 - : GPU : SDPA-DD 10 1 - Rgemm : 4 (32 ) nvidia C2050, GPU CPU 150, 24GFlops 25 20 GFLOPS 15 10 QuadAdd Cray, QuadMul Sloppy Kernel QuadAdd Cray,

More information

九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター

九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター 九州大学学術情報リポジトリ Kyushu University Institutional Repository 将来 (2010 年前後を想定 ) のペタフロップス超級スパコンセンターとの連携について 村上, 和彰九州大学大学院システム情報科学研究院 九州大学情報基盤センター http://hdl.handle.net/2324/9112 出版情報 :SLRC プレゼンテーション, 2005-03-08

More information

ito.dvi

ito.dvi 1 2 1006 214 542 160 120 160 1 1916 49 1710 55 1716 1 2 1995 1 2 3 4 2 3 1950 1973 1969 1989 1 4 3 3.1 3.1.1 1989 2 3.1.2 214 542 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

More information

User's Guide

User's Guide magicolor 2300 DL 1800687-014B magicolor 2300 DL Windows TCP/IP Web URL http://www.minolta-qms.co.jp/support/userreg/index.html QMS MINOLTA-QMS magicolor MINOLTA-QMS, Inc. Minolta Peerless Systems Corporation

More information

HP ProLiant 500シリーズ

HP ProLiant 500シリーズ HPProLiant5 DL58/585 HPProLiant5 4 HPProLiant5 HPProLiant5 64 HPProLiant5 TPC-H@1GB 4, 34,99 SAP SD Benchmark Users QphH@1GB 3, 2, 1, 4, 3, 2, 1, DL58 G5, Xeon X735 DL585 G5, AMD Opteron 836SE 17,12 DL58

More information

2

2 GPU 2008/11/30 GPU GPU UniformGrid GPU CPU GeForce6 9 kd-tree GPU GPU UG kd-tree GPU CPU GPU GPU GPU I/O PCI-Express DMA DirectX9 DirectX 3D OpenGL CUDA Larrabee Mac 2008/11/28 Mac(Carbon) Carbon.framework/QuickTime.framework

More information

CP-PACS CP-PACS CP-PACS : 2048PU+128IOU 614GFLOPS peak 128GByte memory 1058GByte disk 1992 1996 SR2201 : 1996 8 9 CP-PACS Top 500 List ranking No. 1 November 1996 Linpack 368.2Gflops No. 24 Novermber 1999

More information

NEC All rights reserved 1

NEC All rights reserved 1 NEC All rights reserved 1 NEC All rights reserved 2 NEC All rights reserved 3 (Founder) (Langchao Langchao) NEC All rights reserved 4 2.1 GB/s 64 bits wide 266 MHz 4 MB L3 on board, 96k L2, 32k L1 on -die

More information

2/66

2/66 1/66 9 Outline 1. 2. 3. 4. CPU 5. Jun. 13, 2013@A 2/66 3/66 4/66 Network Memory Memory Memory CPU SIMD if Cache CPU Cache CPU Cache CPU 5/66 FPU FPU Floating Processing Unit Register Register Register

More information

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë 2015 5 21 OpenMP Hello World Do (omp do) Fortran (omp workshare) CPU Richardson s Forecast Factory 64,000 L.F. Richardson, Weather Prediction by Numerical Process, Cambridge, University Press (1922) Drawing

More information

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1 GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の

More information

( ) ( ) HPC SPH FPGA Web http://galaxy.u-aizu.ac.jp/trac/note/ : 1 4 : 2 6 : 3 6 GPU : ~ 100 1000 : ~ 1000-100000 Google : ~ 10000 : ~ 100000000 GPU, Cell, FPGA GRAPE-DR/GRAPE-MP ( ) GPU GPU : Matsumoto,

More information

68 A mm 1/10 A. (a) (b) A.: (a) A.3 A.4 1 1

68 A mm 1/10 A. (a) (b) A.: (a) A.3 A.4 1 1 67 A Section A.1 0 1 0 1 Balmer 7 9 1 0.1 0.01 1 9 3 10:09 6 A.1: A.1 1 10 9 68 A 10 9 10 9 1 10 9 10 1 mm 1/10 A. (a) (b) A.: (a) A.3 A.4 1 1 A.1. 69 5 1 10 15 3 40 0 0 ¾ ¾ É f Á ½ j 30 A.3: A.4: 1/10

More information

II 2 II

II 2 II II 2 II 2005 yugami@cc.utsunomiya-u.ac.jp 2005 4 1 1 2 5 2.1.................................... 5 2.2................................. 6 2.3............................. 6 2.4.................................

More information

n ξ n,i, i = 1,, n S n ξ n,i n 0 R 1,.. σ 1 σ i .10.14.15 0 1 0 1 1 3.14 3.18 3.19 3.14 3.14,. ii 1 1 1.1..................................... 1 1............................... 3 1.3.........................

More information

1 osana@eee.u-ryukyu.ac.jp : FPGA : HDL, Xilinx Vivado + Digilent Nexys4 (Artix-7 100T) LSI / PC clock accurate / Artix-7 XC7A100T Kintex-7 XC7K325T : CAD Hands-on: HDL (Verilog) CAD (Vivado HLx) : 28y4

More information

09中西

09中西 PC NEC Linux (1) (2) (1) (2) 1 Linux Linux 2002.11.22) LLNL Linux Intel Xeon 2300 ASCIWhite1/7 / HPC (IDC) 2002 800 2005 2004 HPC 80%Linux) Linux ASCI Purple (ASCI 100TFlops Blue Gene/L 1PFlops (2005)

More information

1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU.....

1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU..... CPU GPU N Q07-065 2011 2 17 1 1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU...........................................

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション みんなの ベクトル計算 たけおか @takeoka PC クラスタ コンソーシアム理事でもある 2011/FEB/20 ベクトル計算が新しい と 2008 年末に言いました Intelに入ってる! (2008 年から見た 近未来? ) GPU 計算が新しい (2008 年当時 ) Intel AVX (Advanced Vector Extension) SIMD 命令を進めて ベクトル機構をつける

More information

untitled

untitled 13 Verilog HDL 16 CPU CPU IP 16 1023 2 reg[ msb: lsb] [ ]; reg [15:0] MEM [0:1023]; //16 1024 16 1 16 2 FF 1 address 8 64 `resetall `timescale 1ns/10ps module mem8(address, readdata,writedata, write, read);

More information

HP Compaq Business Desktop dx7300シリーズ

HP Compaq Business Desktop dx7300シリーズ 本カタログは 旧製品もしくはすでに販売終了した製品のカタログです 最新版のカタログ 現在販売している製品のカタログは下記サイトにございます www.hp.com/jp/catalog その他ご不明な点は下記お問い合わせ窓口までご連絡ください HP Directplus 9 00 19 00 5/1 10 00 17 00 03-6416-6222 HP 9 00 19 00 10 00 17 00

More information

2 Chapter 4 (f4a). 2. (f4cone) ( θ) () g M. 2. (f4b) T M L P a θ (f4eki) ρ H A a g. v ( ) 2. H(t) ( )

2 Chapter 4 (f4a). 2. (f4cone) ( θ) () g M. 2. (f4b) T M L P a θ (f4eki) ρ H A a g. v ( ) 2. H(t) ( ) http://astr-www.kj.yamagata-u.ac.jp/~shibata f4a f4b 2 f4cone f4eki f4end 4 f5meanfp f6coin () f6a f7a f7b f7d f8a f8b f9a f9b f9c f9kep f0a f0bt version feqmo fvec4 fvec fvec6 fvec2 fvec3 f3a (-D) f3b

More information

Ver. 3.8 Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI,,

Ver. 3.8 Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI,, PowerEdge R730 Contents RAID /RAID & PCIe GPU OS P3-5 P6 P7 P8 P9-10 P11-16 P17-55 P56 P57-66 P67-69 P70-72 P72 P73 P74-77 P78-81 P82-88 P88-89 P90-91 V3.8 Apr. 2017 2017 4 28 2016 4 22 Ver. 3.8 Ver. 1.0

More information

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

Microsoft PowerPoint - CCS学際共同boku-08b.ppt マルチコア / マルチソケットノードに おけるメモリ性能のインパクト 研究代表者朴泰祐筑波大学システム情報工学研究科 taisuke@cs.tsukuba.ac.jp アウトライン 近年の高性能 PC クラスタの傾向と問題 multi-core/multi-socket ノードとメモリ性能 メモリバンド幅に着目した性能測定 multi-link network 性能評価 まとめ 近年の高性能 PC

More information

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›» rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced

More information

( )/2 hara/lectures/lectures-j.html 2, {H} {T } S = {H, T } {(H, H), (H, T )} {(H, T ), (T, T )} {(H, H), (T, T )} {1

( )/2   hara/lectures/lectures-j.html 2, {H} {T } S = {H, T } {(H, H), (H, T )} {(H, T ), (T, T )} {(H, H), (T, T )} {1 ( )/2 http://www2.math.kyushu-u.ac.jp/ hara/lectures/lectures-j.html 1 2011 ( )/2 2 2011 4 1 2 1.1 1 2 1 2 3 4 5 1.1.1 sample space S S = {H, T } H T T H S = {(H, H), (H, T ), (T, H), (T, T )} (T, H) S

More information

GPUを用いたN体計算

GPUを用いたN体計算 単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ

More information

I II

I II I II I I 8 I I 5 I 5 9 I 6 6 I 7 7 I 8 87 I 9 96 I 7 I 8 I 9 I 7 I 95 I 5 I 6 II 7 6 II 8 II 9 59 II 67 II 76 II II 9 II 8 II 5 8 II 6 58 II 7 6 II 8 8 I.., < b, b, c, k, m. k + m + c + c b + k + m log

More information

Ver Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI

Ver Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI PowerEdge T630 Contents RAID /RAID & PCIe GPU OS V4.10 Mar.2018 P3-5 P6 P7 P8-9 P10-11 P12-16 P17-84 P85-90 P91-92 P93-95 P95 P96-97 P98-101 P102-105 P106-110 P110-111 P112-113 2018 3 30 2016 4 22 Ver.

More information

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用] SS 研科学技術計算分科会 アクセラレータ技術の現状と今後 ~HPC とアクセラレータ ~ 2008 年 10 月 22 日村上和彰 murakami@i.kyushu u.ac.jp 国立大学法人九州大学教授 SS 研会長 1 概要 高性能科学技術計算 (HPC) とアクセラレータとの関係は歴史が長い ベクトル処理もアクセラレータの一種であり かつ その元祖的存在である ベクトル処理が時間軸方向のデータレベル並列処理だったものを空間軸方向に置き換えたものが現在主流となっている

More information

PowerEdge R730xd Contents RAID /RAID & P3-6 PCIe P P P P OS P P P P7 P8 P9 P10-11 P12-17 P P112

PowerEdge R730xd Contents RAID /RAID & P3-6 PCIe P P P P OS P P P P7 P8 P9 P10-11 P12-17 P P112 PowerEdge R730xd Contents RAID /RAID & P3-6 PCIe P113-123 P124-126 P127-130 P131-134 OS P135-139 P139-140 P141-142 P7 P8 P9 P10-11 P12-17 P18-111 P112 v4.11 Apr. 2018 2018 4 30 2016 4 22 Ver. 4.11 Ver.

More information

HP xw9400 Workstation

HP xw9400 Workstation HP xw9400 Workstation HP xw9400 Workstation AMD Opteron TM PCI Express x16 64 PCI Express x16 2 USB2.0 8 IEEE1394 2 8DIMM HP HP xw9400 Workstation HP CPU HP CPU 240W CPU HP xw9400 HP CPU CPU CPU CPU Sound

More information

01_OpenMP_osx.indd

01_OpenMP_osx.indd OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS

More information

GPGPU

GPGPU GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the

More information

64bit SSE2 SSE2 FPU Visual C++ 64bit Inline Assembler 4 FPU SSE2 4.1 FPU Control Word FPU 16bit R R R IC RC(2) PC(2) R R PM UM OM ZM DM IM R: reserved

64bit SSE2 SSE2 FPU Visual C++ 64bit Inline Assembler 4 FPU SSE2 4.1 FPU Control Word FPU 16bit R R R IC RC(2) PC(2) R R PM UM OM ZM DM IM R: reserved (Version: 2013/7/10) Intel CPU (kashi@waseda.jp) 1 Intel CPU( AMD CPU) 64bit SIMD Inline Assemler Windows Visual C++ Linux gcc 2 FPU SSE2 Intel CPU double 8087 FPU (floating point number processing unit)

More information

1. A0 A B A0 A : A1,...,A5 B : B1,...,B

1. A0 A B A0 A : A1,...,A5 B : B1,...,B 1. A0 A B A0 A : A1,...,A5 B : B1,...,B12 2. 3. 4. 5. A0 A, B Z Z m, n Z m n m, n A m, n B m=n (1) A, B (2) A B = A B = Z/ π : Z Z/ (3) A B Z/ (4) Z/ A, B (5) f : Z Z f(n) = n f = g π g : Z/ Z A, B (6)

More information

N08

N08 CPU のキモチ C.John 自己紹介 英語きらい 絵かけない 人の話を素直に信じない CPUにキモチなんてない お詫び 予告ではCとC# とありましたがやる気と時間の都合上 C++のみを対象とします 今日のネタ元 MSDN マガジン 2010 年 10 月号 http://msdn.microsoft.com/ja-jp/magazine/cc850829.aspx Windows と C++

More information

Ver. 3.8 Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI,

Ver. 3.8 Ver NOTE E v3 2.4GHz, 20M cache, 8.00GT/s QPI,, HT, 8C/16T 85W E v3 1.6GHz, 15M cache, 6.40GT/s QPI, PowerEdge T630 Contents RAID /RAID & PCIe GPU OS v3.8 Apr. 2017 P3-5 P6 P7 P8-9 P10-11 P12-16 P17-79 P80-85 P86-87 P88-90 P90 P91-92 P93-96 P97-100 P101-107 P107-108 P109-110 2017 4 28 2016 4 22 Ver. 3.8

More information

: , 2.0, 3.0, 2.0, (%) ( 2.

: , 2.0, 3.0, 2.0, (%) ( 2. 2017 1 2 1.1...................................... 2 1.2......................................... 4 1.3........................................... 10 1.4................................. 14 1.5..........................................

More information

. ev=,604k m 3 Debye ɛ 0 kt e λ D = n e n e Ze 4 ln Λ ν ei = 5.6π / ɛ 0 m/ e kt e /3 ν ei v e H + +e H ev Saha x x = 3/ πme kt g i g e n

. ev=,604k m 3 Debye ɛ 0 kt e λ D = n e n e Ze 4 ln Λ ν ei = 5.6π / ɛ 0 m/ e kt e /3 ν ei v e H + +e H ev Saha x x = 3/ πme kt g i g e n 003...............................3 Debye................. 3.4................ 3 3 3 3. Larmor Cyclotron... 3 3................ 4 3.3.......... 4 3.3............ 4 3.3...... 4 3.3.3............ 5 3.4.........

More information

4

4 4 r r 43 44 a b c f d e a r b c d e f 45 r r r 46 47 a b g a b r c d e f r g c d e f e 48 mm r r 1 49 a r b c a b 1 1 a 3 a 50 1 a 3 1 mb a 1 mm 3 a a a 51 1 mm 1 mm 1 5 mb 3 4 1 3 4 1 53 1 1 mj r 1 a

More information

(Basic Theory of Information Processing) 1

(Basic Theory of Information Processing) 1 (Basic Theory of Information Processing) 1 10 (p.178) Java a[0] = 1; 1 a[4] = 7; i = 2; j = 8; a[i] = j; b[0][0] = 1; 2 b[2][3] = 10; b[i][j] = a[2] * 3; x = a[2]; a[2] = b[i][3] * x; 2 public class Array0

More information

Myrinet2000 ご紹介

Myrinet2000 ご紹介 34 HPC -Myrinet- ES HPC http://www.sse.co.jp/myrinet/ Out Line Myrinet HPC 50 2 4 O.S. Computer Computer Computer Computer Computer Low-level Interconnection Network (transport & switching) 2-4 / / OS

More information

c 2009 i

c 2009 i I 2009 c 2009 i 0 1 0.0................................... 1 0.1.............................. 3 0.2.............................. 5 1 7 1.1................................. 7 1.2..............................

More information

Microsoft PowerPoint - ★13_日立_清水.ppt

Microsoft PowerPoint - ★13_日立_清水.ppt PC クラスタワークショップ in 京都 日立テクニカルコンピューティングクラスタ 2008/7/25 清水正明 日立製作所中央研究所 1 目次 1 2 3 4 日立テクニカルサーバラインナップ SR16000 シリーズ HA8000-tc/RS425 日立自動並列化コンパイラ 2 1 1-1 日立テクニカルサーバの歴史 最大性能 100TF 10TF 30 年間で百万倍以上の向上 (5 年で 10

More information