KBLAS[7] *1., CUBLAS.,,, Byte/flop., [13] 1 2. (AT). GPU AT,, GPU SYMV., SYMV CUDABLAS., (double, float) (cu- FloatComplex, cudoublecomplex).,, DD(dou
|
|
- かずき さかど
- 6 years ago
- Views:
Transcription
1 Vol.214-HPC-146 No /1/3 CUDA-xSYMV 1,3,a) 1 2,3 2,3 (SYMV)., (GEMV) 2.,, mutex., CUBLAS., 1 2,. (AT). 2, SYMV GPU., SSYMV( SYMV), GeForce GTXTitan Black 211GFLOPS( 62.8%)., ( ) (, ) DD(double-double), SYMV (CHEMV, ZHEMV, WSYMV),. 1. (SYMV).,. y := αa UorL x + βy (A(= A T ) R n n, x R n ) (1) BLAS,,. SYMV BLAS 2, O(N 2 ) O(N 2 ), O(1)., GPU CPU, GPU BLAS CUBLAS[1] 1 RIKEN Advanced Institute for Computational Science, Kobe, Hyogo 2 Japan Atomic Energy Agency, Kashiwa, Chiba 3 CREST CREST JST, Kawaguchi, Saitama a) imamura.toshiyuki@riken.jp MAGMA[2] CPU., Sørensen GLAS [3], [4], [5] GEMV 63.8%(NVIDIA Tesla C25 9GB/s=45GFLOPS). [6], [7], [8]., SYMV GPU [9], [1], [11]. SYMV SYxxx,., GEMV 1/2 [9], [11]., Byte/flop 1/2, GEMV 2.,, GEMV 2., SYMV [7], [11]., CUDA 6.[12] CUBLAS c 214 Information Processing Society of Japan 1
2 KBLAS[7] *1., CUBLAS.,,, Byte/flop., [13] 1 2. (AT). GPU AT,, GPU SYMV., SYMV CUDABLAS., (double, float) (cu- FloatComplex, cudoublecomplex).,, DD(doubledouble) [14], ( Atomic Algorithm) SYMV.,, SYMV. 2. CUDA-xSYMV 2.1 (Atomic algorithm) 1/2. 1, A SYMV. 2 (Aij=A(i,j)) 1 2., 1word/4flop 1word/2flop). 8/4=2B/F, 4/4=1B/F. MV. B/F , 2 1, 2 1 *1, cublassetatomicsmode CUBLAS ATOMICS ALLOWED.! Sequential SYMV kernel algorithm! Compute y:=alpha*a*x+beta*y! v(1:n)=; y(1:n)*=beta! part one do j=1,n t= do i=1,j-1 Aij=A(i,j) v(i)+=aij*x(j) t+=aij*x(i) enddo y(j)+=alpha*t enddo! part two do i=1,n y(i)+=alpha*a(i,i)*x(i) enddo! part three y(1:n)+=alpha*v(1:n) 1 2 SYMV ( A ) i Tx U s Tx U/Ty dd dd threadidx.x dd d k dd threadidx.y dd dd Ty (Tx, Ty, U) (i, d, k, s)., [11], [13] , 2 1. v, Ty. 3 CUDA , part one three Vol.214-HPC-146 No /1/3 1 3 part one 2 ( ) c 214 Information Processing Society of Japan 2
3 3 kernel symv preprocess j := get threadid(). if j < n then v(j) :=, and y(j) *= beta. if j < MAX blkid then ticket(j) := MAX blkid. if j = then atomicexch( &Master blkid, ). endkernel kernel symv main <Tx, Ty, U, M> define j j + threadidx.x. thid := get localid(), and blkid := get blockid(). d := (U/Ty)*threadIdx.y, i := U*blkID, and s := ceil(i 1, Tx). Ticket := ticket. yreg[] :=... := yreg[u/ty 1] :=. // part one for j:= to s 1 step Tx if j < i 1 then areg[k] := A(j, i + k + d), yreg[k] += areg[k]*x(j), and wreg := kareg[k]*x(i + k) for k [, U/Ty). get Ticket( Ticket ) wreg := sumup wreg through Ty. if j < i 1 then v(j) += wreg. release Ticket( Ticket ), and Ticket++. endfor // part two for j:= thid to U do shm[thid][j] := shm[j][thid] := A(i + thid, i + j). endfor synchthreads if thid < U then yreg[k] := shm[thid][k]*x(i+k) for k [, U/Ty). shm[k][thid] := sumup yreg[k] through Tx for k [, U/Ty). if thid < U then y(i+thid) += alpha*shm[thid][thid]. endkernel kernel symv postprocess // part three j := get threadid(). if j < n then y(j) += alpha*v(j). endkernel 2 Atomic ( A, CUDA., n U.) function get blockid if ismasterthread() then c := atomicinc( &Master blkid ). broadcast c of MasterThread. return MAX blkid c. endfunction function get threadid return threadidx.x+blockidx.x*blockdim.x. endfunction function get localid return threadidx.x+threadidx.y*blockdim.x. endfunction procedure get Ticket( int *Ticket ) if ismastertthread() then while (TRUE) c := atomiccas( Ticket, blkid, 1 ). if c = blkid break endwhile syncthreads endprocedure procedure relase Ticket( int *Ticket ) syncthreads if ismasterthread() then atomicexch( Ticket, blkid 1 ). endprocedure 4 Atomic., v(i) part one. 3, mutex Ticket get_ticket() release_ticket(), ( 4 ). get_ticket() atomiccas Ticket 1. release_ticket().,. CUDA 6.[12] CUBLAS[1].,,.,, ID,. Vol.214-HPC-146 No /1/3 c 214 Information Processing Society of Japan 3
4 // void symv <T> // ( char, int, T, T*, int, T*, int, T, T*, int ) // void ASPEN_dsymv ( char uplo, int n, double alpha, double *a, int lda, double *x, int incx, double beta, double *y, int incy ); void ASPEN_ssymv ( char uplo, int n, float alpha, float *a, int lda, float *x, int incx, float beta, float *y, int incy ); void ASPEN_chemv ( char uplo, int n, cufloatcomplex alpha, cufloatcomplex *a, int lda, cufloatcomplex *x, int incx, cufloatcomplex beta, cufloatcomplex *y, int incy); void ASPEN_zhemv ( char uplo, int n, cudoublecomplex alpha, cudoublecomplex *a, int lda, cudoublecomplex *x, int incx, cudoublecomplex beta, cudoublecomplex *y, int incy); void ASPEN_wsymv ( char uplo, int n, cuddreal alpha, cuddreal *a, int lda, cuddreal *x, int incx, cuddreal beta, cuddreal *y, int incy); x-symv API part two, three, 2, v y. preprocess v, y,. 2.2 (template/cucomplex/dd real), SYMV 1., double float, T double float., ( 5 x-symv API ) ([CZ]HEMV) CUDA, cucomplex.h, cufloatcomplex cudoublecomplex typedef float2 double2., cucomplex,.,, (WSYMV) GPU.,., Bailey DD(double double) [14], [15]. MPACK[16] DGEMM QPBLAS-GPU[17], GPU. DD, Bailey 1DD 21. Byte/flop 3 LD 1ST (3+1)*(8*2)/21=3.Byte/flop. DD.,, DD DDFLOPS, DD double 2., DD 1/2. 4 DD(double double), typedef double2, DD double2 2.,, typedef cuddreal ( qd [14] dd_real ). * 2 3. (AT) (Tx, Ty, U), SM(X) (, ) m, M. m, M [13]., GPU 1.,, * Vol.214-HPC-146 No /1/3 [13], 2 d-spline[18] *2, typedef cucomplex., DD. *3 m, c 214 Information Processing Society of Japan 4
5 1 I ( ) T x x {32, 64,..., T xmax } T y y {1, 2,..., 8} U U/T y {3, 4,..., 32} M {1, 2,..., 1} i) 96 (3 WarpSize) T x T y T xmax, T xmax := {288 (D, W, Z, C), 32 (S)}. ii) U T x. II (GPU boolean ) USE VOLATILE USE TEXTURE USE RESTRICT USE LDG volatile texture memory const TYPE restrict * read only cache ldg() read only cache Fermi Kepler Maxwell USE VOLATILE USE TEXTURE 1 USE RESTRICT 1 USE LDG 1.,, Tx, Ty, U, m. Tx, Ty, m, U. 2,. 2 GPU SSYMV Top 5., 2., d-spline Top2,. SYMV, 3 if-then. if-then. 2, Ty 2., 2,., GPU., GPU.,. 4. SYMV 4 4GPU., SYMV, Byte/flop B/s. SYMV Byte/flops W 4(=(8*2)/4), D 2(=8/4), S 1(=4/4), Z 1(=(8*2)/(4*4)), C.5(=(4*2)/(4*4)),. Titan Black W(cuddreal: 4 ): 84GFLOPS D(double: ): 168GFLOPS S(float: ): 336GFLOPS Z(cuDoubleComplex: ): 336GLOPS C(cuFloatComplex: ): 672GFLOPS. W:D:S:Z:C=1:2:4:4: [DS]SYMV 6 9, 4 GPU [DS]SYMV (GFLOPS)., BLAS CUDA CUBLAS 6.5[1], KBLAS 1.[1], MAGMABLAS 1.5.(beta3)[2]. SYMV, 4GPU, 1 25%.,, Titan Black CUBALS6.5. NVIDIA GPU Titan Black. GPU. GTX58: D(148GB/s=77%), S(149GB/s=78%) K2c: D(134GB/s=64%), S(131GB/s=63%) Titan Black: D(22GB/s=65%), S(25GB/s=61%) * 4 GTX75Ti: D(68GB/s=78%), S(74GB/s=85%) 61% *5,.,., 2., 1.,. 4.2 WSYMV, [CZ]HEMV Vol.214-HPC-146 No /1/3 1 GeForce GTX Titan Black, 4 WSYMV, CHEMV, ZHEMV. WSYMV Byte/flop, *4 6MHz, 76%, 71%. *5 bandwidthtest, GTX58: 17GB/s, K2c: 146GB/s, Titan Black: 229GB/s, GTX75Ti: 67.3GB/s. c 214 Information Processing Society of Japan 5
6 Vol.214-HPC-146 No /1/3 2 SSYMV GPU Top 5 ( Tx, Ty, U, m, M ) kernel ID GTX58 K2c Titan Black GTX75Ti 1. (64, 2, 42, 4, ) (64, 4, 48, 4, ) (64, 4, 48, 4, ) (96, 1, 23, 8, ) 2. (64, 2, 42, 4, 1) (96, 3, 27, 4, 1) (64, 5, 6, 3, ) (64, 2, 28, 8, ) 3. (32, 8, 32, 2, 9) (96, 3, 51, 3, ) (64, 4, 44, 4, 1) (32, 8, 32, 2, 9) 4. (64, 4, 64, 2, 1) (64, 2, 34, 7, ) (96, 3, 27, 4, ) (64, 2, 28, 8, 3) 5. (96, 3, 36, 2, ) (64, 4, 44, 4, 1) (128, 2, 36, 3, 3) (64, 2, 36, 7, 1) 3 GPU (ID= L+U. if-then ) GTX58 K2c Titan Black GTX75Ti if ( 1 n < 16 ) { if ( 1 n < 1771 ) { if ( 1 n < 298 ) { if ( (1 n < 47 ) { ID=; ID=; ID=; ID=; } elsif ( 16 n < 1842 ) { } elsif ( 1777 n < 2989 ) { } elsif (298 n < 2172 ) { } elsif ( 47 n < 261 ) { ID=16; ID=6; ID=6; ID=9; } elsif ( 2166 n < 1842 ) { } elsif ( 2989 n < 3565 ) { } elsif (2172 n < 4378 ) { } elsif ( 261 n < 294 ) { ID=13: ID=5; ID=14; ID=1;... } elsif ( 3565 n ) { } elsif ( 579 n ) { ID=1; } elsif ( n ) { } elsif ( 1955 n ) { ID=1; } ID=1; ID=6; } } } 4 GPU CPU / ( 3 7MHz, GPUBoost 6MHz. 6MHz 288GB/s.) GTX58 Tesla K2c Titan Black GTX75Ti Compute Capability GPU Clock (MHz) 1544(boost NA) 76(boost NA) 889(boost 98) 12(boost 185) Multiprocessors CUDA Cores Memory Capacity (MB) Memory Clock (MHz) 48(384bit) 52(32bit) 7(384bit) * 6 54(128bit) Memory Bandwidth (GB/s) ECC Support NA Enabled NA NA Host (a) (b) (c) (a) Host (a) Host (b) Host (b) CPU AMD FX-812 Intel Core i7-393k Intel Core i7-393k CPU Core CPU Clock (GHz) Memory Capacity (GB) Linux Kernel version CUDA Version Driver Version GNU gcc Version c 214 Information Processing Society of Japan 6
7 Vol.214-HPC-146 No /1/3 情報処理学会研究報告 Performance of DSYMV on <GeForce GTX58> ASPEN.K2-1.3-DSYMVU-GTX58.dat CUDA-6.5-DSYMVU-GTX58.dat KBLAS-1.-DSYMVU-GTX58.dat MAGMA-1.5.b3-DSYMVU-GTX58.dat Performance of SSYMV on <GeForce GTX58> ASPEN.K2-1.3-SSYMVU-GTX58.dat CUDA-6.5-SSYMVU-GTX58.dat KBLAS-1.-SSYMVU-GTX58.dat MAGMA-1.5.b3-SSYMVU-GTX58.dat 2 5 図 GeForce GTX58 での SYMV の性能 (上: DSYMV 倍精度, 下: SSYMV 単精度, そ れぞれ行列は 8 次元毎に測定) 214 Information Processing Society of Japan 7
8 Vol.214-HPC-146 No /1/3 情報処理学会研究報告 Performance of DSYMV on <Tesla K2c> ASPEN.K2-1.3-DSYMVU-K2c.dat CUDA-6.5-DSYMVU-K2c.dat KBLAS-1.-DSYMVU-K2c.dat MAGMA-1.5.beta3-DSYMVU-K2c.dat Performance of SSYMV on <Tesla K2c> ASPEN.K2-1.3-SSYMVU-K2c.dat CUDA-6.5-SSYMVU-K2c.dat KBLAS-1.-SSYMVU-K2c.dat MAGMA-1.5.beta3-SSYMVU-K2c.dat 5 図 Tesla K2c での SYMV の性能 (上: DSYMV 倍精度, 下: SSYMV 単精度, それぞれ 行列は 8 次元毎に測定) 214 Information Processing Society of Japan 8
9 Vol.214-HPC-146 No /1/3 情報処理学会研究報告 Performance of DSYMV on <GeForce GTXTitan Black> ASPEN.K2-1.3-DSYMVU-GTXTITANBlack.dat CUDA-6.5-DSYMVU-GTXTITANBlack.dat KBLAS-1.-DSYMVU-GTXTITANBlack.dat MAGMA-1.5.beta3-DSYMVU-GTXTITANBlack.dat Performance of SSYMV on <GeForce GTXTitan Black> ASPEN.K2-1.3-SSYMVU-GTXTITANBlack.dat CUDA-6.5-SSYMVU-GTXTITANBlack.dat KBLAS-1.-SSYMVU-GTXTITANBlack.dat MAGMA-1.5.beta3-SSYMVU-GTXTITANBlack.dat 5 図 GeForce GTX Titan Black での SYMV の性能 (上: DSYMV 倍精度, 下: SSYMV 単 精度, それぞれ行列は 8 次元毎に測定) 214 Information Processing Society of Japan 9
10 Vol.214-HPC-146 No /1/3 情報処理学会研究報告 Performance of DSYMV on <GeForce GTX75Ti> ASPEN.K2-1.3-DSYMVU-GTX75Ti.dat CUDA-6.5-DSYMVU-GTX75Ti.dat KBLAS-1.-DSYMVU-GTX75Ti.dat MAGMA-1.5.b3-DSYMVU-GTX75Ti.dat Performance of SSYMV on <GeForce GTX75Ti> ASPEN.K2-1.3-SSYMVU-GTX75Ti.dat CUDA-6.5-SSYMVU-GTX75Ti.dat KBLAS-1.-SSYMVU-GTX75Ti.dat MAGMA-1.5.b3-SSYMVU-GTX75Ti.dat 1 5 図 GeForce GTX75Ti での SYMV の性能 (上: DSYMV 倍精度, 下: SSYMV 単精度, それぞれ行列は 8 次元毎に測定) 214 Information Processing Society of Japan 1
11 D:S:Z:C=1:2:2:4., [DS]SYMV., WSYMV. DSYMV 1/2 5GFLOPS, 4%,. ( 1 ), [SD]SYMV, ( 2 ), ( 3 ) nvcc DD,.,. 5., SYMV, mutex., 2,.. 4GPU, CUDA BLAS., ( ) (, ) DD(double-double),. Level 2 BLAS, GPUBLAS., ( : 22143)., [DS]SYMV Level-2 CUDA BLAS ASPEN.K2, ( html ). WSYMV [CZ]HEMV. [1] NVIDIA Corporation, The NVIDIA CUDA Basic Linear Algebra Subroutines, [2] Innovative Computing Laboratory, University of Tennessee, Matrix Algebra on GPU and Multicore Architectures, [3] Sørensen, H. H. B., Auto-tuning Dense Vector and Vol.214-HPC-146 No /1/3 Matrix-Vector Operations for Fermi GPUs, Parallel Processing and Applied Mathematics, LNCS 723 (212) [4] Sørensen, H. H. B.. Auto-Tuning of Level 1 and Level 2 BLAS for GPUs, Concurrency Computat.: Pract. Exper., Wiley (212) [5] GPUlab: GLAS library version..2, glas v..2 C25 cuda 4. linux.tar.gz [6], CUDA DGEMV,, Vol.4, No.4 (Oct. 211) [7] Abdelfattah, A., Keyes, D., and Ltaief, H., KBLAS: High Performance Level-2 BLAS on Multi-GPU Systems, /pdf/p4168 KBLAS GPU computing optimization.pdf, GTC214 (214). [8] Imamura, T., ASPEN-K2: Automatic-tuning and Stabilization for the Performance of CUDA BLAS Level 2 Kernels, 15th SIAM Conference on Parallel Processing for Scientific Computing (PP212), [9] Nath, R., Tomov, S., Dong, T. T., and Dongarra, J., Optimizing Symmetric Dense Matrix-vector Multiplication on GPUs, in Proceedings of 211 International Conference for High Performance Computing, Networking, Storage and Analysis, SC 11 (211) 6:1 6:1. [1] Abdelfattah, A., Keyes, D., and Ltaief, H., KAUST BLAS (KBLAS), [11] Imamura, T., Yamada, S., and Machida, M., A High Performance SYMV Kernel on a Fermi-core GPU, High Performance Computing for Computational Science VECPAR 212, LNCS 7851 (213) [12] NVIDIA Corporation, CUDA C Programming guide, C Programm ing Guide.pdf (214). [13],,,,, Fermi, Kepler GPU SYMV,, HPC, Vol. 212-HPC-138, No. 8 (212) 1 7. [14] Hida, H., Li, X. S., and Bailey, D. H., Quaddouble arithmetic: Algorithms, implementation, and application (Oct 2), Online PDF [15] Bailey, D. H., and Borwein, J. M., High-Precision Computation and Mathematical Physics, texttthttp://crd.lbl.gov/ dhbailey/dhbpapers/dhb-jmbacat8.pdf [16] Nakata, M., The MPACK (MBLAS/MLAPACK); a multiple precision arithmetic version of BLAS and LAPACK, [17],,,,, QPBLAS-GPU 18, Vol. 18 D-13-5 (213). [18],, (28). c 214 Information Processing Society of Japan 11
12 Vol.214-HPC-146 No /1/3 45 Performance of ASPEN.K2 on <GeForce GTXTitan Black> ASPEN.K2-1.3-DSYMVU-GTXTITANBlack.dat ASPEN.K2-1.3-SSYMVU-GTXTITANBlack.dat 5 ASPEN.K2-1.3-zhemv-u.dat ASPEN.K2-1.3-chemv-u.dat ASPEN.K2-1.3-wsymv-u.dat Performance of CUDA 6.5 on <GeForce GTXTitan Black> CUDA-6.5-DSYMVU-GTXTITANBlack.dat 5 CUDA-6.5-SSYMVU-GTXTITANBlack.dat CUDA-6.5-zhemv-u.dat CUDA-6.5-chemv-u.dat x-{sy HE}MV (GeForce GTX Titan Black, : ASPEN.K2, : CUDA6.5, [DS]-SYMV 8, WSYMV,[CZ]-HEMV 32, WSYMV DD DDFLOPS ) c 214 Information Processing Society of Japan 12
倍々精度RgemmのnVidia C2050上への実装と応用
.. maho@riken.jp http://accc.riken.jp/maho/,,, 2011/2/16 1 - : GPU : SDPA-DD 10 1 - Rgemm : 4 (32 ) nvidia C2050, GPU CPU 150, 24GFlops 25 20 GFLOPS 15 10 QuadAdd Cray, QuadMul Sloppy Kernel QuadAdd Cray,
More information07-二村幸孝・出口大輔.indd
GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia
More information1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N
GPU 1 1 2 1, 3 2, 3 (Graphics Unit: GPU) GPU GPU GPU Evaluation of GPU Computing Based on An Automatic Program Generation Technology Makoto Sugawara, 1 Katsuto Sato, 1 Kazuhiko Komatsu, 2 Hiroyuki Takizawa
More information211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G
211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS211 211/1/18 GPU 4 8 BLAS 4 8 BLAS Basic Linear Algebra Subprograms GPU Graphics Processing Unit 4 8 double 2 4 double-double DD 4 4 8 quad-double
More informationuntitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
More informationIPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla
GPU CRS 1,a),b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla K0 CUDA5.0 cusparse CRS SpMV 00 1.86 177 1. SpMV SpMV CRS Compressed Row Storage *1 SpMV GPU GPU NVIDIA Kepler
More informationuntitled
A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X GPGPU A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i } A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i }
More information1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU
GPGPU (I) GPU GPGPU 1 GPU(Graphics Processing Unit) GPU GPGPU(General-Purpose computing on GPUs) GPU GPGPU GPU ( PC ) PC PC GPU PC PC GPU GPU 2008 TSUBAME NVIDIA GPU(Tesla S1070) TOP500 29 [1] 2009 AMD
More informationMicrosoft PowerPoint - GPU_computing_2013_01.pptx
GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2 GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格
More informationCPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2
FFT 1 Fourier fast Fourier transform FFT FFT FFT 1 FFT FFT 2 Fourier 2.1 Fourier FFT Fourier discrete Fourier transform DFT DFT n 1 y k = j=0 x j ω jk n, 0 k n 1 (1) x j y k ω n = e 2πi/n i = 1 (1) n DFT
More informationGPU n Graphics Processing Unit CG CAD
GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1 GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac
More informationSlides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments
計算機アーキテクチャ第 11 回 マルチプロセッサ 本資料は授業用です 無断で転載することを禁じます 名古屋大学 大学院情報科学研究科 准教授加藤真平 デスクトップ ジョブレベル並列性 スーパーコンピュータ 並列処理プログラム プログラムの並列化 for (i = 0; i < N; i++) { x[i] = a[i] + b[i]; } プログラムの並列化 x[0] = a[0] + b[0];
More information4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司
4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司 3 1 1 日本原子力研究開発機構システム計算科学センター 2 理科学研究所計算科学研究機構 3 東京大学新領域創成科学研究科
More informationMBLAS¤ÈMLAPACK; ¿ÇÜĹÀºÅÙÈǤÎBLAS/LAPACK¤ÎºîÀ®
MBLAS MLAPACK; BLAS/LAPACK maho@riken.jp February 23, 2009 MPACK(MBLAS/MLAPACK) ( ) (2007 ) ( ) http://accc.riken.jp/maho/ BLAS/LAPACK http://mplapack.sourceforge.net/ BLAS (Basic Linear Algebra Subprograms)
More informationGPGPU
GPGPU 2013 1008 2015 1 23 Abstract In recent years, with the advance of microscope technology, the alive cells have been able to observe. On the other hand, from the standpoint of image processing, the
More information! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2
! OpenCL [Open Computing Language] 言 [OpenCL C 言 ] CPU, GPU, Cell/B.E.,DSP 言 行行 [OpenCL Runtime] OpenCL C 言 API Khronos OpenCL Working Group AMD Broadcom Blizzard Apple ARM Codeplay Electronic Arts Freescale
More information( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I
GPGPU (II) GPGPU CUDA 1 GPGPU CUDA(CUDA Unified Device Architecture) CUDA NVIDIA GPU *1 C/C++ (nvcc) CUDA NVIDIA GPU GPU CUDA CUDA 1 CUDA CUDA 2 CUDA NVIDIA GPU PC Windows Linux MaxOSX CUDA GPU CUDA NVIDIA
More informationストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY
SIMD 2(SSE2) SAXPY/DAXPY 2.0 2000 7 : 248600J-001 01/12/06 1 305-8603 115 Fax: 0120-47-8832 * Copyright Intel Corporation 1999, 2000 01/12/06 2 1...5 2 SAXPY DAXPY...5 2.1 SAXPY DAXPY...6 2.1.1 SIMD C++...6
More informationAMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted
DEGIMA LINPACK Energy Performance for LINPACK Benchmark on DEGIMA 1 AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK 1.4698 GFlops/Watt 1.9658 GFlops/Watt Abstract GPU Computing has
More informationIPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of
GPU 1,a) 1,b) 1,c) 1,d) GPU 1 GPU Structure Of Array Array Of Structure 1. MPS(Moving Particle Semi-Implicit) [1] SPH(Smoothed Particle Hydrodynamics) [] DEM(Distinct Element Method)[] [] 1 Tokyo Institute
More informationtabaicho3mukunoki.pptx
1 2 はじめに n 目的 4倍精度演算より高速な3倍精度演算を実現する l 倍精度では足りないが4倍精度は必要ないケースに欲しい l 4倍精度に比べてデータサイズが小さい Ø 少なくともメモリ律速な計算では4倍精度よりデータ 転送時間を減らすことが可能 Ø PCIeやノード間通信がボトルネックとなりやすい GPUクラスタ環境に有効か n 研究概要 l DD型4倍精度演算 DD演算 に基づく3倍精度演算
More informationGPU CUDA CUDA 2010/06/28 1
GPU CUDA CUDA 2010/06/28 1 GPU NVIDIA Mark Harris, Optimizing Parallel Reduction in CUDA http://developer.download.nvidia.com/ compute/cuda/1_1/website/data- Parallel_Algorithms.html#reduction CUDA SDK
More informationVol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c
Vol.214-HPC-145 No.45 214/7/3 OpenACC 1 3,1,2 1,2 GPU CUDA OpenCL OpenACC OpenACC High-level OpenACC CPU Intex Xeon Phi K2X GPU Intel Xeon Phi 27% K2X GPU 24% 1. TSUBAME2.5 CPU GPU CUDA OpenCL CPU OpenMP
More informationGPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1
GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1 Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla
More informationTSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日
TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日 目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析 デバッグ サンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です 1.
More information基盤研究(B) 「マルチコア複合環境を指向した適応型自動チューニング技術」
複合マルチコア環境のため の自動チューニング技術 第 2 回自動チューニング技術の現状と応用に関するシンポジウム Second symposium on Automatic Tuning Technology and its Application 基盤研究 (B) 21300013 マルチコア複合環境を指向した適応型自動チューニング技術 今村俊幸 電気通信大学情報理工学研究科 2010/11/04
More informationQD library! Feature! Easy to use high precision! Easy to understand the structure of arithmetic! 2 type high precision arithmetic! Double-Double precision (pseudo quadruple precision)! Quad-Double precision
More informationB 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1
TSUBAME 2.0 Linpack 1,,,, Intel NVIDIA GPU 2010 11 TSUBAME 2.0 Linpack 2CPU 3GPU 1400 Dual-Rail QDR InfiniBand TSUBAME 1.0 30 2.4PFlops TSUBAME 1.0 Linpack GPU 1.192PFlops PFlops Top500 4 Achievement of
More informationmain.dvi
PC 1 1 [1][2] [3][4] ( ) GPU(Graphics Processing Unit) GPU PC GPU PC ( 2 GPU ) GPU Harris Corner Detector[5] CPU ( ) ( ) CPU GPU 2 3 GPU 4 5 6 7 1 toyohiro@isc.kyutech.ac.jp 45 2 ( ) CPU ( ) ( ) () 2.1
More information23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h
23 FPGA CUDA Performance Comparison of FPGA Array with CUDA on Poisson Equation (lijiang@sekine-lab.ei.tuat.ac.jp), (kazuki@sekine-lab.ei.tuat.ac.jp), (takahashi@sekine-lab.ei.tuat.ac.jp), (tamukoh@cc.tuat.ac.jp),
More informationDO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速
1 1, 2 1, 2 3 2, 3 4 GP LES ASUCA LES NVIDIA CUDA LES 1. Graphics Processing Unit GP General-Purpose SIMT Single Instruction Multiple Threads 1 2 3 4 1),2) LES Large Eddy Simulation 3) ASUCA 4) LES LES
More informationSecond-semi.PDF
PC 2000 2 18 2 HPC Agenda PC Linux OS UNIX OS Linux Linux OS HPC 1 1CPU CPU Beowulf PC (PC) PC CPU(Pentium ) Beowulf: NASA Tomas Sterling Donald Becker 2 (PC ) Beowulf PC!! Linux Cluster (1) Level 1:
More informationマルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装
2010 GPGPU 2010 9 29 MPI/Pthread (DDM) DDM CPU CPU CPU CPU FEM GPU FEM CPU Mult - NUMA Multprocessng Cell GPU Accelerator, GPU CPU Heterogeneous computng L3 cache L3 cache CPU CPU + GPU GPU L3 cache 4
More information1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin
Windows で始める CUDA 入門 GTC 2013 チュートリアル エヌビディアジャパン CUDA エンジニア森野慎也 1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境
More informationIPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1
SMYLE OpenCL 128 1 1 1 1 1 2 2 3 3 3 (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 128 SMYLEref SMYLE OpenCL SMYLE OpenCL Implementation and Evaluations on 128 Cores Takuji Hieda 1 Noriko Etani
More informationCUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン
CUDA 画像処理入門 エヌビディアジャパン CUDA エンジニア森野慎也 GTC Japan 2014 CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン RGB Y( 輝度 ) 変換 カラー画像から グレイスケールへの変換 Y = 0.299 R + 0.587
More information1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU.....
CPU GPU N Q07-065 2011 2 17 1 1 4 1.1........................................... 4 1.2.................................. 4 1.3................................... 4 2 5 2.1 GPU...........................................
More informationスライド 1
GPU クラスタによる格子 QCD 計算 広大理尾崎裕介 石川健一 1.1 Introduction Graphic Processing Units 1 チップに数百個の演算器 多数の演算器による並列計算 ~TFLOPS ( 単精度 ) CPU 数十 GFLOPS バンド幅 ~100GB/s コストパフォーマンス ~$400 GPU の開発環境 NVIDIA CUDA http://www.nvidia.co.jp/object/cuda_home_new_jp.html
More informationIPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS
Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) HA-PACS 2012 2 HA-PACS TCA (Tightly Coupled Accelerators) TCA PEACH2 1. (Graphics Processing Unit) HPC GP(General Purpose ) TOP500 [1] CPU PCI Express (PCIe)
More informationrank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»
rank GPU ERATO 2011 11 1 1 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced parenthesis GPU rank 2 / 26 GPU rank/select wavelet tree balanced
More information01_OpenMP_osx.indd
OpenMP* / 1 1... 2 2... 3 3... 5 4... 7 5... 9 5.1... 9 5.2 OpenMP* API... 13 6... 17 7... 19 / 4 1 2 C/C++ OpenMP* 3 Fortran OpenMP* 4 PC 1 1 9.0 Linux* Windows* Xeon Itanium OS 1 2 2 WEB OS OS OS 1 OS
More information10D16.dvi
D IEEJ Transactions on Industry Applications Vol.136 No.10 pp.686 691 DOI: 10.1541/ieejias.136.686 NW Accelerating Techniques for Sequence Alignment based on an Extended NW Algorithm Jin Okaze, Non-member,
More informationメモリ階層構造を考慮した大規模グラフ処理の高速化
, CREST ERATO 0.. (, CREST) ERATO / 8 Outline NETAL (NETwork Analysis Library) NUMA BFS raph500, reenraph500 Kronecker raph Level Synchronized parallel BFS Hybrid Algorithm for Parallel BFS NUMA Hybrid
More informationNUMAの構成
GPU のプログラム 天野 アクセラレータとは? 特定の性質のプログラムを高速化するプロセッサ 典型的なアクセラレータ GPU(Graphic Processing Unit) Xeon Phi FPGA(Field Programmable Gate Array) 最近出て来た Deep Learning 用ニューロチップなど Domain Specific Architecture 1GPGPU:General
More informationC による数値計算法入門 ( 第 2 版 ) 新装版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. このサンプルページの内容は, 新装版 1 刷発行時のものです.
C による数値計算法入門 ( 第 2 版 ) 新装版 サンプルページ この本の定価 判型などは, 以下の URL からご覧いただけます. http://www.morikita.co.jp/books/mid/009383 このサンプルページの内容は, 新装版 1 刷発行時のものです. i 2 22 2 13 ( ) 2 (1) ANSI (2) 2 (3) Web http://www.morikita.co.jp/books/mid/009383
More information(Basic Theory of Information Processing) Fortran Fortan Fortan Fortan 1
(Basic Theory of Information Processing) Fortran Fortan Fortan Fortan 1 17 Fortran Formular Tranlator Lapack Fortran FORTRAN, FORTRAN66, FORTRAN77, FORTRAN90, FORTRAN95 17.1 A Z ( ) 0 9, _, =, +, -, *,
More information[4] ACP (Advanced Communication Primitives) [1] ACP ACP [2] ACP Tofu UDP [3] HPC InfiniBand InfiniBand ACP 2 ACP, 3 InfiniBand ACP 4 5 ACP 2. ACP ACP
InfiniBand ACP 1,5,a) 1,5,b) 2,5 1,5 4,5 3,5 2,5 ACE (Advanced Communication for Exa) ACP (Advanced Communication Primitives) HPC InfiniBand ACP InfiniBand ACP ACP InfiniBand Open MPI 20% InfiniBand Implementation
More information2ndD3.eps
CUDA GPGPU 2012 UDX 12/5/24 p. 1 FDTD GPU FDTD GPU FDTD FDTD FDTD PGI Acceralator CUDA OpenMP Fermi GPU (Tesla C2075/C2070, GTX 580) GT200 GPU (Tesla C1060, GTX 285) PC GPGPU 2012 UDX 12/5/24 p. 2 FDTD
More informationuntitled
AMD HPC GP-GPU Opteron HPC 2 1 AMD Opteron 85 FLOPS 10,480 TOP500 16 T2K 95 FLOPS 10,800 140 FLOPS 15,200 61 FLOPS 7,200 3 Barcelona 4 2 AMD Opteron CPU!! ( ) L1 5 2003 2004 2005 2006 2007 2008 2009 2010
More information2
( ) 1 2 3 1.CPU, 2.,,,,,, 3. register, register, 4.L1, L2, (L3), (L4) 4 register L1 cache L2 cache Main Memory,, L2, L1 CPU L2, L1, CPU 5 , 6 dgem2vu 7 ? Wiedemann algorithm u 0, w 0, s i, s i = u 0 Ai
More informationGPU Computing on Business
GPU Computing on Business 2010 Numerical Technologies Incorporated http://www.numtech.com/ 1 2 3 4 5 6 7 8 9 GPU Computing $$$ Revenue Total Cost low BEP Quantity 10 11 12 13 14 15 GPU Computing $$$ Revenue
More informationB
B 27 1153021 28 2 10 1 1 5 1.1 CPU................. 5 1.2.... 5 1.3.... 6 1.4.. 7 1.5................................ 8 2 9 2.1.................................. 9 2.2............................ 10 2.3............................
More informationHPC (pay-as-you-go) HPC Web 2
,, 1 HPC (pay-as-you-go) HPC Web 2 HPC Amazon EC2 OpenFOAM GPU EC2 3 HPC MPI MPI Courant 1 GPGPU MPI 4 AMAZON EC2 GPU CLUSTER COMPUTE INSTANCE EC2 GPU (cg1.4xlarge) ( N. Virgina ) Quadcore Intel Xeon 5570
More informationMicrosoft PowerPoint - suda.pptx
GPU の HWアーキテクチャと高性能化手法 須田礼仁 ( 東京大学 ) 2011/03/22 GPU 高性能プログラミング GPU のハードウェアを理解する CUDA のソフトウェアを理解する CUDA でプログラムを書くのは難しくないが, CUDA で高速なプログラムを書くのは難しい どうすれば遅くなるかを理解する! 効果が大きいものから順に説明します 1 高性能プログラミングの手順 1. 現在のコードの,
More informationWebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57
WebGL 2014.04.15 X021 2014 3 1F Kageyama (Kobe Univ.) Visualization 2014.04.15 1 / 57 WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization 2014.04.15 2 / 57 WebGL Kageyama (Kobe Univ.) Visualization 2014.04.15
More information6 2. AUTOSAR 2.1 AUTOSAR AUTOSAR ECU OSEK/VDX 3) OSEK/VDX OS AUTOSAR AUTOSAR ECU AUTOSAR 1 AUTOSAR BSW (Basic Software) (Runtime Environment) Applicat
AUTOSAR 1 1, 2 2 2 AUTOSAR AUTOSAR 3 2 2 41% 29% An Extension of AUTOSAR Communication Layers for Multicore Systems Toshiyuki Ichiba, 1 Hiroaki Takada, 1, 2 Shinya Honda 2 and Ryo Kurachi 2 AUTOSAR, a
More informationIPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP
Android 1 1 1 1 1 Dominic Hillenbrand 1 1 1 ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GPIO API GPIO API GPIO MPEG2 Optical Flow MPEG2 1PE 0.97[W] 0.63[W] 2PE 1.88[w] 0.46[W] 3PE 2.79[W] 0.37[W] Optical
More informationHBase Phoenix API Mars GPU MapReduce GPU Hadoop Hadoop Hadoop MapReduce : (1) MapReduce (2)JobTracker 1 Hadoop CPU GPU Fig. 1 The overview of CPU-GPU
GPU MapReduce 1 1 1, 2, 3 MapReduce GPGPU GPU GPU MapReduce CPU GPU GPU CPU GPU CPU GPU Map K-Means CPU 2GPU CPU 1.02-1.93 Improving MapReduce Task Scheduling for CPU-GPU Heterogeneous Environments Koichi
More information自動残差修正機能付き GBiCGSTAB$(s,L)$法 (科学技術計算アルゴリズムの数理的基盤と展開)
1733 2011 149-159 149 GBiCGSTAB $(s,l)$ GBiCGSTAB(s,L) with Auto-Correction of Residuals (Takeshi TSUKADA) NS Solutions Corporation (Kouki FUKAHORI) Graduate School of Information Science and Technology
More informationiphone GPGPU GPU OpenCL Mac OS X Snow LeopardOpenCL iphone OpenCL OpenCL NVIDIA GPU CUDA GPU GPU GPU 15 GPU GPU CPU GPU iii OpenMP MPI CPU OpenCL CUDA OpenCL CPU OpenCL GPU NVIDIA Fermi GPU Fermi GPU GPU
More informationhttp://na-inet.jp/ 4 @ 2015 1 19 ( ) MPFR/GMP BNCpack (cf., Vol, 21, pp.197-206, 2011) Runge-Kutta (cf. arxiv preprint arxiv:1306.2392, Vol.19, No.3, pp.313-328, 2009) Strassen (cf. JSIAM Letters, Vol.6,
More informationFuzzy Multiple Discrimminant Analysis (FMDA) 5) (SOM) 6) SOM 3 6) SOM SOM SOM SOM SOM SOM 7) 8) SOM SOM SOM GPU 2. n k f(x) m g(x) (1) 12) { min(max)
SOM 1 2 2 3 1 (SOM: Self-Organizing Maps) 3 SOM SOM SOM SOM GPU A Study on Visualization of Pareto Solutions by Spherical Self-Organizing Maps MASATO YOSHIMI, 1 KANAME NISHIMOTO, 2 LUYI WANG, 2 TOMOYUKI
More information2. Eades 1) Kamada-Kawai 7) Fruchterman 2) 6) ACE 8) HDE 9) Kruskal MDS 13) 11) Kruskal AGI Active Graph Interface 3) Kruskal 5) Kruskal 4) 3. Kruskal
1 2 3 A projection-based method for interactive 3D visualization of complex graphs Masanori Takami, 1 Hiroshi Hosobe 2 and Ken Wakita 3 Proposed is a new interaction technique to manipulate graph layouts
More information,., ping - RTT,., [2],RTT TCP [3] [4] Android.Android,.,,. LAN ACK. [5].. 3., 1.,. 3 AI.,,Amazon, (NN),, 1..NN,, (RNN) RNN
DEIM Forum 2018 F1-1 LAN LSTM 112 8610 2-1-1 163-8677 1-24-2 E-mail: aoi@ogl.is.ocha.ac.jp, oguchi@is.ocha.ac.jp, sane@cc.kogakuin.ac.jp,,.,,., LAN,. Android LAN,. LSTM LAN., LSTM, Analysis of Packet of
More informationRaVioli SIMD
RaVioli SIMD 17 17115074 i RaVioli SIMD PC PC PC PC CPU RaVioli RaVioli CPU RaVioli CPU SIMD RaVioli RaVioli SIMD RaVioli SIMD RaVioli SIMD 1 1 2 RaVioli 2 2.1 RaVioli.......................................
More informationOpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58
WebGL *1 2013.04.23 *1 X021 2013 LR301 Kageyama (Kobe Univ.) Visualization 2013.04.23 1 / 58 OpenGL GLSL References Kageyama (Kobe Univ.) Visualization 2013.04.23 2 / 58 Kageyama (Kobe Univ.) Visualization
More information高性能計算研究室の紹介 High Performance Computing Lab.
高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 543 研究室 幸谷研究室 @ 静岡 検索 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. 過去の卒研 5. 今後について
More information. a, b, c, d b a ± d bc ± ad = c ac b a d c = bd ac b a d c = bc ad n m nm [2][3] BASIC [4] B BASIC [5] BASIC Intel x * IEEE a e d
3 3 BASIC C++ 8 Tflop/s 8TB [] High precision symmetric eigenvalue computation through exact tridiagonalization by using rational number arithmetic Hikaru Samukawa Abstract: Since rational number arithmetic,
More informationスパコンに通じる並列プログラミングの基礎
2018.06.04 2018.06.04 1 / 62 2018.06.04 2 / 62 Windows, Mac Unix 0444-J 2018.06.04 3 / 62 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 2018.06.04 4 / 62 0444-J ( : ) 6 4 ( ) 6 5 * 6 19 SX-ACE * 6
More informationHPC pdf
GPU 1 1 2 2 1 1024 3 GPUGraphics Unit1024 3 GPU GPU GPU GPU 1024 3 Tesla S1070-400 1 GPU 2.6 Accelerating Out-of-core Cone Beam Reconstruction Using GPU Yusuke Okitsu, 1 Fumihiko Ino, 1 Taketo Kishi, 2
More informationstrtok-count.eps
IoT FPGA 2016/12/1 IoT FPGA 200MHz 32 ASCII PCI Express FPGA OpenCL (Volvox) Volvox CPU 10 1 IoT (Internet of Things) 2020 208 [1] IoT IoT HTTP JSON ( Python Ruby) IoT IoT IoT (Hadoop [2] ) AI (Artificial
More information連載講座 : 高生産並列言語を使いこなす (4) ゲーム木探索の並列化 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 準備 問題の定義 αβ 法 16 2 αβ 法の並列化 概要 Young Brothers Wa
連載講座 : 高生産並列言語を使いこなす (4) ゲーム木探索の並列化 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 準備 16 1.1 問題の定義 16 1.2 αβ 法 16 2 αβ 法の並列化 17 2.1 概要 17 2.2 Young Brothers Wait Concept 17 2.3 段数による逐次化 18 2.4 適応的な待機 18 2. 強制終了
More informationGPUコンピューティング講習会パート1
GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也 スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山 TSUBAME の
More information1 3DCG [2] 3DCG CG 3DCG [3] 3DCG 3 3 API 2 3DCG 3 (1) Saito [4] (a) 1920x1080 (b) 1280x720 (c) 640x360 (d) 320x G-Buffer Decaudin[5] G-Buffer D
3DCG 1) ( ) 2) 2) 1) 2) Real-Time Line Drawing Using Image Processing and Deforming Process Together in 3DCG Takeshi Okuya 1) Katsuaki Tanaka 2) Shigekazu Sakai 2) 1) Department of Intermedia Art and Science,
More informationmain.dvi
y () 5 C Fortran () Fortran 32bit 64bit 2 0 1 2 1 1bit bit 3 0 0 2 1 3 0 1 2 1 bit bit byte 8bit 1byte 3 0 10010011 2 1 3 0 01001011 2 1 byte Fortran A A 8byte double presicion y ( REAL*8) A 64bit 4byte
More informationtutorial_lc.dvi
00 Linux v.s. RT Linux v.s. ART-Linux Linux RT-Linux ART-Linux Linux kumagai@emura.mech.tohoku.ac.jp 1 1.1 Linux Yes, No.,. OS., Yes. Linux,.,, Linux., Linux.,, Linux. Linux.,,. Linux,.,, 0..,. RT-Linux
More informationスパコンに通じる並列プログラミングの基礎
2016.06.06 2016.06.06 1 / 60 2016.06.06 2 / 60 Windows, Mac Unix 0444-J 2016.06.06 3 / 60 Part I Unix GUI CUI: Unix, Windows, Mac OS Part II 0444-J 2016.06.06 4 / 60 ( : ) 6 6 ( ) 6 10 6 16 SX-ACE 6 17
More informationMicrosoft PowerPoint - sales2.ppt
最適化とは何? CPU アーキテクチャに沿った形で最適な性能を抽出できるようにする技法 ( 性能向上技法 ) コンパイラによるプログラム最適化 コンパイラメーカの技量 経験量に依存 最適化ツールによるプログラム最適化 KAP (Kuck & Associates, Inc. ) 人によるプログラム最適化 アーキテクチャのボトルネックを知ること 3 使用コンパイラによる性能の違い MFLOPS 90
More information26102 (1/2) LSISoC: (1) (*) (*) GPU SIMD MIMD FPGA DES, AES (2/2) (2) FPGA(8bit) (ISS: Instruction Set Simulator) (3) (4) LSI ECU110100ECU1 ECU ECU ECU ECU FPGA ECU main() { int i, j, k for { } 1 GP-GPU
More information三石貴志.indd
流通科学大学論集 - 経済 情報 政策編 - 第 21 巻第 1 号,23-33(2012) SIRMs SIRMs Fuzzy fuzzyapproximate approximatereasoning reasoningusing using Lukasiewicz Łukasiewicz logical Logical operations Operations Takashi Mitsuishi
More informationGPUを用いたN体計算
単精度 190Tflops GPU クラスタ ( 長崎大 ) の紹介 長崎大学工学部超高速メニーコアコンピューティングセンターテニュアトラック助教濱田剛 1 概要 GPU (Graphics Processing Unit) について簡単に説明します. GPU クラスタが得意とする応用問題を議論し 長崎大学での GPU クラスタによる 取組方針 N 体計算の高速化に関する研究内容 を紹介します. まとめ
More informationMicrosoft PowerPoint - GPGPU実践基礎工学(web).pptx
GPGPU の歴史と応用例 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU の進化の歴史 GPU のアーキテクチャ GPU の産業応用例 38 GPGPU 実践基礎工学 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ チップ単体では販売されていない PCI Ex カードで販売 ( チップ単体と区別せずに GPU
More informationスパコンに通じる並列プログラミングの基礎
2018.09.10 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 1 / 59 furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 2 / 59 Windows, Mac Unix 0444-J furihata@cmc.osaka-u.ac.jp ( ) 2018.09.10 3 / 59 Part I Unix GUI CUI:
More informationRun-Based Trieから構成される 決定木の枝刈り法
Run-Based Trie 2 2 25 6 Run-Based Trie Simple Search Run-Based Trie Network A Network B Packet Router Packet Filtering Policy Rule Network A, K Network B Network C, D Action Permit Deny Permit Network
More informationHPEハイパフォーマンスコンピューティング ソリューション
HPE HPC / AI Page 2 No.1 * 24.8% No.1 * HPE HPC / AI HPC AI SGIHPE HPC / AI GPU TOP500 50th edition Nov. 2017 HPE No.1 124 www.top500.org HPE HPC / AI TSUBAME 3.0 2017 7 AI TSUBAME 3.0 HPE SGI 8600 System
More information[1] [2] [3] (RTT) 2. Android OS Android OS Google OS 69.7% [4] 1 Android Linux [5] Linux OS Android Runtime Dalvik Dalvik UI Application(Home,T
LAN Android Transmission-Control Middleware on multiple Android Terminals in a WLAN Environment with consideration of Round Trip Time Ai HAYAKAWA, Saneyasu YAMAGUCHI, and Masato OGUCHI Ochanomizu University
More information‚æ4›ñ
( ) ( ) ( ) A B C D E F G H I J K L M N O P Q R S T U V W X Y Z a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9 (OUS) 9 26 1 / 28 ( ) ( ) ( ) A B C D Z a b c d z 0 1 2 9 (OUS) 9
More informationIEEE HDD RAID MPI MPU/CPU GPGPU GPU cm I m cm /g I I n/ cm 2 s X n/ cm s cm g/cm
Neutron Visual Sensing Techniques Making Good Use of Computer Science J-PARC CT CT-PET TB IEEE HDD RAID MPI MPU/CPU GPGPU GPU cm I m cm /g I I n/ cm 2 s X n/ cm s cm g/cm cm cm barn cm thn/ cm s n/ cm
More informationFIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch
I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Chikatoshi Yamada Shuichi Ichikawa Gaussian Filter GF GF Bilateral Filter BF CG [1]
More informationxx/xx Vol. Jxx A No. xx 1 Fig. 1 PAL(Panoramic Annular Lens) PAL(Panoramic Annular Lens) PAL (2) PAL PAL 2 PAL 3 2 PAL 1 PAL 3 PAL PAL 2. 1 PAL
PAL On the Precision of 3D Measurement by Stereo PAL Images Hiroyuki HASE,HirofumiKAWAI,FrankEKPAR, Masaaki YONEDA,andJien KATO PAL 3 PAL Panoramic Annular Lens 1985 Greguss PAL 1 PAL PAL 2 3 2 PAL DP
More information高性能計算研究室の紹介 High Performance Computing Lab.
高性能計算研究室 (HPC Lab) の紹介 High Performance Computing Lab. 静岡理工科大学総合情報学部コンピュータシステム学科 ( 兼 Web デザイン特別プログラム ) 幸谷智紀 http://na-inet.jp/ 概要 1. 幸谷智紀 個人の研究テーマ 2. 3 年生ゼミ ( 情報セミナー II) 3. 卒研テーマ 4. Webデザイン特別プログラム 5. 今後について
More informationGPUコンピューティングの現状と未来
GPU コンピューティングの現状と未来 成瀬彰, HPC Developer Technology, NVIDIA Summary 我々のゴールと方向性 ゴール実現に向けて進めている技術開発 Unified Memory, OpenACC Libraries, GPU Direct Kepler の機能紹介 Warp shuffle, Memory system Hyper-Q, Dynamic Parallelism
More informationJ.JSSAC Vol. 7, No. 2, Mathematica Maple,., Open asir Open xxx asir. Open xxx Open asir, asir., Open xxx, Linux Open asir Open sm1 (kan/sm1). C
J.JSSAC (1999) Vol. 7, No. 2, pp. 2-17 Open asir HPC (Received 1997/12/1) 1 Open asir Open xxx,., ( ),,,,,.,., (1) (2) (3) (4),. Open xxx,.,., 1.,.,., 0 10, dx,.,., ohara@math.kobe-u.ac.jp taka@math.kobe-u.ac.jp
More informationインテル(R) Visual Fortran Composer XE
Visual Fortran Composer XE 1. 2. 3. 4. 5. Visual Studio 6. Visual Studio 7. 8. Compaq Visual Fortran 9. Visual Studio 10. 2 https://registrationcenter.intel.com/regcenter/ w_fcompxe_all_jp_2013_sp1.1.139.exe
More informationGPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓
GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU のアーキテクチャ CUDA CUDA によるプログラミング 58 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ チップ単体では販売されていない PCI Ex カードで販売 ( チップ単体と区別せずに GPU と呼ぶことも多い
More informationuntitled
GPGPU NVIDACUDA Learn More about CUDA - NVIDIA http://www.nvidia.co.jp/object/cuda_education_jp.html NVIDIA CUDA programming Guide CUDA http://www.sintef.no/upload/ikt/9011/simoslo/evita/2008/seland.pdf
More information連載講座 : 高生産並列言語を使いこなす (3) ゲーム木探索問題 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 概要 17 2 ゲーム木探索 必勝 必敗 引き分け 盤面の評価値 αβ 法 指し手の順序付け (mo
連載講座 : 高生産並列言語を使いこなす (3) ゲーム木探索問題 田浦健次朗 東京大学大学院情報理工学系研究科, 情報基盤センター 目次 1 概要 17 2 ゲーム木探索 17 2.1 必勝 必敗 引き分け 17 2.2 盤面の評価値 18 2.3 αβ 法 19 2.4 指し手の順序付け (move ordering) 20 3 Andersson の詰み探索およびその並列化 21 3.1 Andersson
More informationMicrosoft PowerPoint - GPGPU実践基礎工学(web).pptx
GPU のプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓 今回の内容 GPU プログラミング環境 (CUDA) GPU プログラムの実行の流れ CUDA によるプログラムの記述 カーネル (GPU で処理する関数 ) の構造 記述方法とその理由 GPU 固有のパラメータの確認 405 GPU(Graphics Processing Unit) とは 画像処理専用のハードウェア 具体的には画像処理用のチップ
More information149 (Newell [5]) Newell [5], [1], [1], [11] Li,Ryu, and Song [2], [11] Li,Ryu, and Song [2], [1] 1) 2) ( ) ( ) 3) T : 2 a : 3 a 1 :
Transactions of the Operations Research Society of Japan Vol. 58, 215, pp. 148 165 c ( 215 1 2 ; 215 9 3 ) 1) 2) :,,,,, 1. [9] 3 12 Darroch,Newell, and Morris [1] Mcneil [3] Miller [4] Newell [5, 6], [1]
More information001.dvi
THE SCIENCE AND ENGINEERING DOSHISHA UNIVERSITY, VOL.XX, NO.Y NOVEMBER 2003 Construction of Tera Flops PC Cluster System and evaluation of performance using Benchmark Tomoyuki HIROYASU * Mitsunori MIKI
More information