untitled

Similar documents
untitled

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

GPU n Graphics Processing Unit CG CAD


マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

07-二村幸孝・出口大輔.indd

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

HPC (pay-as-you-go) HPC Web 2

倍々精度RgemmのnVidia C2050上への実装と応用

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

理研スーパーコンピュータ・システム

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

main.dvi

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

numb.dvi

ad bc A A A = ad bc ( d ) b c a n A n A n A A det A A ( ) a b A = c d det A = ad bc σ {,,,, n} {,,, } {,,, } {,,, } ( ) σ = σ() = σ() = n sign σ sign(

(Basic Theory of Information Processing) 1

GPU.....

Second-semi.PDF

1 (bit ) ( ) PC WS CPU IEEE754 standard ( 24bit) ( 53bit)

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

FIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch

Microsoft Word - HOKUSAI_system_overview_ja.docx

2

_Vol16No3.indd

インテル(R) Visual Fortran Composer XE

EGunGPU

Microsoft PowerPoint - GPU_computing_2013_01.pptx

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

supercomputer2010.ppt

HPC pdf


xy n n n- n n n n n xn n n nn n O n n n n n n n n

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

チューニング講習会 初級編

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]


2ndD3.eps

HP High Performance Computing(HPC)

GPGPU

MBLAS¤ÈMLAPACK; ¿ÇÜĹÀºÅÙÈǤÎBLAS/LAPACK¤ÎºîÀ®

Microsoft PowerPoint - stream.ppt [互換モード]

it-ken_open.key

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

Microsoft PowerPoint - CCS学際共同boku-08b.ppt

フカシギおねえさん問題の高速計算アルゴリズム

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニ

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

システムソリューションのご紹介

HPC可視化_小野2.pptx

海生研ニュース

tabaicho3mukunoki.pptx

fortranfunction2.qxd

RICCについて

Microsoft PowerPoint - DNS_BoF_SCS_ pptx




Untitled

資料5:聖ウルスラ学院英智小・中学校 提出資料(1)

GPGPU によるアクセラレーション環境について

(2) ( 61129) 117, ,678 10,000 10,000 6 ( 7530) 149, ,218 10,000 10,000 7 ( 71129) 173, ,100 10,000 10,000 8 ( 8530) 14


高性能計算研究室の紹介 High Performance Computing Lab.

HBase Phoenix API Mars GPU MapReduce GPU Hadoop Hadoop Hadoop MapReduce : (1) MapReduce (2)JobTracker 1 Hadoop CPU GPU Fig. 1 The overview of CPU-GPU

( ) a C n ( R n ) R a R C n. a C n (or R n ) a 0 2. α C( R ) a C n αa = α a 3. a, b C n a + b a + b ( ) p 8..2 (p ) a = [a a n ] T C n p n a

広報みはま.indd

直交座標系の回転

基盤研究(B) 「マルチコア複合環境を指向した適応型自動チューニング技術」

index calculus

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of


P indd

サイボウズ ガルーン 3 管理者マニュアル

H1_H4_ ai


85

1


1

制御盤BASIC Vol.3

altus_storage_guide

今日からはじめるプロアクティブ

1 2 STEP 1 STEP 2 STEP 3


untitled

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

n ( (

KBLAS[7] *1., CUBLAS.,,, Byte/flop., [13] 1 2. (AT). GPU AT,, GPU SYMV., SYMV CUDABLAS., (double, float) (cu- FloatComplex, cudoublecomplex).,, DD(dou

2012 M

Dual Stack Virtual Network Dual Stack Network RS DC Real Network 一般端末 GN NTM 端末 C NTM 端末 B IPv4 Private Network IPv4 Global Network NTM 端末 A NTM 端末 B

a n a n ( ) (1) a m a n = a m+n (2) (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 552

Part y mx + n mt + n m 1 mt n + n t m 2 t + mn 0 t m 0 n 18 y n n a 7 3 ; x α α 1 7α +t t 3 4α + 3t t x α x α y mx + n

untitled

Transcription:

A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X

GPGPU

A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i }

A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i } 2mn 2 m 3

3 3 A (k) := (I αww T ) A (k) = A (k) αw (w T A (k) ) Rank-1 level-2 BLAS rank-1 0 0 0 0 k A (k) 0 0 Level-2 BLAS

8 128 1 2 100K M 100M G Byte/Flop : 1 < 1

BLAS BLAS Basic Linear Algebra Subprograms BLAS Level-1 BLAS: c := x T y AXPYy: = ax + y Level-2 BLAS: A = y := Ax rank-1a := A + xy T A = A Level-3 BLAS: C := AB C = A B

BLAS Level-1 BLAS O(N) O(N) O(N/p) N p Level-2 BLAS O(N 2 ) O(N 2 ) O(N 2 /p) A A A Level-3 BLAS O(N 3 ) O(N 2 ) O(N) C Byte/Flop O(N 3 /p) A B level-3 BLAS

Level-3 BLAS 3 Bischof et al., 93 A L C 3 T n 0 0 (4/3)n 3 0 6n 2 L 0 A C L T 3 level-3 BLAS level-2 BLAS O(n 2 L)

H = I WαW T H H K 0 0 0 0 H K R 0 H K L 0 L

Level-3 BLAS n A A {v i } L (4/3)n 3 0 C 0 6n 2 L 2mn 2 C 2mn 2 {w i } 0 0 T T {u i } QR DC MR 3 { i } O(n 3 ) level-3 BLAS 4mn 2 2 level-3

n : 9000 L : Level-3 BLAS Fortran LAPACK Xeon 8 Xeon X5355 (2.66GHz, Quad-core 2 Intel Fortran Compiler 9, Intel Math Kernel Library HX600 1 Opteron (2.5GHz, Quad-core 4 Opteron 24 Opteron 8431 (2.4 GHz, Hexa-core) 4 GNU Fortran Compiler 4.4.0, GotoBLAS2 1.13

Xeon 8 n = 9000 L = 100 8Level-3 LAPACK 2.1 Level-3

HX600 n = 9000 L = 50

Opteron 24 n = 9000 L = 100, MB = MB 2 = 1 [sec] 900.00 800.00 700.00 600.00 500.00 400.00 300.00 200.00 100.00 0.00 1 2 4 6 12 24 900.00 800.00 700.00 600.00 500.00 400.00 300.00 200.00 100.00 0.00 1 2 4 6 12 24

Opteron 8431 (2.4 GHz, 6 ) 4 9.6 GFLOPS L1$: 128KB/L2$: 512KB/L3$: 6MB/ : 8 GB 4 OS: CentOS 5.5 (x86_64) : GNU Fortran Compiler 4.4.0 LAPACK/BLAS: GotoBLAS2 1.13 numactl 1,2,4,6 numactl --cpunodebind=2 membind=2 12 numactl --cpunodebind=0,1 --interleave=0-1 24 numactl --interleave=all

Opteron 24 n = 9000 L = 100 1 2 24 LAPACK

ELSES LAPACK JST-CREST

3 level-2 BLAS Level-3 BLAS level-3 BLAS Level-3 BLAS

GPU GPU

QR Step 1 : A = H Step 2 : Step 3 : QR H T Step 4 : T A

Step 1 4 Step 1 Level-2 3 BLAS Level-2 Step 4 Level-1 BLAS : CPU : Core i7 920 (2.66 GHz) Memory: 6.0GB

GPU GPU (Graphics Processing Unit) GPU GPU NVIDIA CUDA CUBLAS CUFFT GPU Step 1

=H (H T = H, H T H = HH T = I ) for i = 1, N -2

for i= 1, N -2 Rank-1 O(N 2 ) O(N 2 ) CPU

1 N B N B O(N 2 ), O(N 2 N B )

2 for k = 1, N / N B for i = 1, N B N B (1) t i,v i O(N) (2) w i T v i T A O(N 2 ) (3) O(N N B ) end for end for (4) O(N 2 N B ) ()

(4) (3) (2) w it =t i v it A (1) t i, v i GPU

2 (a) BLAS GPU A Send Receive N B for k =1, N/N B A i for i = 1, N B t i,v i t i,v i BLAS CPU t i v i w it v i T A end for end for Receive A Send

(a) N = 5120

(a) N = 5120 (4) (3) (2) w it =t i v it A (1) t i, v i O(N 2 N B ) O(N N B ) O(N 2 ) O(N) (2)(3) BLAS GPU

2 (b) BLAS CPU A Send Receive for k =1, N/N B N B for i = 1, N B t i,v i Receive end for w i T GPU CPU CPU end for A Send v i T A

(c) CPU GPU A Send Receive N B CPU t i,v i w i T for k =1, N/N B for i = 1, N B w i T Receive end for end for A Send

(a) (b) (c) BLAS GPU BLAS CPU BLAS CPU GPU (1) t i,v i CPU CPU CPU (2) w i T GPU GPU CPU+GPU (3) (4) GPU CPU CPU GPU GPU CPU+GPU

A N = 1024, 2048,, 8192 4 CPU 4 (a), (b), (c) N B = 32 (c) CPU N 1024 2048 3072 4096 5120 6144 7168 8192 CPU 24/32 10/32 8/32 6/32 5/32 5/32 5/32 5/32

CPU (c) N=8192 3.25

N = 5120 (4) (3) (2) w it =t i v it A (1) t i, v i

GPU GPU CUBLAS BLAS CPU BLAS CPU GPU Tesla C1060 Core i7 43.25

BLAS MAGMA GPU