untitled

Similar documents
untitled

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

4 倍精度基本線形代数ルーチン群 QPBLAS の紹介 [index] 1. Introduction 2. Double-double algorithm 3. QPBLAS 4. QPBLAS-GPU 5. Summary 佐々成正 1, 山田進 1, 町田昌彦 1, 今村俊幸 2, 奥田洋司

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2


GPU n Graphics Processing Unit CG CAD

07-二村幸孝・出口大輔.indd

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

numb.dvi

ad bc A A A = ad bc ( d ) b c a n A n A n A A det A A ( ) a b A = c d det A = ad bc σ {,,,, n} {,,, } {,,, } {,,, } ( ) σ = σ() = σ() = n sign σ sign(

(Basic Theory of Information Processing) 1

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

main.dvi

理研スーパーコンピュータ・システム

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

倍々精度RgemmのnVidia C2050上への実装と応用

HPC (pay-as-you-go) HPC Web 2

xy n n n- n n n n n xn n n nn n O n n n n n n n n

インテル(R) Visual Fortran Composer XE

FIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch


Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

GPU.....

Microsoft PowerPoint - GPU_computing_2013_01.pptx

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

it-ken_open.key

Second-semi.PDF

HPC pdf

2


Microsoft Word - HOKUSAI_system_overview_ja.docx

GPGPU

チューニング講習会 初級編

2ndD3.eps

fortranfunction2.qxd

海生研ニュース

HP High Performance Computing(HPC)




資料5:聖ウルスラ学院英智小・中学校 提出資料(1)

MBLAS¤ÈMLAPACK; ¿ÇÜĹÀºÅÙÈǤÎBLAS/LAPACK¤ÎºîÀ®

(2) ( 61129) 117, ,678 10,000 10,000 6 ( 7530) 149, ,218 10,000 10,000 7 ( 71129) 173, ,100 10,000 10,000 8 ( 8530) 14

_Vol16No3.indd

EGunGPU

( ) a C n ( R n ) R a R C n. a C n (or R n ) a 0 2. α C( R ) a C n αa = α a 3. a, b C n a + b a + b ( ) p 8..2 (p ) a = [a a n ] T C n p n a

広報みはま.indd


直交座標系の回転

supercomputer2010.ppt

H1_H4_ ai

制御盤BASIC Vol.3

altus_storage_guide

サイボウズ ガルーン 3 管理者マニュアル

P indd

今日からはじめるプロアクティブ

1 2 STEP 1 STEP 2 STEP 3

1


untitled


85

1


n ( (

線形代数演算ライブラリBLASとLAPACKの 基礎と実践1

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

GPGPU によるアクセラレーション環境について

a n a n ( ) (1) a m a n = a m+n (2) (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 552

untitled

untitled


XACCの概要

HPC可視化_小野2.pptx

システムソリューションのご紹介

Part y mx + n mt + n m 1 mt n + n t m 2 t + mn 0 t m 0 n 18 y n n a 7 3 ; x α α 1 7α +t t 3 4α + 3t t x α x α y mx + n

II

GPU CUDA CUDA 2010/06/28 1

フカシギおねえさん問題の高速計算アルゴリズム


: : : : ) ) 1. d ij f i e i x i v j m a ij m f ij n x i =

1 (bit ) ( ) PC WS CPU IEEE754 standard ( 24bit) ( 53bit)

A11 (1993,1994) 29 A12 (1994) 29 A13 Trefethen and Bau Numerical Linear Algebra (1997) 29 A14 (1999) 30 A15 (2003) 30 A16 (2004) 30 A17 (2007) 30 A18

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

untitled


線形代数演算ライブラリBLASとLAPACKの 基礎と実践1

Œ{Ł¶/1ŒÊ −ªfiª„¾ [ 1…y†[…W ]

本文/扉1

プログラム


平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘

Program

aphp37-11_プロ1/ky869543540410005590


日本内科学会雑誌第96巻第11号

高性能計算研究室の紹介 High Performance Computing Lab.

Transcription:

A = QΛQ T A n n Λ Q A = XΛX 1 A n n Λ X

GPGPU

A 3 T Q T AQ = T (Q: ) T u i = λ i u i T {λ i } {u i } QR MR 3 v i = Q u i A {v i }

A n = 9000 Quad Core Xeon 2 LAPACK (4/3) n 3 O(n 2 ) O(n 3 ) A {v i } 2mn 2 m 3

3 3 A (k) := (I αww T ) A (k) = A (k) αw (w T A (k) ) Rank-1 level-2 BLAS rank-1 0 0 0 0 k A (k) 0 0 Level-2 BLAS

8 128 1 2 100K M 100M G Byte/Flop : 1 < 1

BLAS BLAS Basic Linear Algebra Subprograms BLAS Level-1 BLAS: c := x T y AXPYy: = ax + y Level-2 BLAS: A = y := Ax rank-1a := A + xy T A = A Level-3 BLAS: C := AB C = A B

BLAS Level-1 BLAS O(N) O(N) O(N/p) N p Level-2 BLAS O(N 2 ) O(N 2 ) O(N 2 /p) A A A Level-3 BLAS O(N 3 ) O(N 2 ) O(N) C Byte/Flop O(N 3 /p) A B level-3 BLAS

Level-3 BLAS 3 Bischof et al., 93 A L C 3 T n 0 0 (4/3)n 3 0 6n 2 L 0 A C L T 3 level-3 BLAS level-2 BLAS O(n 2 L)

H = I WαW T H H K 0 0 0 0 H K R 0 H K L 0 L

Level-3 BLAS n A A {v i } L (4/3)n 3 0 C 0 6n 2 L 2mn 2 C 2mn 2 {w i } 0 0 T T {u i } QR DC MR 3 { i } O(n 3 ) level-3 BLAS 4mn 2 2 level-3

n : 9000 L : Level-3 BLAS Fortran LAPACK Xeon 8 Xeon X5355 (2.66GHz, Quad-core 2 Intel Fortran Compiler 9, Intel Math Kernel Library HX600 1 Opteron (2.5GHz, Quad-core 4 Xeon 24 Xeon E7460 (2.4 GHz, 6, L3$ 12MB 4 Intel Fortran Compiler 11, Intel Math Kernel Library

Xeon 8 n = 9000 L = 100 8Level-3 LAPACK 2.1 Level-3

HX600 n = 9000 L = 50

Xeon 24 n = 9000 L = 200 Level-3 BLAS 24 LAPACK 12 1.6 Level-3 BLAS 40%

Xeon 24 n = 9000 Level-3 BLAS L = 200 1 2 24 2 level-3 BLAS

Xeon 24 level-3 BLAS DSYMM: DSYR2K: rank-l DSYMM

3 level-2 BLAS Level-3 BLAS level-3 BLAS Xeon 24 level-3 BLAS

GPU GPU

QR Step 1 : A = H Step 2 : Step 3 : QR H T Step 4 : T A 23

Step 1 4 Step 1 Level-2 3 BLAS Level-2 Step 4 Level-1 BLAS : CPU : Core i7 920 (2.66 GHz) Memory: 6.0GB 24

GPU GPU (Graphics Processing Unit) GPU GPU NVIDIA CUDA CUBLAS CUFFT GPU Step 1 25

=H (H T = H, H T H = HH T = I ) for i = 1, N -2

for i= 1, N -2 Rank-1 O(N 2 ) O(N 2 ) CPU

1 N B N B O(N 2 ), O(N 2 N B )

2 for k = 1, N / N B for i = 1, N B N B (1) t i,v i O(N) (2) w i T v i T A O(N 2 ) (3) O(N N B ) end for end for (4) O(N 2 N B ) ()

(4) (3) (2) w it =t i v it A (1) t i, v i GPU

2 (a) BLAS GPU A Send Receive N B for k =1, N/N B A i for i = 1, N B t i,v i t i,v i BLAS CPU t i v i w it v i T A end for end for Receive A Send

(a) N = 5120

(a) N = 5120 (4) (3) (2) w it =t i v it A (1) t i, v i O(N 2 N B ) O(N N B ) O(N 2 ) O(N) (2)(3) BLAS GPU

2 (b) BLAS CPU A Send Receive for k =1, N/N B N B for i = 1, N B t i,v i Receive end for w i T GPU CPU CPU end for A Send v i T A

(c) CPU GPU A Send Receive N B CPU t i,v i w i T for k =1, N/N B for i = 1, N B w i T Receive end for end for A Send

(a) (b) (c) BLAS GPU BLAS CPU BLAS CPU GPU (1) t i,v i CPU CPU CPU (2) w i T GPU GPU CPU+GPU (3) (4) GPU CPU CPU GPU GPU CPU+GPU

A N = 1024, 2048,, 8192 4 CPU 4 (a), (b), (c) N B = 32 (c) CPU N 1024 2048 3072 4096 5120 6144 7168 8192 CPU 24/32 10/32 8/32 6/32 5/32 5/32 5/32 5/32

CPU (c) N=8192 3.25

N = 5120 (4) (3) (2) w it =t i v it A (1) t i, v i

GPU GPU CUBLAS BLAS CPU BLAS CPU GPU Tesla C1060 Core i7 43.25

BLAS MAGMA GPU