GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

Similar documents

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

07-二村幸孝・出口大輔.indd

GPGPU

GPGPUクラスタの性能評価

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

Microsoft PowerPoint - GPU_computing_2013_01.pptx

GPU CUDA CUDA 2010/06/28 1

untitled

Microsoft PowerPoint - suda.pptx

GPU.....

2ndD3.eps

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

untitled

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

supercomputer2010.ppt

EGunGPU

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

FIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch

スライド 1


main.dvi

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

25 2 ) 15 (W 力電 idle FMA(1) FMA(N) 実行コード Memcopy matmul 1 N occupancy gridsize N=256 Memcopy blocksize 288x288 (matmu

untitled

untitled

10D16.dvi

TSUBAME2.0におけるGPUの 活用方法

HP Workstation 総合カタログ

GPUコンピューティング講習会パート1

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

GPUコンピューティング講習会パート1

GPU n Graphics Processing Unit CG CAD

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

GPU のアーキテクチャとプログラム構造 長岡技術科学大学電気電子情報工学専攻出川智啓


GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

on PS3 Linux Core 2 Quad (GHz) SMs 7 SPEs 1 OS 4 1 Hz 1 (GFLOPS) SM PPE SPE bit

概要 目的 CUDA Fortran の利用に関する基本的なノウハウを提供する 本チュートリアル受講後は Web 上で公開されている資料等を参照しながら独力で CUDA Fortran が利用できることが目標 対象 CUDA Fortran の利用に興味を抱いている方 前提とする知識 Fortran

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

Slide 1

Itanium2ベンチマーク

次世代スーパーコンピュータのシステム構成案について

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

Dell OptiPlex PC OptiPlex CPU OptiPlex 4 vpro TCO Dell KACE vpro OS Energy Smart Energy Smart Energy STAR 5.2 2

2

NUMAの構成

表面RTX入稿

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

機器仕様書 借上物品名 数量 事項 借り上げ物品の特質等 本件は以下の要件を満たすこと 1. ワークステーション1 2 台 1) 本体 (1) ワークステーションであること (2) CPUは36Core Xeon Gold 6140(18Core x2cpu ) 2.3GHz 相当以上であること (

H1-4

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

IPSJ SIG Technical Report Vol.2013-HPC-138 No /2/21 GPU CRS 1,a) 2,b) SpMV GPU CRS SpMV GPU NVIDIA Kepler CUDA5.0 Fermi GPU Kepler Kepler Tesla

Cell/B.E. BlockLib

HPC (pay-as-you-go) HPC Web 2


Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

XACCの概要

,., ping - RTT,., [2],RTT TCP [3] [4] Android.Android,.,,. LAN ACK. [5].. 3., 1.,. 3 AI.,,Amazon, (NN),, 1..NN,, (RNN) RNN

mate10„”„õŒì4

tabaicho3mukunoki.pptx


untitled

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

DRAM SRAM SDRAM (Synchronous DRAM) DDR SDRAM (Double Data Rate SDRAM) DRAM 4 C Wikipedia 1.8 SRAM DRAM DRAM SRAM DRAM SRAM (256M 1G bit) (32 64M bit)

セゾン保険_PDF用.indd

システムソリューションのご紹介

Microsoft Word - vga

PowerPoint Presentation

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

_CS6.indd

IPSJ SIG Technical Report Vol.2013-ARC-206 No /8/1 Android Dominic Hillenbrand ODROID-X2 GPIO Android OSCAR WFI 500[us] GPIO GP

catalog_quadro_series_2018

HD View Single Windowsセットアップガイド

GPGPUイントロダクション



HPEハイパフォーマンスコンピューティング ソリューション

Microsoft Word - vga

名称 : 日本 GPU コンピューティングパートナーシップ (G-DEP) 所在 : 東京都文京区本郷 7 丁目 3 番 1 号東京大学アントレプレナープラザ, 他工場 URL アライアンスパートナー コアテクノロジーパートナー NVIDIA JAPAN ソリュ

チューニング講習会 初級編

電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニ

HP Workstation 総合カタログ

統合汎用スーパーコンピュータシステムの設計状況と施設整備状況


PRIMERGY RX100 S5 システム構成図 (2009年4月版) 樹系図

NEC All rights reserved 1

ストリーミング SIMD 拡張命令2 (SSE2) を使用した SAXPY/DAXPY

倍々精度RgemmのnVidia C2050上への実装と応用

-2-

Transcription:

GPU 4 2010 8 28 1 GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

Register & Shared Memory ( ) CPU CPU(Intel Core i7 965) GPU(Tesla C1060) CPU GPU 51.20Gflops * 1 933Gflops Core 4 240 38.4GB/s * 2 102GB/s (L2,L3) 3.2 GPU CUDA OpenCL 2 CUDA nvidia C++ nvidia GPU OpenCL (CPU ) C GPGPU GPU CPU CUDA CUDA nvidia GPU 3.3 2 1 1 4 GPU CPU GPU 2

GPU Register&Shared Memory Global Memory Local Memory CPU GPU Register Shared Memory No Wait Register Shared Memory Register 16384 (64KB) Shared Memory 16KB GPU Global Memory CPU Register Shared Memory Register Shared Memory 100 1 Global Memory 100 1 3.4 Processor GPU Streaming Processor(SP) DP SFU SP 8 DP 1 SFU 2 Shared Memory Streaming Multiprocessor(SM) SP (2FLOPs) SFU 4 1SM 1Cycle 24FLOPs 1 GPU (Tesla C1060 30) (Tesla 1.3GHz) Tesla C1060 936GFLOPs DP 1Cycle 2FLOPs 12 1 SP 2 SFU SP SFU CPU GPU SP SFU 4cycle SP 32 32 1Warp 3

3.5 CUDA Thread Block Grid Processor Thread 1SP Thread SP Register Thread Block 1Block 1SM Block Shared Memory Block Grid GPU 1Grid Grid C 1 Grid GPU 4 CUDA CUDA GPU CPU 4.1 GPU 1Warp SP 1Warp 32Thread True False True False Thread False True Thread n GPU 2 n divergent branch 4.2 Global Memory Global Memory 32byte 64byte 128byte 32 64 128 Address 4byte Thread Global Memory GPU Thread Global Memory 16Thread Coalescing Coalescing Coalescing 16Thread Global Memory Address Thread 32 64 128 Address 4

4.3 Shared Memory Shared Memory 16Thread Shared Memory 16Bank Bank Shared Memory 4byte Shared Memory Bank0 Shared Memory Address 0 64 128 Shared Memory Bank1 1 Thread 4byte 2 Bank 2 Bank ( ) Shared Memory Shared Memory bank conflict Global Memory 16Thread Bank Shared Memory bank conflict Thread 4.4 Register Register Bank conflict nvidia Thread 64 Register Memory bank conflict Register Local Memory Local Memory Global Memory Register 1Thread 60 -maxrregcount 4.5 1SM 1 Block Global Memory Block Block Global Memory 1SM Block 1 SM Block 8 1 SM Thread 1024 Block Register Shared Memory 8 1024 / Thread per Blcok 16384byte / Shared Memory per Block 16384 / (Register per Thread Thread per Block) Block 4.5.1 Occupancy 1SM 1024Thread 1SM 1024 Occupancy 1.0 Occupancy 2 Register 4 1Block 64Thread 5

1SM 256Thread Occupancy 0.25 4.6 Thread 1 SM Thread 768or1024 Thread 768 Register Memory bank conflict 64 1SM 1024Thread 1SM Block 8 128 128 192 256 nvidia Reference Manual 192 256 Thread Shared Memory Register 1SM 1024Thread Block 64Thread 4.7 Block 1 SM Block 8 GPU 1 30SM 240Block GPU GPU Reference Manual 1000Block GPU Block 4.8 Thread GPU Shared Memory Register GPU 5 GPU GPU 5.1 1 t + t (2 4 ) 6

Block 1024 1024 Block 128 8 Block 1024 Block Thread Block 1 Thread Thread y Block Thread 128 Thread1 8 Thread Global Memory Register Thread Shared Memory Register Shared Memory Global Memory 1 Register Swap Shared Memory 1 Thread Register Shared Memory Block Thread Shared Memory Register Shared Memory Thread1 8 Shared Memory Thread Register Shared Memory CPU 50 CPU 5.2 2 3 ( ) t CFL CIP dx Flow Flow x Shared Memory y Register 7

3 Thread x y z Thread 2 2 5.3 Lax-Wendroff Lax-Wendroff Lax-Wendroff 2 Roe Lax-Wendroff Lax-Wendroff Half-Step Full-Step 2 2D Half-Stpe (i + 1/2, j + 1/2) Flux (i, j) (i + 1, j) (i, j + 1) (i + 1, j + 1) Full-Step dt (i, j) (i 1/2, j 1/2) (i + 1/2, j 1/2) (i 1/2, j + 1/2) (i + 1/2, j + 1/2) Half-Step Flux 1 1 dt 5 9 Shared Memory Shared Memory Register 5 Lax-Wendroff Register 5.4 CFL Lax-Wendroff CFL dt GPU 10% CFL dt dt dt Shared Memory bank conflict divergent branch 1SM 256 256Thread dt 128Thread 2 Shared Memory 1Thread 5.5 CPU GPU CPU OpenMP for 1 4 3.9 8 4.1 97% 103% 2CPU 2CPU for MPI MPI CPU GPU1 GPU2 CPU Core i7 920(42.56GFLOPs) 8

Memory 3GB 25.6GB/s(DDR3-1066 Triple Channel) GPU GeForce GTX 260(875GFLOPs) GPU Bandwidth 118GB/s OS Ubuntu Desktop 10.04 CC gcc 4.3.4 + OpenMP NVCC CUDA 3.0 + gcc 4.3.4 Grid 2D 1024x1024 3D 120x126x32 Step LW 828 Roe 1024 CPU GPU CPU GPU 2D 64(s) 1.44(s) 3D 76(s) 1.98(s) 2D 5.59GFLOPs 248GFLOPs 3D 4.21GFLOPs 181GFLOPs 2D 13.1% 28.3% 3D 9.9% 20.6% Lax-Wendroff CPU GPU 50.7(s) 2.24(s) 4.43GFLOPs 100GFLOPs 10.4% 11.4% CPU GPU GPU CPU CPU GPU Shared Memory Shared Memory CPU 1 1Step Roe 2D 357 3D 661 Lax-Wendroff 278 Lax-Wendroff 2 Roe 1 Lax-Wendroff 5.6 (x,y,z) 2 4 3 5 ( 64Thread ) LW Roe2D Roe3D Register 65536Byte 18688Byte 12288Byte 20480Byte Shared 16384Byte 3692Byte 2416Byte 5672Byte 8 3 4 2 9

Shared Memory 2 Thread 64 4byte Shared Memory 1056byte flow 16384byte Lax-Wendroff 2 Flow 3 3 x-thread 16 y-thread 4 ( ) Shared Memory 2160byte Flow 1700byte Register Register Shared Memory Shared Memory Global Memory 1024 1024 34MB 10 Tesla C1060 GPU Global Memory 4GB 5.7 GPU 1bit 10 Lax-Wendroff 6 6.1 Thread Flow Thread Thread Flow Flow Flow 2 Flow Register Shared Memory 2 Thread if 1 Thread 2 Flow Thread Flow if Thread 1 Flow Thread 1 Thread x x Block 1 2 3 3 10

7 nvidiagpu nvidiagpu 7.1 GT8X,GT9X CUDA GT8X GT9X GT200 1SM Thread 768 1SM Register 8192 Coalescing Coalescing Thread0 Global Memory 32 64 128 Coalescing 10 1 G200 2 Coalescing 1.5 1 7.2 GT200 GT200 1SM 8SP + 1DP + 2SFU 1SM Thread 1024 1SM Register 16384 7.3 GF100 nvidia GPU Tesla C20XX GF100 GF100 GT200 1SM 32CUDA Core + 4SFU(DP ) SP (2Cycle)(Tesla ) L1 (Shared ) L2 GDDR5 ECC (Tesla ) 64bit 1SM 32Thread GT200 8SP 4Cycle 32CUDA Core 1Cycle ( Shared Memory ) CUDA Core SP (DP) CUDA Core 2Cycle 12 1 2 1 L1 Shared Memory 64KB 16KB 48KB GT200 L1 GF100 Shared Memory 48KB Shared Memory 1CUDA Core 48KB Core 4 16Thread 2Cycle GT200 32Thread 11

1Cycle GF100 Shared Memory L2 768KB L1 Shared Memory Register Global Memory Global Memory GDDR5 ECC non ECC 64bit Tesla C2070 6GB GT200 Tesla GeForce GF100 ECC Tesla GPU GT200 ECC GeForce 8 GPU Lax-Wendroff 2 Roe 1 2 2 MHD 2 Shared Memory Register GF100 GPU 12