Microsoft PowerPoint - GPU_computing_2013_01.pptx

Similar documents
07-二村幸孝・出口大輔.indd

Microsoft PowerPoint - suda.pptx

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

GPGPU

GPU n Graphics Processing Unit CG CAD

PGIコンパイラ導入手順

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPUコンピューティング講習会パート1

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

GPUコンピューティング講習会パート1

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2


TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

untitled

supercomputer2010.ppt

HPEハイパフォーマンスコンピューティング ソリューション

main.dvi

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

スライド 1

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

untitled

untitled

HPC pdf

GPUを用いたN体計算

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

1 3DCG [2] 3DCG CG 3DCG [3] 3DCG 3 3 API 2 3DCG 3 (1) Saito [4] (a) 1920x1080 (b) 1280x720 (c) 640x360 (d) 320x G-Buffer Decaudin[5] G-Buffer D

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

HP Workstation 総合カタログ

EGunGPU

25 2 ) 15 (W 力電 idle FMA(1) FMA(N) 実行コード Memcopy matmul 1 N occupancy gridsize N=256 Memcopy blocksize 288x288 (matmu

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57

RICCについて

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

untitled

VXPRO R1400® ご提案資料

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

橡3_2石川.PDF

HP xw9400 Workstation

mate10„”„õŒì4

HPC (pay-as-you-go) HPC Web 2


OpenGL GLSL References Kageyama (Kobe Univ.) Visualization / 58

10D16.dvi

単位、情報量、デジタルデータ、CPUと高速化 ~ICT用語集~

1重谷.PDF

,4) 1 P% P%P=2.5 5%!%! (1) = (2) l l Figure 1 A compilation flow of the proposing sampling based architecture simulation

HP Workstation Xeon 5600

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPGPU によるアクセラレーション環境について

HPE Moonshot System ~ビッグデータ分析&モバイルワークプレイスを新たなステージへ~

GPU.....

Express5800/320Fc-MR

HBase Phoenix API Mars GPU MapReduce GPU Hadoop Hadoop Hadoop MapReduce : (1) MapReduce (2)JobTracker 1 Hadoop CPU GPU Fig. 1 The overview of CPU-GPU

2ndD3.eps

チューニング講習会 初級編

スパコンに通じる並列プログラミングの基礎

Express5800/R320a-E4/Express5800/R320b-M4ユーザーズガイド

1 2

untitled

GPU CUDA CUDA 2010/06/28 1

システムソリューションのご紹介

Microsoft Word - 0_0_表紙.doc

Vol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c

FIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch

NUMAの構成

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

スパコンに通じる並列プログラミングの基礎

strtok-count.eps

BIOS 設定書 BIOS 出荷時設定 BIOS 設定を工場出荷状態に戻す必要がある場合は 本書の手順に従って作業をおこなってください BIOS 設定を変更されていない場合は 本書の作業は必要ありません BIOS 出荷時設定は以下の手順でおこないます スタート A) BIOS の Setup Uti

Source: Intel.Config: Pentium III Processor-Intel Seattle SE440BX-2, 128MB PC100 CL2 SDRAM Intel 440BX-2 Chipset Platform- Diamond Viper 550 /

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

HP High Performance Computing(HPC)

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

HA8000xH ハードウェア アーキテクチャーガイド

hpc141_shirahata.pdf

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

HP Personal Workstations

Slide 1

N Express5800/R320a-E4 N Express5800/R320a-M4 ユーザーズガイド

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

Express5800/R320a-E4, Express5800/R320b-M4ユーザーズガイド

AMD AMD AMD Opteron x86 OS 2P 8P x GHz 75W ACP OEM Q4 2.3GHz HE (55W) 2.8GHz SE (105W) AMD PC 2009 All rights reserved. AMD Japan, L


Microsoft PowerPoint - ★13_日立_清水.ppt

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

スパコンに通じる並列プログラミングの基礎

1 2

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

Microsoft Word - HOKUSAI_system_overview_ja.docx

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

untitled

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of

GPGPUクラスタの性能評価

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

Express5800/320Fa-L/320Fa-LR

Transcription:

GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2

GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格 : ハイエンドでもコンシューマタイプは数万円 プログラミング開発 : 無償の開発環境 CPU と比較して単一 GPU は高消費電力 低消費電力 : FlOPS/W 3 講義を受ける目的 既存のコードを GPU 化して高速に実行したい 新たに GPU プログラムを開発し 研究を促進したい これから主流となるであろう GPU のプログラミングをマスターしたい 超並列計算を習得したい 単位が欲しい その きっかけを得る 4

ショッキングな GPU の計算性能 レーリーテーラー不安定性成長 u Q v e Q t E x u 2 u p E uv eu pu F y 0 v uv F 2 v p ev pv Core2 duo 1 core Video captured demonstration GeForce GTX 260M X 50 Speed Up Y. Imai, T. Aoki and K. Takizawa, J. Comp. Phys., Vol. 227, Issue 4, 2263 2285 (2008) 5 Supercomputer in the world 2010 November

TSUBAME 2.0 Rack (30 nodes) Performance: 51.0 TFLOPS Memory: 2.03 TB System (58 racks) 1442 nodes: 2952 CPU sockets, 4264 GPUs Performance: 224.7 TFLOPS (CPU) Turbo boost 2196 TFLOPS (GPU) Total: 2420 TFLOPS Memory: 103.9 TB Compute Node (2 CPUs, 3 GPUs) Performance: 1.7 TFLOPS Memory: 58.0GB(CPU) +9.7GB(GPU) GPU M2050 8

ORNL Jaguar vs Tsubame 2.0 Similar Peak Performance, 1/4 the Size and Power Supercomputer in the world The Green500 list -- November 2010

Supercomputer in the world 2012 November CPU/GPU Spec Sheet GPU Intel Xeon X5670 Tesla C2050 /M2050 GeForce GTX Titan Peak Performance [GFlops] 76.8*,153.6 515*,1030 1.3T*,4.5T Number of Processor 6 448 2688 Core Clock [GHz] 2930 1150 837 Bandwidth[GB/s] 32.0 148.8 288.4 Memory Interface [bit] 64 384 384 Memory Memory Clock [GHz] 1.333 (DDR3) 1.50 (GDDR5) 1.50 (GDDR5) Capacity [GB] ----- 3.0 1.536 Bpeak/Fpeak Bandwidth/Performance 0.416 0.289 0.221 Tesla M2050 Peak Power : 225W Peak Power : 244W 12

GPU アーキテクチャーの変更 Graphics Pipeline Unified Shader Vertex Rasterize Pixel Test & Blend Framebuffer 13 Shader 言語 Unified Shader: プログラマブル シェーダー OpenGL や DirectX などの API に専用のプログラマブルなシェーディング機能 Open GL では version 1.5, DirectX では version 8 から Shader プログラミング言語 OpenGL: DLSL 言語 DirectX: HLSL 言語 NVIDIA 独自の Cg (C for Graphics) 言語 (HLSL 似 ) 汎用計算を Graphics の機能に置き換えてプログラミング 14

TSUBAME に login Windows 端末の Bash Shell から $ ssh user_account@login t2.g.gsic.titech.ac.jp user_account@login t2.g.gsic.titech.ac.jp s password: インストールされている CUDA のバージョンの確認 /opt/cuda/3.0 3.1 3.2 4.0 4.1 5.0 が置いてある 現在の TSUBAME には最新の CUDA 5.0 がインストールされている 15 CUDA 5.0 $ cd /opt/cuda/5.0 $ sh cuda.sh // 環境設定 CUDA コンパイラ nvcc のバージョンの確認 user_account@t2a006169:~> nvcc version nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005 2012 NVIDIA Corporation Built on Fri_Sep_21_17:28:58_PDT_2012 Cuda compilation tools, release 5.0, V0.2.1221 16

DeviceQuery $ cd /opt/cuda/5.0/samples/1_utilities/devicequery> $./devicequery./devicequery Starting... CUDA Device Query (Runtime API) version (CUDART static linking) Detected 3 CUDA Capable device(s) Device 0: "Tesla M2050" CUDA Driver Version / Runtime Version 5.0 / 5.0 CUDA Capability Major/Minor version number: 2.0 Total amount of global memory: 2687 MBytes (2817982464 bytes) (14) Multiprocessors x ( 32) CUDA Cores/MP: 448 CUDA Cores GPU Clock rate: 1147 MHz (1.15 GHz) Memory Clock rate: 1566 Mhz Memory Bus Width: 384-bit L2 Cache Size: Max Texture Dimension Size (x,y,z) 786432 bytes 1D=(65536), 2D=(65536,65535), 3D=(2048,2048,2048) Max Layered Texture Size (dim) x layers 1D=(16384) x 2048, 2D=(16384,16384) x 2048 Total amount of constant memory: 65536 bytes 17 DeviceQuery Total amount of shared memory per block: 49152 bytes Total number of registers available per block: 32768 Warp size: 32 Maximum number of threads per multiprocessor: 1536 Maximum number of threads per block: 1024 Maximum sizes of each dimension of a block: 1024 x 1024 x 64 Maximum sizes of each dimension of a grid: 65535 x 65535 x 65535 Maximum memory pitch: 2147483647 bytes Texture alignment: 512 bytes Concurrent copy and kernel execution: Yes with 2 copy engine(s) Run time limit on kernels: No Integrated GPU sharing Host Memory: No Support host page-locked memory mapping: Yes Alignment requirement for Surfaces: Yes Device has ECC support: Enabled Device supports Unified Addressing (UVA): Yes Device PCI Bus ID / PCI location ID: 6 / 0 18