Microsoft PowerPoint - GPU_computing_2013_01.pptx

Similar documents
07-二村幸孝・出口大輔.indd

Microsoft PowerPoint - suda.pptx

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

GPGPU

GPU n Graphics Processing Unit CG CAD

PGIコンパイラ導入手順

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

GPUコンピューティング講習会パート1

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

GPUコンピューティング講習会パート1

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2


TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

HPEハイパフォーマンスコンピューティング ソリューション

main.dvi

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

スライド 1

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

untitled

GPUを用いたN体計算

DO 時間積分 START 反変速度の計算 contravariant_velocity 移流項の計算 advection_adams_bashforth_2nd DO implicit loop( 陰解法 ) 速度勾配, 温度勾配の計算 gradient_cell_center_surface 速

1 3DCG [2] 3DCG CG 3DCG [3] 3DCG 3 3 API 2 3DCG 3 (1) Saito [4] (a) 1920x1080 (b) 1280x720 (c) 640x360 (d) 320x G-Buffer Decaudin[5] G-Buffer D

HP Workstation 総合カタログ

EGunGPU

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

untitled

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

HP xw9400 Workstation

mate10„”„õŒì4


HP Workstation Xeon 5600

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

GPGPU によるアクセラレーション環境について

HPE Moonshot System ~ビッグデータ分析&モバイルワークプレイスを新たなステージへ~

GPU.....

Express5800/320Fc-MR

HBase Phoenix API Mars GPU MapReduce GPU Hadoop Hadoop Hadoop MapReduce : (1) MapReduce (2)JobTracker 1 Hadoop CPU GPU Fig. 1 The overview of CPU-GPU

2ndD3.eps

チューニング講習会 初級編

スパコンに通じる並列プログラミングの基礎

Express5800/R320a-E4/Express5800/R320b-M4ユーザーズガイド

システムソリューションのご紹介

Microsoft Word - 0_0_表紙.doc

Vol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c

FIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

スパコンに通じる並列プログラミングの基礎

strtok-count.eps

BIOS 設定書 BIOS 出荷時設定 BIOS 設定を工場出荷状態に戻す必要がある場合は 本書の手順に従って作業をおこなってください BIOS 設定を変更されていない場合は 本書の作業は必要ありません BIOS 出荷時設定は以下の手順でおこないます スタート A) BIOS の Setup Uti

Source: Intel.Config: Pentium III Processor-Intel Seattle SE440BX-2, 128MB PC100 CL2 SDRAM Intel 440BX-2 Chipset Platform- Diamond Viper 550 /

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

HP High Performance Computing(HPC)

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

HA8000xH ハードウェア アーキテクチャーガイド

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

HP Personal Workstations

N Express5800/R320a-E4 N Express5800/R320a-M4 ユーザーズガイド

Express5800/R320a-E4, Express5800/R320b-M4ユーザーズガイド

Microsoft PowerPoint - ★13_日立_清水.ppt

ストリームを用いたコンカレントカーネルプログラミングと最適化 エヌビディアジャパン CUDAエンジニア森野慎也 GTC Japan 2014

スパコンに通じる並列プログラミングの基礎

1 2

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

CUDA を用いた画像処理 画像処理を CUDA で並列化 基本的な並列化の考え方 目標 : 妥当な Naïve コードが書ける 最適化の初歩がわかる ブロックサイズ メモリアクセスパターン

GPGPUクラスタの性能評価

12 PowerEdge PowerEdge Xeon E PowerEdge 11 PowerEdge DIMM Xeon E PowerEdge DIMM DIMM 756GB 12 PowerEdge Xeon E5-

Express5800/320Fa-L/320Fa-LR

Transcription:

GPU コンピューティン No.1 導入 東京工業大学 学術国際情報センター 青木尊之 1 GPU とは 2

GPGPU (General-purpose computing on graphics processing units) GPU を画像処理以外の一般的計算に使う GPU の魅力 高性能 : ハイエンド GPU はピーク 4 TFLOPS 超 手軽さ : 普通の PC にも装着できる 低価格 : ハイエンドでもコンシューマタイプは数万円 プログラミング開発 : 無償の開発環境 CPU と比較して単一 GPU は高消費電力 低消費電力 : FlOPS/W 3 講義を受ける目的 既存のコードを GPU 化して高速に実行したい 新たに GPU プログラムを開発し 研究を促進したい これから主流となるであろう GPU のプログラミングをマスターしたい 超並列計算を習得したい 単位が欲しい その きっかけを得る 4

ショッキングな GPU の計算性能 レーリーテーラー不安定性成長 u Q v e Q t E x u 2 u p E uv eu pu F y 0 v uv F 2 v p ev pv Core2 duo 1 core Video captured demonstration GeForce GTX 260M X 50 Speed Up Y. Imai, T. Aoki and K. Takizawa, J. Comp. Phys., Vol. 227, Issue 4, 2263 2285 (2008) 5 Supercomputer in the world 2010 November

TSUBAME 2.0 Rack (30 nodes) Performance: 51.0 TFLOPS Memory: 2.03 TB System (58 racks) 1442 nodes: 2952 CPU sockets, 4264 GPUs Performance: 224.7 TFLOPS (CPU) Turbo boost 2196 TFLOPS (GPU) Total: 2420 TFLOPS Memory: 103.9 TB Compute Node (2 CPUs, 3 GPUs) Performance: 1.7 TFLOPS Memory: 58.0GB(CPU) +9.7GB(GPU) GPU M2050 8

ORNL Jaguar vs Tsubame 2.0 Similar Peak Performance, 1/4 the Size and Power Supercomputer in the world The Green500 list -- November 2010

Supercomputer in the world 2012 November CPU/GPU Spec Sheet GPU Intel Xeon X5670 Tesla C2050 /M2050 GeForce GTX Titan Peak Performance [GFlops] 76.8*,153.6 515*,1030 1.3T*,4.5T Number of Processor 6 448 2688 Core Clock [GHz] 2930 1150 837 Bandwidth[GB/s] 32.0 148.8 288.4 Memory Interface [bit] 64 384 384 Memory Memory Clock [GHz] 1.333 (DDR3) 1.50 (GDDR5) 1.50 (GDDR5) Capacity [GB] ----- 3.0 1.536 Bpeak/Fpeak Bandwidth/Performance 0.416 0.289 0.221 Tesla M2050 Peak Power : 225W Peak Power : 244W 12

GPU アーキテクチャーの変更 Graphics Pipeline Unified Shader Vertex Rasterize Pixel Test & Blend Framebuffer 13 Shader 言語 Unified Shader: プログラマブル シェーダー OpenGL や DirectX などの API に専用のプログラマブルなシェーディング機能 Open GL では version 1.5, DirectX では version 8 から Shader プログラミング言語 OpenGL: DLSL 言語 DirectX: HLSL 言語 NVIDIA 独自の Cg (C for Graphics) 言語 (HLSL 似 ) 汎用計算を Graphics の機能に置き換えてプログラミング 14

TSUBAME に login Windows 端末の Bash Shell から $ ssh user_account@login t2.g.gsic.titech.ac.jp user_account@login t2.g.gsic.titech.ac.jp s password: インストールされている CUDA のバージョンの確認 /opt/cuda/3.0 3.1 3.2 4.0 4.1 5.0 が置いてある 現在の TSUBAME には最新の CUDA 5.0 がインストールされている 15 CUDA 5.0 $ cd /opt/cuda/5.0 $ sh cuda.sh // 環境設定 CUDA コンパイラ nvcc のバージョンの確認 user_account@t2a006169:~> nvcc version nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005 2012 NVIDIA Corporation Built on Fri_Sep_21_17:28:58_PDT_2012 Cuda compilation tools, release 5.0, V0.2.1221 16

DeviceQuery $ cd /opt/cuda/5.0/samples/1_utilities/devicequery> $./devicequery./devicequery Starting... CUDA Device Query (Runtime API) version (CUDART static linking) Detected 3 CUDA Capable device(s) Device 0: "Tesla M2050" CUDA Driver Version / Runtime Version 5.0 / 5.0 CUDA Capability Major/Minor version number: 2.0 Total amount of global memory: 2687 MBytes (2817982464 bytes) (14) Multiprocessors x ( 32) CUDA Cores/MP: 448 CUDA Cores GPU Clock rate: 1147 MHz (1.15 GHz) Memory Clock rate: 1566 Mhz Memory Bus Width: 384-bit L2 Cache Size: Max Texture Dimension Size (x,y,z) 786432 bytes 1D=(65536), 2D=(65536,65535), 3D=(2048,2048,2048) Max Layered Texture Size (dim) x layers 1D=(16384) x 2048, 2D=(16384,16384) x 2048 Total amount of constant memory: 65536 bytes 17 DeviceQuery Total amount of shared memory per block: 49152 bytes Total number of registers available per block: 32768 Warp size: 32 Maximum number of threads per multiprocessor: 1536 Maximum number of threads per block: 1024 Maximum sizes of each dimension of a block: 1024 x 1024 x 64 Maximum sizes of each dimension of a grid: 65535 x 65535 x 65535 Maximum memory pitch: 2147483647 bytes Texture alignment: 512 bytes Concurrent copy and kernel execution: Yes with 2 copy engine(s) Run time limit on kernels: No Integrated GPU sharing Host Memory: No Support host page-locked memory mapping: Yes Alignment requirement for Surfaces: Yes Device has ECC support: Enabled Device supports Unified Addressing (UVA): Yes Device PCI Bus ID / PCI location ID: 6 / 0 18