IPSJ SIG Technical Report Vol.2015-HPC-148 No /3/2 GPU GPU 1,a) 2 3,4 3,4 GPU GPU CUDA (Compute Unified Device Architecture) GPU GPU CUDA GPU G

Size: px

Start display at page:

Download "IPSJ SIG Technical Report Vol.2015-HPC-148 No /3/2 GPU GPU 1,a) 2 3,4 3,4 GPU GPU CUDA (Compute Unified Device Architecture) GPU GPU CUDA GPU G"

のぶのすけまるこ
3 years ago
Views:

1 GPU GPU 1,a) 2 3,4 3,4 GPU GPU CUDA (Compute Unified Device Architecture) GPU GPU CUDA GPU GPU GPU GPU GPU MPI on GPU ( GMPI ) ping-pong GMPI MVAPICH2-GDR 60% 1. HPC GPU (Graphics Processing Unit) GPGPU (General Purpose computing on GPU) GPU TOP500 [1] GPU TOP500 2 Titan 15 TSUBAME Tianhe-1A HA-PACS [2] 41 GPU NVIDIA GPU CUDA (Compute Unified Device 1 College of Information Science, University of Tsukuba 2 Information Technology Center, The University of Tokyo 3 Graduate School of System and Information Engineering,University of Tsukuba 4 Center for Computational Sciences, University of Tsukuba a) kuwahara@hpcs.cs.tsukuba.ac.jp Architecture)[3] MPI[4] GPU GPU CPU GPU MPI MPI GPU GPU NVIDIA GPU CUDA 2. MPI GPU FLAT [5] FLAT to MPI CPU 1

CUDA でコーディングされており GPU カーネルとホスト側とのやりとりを page-locked memory (pinned memory) を介して行 CPU time う機構である CUOS は CUDA 環境を離れることなく GPU カーネルからホストシステムのサービスを呼び出す GPU #(" #(" ためのフレームワークのプロトタイプである CUOS で!(%'!

2 情報処理学会研究報告 time! ")&( & ")&( " ")&( GPU CPU " ")&( 図 1! $)# $)# # ')%! GPU クラスタにおけるノード間通信 ")&( " &( ")&( ")&( での処理に置き換えるそれに対し本研究ではカーネル " ")&( 関数に記述された MPI の関数の処理をコンパイル時で! はなく実行時にホスト側に依頼する機構を実現する ')% 本機構に似た実装として Sapienza University of Rome で開発されていた CUQU (CUDA queue)[6], CUOS (CUDA 図 4 Oﬄoaded System services)[7] というライブラリがあり GPU クラスタにおけるノード間通信の流れソースコードが公開されている CUQU は CUDA でコーディングされており GPU カーネルとホスト側とのやりとりを page-locked memory (pinned memory) を介して行 CPU time う機構である CUOS は CUDA 環境を離れることなく GPU カーネルからホストシステムのサービスを呼び出す GPU #(" #(" ためのフレームワークのプロトタイプである CUOS で!(%'!(%'!(%' は CUQU を利用してカーネル関数内から MPI の同期通信を行う例が実装されている CUDA のバージョンは 4.0 前後を想定しており特定の CUDA 環境に依存した実装となっているこれらのライブラリの開発は 2011 年 5 月で打ち切られておりその実用例も見当たらない本研究 &($ では最近の CUDA 環境にも適用したより高速かつ利便性の高い機構の開発を目指す #(" 3. GPU クラスタにおけるノード間通信!(%' #(" 本節では GPU クラスタにおける一般的なノード間通信とその問題点に関して述べる異なるノードの GPU 同図 5 GPU 間セルフ通信機構を適用したノード間通信の流れ士は直接通信できないため図 1 のように CPU 側で通信の起動管理を行う送信側はデバイスメモリからホス MVAPICH2[8] Open MPI などの MPI 処理系にはトメモリにデータをコピーしホスト側がネットワークを MPI の送信及び受信バッファにデバイスメモリを直接指定介してデータを送信する受信側はホスト側がホストメできる機能を持つものがあるこの機能を CUDA 支援機モリにデータを受信しホストメモリからデバイスメモリ構と呼びコード例を図 3 に示す NVIDIA 社製の GPU にデータをコピーするでは GPUDirect RDMA 機能 (GDR)[9] を用いることでノード間の通信に MPI を用いる場合各ノードでホス GPU 以外の PCIe デバイスが GPU メモリへ直接アクセト側が MPI プロセスを起動し通信関数を用いて通信スできる GDR を用いた場合ホスト側で確保した GPU する通常 MPI ではデバイスメモリを扱えないためメモリを PCIe アドレス空間にマッピングできる同じ cudamemcpy() 等でデバイスメモリとホストメモリとの間 PCIe 空間の他のデバイスや CPU はマップされた PCIe でデータを転送する必要があるこの場合のコード例をアドレスにアクセスすることで直接 GPU メモリへの図 2 に示す読み書きができる Mellanox 社が提供する InﬁniBand の 2015 Information Processing Society of Japan 2

3 if( myrank == 0) { cudamemcpy ( temp, src, data_size, cudamemcpydevicetohost ); MPI_Send ( temp, data_size, MPI_BYTE, 1, 0, MPI_COMM_WORLD ); else { MPI_Recv ( temp, data_size, MPI_BYTE, 0, 0, MPI_COMM_WORLD ); cudamemcpy ( dest, temp, data_size, cudamemcpyhosttodevice ); 2 GPU if( myrank == 0) { MPI_Send ( src, data_size, MPI_BYTE, 1, 0, MPI_COMM_WORLD ); else { MPI_Recv ( dst, data_size, MPI_BYTE, 0, 0, MPI_COMM_WORLD ); 3 CUDA MPI GPU InfiniBand HCA (Host Channel Adapter) GDR [10] GPU HCA CPU CUDA GDR MPI GPU 4 CUDA MPI GPU 4. GPU GPU GPU GPU 5 GPU GPU InfiniBand GPU CPU PCI Express CPU GPU MPI GPU GPU CUDA mapped page-locked memory (mapped ) mapped cuda- HostAlloc() cudahostallocmapped GPU GPU cudahost- GetDevicePointer() mapped threadfence system() GPU devicequery Support host page-locked memory mapping GPU 1 MPI MPI on GPU MPI on GPU 6 GPU CUDA Stream Attribute mapped Attribute 3

time 6 MPI on GPU MPI MVAPICH2-GDR GDR MPI MPI GPU Attribute CPU GPU 5. GPU Attribute 5.1 1 7 CUDA CUDA6.0 MPI MVAPICH2-GDR 2.

4 time 6 MPI on GPU MPI MVAPICH2-GDR GDR MPI MPI GPU Attribute CPU GPU 5. GPU Attribute CUDA CUDA6.0 MPI MVAPICH2-GDR 2.0 CPU numactl GPU CUDA VISIBLE DEVICES QPI MVAPICH2-GDR MV2 USE CUDA = 1 CUDA GDR 5.2 GPU 1 CPU Intel Xeon CPU E v2 10 / GHz GFLOPS / 128 GB, DDR MHz 4ch Motherboard Supermicro X9DRG-QF GPU NVIDIA K20 GPU 2GPU / 1.76TFLOPS / GPU 5GB / GPU InfiniBand Mellanox Connect-X3 FDR Dual-port (PCIExpress3.0x8) OS CentOS 6.5 GPU NVIDIA-Linux-x CUDA CUDA 6.0 MPI MVAPICH2-GDR

5 2 Processing time [µs] CUDA version from host from kernel CUDA CUDA CUDA CUDA Kepler Dynamic Parallelism (DP ) GPU CUDA GPU GPU DP µs CUDA µs CUDA µs CUDA6.0 DP 3.3 µs 5.3 Attribute Attribute mapped flag GPU GPU threadfence system() flag Attribute flag busy loop polling flag bytes 1024 bytes Processing +me [us] Data size [Byte] 8 Attribute Attribute 8 Attribute DP 4bytes 256bytes Attribute Attribute 256 bytes 5.4 GPU 1 GPU polling atomic CUDA Event 3 polling flag flag syncthreads() flag busy loop polling atomic polling flag atomic atomicexch() 5

6 atomic CUDA Event syncthreads() CUDA Event GPU CUDA Event cudaeventrecord() CUDA Event cudaeventsynchronize() polling atomic CUDA Event CUDA C Programming Guide [3] DP CUDA CUDA Event CUDA Stream cudastreamwaitevent() cudaeventsynchronize() cudaeventelapsedtime() cudaeventquery() cudaeventelapsedtime() CUDA Event cudaeventcreatewith- Flags() cudaeventdisabletiming CUDA Stream cudastreamcreate() CUDA Stream mapped CUDA Stream Create mapped atomic cudastreamwaitevent() threadfence system() polling atomic flag Attribute 4bytes 1024 bytes 9 polling 128 bytes atomic Attribute 1 2 μs GPU GPU 6. MPI on GPU GPU MPI MPI on GPU At- 6

7 global void send_kernel ( GMPI_Context * context, int * src, int * dst, MPI_Request * request, MPI_Status * status, int count ) { for ( int i = 0; i < count ; i ++) { GMPI_Isend ( context, src, DATA_SIZE, MPI_INT, 1, i, MPI_COMM_WORLD, request ); GMPI_Wait ( context, request, status ); GMPI_Irecv ( context, dst, DATA_SIZE, MPI_INT, 1, i, MPI_COMM_WORLD, request ); GMPI_Wait ( context, request, status ); global void recv_kernel ( GMPI_Context * context, int * src, int * dst, MPI_Request * request, MPI_Status * status, int count ) { for ( int i = 0; i < count ; i ++) { GMPI_Irecv ( context, dst, DATA_SIZE, MPI_INT, 0, i, MPI_COMM_WORLD, request ); GMPI_Wait ( context, request, status ); GMPI_Isend ( context, dst, DATA_SIZE, MPI_INT, 0, i, MPI_COMM_WORLD, request ); GMPI_Wait ( context, request, status ); 12 ping-pong tribute Attribute enqueue dequeue Warp 32 Attribute 32 8bytes 32threads threadidx.x = 0 Attribute enqueue threadidx Attribute 32 QUEUE SIZE 2 QUEUE SIZE - 1 cudamemcpyasync(), MVAPICH2-GDR GPU 3 GPU 1KB 256MB GPU cudamemcpyasync() MVAPICH2-GDR 60% enqueue / dequeue MVAPICH2-GDR 85% 6.2 MPI on GPU GMPI GMPI ping-pong 12 send kernel() recv kernel() ping-pong GMPI GMPI Context GMPI Isend() GMPI Irecv() GMPI Wait() GMPI MPI GMPI device blockidx = 0 threadidx = 0 7

8 Attribute Attribute MPI MPI src dst cudamalloc() GMPI MVAPICH2-GDR MPI flag polling Attribute flag polling MPI GPU Attribute DP DP polling atomic CUDA Event 3 polling atomic flag Attribute 2µs Attribute GPU MVAPICH2-GDR 60% 7.2 GPU MPI [11] NAS Parallel Benchmark[12] HPC MPI GPU TCA (Tightly Coupled Accelerators)[13] GPU TCA JST-CREST [1] TOP500 Supercomputer Sites (online) [2] : HA- PACS (online) hapacs/cluster [3] CUDA C Programming Guide (online) [4] Message Passing Interface (MPI) Forum Home Page (online) [5] :FLAT: MPI GPU ACSVol. 6 No.4 pp (2013). [6] cuqu A CPU GPU messaging queue (online) [7] cuos Offloaded System services for CUDA (online) [8] MVAPICH User Guide (online) state.edu/static/media/mvapich/mvapich userguide.html [9] NVIDIA Corp. : NVIDIA GPUDirect. (online), [10] Mellanox GPUDirect RDMA User Manual Rev 1.0 (online), software/mellanox GPUDirect User Manual v1.0.pdf. [11] (online) [12] NAS Parallel Benchmark (online) bench/ naspara.html [13] : Tightly Coupled Accelerators GPU 2013 (SACSIS2013) pp (2013). 8

07-二村幸孝・出口大輔.indd

07-二村幸孝・出口大輔.indd GPU Graphics Processing Units HPC High Performance Computing GPU GPGPU General-Purpose computation on GPU CPU GPU GPU *1 Intel Quad-Core Xeon E5472 3.0 GHz 2 6 MB L2 cache 1600 MHz FSB 80 GFlops 1 nvidia