GPU n Graphics Processing Unit CG CAD

GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1

GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com

GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac ü CUDA C C/C++ ü 2006 2016 6 CUDA 7.5 http://www.nvidia.com/object/cuda_home_new.html https://developer.nvidia.com/cuda-downloads

GPU n CUFFT, CUBLAS, Thrust ü GPU ü n OpenACC ü ü n CUDA OpenCL ü GPU ü GPGPU 4

GPU n TOP 500 Ranking (June 2016) RANK SITE SYSTEM CORES RMAX (TFLOP/S) RPEAK (TFLOP/S) POWER (KW) 1 National Supercomputing Center in Wuxi (/site/50623) China 2 National Super Computer Center in Guangzhou (/site/50365) China Sunway TaihuLight - Sunway MPP, Sunway SW26010 260C 1.45GHz, Sunway (/system/178764) NRCPC Tianhe-2 (MilkyWay-2) - TH-IVB-FEP Cluster, Intel Xeon E5-2692 12C 2.200GHz, TH Express-2, Intel Xeon Phi 31S1P (/system/177999) NUDT 10,649,600 93,014.6 125,435.9 15,371 3,120,000 33,862.7 54,902.4 17,808 MIC, Intel Xeon Phi http://www.top500.org 3 DOE/SC/Oak Ridge National Laboratory (/site/48553) United States Titan - Cray XK7, Opteron 6274 16C 2.200GHz, Cray Gemini interconnect, NVIDIA K20x (/system/177975) Cray Inc. 560,640 17,590.0 27,112.5 8,209 GPU, NVIDIA K20x 4 DOE/NNSA/LLNL (/site/49763) United States Sequoia - BlueGene/Q, Power BQC 16C 1.60 GHz, Custom (/system/177556) IBM 1,572,864 17,173.2 20,132.7 7,890 5 RIKEN Advanced Institute for Computational Science (AICS) (/site/50313) Japan K computer, SPARC64 VIIIfx 2.0GHz, Tofu interconnect (/system/177232) Fujitsu 705,024 10,510.0 11,280.4 12,660 6 DOE/SC/Argonne National Laboratory (/site/47347) United States Mira - BlueGene/Q, Power BQC 16C 1.60GHz, Custom (/system/177718) IBM 786,432 8,586.6 10,066.3 3,945 7 DOE/NNSA/LANL/SNL Trinity - Cray XC40, Xeon E5-2698v3 16C 301,056 8,100.9 11,078.9 (/site/50334) United States 2.3GHz, Aries interconnect (/system/178610) Cray Inc. 8 Swiss National Supercomputing Centre (CSCS) (/site/50422) Switzerland 9 HLRS - Höchstleistungsrechenzentrum Stuttgart (/site/50543) Germany 10 King Abdullah University of Science and Technology (/site/50205) Saudi Arabia Piz Daint - Cray XC30, Xeon E5-2670 8C 2.600GHz, Aries interconnect, NVIDIA K20x (/system/177824) Cray Inc. Hazel Hen - Cray XC40, Xeon E5-2680v3 12C 2.5GHz, Aries interconnect (/system/178446) Cray Inc. Shaheen II - Cray XC40, Xeon E5-2698v3 16C 2.3GHz, Aries interconnect (/system/178515) Cray Inc. 115,984 6,271.0 7,788.9 2,325 185,088 5,640.2 7,403.5 196,608 5,537.0 7,235.2 2,834 GPU, NVIDIA K20x TOP500 65 GPU 27 MIC

TSUBAME2.5 ü ü Compute Node (3 Tesla K20X GPUs) Performance: 4.08 TFLOPS Memory: 58.0GB(CPU) +18GB(GPU) Rack (30 nodes) Performance: 122 TFLOPS Memory: 2.28 TB System (58 racks) 1442 nodes: 2952 CPU sockets, 4264 GPUs Performance: 224.7 TFLOPS (CPU) Turbo boost 5.562 PFLOPS (GPU) Total: 17.1 PFLOPS

TSUBAME2.5 Intel Xeon X5670 6-cores 2.93 GHz 12 cores/node CPU 1408 nodes (4224 GPUs) on TSUBAME 2.5 CPU Memory ~51 GB DDR2 NVIDA Kepler K20X GPU 250 GB/s VRAM 6GB 1000BASE-T 0.125 GB/s GPU 250 GB/s VRAM 6GB InfiniBand QDR x2 4 GB/s x 2 (= 8 GB/s) PCI Express 2.0 x16 8 GB/s GPU 250 GB/s VRAM 6GB

GPU n n

GPU n n www.nvidia.co.jp

NVIDIA Pascal GPU n NVIDIA GPU ü Pascal ü 16nm FinFET 3D ü HBM(High Bandwidth Memory)2 720GB/ sec ü GPU NVLink (40GB/sec) ü 5.3TFlops ü

NVIDIA Pascal GPU n Tesla GPU: Pascal, Maxwell, Kepler P100 M40 K40 Pascal Maxwell Kepler TFlops 5.3 0.2 1.4 TFLops 10.6 7.0 4.3 TFLops 21.2 NA NA GB/s 720 288 288 16GB 12GB, 24GB 12GB

n TSUBAME login n CUDA 1 ü CUDA ü CPU GPU ü GPU n CUDA 2 ü Atomic ü Thurst ü CUDA stream ü CPU GPU Unified Memory