GPU n Graphics Processing Unit CG CAD

Similar documents
ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë

2 09:30-10:00 受付 10:00-12:00 HA-PACS ログイン GPU 入門 13:30-15:00 OpenACC 入門 15:15-16:45 OpenACC 最適化入門と演習 17:00-18:00 OpenACC の活用 (CUDA 連携とライブラリの活用 )

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

supercomputer2010.ppt

PCC hanawa

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N.

HPC可視化_小野2.pptx

Microsoft PowerPoint - GPU_computing_2013_01.pptx

untitled

untitled

担当 大島聡史 ( 助教 ) 星野哲也 ( 助教 ) 質問やサンプルプログラムの提供についてはメールでお問い合わせください 年 03 月 14 日 ( 火 )

HPEハイパフォーマンスコンピューティング ソリューション


0..Campus の利用.Campusに登録確認木曜 4 限にPCリテラシーがあるか確認ショートコード : Campusをお気に入りに追加.Campusから講義ファイル取得.Campusにレポート提出 2

09中西

HP High Performance Computing(HPC)

HPC (pay-as-you-go) HPC Web 2

07-二村幸孝・出口大輔.indd

_計算科学が拓く世界.key

スーパーコンピュータ「京」の概要

チューニング講習会 初級編

1重谷.PDF

PowerPoint プレゼンテーション

IPSJ SIG Technical Report Vol.2014-ARC-213 No.24 Vol.2014-HPC-147 No /12/10 GPU 1,a) 1,b) 1,c) 1,d) GPU GPU Structure Of Array Array Of

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

Vol.214-HPC-145 No /7/3 C #pragma acc directive-name [clause [[,] clause] ] new-line structured block Fortran!$acc directive-name [clause [[,] c

PowerPoint プレゼンテーション

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

HP Workstation 総合カタログ

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

GPUコンピューティング講習会パート1

GPUコンピューティング講習会パート1

GPGPU

Microsoft PowerPoint - RBU-introduction-J.pptx

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

CCS HPCサマーセミナー 並列数値計算アルゴリズム

untitled

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

untitled

untitled

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

Microsoft PowerPoint - HPCフォーラム 新庄Final

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

HP Workstation Xeon 5600

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

Microsoft Word - HOKUSAI_system_overview_ja.docx

ガイダンス(2016年4月19日)-HP

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

PowerPoint プレゼンテーション

untitled

スライド 1

富士通HPCフォーラム.key

先進的計算基盤システムシンポジウム DMA Tofu 6 MPI RDMA 6 3 (1 ) RDMA (2 ) 3 MPI MPI 3 MPI 127us, 47GB/s 9,216 MPI Bcast 106GB/s 31 MPI 2 MPI 2 Tofu Eager : 6 7 2

FINAL PROGRAM 25th Annual Workshop SWoPP / / 2012 Tottori Summer United Workshops on Parallel, Distributed, and Cooperative Processing 2012

<4D F736F F F696E74202D20834B F C8FEE95F A7793C195CA8D758B E348C8E3893FA816A202D E >

2ndD3.eps

main.dvi

Microsoft PowerPoint - ITC [互換モード]

HPC pdf

スライド 1

AMD AMD AMD Opteron x86 OS 2P 8P x GHz 75W ACP OEM Q4 2.3GHz HE (55W) 2.8GHz SE (105W) AMD PC 2009 All rights reserved. AMD Japan, L

P33W・P28X カタログ

資料2-1 計算科学・データ科学融合へ向けた東大情報基盤センターの取り組み(中村委員 資料)

untitled

ProLiant BL460c システム構成図

資料2 最近のスーパーコンピュータの技術動向について

資料8-3 今後のHPCI計画推進のあり方に関する検討ワーキンググループの中間報告について(その5)

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

2

FIT2013( 第 12 回情報科学技術フォーラム ) I-032 Acceleration of Adaptive Bilateral Filter base on Spatial Decomposition and Symmetry of Weights 1. Taiki Makishi Ch

10D16.dvi

HP xw9400 Workstation

EGunGPU

システムソリューションのご紹介

TSUBAME2.5 利用講習会 平成 26 年度版 (Rev ) 東京工業大学学術国際情報センター共同利用推進室 Copyright (C) GSIC All Rights Reserved.

catalog_quadro_series_2018

XACCの概要

2011 IBM 100 AIX 25 IBM i 2 IBM

PowerPoint プレゼンテーション

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

HP Workstation 総合カタログ

RICCについて

Catalog_Quadro_Series_ のコピー2

Po w eredge M000e Index? & 00% 5 32CPU 256 0U PowerEdge M000e PowerEdge M000eI/O 6

211 年ハイパフォーマンスコンピューティングと計算科学シンポジウム Computing Symposium 211 HPCS /1/18 a a 1 a 2 a 3 a a GPU Graphics Processing Unit GPU CPU GPU GPGPU G

最新の並列計算事情とCAE

PowerPoint Presentation

Microsoft Word - 0_0_表紙.doc

PowerPoint プレゼンテーション

次世代スーパーコンピュータのシステム構成案について

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

TSUBAME利用講習会

スライド 1

表面RTX入稿

スパコンに通じる並列プログラミングの基礎

122 丸山眞男文庫所蔵未発表資料.indd

Transcription:

GPU 2016/06/27 第 20 回 GPU コンピューティング講習会 ( 東京工業大学 ) 1

GPU n Graphics Processing Unit CG CAD www.nvidia.co.jp www.autodesk.co.jp www.pixar.com

GPU n GPU ü n NVIDIA CUDA ü NVIDIA GPU ü OS Linux, Windows, Mac ü CUDA C C/C++ ü 2006 2016 6 CUDA 7.5 http://www.nvidia.com/object/cuda_home_new.html https://developer.nvidia.com/cuda-downloads

GPU n CUFFT, CUBLAS, Thrust ü GPU ü n OpenACC ü ü n CUDA OpenCL ü GPU ü GPGPU 4

GPU n TOP 500 Ranking (June 2016) RANK SITE SYSTEM CORES RMAX (TFLOP/S) RPEAK (TFLOP/S) POWER (KW) 1 National Supercomputing Center in Wuxi (/site/50623) China 2 National Super Computer Center in Guangzhou (/site/50365) China Sunway TaihuLight - Sunway MPP, Sunway SW26010 260C 1.45GHz, Sunway (/system/178764) NRCPC Tianhe-2 (MilkyWay-2) - TH-IVB-FEP Cluster, Intel Xeon E5-2692 12C 2.200GHz, TH Express-2, Intel Xeon Phi 31S1P (/system/177999) NUDT 10,649,600 93,014.6 125,435.9 15,371 3,120,000 33,862.7 54,902.4 17,808 MIC, Intel Xeon Phi http://www.top500.org 3 DOE/SC/Oak Ridge National Laboratory (/site/48553) United States Titan - Cray XK7, Opteron 6274 16C 2.200GHz, Cray Gemini interconnect, NVIDIA K20x (/system/177975) Cray Inc. 560,640 17,590.0 27,112.5 8,209 GPU, NVIDIA K20x 4 DOE/NNSA/LLNL (/site/49763) United States Sequoia - BlueGene/Q, Power BQC 16C 1.60 GHz, Custom (/system/177556) IBM 1,572,864 17,173.2 20,132.7 7,890 5 RIKEN Advanced Institute for Computational Science (AICS) (/site/50313) Japan K computer, SPARC64 VIIIfx 2.0GHz, Tofu interconnect (/system/177232) Fujitsu 705,024 10,510.0 11,280.4 12,660 6 DOE/SC/Argonne National Laboratory (/site/47347) United States Mira - BlueGene/Q, Power BQC 16C 1.60GHz, Custom (/system/177718) IBM 786,432 8,586.6 10,066.3 3,945 7 DOE/NNSA/LANL/SNL Trinity - Cray XC40, Xeon E5-2698v3 16C 301,056 8,100.9 11,078.9 (/site/50334) United States 2.3GHz, Aries interconnect (/system/178610) Cray Inc. 8 Swiss National Supercomputing Centre (CSCS) (/site/50422) Switzerland 9 HLRS - Höchstleistungsrechenzentrum Stuttgart (/site/50543) Germany 10 King Abdullah University of Science and Technology (/site/50205) Saudi Arabia Piz Daint - Cray XC30, Xeon E5-2670 8C 2.600GHz, Aries interconnect, NVIDIA K20x (/system/177824) Cray Inc. Hazel Hen - Cray XC40, Xeon E5-2680v3 12C 2.5GHz, Aries interconnect (/system/178446) Cray Inc. Shaheen II - Cray XC40, Xeon E5-2698v3 16C 2.3GHz, Aries interconnect (/system/178515) Cray Inc. 115,984 6,271.0 7,788.9 2,325 185,088 5,640.2 7,403.5 196,608 5,537.0 7,235.2 2,834 GPU, NVIDIA K20x TOP500 65 GPU 27 MIC

TSUBAME2.5 ü ü Compute Node (3 Tesla K20X GPUs) Performance: 4.08 TFLOPS Memory: 58.0GB(CPU) +18GB(GPU) Rack (30 nodes) Performance: 122 TFLOPS Memory: 2.28 TB System (58 racks) 1442 nodes: 2952 CPU sockets, 4264 GPUs Performance: 224.7 TFLOPS (CPU) Turbo boost 5.562 PFLOPS (GPU) Total: 17.1 PFLOPS

TSUBAME2.5 Intel Xeon X5670 6-cores 2.93 GHz 12 cores/node CPU 1408 nodes (4224 GPUs) on TSUBAME 2.5 CPU Memory ~51 GB DDR2 NVIDA Kepler K20X GPU 250 GB/s VRAM 6GB 1000BASE-T 0.125 GB/s GPU 250 GB/s VRAM 6GB InfiniBand QDR x2 4 GB/s x 2 (= 8 GB/s) PCI Express 2.0 x16 8 GB/s GPU 250 GB/s VRAM 6GB

GPU n n

GPU n n www.nvidia.co.jp

NVIDIA Pascal GPU n NVIDIA GPU ü Pascal ü 16nm FinFET 3D ü HBM(High Bandwidth Memory)2 720GB/ sec ü GPU NVLink (40GB/sec) ü 5.3TFlops ü

NVIDIA Pascal GPU n Tesla GPU: Pascal, Maxwell, Kepler P100 M40 K40 Pascal Maxwell Kepler TFlops 5.3 0.2 1.4 TFLops 10.6 7.0 4.3 TFLops 21.2 NA NA GB/s 720 288 288 16GB 12GB, 24GB 12GB

n TSUBAME login n CUDA 1 ü CUDA ü CPU GPU ü GPU n CUDA 2 ü Atomic ü Thurst ü CUDA stream ü CPU GPU Unified Memory