GPUコンピューティング講習会パート1

Similar documents
GPUコンピューティング講習会パート1

supercomputer2010.ppt

07-二村幸孝・出口大輔.indd

Microsoft PowerPoint - GPU_computing_2013_01.pptx

GPU n Graphics Processing Unit CG CAD

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1


1重谷.PDF

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

GSIC TSUBAME Grid Cluster(TGC) 2

Microsoft Word - HOKUSAI_system_overview_ja.docx

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

HPEハイパフォーマンスコンピューティング ソリューション

スライド 1

main.dvi

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

GPGPU

untitled

RICCについて

untitled

HP High Performance Computing(HPC)

HPC可視化_小野2.pptx

09中西

HPC (pay-as-you-go) HPC Web 2

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

Microsoft PowerPoint - ★13_日立_清水.ppt

VXPRO R1400® ご提案資料

hpc141_shirahata.pdf

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

スライド 1

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N.

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

PowerPoint プレゼンテーション

GPUを用いたN体計算

最新の並列計算事情とCAE

FINAL PROGRAM 22th Annual Workshop SWoPP / / 2009 Sendai Summer United Workshops on Parallel, Distributed, and Cooperative Processing

EGunGPU

スパコンに通じる並列プログラミングの基礎

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

システムソリューションのご紹介

スパコンに通じる並列プログラミングの基礎

2ndD3.eps

TSUBAME2.0におけるGPUの 活用方法

スパコンに通じる並列プログラミングの基礎

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

GPGPUイントロダクション

NUMAの構成

AMD AMD AMD Opteron x86 OS 2P 8P x GHz 75W ACP OEM Q4 2.3GHz HE (55W) 2.8GHz SE (105W) AMD PC 2009 All rights reserved. AMD Japan, L

PowerPoint プレゼンテーション

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

Microsoft PowerPoint - RBU-introduction-J.pptx

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]


次世代スーパーコンピュータのシステム構成案について

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

untitled

GPGPUクラスタの性能評価

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

スライド 1

GPGPU によるアクセラレーション環境について

untitled

PowerPoint プレゼンテーション

untitled

統合汎用スーパーコンピュータシステムの設計状況と施設整備状況

PowerPoint Presentation

CELSIUSカタログ(2012年7月版)

CELSIUSカタログ(2012年5月版)

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

Microsoft PowerPoint - SS研200911姫野_最新.ppt

Microsoft PowerPoint - 03_murakami(参照)_ pptx[読み取り専用]

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

11 月発表の Green500 最新結果の顛末 本来は Green500 で 1-4 位独占を実現する目論見であった 7 月の ISC で 計測ルールが v2.0 になることが予告された ( 現行の v1.2 ルールでの計測値改善には注力せず v2.0 対応作業のみ進めていた ) 最後まで v1.

Microsoft Word - vga

untitled

IPSJ SIG Technical Report Vol.2012-ARC-202 No.13 Vol.2012-HPC-137 No /12/13 Tightly Coupled Accelerators 1,a) 1,b) 1,c) 1,d) GPU HA-PACS

スライド 1

Microsoft PowerPoint - endo-hokke13-kfc.pptx

目次 LS-DYNA 利用の手引き 1 1. はじめに 利用できるバージョン 概要 1 2. TSUBAME での利用方法 使用可能な LS-DYNA の実行 4 (1) TSUBAMEにログイン 4 (2) バージョンの切り替え 4 (3) インタラ

openmp1_Yaguchi_version_170530

高性能計算研究室の紹介 High Performance Computing Lab.

高性能計算研究室の紹介 High Performance Computing Lab.

GPUによる樹枝状凝固成長のフェーズフィールド計算 青木尊之 * 小川慧 ** 山中晃徳 ** * 東京工業大学学術国際情報センター, ** 東京工業大学理工学研究科 溶融金属の冷却過程において形成される凝固組織の形態によって材料の機械的特性が決定することは良く知られている このようなミクロな組織の

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

Microsoft Word - vga

Total View Debugger 利用の手引 東京工業大学学術国際情報センター version 1.0

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

10D16.dvi

インテル アーキテクチャプラットフォーム リーダーシップ 2000 年 12 月 21 日 第 14 回数値流体力学シンポジウム インテル株式会社 ia 技術本部本部長坂野勝美


熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

ÊÂÎó·×»»¤È¤Ï/OpenMP¤Î½éÊâ¡Ê£±¡Ë

Ver. 1.1 Ver NOTE 1TB 7.2K RPM SAS 3.5, 40,100 2TB 7.2K RPM SAS 3.5, 46,600 4TB 7.2K RPM SAS 6Gbps 3.5, 63,600 PowerEdge D

CPU Levels in the memory hierarchy Level 1 Level 2... Increasing distance from the CPU in access time Level n Size of the memory at each level 1: 2.2

TCC は Tesla Compute Cluster を意味します NVidia for Windows によって開発された特別なドライバです Windows Display Driver Model(WDDM) をバイパスし GPU が CPU とより高速で通信できるようにします TCC の欠点

Transcription:

GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也

スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山

TSUBAME の Tesla 利用方法 : ログイン 1. 端末 (imac) へのログイン 配布した紙に記載されている ID, password を利用 2. Titech2006 もしくは 移動 ユーティリティを選択し X11.app を起動 (xterm の起動 ) 3. Tsubame へログイン > ssh Y t login 名 @login.cc.titech.ac.jp tesladebug

TSUBAME の Tesla 利用方法 : 準備 GSIC TESLA 利用の手引き を参照 http://www.gsic.titech.ac.jp/~ccwww/tebiki/tesla/tesla. html CUDA インストールディレクトリへのパスを各種環境変数に追加 お使いのシェルにあわせて source cuda_setup.{csh,sh} としてください 詳しくは利用の手引き 4 節を参照 (csh 系 : cuda-setup.csh) setenv PATH ${PATH}:/opt/cuda/bin setenv LD_LIBRARY_PATH ${LD_LIBRARY_PATH}:/opt/cuda/lib setenv MANPATH ${MANPATH}:/opt/cuda/man (bash 系 : cuda-setup.sh) export PATH=${PATH}:/opt/cuda/bin export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/opt/cuda/lib export MANPATH=${MANPATH}:/opt/cuda/man

GPU コンピューティング GPU を一般アプリケーションの高速化に適用 GPU を計算アクセラレータとして利用 GPGPU (General-Purpose Computing on GPU) とも言われる 2000 年前半から研究としては存在 2007 年に CUDA がリリースされてから大きな注目

計算加速器 ( アクセラレータ ) Cell, GPU, GRAPE, ClearSpeed, FPGA, 汎用 CPU とは別に特定の計算のオフロードが可能なプロセッサ 汎用 CPU と比較して高性能 and/or 低消費電力 HPC ではベクトル演算に特化したアクセラレータが注目 ハイブリッドコンピューティング 汎用 CPU とアクセラレータの組み合わせ HPC における最近の最もホットなトピックの 1 つ

例 : Roadrunner at LANL Opteron + PowerXCell 8i 史上初ペタフロップ超えマシン 1.105 PFLOPS (LINPACK) 現在世界最速スパコン 2008 年 6 月より TOP500 スーパーコンピュータランキングにて 1 位

例 :TSUBAME @ 東工大 GSIC Opteron (> 10K cores) + ClearSpeed (> 600) + NVIDIA Tesla (> 600) Peak: 170 TFLOPS (DP), Linpack: 87.01 TFLOPS (41 st at Jun 09 TOP500) Tesla S1070 4 Tesla cards in a 1U node Connected to host machines via PCIe extension cables

Tesla 10 (T10) NVIDIA G200 系アーキテクチャによるHPC 向けプロセッサ コンシューマ向け GeForce 280 GTX 240コア @ 1.29-1.44 GHz 4GB memory, 102 GB/s Peak: 1 TFLOPS (SP), 90 GFLOPS (DP) 製品 Tesla C1060: PCIe card NVIDIA T10 Tesla S1060: 1U system with 4 C1060 cards GeForceとの違い ビデオ出力無し 品質 (NVIDIAによる全品検査 vs ボードメーカによるサンプル検査 ) 価格 (C1060 @ $1,700, GTX 280 @ $400)

GFLOPS なぜ GPU? CPU を大幅に上回る計算性能 + メモリバンド幅 Tesla 1 TFOPS (SP) / 90 GFOPS (DP) 100 GB/s Core 2 Quad @ 3 GHz 96 GFLOPS (SP) / 48 GFOPS (DP) < 10 GB/s 多くのデータ並列なアプリ 160 140 120 100 80 60 40 20 0 Intel Q6700 3 次元 FFT( 額田 @GSIC) Phenom 9500 Opteron 16core PS3 (CELL) 8800 GT 8800 GTS 512 8800 GTX 280 GTX

性能トレンド CUDA Programming Guide より

TSUBAME 1.2 Evolution (Oct. 2008) The world s first GPU-based SC in the World Voltaire ISR9288 Infiniband x8 10Gbps x2 ~1310+50 Ports ~13.5Terabits/ s (3Tbits bisection) 10Gbps+External N W NEW Deploy: GCOE TSUBASA Harpertown-Xeon 90N od e 720CPU 8.2TeraFlops Unified Infiniband netw ork NEC SX-8i 500GB 48d isks 10,000 CPU Cores 300,000 SIM D Cores > 3 Million Threads ~900TFlops-SFP, ~170TFlops-DFP 80TB/s Mem BW (1/2 ES) Storage 1.5 Petabyte (Sun x4500 x 60) 0.1Petabyte (N EC istore) Lustre FS, NFS, CIF, WebDAV (over IP) 60GB/ s aggregate I/ O BW Su n x4600 (16 Opteron Cores) 32~128 GBytes/ N ode 10480core/ 655N odes 21.4TeraBytes 50.4TeraFlops OS Linux (SuSE 9, 10) N AREGI Grid MW N EW: co-tsubame 90Node 720CPU (Low Power) ~7.2TeraFlop s PCI-e 170 N vid ia Tesla 1070, ~680 Tesla card s H igh Perform ance in Many BW-Intensive Apps 10% pow er increase over TSUBAME 1.0 ClearSpeed CSX600 SIMD accelerator 360 648 boards, 35 52.2TeraFlops 12

TSUBAME 1.2. The most Heterogeneous Supercomputer in the world Three node configurations with four different processors >30,000 cores, ~170TFlops system SunFire X4600+ 2 TESLAs + ClearSpeed Opteron 2.4GH z 16 cores TESLA S1070 (30cores) 2board s ClearSpeed X620 (2cores) 1board 78 cores, 330 Gflops peak x 318nodes 13 SunFire X4600+ClearSpeed Opteron 2.4GH z 16 cores ClearSpeed X620 (2cores) 1board 18 cores, 157 Gflops peak SunBlad e X6250 (TSUBASA cluster) Xeon 2.83GHz 8 cores 8 cores, 90.7 Gflops peak x 330nodes x 90nodes

GPU コンピューティング GPU を一般アプリケーションの高速化に適用 GPU アクセラレータと呼ばれるものの一種 GPGPU (General-Purpose Computing on GPU) とも言われる 2000 年前半から研究としては存在 2007 年に CUDA がリリースされてから大きな注目

GPU コンピューティング : ハードウェア NVIDIA GPU GeForce シリーズ : 一般の PC に搭載されているタイプで 比較的安価 GeForce 8800 GTX より CUDA を実行可能 Tesla シリーズ : GPU コンピューティング専用ハードウェア ( ディスプレイ出力無し ) 高価だがより高信頼 ( といわれている ) TSUBAME に搭載 AMD/ATI GPU Radeon シリーズ FireStream シリーズ

GeForce 8800 GTX Host Input Assembler Thread Execution Manager Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Texture Texture Texture Texture Texture Texture Texture Texture Load/store Load/store Load/store Load/store Load/store Load/store Global Memory

GPU コンピューティング : ソフトウェア NVIDIA CUDA 2007 年 2 月に NVIDIA が自社の GPU 向けにリリース C/C++ の言語拡張 NVIDIA の GPU 専用 最も普及 OpenCL Apple による提案に始まり 標準化団体により制定 言語自体はベンダー非依存 Snow Leopard に標準搭載 NVIDIA GPU x86 CPU 向け SDK が利用可能 普及はまだ ( そのうち?) その他 Brook/Brook+, RapidMind, DirectX Compute, etc.