GPUコンピューティング講習会パート1

Similar documents
GPUコンピューティング講習会パート1

07-二村幸孝・出口大輔.indd

1 GPU GPGPU GPU CPU 2 GPU 2007 NVIDIA GPGPU CUDA[3] GPGPU CUDA GPGPU CUDA GPGPU GPU GPU GPU Graphics Processing Unit LSI LSI CPU ( ) DRAM GPU LSI GPU


Microsoft PowerPoint - GPU_computing_2013_01.pptx

supercomputer2010.ppt

main.dvi

! 行行 CPUDSP PPESPECell/B.E. CPUGPU 行行 SIMD [SSE, AltiVec] 用 HPC CPUDSP PPESPE (Cell/B.E.) SPE CPUGPU GPU CPU DSP DSP PPE SPE SPE CPU DSP SPE 2

GPU n Graphics Processing Unit CG CAD

マルチコアPCクラスタ環境におけるBDD法のハイブリッド並列実装

Slides: TimeGraph: GPU Scheduling for Real-Time Multi-Tasking Environments

GPU GPU CPU CPU CPU GPU GPU N N CPU ( ) 1 GPU CPU GPU 2D 3D CPU GPU GPU GPGPU GPGPU 2 nvidia GPU CUDA 3 GPU 3.1 GPU Core 1

Microsoft Word - HOKUSAI_system_overview_ja.docx

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

スライド 1

RICCについて

23 Fig. 2: hwmodulev2 3. Reconfigurable HPC 3.1 hw/sw hw/sw hw/sw FPGA PC FPGA PC FPGA HPC FPGA FPGA hw/sw hw/sw hw- Module FPGA hwmodule hw/sw FPGA h

VXPRO R1400® ご提案資料

untitled

B 2 Thin Q=3 0 0 P= N ( )P Q = 2 3 ( )6 N N TSUB- Hub PCI-Express (PCIe) Gen 2 x8 AME1 5) 3 GPU Socket 0 High-performance Linpack 1

GPGPU


最新の並列計算事情とCAE

MATLAB® における並列・分散コンピューティング ~ Parallel Computing Toolbox™ & MATLAB Distributed Computing Server™ ~

HPEハイパフォーマンスコンピューティング ソリューション


Microsoft PowerPoint - ★13_日立_清水.ppt

AMD/ATI Radeon HD 5870 GPU DEGIMA LINPACK HD 5870 GPU DEGIMA LINPACK GFlops/Watt GFlops/Watt Abstract GPU Computing has lately attracted

GPUを用いたN体計算

NUMAの構成

AMD AMD AMD Opteron x86 OS 2P 8P x GHz 75W ACP OEM Q4 2.3GHz HE (55W) 2.8GHz SE (105W) AMD PC 2009 All rights reserved. AMD Japan, L

HP High Performance Computing(HPC)

GPGPUイントロダクション

hpc141_shirahata.pdf

Microsoft PowerPoint - GPUシンポジウム _d公開版.ppt [互換モード]

資料3 今後のHPC技術に関する研究開発の方向性について(日立製作所提供資料)

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

HPC可視化_小野2.pptx

システム imac 21.5 インチディスプレイ 3.6GHz i5 Dual core / HT 2.8GHz i7 Quad core / HT ATI Radeon 4850 ATI Radeon HD はいいいえいいえはいいいえ ATI はいいいえ

HPC (pay-as-you-go) HPC Web 2

TCC は Tesla Compute Cluster を意味します NVidia for Windows によって開発された特別なドライバです Windows Display Driver Model(WDDM) をバイパスし GPU が CPU とより高速で通信できるようにします TCC の欠点

ワークステーション推奨スペック Avid Avid Nitris Mojo SDI Fibre 及び Adrenaline MC ソフトウェア 3.5 以降のバージョンが必要です Dual 2.26 GHz Quad Core Intel 構成のに関しては Configuration Guideli

CELSIUSカタログ(2012年7月版)

untitled

Total View Debugger 利用の手引 東京工業大学学術国際情報センター version 1.0

System Requirements for Geomagic

TSUBAME2.0におけるGPUの 活用方法

スライド 1

システムソリューションのご紹介

untitled

PowerPoint プレゼンテーション

GPGPU によるアクセラレーション環境について

EnSightのご紹介

untitled

( CUDA CUDA CUDA CUDA ( NVIDIA CUDA I

CELSIUSカタログ(2012年5月版)

GPU チュートリアル :OpenACC 篇 Himeno benchmark を例題として 高エネルギー加速器研究機構 (KEK) 松古栄夫 (Hideo Matsufuru) 1 December 2018 HPC-Phys 理化学研究所 共通コードプロジェクト

SC SC10 (International Conference for High Performance Computing, Networking, Storage and Analysis) (HPC) Ernest N.

openmp1_Yaguchi_version_170530

1. GPU コンピューティング GPU コンピューティング GPUによる 汎用コンピューティング GPU = Graphics Processing Unit CUDA Compute Unified Device Architecture NVIDIA の GPU コンピューティング環境 Lin

PowerPoint プレゼンテーション

高性能計算研究室の紹介 High Performance Computing Lab.

1重谷.PDF

高性能計算研究室の紹介 High Performance Computing Lab.

PowerPoint プレゼンテーション

スパコンに通じる並列プログラミングの基礎

EGunGPU

09中西

PowerPoint プレゼンテーション

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

スパコンに通じる並列プログラミングの基礎

HP WORKSTATIONS グラフィックスカード

PowerPoint Presentation

目次 LS-DYNA 利用の手引き 1 1. はじめに 利用できるバージョン 概要 1 2. TSUBAME での利用方法 使用可能な LS-DYNA の実行 4 (1) TSUBAMEにログイン 4 (2) バージョンの切り替え 4 (3) インタラ

IPSJ SIG Technical Report Vol.2013-ARC-203 No /2/1 SMYLE OpenCL (NEDO) IT FPGA SMYLEref SMYLE OpenCL SMYLE OpenCL FPGA 1

スパコンに通じる並列プログラミングの基礎

ホログラフィ ビームスプリッタ レーザ光 ミラー レーザ光 記録物体 ミラー 再生像 写真乾版 ホログラム 物体光 物体光 参照光 ミラー 再生光 ミラー ホログラムへの記録 ホログラムの再生 光の干渉を利用 光の回折を利用 2

iiyama PC、「LEVEL∞(レベル インフィニティ)」よりBroadwell-E Core™ i7とGeForce® GTX 10シリーズを搭載したフルタワーゲームパソコンをセール価格で販売中

Microsoft PowerPoint PCクラスタワークショップin京都.ppt

電気通信大学 I 類 情報系 情報 ネットワーク工学専攻 CED 2018 システム利用ガイド ver1.2 CED 管理者 学術技師 島崎俊介 教育研究技師部 実験実習支援センター 2018 年 3 月 29 日 1 ログイン ログアウト手順について 1.1 ログイン手順 CentOS 1. モニ

GPGPUクラスタの性能評価

Pervasive PSQL v11 のベンチマーク パフォーマンスの結果

1 OpenCL OpenCL 1 OpenCL GPU ( ) 1 OpenCL Compute Units Elements OpenCL OpenCL SPMD (Single-Program, Multiple-Data) SPMD OpenCL work-item work-group N

熊本大学学術リポジトリ Kumamoto University Repositor Title GPGPU による高速演算について Author(s) 榎本, 昌一 Citation Issue date Type URL Presentation

WebGL OpenGL GLSL Kageyama (Kobe Univ.) Visualization / 57

九州大学がスーパーコンピュータ「高性能アプリケーションサーバシステム」の本格稼働を開始

Catalog_Quadro_Series_ のコピー2

Microsoft PowerPoint - SS研200911姫野_最新.ppt

H1-4

<4D F736F F F696E74202D2091E63489F15F436F6D C982E682E992B48D8291AC92B489B F090CD2888F38DFC E B8CDD8

Microsoft PowerPoint - GPGPU実践基礎工学(web).pptx

工学院大学建築系学科近藤研究室2000年度卒業論文梗概

NVIDIA Tesla K20/K20X GPU アクセラレータ アプリケーション パフォーマンス テクニカル ブリーフ

Microsoft Word - Quadro Mシリーズ_テクニカルガイド_R1-2.doc

rank ”«‘‚“™z‡Ì GPU ‡É‡æ‡éŁÀŠñ›»

hotspot の特定と最適化

2ndD3.eps

Microsoft PowerPoint - RBU-introduction-J.pptx

Microsoft Word - vga

Microsoft Word ●IntelクアッドコアCPUでのベンチマーク_吉岡_ _更新__ doc

Transcription:

GPU コンピューティング (CUDA) 講習会 GPU と GPU を用いた計算の概要 丸山直也

スケジュール 13:20-13:50 GPU を用いた計算の概要 担当丸山 13:50-14:30 GPU コンピューティングによる HPC アプリケーションの高速化の事例紹介 担当青木 14:30-14:40 休憩 14:40-17:00 CUDA プログラミングの基礎 担当丸山

TSUBAME の Tesla 利用方法 : ログイン 1. 端末 (imac) へのログイン 配布した紙に記載されている ID, password を利用 2. Titech2006 もしくは 移動 ユーティリティを選択し X11.app を起動 (xterm の起動 ) 3. Tsubame へログイン > ssh Y t login 名 @login.cc.titech.ac.jp tesladebug

TSUBAME の Tesla 利用方法 : 準備 GSIC TESLA 利用の手引き を参照 http://www.gsic.titech.ac.jp/~ccwww/tebiki/tesla/tesla. html CUDA インストールディレクトリへのパスを各種環境変数に追加 お使いのシェルにあわせて source cuda_setup.{csh,sh} としてください 詳しくは利用の手引き 4 節を参照 (csh 系 : cuda-setup.csh) setenv PATH ${PATH}:/opt/cuda/bin setenv LD_LIBRARY_PATH ${LD_LIBRARY_PATH}:/opt/cuda/lib setenv MANPATH ${MANPATH}:/opt/cuda/man (bash 系 : cuda-setup.sh) export PATH=${PATH}:/opt/cuda/bin export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/opt/cuda/lib export MANPATH=${MANPATH}:/opt/cuda/man

GPU コンピューティング GPU を一般アプリケーションの高速化に適用 GPU を計算アクセラレータとして利用 GPGPU (General-Purpose Computing on GPU) とも言われる 2000 年前半から研究としては存在 2007 年に CUDA がリリースされてから大きな注目

計算加速器 ( アクセラレータ ) Cell, GPU, GRAPE, ClearSpeed, FPGA, 汎用 CPU とは別に特定の計算のオフロードが可能なプロセッサ 汎用 CPU と比較して高性能 and/or 低消費電力 HPC ではベクトル演算に特化したアクセラレータが注目 ハイブリッドコンピューティング 汎用 CPU とアクセラレータの組み合わせ HPC における最近の最もホットなトピックの 1 つ

例 : Roadrunner at LANL Opteron + PowerXCell 8i 史上初ペタフロップ超えマシン 1.105 PFLOPS (LINPACK) 現在世界最速スパコン 2008 年 6 月より TOP500 スーパーコンピュータランキングにて 1 位

例 :TSUBAME @ 東工大 GSIC Opteron (> 10K cores) + ClearSpeed (> 600) + NVIDIA Tesla (> 600) Peak: 170 TFLOPS (DP), Linpack: 87.01 TFLOPS (41 st at Jun 09 TOP500) Tesla S1070 4 Tesla cards in a 1U node Connected to host machines via PCIe extension cables

TSUBAME 1.2. The most Heterogeneous Supercomputer in the world Three node configurations with four different processors >30,000 cores, ~170TFlops system SunFire X4600+ 2 TESLAs + ClearSpeed Opteron 2.4GH z 16 cores TESLA S1070 (30cores) 2board s ClearSpeed X620 (2cores) 1board 78 cores, 330 Gflops peak x 318nodes SunFire X4600+ClearSpeed Opteron 2.4GH z 16 cores ClearSpeed X620 (2cores) 1board 18 cores, 157 Gflops peak x 330nodes SunBlad e X6250 (TSUBASA cluster) Xeon 2.83GHz 8 cores 8 cores, 90.7 Gflops peak x 90nodes

GFLOPS なぜ GPU? CPU を大幅に上回る計算性能 + メモリバンド幅 Tesla 1 TFOPS (SP) / 90 GFOPS (DP) 100 GB/s Core 2 Quad @ 3 GHz 96 GFLOPS (SP) / 48 GFOPS (DP) < 10 GB/s 多くのデータ並列なアプリ 160 140 120 100 80 60 40 20 0 Intel Q6700 3 次元 FFT( 額田 @GSIC) Phenom 9500 Opteron 16core PS3 (CELL) 8800 GT 8800 GTS 512 8800 GTX 280 GTX

Tesla 10 (T10) NVIDIA G200 系アーキテクチャによるHPC 向けプロセッサ コンシューマ向け GeForce 280 GTX 240コア @ 1.29-1.44 GHz 4GB memory, 102 GB/s Peak: 1 TFLOPS (SP), 90 GFLOPS (DP) 製品 Tesla C1060: PCIe card NVIDIA T10 Tesla S1060: 1U system with 4 C1060 cards GeForceとの違い ビデオ出力無し 品質 (NVIDIAによる全品検査 vs ボードメーカによるサンプル検査 ) 価格 (C1060 @ $1,700, GTX 280 @ $400)

性能トレンド CUDA Programming Guide より

GPU コンピューティング GPU を一般アプリケーションの高速化に適用 GPU アクセラレータと呼ばれるものの一種 GPGPU (General-Purpose Computing on GPU) とも言われる 2000 年前半から研究としては存在 2007 年に CUDA がリリースされてから大きな注目

GPU コンピューティング : ハードウェア NVIDIA GPU GeForce シリーズ : 一般の PC に搭載されているタイプで 比較的安価 GeForce 8800 GTX より CUDA を実行可能 Tesla シリーズ : GPU コンピューティング専用ハードウェア ( ディスプレイ出力無し ) 高価だがより高信頼 ( といわれている ) TSUBAME に搭載 AMD/ATI GPU Radeon シリーズ FireStream シリーズ

GeForce 8800 GTX Host Input Assembler Thread Execution Manager Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Texture Texture Texture Texture Texture Texture Texture Texture Load/store Load/store Load/store Load/store Load/store Load/store Global Memory

GPU コンピューティング : ソフトウェア NVIDIA CUDA 2007 年 2 月に NVIDIA が自社の GPU 向けにリリース C/C++ の言語拡張 NVIDIA の GPU 専用 最も普及 OpenCL Apple による提案に始まり 標準化団体により制定 言語自体はベンダー非依存 Snow Leopard に標準搭載 NVIDIA/ATI GPU x86 CPU 向け SDK が利用可能 普及はまだこれから その他 Brook/Brook+, RapidMind, DirectX Compute, etc.

OpenCL Khronos 標準化団体によって策定された GPU コンピューティングのための共通仕様 Khronos は OpenGL を策定した団体 同一のソースコードで NVIDIA GPU AMD GPU Intel/AMD CPU などで動作 ただし 同一のプログラムがすべての環境に適しているわけではない オンチップメモリのサイズ ベクター長など 特にベンダーの異なる GPU 間では結局異なるプログラムを書くことに 本講習会で取り上げる内容は基本的に OpenCL プログラミングでも有効 細かな技術的な違いはあるものの 概念的なレベルでは同じ

OpenCL vs. CUDA OpenCL の利点 ベンダー非依存 (Intel Larrabee でも動作?) 業界標準 CUDA の利点 NVIDIA GPU の最先端の機能を利用可能 CUDA3.0 ではデバッガー等の機能も大幅に拡充 cf. OpenGL vs. DirectX プログラミングの簡便さ OpenCL は CUDA のドライバー API と同様にカーネル呼び出し等が煩雑 これまでの知識 経験の蓄積 (OpenCL も普及すれば時間の問題 )

DirectCompute Microsoft 独自の DirectX 11 に追加された GPU コンピューティングのための仕様 OpenGL vs. DirectX OpenCL vs. DirectCompute DirectX 11 をサポートする GPU+Windows で利用可能 CUDA OpenCL との違い DirectX とよりシンプルかつ密な連携が可能 ( 例えば 3D ゲーム中の AI の計算などを GPU で高速化など ) Windows のみだが Windows の DirectX における開発に慣れた人であればハードルは CUDA 等より低い