TSUBAME2.0 における GPU の活用方法東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

目次 1. TSUBAMEのGPU 環境 2. プログラム作成 3. プログラム実行 4. 性能解析デバッグサンプルコードは /work0/gsic/seminars/gpu- 2011-09- 28 からコピー可能です

1. TSUBAME の GPU 環境

計算ノード 1408 Thin nodes + 24 Medium nodes + 10 Fat nodes Thin node: HP Proliant SL390s G7 CPU: Intel Xeon 2.93GHz 6core x 2CPU=12 cores GPU: NVIDIA Tesla M2050 3GPU CPU 140GF + GPU 1545GF = 1685GF Memory: 54GB SSD: 120GB Network: QDR InfiniBand x 2 = 80Gbps

NVIDIA Tesla M2050 448 コア 3GB メモリ 1030 GFLOPS (SP), 515 GFLOPS (DP) メモリバンド幅 148 GB/s Fermi( フェルミ ) アーキテクチャハードウェアキャッシュ C++ サポート ECC その他の Fermi GPU Tesla 2070/2090 シリーズ GeForce GTX 480/580 GTX

計算ノード構成 (Thin node) 24GB QDR InfiniBand 4GB/s DDR3 memory 54GB in total 6core Xeon X5670 70.4GF/s IOH GDDR5 memory 3GB 6core Xeon X5670 70.4GF/s IOH 14core Fermi 515GF/s 150GB/s 30GB 32GB/s QPI 25.6GB/s PCIe 2.0 x16 8GB/s Tesla M2050 x 3GPU

TSUBAME 2.0 全体概要

ソフトウェア環境 TSUBAME 2.0 Linux OS SUSE Linux Enterprise Server 11 SP1 Windows OS Job Scheduler for Linux Job Scheduler for Windows Windows HPC Server 2008 R2 PBS Professional Windows HPC Server Windows OS を新規にサポートジョブスケジューラが変更されたためバッチジョブ投入オプションが Tsubame1 と大きく変わります

コンパイラライブラリなど TSUBAME 2.0 Compiler Intel Compiler 11.1.072 ( 標準 ) PGI CDK 10.6 gcc 4.3.4 MPI OpenMPI 1.4.2 ( 標準 ) MVAPICH2 1.5.1 CUDA 3.2 (4.0 も利用可能 ) CPU 用 BLAS/ LAPACK/FFT MKL (hfp://tsubame.gsic.gtech.ac.jp/docs/guides/ tsubame2/html/programming.html#id4) GPU 用 BLAS CUBLAS (CUDA Toolkit 付属 ) GPU 用 LAPACK CULA (hfp://tsubame.gsic.gtech.ac.jp/docs/guides/ tsubame2/html/programming.html#cula)

2. GPU プログラム作成

GPU プログラミング CUDA C/Fortranを利用 OpenCLを利用 PGIアクセラレータコンパイラを利用

CUDA C プログラム開発コンパイラ nvcc /opt/cuda ディレクトリ以下にバージョンごとにインストールされています現在のデフォルトバージョンは 3.2 です /opt/cuda/3.2 現在の最新バージョン 4.0 も利用可能です /opt/cuda/4.0 デバッガ CUDA 標準の cuda- gdb が利用可能です cuda- memcheck: メモリエラーチェック

CUDA C プログラム開発実習以下のコマンドをターミナルから入力し CUDA プログラムのコンパイル実行を確認してください $ はコマンドプロンプトです $ cd $ cp /work0/gsic/seminars/ gpu- 2011-09- 28/test.cu. $ nvcc test.cu o test $./test

CUDA Fortran プログラム開発コンパイラ CUDA Fortran コンパイラが利用可能 PGIコンパイラがサポート通常のPGI Fortranコンパイラによりコンパイル可能 $ cd $ cp /work0/gsic/seminars/ gpu- 2011-09- 28/fortran/matmul.CUF. $ pgfortran matmul.cuf o matmul $./matmul

OpenCL プログラム開発 NVIDIA GPU 用 OpenCL 開発ツールキットは CUDA ツールキットおよび GPU ドライバに付属 OpenCL ヘッダーファイルライブラリ /opt/cuda/3.2/include/cl 以下 /usr/lib64/libopencl.so コンパイル方法 - I/opt/cuda/3.2/include リンク方法 - lopencl

PGI アクセラレータプログラム開発 PGI アクセラレータ拡張 OpenMP のような指示文により一部を GPU 実行 OpenMP では指示文によりループを並列実行 PGI アクセラレータ拡張ではループを GPU により並列実行 PGI コンパイラによりコンパイルコンパイルオプションに - ta=nvidia を追加

PGI 指示文サンプルコード #include <stdio.h> #include <stdlib.h> #include <assert.h> int main( int argc, char* argv[] ) { int n = 10000; /* size of the vector */ float *restrict a; /* the vector */ float *restrict r; /* the results */ float *restrict e; /* expected results */ int I; a = (float*)malloc(n*sizeof(float)); r = (float*)malloc(n*sizeof(float)); e = (float*)malloc(n*sizeof(float)); for( i = 0; i < n; ++i ) a[i] = (float)(i+1); 続く

PGI 指示文サンプルコード } #pragma acc region { for( i = 0; i < n; ++i ) r[i] = a[i]*2.0f; } /* compute on the host to compare */ for( i = 0; i < n; ++i ) e[i] = a[i]*2.0f; /* check the results */ for( i = 0; i < n; ++i ) assert( r[i] == e[i] ); prinv( "%d iteragons completed\n", n ); return 0;

PGI アクセラレータコンパイラ実習必須 à PGI コンパイラに ta=nvidia オプションを追加推奨 à - Minfo オプションによりコンパイラによる GPU コード生成の情報を表示 $ cd $ cp /work0/gsic/seminars/ gpu- 2011-09- 28/pgi_acc/c1.c. $ pgcc c1.c ta=nvidia - Minfo o c1 $./c1

PGI アクセラレータコンパイラ実習コンパイル時のメッセージ t2a006173:tmp$ pgcc c1.c - ta=nvidia - Minfo - o ci1 main: 23, Generagng copyin(a[0:n- 1]) Generagng copyout(r[0:n- 1]) Generagng compute capability 1.0 binary Generagng compute capability 1.3 binary 25, Loop is parallelizable Accelerator kernel generated 25, #pragma acc for parallel, vector(256) CC 1.0 : 3 registers; 20 shared, 36 constant, 0 local memory bytes; 100 occupancy CC 1.3 : 3 registers; 20 shared, 36 constant, 0 local memory bytes; 100 occupancy

3. GPU プログラム実行

テスト実行 ( 無料 ) インタラクティブノード上で実行制限 : 実行時間 30 分まで並列度 4 プロセスメモリ 6GB GPU の利用に関しては時間以外に制限なしコマンドラインで直接プログラムを実行可能無料キューで実行制限 : 2 ノード 10 分までノード内プロセス数メモリ利用量に制限なし GPU 利用に関しても制限なしバッチキューにジョブを投入して実行キュー : S グループ : 無指定例 : t2sub - q S - l 他のオプションジョブスクリプト制限を超えた利用は他の利用者の迷惑になるため注意

バッチキューの使い方 t2sub コマンドの基本 ~/test にある myprog というプログラムを S キューで実行する場合 (1) スクリプトファイルを作っておく ( たとえば job.sh というファイル ) #!/bin/sh cd $HOME/test./myprog job.sh ファイル (2) t2sub コマンドで投入 t2sub W group_list=xxx q S./job.sh - q xxx: キュー名を指定 - W group_list=xxx: TSUBAMEグループ番号を指定

本実行用キュー ( 有料 ) S キュー指定した台数のノードを専有して利用システムが順番にリクエストされたジョブを処理実行時間をなるべく短めに指定したほうが早く実行されます - l wallgme=1:00:00 à 1 時間と指定 H キュー S キューと同様に指定した台数のノードを専有して利用ただしバッチキュー形式ではなく TSUBAME ポータルより利用したい日付台数を予約して利用 ( カレンダー予約 ) hfp://portal.g.gsic.gtech.ac.jp/ à ノード予約予約が入れば指定した日に確実に利用可能多数ノードを利用する場合に最適利用料 S キューの 1.25 倍 G キュー各ノードの 3 台の GPU および CPU4 コア ( ハードウェアスレッド数 8) のみ利用残り 8 コアは仮想マシンにて利用 (V キュー ) し CPU ジョブと GPU ジョブを共存 S キューの半額

有料キュー利用シナリオ GPU のみを用いる場合 G キューがおすすめ利用料金 S の半額ただし CPU コアは 4 コアのみ CPU もそれなりに用いる場合 S がおすすめ大規模実行 ( 数百ノード ) の場合 H キューで予約する方法が確実ただし最低利用時間が 1 日のため短時間利用の場合には利用料金的に非効率 S キューが混んでいる場合急ぎで確実に実行したい場合も有効

4. 性能解析デバッグ

プロファイラ Compute Visual Profiler NVIDIA CUDA ツールキット付属 /opt/cuda/3.2/computeprof/bin/computeprof CUDA および OpenCL プログラムの性能解析をサポート実行時間 PCI データ転送サイズメモリアクセス回数分岐回数実行命令数キャッシュミス回数など

CUDA 用デバッガ cuda- gdb NVIDIA による GDB の拡張 Linux 専用 (CUDA 4.0 より OS X もサポート ) CUDA toolkit 付属 TSUBAME で利用可能 Parallel Nsight NVIDIA による Visual Studio 用プラグイン無料性能解析等を含む非常に豊富な機能を搭載 TotalView 商用 TSUBAME で利用可能 DDT 商用

CUDA- GDB GDB Linux 標準のデバッガ標準的なデバッガの機能を搭載シングルステップ実行ブレイクポイントなど CUDA- GDB GDB をベースに GPU 上のプログラム実行のデバッグをサポートホストコードは通常の GDB と同様にデバッグ可能カーネル関数のシングルステップ実行やブレイクポイントの設定が可能両者ともコマンドラインインターフェイスのみ TotalView などはより使いやすい GUI を提供

TSUBAME2.0 における GPU の 活用方法 東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日

TSUBAME2.0 における GPU の活用方法東京工業大学学術国際情報センター丸山直也第 10 回 GPU コンピューティング講習会 2011 年 9 月 28 日