TSUBAME2.0におけるGPUの活用方法

GPU プログラミング基礎編東京工業大学学術国際情報センター

1. GPU コンピューティングと TSUBAME2.0 スーパーコンピュータ

GPU コンピューティングとはグラフィックプロセッサ (GPU) はグラフィックゲームの画像計算のために進化を続けてきた現在 CPU のコア数は 2~12 個に対し GPU 中には数百コアその GPU を一般アプリケーションの高速化に利用! GPGPU (General-Purpose computing on GPU) とも言われる 2000 年代前半から研究としては存在 2007 年に NVIDIA 社の CUDA 言語がリリースされてから大きな注目 2010/12/06

TSUBAME2.0 スーパーコンピュータ Tokyo-Tech Supercomputer and UBiquitously Accessible Mass-storage Environment ツバメは東京工業大学のシンボルマークでもある TSUBAME1: 2006 年 ~2010 年に稼働したスパコン TSUBAME2.0: 2010 年に作られたスパコン 2010 年には世界 4 位日本 1 位の計算速度性能現在世界 14 位日本 3 位高性能の秘訣が GPU コンピューティング

TSUBAME2.0 スパコン GPU は様々な気象シミュレーション研究分野で利用されている動脈血流シミュレーション津波防災シミュレーション金属結晶凝固シミュレーションウィルス分子シミュレーショングラフ構造解析

TSUBAME 2.0 全体概要

TSUBAME2.0 の計算ノード TSUBAME2.0 は約 1400 台の計算ノード ( コンピュータ ) を持つ各計算ノードは CPU と GPU の両方を持つ CPU: Intel Xeon 2.93GHz 6 コア x 2CPU=12 コア GPU: NVIDIA Tesla M2050 3GPU CPU 140GFlops + GPU 1545GFlops = 1685GFlops GFlops は計算速度の単位 9 割の性能が GPU のおかげ! メインメモリ (CPU 側メモリ ): 54GB SSD: 120GB ネットワーク : QDR InfiniBand x 2 = 80Gbps OS: SUSE Linux 11 (Linuxの一種)

GPU の特徴 (1) コンピュータにとりつける増設ボード単体では動作できず CPU から指示を出してもらう 448 コアを用いて計算多数のコアを活用するために多数のスレッドが協力して計算メモリサイズ 3GB ( 実際使えるのは約 2.5GB) CPU 側のメモリと別なのでデータの移動もプログラミングする必要上記のコア数メモリサイズは M2050 GPU 1 つあたり製品によっても違う

GPU の特徴 (2) M2050 GPU 1 つあたりの性能計算速度 : 515 GFLOPS CPU は 20~100GFlops 程度メモリバンド幅 : 約 150 GB/s CPU は 10~32GB/s 程度その他の特徴ハードウェアキャッシュ C++ サポート ECC 以前の GPU にはキャッシュメモリが無かったので高速なプログラム作成がより大変だった

参考 : 2CPU と 3GPU を持つ TSUBAME2.0 計算ノードの構成 DDR3 memory メ 24GB モリ合計 DDR3 memory 54GB 30GB 32GB/s Xeon CPU 6core 70.4GFlops Xeon CPU 6core 70.4GFlops QPI 25.6GB/s IOH IOH QDR InfiniBand 4GB/s PCIe 2.0 x16 8GB/s GPU 0: Tesla M2050 448core 515GFlops GPU 1: Tesla M2050 448core 515GFlops GPU 2: Tesla M2050 448core 515GFlops 150GB/s GDDR5 memory 3GB 3GB 3GB

様々な GPU やアクセラレータ NVIDIA GPU GeForce シリーズ : 一般の PC に搭載されているタイプで比較的安価パソコンショップで売っている Tesla シリーズ : GPU コンピューティング専用ハードウェア TSUBAME2.0 に搭載されているのは Tesla M2050 AMD/ATI GPU 東芝 Sony IBM Cell プロセッサプレイステーション 3 に搭載 Intel MIC アーキテクチャ

様々な GPU 向けプログラミング言語 CUDA ( 本講義でとりあげる ) NVIDIA GPU 向けのプログラミング言語 OpenCL NVIDIA GPU, AMD GPU, 普通の Intel マルチコア CPU でも動くただし CUDA よりさらに複雑な傾向 OpenACC お手軽な GPU プログラミングのために最近提案された CPU 用プログラムにヒントを追加

2. CUDA プログラムの流れ

プログラミング言語 CUDA NVIDIA GPU 向けのプログラミング言語 2007 年 2 月に最初のリリース TSUBAME2.0 で使えるのは V4.1 Linux, Windows, MacOS 対応本講義では Linux 版標準 C 言語サブセット +GPGPU 用拡張機能 C 言語の基本的な知識 ( 特にポインタ ) は必要となります nvcc コマンドを用いてコンパイルソースコードの拡張子は.cu CUDA 関連書籍もあり著者は東工大の先生

CUDA プログラムのコンパイルと実行例サンプルプログラム inc_seq.cu を利用以下のコマンドをターミナルから入力し CUDA プログラムのコンパイル実行を確認してください $ はコマンドプロンプトです $ nvcc inc_seq.cu arch sm_21 o inc_seq $./inc_seq -arch sm_21 は最新の CUDA 機能を使うためのオプション ( 普段つけておいてください )

サンプルプログラム : inc_seq.cu int 型配列の全要素を 1 加算 GPU であまり意味がない ( 速くない ) 例ですが #include <stdio.h> #include <stdlib.h> #include <cuda.h> #include <cuda_runtime.h> #define N (32) global void inc(int *array, int len) { int i; for (i = 0; i < len; i++) array[i]++; return; } int main(int argc, char *argv[]) { int i; int arrayh[n]; int *arrayd; size_t array_size; } for (i=0; i<n; i++) arrayh[i] = i; printf( input: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); array_size = sizeof(int) * N; cudamalloc((void **)&arrayd, array_size); cudamemcpy(arrayd, arrayh, array_size, cudamemcpyhosttodevice); inc<<<1, 1>>>(arrayD, N); cudamemcpy(arrayh, arrayd, array_size, cudamemcpydevicetohost); printf( output: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); return 0;

CUDA プログラム構成ホストプログラム + GPU カーネル関数ホストプログラム CPU 上で実行されるプログラムほぼ通常の C 言語 main 関数から処理がはじまる GPU に対してデータ転送 GPU カーネル関数呼び出しを実行 GPU カーネル関数 GPU 上で実行される関数 ( サンプルでは inc 関数 ) ホストプログラムから呼び出されて実行 ( 単にカーネル関数と呼ぶ場合も )

典型的な制御とデータの流れ @ CPU @ GPU (1) GPU 側メモリにデータ用領域を確保 (2) 入力データを GPU へ転送 (3) GPU カーネル関数を呼び出し (5) 出力を CPU 側メモリへ転送 global void kernel_func() { (4) カーネル関数を実行 return; } 入力入力出力出力 CPU 側メモリ ( メインメモリ ) GPU 側メモリ ( デバイスメモリ ) この2 種類のメモリの区別は常におさえておく

(1) @CPU: GPU 側メモリ領域確保 cudamalloc(void **devpp, size_t count) GPU 側メモリ ( デバイスメモリグローバルメモリと呼ばれる ) に領域を確保 devpp: デバイスメモリアドレスへのポインタ確保したメモリのアドレスが書き込まれる count: 領域のサイズ cudafree(void *devp) 指定領域を開放例 : 長さ 1024 の int の配列を確保 #define N (1024) int *arrayd; cudamalloc((void **)&arrayd, sizeof(int) * N); // arrayd has the address of allocated device memory

(2) @CPU: 入力データ転送 cudamemcpy(void *dst, const void *src, size_t count, enum cudamemcpykind kind) 先に cudamalloc で確保した領域に指定した CPU 側メモリのデータをコピー dst: 転送先デバイスメモリ src: 転送元 CPU メモリ count: 転送サイズ ( バイト単位 ) kind: 転送タイプを指定する定数ここでは cudamemcpyhosttodevice を与える例 : 先に確保した領域へ CPU 上のデータ arrayh を転送 int arrayh[n]; cudamemcpy(arrayd, arrayh, sizeof(int)*n, cudamemcpyhosttodevice); 2010/12/06

(3) @CPU: GPU カーネルの呼び出し kernel_func<<<grid_dim, block_dim>>> (kernel_param1, ); kernel_func: カーネル関数名 kernel_param: カーネル関数の引数例 : カーネル関数 inc を呼び出し引数その 2 入力配列の長さ inc<<<1, 1>>>(arrayD, N); 2010/12/06 CUDA 特有な構文によりスレッド数を記述する詳しくは後で引数その 1 入力配列へのポインタ

(4) @GPU: カーネル関数 GPU 上で実行される関数 global というキーワードをつける注 : global の前後にはアンダーバー 2 つずつ GPU 側メモリのみアクセス可 CPU 側メモリはアクセス不可引数利用可能値の返却は不可 (void のみ ) 例 : int 型配列をインクリメントするカーネル関数 2010/12/06 global void inc(int *array, int len) { int i; for (i = 0; i < len; i++) array[i]++; return; }

(5) @CPU: 結果の返却入力転送と同様に cudamemcpy を用いるただし転送タイプは cudamemcpydevicetohost を指定例 : 結果の配列を CPU 側メモリへ転送 cudamemcpy(arrayh, arrayd, sizeof(int)*n, cudamemcpydevicetohost); 2010/12/06

カーネル関数内でできることできないこと if, for, whileなどの制御構文はok GPU 側メモリのアクセスはok CPU 側メモリのアクセスは不可 inc_seqサンプルで arraydと間違ってarrayhをカーネル関数に渡してしまうとバグ!! ( 何が起こるか分からない ) ファイルアクセスなどは不可 printfは例外的にokなのでデバグに役立つ関数呼び出しは device つき関数に対してならok @CPU @GPU CPU 側関数 global 関数 device 関数上図の矢印の方向にのみ呼び出しできる GPU 内から CPU 関数は呼べない device つき関数は返り値を返せるので便利

3. CUDA における並列化

CUDA における並列化たくさんのスレッドが GPU 上で並列に動作することにより初めて GPU を有効活用できる inc_seq プログラムは 1 スレッドしか使っていないデータ並列性を基にした並列化が一般的例 : 巨大な配列があるとき各スレッドが一部づつを分担して処理高速化が期待できる一人の小人が大きな畑を耕す場合複数の小人が分担して耕すと速く終わる

CUDA におけるスレッド (1) CUDA でのスレッドは階層構造になっているグリッドは複数のスレッドブロックから成るスレッドブロックは複数のスレッドから成るカーネル関数呼び出し時にスレッド数を二段階で指定 kernel_func<<<100, 30>>>(a, b, c); スレッドブロックの数 ( スレッドブロックあたりの ) スレッドの数この例では 100x30=3000 個のスレッドが kernel_func を並列に実行する

Host Kernel 1 Kernel 2 Block (1, 1) (0, 0) (0, 1) (0, 2) Device (1, 0) (1, 1) (1, 2) Grid 1 Block (0, 0) Block (0, 1) Grid 2 CUDA でのスレッド (2) (2, 0) (2, 1) (2, 2) Block (1, 0) Block (1, 1) (3, 0) (3, 1) (3, 2) Source: NVIDIA (4, 0) (4, 1) (4, 2) Block (2, 0) Block (2, 1) スレッドブロック数およびスレッド数はそれぞれが int 型整数三次元の dim3 型 (CUDA 特有 ) のどちらか指定例 <<<100, 30>>> <<<dim3(100,20,5), dim3(4, 8, 4)>>> <<<4, dim3(20, 9)>>> なお dim3(100,1,1) と 100 は同じ意味となる

グリッドとスレッドブロック 1 次元 2 次元 3 次元でグリッドのサイズを指定可各スレッドが自分は誰か? を知るために以下を利用可能 dim3 griddim グリッドサイズ dim3 blockidx グリッド内のブロックのインデックスつまり自分が何番目のブロックに属するか (0 からはじまる ) 1 次元目は griddim.x, blockidx.x として利用 blockidx 同様に 2 次元目は ~.y, 3 次元目は ~.z 最大サイズ (M2050 GPU では ) 65535 x 65535 x 65535 y Block (0, 0) Block (0, 1) Block (1, 0) Block (1, 1) Block (2, 0) Block (2, 1) griddim: dim3(3, 2) x

スレッドブロックとスレッド 1 次元 2 次元 3 次元でスレッドブロックのサイズを指定可各スレッドが自分は誰か? を知るために以下を利用可能 dim3 blockdim スレッドブロックサイズ dim3 threadidx ブロック内のスレッドインデックスつまりブロック内で自分が何番目のスレッドか (0 からはじまる ) 最大サイズの制限有り M2050 GPU では x は 1024 まで y は 1024 まで z は 64 まで全体で 1024 まで y blockdim: dim3(5, 3) (0, 0) (0, 1) (0, 2) (1, 0) (1, 1) (1, 2) (2, 0) (2, 1) (2, 2) threadidx (3, 0) (3, 1) (3, 2) x (4, 0) (4, 1) (4, 2)

サンプルプログラムの改良 inc_par は inc_seq と同じ計算を行うが N 要素の計算のために N スレッドを利用する点が違う #include <stdio.h> #include <stdlib.h> #include <cuda.h> #include <cuda_runtime.h> #define N (32) #define BS (8) global void inc(int *array, int len) { int i = blockidx.x * blockdim.x + threadidx.x; array[i]++; return; } int main(int argc, char *argv[]) { int i; int arrayh[n]; int *arrayd; size_t array_size; } for (i=0; i<n; i++) arrayh[i] = i; printf( input: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); array_size = sizeof(int) * N; cudamalloc((void **)&arrayd, array_size); cudamemcpy(arrayd, arrayh, array_size, cudamemcpyhosttodevice); inc<<<n/bs, BS>>>(arrayD, N); cudamemcpy(arrayh, arrayd, array_size, cudamemcpydevicetohost); printf( output: ); for (i=0; i<n; i++) printf( %d, arrayh[i]); printf( n ); return 0;

inc_par プログラムのポイント (1) N 要素の計算のために N スレッドを利用 inc<<<n/bs, BS>>>(...); グリッドサイズスレッドブロックサイズこの例では前もって BS=8 としたちなみに <<<N, 1>>> や <<<1, N>>> でも動くのだが非効率的であるちなみにこのままでは N が BS で割り切れないときに正しく動かないどう改造すればよいか?

inc_par プログラムのポイント (2) inc_par の並列化の方針 ( 通算で )0 番目のスレッドに array[0] の計算をさせる 1 番目のスレッドに array[1] の計算 : N-1 番目のスレッドに array[n-1] の計算配列 array 各スレッドは自分は通算で何番目のスレッドか? を知るために下記を計算 i = blockidx.x * blockdim.x + threadidx.x; 使いまわせる便利な式 1 スレッドは array[i] の 1 要素だけ計算 for ループは無し

変数メモリに関するルールカーネル関数内で宣言される変数は各スレッド独自の値を持つあるスレッドでは i=0, 別のスレッドでは i=1 カーネル関数に与えられた引数は全スレッド同じ値 inc_par プログラムでは array ポインタと len 全スレッドは GPU 側メモリを共有しており読み書きできるただし複数スレッドが同じ場所に書き込むとぐちゃぐちゃ (race condition) になるので注意同じ場所を読み込むのは ok

4. GPU の計算速度の威力

少し高度な例 : 行列積演算 (1) 行列積演算サンプルプログラムサイズ 1024x1024 の行列 A, B, C があるとき C=A B を計算するいくつかのバージョンを比較 : matmul_cpu.c CPU で計算約 8.3 秒 (gcc O2 でコンパイルした場合 ) matmul_seq.cu GPU の 1 スレッドで計算約 200 秒 CPU より遅くなってしまった matmul_par.cu GPU の複数スレッドで計算約 0.027 秒けた違いに速い!!

行列積演算 (2): cpu 版 /seq 版行列 A 行列 B 行列 Cの要素 C i,j を求めるには Aの第 i 行全体 Bの第 j 列全体の内積計算を行うこのためにforループ C 全体を計算するためには三重の for ループ行列 C

行列積演算 (3): par 版 matmul_par では 1024x1024 個のスレッドを用い 1 スレッドが C の 1 要素を計算 matmul<<<dim3(n / BS, L / BS), dim3(bs, BS)>>> (Ad, Bd, Cd, L, M, N); ここで L=M=N=1024 BS は前もって適当に決めた数 (16) カーネル関数は内積のための一重 for ループグリッドサイズブロックサイズとも二次元で指定ちなみに更なる並列化のために C の 1 要素の計算を複数スレッドで行うのは容易ではない ( 合計の計算時にスレッド間の同期が必要 )

効率のよいプログラムのためにグリッドサイズが 14 以上かつスレッドブロックサイズが 32 以上の場合に効率的 M2050 GPU では GPU 中の SM 数 =14 SM 中の CUDA core 数 =32 なのでぎりぎりよりも数倍以上にしたほうが効率的な場合が多い ( ベストな点はプログラム依存 ) ほかにも色々効率化のポイントあり応用編で

基礎編のまとめ GPU プログラミングと TSUBAME2.0 スパコンについて説明した CUDA プログラミング言語の基礎について説明した CPU 側メモリ ( メインメモリ ) とGPU 側メモリ ( デバイスメモリ ) は異なるため cudamemcpyでデータをコピーする GPUカーネル関数を呼ぶ際にはグリッドサイズとスレッドブロックサイズ ( その積がスレッド数 ) を指定

TSUBAME2.0におけるGPUの 活用方法

TSUBAME2.0におけるGPUの活用方法