GPGPUクラスタの性能評価 - PDF 無料ダウンロード

2008 年度理研 HPC シンポジウム第 3 世代 PC クラスタ GPGPU クラスタの性能評価 2009 年 3 月 12 日富士通研究所成瀬彰

発表の概要背景 GPGPU による高速化 CUDA の概要 GPU のメモリアクセス特性調査姫野 BMT の高速化 GPGPU クラスタによる高速化 GPU Host 間のデータ転送 GPU-to-GPU の通信性能 GPGPU クラスタ上での姫野 BMT 性能まとめ

背景 : GPGPU GPU を汎用計算に高速化汎用化が進展 CPU と比べて桁違いの演算性能メモリ転送性能プログラム開発環境の整備 CUDA nvidia の統合開発環境 GPU 上のプログラム開発の簡易化 GPGPU 対応の進展課題行列演算 N 体問題 FFT CFD GPUはブラックボックスチューニングが困難 GPU 向けプログラム最適化は難しいノウハウが少ない

背景 : GPGPU クラスタ PC クラスタを GPU で加速 GPU 搭載マシンを高速ネットワークで接続計算は GPU 通信は従来通り CUDA + MPI GPU CPU NIC NIC CPU GPU 課題通信は CPU を経由 GPUで計算は速くなるが通信は速くならない GPU-to-GPUで十分な通信性能は出るのか

背景 : GPGPU クラスタ並列処理時間計算処理計算処理 GPU で加速どれぐらい速くできるか? 通信処理 GPU で加速しないむしろ遅くなるどれぐらい遅くなるか? 姫野 BMT の高速化を題材に通信処理

姫野 BMT 流体アプリのカーネルルーチン Poisson 方程式解法時の性能を測定メモリアクセス特徴 14 個の 3D 配列再利用性が低い (1 配列を除く ) キャッシュは効かないメモリバンド幅ネック 14 ストリームで高メモリバンド幅

姫野 BMT のコア部分 (jacobi) for (i=1; i<imax-1; i++) for (j=1; j<jmax-1; j++) for (k=1; k<kmax-1; k++) { } s0 = a0[i][j][k] * p[i+1][j][k] + a1[i][j][k] * p[i][j+1][k] + a2[i][j][k] * p[i][j][k+1] + b0[i][j][k] * (p[i+1][j+1][k] p[i+1][j-1][k] p[i-1][j+1][k] + p[i-1][j-1][k]) + b1[i][j][k] * (p[i][j+1][k+1] p[i][j+1][k-1] p[i][j-1][k+1] + p[i][j-1][k-1]) + b2[i][j][k] * (p[i+1][j][k+1] p[i+1][j][k-1] p[i-1][j][k+1] + p[i-1][j][k-1]) + c0[i][j][k] * p[i-1][j][k] + c1[i][j][k] * p[i][j-1][k] + c2[i][j][k] * p[i][j][k-1] + wrk1[i][j][k]; ss = (s0 * a3[i][j][k] p[i][j][k]) * bnd[i][j][k]; wrk2[i][j][k] = p[i][j][k] + omega * ss; 配列 p: ステンシルアクセス再利用性有り他 13 配列 : 点アクセス再利用性無し

CUDA 概要 : ハードウェア構成 GeForce GTX280 最新世代 CUDA GPU 理論ピークメモリバンド幅 : 141.7GB/s ( = 64bit * 8 * 2.214GHz ) MP 数 : 30 MPの内部構成 SP 数 : 8 ( 全体で240) 共有メモリ : 16KB レジスタ数 : 16K 本 (64KB) MP MP MP Memory Controller 64bit GDDR3 GDDR3 (*) SP = Stream Processor Multi-Processor Register Files (64KB) SP SP SP SP SP SP SP SP Shared Memory (16KB) (x10) X-Bar (x8) MP MP MP Memory Controller 64bit GDDR3 GDDR3 Global Memory

CUDA 概要 : プログラミング 2 段階のデータ並列グリッド複数のブロックで構成ブロック複数のスレッドで構成スレッド SP 上で実行される MP 内の処理各ブロックは 1 つの MP に割当 MP が実行可能スレッドを選択選択単位はワープ (32 スレッド ) Block Warp 0 Warp 1 Warp 7 Grid Block (0,0) Block (0,1) Block (0,15) Thread (0,0) Thread (0,1) Thread (0,7) Block (1,0) Block (1,1) Block (1,15) Block (15,0) Block (15,1) Block (15,15) (*) 256block/grid Thread (1,0) Thread (1,1) Thread (1,7) Thread (31,0) Thread (31,1) Thread (31,7) (*) 256thread/block

CUDA 概要 : 実行モデル CUDA の実行モデル : SPMD Single Program Multiple Data 命令列 SIMD Thread0 Thread1 Thread2 Thread3 SPMD Thread0 Thread1 Thread2 Thread3 基本的にスレッド間は非同期同じワープ内のスレッドだけ同期

メモリアクセス特性の調査高速化の対象 : 姫野 BMT 姫野 BMT はメモリバンド幅ネック姫野 BMT の高速化高メモリバンド幅の実現 GPU の実効メモリバンド幅理論ピークの 8 割超も可能いつでも高バンド幅を実現できる NO 高バンド幅実現の条件は? GPU のメモリアクセス特性を調査バンド幅アクセス遅延

メモリバンド幅の調査メモリコピー時のメモリバンド幅を実測 READ:WRITE 比率 = 1:1 以下の条件を変え測定を実施コピー量 (= 転送量 ) 同時コピー数 (= ストリーム数 )

メモリコピー ( 基本 ) 普通のメモリコピー for ( i = 0 ; i < num ; i ++ ) { } dst[ i ] = src[ i ]; GPU: データ並列でメモリコピー各スレッドへのデータ割当 (4 スレッド ): Block (dst) (src) Cyclic (dst) (src) スレッド 1 の担当領域スレッド 2 スレッド 3 スレッド 4

メモリコピー ( 基本 ) global void mcopy( float *dst, float *src, int size ) { int id = ( 各スレッド固有の番号 ); int step = ( 総スレッド数 ); int n_total = ( 総コピー回数 ); for ( int i = id ; i < n_total ; i += step ) { dst[ i ] = src[ i ]; } } 配列に対するアクセスパターンスレッド単体で考えるとストライドアクセススレッド全体で考えると逐次アクセス READ/WRITE 各 1 ストリーム ( 計 2 ストリーム )

メモリコピー ( 同時に複数コピー ) 同時に複数のメモリコピー 1-Copy 2-Copy 4-Copy 8-Copy for ( i = 0 ; i < num /; 24 8 i ++ ; i ++ ) { ) { dst[ dst0[ i i i ] ] = = src0[ src[ i ]; i ]; } dst1[ i i ] ] = = src1[ src1[ i ]; i ]; dst2[ i ] = src2[ i ]; } dst2[ i ] = src2[ i ]; dst3[ i ] = src3[ i ]; dst3[ i ] = src3[ i ]; } } dst4[ i ] = src4[ i ]; dst5[ i ] = src5[ i ]; dst6[ i ] = src6[ i ]; dst7[ i ] = src7[ i ];

メモリコピー ( 同時に複数コピー ) 同時コピー数と配列アクセスパターン配列 ( メモリ ) 1-copy 2-copy 4-copy 配列 (src) (dst) 配列 (src) (dst) 8-copy 同時コピー数の増加 = ストリーム数の増加ストリーム数とメモリバンド幅の関係

メモリコピー ( 同時に複数コピー ) global void mcopy( float *dst, float *src, int size, int n_copy ) { int id = ( 各スレッド固有の番号 ); int step = ( 総スレッド数 ); int n_total = ( 総コピー回数 ); int n_each = n_total / n_copy; for ( int i = id ; i < n_each ; i += step ) { for ( int j = i ; j < n_total ; j += n_each ) { dst[ j ] = src[ j ]; } } } 複数のメモリコピーが同時進行配列を N 個に分離ストリーム数 : 2*N

メモリバンド幅測定結果バンド幅低下問題転送量増でバンド幅低下ストリーム数増でバンド幅低下 cudamemcpy では未発生 (*) ブロック数 :60, スレッド数 / ブロック :256

メモリアクセス遅延の調査遅延は短い方が扱いやすい GPU は遅延が長いと言われている具体的にどれぐらい長いのかランダムアクセス時の遅延を測定 int index = ( 各スレッド固有の番号 ); int num = ( アクセス回数 ); while ( num > 0 ) { index = buf[ index ]; num--; }

メモリアクセス遅延測定結果 2 つの境界 8MB と 32MB (GTX280) 8MB 境界 : よく分からない.. 32MB 境界 : おそらく TLB ページサイズ : 4MB? エントリ数 : 8? (*) ブロック数 :1 スレッド数 :32 (1 ワープ )

調査結果の考察バンド幅測定 : バンド幅低下問題転送量増でバンド幅低下ストリーム数増でバンド幅低下 cudamemcpy 性能に届かない遅延測定 : TLB の存在 TLB ミスで ~200ns の遅延増バンド幅低下問題の原因は TLB スラッシング?

バンド幅低下のシナリオ CUDA の実行モデルは SPMD 進行の速いスレッド遅いスレッドが混在時間が経過スレッド間の進行差が拡大メモリアクセス箇所が分散単位時間あたりアクセスページ数が増加 TLB ミス発生頻度が増加 (TLB スラッシング ) メモリバンド幅低下

バンド幅低下のシナリオ CUDA の実行モデルは SPMD メモリコピー時の配列アクセス箇所配列 ( メモリ ) SIMD Thread0 Thread1 Thread2 Thread3 配列 (src) 局所 SPMD Thread0 Thread1 Thread2 Thread3 配列 (src) 分散スレッド進行を同期状態に近づけるバンド幅低下を回避できる?

スレッド進行の同期化全スレッドの同期 CUDA では出来ない同じブロック内のスレッド同期可能 global void mcopy( float *dst, float *src, int size, int n_copy ) { int id = ( 各スレッド固有の番号 ); int step = ( 総スレッド数 ); int n_total = ( 総コピー回数 ); int n_each = n_total / n_copy; for ( int i = id ; i < n_each ; i += step ) { for ( int j = i ; j < n_total ; j += n_each ) { syncthreads() dst[ j ] = src[ j ]; } } }

メモリバンド幅測定結果 (*) ブロック数 :60, スレッド数 / ブロック :256

メモリバンド幅測定結果 (syncthreads) 転送量増によるバンド幅低下は解消 cudamemcpy 相当の性能ストリーム数増によるバンド幅低下は改善でもストリーム数は少ない方が良い (*) ブロック数 :60, スレッド数 / ブロック :256

高メモリバンド幅を実現する方法スレッド進行の同期化 syncthreads() でブロック内スレッドを同期同期ペナルティ < 同期メリットアクセスパターンの局所化アルゴリズムデータ構造を見直しストリーム数減単位時間あたりアクセスページ数を削減スレッド数の最適化レジスタ共有メモリ使用量を減らし同時実行可能スレッド数を増加適切な総スレッド数の選択

姫野 BMT on GPU 従来実装東工大 ) 青木教授の実装 2007 年度理研ベンチマークコンテスト優勝 HPC 研究会で発表 (2008-HPC-115) 姫野 BMT(M サイズ ) の実行ファイルが公開

従来実装 128 Array 256 128 Block 16 8 16 z y x ブロック形状 : (16,16,8) ブロック数 : 2,048 各ブロックスレッド数 : 256 8 格子点計算 / スレッド格子点計算開始前にスレッド間で共用する配列値を全て共有メモリにロード同期回数を減らすため? 共有メモリ使用量 : 12.7KB 4B*(16+2)*(16+2)*(8+2) MP への割当ブロック数 : 1 x 軸と z 軸の入替えマルチ GPU 対応?

提案手法に基づく高速化スレッド進行の同期化同期処理の多用 ( syncthreads()) アクセスパターンの局所化配列の次元入替えブロック形状変更スレッド数の最適化同時実行スレッド数の増加総スレッド数調整その他配列間のパディング量調整

提案手法適用後 128 z y x 128 Array 4 64 Block 64 ブロック形状 : (64,4,64) ブロック数 : 256 各ブロックスレッド数 : 256 64 格子点計算 / スレッドスレッド間で共用する配列値各格子点計算の開始前に必要な分だけ共有メモリにロード同期回数増問題無し共有メモリ使用量 : 4.7KB 4B*(64+2)*(4+2)*3 1MP に 3 ブロック割当 256

姫野 BMT 性能 (GFLOPS) 1.7x 1.7x 従来実装提案手法従来実装提案手法

GFLOPS とバンド幅の関係姫野 BMT のメモリアクセス量 1.65 B/FLOP (*) BF 比は実装依存 1 格子点あたりのメモリアクセス量 : 56 B 1 格子点あたり14 変数のメモリアクセスデータ型はfloat (4B) 1 格子点あたりの演算量 : 34 FLOP

姫野 BMT 性能 ( バンド幅 ) 最大実効メモリバンド幅理論ピークの80% を超えるバンド幅を実現 (GTX280) 従来実装提案手法従来実装提案手法

並列版の姫野 BMT 3 次元配列をプロセス数分割各プロセスは分割後の配列を担当 (1) 計算処理 : 各プロセスは自分の担当領域を計算 (2) 通信処理 : 配列 p の隣接面を隣のプロセスと送受信 (3) (1) に戻る 3D 配列

GPGPU クラスタ試験環境 4 台の GPU 搭載マシンを InfiniBand で接続マシンスペック GPU: nvidia GTX285 (PCIe2x16) CPU: Intel Core i7 (2.66GHz) NIC: Mellanox ConnectX (DDR-IB, PCIe2x8) M/B: Gigabyte GA-EX58-UD5 (Intel X58) Mem: DDR3-1066 2GB x 3 OS: RHEL 5.3 (64bit) C/C++: GNU CUDA: 2.1 MPI: OpenMPI 1.3

姫野 BMT on PC クラスタ PC クラスタの姫野 BMT 性能 ( 実測 L サイズ ) 1 ノード : 4 ノード : 6.5GFLOPS 25.5GFLOPS 1 4 ノードで 3.9 倍性能 UP スケール 4 ノード PC クラスタの処理時間内訳 GPGPU クラスタはスケールするか? 1 ノード : 4 ノード :??? 計算処理 :43 msec 70GFLOPS 程度通信処理 : 1.0 msec

GPU-to-GPU 通信 GPU CPU NIC NIC CPU GPU GPU メモリ Host メモリ Host メモリ GPU メモリ PC クラスタ : CPU-to-CPU 通信 Host メモリ Host メモリ (MPI) GPU Host 間のデータ転送性能が重要 GPGPUクラスタ : GPU-to-GPU 通信 GPUメモリ Hostメモリ (CUDA) Hostメモリ Hostメモリ (MPI) Hostメモリ GPUメモリ (CUDA)

GPU Host 間のデータ転送 Pinned メモリと Pageable メモリ Pinned メモリ cudamallochost() DMA 可能 Pageable メモリ malloc() DMA 不可 Host メモリ内でコピーが必要 GPU DMA CPU GPU DMA CPU GPU メモリ Host メモリ Pinned GPU メモリ Host メモリ Pageable COPY

Core i7 のメモリバンド幅 Core2 Core i7 (1channel)

GPU Host 間のデータ転送性能 Pinned Pinned 3ch 2ch 3ch 2ch Pinnedメモリの転送性能が高い 1ch Pageableメモリでもそれなり Pageable Core i7のおかげ遅延は~10usecと長め回数を減らしまとめて転送 Pageable 1ch

GPU-to-GPU 通信性能 (CPU-to-CPU) 姫野 BMT IB RDMA 域 (Pinned は RDMA NG) Pinned Pageable DDR-IB を GPU-to-GPU で使うと遅延は GbE 程度バンド幅は SDR-IB 程度 Pinned メモリ IB RDMA 通信は NG 1 年前から知られている問題

GPGPU クラスタの性能予測処理時間内訳 4 ノード PC クラスタ ( 実測 ) 通信処理 : 1.0 msec 4 ノード GPGPU クラスタ ( 予測 ) 計算時間 : 1/10 倍通信時間 : 2+ 倍 GPU 使用時の姫野 BMT 性能 1 ノード GPGPU: 計算処理 :43 msec 計算処理 :4.3 msec 70GFLOPS 4 ノード GPGPU クラスタ : 170GFLOPS ( 予測 ) 通信処理 : 2.2 msec

姫野 BMT on GPGPU クラスタ

まとめ GPGPU は使えるか? YES GPU 向けプログラム最適化ノウハウの蓄積姫野 BMT でメモリバンド幅効率 80% 超理論ピーク 142GB/s に対して実効で 115GB/s を実現 GPGPU クラスタは使えるか? 数ノードで通信ネック GPU: 計算にはアクセル通信にはブレーキより高速な通信機構が必要 GPU 直接通信 GPU CPU 統合