VOLTA AND TURING: ARCHITECTURE Akira Naruse, Developer Technology, 2018/9/14

Size: px

Start display at page:

Download "VOLTA AND TURING: ARCHITECTURE Akira Naruse, Developer Technology, 2018/9/14"

さやなうるしはた
5 years ago
Views:

1 VOLTA AND TURING: ARCHITECTURE AND PERFORMANCE OPTIMIZATION Akira Naruse, Developer Technology, 2018/9/14

2 VOLTA AND TURING: ARCHITECTURE Akira Naruse, Developer Technology, 2018/9/14

3 For HPC and Deep Learning Tesla V100 (GV100) Volta (cc70) VOLTA AND TURING Pascal から進化多くの機能を共有 Turing (cc75) For Graphics and Deep Learning QUADRO RTX6000 (TU102) Tesla P100 (GP100) QUADRO P6000 (GP102) 3

4 VOLTA 4

5 VOLTA の概要 Volta Architecture Improved NVLink & HBM2 Volta MPS Improved SIMT Model Tensor Core Most Productive GPU Efficient Bandwidth Inference Utilization New Algorithms 125 Programmable TFLOPS Deep Learning HPC と Deep Learning 両方に最適な GPU 5

6 TESLA V100 (GV100) 80 SM 5120 CUDA コア 640 Tensor コア HBM2 32 GB, 900 GB/s NVLink 300 GB/s 6

7 ピーク性能比較 : P100 vs V100 P100 V100 性能 UP FP32 10 TFLOPS 15.6 TFLOPS 1.5x FP64 5 TFLOPS 7.8 TFLOPS 1.5x DL トレーニング 10 TFLOPS (FP32) 125 TFLOPS (Tensor コア ) 12.5x HBM2 バンド幅 720 GB/s 900 GB/s 1.2x L2 キャッシュ 4 MB 6 MB 1.5x NVLink バンド幅 160 GB/s (4 リンク ) 300 GB/s (6 リンク ) 1.9x 7

8 VOLTA GV100 SM GV100 INT32 64 FP32 64 FP64 32 Tensorコア 8 レジスターファイル 256 KB L1キャッシュ / 共有メモリ 128 KB 最大スレッド数

9 TURING 10

10 NVIDIA TURING: GRAPHICS REINVENTED TURINGの概要リアルタイムレイトレーシングディープラーニング高速化進化したプログラマブルシェーダー RTコア TENSORコア STREAMING MULTIPROCESSOR 11

11 QUADRO RTX6000 (TU102) 72 SM 4608 CUDA コア 576 Tensor コア 72 RT コア DDR6 24 GB, 672 GB/s NVLink 100 GB/s 12

12 大きな進化 : GP102 TU102 TURING (TU102) PASCAL (GP102) SHADER COMPUTE TENSOR CORE 125 TFLOPS FP TOPS INT8 500 TOPS INT4 RT CORE 10 Giga Rays/Sec 13 TFLOPS FP32 50 TOPS INT8 SHADER COMPUTE 16 TFLOPS + 16 TIPS 11.8 Billion xstr 471 mm 2 24 GB 10GHz 18.6 Billion xstr 754 mm 2 up to GB 14GHz 13

13 ピーク性能比較 : P6000 vs RTX6000 P6000 RTX6000 (*) 性能 UP FP TFLOPS 15.6 TFLOPS 1.2x DL インファレンス (FP16) DL インファレンス (INT8) DRAM バンド幅 NA 50 TOPS (DP4A) 432 GB/s (GDDR5X) 125 TFLOPS (TensorCore) 250 TOPS (TensorCore) 5.0x 672 GB/s (GDDR6) 1.6x L2 キャッシュ 3 MB 6 MB 2.0x NVLink バンド幅 NA 100 GB/s (2 リンク ) (*) RTX6000 はクロック設定が変更の可能性有り 14

14 TURING TU102 SM TU102 INT32 64 FP32 64 Tensorコア 8 RTコア 1 レジスターファイル 256 KB L1キャッシュ / 共有メモリ 96 KB 最大スレッド数

15 TENSOR CORES 16

16 Volta SM TENSORコア Turing SM 8 Tensorコア / SM 17

TENSOR コア混合精度行列演算ユニット行列の FMA (Fused Multiply-Add) 4x4 の行列の積和演算を 1 サイクルで計算する性能 : 128 演算 / サイクル /Tensor コア 1024 演算 / サイクル /SM A 0,0 A 0,1 A 0,2 A 0,3 B 0,0 B 0,1 B 0,2 B 0,3 C 0,0 C 0,1 C 0,2 C 0,3 D

17 TENSOR コア混合精度行列演算ユニット行列の FMA (Fused Multiply-Add) 4x4 の行列の積和演算を 1 サイクルで計算する性能 : 128 演算 / サイクル /Tensor コア 1024 演算 / サイクル /SM A 0,0 A 0,1 A 0,2 A 0,3 B 0,0 B 0,1 B 0,2 B 0,3 C 0,0 C 0,1 C 0,2 C 0,3 D = A B C A 1,0 A 1,1 A 1,2 A 1,3 A 2,0 A 2,1 A 2,2 A 2,3 B 1,0 B 1,1 B 1,2 B 1,3 B 2,0 B 2,1 B 2,2 B 2,3 C 1,0 C 1,1 C 1,2 C 1,3 C 2,0 C 2,1 C 2,2 C 2,3 A 3,0 A 3,1 A 3,2 A 3,3 B 3,0 B 3,1 B 3,2 B 3,3 C 3,0 C 3,1 C 3,2 C 3,3 FP32 (FP16) FP16 FP16 FP32 (FP16) 18

18 TENSOR 演算 (FP16) VOLTA, TURING 入力 :FP16 フル精度 FP16 乗算 FP32 加算出力 :FP32 FP16 に変換 A FP16 FP16 B 16bit 16bit D = A * B + C 32bit more products + FP32 FP32 C D FP16 19

19 TENSOR 演算 (FP16) VOLTA, TURING 入力 :FP16 フル精度 FP16 乗算 FP16 加算出力 :FP16 A FP16 FP16 B 16bit 16bit D = A * B + C more products + FP16 C D FP16 FP16 加算もサポート ( インファレンス用 ) 20

20 TENSOR 演算 (INT8) TURING 入力 :INT8 INT8 乗算 INT32 加算出力 :INT32 A INT8 INT8 B 8bit 8bit D = A * B + C more products + INT32 INT32 C D 21

21 TENSOR コアは何のため? 大きな行列積 ( 行列と行列の乗算 ) O(N 3 ) Deep Learning で典型的な計算 B トレーニング (FP32, FP16) インファレンス (FP16, INT8) cublas: 密行列演算ライブラリ A C 22

22 Tensor コア使用モードを選択 CUBLAS は TENSOR コア対応例 : cublas cublasgemmex (FP16) cublascreate( &handle ); cublassetmathmode( handle, CUBLAS_TENSOR_OP_MATH ); algo = CUBLAS_GEMM_DEFAULT_TENSOR_OP; Tensor コア用の行列積アルゴリズムの選択 cublasgemmex( handle, transa, transb, m, n, k, alpha, A, CUDA_R_16F, lda, B, CUDA_R_16F, ldb, beta, C, CUDA_R_16F, ldc, CUDA_R_32F, algo ); 計算型を指定入力行列 A,B のデータ型を指定出力行列 C のデータ型を指定 23

23 TENSOR コアはどう使われているの? 大きな行列積は小さな行列積の集合とみなせる 16 多くの 16x16 行列積をそれぞれ Tensor コアに割当 B 16 A C 24

24 TENSOR コアの使い方 (FP16) CUDA WMMA API device void tensor_op_16_16_16(half *a, half *b, float *c) { wmma::fragment<wmma::matrix_a, 16, 16, 16, half, > a_frag; wmma::fragment<wmma::matrix_b, 16, 16, 16, half, > b_frag; wmma::fragment<wmma::accumulator, 16, 16, 16, float, > c_frag; Tensor コアへの入出力データ型 (fragment) の宣言 Tensor コア演算 } wmma::load_matrix_sync(a_frag, a, ); wmma::load_matrix_sync(b_frag, b, ); wmma::fill_fragment(c_frag, 0.0f); wmma::mma_sync(c_frag, a_frag, b_frag, c_frag); wmma::store_matrix_sync(c, c_frag, ); 入力行列の一部を入力 fragment に読み込み出力 fragment を初期化出力 fragment を出力行列に書き込み 25

25 TENSOR コアの使い方 (INT8, CUDA10, TURING) CUDA WMMA API device void tensor_op_16_16_16(char *a, char *b, int *c) { wmma::fragment<wmma::matrix_a, 16, 16, 16, char, > a_frag; wmma::fragment<wmma::matrix_b, 16, 16, 16, char, > b_frag; wmma::fragment<wmma::accumulator, 16, 16, 16, int, > c_frag; wmma::load_matrix_sync(a_frag, a, ); wmma::load_matrix_sync(b_frag, b, ); wmma::fill_fragment(c_frag, 0); wmma::mma_sync(c_frag, a_frag, b_frag, c_frag); } wmma::store_matrix_sync(c, c_frag, ); 26

26 TENSOR コアのピーク性能比較 Volta と Turing TESLA V100 (GV100) QUADRO RTX6000 (*2) (TU102) FP TFLOPS 125 TFLOPS INT8 NA 250 TOPS INT4 (*1) NA 500 TOPS Turing TensorCore は実験用として INT4 と INT1 もサポート詳しくは CUDA10 の新機能とその性能にて (*1) INT4: 実験用 (*2) RTX6000 はクロック設定が変更の可能性有り 27

27 Average Relative Error to FP32 TENSOR コア計算の誤差は? FP16 より FP32 に近い 1.2 Error range Note: depends on application! FP32 TensorCore FP16 Matrix size (m=n=k) C = A * B Matrix A: exponential distribution (activation) Matrix B: gaussian distribution (weight) Error range: 99% 29

28 STREAM MULTIPROCESSORS 30

29 FP演算とINT演算を同時実行 Turing SM Volta SM Volta/Turingから FP32ユニットとINT32ユニットを分離 FP演算とINT演算の同時実行が可能 Pascal Volta Turing FP INT INT FP 31

30 PASCAL: L1 キャッシュと共有メモリは分離 Pascal SM (GP100) Load/Store Units 共有メモリ最大 64 KB 短遅延 L1 キャッシュ 24 KB ノンブロッキング L2 キャッシュ最大 4 MB 32

31 Pascal SM (GP100) Load/Store Units 統合 L1 キャッシュ / 共有メモリ Volta/Turing SM Load/Store Units 共有メモリ最大 64 KB 短遅延 L1 キャッシュ / 共有メモリ 128 KB / 96 KB L1 キャッシュ 24 KB ノンブロッキング L2 キャッシュ最大 4 MB L2 キャッシュ 6 MB 33

32 Pascal と比べて L1 キャッシュ : 2 倍以上の容量 ( ヒット率 UP) 2 倍のバンド幅短い遅延統合 L1 キャッシュ / 共有メモリ Volta/Turing SM Load/Store Units L1 キャッシュ / 共有メモリ 128 KB / 96 KB L2 2 倍の容量 ( ヒット率 UP) L2 キャッシュ 6 MB 34

33 Volta SM Load/Store Units 共有メモリサイズは設定可能 Turing SM Load/Store Units L1 L1 合計 : 128 KB L1 L1 共有メモリ L1 キャッシュ and 共有メモリ 32 KB 64 KB 共有メモリ 128 KB 96 : KB 64 KB 0, 8, 16, 32, 64 or 96 KB 96 KB 128 KB 32 KB L1 合計 : 96 KB L1 L1 キャッシュ and 共有メモリ 96 KB 共有メモリ 32 共有メモリ KB32 KB : 32 or KB KB 64 KB cudafuncsetattribute( func, cudafuncattributepreferredsharedmemorycarveout, carveout ); L2 キャッシュ 6 MB L2 キャッシュ 6 MB 35

STREAM Triadd (GB/s) 実効メモリバンド幅 900 800 700 600 500 400 HBM2 P100 and V100 300 200 100 0

34 STREAM Triadd (GB/s) 実効メモリバンド幅 HBM2 P100 and V バンド幅効率 P100 V100 RTX6000 (*) 76% 94% 92% GDDR6 RTX6000 (*) データレート 1.3GHz の開発ボード ECC Off 36

35 RT CORE 37

36 RTコア Turing SM 10 Giga Rays /sec Ray Tracingをハードウェアで加速 Bounding Volume Hierarchy (BVH) traversal Ray/Triangle intersection SM毎に RTコアを1つ搭載 Ray Tracing APIs: NVIDIA OptiX, Microsoft DXR, Vulkan ray tracing 38

37 VOLTA AND TURING: PERFORMANCE OPTIMIZATION Akira Naruse, Developer Technology, 2018/9/14

38 VOLTA GV SM FP32 ユニット : 64 SM L1 SM L1 SM L1 SM L1 INT32ユニット : 64 FP64ユニット : 32 Tensorコア : 8 SFU ユニット : 16 L2 DRAM (HBM2) 40

39 TURING TU SM FP32 ユニット : 64 SM SM SM SM INT32 ユニット : 64 L1 L1 L1 L1 Tensor コア : 8 SFU ユニット : 16 L2 RT コア : 1 DRAM (GDDR6) 41

40 GPU を性能を最大限活用するには? 演算ユニットの稼働率を上げる INT32, FP32, FP64, Tensor コア, DRAM からのデータ転送効率を上げる遅延隠蔽 (Latency Hiding) 42

41 稼働率を上げるにはエスカレーターの場合エスカレータの設定 : 1 段あたり 1 人乗れる 2 秒毎に 1 段が到着最大バンド幅 : 0.5 人 / 秒段数は20 遅延 : 40 秒 (*) 遅延 : 下でエスカレーターに乗ってから上に到着するまでの時間 43

42 稼働率を上げるにはエスカレーターの場合もし同時に 1 人しか乗らなかったら? 実効バンド幅 : 1 人 /40 秒 = 人 / 秒エスカレータの設定 : 1 段あたり 1 人乗れる 2 秒毎に 1 段が到着最大バンド幅 : 0.5 人 / 秒段数は 20 遅延 : 40 秒稼働率を 100% にするには各段に 1 人必要常に 20 人が乗っている必要がある 20 人 = 最大バンド幅 * 遅延多くの人を乗せて遅延を隠蔽する Latency hiding 44

43 GPU の稼働率を上げるには GPUは CPUと比べて遅延が長いたくさんの人を乗せる必要がある演算遅延 : 演算の実行開始 ( 発行 ) から終了までより多くの演算を発行しておく必要があるメモリアクセス遅延 : ロードストア要求開始 ( 発行 ) から終了までより多くのメモリアクセスを発行しておく必要がある 45

44 メモリバンド幅効率メモリアクセス発行量と実効バンド幅 90% Volta GV100 SM L1 SM L1 L2 6KB SM あたりの発行済メモリアクセス量 (Byte) DRAM 各 SM から 6KB 程度のメモリアクセス要求が発行してあれば最大実効バンド幅に対して約 90% のバンド幅が得られる (4B とするとリクエスト数 1.5K) 46

45 CUDA 47

46 CUDA の基本グリッドスレッドブロックスレッド global void kernel( float *a, float *b, float *c) { int i = threadidx.x + blockidx.x * blockdim.x; c[i] += a[i] * b[i]; } カーネル : 各スレッドの動作が記述されたプログラム基本 : 1 スレッドが 1 要素を担当 a[] スレッドスレッドブロック0 スレッドブロック1 スレッドブロック2 スレッグリッド 48

47 CUDA の基本命令実行モデル : SIMT Single Instruction Multiple Threads 一つの同じ命令を複数のスレッドが同時に実行する複数のスレッドって何スレッド? 32スレッド = 1ワープワープ単位で命令が実行されるこれがCUDAのプログラム実行の基本 49

48 CUDA の基本グリッドスレッドブロック ( ワープ ) スレッド global void kernel( float *a, float *b, float *c) { int i = threadidx.x + blockidx.x * blockdim.x; c[i] += a[i] * b[i]; } カーネル : 各スレッドの動作を記述したコード基本 : 1 スレッドが 1 要素を担当 a[] スレッド 0ワープ0 ワープワープ0 ワープワープ0 ワープワープ0 スレッドブロック 0 スレッドブロック 1 スレッドブロック 3 グリッド 50

49 CUDA の基本命令実行フロープログラムカウンタ (PC) はワープ毎に存在異なるワープのスレッドは異なる命令を実行できる性能低下無しで同じワープの別スレッドが条件分岐で別パスに行くとどうなるの? True val > 0 False そのワープは両方のパスを実行するただし実行中のパスにいないスレッドは無効化される 0 処理 X 処理 Y 51

50 CUDA の基本スレッドマッピングスレッドブロックの形状はプログラムからは 1D 2D or 3D で指定可能ハードウェアはあくまで1Dとして認識スレッドブロックの形状がどうであれ連続 32スレッドが 1ワープにマップされる 52

51 命令実行フロー time A; if (threadidx.y == 0) B; else C; D; Warp 1 Warp 2 Warp 3 A B D A B C A C D D 53

52 命令実行フロースレッドが無意味なサイクルを消費するのを避けるスレッドブロック内のスレッド数を 32 の倍数にする同じワープ内のスレッドが別のコードパスに分岐する機会を減らす 54

53 INDEPENDENT THREAD SCHEDULING Volta/Turing からプログラムカウンター (PC): Improved SIMT Model Pascal までワープ単位で管理 Volta/Turing からスレッド単位で管理何ができるようになる? New Algorithms 同じワープ内のスレッド間で非対称なデータの受け渡しが可能になる producer consumer 型のコードをより自然な形で記述できる 55

54 INDEPENDENT THREAD SCHEDULING 例 : 同じワープ内のスレッド間でのロックの受け渡し lock = 0; do { lock = trylock(); } while (lock == 0);...; releaselock(); Pascal までの GPU では deadlock 発生 lock を取得できなかったスレッドが lock 取得を繰り返す lock を取得したスレッドが lock 解放まで進めない deadlock Volta/Turing から正常に実行できる (*) atomic 命令や volatile ポインターを使用する必要がある 56

55 INDEPENDENT THREAD SCHEDULING 注意同じワープ内のスレッドが lock-step 実行される保証はない一旦実行パスが分離するとスレッドは自然には合流しない同じワープ内のスレッドでも明示的な同期が必要なケース syncwarp() 暗黙的にスレッド間同期を想定したコードは危険 (warp-synchronous) shuffle 命令やvote 関数のAPIを見直し例 : shfl_xor( val, 0x1 ) shfl_xor_sync( 0xffffffff, val, 0x1 ) 第一引数でワープ内のどのスレッドがこの命令に到達するかを指定従来 API の shuffle 命令, vote 関数の使用は非推奨 57

56 INDEPENDENT THREAD SCHEDULING Warp-synchronous コードがあるけどどうすれば良い? CUDA 9 で導入した API を使用する : *_sync( mask, ) コンパイラで古いアーキテクチャを指定する -arch=compute_60,sm_70 (Volta binary) -arch=compute_60,sm_75 (Turing binary) -arch=compute_60 (PTX JIT) Cooperative Groups を使用する Cooperative Groups って何? 58

57 COOPERATIVE GROUPS スケーラブルで柔軟性の高いスレッド間同期通信機構 (CUDA 9.0 から ) 協調動作するスレッドグループの定義分割同期を容易にするスケーラブルなグループサイズ : 数スレッド ~ 全スレッド動的なグループの生成分割が可能 Thread Block CUDA としてサポートグループサイズにより適切なハードウェアを選択分割後の Thread Groups Kepler 世代以後の GPU で利用可能 * Note: Multi-Block and Mult-Device Cooperative Groups are only supported on Pascal and above GPUs 59

58 多様なスレッド間同期を簡単に 3 つのスケールスレッドブロック内シングル GPU 内 (SM 間の同期 ) マルチ GPU 間 (GPU 間の同期 ) 協調動作するスレッドグループを動的に生成し各グループで同期スレッドブロック間の同期 partition sync sync sync sync 60

59 カーネル内でのスレッド同期小さいグループスレッドブロック大きいグループ 61

60 COOPERATIVE グループ 5 種類のグループ Coalesced Group Thread Group Thread Block Tile Thread Block グループのメソッド sync() スレッド間同期 size() スレッド数 thread_rank() スレッドのID Grid Group Multi-Grid Group 62

61 SM 占有率 (OCCUPANCY) SM 占有率 = 実効スレッド数最大スレッド数 63

62 SM 占有率 SM 占有率は高いほど良い何故? 占有率が高いスレッド数が多い命令を発行できるスレッドが増える発行済み命令数メモリアクセス数を増やせる遅延を隠蔽できる実効スレッド数をどうやって増やす? レジスタ使用量を減らす共有メモリ使用量を減らす適切なスレッドブロックサイズを選択する 64

63 実効スレッド数各スレッドブロックが使用するリソース量で決まる最大スレッド数 ( ワープ数 ) Volta GV (64 ワープ ) Turing TU (32 ワープ ) レジスターサイズ 256KB 256KB 共有メモリ量最大 96KB 最大 64KB 使用リソース量 / スレッドブロック : レジスター = スレッドあたり使用レジスター数 * スレッド数共有メモリ使用量 CUDA ツールキット内の Occupancy Calculator で確認可能 65

64 CUDA OCCUPANCY CALCULATOR /usr/local/cuda/tools/cuda_occupancy_calculator.xls 66

65 同時発行できる命令数並列度をどうやって増やすか SM 占有率の改善スレッドが増えれば発行可能命令数も増える Instruction Level Parallelism (ILP) の改善各スレッドが実行する命令間の依存性が減れば発行可能命令数は増える 67

66 GPU の命令発行命令は順番に発行 GPUの命令発行は in-order (out-of-orderではない) 次命令の発行条件が満たされないとそのワープはストール ( 後続命令も発行されない ) 条件 1: その命令が使用するデータが準備できている先行命令によるデータ読み込み生成が完了している条件 2: その命令が使用する演算ユニットが使える先行命令による演算ユニットの使用が終わっている 68

67 命令発行の例 global void kernel( float *a, float *b, float *c) { int tid = threadidx.x + blockidx.x * blockdim.x; c[i] += a[i] * b[i]; } LDG.E.32 R2, [R2]; LDG.E.32 R4, [R4]; LDG.E.32 R8, [R6]; FFMA R8, R2, R4, R8; STG.E.32 [R6], R8 Load (12B) Multiply-Add Store (4B) 69

68 命令発行の例 global void kernel( float *a, float *b, float *c) { int tid = threadidx.x + blockidx.x * blockdim.x; c[i] += a[i] * b[i]; } LDG.E.32 R2, [R2]; LDG.E.32 R4, [R4]; LDG.E.32 R8, [R6]; stall FFMA R8, R2, R4, R8; STG.E.32 [R6], R8 Load (12B) Multiply-Add Store (4B) 70

69 命令発行の例 global void kernel( float *a, float *b, float *c) { int tid = threadidx.x + blockidx.x * blockdim.x; c[i] += a[i] * b[i]; } LDG.E.32 R2, [R2]; LDG.E.32 R4, [R4]; LDG.E.32 R8, [R6]; stall FFMA R8, R2, R4, R8; stall STG.E.32 [R6], R8 Load (12B) Multiply-Add Store (4B) 71

70 2 つの要素を同時に計算 global void kernel( float2 *a, float2 *b, float2 *c) { int tid = threadidx.x + blockidx.x * blockdim.x; c[i].x += a[i].x * b[i].x; c[i].y += a[i].y * b[i].y; } 独立に発行可能 LDG.E.64 R2, [R2]; LDG.E.64 R4, [R4]; LDG.E.64 R8, [R6]; stall FFMA R8, R2, R4, R8; FFMA R9, R3, R5, R9; stall STG.E.64 [R6], R8 2 倍量のメモリ要求を発行 Load (24B) 2 Multiply-Add Store (8B) 72

71 FAST MATH より高速に実行できる intrinsic が使用可能 ( 精度は低下 ) 全体に適用 : コンパイルオプション : --fast-math 個別に適用 : cosf(x), logf(x), expf(x) 73

72 TENSORコア Volta/Turingで使用可能行列積専用の演算ユニット Volta SM Volta: 125 TFLOPS (fp16) Turing SM Turing: 125 TFLOPS (fp16) 250 Tops (int8) 500 Tops (int4) 74

73 TENSOR コアの使われ方 Warp (32 スレッド ) Warp 単位で実行 16x16 の行列の積和演算を Warp 単位 (32 スレッド ) で協調実行前処理同期 Tensor コアで行列積実行同期後処理 75

74 TENSOR コアの使い方 (FP16) CUDA WMMA API device void tensor_op_16_16_16(half *a, half *b, float *c) { wmma::fragment<wmma::matrix_a, 16, 16, 16, half, > a_frag; wmma::fragment<wmma::matrix_b, 16, 16, 16, half, > b_frag; wmma::fragment<wmma::accumulator, 16, 16, 16, float, > c_frag; Tensor コアへの入出力データ型 (fragment) の宣言 Tensor コア演算 } wmma::load_matrix_sync(a_frag, a, ); wmma::load_matrix_sync(b_frag, b, ); wmma::fill_fragment(c_frag, 0.0f); wmma::mma_sync(c_frag, a_frag, b_frag, c_frag); wmma::store_matrix_sync(c, c_frag, ); 入力行列の一部を入力 fragment に読み込み出力 fragment を初期化出力 fragment を出力行列に書き込み 76

75 TENSOR コアの使い方 (INT8) CUDA WMMA API device void tensor_op_16_16_16(char *a, char *b, int *c) { wmma::fragment<wmma::matrix_a, 16, 16, 16, char, > a_frag; wmma::fragment<wmma::matrix_b, 16, 16, 16, char, > b_frag; wmma::fragment<wmma::accumulator, 16, 16, 16, int, > c_frag; wmma::load_matrix_sync(a_frag, a, ); wmma::load_matrix_sync(b_frag, b, ); wmma::fill_fragment(c_frag, 0); wmma::mma_sync(c_frag, a_frag, b_frag, c_frag); } wmma::store_matrix_sync(c, c_frag, ); 77

76 TENSOR コアの使用例 C += A * B 大きな行列乗算は小さな行列乗算の集合とみなせる行列 C を 16x16 の小行列に分ける各小行列にワープを割り当てる各ワープは入力行列 A,B の関連部分を 16x16 のサイズで読み込み Tensor コアを使って 16x16 で行列積を実行計算が完了するまでこれを繰り返す 16x16 でないと駄目なのか? A B C 78

77 TENSOR コアの使い方 CUDA WMMA API device void tensor_op_16_16_16(half *a, half *b, float *c) { wmma::fragment<wmma::matrix_a, 16, 16, 16, half, > a_frag; wmma::fragment<wmma::matrix_b, 16, 16, 16, half, > b_frag; wmma::fragment<wmma::accumulator, 16, 16, 16, float, > c_frag; wmma::load_matrix_sync(a_frag, a, ); wmma::load_matrix_sync(b_frag, b, ); wmma::fill_fragment(c_frag, 0.0f); wmma::mma_sync(c_frag, a_frag, b_frag, c_frag); } wmma::store_matrix_sync(c, c_frag, ); 79

78 CUDA WMMA API 3 種類のタイルパターン 16x16x16 8x32x16 32x8x16 B B B A C A C A C 80

79 TENSORコア DLフレームワークで使えるの NVIDIAのライブラリーでサポート cublas cudnn TensorRT CUTLASS DL frameworks 81

80 80 SM メモリシステム VOLTA GV100 レジスタファイル SM SM SM SM 256KB/SM ( トータル 20MB) L1 L1 L1 L1 統合共有メモリ /L1 キャッシュ 128KB/SM ( トータル 10MB, 14TB/s) L2 DRAM (HBM2) L2キャッシュ 6MB Read: 2.5TB/s Write: 1.6TB/s DRAM (HBM2): 16/32GB 900GB/s 82

81 72 SM メモリシステム Turing TU102 レジスタファイル SM SM SM SM 256KB /SM ( トータル 18.5MB) L1 L1 L1 L1 統合共有メモリ /L1 キャッシュ 96KB /SM ( トータル 6.75MB, 8TB/s) L2 DRAM (GDDR6) L2キャッシュ 6MB DRAM (GDDR6): 24GB 672GB/s 83

82 メモリ読み出し SM L1 Load SM L1 L1キャッシュにデータがあるかをチェックもしあれば L1からデータを供給 ( 終了 ) L2キャッシュにデータあるかをチェックもしあれば L2からデータを供給 ( 終了 ) L2 DRAM からデータを読み出し DRAM 84

83 メモリ書き込み SM L1 Store SM L1 L1 キャッシュ Pascal: L1 には書き込まれず L2 に書き込まれる Volta/Turing: L1 に書き込まれるが L2 にも書き込まれる (write-through) L2 キャッシュ L2 DRAM への書き込みは必要なときに行われる DRAM (*) キャッシュの挙動は各 LD/ST 命令にOperatorを付けることで変えられる ( 要 inline PTX) 85

84 GPU の L1/L2 キャッシュは何のため? 参照の局所性空間的局所性 ( ページサイズキャッシュラインサイズ ) 時間的局所性 ( キャッシュが効く主要因はこちら ) 各スレッドの時間的局所性だけではキャッシュを活用できない各スレッドが使えるキャッシュ容量 : L1:64B L2:76B ( 条件 ) 1024スレッド /SM 80 SM L1/SM:64KB L2:6MB 86

85 GPU の L1/L2 キャッシュは何のため? GPUのキャッシュはスレッド間の局所性を利用しているスレッド間の局所性 ( スレッドブロック内 ) を明示的に制御するなら共有メモリその他共有メモリを使わないコード (naïveコード, OpenACC 等 ) Atomicオペレーションの高速化アクセスパターンが不規則で実行前に分からないコードレジスタースピルによる速度低下の緩和 87

86 Atomics throughput (Gops) L2 ATOMICS 性能比較 Volta 最大 2 倍のスループット向上 Pascal Array size (MB) no conflict (P100) no conflict (V100) AtomicAdd (FP32) 256M threads Access pattern: regular, random random (P100) random (V100) 88

87 メモリアクセスパターン Coalesced メモリアクセス同じワープからのメモリアクセスは可能な限り一緒にされる問題 : 各ワープの LD/ST が何個のセクターにアクセスするのかセクターとはメモリアクセスの粒度 ( 大きさ ) セクターサイズは 32B or 64B (*) 以降は 32B として説明 89

88 メモリアクセスパターン各スレッドが連続的に 4B アクセス (int, float) 4 セクター 0 31 Warp メモリアドレス 90

89 メモリアクセスパターン 0 31 Warp 各スレッドが連続的に 8B アクセス (long, double, int2, float2) 8 セクターメモリアドレス 91

90 メモリアクセスパターン 0 31 Warp 各スレッドが 4B アクセス連続ではない 4 セクターメモリアドレス 92

91 メモリアクセスパターン 0 31 Warp 各スレッドが連続的に 4B アクセス but 境界がずれている 5 セクターメモリアドレス 93

92 メモリアクセスパターン多くの場合次のワープが隣接セクターにアクセスするので実質上問題無い 0 31 Warp 各スレッドが連続的に 4B アクセス but 境界がずれている 5 セクター次のWarp L1/L2 ヒットメモリアドレス 94

93 メモリアクセスパターン 0 31 Warp 同じアドレス 1 セクターメモリアドレス 95

94 メモリアクセスパターンこのアクセスパターンは可能な限り避ける必要がある 32B(1 セクター ) の内 4B しか使わない 28B は無駄 0 31 Warp 各スレッドが 4B アクセスストライド 32 セクターメモリアドレス 96

95 メモリアクセスパターンプログラムのアクセスパターンの把握は重要ストライドアクセスになっていないかプロファイラーで確認するもしアクセスパターンが良くなかったら? スレッドへの処理割当てを変える ( 並列化方法の変更 ) データレイアウトを変更する ( 例 : a[x][y] a[y][x] ) ReadとWriteで二律相反になったら ( 例 : 行列転置 ) Writeを優先する大きなデータ型を使う (float float2 float4) 97

96 共有メモリ Turing SM 各SM内にあるスクラッチパッドメモリユーザーが明示的にデータの出し入れを制御できるキャッシュ DRAMと比べて高速なアクセス短遅延: 20-40倍も高速バンド幅: 15倍程度の広帯域どんなときに有効か? 同じスレッドブロック内のスレッド間での高速なデータ送受別スレッドブロック間では使えない頻繁にアクセスされるデータの保管 atomic操作など 98

97 共有メモリ Volta (GV100) Turing (TU102) バンド幅 14 TB/s 8 TB/s サイズ上限 (/ スレッドブロック ) Volta と Turing で異なる点 48, 96 KB 48 KB Volta では 48KB 超の共有メモリを必要とするカーネルも実行できるが Turing では実行できない共有メモリのサイズは設定可能 ( ドライバが適切に選択するので多くの場合設定不要 ) cudafuncsetattribute( kernel, cudafuncattributepreferredsharedmemorycarveout, carveout ); 99

98 共有メモリ基本構造粒度は 4B 32 バンクバンク競合すると性能低下バンク競合って何? 100

99 共有メモリバンク競合無し同じワープ内のスレッドが別バンクにアクセスすればバンク競合は発生しない 101

100 共有メモリバンク競合無し同じワープ内のスレッドが別バンクにアクセスすればバンク競合は発生しない 102

101 共有メモリバンク競合無し同じワープ内のスレッドが別バンクにアクセスすればバンク競合は発生しない 103

102 共有メモリバンク競合無し同じバンクにアクセスしてもそれが同じアドレスであれば性能は低下しない ( マルチキャスト ) 104

103 共有メモリ 2way バンク競合バンクが同じでかつアドレスが異なるとバンク競合が発生 105

104 共有メモリ 2way バンク競合バンクが同じでかつアドレスが異なるとバンク競合が発生 106

105 共有メモリ 3way バンク競合バンクが同じでかつアドレスが異なるとバンク競合が発生 107

106 共有メモリ使用データ型による違い 4B 以下 : char, short, int, float 全 32 スレッドが同時にアクセス 8B: long long, double, int2, float2 2 フェーズ : 最初のフェーズに前半 16 スレッドがアクセス次フェーズに残り 16 スレッドがアクセス 16B: int4, float4, double2 4 フェーズ : 各フェースで 8 スレッドがアクセスバンク競合は各フェーズ内で発生する 108

107 共有メモリ 8B アクセスバンク競合無し 109

108 共有メモリ 8B アクセス 2way バンク競合 110

109 共有メモリ使用例行列転置

110 共有メモリ使用例行列転置例 : 行列サイズ : 32x32 データ型: float スレッドブロック形状: 32x32 (1024スレッド) 共有メモリ実装 : 32x32 形状の共有メモリを宣言 ( 例 : shared float sm[32][32]) 行列ワープ毎に DRAM 上の入力行列を1 行読み出しそれを共有メモリの1 行に書き込みスレッド間で同期 ( syncthreads) ワープ毎に共有メモリ内の入力行列を1 列読み出しそれを出力行列の1 行としてDRAMに書き込みこれで DRAMアクセスは行読み出し / 行書き込みとなり naïve 実装より高速化共有メモリへのアクセスは? 112

111 列共有メモリ使用例行列転置行ワープの共有メモリへの書き込み ( 行アクセス ) バンク競合無しワープの共有メモリの読み出し ( 列アクセス ) 32way バンク競合共有メモリ shared float sm[32][32]) (*) 数字はワープ番号色はバンク番号 113

112 列共有メモリ使用例行列転置行ワープの共有メモリへの書き込み ( 行アクセス ) バンク競合無しワープの共有メモリの読み出し ( 列アクセス ) バンク競合無し共有メモリ shared float sm[32][32+1] パディング (*) 数字はワープ番号色はバンク番号 114

113 共有メモリプログラムを修正する必要はあるが依然として強力なリソース高バンド幅 (Volta: 14TB/s Turing: 8TB/s) 短遅延 Voltaならスレッドブロックあたり96KBまで使うことが可能バンク競合に注意バンク競合の発生状況はプロファイラーで確認できる 115

114 L1キャッシュ Turing SM Pascal Volta/Turing Volta/Turingから L1キャッシュは共有メモリと統合 (Pascalは分離) PascalのL1キャッシュと比べて広バンド幅単遅延バンド幅: Pascal: <3 TB/s Volta: 14 TB/s Turing: 8 TB/s サイズは可変: Volta: KB Turing: 32 or 64 KB 共有メモリのサイズ選択次第 Pascalまでは共有メモリ使用が性能上必要なケースでも Volta/TuringはL1キャッシュが高速なので共有メモリを使わなくても性能が出る 116

115 index = ix + nx * iy; res = coef[0] * in[index]; for (i = 0; i <= RADIUS; i++) { res += coef[i] * (in[index-i] + in[index+i] + in[index-i*nx] + in[index+i*nx]); } out[index] = res; 2D ステンシル共有メモリ vs L1 キャッシュ共有メモリ実装 : スレッドブロック内のスレッドから参照される配列 in の要素を DRAM から読み出し共有メモリに保存配列 in の要素は共有メモリから読み出してステンシル計算を実行 117

116 2D ステンシル共有メモリ実装に対する L1 キャッシュ実装の相対性能 RADIUS=1 103% RADIUS=2 102% 78% 55% Pascal Volta Pascal Volta Pascal では常に共有メモリ実装が高速 Volta では半径が小さい場合は L1 キャッシュ実装の方が高速 118

117 2D ステンシル共有メモリ版に対する L1 キャッシュ版の相対性能 RADIUS=4 94% RADIUS=8 95% RADIUS=16 79% 40% 32% 29% Pascal Volta Pascal Volta Pascal 半径が大きくなると Voltaでも共有メモリ実装が高速しかし Pascalと比べると共有メモリ実装とL1キャッシュ実装の性能差は少ない Volta 119

118 VOLTA と TURING 120

119 For HPC and Deep Learning Tesla V100 (GV100) Volta (cc70) VOLTA AND TURING Pascal から進化多くの機能を共有 Turing (cc75) For Graphics and Deep Learning QUADRO RTX6000 (TU102) Tesla P100 (GP100) QUADRO P6000 (GP102) 121

120

VOLTA ARCHITECTURE DEEP DIVE 成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12

VOLTA ARCHITECTURE DEEP DIVE 成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12 TESLA V100 の概要 Volta Architecture Improved NVLink & HBM2 Volta MPS Improved SIMT Model Tensor Core Most Productive GPU Efficient Bandwidth