VOLTA ARCHITECTURE DEEP DIVE 成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12

Size: px

Start display at page:

Download "VOLTA ARCHITECTURE DEEP DIVE 成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12"

いとはよしくに
4 years ago
Views:

1 VOLTA ARCHITECTURE DEEP DIVE 成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12

2 TESLA V100 の概要 Volta Architecture Improved NVLink & HBM2 Volta MPS Improved SIMT Model Tensor Core Most Productive GPU Efficient Bandwidth Inference Utilization New Algorithms 125 Programmable TFLOPS Deep Learning Deep Learning と HPC 両方に最適な GPU 2

3 Images per Second Images per Second VOLTA DL 性能を大幅に向上トレーニング 2.4x faster インファレンス TensorRT - 7ms Latency 3.7x faster P100 V100 P100 V100 FP32 Tensor コア FP16 Tensor コア (*) DL モデルは ResNet50 3

4 P100 に対する相対性能 VOLTA HPC 性能を大きく向上 HPC アプリケーション性能 System Config Info: 2X Xeon E v4, 2.6GHz, w/ 1X Tesla P100 or V100. V100 measured on pre-production hardware. Summit Supercomputer 200+ PetaFlops ~3,400 Nodes 10 Megawatts 4

QMCPACK RAPTOR SPECFEM XGC 3+EFLOPS Tensor

5 VOLTA 米国トップスパコンのエンジン SUMMIT AI Exascale Today Performance Leadership 200 PF Accelerated Science ACME DIRAC FLASH GTC HACC LSDALTON NAMD 20 PF NUCCOR NWCHEM QMCPACK RAPTOR SPECFEM XGC 3+EFLOPS Tensor Ops 10X Perf Over Titan 5-10X Application Perf Over Titan 5

6 TESLA V100 トランジスタ数 :21B 815 mm 2 80 SM 5120 CUDA コア 640 Tensor コア HBM2 16 GB, 900 GB/s NVLink 300 GB/s *full GV100 chip contains 84 SMs 6

7 GPU ピーク性能比較 : P100 vs v100 P100 V100 性能 UP トレーニング性能 10 TOPS 125 TOPS 12x インファレンス性能 21 TFLOPS 125 TOPS 6x FP64/FP32 5/10 TFLOPS 7.8/15.6 TFLOPS 1.5x HBM2 バンド幅 720 GB/s 900 GB/s 1.2x NVLink バンド幅 160 GB/s 300 GB/s 1.9x L2 キャッシュ 4 MB 6 MB 1.5x L1 キャッシュ 1.3 MB 10 MB 7.7x 7

8 STREAM: Triad- Delivered GB/s HBM2 メモリ使用効率 UP 実効バンド幅 1.5 倍 V100 measured on pre-production hardware. HBM2 stack P100 V100 76% 95% 使用効率 8

9 VOLTA NVLINK P100 V100 リンク数 4 6 バンド幅 / リンク 40 GB/s 50 GB/s トータルバンド幅 160 GB/s 300 GB/s (*) バンド幅は双方向 DGX1V 9

10 NEW SM MICROARCHITECTURE 10

11 VOLTA GV100 SM GV100 FP32ユニット 64 FP64ユニット 32 INT32ユニット 64 Tensorコア 8 レジスタファイル 256 KB 統合 L1 共有メモリ 128 KB Activeスレッド 2048 (*) SM あたり 11

12 VOLTA GV100 SM 生産性の向上命令セットを一新スケジューラを2 倍命令発行機構をシンプルに L1キャッシュの大容量高速化 SIMTモデルの改善テンソル計算の加速最もプログラミングの簡単な SM 12

13 VOLTA TENSOR コア 13

TENSOR コア混合精度行列計算ユニット 4x4 の行列の積和演算を 1 サイクルで計算する性能 (128 演算 / サクル ) 行列の FMA (Fused Multiply-Add) A 0,0 A 0,1 A 0,2 A 0,3 B 0,0 B 0,1 B 0,2 B 0,3 C 0,0 C 0,1 C 0,2 C 0,3 D = A 1,0 A 1,1 A 1,2 A 1,3 B

14 TENSOR コア混合精度行列計算ユニット 4x4 の行列の積和演算を 1 サイクルで計算する性能 (128 演算 / サクル ) 行列の FMA (Fused Multiply-Add) A 0,0 A 0,1 A 0,2 A 0,3 B 0,0 B 0,1 B 0,2 B 0,3 C 0,0 C 0,1 C 0,2 C 0,3 D = A 1,0 A 1,1 A 1,2 A 1,3 B 1,0 B 1,1 B 1,2 B 1,3 C 1,0 C 1,1 C 1,2 C 1,3 A 2,0 A 2,1 A 2,2 A 2,3 B 2,0 B 2,1 B 2,2 B 2,3 C 2,0 C 2,1 C 2,2 C 2,3 A 3,0 A 3,1 A 3,2 A 3,3 B 3,0 B 3,1 B 3,2 B 3,3 C 3,0 C 3,1 C 3,2 C 3,3 FP16 or FP32 FP16 FP16 FP16 or FP32 D = AB + C 14

15 VOLTA TENSOR 演算入力 :FP16 フル精度 FP16 乗算 FP32 加算出力 :FP32 FP16 に変換 more products FP16 FP16 16bit 16bit 32bit + FP32 FP16 FP32 FP16 加算もサポート ( インファレンス用 ) 15

16 TENSOR コアの使われ方 16x16 の行列の積和演算を Warp レベル (32 スレッド ) で協調実行 Warp (32 スレッド ) 32 スレッドで同期 Tensor コアを使用 16x16 行列の行列積を実行 32 スレッドで同期 16

$TENSOR コアの使い方 device void tensor_op_16_16_16( float *d, half *a, half *b, float *c) { wmma::fragment<matrix_a, > Amat;$ wmma::load_matrix_sync(bmat, b, 16); wmma::fill_fragment(cmat, 0.

wmma::load_matrix_sync(bmat, b, 16); wmma::fill_fragment(cmat, 0.

17 TENSOR コアの使い方 device void tensor_op_16_16_16( float *d, half *a, half *b, float *c) { wmma::fragment<matrix_a, > Amat; wmma::fragment<matrix_b, > Bmat; wmma::fragment<matrix_c, > Cmat; wmma::load_matrix_sync(amat, a, 16); wmma::load_matrix_sync(bmat, b, 16); wmma::fill_fragment(cmat, 0.0f); wmma::mma_sync(cmat, Amat, Bmat, Cmat); NVIDIA cublas, cudnn, TensorRT Volta 向けに最適化されたフレームワークライブラリ } wmma::store_matrix_sync(d, Cmat, 16, wmma::row_major); CUDA C++ Warp レベル行列演算テンプレート 17

18 Tensor コア用の行列積アルゴリズムの選択計算型を指定 (Tensor コアの場合は加算の計算精度 ) CUBLAS: TENSOR コアの使い方 cublasgemmex で行列積 cublascreate( &handle ); cublassetmathmode( handle, CUBLAS_TENSOR_OP_MATH ); algo = CUBLAS_GEMM_DFALT_TENSOR_OP; cublasgemmex( handle, transa, transb, m, n, k, alpha, A, CUDA_R_16F, lda, B, CUDA_R_16F, ldb, beta, C, CUDA_R_16F, ldc, CUDA_R_32F, algo ); Tensor コア使用モードを選択入力行列 A,B のデータ型を指定出力行列 C のデータ型を指定 18

19 CUBLAS: TENSOR コアの使い方 cublasgemmex で行列積入力行列 A,B のデータ型出力行列 C のデータ型加算型 FP16 FP16 FP32 ( 標準的な用途?) FP16 FP16 FP16 FP16 で加算 ( インファレンス ) FP16 FP32 FP32 FP32 で出力 FP32 FP32 FP32 FP32 データのまま Tensor コア使用他 API でも使用可 : cublassgemmex, cublashgemm, cublashgemmbatched, cublashgemmstridebatched 19

20 CUBLAS: TENSOR コアの実効性能 P100 FP32 vs. V100 Tensor コア最大 9 倍の性能向上 20

21 TFLOPS CUBLAS: TENSOR コアの実効性能 V100 同士で比較 : FP32 vs. Tensor コア Tensor コア (FP16 加算 ) Tensor コア (FP32 加算 ) FP32 と比べて最大で 6 倍以上の性能 UP (FP32 加算の場合 ) matrix size (M=N=K) FP32 FP16 TensorCore (FP32 add) TensorCore (FP16 add) CUDA cublasgemmex() 使用 21

22 平均 1.2 TENSOR コアの計算精度 FP32 の計算結果に近いアプリケーション依存誤差範囲 Tensor コアの演算結果は FP16 と比べて FP32 との誤差が小さい FP32 TensorCore FP16 内積長行列 A: 指数分布 (activation) 行列 B: 正規分布 (weight) ( 平均 0.0, 分散 1.0) 内積長 : 万サンプル誤差区間 : 99% 22

23 CUDNN: TENSOR コアの使い方 Convolution cudnncreate( &handle ); cudnncreatetensordescriptor( &cudnnidesc ); cudnncreatetensordescriptor( &cudnnodesc ); cudnncreatefilterdescriptor( &cudnnfdesc ); cudnncreateconvolutiondescriptor( &cudnnconvdesc ); cudnnsetconvolutionnddescriptor( cudnnconvdesc, ); cudnnsetconvolutionmathtype( cudnnconvdesc, CUDNN_TENSOR_OP_MATH ); algo = CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM; cudnnconvolutionforward( handle, alpha, cudnnidesc, dev_i, cudnnfdesc, dev_f, cudnnconvdesc, algo, workspace, workspacesize, beta, cudnnodesc, dev_o ); Input Weight Output Tensor コア使用モードを選択 Tensor コア対応の Convolution アルゴリズム選択 23

24 CUDNN: TENSOR コアの使い方 Convolution: Tensor コア対応アルゴリズム Forward w CUDNN_CONVOLUTION_FWD_ALGO_IMPLICIT_PRECOMP_GEMM CUDNN_CONVOLUTION_FWD_ALGO_WINOGRAD_NONFUSED x y BackwardData w CUDNN_CONVOLUTION_BWD_DATA_ALGO_1 CUDNN_CONVOLUTION_BWD_DATA_ALGO_WINOGRAD_NONFUSED dx dy BackwardFilter CUDNN_CONVOLUTION_BWD_FILTER_ALGO_1 CUDNN_CONVOLUTION_BWD_FILTER_ALGO_WINOGRAD_NONFUSED x dw dy 24

25 CUDNN: TENSOR コアの実効性能 Pascal FP32 vs. V100 Tensor コア Convolution 層の性能比較 25

26 INDEPENDENT THREAD SCHEDULING 26

27 VOLTA GV100 SM 生産性の向上命令セットを一新スケジューラを2 倍命令発行機構をシンプルに L1キャッシュの大容量高速化 SIMTモデルの改善テンソル計算の加速最もプログラミングの簡単な SM 27

28 WARP の実装 Pascal まで Program Counter (PC) and Stack (S) Warp(32 スレッド ) 毎に PC は 1 つ 28

29 diverge reconverge PASCAL: WARP 実行モデル if (threadidx.x < 4) { A; パス1 B; } else { X; パス2 Y; } Warp 内で複数パスに分岐した場合一方のパスが完了するまでもう一方のパスは実行されないパス 1 X; Y; パス 2 A; B; Time 29

30 diverge reconverge PASCAL: WARP 実行モデル分岐したパス間の同期は NG if (threadidx.x < 4) { A; syncwarp(); パス1 B; } else { X; syncwarp(); Y; } パス 2 パス 1 A; B; X; Y; パス 2 Time 30

31 スレッド間で通信するプログラム Pascal Lock-Free アルゴリズムであれば OK 他スレッドを待つのは NG 31

32 PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S PC,S WARP の実装 Pascal まで Program Counter (PC) and Stack (S) Warp(32 スレッド ) 毎に PC は 1 つ Volta Convergence Optimizer スレッド毎に PC を管理個別にスケジューリングが可能 32

33 diverge synchronize VOLTA: 拡張 WARP 実行モデル Thread Independent Scheduling 分岐したパス間で同期が可能! if (threadidx.x < 4) { パス1 A; X; syncwarp(); Y; B; } else { X; パス2 syncwarp(); パス1 パス1 Y; } A; B; syncwarp(); パス 2 パス 2 Time ( 注意 ) 同じワープの別スレッドが同じサイクルに別インストラクションの実行は出来ない 33

34 スレッド間で通信するプログラム Pascal Volta Lock-Free アルゴリズムであれば OK 他スレッドを待つのは NG Starvation Free アルゴリズムであれば OK 他スレッドを待っても OK 34

35 STARVATION FREE アルゴリズムの例双方向リンクリスト device void insert_after(node *a, Node *b) { Node *c; lock(a); lock(a->next); c = a->next; a->next = b; b->prev = a; b->next = c; c->prev = b; Doubly-Linked List with Fine Grained Lock a->next A C B c->prev } unlock(c); unlock(a); 35

36 STARVATION FREE アルゴリズムの例双方向リンクリスト device void insert_after(node *a, Node *b) { Node *c; lock(a); lock(a->next); c = a->next; a->next = b; b->prev = a; b->next = c; c->prev = b; Doubly-Linked List with Fine Grained Lock a->next A C B c->prev } unlock(c); unlock(a); *Not shown: lock() implementation 36

37 STARVATION FREE アルゴリズムの例双方向リンクリスト device void insert_after(node *a, Node *b) { Node *c; lock(a); lock(a->next); c = a->next; Doubly-Linked List with Fine Grained Lock A C a->next = b; b->prev = a; b->next = c; c->prev = b; a->next b->prev B b->next c->prev } unlock(c); unlock(a); 37

38 STARVATION FREE アルゴリズムの例双方向リンクリスト device void insert_after(node *a, Node *b) { Node *c; lock(a); lock(a->next); c = a->next; Doubly-Linked List with Fine Grained Lock A C a->next = b; b->prev = a; b->next = c; c->prev = b; a->next b->prev B b->next c->prev } unlock(c); unlock(a); Pascal でこのプログラムを実行するのは危険アルゴリズムを Lock-free に変える必要がある 38

39 STARVATION FREE アルゴリズムの例双方向リンクリスト device void insert_after(node *a, Node *b) { Node *c; lock(a); lock(a->next); c = a->next; Doubly-Linked List with Fine Grained Lock A C a->next = b; b->prev = a; b->next = c; c->prev = b; a->next b->prev B b->next c->prev } unlock(c); unlock(a); Volta は最大 16 万スレッドを同時起動できるのであるスレッドが lock 獲得で停滞しても他のスレッドが処理を進められる 39

40 VOLTA: 拡張 SIMT モデル CPU GPU (Pascal) GPU (Volta) データ並列 SIMD SIMT SIMT スレッド並列 ( タスク並列 ) MIMD SIMT (lock-free) SIMT Pascal までスレッド並列のプログラムはアルゴリズムを lock-free に変更する必要 Volta アルゴリズム変更なく (or 少なく ) GPU で実行可能に 40

41 L1 CACHE AND SHARED MEMORY 41

42 VOLTA GV100 SM 生産性の向上命令セットを一新スケジューラを2 倍命令発行機構をシンプルに L1キャッシュの大容量高速化 SIMTモデルの改善テンソル計算の加速最もプログラミングの簡単な SM 42

43 PASCAL の L1 キャッシュと共有メモリ Pascal SM Load/Store Units 共有メモリ 64 KB 短遅延 L1 キャッシュ 24 KB ストリーミング : キャッシュミスでもノンブロッキング L2 キャッシュ 4 MB 43

44 VOLTA: L1 キャッシュと共有メモリの統合 Pascal SM Load/Store Units Volta SM Load/Store Units 共有メモリ 64 KB 短遅延 L1 キャッシュ and 共有メモリ 128 KB L1 キャッシュ 24 KB ストリーミング L2 キャッシュ 4 MB L2 キャッシュ 6 MB 44

45 VOLTA: L1 キャッシュと共有メモリの統合 Volta: ストリーミング L1 キャッシュ Volta: 共有メモリノンブロッキング短い遅延 4 倍以上のバンド幅 5 倍以上の容量 L1 キャッシュとストレージを共用最大 96KB まで設定可能 ( カーネル毎 ) L1 Volta SM Load/Store Units L1キャッシュ共有メモリ L1 キャッシュ and 共有メモリ 32 KB 128 KB 128 KB 96 KB cudafuncsetattribute( func, cudafuncattributepreferredsharedmemorycarveout, cudasharedmemcarveoutmaxl1 cudasharedmemcarveoutmaxshared ); ); L2 キャッシュ 6 MB 45

46 L1 キャッシュで共有メモリ使用時相応の性能を Volta L1 キャッシュキャッシュ L1 キャッシュ使用時の性能 ( 平均 ) 共有メモリ使用で最適化した場合が基準簡単に使える ( ソースコード変更不要 ) 90% 以上のケースで同等の性能共有メモリスレッド間の協調が必要なとき Atomicsが高速安定した性能 70% 93% Pascal Volta 46

47 Volta: ストリーミング L1 キャッシュ VOLTA: L2 キャッシュの改善 Volta SM Load/Store Units ノンブロッキング短い遅延 4 倍以上のバンド幅 5 倍以上の容量 L1 キャッシュ and 共有メモリ 128 KB Volta: 共有メモリ L1 キャッシュとストレージを共用最大 96KB まで設定可能 ( カーネル毎 ) L2 キャッシュ, 6 MB 47

48 Atomcs throughput (Gops) L2 ATOMICS 性能の改善 Volta 最大 2 倍のスループット向上 Pascal Array size (MiB) no conflict (P100) no conflict (V100) AtomicAdd(FP32) 256M threads アクセスパターン : 規則的, ランダム random (P100) random (V100) 48

49 SCHEDULER 49

50 VOLTA GV100 SM 生産性の向上命令セットを一新スケジューラを2 倍命令発行機構をシンプルに L1キャッシュの大容量高速化 SIMTモデルの改善テンソル計算の加速最もプログラミングの簡単な SM 50

51 SM: PASCALとVOLTAの相違 Volta ワープスケジューラ: 2 4 FP32ユニット/スケジューラ: Pascal

52 PASCAL のスケジューラ Pascal GP100: 1 個のスケジューラに 2 個のディスパッチャー各ディスパッチャーが 16CUDA コアを担当スケジューラは 1 サイクルに 1 回 Warp を選択どちらかのディスパッチャーに渡す各ディスパッチャーは 2 サイクルに 1 回 16CUDA コアに命令を投入投入された命令は 2 サイクル使って 32 スレッドの処理を実行 32 スレッド = 16 CUDA コア x 2 サイクル 52

53 VOLTA のスケジューラ Volta GV100: 1 個のスケジューラに 1 個のディスパッチャー各ディスパッチャーが 16 個の FP32 ユニットと INT ユニットを担当スケジューラは 1 サイクルに 1 回 Warp を選択ディスパッチャーに渡すディスパッチャーは 1 サイクルに 1 回 16 個の FP32 or INT ユニットに命令を投入投入された命令は 2 サイクル使って 32 スレッドの処理を実行 53

54 INT Warp #2 FP32 Warp #1 VOLTA のスケジューラ Volta GV100: 1 個のスケジューラに 1 個のディスパッチャー各ディスパッチャーが 16 個の FP32 ユニットと INT ユニットを担当スケジューラは 1 サイクルに 1 回 Warp を選択ディスパッチャーに渡すディスパッチャーは FP32とINT1の同時実行が可能サイクルに1 回 16 個のFP32 or INTユニットに命令を投入投入された命令は 2 サイクル使って 32 スレッドの処理を実行 54

55 UNIFIED MEMORY 55

56 PASCAL のユニファイドメモリ GPU CPU Unified Memory GPU GPU CPU CPU Page Migration Engine GPU GPU CPU CPU Memory Memory GPU に最適な状態 CPU に最適な状態 56

57 VOLTA のユニファイドメモリ (CPU と PCI で接続 ) GPU CPU Unified Memory GPU GPU CPU CPU Page Migration Engine GPU GPU CPU CPU Memory GPU に最適な状態アクセスカウンタの導入より適切なタイミングで Page Migration Memory CPU に最適な状態 57

58 VOLTA のユニファイドメモリ (CPU と NVLINK で接続 ) GPU CPU Unified Memory GPU GPU CPU CPU Page Migration Engine GPU GPU CPU CPU Memory GPU に最適な状態アクセスカウンタの導入 NVLINK の新機能 (Coherent, ATS, Atomics) Memory CPU に最適な状態 58

ユニファイドメモリの状況少ない労力で高い性能を Performance vs no Unified Memory OpenACC on P100 PGI の OpenACC コンパイラはユニファイドメモリをサポート ( コンパイラオプション ) SPEC ACCEL ベンチマーク 15 個の平均性能 ( データ移動を手動で最適化した場合との比較 ) PCIe: 86% 86%

59 ユニファイドメモリの状況少ない労力で高い性能を Performance vs no Unified Memory OpenACC on P100 PGI の OpenACC コンパイラはユニファイドメモリをサポート ( コンパイラオプション ) SPEC ACCEL ベンチマーク 15 個の平均性能 ( データ移動を手動で最適化した場合との比較 ) PCIe: 86% 86% 明示的にデータを移動する効果 NVLINK: 91% Unified Memory Automatic data movement for allocatables PGI 17.1 Compilers OpenACC SPEC ACCEL 1.1 performance measured March, SPEC and the benchmark name SPEC ACCEL are registered trademarks of the Standard Performance Evaluation Corporation. 59

60 ロードマップ : UNIFIED SYSTEM ALLOCATOR 標準の malloc() でユニファイドメモリが使えるようになる CUDA コード with System Allocator void sortfile(file *fp, int N) { char *data; // Allocate memory using any standard allocator data = (char *) malloc(n * sizeof(char)); fread(data, 1, N, fp); sort<<<...>>>(data,n,1,compare); OS サポートが必要 HMM Linux Kernel Module Linux kernel 4.14 にマージ CPU と GPU 間のデータ移動は透過的に行われる ( ユニファイドメモリと同様 ) use_data(data); } // Free the allocated memory free(data); 60

61 CUDA MULTI-PROCESS SCHEDULING 61

62 GPU 上のマルチプロセスのスケジューリング背景 A B C CPU Processes 時分割スケジューリング GPU 使用時間帯をプロセスに配分あるタイミングで GPU を使用しているプロセスは一つ各プロセスの排他実行を重視マルチプロセスサービス同じ時間帯に複数プロセスの同時 GPU 使用を許す全プロセスで考えたときのスループットを重視 62

63 時分割スケジューリング A B C CPU Processes A GPU Execution Pascal GP100 Timeslice 1 63

64 時分割スケジューリング A B C A B C CPU Processes A B GPU Execution Pascal GP100 Pascal GP100 Timeslice 2 64

65 時分割スケジューリング CPU Processes A B C A B C A B C A Pascal GP100 B Pascal GP100 Pascal GP100 C Timeslice 3 GPU Execution 65

66 時分割スケジューリング CPU Processes A B C A B C A B C A B C Pascal GP100 Pascal GP100 Pascal GP100 Timeslice 1 Timeslice 2 Timeslice 3 GPU Execution 各プロセスの GPU 利用率が低ければ当然 GPU 利用率は低いまま 66

67 PASCAL: マルチプロセスサービス (MPS) A B C CUDA MPS 各プロセスの GPU 使用率は低くても同時に GPU リソースを使用することでトータルで GPU 使用率を高めることができる Software Work Submission CUDA MULTI-PROCESS SERVICE (demon) CPU Processes GPU Execution Default ではオフメモリ保護に制限 ( 他プロセスのメモリを壊す可能性 ) Limited Isolation A B Pascal GP100 C 67

68 VOLTA: マルチプロセスサービス (MPS) Volta で MPS 改善 : ハードウェアでメモリ保護 ( 安全 ) Hardware Accelerated Work Submission A B C CUDA MULTI-PROCESS SERVICE CONTROL CPU Processes GPU Execution カーネル起動遅延の短縮カーネル起動スループットの改善 VOLTA MULTI-PROCESS SERVICE スケジューラー分割による QoS 向上 ( 性能安定 ) Hardware Isolation A B C 対応プロセス数の増加 (Pascal:16 Volta:48) Volta GV100 68

69 Resnet50 Images/sec, 7ms latency VOLTA MPS: インファレンス事例大 Batch サイズを使えないケースでも MPS でスループット向上 60% of perf with batching 7x faster V100 measured on pre-production hardware. Single Volta Client, No Batching, No MPS Multiple Volta Clients, No Batching, Using MPS Volta with Batching System 69

70 TESLA V100 の概要 Volta Architecture Improved NVLink & HBM2 Volta MPS Improved SIMT Model Tensor Core Most Productive GPU Efficient Bandwidth Inference Utilization New Algorithms 125 Programmable TFLOPS Deep Learning Deep Learning と HPC 両方に最適な GPU 70

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

NVIDIA TESLA V100 CUDA 9 のご紹介森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ