VOLTA TENSOR コアで高速かつ高精度に DL モデルをトレーニングする方法成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12

Size: px

Start display at page:

Download "VOLTA TENSOR コアで高速かつ高精度に DL モデルをトレーニングする方法成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12"

ちかこながおか
5 years ago
Views:

1 VOLTA TENSOR コアで高速かつ高精度に DL モデルをトレーニングする方法成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12

2 アジェンダ Tensorコアとトレーニングの概要混合精度 (Tensorコア) で FP32と同等の精度を得る方法ウェイトをFP16とFP32を併用して更新するロススケーリング DLフレームワーク対応状況ウェイトをFP16で更新する 2

3 VOLTA TENSOR コア 4x4 の行列の乗算を 1 サイクルで実行 A 0,0 A 0,1 A 0,2 A 0,3 B 0,0 B 0,1 B 0,2 B 0,3 C 0,0 C 0,1 C 0,2 C 0,3 D = A 1,0 A 1,1 A 1,2 A 1,3 B 1,0 B 1,1 B 1,2 B 1,3 C 1,0 C 1,1 C 1,2 C 1,3 A 2,0 A 2,1 A 2,2 A 2,3 B 2,0 B 2,1 B 2,2 B 2,3 C 2,0 C 2,1 C 2,2 C 2,3 A 3,0 A 3,1 A 3,2 A 3,3 B 3,0 B 3,1 B 3,2 B 3,3 C 3,0 C 3,1 C 3,2 C 3,3 FP16 or FP32 FP16 FP16 FP16 or FP32 D = AB + C 3

4 VOLTA TENSOR コア混合精度演算 Volta Tensor Core FP16 FP16 16bit 16bit FP16 FP32 32bit + FP32 FP32 P100 V100 FP16/Tensorコア 20 TFLOPS 125 TFLOPS FP32 10 TFLOPS 15.6 TFLOPS 4

5 CUDNN: TENSOR コアの実効性能 Pascal FP32 vs. V100 Tensor コア Convolution 層の性能比較 5

6 Resnet50, Imagenet, Batch:128 P100 FP32, V100 FP32 vs. V100 Tensor コア Time per iteration [ms] P100 FP ms V100 FP ms V100 Tensor コア 197 ms 約 3 倍 (*) Chainer 3.0.0rc1+ と CuPy 2.0.0rc1+ を使用 Conv BN Relu Cupy_* Misc. 6

7 Forward トレーニングの流れ Forward 7

8 トレーニングの流れ Backprop Backprop 8

9 トレーニングの流れ Update Update 9

10 Forward トレーニングの流れ Forward 10

11 データ型に基づくトレーニングの分類 FP32, FP16, 混合精度トレーニング入力データ行列演算乗算 (x) 行列演算加算 (+) GPU FP32 FP32 FP32 FP32 FP16 FP16 FP16 FP16 Pascal 混合精度 FP16 FP16 FP32 Volta 11

12 半精度浮動小数点 (FP16) FP16 IEEE754 FP32 単精度 (FP32) と比べると表現可能レンジが非常に狭い 12

13 平均誤差範囲 TENSOR コアの計算精度 FP32 に近い結果 Tensor コアの演算結果は FP16 と比べて FP32 との誤差が小さい FP32 TensorCore FP16 内積長行列 A: 指数分布 (activation) 行列 B: 正規分布 (weight) ( 平均 0.0, 分散 1.0) 内積長 : 万サンプル誤差区間 : 99% 13

14 混合精度 (TENSOR コア ) でトレーニング Q: FP32 でトレーニングしたモデルと同じ精度を得られるのか? A: 可能ですその方法を説明します 14

15 ウェイトの更新には FP16 と FP32 を併用する 15

16 トレーニング (FP16 混合精度 ) ストレージは FP16 W = W λ*δw (FP16) 勾配は小さい重みが更新されない可能性更新消失問題ストレージのデータ型 FP16 FP16 FP16 FP16 16

17 半精度浮動小数点 (FP16) FP16 表現可能範囲が狭い FP32 FP16 の仮数部は 10 ビット =? ? 17

18 ウェイトは FP32 で更新ストレージのデータ型 FP16 FP16 FP16 FP32 FP16 18

19 ウェイトは FP32 で更新 Backprop Weight Update Forward ΔW (FP16) 変換 ΔW (FP32) W = W λ*δw (FP32) W (FP32) 変換 W (FP16) Update は FP32 で計算する FP16の勾配を FP32に変換 FP32のウェイト ( マスターコピー ) を FP32で更新 FP32のウェイトから FP16のウェイトを作成 Q: FP32 で更新すると遅くならないか? 19

20 Update トレーニングの時間比率 Forward Backward トレーニング時間の大部分は Backward と Forward Update の時間は短い FP32 計算によるスピード低下は僅か 20

21 トレーニングの分類トレーニング入力データ行列乗算乗算 (x) 行列乗算加算 (+) ウェイト更新 GPU FP32 FP32 FP32 FP32 FP32 FP16 FP16 FP16 FP16 FP16/FP32 Pascal 混合精度 FP16 FP16 FP32 FP16/FP32 Volta 21

22 混合精度 + ウェイト FP32 更新多くのモデルはこれで収束する FP32 モデルと同等の精度が得られるケースも多い同じソルバー同じハイパーパラメータ同じ学習レートコントロール画像分類 (ImageNet) GoogleNet, VGG-D, Inception v3, ResNet-50 ソルバー : モメンタムSGD 言語モデル機械翻訳 NMT ソルバー : ADAM 22

23 GOOGLENET FP32 の学習カーブと一致 23

24 INCEPTION V1 FP32 の学習カーブと一致 24

25 RESNET-50 FP32 の学習カーブと一致 25

26 CNN ( 画像分類 ) Alexnet, CaffeNet CNN ( 物体検出 ) RNN 混合精度 + ウェイト FP32 更新収束しないケース Multibox SSD (VGG-D): 学習できず Faster R-CNN (VGG-D): 精度低下 map: 69.1% (FP32) 68.5% (Tensorコア) Seq2seq ( アテンション付 ): 収束が遅い biglstm: 途中から発散 Q: 問題は何? 26

27 アクティベーションの勾配 27

28 アクティベーションの勾配のヒストグラム Multibox SSD (VGG-D, FP32) FP32: ゼロ : 67% 非ゼロ : 33% FP16: ゼロ : 94% 非ゼロ : 6% 28

29 アクティベーションの勾配のヒストグラム Multibox SSD (VGG-D, FP32) FP16 で表現可能なレンジがほとんど使われていない 29

30 ロススケーリング 30

31 ロススケーリング問題 : 勾配消失アクティベーションの勾配値は小さいデータ型を FP16 にするとゼロになる解決法 : ロススケーリングロスの値をスケールアップ ( 大きく ) してから Backpropするウェイト更新の直前にウェイトの勾配をスケールダウン ( 小さく ) するスケーリングファクター : 新ハイパーパラメータ? 31

32 スケールアップロススケーリングスケールダウン勾配消失回避 32

33 ロススケーリング ( 例 ) ロスの値を 256 倍効果 : 勾配の値も 256 倍になるアクティベーションの勾配値が FP16 の表現可能域にシフトウェイトの勾配値は FP16 の正規数領域に入る 33

34 ロススケーリングの効果 Alexnet トレーニングモード Top1 (%) Top5 (%) FP FP16 ( スケーリング無し ) FP16 (scaling=1000) Tensorコア (scaling=1000) (*) Nvcaffe-0.16, momentum SGD, 100 epochs, 1024 batch, DGX1 34

35 ロススケーリングの効果 Alexnet ロススケーリング無しロススケーリング有り FP32 FP16 (no scaling) FP32 FP16 (scaling=1000) 35

36 ロススケーリングの効果物体検出トレーニングモード Multibox SSD (map) Facter-RCNN (map) FP % 69.1% Tensor コア ( スケーリング無し ) X 68.5% Tensor コア (scaling=256) 77.1% 69.7% 36

37 SEQ2SEQ NMT: ドイツ語英語 OpenSeq2Seq NMT_ONE model Encoder: 2-layer bi-directional (512 LSTM) Attention: Normalized Bahdanau Decoder: 4-layer (512 LSTM) 37

38 SEQ2SEQ OpenSeq2Seq 単に Tensor コアを使用するだけでは精度が低下ロススケーリング (1024) で FP32 と同程度の精度 fp32 TensorCore TensorCore (s=1024) 38

39 SEQ2SEQ NMT_ONE スケーリングファクター小さくできないか? fp32 TensorCore (s=32k) ロススケーリング使用で FP32 と同程度の精度スケーリングファクター : 32K fp32 TensorCore (s=32k) 39

40 ロス関数変更とラーニングレート調整 Ave Loss Sum Loss LARS (Layer-wise Adaptive Rate Scaling) レイヤー毎に学習率を調整 (*) Yang You, et al., Large Batch Training of Convolutional Networks,

41 SEQ2SEQ NMT_ONE fp32 TensorCore (s=512) Sum Loss と LARS 使用スケーリングファクター : 512 FP32 と同程度の精度 fp32 TensorCore (s=512) 41

42 SEQ2SEQ GNMT-like Encoder: 8-layer bi-directional (1024 LSTM) Attention: GNMT-style normalized Bahdanau Decoder: 8-layer (1024 LSTM) fp32 TensorCore (s=1024) Sum Loss と LARS 使用スケーリングファクター : 1024 FP32 と同程度の精度 fp32 TensorCore (s=1024) (*) Yonghui Wu, et al.: Google s neural machine translation system: Bridging the gap between human and machine translation.,

43 言語モデル 1 Billion Word Language Benchmark BigLSTM 2 x 8192 LSTM, 1024 Projection Vocabulary: 800K words Solver: Adagrad (*) Rafal Jozefowicz, et al.: Exploring the Limits of Language Modeling.,

44 言語モデル BigLSTM: 2 x 8192 LSTM, 1024 projection ロススケーリング無しでは収束せず 44

45 言語モデル BigLSTM: 2 x 8192 LSTM, 1024 projection ロススケーリング (128) で FP32 と同程度の精度 45

46 勾配値の特徴 Activation 勾配の範囲は FP16 の表現可能領域より小さいほうに偏っている最大値は高々 10 程度? オーバフローすることなくスケールアップ可能 ( ~ 1024 倍 ) Weight 重みの勾配 >> Activation の勾配消失しやすいのは Activation の勾配ほぼ全てのモデルで共通の傾向 46

47 VOLTA 混合精度トレーニング FP32 と同じ精度のモデルをトレーニングする方法ストレージ (weights, activation, gradients): FP16 ForwardとBackpropの計算 : Tensorコア Batch Normalization の計算は FP32 (cudnn は FP16 入力 FP32 計算 ) Update の計算 : FP32 (weights は fp16 と fp32 の両方で管理 ) 注意勾配は FP16 で表現できないほど小さくなることがある ( 勾配消失 ) 勾配消失はロススケーリングで解消できる 47

48 DL フレームワークの対応状況 48

49 NVIDIA CAFFE FP16 Tensorコアに完全対応 ForwardとBackward: それぞれデータ型計算型を指定可能 (FP32 or FP16) ウェイト更新 : FP32 更新対応ロススケーリング対応 49

50 NVIDIA CAFFE

51 TENSOR FLOW Tensorコア : TensorFlow 1.4で対応データ型をFP16にすると Tensorコアを使用ウェイト FP32 更新 : 可能 tf.cast(tf.get_variable(..., dtype=tf.float32), tf.float16) ロススケーリング : 可能 scale = 128 grads = [grad / scale for grad in tf.gradients(loss * scale, params)] 51

52 PYTORCH Tensor コア : 対応 FP16 ストレージにすると Tensor コアを使用ウェイト FP32 更新 : 可能 Input = input.cuda().half() model = model.cuda().half() ロススケーリング : 可能 52

53 CHAINER Tensor コア : Chainer V4 で対応予定データ型を FP16 にすると Tensor コア使用 x = F.cast(x, np.float16) FP32 パラメータ更新 : 対応ロススケーリング : 対応 ( 予定 ) optimizer = chinaer.optimizers.sgd() optimizer.use_fp32_update() loss = lossfunc(y, t) loss.backward(loss_scale=1024) 53

54 ウェイトを FP16 で更新できないか? 54

55 ウェイトを FP32 で更新する問題 FP16 と FP32 の 2 種類のデータ型でウェイトを管理する必要があるメモリ使用量の増加 FP16 でウェイトを更新できないか? 55

56 SGD FP16 の問題 : 更新消失 SGD によるウェイト更新 W(t+1) = W(t) λ * ΔW(t) (λ: 学習率 ) FP16 を使うと λ*δw(t) が小さくなりすぎることがある学習初期 : ΔW(t) が非常に小さい (λ<1) 中盤以降 : 学習初期より ΔW(t) は大きくなるが λ は小さくなる 56

57 モメンタム SGD 1. モメンタム計算 : H(t+1) = m * H(t) λ * ΔW(t) (m: モメンタム係数 ) 2. ウェイト更新 : W(t+1) = W(t) + H(t+1) FP16 の場合モメンタム計算 λ * ΔW(t) の減算で更新消失が起きやすい 57

58 モメンタム SGD 1. モメンタム計算 : H(t+1) = m * H(t) λ * ΔW(t) (m: モメンタム係数 ) 2. ウェイト更新 : W(t+1) = W(t) + H(t+1) モメンタム計算再考 H(t+1) = λ*δw(t) + m*h(t) = λ*δw(t) + m*( λ*δw(t-1) + m*h(t-1) ) = λ*δw(t) + m*( λ*δw(t-1) + m*( λ*δw(t-2) + m*h(t-2) ) ) = λ * ( ΔW(t) + m*δw(t-1) + m 2 *ΔW(t-2) + + m k *ΔW(t-k) + ) モメンタムは勾配の蓄積と見なすことができる? 58

59 修正モメンタム SGD FP32 を使わなくても更新消失を回避できる? モメンタムSGD 1. モメンタム計算 : H(t+1) = m * H(t) λ * ΔW(t) 2. ウェイト更新 : W(t+1) = W(t) + H(t+1) こう解釈することも可能 1. モメンタム計算 : G(t+1) = m * G(t) + ΔW(t) 2. ウェイト更新 : W(t+1) = W(t) λ * G(t+1) G(t) は勾配の蓄積なので消失しにくいウェイトは正しく更新される? 59

60 ウェイトも FP16 で更新修正モメンタム SGD AlexNet FP32と同じ精度を達成 60

61 ALEXNET 修正モメンタム SGD トレーニングモード Top1 (%) Top5 (%) FP FP16 ( スケーリング無し ) FP16 (scaling=1000) Tensorコア (scaling=1000) Tensorコア (scale=1000), FP16ウェイト更新

62 INCEPTION-V3 修正モメンタム SGD トレーニングモード Top1 (%) Top5 (%) FP FP16 ( スケーリング無し ) FP16 (scaling=100) FP16 (scale=100), FP16ウェイト更新

63 INCEPTION-V3 修正モメンタム SGD 63

64 RESNET50 修正モメンタム SGD トレーニングモード Top1 (%) Top5 (%) FP FP16 (no scaling) FP16 (no scaling), FP16ウェイト更新 Tensorコア (no scaling), FP16ウェイト更新

65 RESNET50 修正モメンタム SGD Iteration 65

66 まとめ Tensorコア ( 混合精度 ) トレーニング ForwardとBackprop( 計算の大部分 ) はTensorコアで計算するウェイトをFP32で更新する多くのモデルはこれで収束 (FP32と同程度の精度) それ以外もロススケーリング設定でFP32レベルの精度に回復ウェイトも FP16 で更新モメンタム SGD の修正で CNN で FP32 と同等の精度を確認 66

67 LINKS Mixed-Precision Training of Deep Neural Networks, NVIDIA blog post devblogs.nvidia.com/parallelforall/mixed-precision-training-deep-neural-networks/ Training with Mixed Precision, NVIDIA DL SDK doc docs.nvidia.com/deeplearning/sdk/mixed-precision-training/index.html Paulius Micikevicius, et al., Mixed Precision Training arxiv.org/abs/

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

NVIDIA TESLA V100 CUDA 9 のご紹介森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

VOLTA TENSOR コアで 高速かつ高精度に DL モデルをトレーニングする方法 成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12

VOLTA TENSOR コアで高速かつ高精度に DL モデルをトレーニングする方法成瀬彰, シニアデベロッパーテクノロジーエンジニア, 2017/12/12