ムーアの法則後の世界年間のマイクロプロセッサのトレンドトランジスタ数 ( 千単位 ) 年率 1.1 倍シングルスレッド性能年率 1.5 倍 Original data up t

Size: px

Start display at page:

Download "ムーアの法則後の世界年間のマイクロプロセッサのトレンドトランジスタ数 ( 千単位 ) 年率 1.1 倍シングルスレッド性能年率 1.5 倍 Original data up t"

こうたうえや
6 years ago
Views:

1 エヌビディアが加速する AI 革命エヌビディア合同会社エンタープライズマーケティング本部長林憲一 1

ムーアの法則後の世界 10 7 40 年間のマイクロプロセッサのトレンド 10 6 10 5 10 4 トランジスタ数 ( 千単位 ) 年率 1.1 倍 10 3 10 2 シングルスレッド性能年率 1.

2 ムーアの法則後の世界年間のマイクロプロセッサのトレンドトランジスタ数 ( 千単位 ) 年率 1.1 倍シングルスレッド性能年率 1.5 倍 Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte, O. Shacham, K. Olukotun, L. Hammond, and C. Batten New plot and data collected for by K. Rupp 2

3 GPU コンピューティングの登場アプリケーション GPU コンピューティング性能年率 1.5 倍 2025 年までに 1000 倍アルゴリズム 10 5 年率 1.1 倍システム 10 4 CUDA アーキテクチャ 10 3 年率 1.5 倍 10 2 シングルスレッド性能 Original data up to the year 2010 collected and plotted by M. Horowitz, F. Labonte, O. Shacham, K. Olukotun, L. Hammond, and C. Batten New plot and data collected for by K. Rupp 3

4 GPU コンピューティングの登場 7, ,000 1,000, GTC 参加者 5 年で 3 倍 GPU コンピューティング開発者 5 年で 11 倍 1 年間の CUDA ダウンロード数 2016 年 4

5 マシンラーニングの時代 The Master Algorithm Pedro Domingos A Quest for Intelligence Fei-Fei Li 5

6 現代の AI のビッグバン Google Photo Arterys FDA Approved Reinforcement Learning AlphaGo Super Resolution Deep Voice Transfer Learning ImageNet Stanford & NVIDIA Large-scale DNN on GPU NVIDIA BB8 Captioning BRETT Auto Encoders Style Transfer NMT IDSIA CNN on GPU U Toronto AlexNet on GPU Baidu DuLight LSTM Superhuman ASR GAN 6

7 現代 AI のビッグバン 13,000 20,000 $5B 50 億ドル NIPS ICML CVPR ICLR 参加者数 2 年で 2 倍 Udacity での AI プログラム 2 年で 100 倍 AI スタートアップ投資 4 年で 9 倍 7

8 エヌビディアが加速する AI 革命フレームワーク GPU システム GPU AAS HGX-1 NVAIL インターネットサービスヘルスケア DGX-1 NVIDIA ディープラーニング SDK NVIDIA RESEARCH INCEPTION エンタープライズ TESLA 8

9 NVIDIA INCEPTION プログラム 1300 のディープラーニングスタートアップを支援ヘルスケアリテール e テール金融セキュリティプラットフォーム及び API データマネージメント IOT 及び製造自律動作機械サイバー建築開発プラットフォームビジネスインテリジェンス及び可視化 9

10 エンタープライズのための SAP AI SAP から提供される最初の商業的 AI オファリング Brand Impact Service Ticketing Invoice-to-Record アプリケーション DGX-1 と AWS で NVIDIA GPU を利用 10

11 年々複雑さを増すモデル 1.05 垓回の計算量 87 億パラメータ 700 京回の計算量 6000 万パラメータ 2000 京回の計算量 3 億パラメータ 2015 Microsoft ResNet 2016 Baidu Deep Speech Google NMT 11

12 発表 Tesla V100 AI と HPC のための大きな飛躍 Tensor コアを搭載した Volta アーキテクチャ 210 億トランジスタ TSMC 12nm FFN 815mm CUDA コア 7.5 FP64 TFLOPS 15 FP32 TFLOPS 120 Tensor TFLOPS 総レジスタファイル 20MB 16MB キャッシュ 900 GB/s の 16GB HBM2 300 GB/s NVLink 12

13 新開発 Tensor コア CUDA Tensor 演算命令及びデータフォーマット 4x4 行列処理配列 D[FP32] = A[FP16] * B[FP16] + C[FP32] ディープラーニングに最適化アクティベーション入力重み入力出力結果 13

14 発表 Tesla V100 AI と HPC のための大きな飛躍 Tensor コアを搭載した Volta アーキテクチャ Pascal 世代と比較して HPC のための汎用演算性能 1.5 倍ディープラーニングトレーニングのための Tensor 演算性能 12 倍ディープラーニング推論のための Tensor 演算性能 6 倍 14

8x K80 8x P100 K80 8x P100 8x V100 P100 8x V100 64x V100

15 発表 Volta 対応フレームワーク CNN トレーニング (ResNet-50) NCCL 2.0 を利用したマルチノードトレーニング (ResNet-50) LSTM トレーニング ( ニューラル機械翻訳 ) 8x K80 8x P100 K80 8x P100 8x V100 P100 8x V100 64x V100 V 時間時間時間 15

16 発表 Tesla V100 搭載 NVIDIA DGX-1 AI 研究に必須の道具 960 Tensor TFLOPS Tesla V100 8 基 NVLink ハイブリッドキューブ TITAN X で 8 日かかる計算が 8 時間に CPU サーバー 400 台分の性能がワンボックスに 16

17 発表 Tesla V100 搭載 NVIDIA DGX-1 AI 研究に必須の道具 960 Tensor TFLOPS Tesla V100 8 基 NVLink ハイブリッドキューブ TITAN X で 8 日かかる計算が 8 時間に CPU サーバー 400 台分の性能がワンボックスにご注文は : nvidia.com/dgx-1 17

18 発表 NVIDIA DGX ステーションパーソナル DGX 480 Tensor TFLOPS Tesla V100 4 基 NVLink 全結合 3 つの DisplayPort 1500W 水冷 18

19 発表 NVIDIA DGX ステーションパーソナル DGX 480 Tensor TFLOPS Tesla V100 4 基 NVLink 全結合 3 つの DisplayPort 1500W 水冷ご注文は : nvidia.com/dgx-station 19

20 発表ハイパースケール推論のための Tesla V100 Skylake に対して 15~25 倍の推論性能 150W FHHL PCIE 20

21 GPU で加速されたデータセンターの例データセンター全体で300,000 推論 / 秒 CPU 当り 300 推論 / 秒 1000 CPU 1000 CPU 500 ノードノード 3000ドル 150 万ドルノード 500W 250KW 500 ノードの CPU サーバー Tesla V100 によって 1/15に 33 ノードの GPU で加速されたサーバー 21

22 NVIDIA ディープラーニングスタックディープラーニングフレームワークディープラーニングライブラリ NVIDIA cudnn, NCCL, cublas, TensorRT CUDA ドライバオペレーティングシステム GPU システム 22

23 発表 NVIDIA GPU クラウドディープラーニングに最適化された GPU で加速されたクラウドプラットフォーム NVIDIA GPU クラウドコンテナデータセット事前学習済みのモデルのレポジトリ CSP NVDocker のコンテナとして提供フルスタックで最適化常に最新エヌビディアによって完全にテストおよびメンテナンス 7 月にベータ提供 23

24 GPU コンピューティング性能 AMBER 性能 (ns/day) GoogleNet 性能 (i/s) AMBER 16 CUDA cudnn 7 CUDA 9 NCCL AMBER 14 CUDA 5 AMBER 14 CUDA cudnn 6 CUDA 8 NCCL AMBER 12 CUDA cudnn 2 CUDA 6 cudnn 4 CUDA 7 0 K20 K40 K80 P x K80 8x Maxwell DGX-1 DGX-1V

ディープラーニング SDK DRIVE PX NVIDIA ディープラーニング SDK NVIDIA

25 エヌビディアが加速する AI 革命エッジでの AI フレームワーク GPU システム GPU AAS HGX-1 NVAIL インターネットサービスヘルスケア自動車 DGX-1 NVIDIA ディープラーニング SDK DRIVE PX NVIDIA ディープラーニング SDK NVIDIA RESEARCH INCEPTION エンタープライズ AI シティロボット TESLA JETSON TX 25

26 AI が革新するトランスポーテーション年間 4500 億キロ米国では 2 億 5000 万台の車のために 8 億の駐車場ドミノピザ : 一日 100 万個のピザを配達 26

27 NVIDIA DRIVE AI カープラットフォーム 100 TOPS DRIVE PX Xavier Level 4/5 自己位置推定認識 AI パスプランニング 10 TOPS DRIVE PX 2 Parker Level 2/3 コンピュータビジョンライブラリ 1 TOPS CUDA cudnn TensorRT OS 27

28 NVIDIA DRIVE マッピングから運転へコパイロットガーディアンエンジェル 28

29 発表トヨタ自動運転車向けに NVIDIA DRIVE PX を選択 29

30 自動運転のための AI プロセッサ CPU 汎用アーキテクチャ FPGA CUDA GPU Volta Pascal 特定用途アクセラレータ DLA XAVIER 30 TOPS DL 30W カスタム ARM64 CPU 512 コア Volta GPU 10 TOPS DL アクセラレータエネルギー効率 30

31 自動運転のための AI プロセッサ + CPU CUDA GPU Volta 汎用アーキテクチャ特定用途アクセラレータ DLA XAVIER 30 TOPS DL 30W カスタム ARM64 CPU 512 コア Volta GPU 10 TOPS DL アクセラレータエネルギー効率 31

Winograd Input Transform MAC Array 2048 Int8 or 1024 Int16 or 1024 FP16 Output Accumulators Output

32 発表 Xavier DLA オープンソース化 Command Interface Tensor Execution Micro-controller Input DMA (Activations and Weights) Unified 512KB Input Buffer Activations and Weights Sparse Weight Decompression Native Winograd Input Transform MAC Array 2048 Int8 or 1024 Int16 or 1024 FP16 Output Accumulators Output Postprocess or (Activation Function, Pooling etc.) Output DMA Memory Interface アーリーアクセス予定 : 7 月一般リリース予定 : 9 月 32

33 エヌビディアが加速する AI 革命 NVIDIA GPU CLOUD CSPs 全てのクラウドに NVIDIA GPU NVIDIA GPU クラウド Tensor コア TensorRT Xavier DLA オープンソース化 Tesla V100 DGX-1 及び DGX ステーション 33

34 34

Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ 3.7x faster P100 V100 P10

NVIDIA TESLA V100 CUDA 9 のご紹介森野慎也, シニアソリューションアーキテクト (GPU-Computing) NVIDIA Images per Second Images per Second VOLTA: ディープラーニングにおける大きな飛躍 ResNet-50 トレーニング 2.4x faster ResNet-50 推論 TensorRT - 7ms レイテンシ

ムーアの法則後の世界 年間のマイクロプロセッサのトレンド トランジスタ数 ( 千単位 ) 年率 1.1 倍 シングルスレッド性能 年率 1.5 倍 Original data up t

ムーアの法則後の世界年間のマイクロプロセッサのトレンドトランジスタ数 ( 千単位 ) 年率 1.1 倍シングルスレッド性能年率 1.5 倍 Original data up t